CN116630751B - 一种融合信息瓶颈和不确定性感知的可信目标检测方法 - Google Patents
一种融合信息瓶颈和不确定性感知的可信目标检测方法 Download PDFInfo
- Publication number
- CN116630751B CN116630751B CN202310910160.9A CN202310910160A CN116630751B CN 116630751 B CN116630751 B CN 116630751B CN 202310910160 A CN202310910160 A CN 202310910160A CN 116630751 B CN116630751 B CN 116630751B
- Authority
- CN
- China
- Prior art keywords
- uncertainty
- target
- model
- variance
- center point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 98
- 230000008447 perception Effects 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 64
- 230000006870 function Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 238000005259 measurement Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013531 bayesian neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合信息瓶颈和不确定性感知的可信目标检测方法,获取训练样本集,并建模数据噪声服从混合高斯分布;构建一个不确定性感知的可信目标检测模型,并使用期望最大化算法构造融合数据不确定性的损失函数;引入信息瓶颈理论,对损失函数添加信息瓶颈正则化项,并使用帕累托优化自适应加权各损失项,优化模型参数;最后,在测试阶段,开启Dropout功能,对同一测试样本进行多次检测,输出最终检测结果、数据不确定性以及整体的模型不确定性。本发明所述方法能够有效感知目标检测任务中的不确定性作为检测结果的可信度量,从而有效规避了实际应用中由于模型误检带来的风险,并提高了目标检测模型在实际应用中的泛化性和鲁棒性。
Description
技术领域
本发明涉及目标检测技术,特别是一种融合信息瓶颈和不确定性感知的可信目标检测方法。
背景技术
目标检测是计算机视觉中的一个热门任务,基于深度学习的目标检测模型,如Faster R-CNN,YOLO和CenterNet在自动驾驶、缺陷检测等场景中产生了巨大的应用价值。然而,在过去的十年,虽然各种目标检测方法在基准数据集上的性能不断被刷新,但是在实际环境中,由于可能出现训练期间未见过的物体、恶劣的天气环境、不同的光照条件等,导致模型的部署仍然具有挑战。在训练数据中包含每一种场景是不切实际的,因此,能够准确感知环境的不确定性,并提供有关检测结果可信度量对风险敏感领域的目标检测模型至关重要。
现有目标检测模型往往使用softmax函数输出预测的类别概率,并将其称为分类置信度,并将输出的预测框与真实框之间的IOU称为回归置信度。但是上述置信度并不能很好地反映检测结果的可信程度,以分类置信度为例,即使对于错误的检测,现有模型往往也会输出较高的置信度,无法做到“知道自己不知道”。
不确定性估计是衡量检测结果可信程度的有效方法。目标检测任务中的不确定性可以分为数据不确定性和模型不确定性。数据不确定性主要来源于真实数据中的固有噪声,模型不确定性则来源于模型参数的不确定性。有些工作尝试使用贝叶斯神经网络建模模型不确定性,并假设数据噪声服从高斯分布,通过预测高斯分布的方差来感知数据不确定性。然而,现实场景中的噪声通常是复杂的,单一高斯分布往往不能准确地建模真实噪声,导致不确定性估计不准确,不能很好地反映检测结果的可信程度。此外,现有目标检测模型的特征提取器输出特征往往与输入高度相关,输入的微小扰动都可能导致提取特征的显著改变,最终造成错误的检测,影响了实际场景中模型的泛化性和鲁棒性。
发明内容
发明目的:本发明的目的是提供一种融合信息瓶颈和不确定性感知的可信目标检测方法,从而提高目标检测模型在环境和噪声复杂多变场景下的泛化性和鲁棒性。
技术方案:本发明所述的一种融合信息瓶颈和不确定性感知的可信目标检测方法,包括以下步骤:
S1:获取训练样本集:收集带标注的图像数据,并构建目标中心点热图用于训练。
S2:建模训练数据噪声服从混合高斯分布,所述的噪声包括目标中心点热图噪声和目标检测框宽高噪声。
在实际应用中,数据中存在的复杂噪声往往导致目标检测性能不佳。为了应对这一挑战,设计模型能够感知由噪声导致的数据不确定性,可以降低模型对于噪声的敏感度,提高模型的鲁棒性。但是现有方法大多建模噪声服从单一高斯分布,不能拟合现实场景中的复杂噪声。因此,为了提高模型感知数据不确定性的能力,进而提高目标检测模型的鲁棒性,有必要建模数据噪声服从混合高斯分布,具体步骤如下:
S2.1:本发明将CenterNet目标检测模型作为基线方法,在CenterNet中,分类任务本质为回归c个通道的标签热图矩阵对应各个像素点的数值,像素点数值为0到1之间的浮点数,c为目标检测总类别数。因此定义Y=[y1,y2,...,yn]T为热图对应的列向量,为噪声向量,其中n为热图矩阵包含的像素个数。然后建模噪声/>服从均值为零,方差为/>的混合高斯分布:
式中,表示热图第c个通道中(x,y)坐标像素值对应的噪声,/>表示/>由第k个高斯分布生成的权重概率。则噪声向量/>的似然函数可以写为:
S2.2:建模目标p对应的检测框宽高噪声e pw ,e ph 分别服从均值为零方差为和/>的混合高斯分布,噪音e pw ,e ph 表达式分别如下:
;
;
式中, 表示e pw 由第k个均值为0方差为/>的高斯分布生成的权重概率,表示e ph 由第k个均值为0方差为/>的高斯分布生成的权重概率。
因此图像中所有检测目标对应噪声e w 、e h 的似然函数为:
S3:构建特征提取器、不确定性感知的目标分类头、不确定性感知的检测框宽高回归头以及目标中心点偏置头。
S3.1:构建特征提取器r(X)获取输入图像X的多尺度表征Z。
S3.2:构建目标中心点分类头f xyc (Z),包含多个2维卷积层、3维卷积层与Dropout层,其与标签热图像素y xyc 满足,即标签热图y xyc 服从如下混合高斯分布:
由于标签热图中各个像素的噪声不同,为了能够捕获依赖于各像素点的异质方差以及权重概率/>,设计目标分类头在输出预测均值fxyc的同时,输出预测方差,以及预测权重概率/>,并在权重概率输出头添加softmax层,保证输出权重概率/>,此外,实际训练目标分类头预测对数方差,即/>,从而保证数值稳定。
S3.3:构建目标检测框宽高回归头g p (Z),包含多个2维卷积层、3维卷积层与Dropout层,其与检测框宽高w p ,h p 满足,其中/>,,g p (Z)输出g p 为预测的宽高列向量;假设目标检测框宽高之间相互独立,则:
,/>
为了获取依赖于各目标中心点p的异质方差以及权重概率/>,与分类头类似,构建目标检测框宽高回归头输出预测宽高均值g p 的同时,输出对数方差向量/>以及权重概率向量/>,其中/>,/>。
S3.4:构建目标中心点偏置头O(Z),包含多个2维卷积层,用于预测热图中目标中心点p映射回原图中心点所对应的偏置误差,从而构造目标中心点偏置预测损失L off :
;
式中,,R为热图对应原图的下采样率,N为热图中目标个数。
S4:使用期望最大化算法构造融合数据不确定性的损失函数,所述的损失函数包括目标分类损失函数和检测框宽高损失函数。
由于假设数据噪声服从含有隐变量的混合高斯分布,相比于假设其服从单一高斯分布,无法直接使用极大似然估计对分布参数进行求解,因此本发明使用期望最大化算法对分布参数进行求解,并构造融合数据不确定性的损失函数,包含以下步骤:
S4.1:求解分类任务中的数据不确定性,构造融合数据不确定性的目标中心点分类损失。首先,热图像素yxyc服从如下对数边际似然:
利用期望最大化算法,f xyc ,分两步进行迭代优化:首先,计算后验分布/>,zxyc为参数为/>的多项分布。然后,令变分分布,计算分类任务的证据下界:
参考focal loss,构造如下分类损失函数Lpoint:
;
式中,ELBOpoint为融合数据不确定性的变分证据下界,为超参数。上述损失函数可以利用估计的方差反映数据的不确定性,并采用一种自适应加权的方法,为不同的像素赋予不同权重,这使得模型对噪声数据的预测更加鲁棒。
S4.2:求解回归任务中的数据不确定性,构造融合数据不确定性的目标检测框宽高回归损失。首先,目标检测框宽高,其对数边际似然如下:
同样使用期望最大化算法进行求解,给出回归任务的损失函数Lsize:
;
其中为wp属于第k个高斯分布的后验概率。
S5:引入信息瓶颈理论,对损失函数添加信息瓶颈正则化项,压缩特征提取器提取的表征Z。设计特征提取器r(X)输出分为两部分,其中一部分为预测表征Z服从的高斯分布均值,另一部分为过softplus函数转换后的方差,然后使用重参数化技巧从均值为0、方差为1的多元高斯分布中采样,最后经过放缩平移得到表征Z;引入信息瓶颈之后,构建添加信息瓶颈正则化项的可信目标检测模型总损失函数:
;
式中,为信息瓶颈正则化项,/>为表征Z的后验分布, q(Z)为变分近似,/>为惩罚强度。
S6:使用帕累托优化理论自适应加权各损失项,通过多梯度下降算法更新模型参数:
本发明作为一个多目标学习问题,主要包含以下损失项L point ,L size ,L off ,不同检测头的学习目标存在显著的差异,但由于各检测头所需特征都来自于同一特征提取器,这使得各个检测头所需特征会存在不同的需求倾向,多个目标之间可能存在冲突。为了解决多目标冲突导致模型参数优化困难的问题,本发明依据帕累托优化理论,使用了一种多梯度下降优化算法,分别对模型各目标特定参数与共享参数/>进行参数更新,首先求解各损失项权重/>:
然后对各损失项L point ,L size ,L off 进行动态加权,最后实现模型参数的更新优化。
S7:模型推理阶段开启Dropout功能,使得每次预测使用不同的模型参数,得到不同的预测结果,从而计算分类任务中的数据不确定性,回归任务中的数据不确定性和整体的模型不确定性,作为模型识别结果的可信度量。
由于数据不确定性不能很好地用来辨别未知类别数据,因此本发明使用MC-Dropout来估计整体的模型不确定性。为此,设计分类头以及回归头引入Dropout功能,并在推理阶段保持打开。在推理阶段,对于同一测试样本,进行T次预测,分类任务中的数据不确定性可以近似为T次预测目标中心点p的像素值所对应的按权重概率加权后的方差均值:
回归任务中的数据不确定性可以近似为T次预测目标中心点p的检测框宽高对应的按权重概率加权后的方差均值:
为了计算整体的模型不确定性,首先分类任务对应的模型不确定性可以近似为:
其中f p,t 代表第t次预测的热力图目标中心点p对应的像素值。回归任务对应的模型不确定性可以近似为:
其中g pw,t 代表第t次预测的热力图目标中心点p对应的宽度。融合两个不确定之后,关于目标p的整体模型不确定性为:
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种融合信息瓶颈和不确定性感知的可信目标检测方法。
一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种融合信息瓶颈和不确定性感知的可信目标检测方法。
有益效果:与现有技术相比,本发明具有如下优点:本发明所述方法能够有效感知目标检测任务中的不确定性作为检测结果的可信度量,从而有效规避了实际应用中由于模型误检带来的风险,并提高了目标检测模型在实际应用中的泛化性和鲁棒性。
附图说明
图1是本发明所述方法的整体流程图;
图2是本发明所述方法的模型架构图;
图3是本发明所述方法的特征提取网络结构图;
图4是本发明所述方法的目标分类头结构图;
图5是本发明所述方法的检测框宽高回归头结构图;
图6是本发明所述方法的目标中心点偏置头结构图;
图7是本发明所述方法在实际应用中的最终效果图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,一种融合不确定性感知和信息瓶颈目标检测方法,包括以下步骤:
S1:获取训练样本集,收集带标注的图像数据,并构建目标中心点热图用于训练:
本发明将基于热图的CenterNet目标检测模型作为基线方法,首先,获取具有目标检测框标注的图像作为训练数据,其中W和H分别代表图像的宽和高,3为RGB通道数。目标中心点/>,(x 1 ,y 1 ),(x 2 ,y 2 )分别对应目标检测框左上角和右下角坐标,检测框大小/>,由目标检测框的宽高决定。然后,构建目标中心点热力图/>作为模型预测的标签图,R表示热图对应原图的下采样率,C为检测类别数量,使用y xyc 表示热图Y中第c个通道对应的(x,y)坐标像素值,原图目标中心点p对应热图上的中心点/>。此外,额外构建各目标中心点偏移量/>,用于补偿由关键点热图缩放所带来的偏置误差。
S2:建模训练数据中噪声服从混合高斯分布,包括目标中心点热图噪声以及目标检测框框宽高噪声:
S2.1:在基于热图的CenterNet目标检测模型中,分类任务本质为回归具有c个通道的标签热图矩阵对应各个像素点的数值,像素点数值为0到1之间的浮点数。因此定义为热图Y对应的列向量,/>为噪声向量,其中,为热图矩阵包含的像素个数。然后,建模噪声/>服从均值为零,方差为/>的混合高斯分布:
其中表示/>由第k个高斯分布生成的概率,则噪声向量/>的似然函数可以写为:
S2.2:建模目标p对应的检测框宽高噪声e pw ,e ph 分别服从均值为零方差为和/>的混合高斯分布,噪音e pw ,e ph 表达式分别如下:
;
;
式中, 表示epw由第k个均值为0方差为/>的高斯分布生成的权重概率,/>表示eph由第k个均值为0方差为/>的高斯分布生成的权重概率。
因此图像中所有检测目标对应噪声ew、eh的似然函数为:
S3:构建特征提取器,不确定性感知的目标中心点分类头,不确定性感知的检测框宽高回归头以及目标中心点偏置头,如图2所示,包含如下步骤:
S3.1:参见图3,构建特征提取器r(X)获取输入图像X的多尺度表征Z。
S3.2:参见图4,构建目标中心点分类头f xyc (Z),由两个2维卷积与3维卷积层拼接而成,其中第一个2维卷积层后添加批标准化(BN)与ReLU激活函数,第二个2维卷积层与第一个3维卷积层后均添加Dropout层。f xyc (Z)与标签热图yxyc满足,即标签热图y xyc 服从如下混合高斯分布:
整张热图矩阵Y的似然函数可以写为:
由于标签热图中各个像素的噪声不同,为了能够捕获依赖于各像素点的异质方差以及权重概率/>,设计目标分类头在输出预测均值f xyc 的同时,输出预测方差,以及预测权重概率/>,并在权重概率输出头添加softmax层,保证输出权重概率/>。此外,实际训练目标分类头预测对数方差,即/>,从而保证数值稳定。
S3.3:参见图5,设计检测框宽高回归头g p (Z),其结构与目标分类头相同,只有预测热图中各目标中心点p位置对应的检测框宽高参与训练。g p (Z)与检测框宽高wp,hp满足,其中/>,/>,g p (Z)输出g p 为预测的宽高列向量。假设目标检测框宽高之间相互独立,则
为了获取异质方差以及权重概率,与分类头类似,设计检测框宽高回归头输出预测宽高均值g p 的同时,输出对数方差向量以及权重概率向量/>,其中,/>。
S3.4:构建目标中心点偏置头O(Z),如图6所示,其由两个2维卷积层构成,其中第一个卷积层后添加批标准化(BN)与ReLU激活函数,且与检测框宽高回归头一样,
只输出预测热图中目标中心点p映射回原图中心点所对应的偏置误差,据此构建目标中心点偏置预测损失Loff:
其中,R为热图对应原图的下采样率,N为热力图中目标个数。
S4.使用期望最大化算法构造融合数据不确定性的损失函数,包含以下步骤:
S4.1:求解分类任务中的数据不确定性,构造融合数据不确定的目标中心点分类损失。首先,热图像素y xyc 服从如下对数边际似然:
根据期望最大化算法,f xyc ,可以分两步进行迭代优化:
E步:固定参数,计算后验分布,即
其中zxyc是参数为的多项分布,/>定义了y xyc 属于第k个高斯分布的后验概率。
M步:令变分分布,计算分类任务的证据下界ELBOpoint:
参数估计可以转化为如下优化问题,分别优化求解预测热图像素值对应混合高斯分布方差以及权重概率。参考focal loss,构造如下分类损失函数:
其中,为超参数。相比于直接预测热图像素值,引入数据不确定性感知后的损失函数可以利用估计的方差反应数据的不确定性,并采用一种自适应加权的方法,为不同的像素点赋予不同权重,这使得模型对噪声数据的预测更加鲁棒,因为模型学到具有高数据不确定性的像素对于损失函数的影响较小。
S4.2:求解回归任务中的数据不确定性,构造融合数据不确定性的检测框宽高回归损失。首先,目标检测框宽高,其对数边际似然如下:
同样使用期望最大化算法进行求解,推导过程与分类任务类似,直接给出回归任务的损失函数:
其中,/>定义了wp属于第k个高斯分布的后验概率:
S5:引入信息瓶颈理论,对损失函数添加信息瓶颈正则化项,压缩特征提取器提取的表征Z,信息瓶颈的目标函数如下式:
其中,I(,)表示两个随机变量之间的互信息。最大化LI可以使得学到表征Z与输出Y互信息最大,同时表征Z与输入X互信息最小。这相当于在保持学习表征对输出预测的同时,尽可能压缩表征使其与输入独立,从而保证提取表征更加本质,具有更好的泛化性,为控制压缩程度的参数。但是由于变量通常是高维的,并且分布未知,因此互信息通常无法直接计算。本发明采用近似的方法,将信息瓶颈引入目标检测模型,并融合不确定性感知从而构建了各损失项:
I(Y,Z)为下游预测与提取表征之间的互信息,最大化二者之间的互信息可以近似为最小化分类以及回归损失,从而优化提取表征Z与输出密切相关。而I(X,Z)可以通过变分推断进行近似求解:
为I(X,Z)的上界。因此,最小化I(X,Z)可以通过最小化上界来近似。为此设计特征提取器r(X)输出分为两部分,如图3所示,其中一部分作为预测表征Z服从的高斯分布均值,另一部分为过softplus函数转换后的方差,然后使用重参数化技巧从均值为0、方差为1的多元高斯分布中采样,最后经过放缩平移得到表征。引入信息瓶颈之后,构建添加信息瓶颈正则化项的目标检测模型总损失函数:
其中,为信息瓶颈正则化项,/>为表征Z的后验分布, q(Z)为变分近似,/>为惩罚强度,L point ,L size ,L off 分别为表示基于表征Z的目标分类损失,检测框宽高回归损失以及中心点偏置损失。
S6:在训练过程中,依据帕累托优化理论平衡各损失项,并通过多梯度下降算法分别对各学习目标特定模型参数与共享模型参数进行更新:
本发明依据帕累托优化理论,使用一种多梯度下降算法优化模型参数。该算法以Karush-Kuhn-Tucker(KKT)条件作为模型参数最优的必要条件。针对多目标学习模型的参数,KKT条件可以解释如下:
(a)存在且满足/>,使得/>
(b)对于所有目标t,
其中和/>分别代表学习目标共享的模型参数以及学习目标特定的模型参数;为各目标损失的动态权重;T表示模型学习目标数目;/>是第t个学习目标的损失项。为满足KKT条件,本发明分别优化目标特定的模型参数与共享参数,具体步骤如下:
S6.1:优化各检测头的参数:
本发明依据损失函数L point ,L size ,L off 分别对各目标特定模型参数进行梯度下降完成参数的更新优化。
S6.2:优化特征提取器的参数:
本发明依据KKT条件,先求解各目标损失对于多目标共享的特征提取器参数的导数/>,并构建下列最优化问题:
之后再求解该最优化问题获取各目标损失权重。最后依据求解得到的目标损失权重/>完成各损失项L point ,L size ,L off 的动态加权,并将总损失用于特征提取器参数/>的反向传播以完成参数的更新。
S7:模型推理阶段开启Dropout功能,使得每次预测使用不同的模型参数,得到不同的预测结果,从而计算分类任务中的数据不确定性,回归任务中的数据不确定性和整体的模型不确定性,作为模型识别结果的可信度量。
在推理阶段,对于同一测试样本,进行T次预测,分类任务中的数据不确定性可以近似为T次预测目标中心点p像素值对应的按权重概率加权后的方差均值,如图7所示,在最终检测效果图中使用目标中心点p坐标位置的圆圈大小来反映分类任务的数据不确定性高低:
回归任务中的数据不确定性可以近似为T次预测检测框宽高对应的按权重概率加权后的方差均值,如图7所示,在最终检测效果图中使用目标中心点p对应的实线检测框作为最终输出结果,其周围的虚线检测框大小反映回归任务的数据不确定性高低:
为了计算整体的模型不确定性,首先分类任务对应的模型不确定性可以近似为:
/>
其中f p,t 代表第t次预测的热力图目标中心点p对应的像素值。回归任务对应的模型不确定性可以近似为:
其中g pw,t 代表第t次预测的热力图目标中心点p对应的宽度。融合两个不确定之后,关于目标p的整体模型不确定性为:
在最终检测效果图7中,如果目标p的整体模型不确定性大于设置的阈值,则在检测框中标注其为未知类别。
Claims (6)
1.一种融合信息瓶颈和不确定性感知的可信目标检测方法,其特征在于,包括以下步骤:
S1:获取训练样本集:收集带标注的图像数据,并构建目标中心点热图用于训练;
S2:建模训练数据噪声服从混合高斯分布;
S2.1:建模标签热图Y中噪声服从均值为零方差为/>的混合高斯分布:
;
式中,表示热图第c个通道中(x,y)坐标像素值对应的噪声,/>表示/>由第k个均值为0方差为/>的高斯分布生成的权重概率;
S2.2:建模目标p对应的检测框宽高噪声服从均值为零、方差分别为/>和/>的混合高斯分布:
;
;
式中, 表示/>由第k个均值为0方差为/>的高斯分布生成的权重概率,/>表示由第k个均值为0方差为/>的高斯分布生成的权重概率;
S3:构建特征提取器、不确定性感知的目标分类头、不确定性感知的检测框宽高回归头以及目标中心点偏置头;
S3.1:构建特征提取器r(X)获取输入图像X的多尺度表征Z;
S3.2:构建目标中心点分类头f xyc (Z),其与标签热图像素y xyc 满足,即:
;
设计目标分类头在输出预测均值f xyc 的同时,输出预测方差,以及预测权重概率/>;
S3.3:构建目标检测框宽高回归头,其与检测框宽高/>满足/>,其中/>,/>,/>输出/>为预测的宽高列向量;假设目标检测框宽高之间相互独立,则:
,/>;
构建目标检测框宽高回归头输出预测宽高均值的同时,输出方差向量/>以及权重概率向量/>,其中/>,/>;
S3.4:构建目标中心点偏置头,预测热图中目标中心点映射回原图中心点所对应的偏置误差,并构建目标中心点偏置预测损失L off :
;
式中,,R为热图对应原图的下采样率,p为原图目标中心点,N为热图中目标个数;
S4:使用期望最大化算法构造融合数据不确定性的损失函数;
S4.1:使用期望最大化算法构造融合数据不确定的目标中心点分类损失L point :
;
式中,ELBO point 为融合数据不确定性的变分证据下界,为超参数;
S4.2:使用期望最大化算法构造融合数据不确定的检测框宽高回归损失L size :
;
其中为w p 属于第k个高斯分布的后验概率;
S5:引入信息瓶颈理论,对损失函数添加信息瓶颈正则化项;
设计特征提取器r(X)输出分为两部分,其中一部分为预测表征Z服从的高斯分布均值,另一部分为过softplus函数转换后的方差,然后使用重参数化技巧从均值为0、方差为1的多元高斯分布中采样,最后经过放缩平移得到表征Z;引入信息瓶颈之后,构建添加信息瓶颈正则化项的可信目标检测模型总损失函数:
;
式中,为信息瓶颈正则化项,/>为表征Z的后验分布,q(Z)为变分近似,/>为惩罚强度;
S6:使用帕累托优化理论自适应加权各损失项,通过多梯度下降算法更新模型参数;
S7:测试阶段,打开Dropout功能,对同一测试样本进行多次检测,输出检测结果、数据不确定性以及整体的模型不确定性作为检测结果的可信度量。
2.根据权利要求1所述的一种融合信息瓶颈和不确定性感知的可信目标检测方法,其特征在于,步骤S2中所述的噪声包括目标中心点热图噪声和目标检测框宽高噪声。
3.根据权利要求1所述的一种融合信息瓶颈和不确定性感知的可信目标检测方法,其特征在于,步骤S4中所述的损失函数包括目标分类损失函数和检测框宽高损失函数。
4.根据权利要求1所述的一种融合信息瓶颈和不确定性感知的可信目标检测方法,其特征在于,所述步骤S7具体为:模型推理阶段开启Dropout功能,使得每次预测使用不同的模型参数,得到不同的预测结果,多次预测结果均值的方差作为整体模型不确定性估计,多次预测目标中心点像素值对应的方差均值作为分类任务中的数据不确定性,多次预测目标中心点检测框宽高对应的方差均值作为回归任务中的数据不确定性,不确定性反映了模型检测结果的可信度量。
5.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的一种融合信息瓶颈和不确定性感知的可信目标检测方法。
6.一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的一种融合信息瓶颈和不确定性感知的可信目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310910160.9A CN116630751B (zh) | 2023-07-24 | 2023-07-24 | 一种融合信息瓶颈和不确定性感知的可信目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310910160.9A CN116630751B (zh) | 2023-07-24 | 2023-07-24 | 一种融合信息瓶颈和不确定性感知的可信目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116630751A CN116630751A (zh) | 2023-08-22 |
CN116630751B true CN116630751B (zh) | 2023-10-31 |
Family
ID=87592499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310910160.9A Active CN116630751B (zh) | 2023-07-24 | 2023-07-24 | 一种融合信息瓶颈和不确定性感知的可信目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630751B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723674A (zh) * | 2020-05-26 | 2020-09-29 | 河海大学 | 基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法 |
WO2021007984A1 (zh) * | 2019-07-18 | 2021-01-21 | 深圳大学 | 基于tsk模糊分类器的目标跟踪方法、装置及存储介质 |
CN113705583A (zh) * | 2021-08-16 | 2021-11-26 | 南京莱斯电子设备有限公司 | 一种基于卷积神经网络模型的目标检测识别方法 |
CN113822335A (zh) * | 2021-08-20 | 2021-12-21 | 杭州电子科技大学 | 基于gpb1-gm-phd的序贯融合目标跟踪方法 |
CN114092472A (zh) * | 2022-01-19 | 2022-02-25 | 宁波海棠信息技术有限公司 | 一种缺陷检测中不确定样本的检测方法、装置及介质 |
CN114821022A (zh) * | 2022-06-27 | 2022-07-29 | 中国电子科技集团公司第二十八研究所 | 融合主观逻辑和不确定性分布建模的可信目标检测方法 |
CN115376101A (zh) * | 2022-08-25 | 2022-11-22 | 天津大学 | 一种面向自动驾驶环境感知的增量式学习方法和系统 |
CN115661500A (zh) * | 2022-12-27 | 2023-01-31 | 南京邮电大学 | 基于二阶分布及不确定性感知聚类融合的目标检测方法 |
CN115661193A (zh) * | 2022-09-15 | 2023-01-31 | 山东师范大学 | 基于时间上下文和信息瓶颈的超声运动跟踪方法及系统 |
WO2023040068A1 (zh) * | 2021-09-16 | 2023-03-23 | 惠州市德赛西威汽车电子股份有限公司 | 感知模型训练方法、基于感知模型的场景感知方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200074339A1 (en) * | 2013-12-11 | 2020-03-05 | U.S. Government as represented by Secretary of the Air Force | Fano-Based Information Theoretic Method (FBIT) for Design and Optimization of Nonlinear Systems |
-
2023
- 2023-07-24 CN CN202310910160.9A patent/CN116630751B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021007984A1 (zh) * | 2019-07-18 | 2021-01-21 | 深圳大学 | 基于tsk模糊分类器的目标跟踪方法、装置及存储介质 |
CN111723674A (zh) * | 2020-05-26 | 2020-09-29 | 河海大学 | 基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法 |
CN113705583A (zh) * | 2021-08-16 | 2021-11-26 | 南京莱斯电子设备有限公司 | 一种基于卷积神经网络模型的目标检测识别方法 |
CN113822335A (zh) * | 2021-08-20 | 2021-12-21 | 杭州电子科技大学 | 基于gpb1-gm-phd的序贯融合目标跟踪方法 |
WO2023040068A1 (zh) * | 2021-09-16 | 2023-03-23 | 惠州市德赛西威汽车电子股份有限公司 | 感知模型训练方法、基于感知模型的场景感知方法 |
CN114092472A (zh) * | 2022-01-19 | 2022-02-25 | 宁波海棠信息技术有限公司 | 一种缺陷检测中不确定样本的检测方法、装置及介质 |
CN114821022A (zh) * | 2022-06-27 | 2022-07-29 | 中国电子科技集团公司第二十八研究所 | 融合主观逻辑和不确定性分布建模的可信目标检测方法 |
CN115376101A (zh) * | 2022-08-25 | 2022-11-22 | 天津大学 | 一种面向自动驾驶环境感知的增量式学习方法和系统 |
CN115661193A (zh) * | 2022-09-15 | 2023-01-31 | 山东师范大学 | 基于时间上下文和信息瓶颈的超声运动跟踪方法及系统 |
CN115661500A (zh) * | 2022-12-27 | 2023-01-31 | 南京邮电大学 | 基于二阶分布及不确定性感知聚类融合的目标检测方法 |
Non-Patent Citations (5)
Title |
---|
Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving;Jiwoong Choi等;《ICCV 2019》;第502-511页 * |
一种改进的基于混合高斯模型的运动目标检测方法;董小舒 等;《应用光学》;第33卷(第5期);第877-883页 * |
基于自注意力机制增强的深度学习图像压缩;展亚南 等;《控制工程》;第29卷(第3期);第536-541页 * |
基于视频的运动目标检测跟踪算法研究;李媛;《中国优秀硕士学位论文全文数据库 信息科技辑》(第3期);第I138-730页 * |
融合检测技术的孪生网络跟踪算法综述;张津浦 等;《红外与激光工程》;第51卷(第10期);第318-331页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116630751A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823429B2 (en) | Method, system and device for difference automatic calibration in cross modal target detection | |
CN106682697B (zh) | 一种基于卷积神经网络的端到端物体检测方法 | |
CN108229267B (zh) | 对象属性检测、神经网络训练、区域检测方法和装置 | |
US10318848B2 (en) | Methods for object localization and image classification | |
EP3620990A1 (en) | Capturing network dynamics using dynamic graph representation learning | |
CN111476302A (zh) | 基于深度强化学习的Faster-RCNN目标物体检测方法 | |
US11468266B2 (en) | Target identification in large image data | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN113052295B (zh) | 一种神经网络的训练方法、物体检测方法、装置及设备 | |
CN114842343A (zh) | 一种基于ViT的航空图像识别方法 | |
CN114511710A (zh) | 一种基于卷积神经网络的图像目标检测方法 | |
CN112906816A (zh) | 基于光微分与双通道神经网络的目标检测方法和装置 | |
CN113609895A (zh) | 基于改进Yolov3的获取道路交通信息方法 | |
CN113569726B (zh) | 一种联合自动数据增广和损失函数搜索的行人检测方法 | |
CN113378638B (zh) | 基于人体关节点检测和d-gru网络的轮机员异常行为识别方法 | |
CN116630751B (zh) | 一种融合信息瓶颈和不确定性感知的可信目标检测方法 | |
CN112418149A (zh) | 一种基于深卷积神经网络的异常行为检测方法 | |
CN114627397A (zh) | 行为识别模型构建方法以及行为识别方法 | |
CN117172355A (zh) | 融合时空粒度上下文神经网络的海表温度预测方法 | |
Kong et al. | Calib3d: Calibrating model preferences for reliable 3d scene understanding | |
CN114998330B (zh) | 无监督的晶圆缺陷检测方法、装置、设备及存储介质 | |
CN116977256A (zh) | 缺陷检测模型的训练方法、装置、设备及存储介质 | |
CN111242017A (zh) | 一种多标线的路面裂缝识别方法、装置、设备及存储介质 | |
CN114863201A (zh) | 三维检测模型的训练方法、装置、计算机设备和存储介质 | |
CN114255377A (zh) | 一种智能货柜的差异商品检测分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |