CN114998701B

CN114998701B - 基于像素特征匹配的目标检测损失优化方法

Info

Publication number: CN114998701B
Application number: CN202210818058.1A
Authority: CN
Inventors: 李忠涛; 袁朕鑫; 肖鑫; 赵帅; 杨磊; 戈川; 陆莹莹; 程文轩; 刘圣勇; 赵光龙; 李雅其
Original assignee: Shandong Zhiquli Artificial Intelligence Technology Co ltd
Current assignee: Shandong Zhiquli Artificial Intelligence Technology Co ltd
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-11-18
Anticipated expiration: 2042-07-13
Also published as: CN114998701A

Abstract

本发明提供了一种基于像素特征匹配的目标检测损失优化方法，涉及图像识别目标检测领域。本发明根据特征提取和融合过程中下采样操作对图像像素特征的损失，从像素特征角度入手，对模型特征提取和融合后的特征图上采样融合，评估预测框和真实框在特征图上的映射区域的Dice距离，通过细化预测框和真实框的特征差异进而优化模型参数，采用巴氏距离计算预测框和真实框直方图分布相似度，增强模型对像素级别差异的感知，更直观的评估模型泛化效果，进而提高模型预测框预测的准确度。本发明中，提出基于像素特征匹配损失弥补目标检测网络中直接框回归损失计算的不足，在不增加模型参数量的基础上提高了模型的鲁棒性。

Description

基于像素特征匹配的目标检测损失优化方法

技术领域

本发明涉及图像识别目标检测技术领域，尤其涉及基于像素特征匹配的目标检测损失优化方法。

背景技术

目标检测是计算机视觉中十分重要的任务，主要解决检测在数字图像中某一类别的实例，通过图像特征的提取，学习图像中类别实例的特征进而达到最终识别和定位的目的。近年来，随着智能化、信息化与现实环境需求的结合，目标检测也不断深入生活的各个方面并取得了广泛的应用，包括安全生产、工业缺陷检测、自动驾驶和智慧城市等领域。但目标检测中的问题也随之而来，随着目标检测识别的类别增多，以及特殊场景下对目标框的定位的精度要求之高，这给目标检测模型带来了很大的挑战，现有目标检测网络中，通过评估回归预测框位置与真实框位置差异来训练模型参数，而缺少对预测框和真实框像素特征的差异性评估，模型参数无法学习像素级别的差异，影响了最终预测框的准确度。

发明内容

本发明的目的在于提供一种基于像素特征匹配的目标检测损失优化方法，为实现上述目的，本发明提供如下技术方案：基于像素特征匹配的目标检测损失优化方法，包括以下步骤：

S1、将N×N的图像I输入特征提取模块提取特征，通过特征融合模块输出三个尺寸分别为N/8的特征图一、N/16的特征图二和N/32的特征图三，其中，所述N×N为以像素为单位的图像分辨率，所述特征提取模块为卷积神经网络，所述特征融合模块为对卷积神经网络浅层和深层特征进行融合的模块；

S2、将N/16和N/32尺寸的特征图分别经过上采样计算将特征图放大为N/8的尺寸，并与特征图一相加得到特征图E，其中，所述上采样计算为反卷积操作；

S3、通过对特征图E输入回归预测模块得到预测框的位置信息，并根据预测框和真实框的位置信息映射至特征图E上对应预测框和真实框的特征区域M和N，采用Dice距离评估M和N特征的差异D，其中，所述回归预测模块为由卷积构成用于预测目标的分类和框的位置信息；

S4、在图像I上分别提取预测框和真实框区域的直方图分布向量A和B，采用巴氏距离评估A和B的分布差异α；

S5、将α作为D的放缩系数完成目标检测模型训练过程中像素特征匹配损失的计算。

优选的，所述将N/16和N/32特征图分别经过上采样计算将特征图放大为N/8的尺寸，并与特征图一相加得到特征图E，包括：

反卷积操作时通过卷积核带权重计算，通过调整步长实现特征图的放大，相比上采样直接计算放大特征图的方式，具有参数可学习和降低特征信息损失的作用；

将N/16尺寸的特征图通过反卷积上采样2倍至N/8尺寸的特征图，N/32尺寸的特征图通过反卷积上采样4倍至N/8尺寸的特征图，一方面有利于特征图对齐和不同层次的特征图进行融合，另一方面上采样后的N/8尺寸的特征图具有更多的信息；

将N/16和N/32尺寸的特征图上采样计算后，通过与N/8尺寸的特征图对应元素相加操作实现特征融合得到特征图E，采用对应元素相加的操作实现特征图相加，通道数不变，使得特征图E描述图像特征的信息量增多，相比三个特征图直接拼接的融合方法具有更低的计算量。

优选的，所述根据预测框和真实框的位置信息映射至特征图E上对应预测框和真实框的特征区域M和N，采用Dice距离评估M和N特征的差异D，包括：

根据预测框的位置信息中心点坐标c_x、c_y、宽w和高h，根据预测框的位置信息，在特征图E中确定对应预测框的特征区域M；

根据真实框为输入图像中目标的位置信息中心点坐标c_x'、c_y'、宽w'和高h'，由于特征图相比输入图像进行了缩放，因此首先要对真实框的位置信息按比例缩放至与特征图E尺寸对应的值，并在特征图E中提取对应真实框的特征区域N；

分别将特征区域M和N对应的特征向量拉伸为一维向量M'和N'，采用Dice距离计算一维特征向量M'和N'的差异，采用拉伸为一维向量的操作有利于计算向量之间的相似性，由于预测框和真实框的区域和宽高可能不同，采用Dice距离计算向量之间差异可不受向量尺度相同的限制，采用Dice距离计算公式如下：

其中，M'和N'分别为一维向量。

优选的，所述在图像I上分别提取预测框和真实框区域的直方图分布向量A和B，采用巴氏距离评估A和B的分布差异α，包括：

根据预测框位置信息和真实框位置信息提取在输入图像I中对应区域，其中，预测框的位置信息需缩放至图像I的尺寸大小，提取预测框和真实框在图像I中的区域；

对提取的对应区域的R、G和B三个通道分别计算直方图信息，直方图信息包括区域内[0,255]的像素点的频数值，分别得到预测框和真实框在像素点颜色值上的差异，可从像素角度评估模型预测的结果，得到直方图分布向量A和B；

根据直方图分布向量为[0,255]值的对应分布频数值，需对应计算向量A和向量B在每个灰度上的差异，采用巴氏距离评估直方图分布向量A和B的重叠量的近似计算得到分布差异α，更能体现出其两组向量的相关性，当向量A和B完全相关时值为0，完全不相关时值为1，巴氏距离值越小向量之间相关度越高，巴氏距离计算公式如下：

其中，N为直方图的格子数，i表示直方图第i个格子。

优选的，所述将α作为D的放缩系数完成目标检测模型训练过程中像素特征匹配损失的计算，包括：将α作为D的放缩系数，根据输入图像I中原始图像的像素灰度值的频度值分布相似度作为特征匹配的放缩系数，有助于模型学习更深层次像素级的特征，考虑原始灰度值的影响，达到对模型预测损失的细化计算，促进模型参数在训练过程中的调优，计算公式为(1+α)D，当α值越大时，表示预测框和真实框的相似度较低，对预测框和真实框特征差异D的放大值越大，通过训练迭代不断增强模型的鲁棒性。

与现有技术相比，本发明的有益效果如下：考虑特征提取和融合过程中下采样操作对图像像素特征的损失，从像素特征角度入手，对模型特征提取和融合后的特征图上采样融合，评估预测框和真实框在特征图上的映射区域的Dice距离，有利于细化预测框和真实框的特征差异进而优化模型参数，采用巴氏距离计算预测框和真实框直方图分布相似度，有利于模型对像素级别差异的感知，更直观的评估模型泛化效果，进而提高模型预测框预测的准确度。

附图说明

图1为本发明基于像素特征匹配的目标检测损失优化方法的流程图。

图2为本发明引入像素特征匹配损失的目标检测网络结构图。

图3为本发明一个实施例所提供的在N/8的尺寸下预测框和真实框对应的特征区域示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明

请参阅图1，其示出了本发明一个实施例提供的基于像素特征匹配的目标检测损失优化方法的步骤流程图，该方法包括以下步骤。

S1、将N×N的图像I输入特征提取模块提取特征，通过特征融合模块输出三个尺寸分别为N/8的特征图一、N/16的特征图二和N/32的特征图三，其中，所述N×N为以像素为单位的图像分辨率，所述特征提取模块为卷积神经网络，所述特征融合模块为对卷积神经网络浅层和深层特征进行融合的模块。

以输入图像I的分辨率为640×640像素为例，通过特征提取模块和特征融合模块后分别输出三个尺寸分别为80、40和20的特征图，目标检测网络结构图请参阅图2。

S2、将N/16和N/32尺寸的特征图分别经过上采样计算将特征图放大为N/8的尺寸，并与特征图一相加得到特征图E，其中，所述上采样计算为反卷积操作。

将尺寸为40和20的特征图分别经过上采样放大为分辨率为80的特征图，并与特征图一进行对应元素相加操作得到融合后的特征图E，分辨率高的特征图包含的信息更多，通过相加操作融合浅层和深层的特征，使特征图E包含更多的信息。

S3、通过对特征图E输入回归预测模块得到预测框的位置信息，并根据预测框和真实框的位置信息映射至特征图E上对应预测框和真实框的特征区域M和N，采用Dice距离评估M和N特征的差异D，其中，所述回归预测模块为由卷积构成用于预测目标的分类和框的位置信息。

通过特征层融合后得到特征图E，经过回归预测模块输出分类、预测框和置信度结果，根据预测框的输出值中心点坐标c_x、c_y、宽w和高h，映射至特征图E上的区域M，根据真实框的c_x'、c_y'、宽w'和高h'映射至特征图E上的区域N，请参阅图3，实线框为预测框区域M，虚线框为真实框对应区域N。

分别将区域M和N覆盖的特征值拉伸为一维特征向量M'和N'，通过Dice公式计算向量之间的差异D，计算公式如下：

其中，M'和N'分别为一维向量。

S4、在图像I上分别提取预测框和真实框区域的直方图分布向量A和B，采用巴氏距离评估A和B的分布差异α。

根据预测框位置信息和真实框位置信息提取在输入图像I中对应区域。

对提取的对应区域的R、G和B三个通道分别计算直方图信息，直方图信息包括区域内[0,255]的像素点的频数值，得到直方图分布向量A和B。。

采用巴氏距离评估分布向量A和B的差异，计算公式如下：

其中，N为直方图的格子数，i表示直方图第i个格子。

S5、将α作为D的放缩系数完成目标检测模型训练过程中像素特征匹配损失的计算，计算公式为(1+α)D，并通过训练的不断迭代，最终得到鲁邦的目标检测模型。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于像素特征匹配的目标检测损失优化方法，其特征在于，所述方法包括：

S4、在图像I上分别提取预测框和真实框区域的直方图分布向量A和B，采用巴氏距离评估A和B的分布差异α：

S41、根据预测框位置信息和真实框位置信息提取在输入图像I中对应区域；

S42、对提取的对应区域的R、G和B三个通道分别计算直方图信息，直方图信息包括区域内[0,255]的像素点的频数值，得到直方图分布向量A和B；

S43、采用巴氏距离评估分布向量A和B的差异α，计算公式为：

其中，N为直方图的格子数，i表示直方图第i个格子；

2.根据权利要求1所述的基于像素特征匹配的目标检测损失优化方法，步骤S2中将N/16和N/32尺寸的特征图分别经过上采样计算将特征图放大为N/8的尺寸，并与特征图一相加得到特征图E，其特征在于，包括：尺寸为N/16的特征图上采样两倍放大为N/8的尺寸，尺寸为N/32的特征图上采样4倍放大为N/8的尺寸，相加表示特征图元素对应位置相加。

3.根据权利要求1所述基于像素特征匹配的目标检测损失优化方法，步骤S3中根据预测框和真实框的位置信息映射至特征图E上对应预测框和真实框的特征区域M和N，采用Dice距离评估M和N特征的差异D，其特征在于，包括：

S31、根据预测框的位置信息，在特征图E中确定对应预测框的特征区域M，并拉伸为一维向量M'；

S32、根据真实框的位置信息，缩放至特征图一的尺寸并在特征图E中提取对应真实框的特征区域N，并拉伸为一维向量N'；

S33、采用Dice距离计算一维特征向量M'和N'的差异，计算公式如下：

其中，M'和N'分别为一维向量。