CN114998701B - 基于像素特征匹配的目标检测损失优化方法 - Google Patents
基于像素特征匹配的目标检测损失优化方法 Download PDFInfo
- Publication number
- CN114998701B CN114998701B CN202210818058.1A CN202210818058A CN114998701B CN 114998701 B CN114998701 B CN 114998701B CN 202210818058 A CN202210818058 A CN 202210818058A CN 114998701 B CN114998701 B CN 114998701B
- Authority
- CN
- China
- Prior art keywords
- feature
- frame
- pixel
- feature map
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明提供了一种基于像素特征匹配的目标检测损失优化方法,涉及图像识别目标检测领域。本发明根据特征提取和融合过程中下采样操作对图像像素特征的损失,从像素特征角度入手,对模型特征提取和融合后的特征图上采样融合,评估预测框和真实框在特征图上的映射区域的Dice距离,通过细化预测框和真实框的特征差异进而优化模型参数,采用巴氏距离计算预测框和真实框直方图分布相似度,增强模型对像素级别差异的感知,更直观的评估模型泛化效果,进而提高模型预测框预测的准确度。本发明中,提出基于像素特征匹配损失弥补目标检测网络中直接框回归损失计算的不足,在不增加模型参数量的基础上提高了模型的鲁棒性。
Description
技术领域
本发明涉及图像识别目标检测技术领域,尤其涉及基于像素特征匹配的目标检测损失优化方法。
背景技术
目标检测是计算机视觉中十分重要的任务,主要解决检测在数字图像中某一类别的实例,通过图像特征的提取,学习图像中类别实例的特征进而达到最终识别和定位的目的。近年来,随着智能化、信息化与现实环境需求的结合,目标检测也不断深入生活的各个方面并取得了广泛的应用,包括安全生产、工业缺陷检测、自动驾驶和智慧城市等领域。 但目标检测中的问题也随之而来,随着目标检测识别的类别增多,以及特殊场景下对目标框的定位的精度要求之高,这给目标检测模型带来了很大的挑战,现有目标检测网络中,通过评估回归预测框位置与真实框位置差异来训练模型参数,而缺少对预测框和真实框像素特征的差异性评估,模型参数无法学习像素级别的差异,影响了最终预测框的准确度。
发明内容
本发明的目的在于提供一种基于像素特征匹配的目标检测损失优化方法,为实现上述目的,本发明提供如下技术方案:基于像素特征匹配的目标检测损失优化方法,包括以下步骤:
S1、将N×N的图像I输入特征提取模块提取特征,通过特征融合模块输出三个尺寸分别为N/8的特征图一、N/16的特征图二和N/32的特征图三,其中,所述N×N为以像素为单位的图像分辨率,所述特征提取模块为卷积神经网络,所述特征融合模块为对卷积神经网络浅层和深层特征进行融合的模块;
S2、将N/16和N/32尺寸的特征图分别经过上采样计算将特征图放大为N/8的尺寸,并与特征图一相加得到特征图E,其中,所述上采样计算为反卷积操作;
S3、通过对特征图E输入回归预测模块得到预测框的位置信息,并根据预测框和真实框的位置信息映射至特征图E上对应预测框和真实框的特征区域M和N,采用Dice距离评估M和N特征的差异D,其中,所述回归预测模块为由卷积构成用于预测目标的分类和框的位置信息;
S4、在图像I上分别提取预测框和真实框区域的直方图分布向量A和B,采用巴氏距离评估A和B的分布差异α;
S5、将α作为D的放缩系数完成目标检测模型训练过程中像素特征匹配损失的计算。
优选的,所述将N/16和N/32特征图分别经过上采样计算将特征图放大为N/8的尺寸,并与特征图一相加得到特征图E,包括:
反卷积操作时通过卷积核带权重计算,通过调整步长实现特征图的放大,相比上采样直接计算放大特征图的方式,具有参数可学习和降低特征信息损失的作用;
将N/16尺寸的特征图通过反卷积上采样2倍至N/8尺寸的特征图,N/32尺寸的特征图通过反卷积上采样4倍至N/8尺寸的特征图,一方面有利于特征图对齐和不同层次的特征图进行融合,另一方面上采样后的N/8尺寸的特征图具有更多的信息;
将N/16和N/32尺寸的特征图上采样计算后,通过与N/8尺寸的特征图对应元素相加操作实现特征融合得到特征图E,采用对应元素相加的操作实现特征图相加,通道数不变,使得特征图E描述图像特征的信息量增多,相比三个特征图直接拼接的融合方法具有更低的计算量。
优选的,所述根据预测框和真实框的位置信息映射至特征图E上对应预测框和真实框的特征区域M和N,采用Dice距离评估M和N特征的差异D,包括:
根据预测框的位置信息中心点坐标cx、cy、宽w和高h,根据预测框的位置信息,在特征图E中确定对应预测框的特征区域M;
根据真实框为输入图像中目标的位置信息中心点坐标cx'、cy'、宽w'和高h',由于特征图相比输入图像进行了缩放,因此首先要对真实框的位置信息按比例缩放至与特征图E尺寸对应的值,并在特征图E中提取对应真实框的特征区域N;
分别将特征区域M和N对应的特征向量拉伸为一维向量M'和N',采用Dice距离计算一维特征向量M'和N'的差异,采用拉伸为一维向量的操作有利于计算向量之间的相似性,由于预测框和真实框的区域和宽高可能不同,采用Dice距离计算向量之间差异可不受向量尺度相同的限制,采用Dice距离计算公式如下:
其中,M'和N'分别为一维向量。
优选的,所述在图像I上分别提取预测框和真实框区域的直方图分布向量A和B,采用巴氏距离评估A和B的分布差异α,包括:
根据预测框位置信息和真实框位置信息提取在输入图像I中对应区域,其中,预测框的位置信息需缩放至图像I的尺寸大小,提取预测框和真实框在图像I中的区域;
对提取的对应区域的R、G和B三个通道分别计算直方图信息,直方图信息包括区域内[0,255]的像素点的频数值,分别得到预测框和真实框在像素点颜色值上的差异,可从像素角度评估模型预测的结果,得到直方图分布向量A和B;
根据直方图分布向量为[0,255]值的对应分布频数值,需对应计算向量A和向量B在每个灰度上的差异,采用巴氏距离评估直方图分布向量A和B的重叠量的近似计算得到分布差异α,更能体现出其两组向量的相关性,当向量A和B完全相关时值为0,完全不相关时值为1,巴氏距离值越小向量之间相关度越高,巴氏距离计算公式如下:
其中,N为直方图的格子数,i表示直方图第i个格子。
优选的,所述将α作为D的放缩系数完成目标检测模型训练过程中像素特征匹配损失的计算,包括:将α作为D的放缩系数,根据输入图像I中原始图像的像素灰度值的频度值分布相似度作为特征匹配的放缩系数,有助于模型学习更深层次像素级的特征,考虑原始灰度值的影响,达到对模型预测损失的细化计算,促进模型参数在训练过程中的调优,计算公式为(1+α)D,当α值越大时,表示预测框和真实框的相似度较低,对预测框和真实框特征差异D的放大值越大,通过训练迭代不断增强模型的鲁棒性。
与现有技术相比,本发明的有益效果如下:考虑特征提取和融合过程中下采样操作对图像像素特征的损失,从像素特征角度入手,对模型特征提取和融合后的特征图上采样融合,评估预测框和真实框在特征图上的映射区域的Dice距离,有利于细化预测框和真实框的特征差异进而优化模型参数,采用巴氏距离计算预测框和真实框直方图分布相似度,有利于模型对像素级别差异的感知,更直观的评估模型泛化效果,进而提高模型预测框预测的准确度。
附图说明
图1为本发明基于像素特征匹配的目标检测损失优化方法的流程图。
图2为本发明引入像素特征匹配损失的目标检测网络结构图。
图3为本发明一个实施例所提供的在N/8的尺寸下预测框和真实框对应的特征区域示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明
请参阅图1,其示出了本发明一个实施例提供的基于像素特征匹配的目标检测损失优化方法的步骤流程图,该方法包括以下步骤。
S1、将N×N的图像I输入特征提取模块提取特征,通过特征融合模块输出三个尺寸分别为N/8的特征图一、N/16的特征图二和N/32的特征图三,其中,所述N×N为以像素为单位的图像分辨率,所述特征提取模块为卷积神经网络,所述特征融合模块为对卷积神经网络浅层和深层特征进行融合的模块。
以输入图像I的分辨率为640×640像素为例,通过特征提取模块和特征融合模块后分别输出三个尺寸分别为80、40和20的特征图,目标检测网络结构图请参阅图2。
S2、将N/16和N/32尺寸的特征图分别经过上采样计算将特征图放大为N/8的尺寸,并与特征图一相加得到特征图E,其中,所述上采样计算为反卷积操作。
将尺寸为40和20的特征图分别经过上采样放大为分辨率为80的特征图,并与特征图一进行对应元素相加操作得到融合后的特征图E,分辨率高的特征图包含的信息更多,通过相加操作融合浅层和深层的特征,使特征图E包含更多的信息。
S3、通过对特征图E输入回归预测模块得到预测框的位置信息,并根据预测框和真实框的位置信息映射至特征图E上对应预测框和真实框的特征区域M和N,采用Dice距离评估M和N特征的差异D,其中,所述回归预测模块为由卷积构成用于预测目标的分类和框的位置信息。
通过特征层融合后得到特征图E,经过回归预测模块输出分类、预测框和置信度结果,根据预测框的输出值中心点坐标cx、cy、宽w和高h,映射至特征图E上的区域M,根据真实框的cx'、cy'、宽w'和高h'映射至特征图E上的区域N,请参阅图3,实线框为预测框区域M,虚线框为真实框对应区域N。
分别将区域M和N覆盖的特征值拉伸为一维特征向量M'和N',通过Dice公式计算向量之间的差异D,计算公式如下:
其中,M'和N'分别为一维向量。
S4、在图像I上分别提取预测框和真实框区域的直方图分布向量A和B,采用巴氏距离评估A和B的分布差异α。
根据预测框位置信息和真实框位置信息提取在输入图像I中对应区域。
对提取的对应区域的R、G和B三个通道分别计算直方图信息,直方图信息包括区域内[0,255]的像素点的频数值,得到直方图分布向量A和B。。
采用巴氏距离评估分布向量A和B的差异,计算公式如下:
其中,N为直方图的格子数,i表示直方图第i个格子。
S5、将α作为D的放缩系数完成目标检测模型训练过程中像素特征匹配损失的计算,计算公式为(1+α)D,并通过训练的不断迭代,最终得到鲁邦的目标检测模型。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.基于像素特征匹配的目标检测损失优化方法,其特征在于,所述方法包括:
S1、将N×N的图像I输入特征提取模块提取特征,通过特征融合模块输出三个尺寸分别为N/8的特征图一、N/16的特征图二和N/32的特征图三,其中,所述N×N为以像素为单位的图像分辨率,所述特征提取模块为卷积神经网络,所述特征融合模块为对卷积神经网络浅层和深层特征进行融合的模块;
S2、将N/16和N/32尺寸的特征图分别经过上采样计算将特征图放大为N/8的尺寸,并与特征图一相加得到特征图E,其中,所述上采样计算为反卷积操作;
S3、通过对特征图E输入回归预测模块得到预测框的位置信息,并根据预测框和真实框的位置信息映射至特征图E上对应预测框和真实框的特征区域M和N,采用Dice距离评估M和N特征的差异D,其中,所述回归预测模块为由卷积构成用于预测目标的分类和框的位置信息;
S4、在图像I上分别提取预测框和真实框区域的直方图分布向量A和B,采用巴氏距离评估A和B的分布差异α:
S41、根据预测框位置信息和真实框位置信息提取在输入图像I中对应区域;
S42、对提取的对应区域的R、G和B三个通道分别计算直方图信息,直方图信息包括区域内[0,255]的像素点的频数值,得到直方图分布向量A和B;
S43、采用巴氏距离评估分布向量A和B的差异α,计算公式为:
其中,N为直方图的格子数,i表示直方图第i个格子;
S5、将α作为D的放缩系数完成目标检测模型训练过程中像素特征匹配损失的计算。
2.根据权利要求1所述的基于像素特征匹配的目标检测损失优化方法,步骤S2中将N/16和N/32尺寸的特征图分别经过上采样计算将特征图放大为N/8的尺寸,并与特征图一相加得到特征图E,其特征在于,包括:尺寸为N/16的特征图上采样两倍放大为N/8的尺寸,尺寸为N/32的特征图上采样4倍放大为N/8的尺寸,相加表示特征图元素对应位置相加。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210818058.1A CN114998701B (zh) | 2022-07-13 | 2022-07-13 | 基于像素特征匹配的目标检测损失优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210818058.1A CN114998701B (zh) | 2022-07-13 | 2022-07-13 | 基于像素特征匹配的目标检测损失优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114998701A CN114998701A (zh) | 2022-09-02 |
CN114998701B true CN114998701B (zh) | 2022-11-18 |
Family
ID=83019868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210818058.1A Active CN114998701B (zh) | 2022-07-13 | 2022-07-13 | 基于像素特征匹配的目标检测损失优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998701B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115965856B (zh) * | 2023-02-23 | 2023-05-30 | 深圳思谋信息科技有限公司 | 图像检测模型构建方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298844A (zh) * | 2021-05-24 | 2021-08-24 | 中南大学 | 基于多特征融合和区域生长的低小慢目标跟踪方法及装置 |
CN114359742A (zh) * | 2022-03-21 | 2022-04-15 | 济南大学 | 一种优化小目标检测的加权损失函数计算方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8970701B2 (en) * | 2011-10-21 | 2015-03-03 | Mesa Engineering, Inc. | System and method for predicting vehicle location |
AU2013273831B2 (en) * | 2013-12-23 | 2016-02-25 | Canon Kabushiki Kaisha | A method for improving tracking using dynamic background compensation with centroid compensation |
US10270788B2 (en) * | 2016-06-06 | 2019-04-23 | Netskope, Inc. | Machine learning based anomaly detection |
CN108830286A (zh) * | 2018-03-30 | 2018-11-16 | 西安爱生技术集团公司 | 一种侦察无人机动目标自动检测与跟踪方法 |
CN109494684B (zh) * | 2018-12-04 | 2020-05-26 | 三峡大学 | 基于巴氏距离算法的变压器励磁涌流和故障差流识别方法 |
CN110414535B (zh) * | 2019-07-02 | 2023-04-28 | 绵阳慧视光电技术有限责任公司 | 一种基于背景区分的手工初始框修正方法及系统 |
CN113256690B (zh) * | 2021-06-16 | 2021-09-17 | 中国人民解放军国防科技大学 | 一种基于视频监控的行人多目标跟踪方法 |
-
2022
- 2022-07-13 CN CN202210818058.1A patent/CN114998701B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298844A (zh) * | 2021-05-24 | 2021-08-24 | 中南大学 | 基于多特征融合和区域生长的低小慢目标跟踪方法及装置 |
CN114359742A (zh) * | 2022-03-21 | 2022-04-15 | 济南大学 | 一种优化小目标检测的加权损失函数计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114998701A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399362B (zh) | 一种快速行人检测方法及装置 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
CN111723748A (zh) | 一种红外遥感图像舰船检测方法 | |
CN112364931B (zh) | 一种基于元特征和权重调整的少样本目标检测方法及网络系统 | |
CN110163207B (zh) | 一种基于Mask-RCNN船舶目标定位方法及存储设备 | |
CN114627052A (zh) | 一种基于深度学习的红外图像漏气漏液检测方法及系统 | |
CN114241548A (zh) | 一种基于改进YOLOv5的小目标检测算法 | |
CN112489054A (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN112733614B (zh) | 一种带有相似尺寸强化识别的害虫图像检测方法 | |
CN112016569A (zh) | 基于注意力机制的目标检测方法、网络、设备和存储介质 | |
CN114998701B (zh) | 基于像素特征匹配的目标检测损失优化方法 | |
CN111833353B (zh) | 一种基于图像分割的高光谱目标检测方法 | |
JP4506409B2 (ja) | 領域分割方法及び装置、画像認識処理装置、プログラム、記録媒体 | |
CN113052170A (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN111563408B (zh) | 多层次感知特征渐进自学习的高分辨率影像滑坡自动检测方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN116704505A (zh) | 目标检测方法、装置、设备及存储介质 | |
Mu et al. | Finding autofocus region in low contrast surveillance images using CNN-based saliency algorithm | |
CN111563440A (zh) | 一种基于异构卷积的多核迭代rpn的目标检测方法 | |
CN113657225B (zh) | 一种目标检测方法 | |
CN115019201B (zh) | 一种基于特征精细化深度网络的弱小目标检测方法 | |
CN115631412A (zh) | 基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法 | |
CN114926826A (zh) | 场景文本检测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221028 Address after: 505-12, Floor 5, Shandong Artificial Intelligence Industrial Park, No. 160, Shanda Road, Lixia District, Jinan, Shandong 250013 Applicant after: Shandong zhiquli Artificial Intelligence Technology Co.,Ltd. Address before: No. 336, nanxinzhuang Road, Shizhong District, Jinan City, Shandong Province Applicant before: University of Jinan |
|
GR01 | Patent grant | ||
GR01 | Patent grant |