CN113657225A - 一种目标检测方法 - Google Patents

一种目标检测方法 Download PDF

Info

Publication number
CN113657225A
CN113657225A CN202110898055.9A CN202110898055A CN113657225A CN 113657225 A CN113657225 A CN 113657225A CN 202110898055 A CN202110898055 A CN 202110898055A CN 113657225 A CN113657225 A CN 113657225A
Authority
CN
China
Prior art keywords
class
information
target
attention
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110898055.9A
Other languages
English (en)
Other versions
CN113657225B (zh
Inventor
卢涛
陈剑卓
张彦铎
徐爱波
吴云韬
金从元
余晗
魏明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Wuhan Fiberhome Technical Services Co Ltd
Original Assignee
Wuhan Institute of Technology
Wuhan Fiberhome Technical Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology, Wuhan Fiberhome Technical Services Co Ltd filed Critical Wuhan Institute of Technology
Priority to CN202110898055.9A priority Critical patent/CN113657225B/zh
Publication of CN113657225A publication Critical patent/CN113657225A/zh
Application granted granted Critical
Publication of CN113657225B publication Critical patent/CN113657225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种目标检测方法,包括步骤:提取图像特征生成特征图;将特征图上采样,获得放大特征图;将放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头;在类别预测头中加入类别注意力网络,挖掘类内和类间的相距较远但语义相关的目标之间的有效信息;通过对真实目标框编码产生监督信息监督各预测头的训练;由各预测头输出的结果在待检测图像中框选识别对象并标记分类结果。本发明结合对目标类别作进一步判断的类别注意力和对边框回归的尺度自适应编码,使得网络在能关联类内和类间的特征,挖掘类内和类间的相距较远但语义相关的目标之间的有效信息的同时,还能根据检测目标的尺度变换进行更精准的框选,提升检测的准度和框选精度。

Description

一种目标检测方法
技术领域
本发明属于计算机视觉目标检测领域,具体涉及一种目标检测方法。
背景技术
目标检测(object detection),是机器视觉(machinevision)领域的一个常见问题,是一种基于检测目标几何特征、统计特征等特征的图像分割,它将目标分割与识别合而为一,以期获得精准的目标检测结果。目标检测,就是将目标定位与目标分类结合起来,利用图像处理技术、机器学习等多方向的知识,从图像或者视频中定位感兴趣的对象。目标分类部分负责判断输入的图像中是否包含分类对象,目标定位部分则负责表示目标物体的位置,并用外接矩形框标注定位。目标检测在目标跟踪、姿态检测等许多应用中发挥着重要作用。
一般来说,目标检测可分为传统检测方法以及学习检测方法。传统的检测方法一般分为三个步骤,首先使用不同大小的滑动窗口遍历候选区,然后使用方向梯度直方图(Histogram of Oriented Gradient,HOG)、尺度不变特征变换(Scale-invariant featuretransform,SIFT)提取候选区的相关视觉特征,再使用训练完成的分类器对特征进行分类。虽然这种方法取得了不错的效果,但是使用滑动窗口进行区域选择时对于待检测对象没有针对性,导致了该方法时间复杂度高且窗口存在冗余,在不同情况下分类效果相差较大,鲁棒性不强。之后,基于学习的方法在目标检测领域得到了广泛的应用,因为深度学习的方法能够充分的提取训练样本中的特征,在获得更加精准的分类的同时提升了一定的检测速度。
近年来,基于深度卷积神经网络(Convolutional Neural Networks,CNN)的方法比传统的目标检测算法有了显著的提升。其中,一种用于目标检测的深度卷积网络(Gradient based learning applied to document-recognition,lenet-5),引入了两层CNN来实现目标检测。此后,随着深度学习的进一步发展,目标检测的准确率不断提高。此后又发展出了基于分类系列的目标检测算法(twostage)以及将目标检测转换为回归问题的算法(singlestage)。针对两阶段的目标检测算法参数、训练量高的问题,一种将图片划分为网格,各网格只检测中心落在其内的目标,并预测两个尺度边框(bounding box)和类别信息,一次性预测所有区域的尺度边框、目标置信度以及类别概率的方法(You only lookonce,yolo)诞生了。此后,基于回归问题的目标检测方法又发展出了一种更加直观的、直接检测目标中心点和大小,丢掉预测框的方法(Objects as Points,Centernet),使得目标检测的速度和精度又得到了进一步的提升。
虽然上述使用无预测框的目标检测方法取得了令人满意的效果,但其在构建Heatmap时没有考虑到目标宽高比的变化以及不同尺度的目标分布不均匀的问题,同时也没有挖掘类内和类间的相距较远但语义相关的目标的有效信息。因此,如何构建一个关注目标宽高比及分布状况,同时又能挖掘更多有效信息的方法是非常重要的。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提出了一种目标检测方法,解决当前基于回归问题的目标检测的局限性。
一种目标检测方法,包括以下步骤:
S1、提取图像特征生成特征图;
S2、将提取的特征图上采样,获得保留原本特征信息的放大特征图;
S3、将放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头;
S4、在类别预测头中加入类别注意力网络,类别注意力网络用于挖掘类内和类间的相距较远但语义相关的目标之间的有效信息;
S5、在训练阶段,通过对真实目标框编码产生监督信息,从而监督各预测头的训练过程;
S6、由训练好的类别预测头、宽高预测头和中心点偏移量预测头分别输出待检测图像的分类信息、回归框宽高信息及中心点位置信息,进而根据输出结果在待检测图像中框选识别对象并标记分类结果。
进一步地,利用残差网络或深层特征融合网络提取图像的特征,生成特征图。
进一步地,上采样模块由可变形卷积和转置卷积交替组成。
进一步地,类别注意力网络的机制表示为:IE=HE(IDkISk);其中,IE表示目标之间的有效信息,HE表示挖掘有效信息的操作,IDk表示在k情况下的距离信息,ISk表示在k情况下的语义信息,k分为类内情况和类间情况。
进一步地,类别注意力网络包括一个类间关联注意力组和一个类内关联注意力组;类间关联注意力组包括若干个类别注意力块和一个类别激励块,之后将类间关联注意力组输出的类间信息通过广播逐元素加法叠加到放大特征图,构成一个类内关联注意力组,实现类别预测头的类别注意力。
进一步地,类别注意力网络的类别注意力工作流程包括以下步骤:
S41、将尺度为C×H×W的放大特征图FPI进行特征提取,再进行缩量操作获得类间信息,将类间信息通过矩阵乘法乘到放大特征图FPI上获得一个新的类间信息特征图;类间信息特征图表示如下:
FWI=Hmul(Zip(Conv(FPI)),FPI)
其中,FWI表示类间信息特征图,Hmul表示矩阵逐像素乘法运算,Zip表示信息缩量操作,Conv表示卷积操作;
S42、对新的类间信息特征图FWI进行特征提取,提取结果通过线性整流函数后再次进行特征提取以获得类内信息,将类内信息通过广播逐元素加法叠加到放大特征图FPI上,获得类别注意力特征图;类别注意力特征图表示如下:
FCA=Hadd(Conv(Lin(Conv(FWI))),FPI)
其中,FCA为类别注意力特征图,Hadd表示广播逐元素加法,Lin表示线性整流操作。
进一步地,中心点偏移量预测头用于输出中心点定位网络的中心点偏移量,中心点定位网络包括交叉熵损失组和中心点偏移量损失组;中心点偏移量预测头通过中心偏移量损失修正目标中心点的偏移,中心偏移量损失表示如下:
Figure BDA0003198780120000031
其中,Loffset表示中心偏移量损失,N代表批量大小,
Figure BDA0003198780120000032
表示预测中心坐标,Oi表示真实中心坐标。
进一步地,宽高预测头通过构建尺度自适应网络以实现宽高预测;其中,尺度自适应网络由二维高斯核及目标真实宽高比确定,二维高斯核的方差由交并比和目标框的宽高确定,交并比按照设定的上下限,通过上下限与真实目标框的面积确定,实现宽高预测头的尺度自适应。
进一步地,放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头会编译出三个特征图:一个是类别heatmap图
Figure BDA0003198780120000033
一个是尺度宽高图
Figure BDA0003198780120000034
最后一个是中心点偏移量图
Figure BDA0003198780120000035
其中,N表示批量大小,r代表输出的步长,C代表目标类个数,H和W分别代表图像的高和宽;
对于每一个真实目标框bt的中心点p,其类别为c,计算其下采样r倍后的等效值
Figure BDA0003198780120000036
将所有的目标通过高斯核的方式编码进Heatmap图H中,特定类别占据特定通道;当两个或多个目标的中心点重合时,采用目标框面积最大的目标代表;Hxyc对应位置的数值由2D高斯核确认,高斯核为:
Figure BDA0003198780120000037
其中,σx是与IoU和目标框的宽相关的参数,为计算的椭圆横向轴的1/3;σy是与IoU和目标框的高相关的参数,为计算的椭圆纵向轴的1/3;该高斯核构成椭圆
Figure BDA0003198780120000041
以下将推导出σx、σy与IoU和目标框的高宽的计算公式;首先IoU的计算公式为:
Figure BDA0003198780120000042
进一步推导出:
Figure BDA0003198780120000043
由于
Figure BDA0003198780120000044
其中a为高斯核横向轴的一半,b为高斯核横向轴的一半,r为矩形对角线与高斯核外圈交点到矩形中心的距离,进一步推出:
Figure BDA0003198780120000045
进而有:
Figure BDA0003198780120000046
由椭圆公式
Figure BDA0003198780120000047
推得:
Figure BDA0003198780120000048
Figure BDA0003198780120000049
由此获得与IoU、目标框的宽高相关的高斯核参数a、b的计算方法:
Figure BDA00031987801200000410
进一步地,根据目标框面积的大小自适应调整IoU大小:
Figure BDA00031987801200000411
其中,[α,β]为设定的IoU取值范围,area为目标框的面积,aS为小目标框的面积阈值,aL为大目标框的面积阈值,将面积小于aS的目标框IoU统一设置成α,面积大于aL的目标框IoU统一设置成β,面积[aS,aL]之间的目标框IoU设定为自适应值;
添加一个中心点偏移量图
Figure BDA0003198780120000051
Figure BDA0003198780120000052
坐标处分别填入真实目标框bt的中心点的损失浮点值
Figure BDA0003198780120000053
恢复由于下采样引起的中心点定位精度损失,所有类别共享同一个偏移量图。
本发明的有益效果为:
本发明结合对目标类别作进一步判断的类别注意力和对边框回归的尺度自适应编码,使得网络在能关联类内和类间的特征,挖掘类内和类间的相距较远但语义相关的目标之间的有效信息的同时,还能获得更精准的目标框;并根据检测目标的尺度变换进行更精准的框选,从而提升目标检测的准度和框选精度。
附图说明
图1是本发明实施例提供的一种目标检测方法的流程示意图;
图2是本发明实施例提供的一种目标检测方法的网络结构图;
图3是本发明的目标检测方法与其他算法的测试结果对比图;
图4是本发明实施例提供的2个图像目标检测的效果示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明公开了一种目标检测方法(Efficient object detection based onadaptive scale class attention netork,DASCAN),针对实际项目中存在多路实时精准推理的需求,对以往关键点检测的方案进行了改进,提高了模型的检测精度,更好的满足了现实场景的实时需求;本发明提出尺度自适应编码模块,优化目标框获得精准的框选结果,并提出类别注意力模块,实现了对相似对象进行的较精准区分。本发明可以实现多路实时精准多目标检测,在复杂场景中检测物体类别及位置。
本发明实施例的一种目标检测方法,如图1和图2所示,包括以下步骤:
S1、提取图像特征生成特征图。
在本发明实例中,使用残差网络(Deep residual network,ResNet)或深层特征融合网络(Deep Layer Aggregation,DLA)将原图像或视频中的图像特征提取生成特征图。
S2、将提取的特征图上采样,获得保留原本特征信息的放大特征图。
构建一个由3*3的可变形卷积和转置卷积交替组成的上采样模块,并使用上采样模块上采样获得保留有效信息的放大特征图。其中,保留原本特征信息的特征图表示为:
FPI=HIM(HUS(FOri))
其中,FPI表示保留信息的放大特征图,HIM表示保留特征信息的映射操作,HUS表示图像放大操作,Fori表示S1中生成的特征图,即通过骨干网络获得的特征图像。
S3、将放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头,增强特征在不同领域的信息获取能力。
在训练阶段,分类预测头用于确认目标的存在并通过通道ID确认目标分类,在分类预测头中加入了类别注意力模块,用于挖掘类内和类间的相距较远但语义相关的目标之间的有效信息。类别注意力网络的机制表示为:IE=HE(IDkISk);其中,IE表示目标之间的有效信息,HE表示挖掘有效信息的操作,IDk表示在k情况下的距离信息,ISk表示在k情况下的语义信息,k分为w:类内情况和b:类间情况。
构建一个中心偏移定位模块,中心偏移定位模块用于构建中心点定位网络的目标中心点。将放大特征图FPI连接到中心偏移量预测头,输出所述定位网络的中心点偏移量,其中,定位网络包含一种改进的交叉熵损失组和一个中心点偏移量损失组,上述损失组共同构成中心点定位网络。通过中心偏移量损失修正中心点的偏移。中心偏移量损失,表示如下:
Figure BDA0003198780120000061
其中,Loffset表示中心偏移量损失,N代表批量大小,
Figure BDA0003198780120000062
表示预测中心坐标,Oi表示真实中心坐标。
构建边框宽高预测模块,用于构建尺度自适应的宽高预测器,将放大特征图FPI连接到宽高预测头,输入尺度自适应网络获得宽高回归量。其中,尺度自适应网络由二维高斯核及目标真实宽高比确定,二维高斯核的方差由交并比和目标框的宽高确定。交并比按照设定的上下限,通过上下限与真实目标框的面积确定,实现宽高预测头的尺度自适应。
S4、在类别预测头中加入类别注意力网络,类别注意力网络用于挖掘类内和类间的相距较远但语义相关的目标之间的有效信息,强化网络分类能力。
构建类别注意力模块(ClassAttentionModule,CAM),将放大特征图连接到分类预测头,输入到类别注意力模块获得对象类别,其中,类别注意力网络包含一个类间关联注意力组和一个类内关联注意力组。类间注意力组包含若干个类别注意力块和一个类别激励块,之后将类间注意力组通过广播逐元素加法叠加到原特征图,构成一个类内注意力组,实现类别预测头的类别注意力。
在本发明实例中,类别注意力模块中的类别注意力工作流程分为以下几个步骤:
对尺度为C×H×W的放大特征图FPI进行特征提取,再缩量获得类间信息,将该信息通过矩阵乘法乘到FPI上获得一个新的类间信息特征图。类间信息特征图,表示如下:
FWI=Hmul(Zip(Conv(FPI)),FPI)
其中,FWI表示类间信息特征图,Hmul表示矩阵逐像素乘法运算,Zip表示信息缩量操作,Conv表示1*1的卷积操作。
对新的特征图FWI进行特征提取,通过线性整流函数后再次特征提取,获得类内信息,将该信息通过广播逐元素加法叠加到FPI上,获得类别注意力特征图。类别注意力特征图,表示如下:
FCA=Hadd(Conv(Lin(Conv(FWI))),FPI)
其中,FCA为上述类别注意力特征图,Hadd表示广播逐元素加法,Lin表示线性整流操作。
S5、在训练阶段,通过对真实目标框编码产生监督信息,从而监督各预测头的训练过程,提高各预测头的精度、准度。
在训练阶段,宽高预测头用于中心点所代表的目标框的宽高。中心点偏移量预测头用于预测目标中心点在尺度自适应编码模块编码过程中存在的精度丢失的数值。分类预测头、宽高预测头和中心点偏移量预测头训练采用的监督信息均由尺度自适应编码模块对于真实目标框编码获得。尺度自适应的监督信息对各预测头的约束编码为Rpre=Hadapt(Ibbox),其中Rpre表示各预测头的编码结果,Hadapt表示尺度自适应信息编码操作,Ibbox表示真实目标框的信息。
S6、在推理阶段,由训练好的类别预测头、宽高预测头和中心点偏移量预测头分别输出待检测图像的分类信息、回归框宽高信息及中心点位置信息,进而根据输出的预测结果在待检测图像中框选识别对象并标记分类结果。
在本实例中,数据输入到尺度自适应编码模块会编译出三个特征图,一个类别heatmap图
Figure BDA0003198780120000071
一个尺度宽高图
Figure BDA0003198780120000072
和一个中心点偏移量图
Figure BDA0003198780120000073
其中N表示批量大小(batch-size),r代表输出的步长,C代表目标类个数,H和W分别代表图像的高和宽。
对于每一个真实目标框bt的中心点p,其类别为c,计算其下采样r倍后的等效值
Figure BDA0003198780120000074
将所有的目标通过高斯核的方式编码进Heatmap图H中,特定类别占据特定通道。当两个或多个目标的中心点重合时,采用目标框面积最大的目标代表。Hxyc对应位置的数值由2D高斯核确认,高斯核为:
Figure BDA0003198780120000081
其中σx是与IoU和目标框的宽相关的参数,为计算的椭圆横向轴的1/3,σy是与IoU和目标框的高相关的参数,为计算的椭圆纵向轴的1/3,该高斯核构成椭圆
Figure BDA0003198780120000082
以下将推导出σx、σy与IoU和目标框的高宽的计算公式:
具体的IoU的计算公式为:
Figure BDA0003198780120000083
进一步推导出:
Figure BDA0003198780120000084
由于
Figure BDA0003198780120000085
其中a为高斯核横向轴的一半,b为高斯核横向轴的一半,r为矩形对角线与高斯核外圈交点到矩形中心的距离,进一步推出:
Figure BDA0003198780120000086
进而有:
Figure BDA0003198780120000087
由椭圆公式
Figure BDA0003198780120000088
推得:
Figure BDA0003198780120000089
Figure BDA00031987801200000810
由此获得与IoU、目标框的宽高相关的高斯核参数a,b的计算方法。
Figure BDA0003198780120000091
为了进一步适应不同尺度的目标框,根据目标框面积的大小自适应调整IoU大小。
Figure BDA0003198780120000092
其中[α,β]为设定的IoU取值范围,area为目标框的面积,aS为小目标框的面积阈值,aL为大目标框的面积阈值,将面积小于aS的目标框IoU统一设置成α,面积大于aL的目标框IoU统一设置成β,面积[aS,aL]之间的目标框IoU设定为自适应值。
为了进一步预测出输入图像中的尺度中心点精确位置,添加一个中心点偏移量图
Figure BDA0003198780120000093
Figure BDA0003198780120000094
坐标处分别填入真实目标框bt的中心点的损失浮点值
Figure BDA0003198780120000095
用于恢复由于下采样引起的中心点定位精度损失,所有类别共享同一个。
使用
Figure BDA0003198780120000096
代表类别为ct的目标框t,尺度宽高图在
Figure BDA0003198780120000097
坐标处分别填入真实目标框bt的宽和高的数值
Figure BDA0003198780120000098
不将尺度归一化。为减少计算量,使用一个
Figure BDA0003198780120000099
的图来预测所有类别。
在推理阶段,根据分类信息、回归框宽高信息、及中心点位置信息在图片上绘框。
本发明还提供一种基于尺度自适应编码模块和类别注意力模块的目标检测系统,包括:
特征提取模块,用于将输入图片分组,形成特征图像;
上采样模块,用于将特征图像特殊编码形成保留信息的放大特征图像;
类别注意力模块,用于构建类别注意力网络作为分类器,将放大特征图连接到分类预测头,通过类别注意力网络,获得对象类别。其中,所述类别注意力网络包含一个类间关联注意力组和一个类内关联注意力组。类间注意力组包含若干个类别注意力块和一个类别激励块,之后将类间注意力组通过广播逐元素加法叠加到原特征图,构成一个类内注意力组,实现类别预测头的类别注意力。
中心偏移定位模块,用于构建中心点定位网络的目标中心点,将放大特征图连接到中心偏移量预测头,通过中心偏移量损失修正中心点的偏移。其中,定位网络包含一种改进的交叉熵损失组和一个中心点偏移量损失组。上述损失组共同构成中心点定位网络。
边框宽高预测模块,用于构建尺度自适应的宽高预测器,将放大特征图连接到宽高预测头,输入尺度自适应网络获得宽高回归量。其中,尺度自适应网络由二维高斯核及目标真实宽高比确定,二维高斯核的方差由交并比和目标框的宽高确定。交并比按照设定的上下限,通过上下限与真实目标框的面积确定,实现长宽预测头的尺度自适应。
图像检测结果模块,用于显示上述类别分类模块、中心偏移定位模块、边框长宽预测模块的分类信息并绘制目标框。
本发明最后提供一个测试实施例,使用MS COCO 2017数据集作为训练集、验证集和测试集,其中包含118000幅图像作为训练数据集、5000幅图像作为验证数据集,20000幅图像作为测试数据集。使用三种不同的平均精度(AccuracyPrecision,AP),Ap50,Ap75作为评级指标对目标检测结果进行评价,以检验本发明的目标检测性能。本发明的模型骨架分别选用ResNet-18和DLA34。本发明将所有的图像在保持其尺度比的情况下缩放至512×512,并使用尺度自适应编码模块生成128×128的特征图。使用随机平移(平移范围128)、随机翻转、随机颜色抖动、随机补光作为数据增强,并使用SGD来优化整体目标。我们使用学习率(Learningrate,LR)为0.02,批次大小为128,在数据集上进行80次迭代训练(epoch),并在50和72分别将LR下降0.1倍。所有实验均在装有PyTorch的包含NVIDIA Titan V GPU的机器上完成训练任务和速度测试。表1通过上述三个评价指标展示了加入尺度自适应编码模块的对比结果,表2展示了加入类别注意力模块的对比结果,表3展示了本发明与当前主要算法的对比结果,图3为本发明的方法与各算法在本实例中的对比,图4a和图4b展示了本发明的效果。
表1自适应编码模块对比实验
Figure BDA0003198780120000101
表2类别注意力模块对比实验
Figure BDA0003198780120000111
表3取得SOTA的网络(非最佳结果)在COCO测试数据集上的结果比较。其中粗体、斜粗体分别代表第一第二高的值
Figure BDA0003198780120000112
Figure BDA0003198780120000121
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种目标检测方法,其特征在于,包括以下步骤:
S1、提取图像特征生成特征图;
S2、将提取的特征图上采样,获得保留原本特征信息的放大特征图;
S3、将放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头;
S4、在类别预测头中加入类别注意力网络,类别注意力网络用于挖掘类内和类间的相距较远但语义相关的目标之间的有效信息;
S5、在训练阶段,通过对真实目标框编码产生监督信息,从而监督各预测头的训练过程;
S6、由训练好的类别预测头、宽高预测头和中心点偏移量预测头分别输出待检测图像的分类信息、回归框宽高信息及中心点位置信息,进而根据输出结果在待检测图像中框选识别对象并标记分类结果。
2.根据权利要求1所述的目标检测方法,其特征在于,利用残差网络或深层特征融合网络提取图像的特征,生成特征图。
3.根据权利要求1所述的目标检测方法,其特征在于,上采样模块由可变形卷积和转置卷积交替组成。
4.根据权利要求1所述的目标检测方法,其特征在于,类别注意力网络的机制表示为:IE=HE(IDkISk);其中,IE表示目标之间的有效信息,HE表示挖掘有效信息的操作,IDk表示在k情况下的距离信息,ISk表示在k情况下的语义信息,k分为类内情况和类间情况。
5.根据权利要求1所述的目标检测方法,其特征在于,类别注意力网络包括一个类间关联注意力组和一个类内关联注意力组;类间关联注意力组包括若干个类别注意力块和一个类别激励块,之后将类间关联注意力组输出的类间信息通过广播逐元素加法叠加到放大特征图,构成一个类内关联注意力组,实现类别预测头的类别注意力。
6.根据权利要求1所述的目标检测方法,其特征在于,类别注意力网络的类别注意力工作流程包括以下步骤:
S41、将尺度为C×H×W的放大特征图FPI进行特征提取,再进行缩量操作获得类间信息,将类间信息通过矩阵乘法乘到放大特征图FPI上获得一个新的类间信息特征图;类间信息特征图表示如下:
FWI=Hmul(Zip(Conv(FPI)),FPI)
其中,FWI表示类间信息特征图,Hmul表示矩阵逐像素乘法运算,Zip表示信息缩量操作,Conv表示卷积操作;
S42、对新的类间信息特征图FWI进行特征提取,提取结果通过线性整流函数后再次进行特征提取以获得类内信息,将类内信息通过广播逐元素加法叠加到放大特征图FPI上,获得类别注意力特征图;类别注意力特征图表示如下:
FCA=Hadd(Conv(Lin(Conv(FWI))),FPI)
其中,FCA为类别注意力特征图,Hadd表示广播逐元素加法,Lin表示线性整流操作。
7.根据权利要求1所述的目标检测方法,其特征在于,中心点偏移量预测头用于输出中心点定位网络的中心点偏移量,中心点定位网络包括交叉熵损失组和中心点偏移量损失组;中心点偏移量预测头通过中心偏移量损失修正目标中心点的偏移,中心偏移量损失表示如下:
Figure FDA0003198780110000021
其中,Loffset表示中心偏移量损失,N代表批量大小,
Figure FDA0003198780110000022
表示预测中心坐标,Oi表示真实中心坐标。
8.根据权利要求1所述的目标检测方法,其特征在于,宽高预测头通过构建尺度自适应网络以实现宽高预测;其中,尺度自适应网络由二维高斯核及目标真实宽高比确定,二维高斯核的方差由交并比和目标框的宽高确定,交并比按照设定的上下限,通过上下限与真实目标框的面积确定,实现宽高预测头的尺度自适应。
9.根据权利要求1所述的目标检测方法,其特征在于,放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头会编译出三个特征图:一个是类别heatmap图
Figure FDA0003198780110000023
Figure FDA0003198780110000024
一个是尺度宽高图
Figure FDA0003198780110000025
最后一个是中心点偏移量图
Figure FDA0003198780110000026
其中,N表示批量大小,r代表输出的步长,C代表目标类个数,H和W分别代表图像的高和宽;
对于每一个真实目标框bt的中心点p,其类别为c,计算其下采样r倍后的等效值
Figure FDA0003198780110000027
将所有的目标通过高斯核的方式编码进Heatmap图H中,特定类别占据特定通道;当两个或多个目标的中心点重合时,采用目标框面积最大的目标代表;Hxyc对应位置的数值由2D高斯核确认,高斯核为:
Figure FDA0003198780110000028
其中,σx是与IoU和目标框的宽相关的参数,为计算的椭圆横向轴的1/3;σy是与IoU和目标框的高相关的参数,为计算的椭圆纵向轴的1/3;该高斯核构成椭圆
Figure FDA0003198780110000029
以下将推导出σx、σy与IoU和目标框的高宽的计算公式;首先IoU的计算公式为:
Figure FDA0003198780110000031
进一步推导出:
Figure FDA0003198780110000032
由于
Figure FDA0003198780110000033
其中a为高斯核横向轴的一半,b为高斯核横向轴的一半,r为矩形对角线与高斯核外圈交点到矩形中心的距离,进一步推出:
Figure FDA0003198780110000034
进而有:
Figure FDA0003198780110000035
由椭圆公式
Figure FDA0003198780110000036
准得:
Figure FDA0003198780110000037
Figure FDA0003198780110000038
由此获得与IoU、目标框的宽高相关的高斯核参数a、b的计算方法:
Figure FDA0003198780110000039
10.根据权利要求9所述的目标检测方法,其特征在于,根据目标框面积的大小自适应调整IoU大小:
Figure FDA00031987801100000310
其中,[α,β]为设定的IoU取值范围,area为目标框的面积,aS为小目标框的面积阈值,aL为大目标框的面积阈值,将面积小于aS的目标框IoU统一设置成α,面积大于aL的目标框IoU统一设置成β,面积[aS,aL]之间的目标框IoU设定为自适应值;
添加一个中心点偏移量图
Figure FDA00031987801100000311
Figure FDA00031987801100000312
坐标处分别填入真实目标框bt的中心点的损失浮点值
Figure FDA0003198780110000041
恢复由于下采样引起的中心点定位精度损失,所有类别共享同一个偏移量图。
CN202110898055.9A 2021-08-05 2021-08-05 一种目标检测方法 Active CN113657225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110898055.9A CN113657225B (zh) 2021-08-05 2021-08-05 一种目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110898055.9A CN113657225B (zh) 2021-08-05 2021-08-05 一种目标检测方法

Publications (2)

Publication Number Publication Date
CN113657225A true CN113657225A (zh) 2021-11-16
CN113657225B CN113657225B (zh) 2023-09-26

Family

ID=78478514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110898055.9A Active CN113657225B (zh) 2021-08-05 2021-08-05 一种目标检测方法

Country Status (1)

Country Link
CN (1) CN113657225B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972976A (zh) * 2022-07-29 2022-08-30 之江实验室 基于频域自注意力机制的夜间目标检测、训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191566A (zh) * 2019-12-26 2020-05-22 西北工业大学 基于像素分类的光学遥感图像多目标检测方法
CN112036457A (zh) * 2020-08-20 2020-12-04 腾讯科技(深圳)有限公司 训练目标检测模型的方法及装置、目标检测方法及装置
CN112801146A (zh) * 2021-01-13 2021-05-14 华中科技大学 一种目标检测方法及系统
US20210183072A1 (en) * 2019-12-16 2021-06-17 Nvidia Corporation Gaze determination machine learning system having adaptive weighting of inputs
CN112990102A (zh) * 2021-04-16 2021-06-18 四川阿泰因机器人智能装备有限公司 一种改进的Centernet复杂环境目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210183072A1 (en) * 2019-12-16 2021-06-17 Nvidia Corporation Gaze determination machine learning system having adaptive weighting of inputs
CN111191566A (zh) * 2019-12-26 2020-05-22 西北工业大学 基于像素分类的光学遥感图像多目标检测方法
CN112036457A (zh) * 2020-08-20 2020-12-04 腾讯科技(深圳)有限公司 训练目标检测模型的方法及装置、目标检测方法及装置
CN112801146A (zh) * 2021-01-13 2021-05-14 华中科技大学 一种目标检测方法及系统
CN112990102A (zh) * 2021-04-16 2021-06-18 四川阿泰因机器人智能装备有限公司 一种改进的Centernet复杂环境目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972976A (zh) * 2022-07-29 2022-08-30 之江实验室 基于频域自注意力机制的夜间目标检测、训练方法及装置
CN114972976B (zh) * 2022-07-29 2022-12-20 之江实验室 基于频域自注意力机制的夜间目标检测、训练方法及装置

Also Published As

Publication number Publication date
CN113657225B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN109241913B (zh) 结合显著性检测和深度学习的船只检测方法及系统
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN110232350B (zh) 一种基于在线学习的实时水面多运动目标检测跟踪方法
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN110163207B (zh) 一种基于Mask-RCNN船舶目标定位方法及存储设备
US20210081695A1 (en) Image processing method, apparatus, electronic device and computer readable storage medium
CN114627052A (zh) 一种基于深度学习的红外图像漏气漏液检测方法及系统
CN117253154B (zh) 一种基于深度学习的集装箱弱小序列号目标检测识别方法
US11615612B2 (en) Systems and methods for image feature extraction
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN114022408A (zh) 基于多尺度卷积神经网络的遥感图像云检测方法
CN113435240A (zh) 一种端到端的表格检测和结构识别方法及系统
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN111753682A (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN114266794A (zh) 基于全卷积神经网络的病理切片图像癌症区域分割系统
CN111507337A (zh) 基于混合神经网络的车牌识别方法
CN110634142B (zh) 一种复杂车路图像边界优化方法
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法
CN113554679A (zh) 一种面向计算机视觉应用的无锚框目标跟踪算法
CN112419317A (zh) 一种基于自编码网络的视觉回环检测方法
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN111274964A (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant