CN113657225A

CN113657225A - 一种目标检测方法

Info

Publication number: CN113657225A
Application number: CN202110898055.9A
Authority: CN
Inventors: 卢涛; 陈剑卓; 张彦铎; 徐爱波; 吴云韬; 金从元; 余晗; 魏明
Original assignee: Wuhan Institute of Technology; Wuhan Fiberhome Technical Services Co Ltd
Current assignee: Wuhan Institute of Technology; Wuhan Fiberhome Technical Services Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-16
Anticipated expiration: 2041-08-05
Also published as: CN113657225B

Abstract

本发明提供一种目标检测方法，包括步骤：提取图像特征生成特征图；将特征图上采样，获得放大特征图；将放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头；在类别预测头中加入类别注意力网络，挖掘类内和类间的相距较远但语义相关的目标之间的有效信息；通过对真实目标框编码产生监督信息监督各预测头的训练；由各预测头输出的结果在待检测图像中框选识别对象并标记分类结果。本发明结合对目标类别作进一步判断的类别注意力和对边框回归的尺度自适应编码，使得网络在能关联类内和类间的特征，挖掘类内和类间的相距较远但语义相关的目标之间的有效信息的同时，还能根据检测目标的尺度变换进行更精准的框选，提升检测的准度和框选精度。

Description

一种目标检测方法

技术领域

本发明属于计算机视觉目标检测领域，具体涉及一种目标检测方法。

背景技术

目标检测(object detection)，是机器视觉(machinevision)领域的一个常见问题，是一种基于检测目标几何特征、统计特征等特征的图像分割，它将目标分割与识别合而为一，以期获得精准的目标检测结果。目标检测，就是将目标定位与目标分类结合起来，利用图像处理技术、机器学习等多方向的知识，从图像或者视频中定位感兴趣的对象。目标分类部分负责判断输入的图像中是否包含分类对象，目标定位部分则负责表示目标物体的位置，并用外接矩形框标注定位。目标检测在目标跟踪、姿态检测等许多应用中发挥着重要作用。

一般来说，目标检测可分为传统检测方法以及学习检测方法。传统的检测方法一般分为三个步骤，首先使用不同大小的滑动窗口遍历候选区，然后使用方向梯度直方图(Histogram of Oriented Gradient，HOG)、尺度不变特征变换(Scale-invariant featuretransform，SIFT)提取候选区的相关视觉特征，再使用训练完成的分类器对特征进行分类。虽然这种方法取得了不错的效果，但是使用滑动窗口进行区域选择时对于待检测对象没有针对性，导致了该方法时间复杂度高且窗口存在冗余，在不同情况下分类效果相差较大，鲁棒性不强。之后，基于学习的方法在目标检测领域得到了广泛的应用，因为深度学习的方法能够充分的提取训练样本中的特征，在获得更加精准的分类的同时提升了一定的检测速度。

近年来，基于深度卷积神经网络(Convolutional Neural Networks，CNN)的方法比传统的目标检测算法有了显著的提升。其中，一种用于目标检测的深度卷积网络(Gradient based learning applied to document-recognition，lenet-5)，引入了两层CNN来实现目标检测。此后，随着深度学习的进一步发展，目标检测的准确率不断提高。此后又发展出了基于分类系列的目标检测算法(twostage)以及将目标检测转换为回归问题的算法(singlestage)。针对两阶段的目标检测算法参数、训练量高的问题，一种将图片划分为网格，各网格只检测中心落在其内的目标，并预测两个尺度边框(bounding box)和类别信息，一次性预测所有区域的尺度边框、目标置信度以及类别概率的方法(You only lookonce，yolo)诞生了。此后，基于回归问题的目标检测方法又发展出了一种更加直观的、直接检测目标中心点和大小，丢掉预测框的方法(Objects as Points，Centernet)，使得目标检测的速度和精度又得到了进一步的提升。

虽然上述使用无预测框的目标检测方法取得了令人满意的效果，但其在构建Heatmap时没有考虑到目标宽高比的变化以及不同尺度的目标分布不均匀的问题，同时也没有挖掘类内和类间的相距较远但语义相关的目标的有效信息。因此，如何构建一个关注目标宽高比及分布状况，同时又能挖掘更多有效信息的方法是非常重要的。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出了一种目标检测方法，解决当前基于回归问题的目标检测的局限性。

一种目标检测方法，包括以下步骤：

S1、提取图像特征生成特征图；

S2、将提取的特征图上采样，获得保留原本特征信息的放大特征图；

S3、将放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头；

S4、在类别预测头中加入类别注意力网络，类别注意力网络用于挖掘类内和类间的相距较远但语义相关的目标之间的有效信息；

S5、在训练阶段，通过对真实目标框编码产生监督信息，从而监督各预测头的训练过程；

S6、由训练好的类别预测头、宽高预测头和中心点偏移量预测头分别输出待检测图像的分类信息、回归框宽高信息及中心点位置信息，进而根据输出结果在待检测图像中框选识别对象并标记分类结果。

进一步地，利用残差网络或深层特征融合网络提取图像的特征，生成特征图。

进一步地，上采样模块由可变形卷积和转置卷积交替组成。

进一步地，类别注意力网络的机制表示为：I_E＝H_E(I_DkI_Sk)；其中，I_E表示目标之间的有效信息，H_E表示挖掘有效信息的操作，I_Dk表示在k情况下的距离信息，I_Sk表示在k情况下的语义信息，k分为类内情况和类间情况。

进一步地，类别注意力网络包括一个类间关联注意力组和一个类内关联注意力组；类间关联注意力组包括若干个类别注意力块和一个类别激励块，之后将类间关联注意力组输出的类间信息通过广播逐元素加法叠加到放大特征图，构成一个类内关联注意力组，实现类别预测头的类别注意力。

进一步地，类别注意力网络的类别注意力工作流程包括以下步骤：

S41、将尺度为C×H×W的放大特征图F_PI进行特征提取，再进行缩量操作获得类间信息，将类间信息通过矩阵乘法乘到放大特征图F_PI上获得一个新的类间信息特征图；类间信息特征图表示如下：

F_WI＝H_mul(Zip(Conv(F_PI))，F_PI)

其中，F_WI表示类间信息特征图，H_mul表示矩阵逐像素乘法运算，Zip表示信息缩量操作，Conv表示卷积操作；

S42、对新的类间信息特征图F_WI进行特征提取，提取结果通过线性整流函数后再次进行特征提取以获得类内信息，将类内信息通过广播逐元素加法叠加到放大特征图F_PI上，获得类别注意力特征图；类别注意力特征图表示如下：

F_CA＝H_add(Conv(Lin(Conv(F_WI)))，F_PI)

其中，F_CA为类别注意力特征图，H_add表示广播逐元素加法，Lin表示线性整流操作。

进一步地，中心点偏移量预测头用于输出中心点定位网络的中心点偏移量，中心点定位网络包括交叉熵损失组和中心点偏移量损失组；中心点偏移量预测头通过中心偏移量损失修正目标中心点的偏移，中心偏移量损失表示如下：

其中，L_offset表示中心偏移量损失，N代表批量大小，

表示预测中心坐标，O_i表示真实中心坐标。

进一步地，宽高预测头通过构建尺度自适应网络以实现宽高预测；其中，尺度自适应网络由二维高斯核及目标真实宽高比确定，二维高斯核的方差由交并比和目标框的宽高确定，交并比按照设定的上下限，通过上下限与真实目标框的面积确定，实现宽高预测头的尺度自适应。

进一步地，放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头会编译出三个特征图：一个是类别heatmap图

一个是尺度宽高图

最后一个是中心点偏移量图

其中，N表示批量大小，r代表输出的步长，C代表目标类个数，H和W分别代表图像的高和宽；

对于每一个真实目标框b_t的中心点p，其类别为c，计算其下采样r倍后的等效值

将所有的目标通过高斯核的方式编码进Heatmap图H中，特定类别占据特定通道；当两个或多个目标的中心点重合时，采用目标框面积最大的目标代表；H_xyc对应位置的数值由2D高斯核确认，高斯核为：

其中，σ_x是与IoU和目标框的宽相关的参数，为计算的椭圆横向轴的1/3；σ_y是与IoU和目标框的高相关的参数，为计算的椭圆纵向轴的1/3；该高斯核构成椭圆

以下将推导出σ_x、σ_y与IoU和目标框的高宽的计算公式；首先IoU的计算公式为：

进一步推导出：

由于

其中a为高斯核横向轴的一半，b为高斯核横向轴的一半，r为矩形对角线与高斯核外圈交点到矩形中心的距离，进一步推出：

进而有：

由椭圆公式

推得：

由此获得与IoU、目标框的宽高相关的高斯核参数a、b的计算方法：

进一步地，根据目标框面积的大小自适应调整IoU大小：

其中，[α，β]为设定的IoU取值范围，area为目标框的面积，a_S为小目标框的面积阈值，a_L为大目标框的面积阈值，将面积小于a_S的目标框IoU统一设置成α，面积大于a_L的目标框IoU统一设置成β，面积[a_S,a_L]之间的目标框IoU设定为自适应值；

添加一个中心点偏移量图

在

坐标处分别填入真实目标框b_t的中心点的损失浮点值

恢复由于下采样引起的中心点定位精度损失，所有类别共享同一个偏移量图。

本发明的有益效果为：

本发明结合对目标类别作进一步判断的类别注意力和对边框回归的尺度自适应编码，使得网络在能关联类内和类间的特征，挖掘类内和类间的相距较远但语义相关的目标之间的有效信息的同时，还能获得更精准的目标框；并根据检测目标的尺度变换进行更精准的框选，从而提升目标检测的准度和框选精度。

附图说明

图1是本发明实施例提供的一种目标检测方法的流程示意图；

图2是本发明实施例提供的一种目标检测方法的网络结构图；

图3是本发明的目标检测方法与其他算法的测试结果对比图；

图4是本发明实施例提供的2个图像目标检测的效果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明公开了一种目标检测方法(Efficient object detection based onadaptive scale class attention netork，DASCAN)，针对实际项目中存在多路实时精准推理的需求，对以往关键点检测的方案进行了改进，提高了模型的检测精度，更好的满足了现实场景的实时需求；本发明提出尺度自适应编码模块，优化目标框获得精准的框选结果，并提出类别注意力模块，实现了对相似对象进行的较精准区分。本发明可以实现多路实时精准多目标检测，在复杂场景中检测物体类别及位置。

本发明实施例的一种目标检测方法，如图1和图2所示，包括以下步骤：

S1、提取图像特征生成特征图。

在本发明实例中，使用残差网络(Deep residual network，ResNet)或深层特征融合网络(Deep Layer Aggregation，DLA)将原图像或视频中的图像特征提取生成特征图。

S2、将提取的特征图上采样，获得保留原本特征信息的放大特征图。

构建一个由3*3的可变形卷积和转置卷积交替组成的上采样模块，并使用上采样模块上采样获得保留有效信息的放大特征图。其中，保留原本特征信息的特征图表示为：

F_PI＝H_IM(H_US(F_Ori))

其中，F_PI表示保留信息的放大特征图，H_IM表示保留特征信息的映射操作，H_US表示图像放大操作，F_ori表示S1中生成的特征图，即通过骨干网络获得的特征图像。

S3、将放大特征图连接到类别预测头、宽高预测头和中心点偏移量预测头，增强特征在不同领域的信息获取能力。

在训练阶段，分类预测头用于确认目标的存在并通过通道ID确认目标分类，在分类预测头中加入了类别注意力模块，用于挖掘类内和类间的相距较远但语义相关的目标之间的有效信息。类别注意力网络的机制表示为：I_E＝H_E(I_DkI_Sk)；其中，I_E表示目标之间的有效信息，H_E表示挖掘有效信息的操作，I_Dk表示在k情况下的距离信息，I_Sk表示在k情况下的语义信息，k分为w：类内情况和b：类间情况。

构建一个中心偏移定位模块，中心偏移定位模块用于构建中心点定位网络的目标中心点。将放大特征图F_PI连接到中心偏移量预测头，输出所述定位网络的中心点偏移量，其中，定位网络包含一种改进的交叉熵损失组和一个中心点偏移量损失组，上述损失组共同构成中心点定位网络。通过中心偏移量损失修正中心点的偏移。中心偏移量损失，表示如下：

其中，L_offset表示中心偏移量损失，N代表批量大小，

表示预测中心坐标，O_i表示真实中心坐标。

构建边框宽高预测模块，用于构建尺度自适应的宽高预测器，将放大特征图F_PI连接到宽高预测头，输入尺度自适应网络获得宽高回归量。其中，尺度自适应网络由二维高斯核及目标真实宽高比确定，二维高斯核的方差由交并比和目标框的宽高确定。交并比按照设定的上下限，通过上下限与真实目标框的面积确定，实现宽高预测头的尺度自适应。

S4、在类别预测头中加入类别注意力网络，类别注意力网络用于挖掘类内和类间的相距较远但语义相关的目标之间的有效信息，强化网络分类能力。

构建类别注意力模块(ClassAttentionModule，CAM)，将放大特征图连接到分类预测头，输入到类别注意力模块获得对象类别，其中，类别注意力网络包含一个类间关联注意力组和一个类内关联注意力组。类间注意力组包含若干个类别注意力块和一个类别激励块，之后将类间注意力组通过广播逐元素加法叠加到原特征图，构成一个类内注意力组，实现类别预测头的类别注意力。

在本发明实例中，类别注意力模块中的类别注意力工作流程分为以下几个步骤：

对尺度为C×H×W的放大特征图F_PI进行特征提取，再缩量获得类间信息，将该信息通过矩阵乘法乘到F_PI上获得一个新的类间信息特征图。类间信息特征图，表示如下：

F_WI＝H_mul(Zip(Conv(F_PI))，F_PI)

其中，F_WI表示类间信息特征图，H_mul表示矩阵逐像素乘法运算，Zip表示信息缩量操作，Conv表示1*1的卷积操作。

对新的特征图F_WI进行特征提取，通过线性整流函数后再次特征提取，获得类内信息，将该信息通过广播逐元素加法叠加到F_PI上，获得类别注意力特征图。类别注意力特征图，表示如下：

F_CA＝H_add(Conv(Lin(Conv(F_WI)))，F_PI)

其中，F_CA为上述类别注意力特征图，H_add表示广播逐元素加法，Lin表示线性整流操作。

S5、在训练阶段，通过对真实目标框编码产生监督信息，从而监督各预测头的训练过程，提高各预测头的精度、准度。

在训练阶段，宽高预测头用于中心点所代表的目标框的宽高。中心点偏移量预测头用于预测目标中心点在尺度自适应编码模块编码过程中存在的精度丢失的数值。分类预测头、宽高预测头和中心点偏移量预测头训练采用的监督信息均由尺度自适应编码模块对于真实目标框编码获得。尺度自适应的监督信息对各预测头的约束编码为R_pre＝H_adapt(I_bbox)，其中R_pre表示各预测头的编码结果，H_adapt表示尺度自适应信息编码操作，I_bbox表示真实目标框的信息。

S6、在推理阶段，由训练好的类别预测头、宽高预测头和中心点偏移量预测头分别输出待检测图像的分类信息、回归框宽高信息及中心点位置信息，进而根据输出的预测结果在待检测图像中框选识别对象并标记分类结果。

在本实例中，数据输入到尺度自适应编码模块会编译出三个特征图，一个类别heatmap图

一个尺度宽高图

和一个中心点偏移量图

其中N表示批量大小(batch-size)，r代表输出的步长，C代表目标类个数，H和W分别代表图像的高和宽。

将所有的目标通过高斯核的方式编码进Heatmap图H中，特定类别占据特定通道。当两个或多个目标的中心点重合时，采用目标框面积最大的目标代表。H_xyc对应位置的数值由2D高斯核确认，高斯核为：

其中σ_x是与IoU和目标框的宽相关的参数，为计算的椭圆横向轴的1/3，σ_y是与IoU和目标框的高相关的参数，为计算的椭圆纵向轴的1/3，该高斯核构成椭圆

以下将推导出σ_x、σ_y与IoU和目标框的高宽的计算公式：

具体的IoU的计算公式为：

进一步推导出：

由于

进而有：

由椭圆公式

推得：

由此获得与IoU、目标框的宽高相关的高斯核参数a,b的计算方法。

为了进一步适应不同尺度的目标框，根据目标框面积的大小自适应调整IoU大小。

其中[α，β]为设定的IoU取值范围，area为目标框的面积，a_S为小目标框的面积阈值，a_L为大目标框的面积阈值，将面积小于a_S的目标框IoU统一设置成α，面积大于a_L的目标框IoU统一设置成β，面积[a_S,a_L]之间的目标框IoU设定为自适应值。

为了进一步预测出输入图像中的尺度中心点精确位置，添加一个中心点偏移量图

在

坐标处分别填入真实目标框b_t的中心点的损失浮点值

用于恢复由于下采样引起的中心点定位精度损失，所有类别共享同一个。

使用

代表类别为c_t的目标框t，尺度宽高图在

坐标处分别填入真实目标框b_t的宽和高的数值

不将尺度归一化。为减少计算量，使用一个

的图来预测所有类别。

在推理阶段，根据分类信息、回归框宽高信息、及中心点位置信息在图片上绘框。

本发明还提供一种基于尺度自适应编码模块和类别注意力模块的目标检测系统，包括：

特征提取模块，用于将输入图片分组，形成特征图像；

上采样模块，用于将特征图像特殊编码形成保留信息的放大特征图像；

类别注意力模块，用于构建类别注意力网络作为分类器，将放大特征图连接到分类预测头，通过类别注意力网络，获得对象类别。其中，所述类别注意力网络包含一个类间关联注意力组和一个类内关联注意力组。类间注意力组包含若干个类别注意力块和一个类别激励块，之后将类间注意力组通过广播逐元素加法叠加到原特征图，构成一个类内注意力组，实现类别预测头的类别注意力。

中心偏移定位模块，用于构建中心点定位网络的目标中心点，将放大特征图连接到中心偏移量预测头，通过中心偏移量损失修正中心点的偏移。其中，定位网络包含一种改进的交叉熵损失组和一个中心点偏移量损失组。上述损失组共同构成中心点定位网络。

边框宽高预测模块，用于构建尺度自适应的宽高预测器，将放大特征图连接到宽高预测头，输入尺度自适应网络获得宽高回归量。其中，尺度自适应网络由二维高斯核及目标真实宽高比确定，二维高斯核的方差由交并比和目标框的宽高确定。交并比按照设定的上下限，通过上下限与真实目标框的面积确定，实现长宽预测头的尺度自适应。

图像检测结果模块，用于显示上述类别分类模块、中心偏移定位模块、边框长宽预测模块的分类信息并绘制目标框。

本发明最后提供一个测试实施例，使用MS COCO 2017数据集作为训练集、验证集和测试集，其中包含118000幅图像作为训练数据集、5000幅图像作为验证数据集，20000幅图像作为测试数据集。使用三种不同的平均精度(AccuracyPrecision,AP)，Ap50,Ap75作为评级指标对目标检测结果进行评价，以检验本发明的目标检测性能。本发明的模型骨架分别选用ResNet-18和DLA34。本发明将所有的图像在保持其尺度比的情况下缩放至512×512，并使用尺度自适应编码模块生成128×128的特征图。使用随机平移(平移范围128)、随机翻转、随机颜色抖动、随机补光作为数据增强，并使用SGD来优化整体目标。我们使用学习率(Learningrate，LR)为0.02，批次大小为128，在数据集上进行80次迭代训练(epoch)，并在50和72分别将LR下降0.1倍。所有实验均在装有PyTorch的包含NVIDIA Titan V GPU的机器上完成训练任务和速度测试。表1通过上述三个评价指标展示了加入尺度自适应编码模块的对比结果，表2展示了加入类别注意力模块的对比结果，表3展示了本发明与当前主要算法的对比结果，图3为本发明的方法与各算法在本实例中的对比，图4a和图4b展示了本发明的效果。

表1自适应编码模块对比实验

表2类别注意力模块对比实验

表3取得SOTA的网络(非最佳结果)在COCO测试数据集上的结果比较。其中粗体、斜粗体分别代表第一第二高的值

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。