CN115346063A

CN115346063A - 一种类注意力机制构建方法及目标检测方法

Info

Publication number: CN115346063A
Application number: CN202210641150.5A
Authority: CN
Inventors: 李自胜; 胡朝海; 肖晓萍
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-11-15

Abstract

本发明提供了一种类注意力机制构建方法及目标检测方法。所述类注意力机制构建方法：对小特征图上采样并运算得到上采样权值，将上采样权值作用于大特征图得到过渡特征图，对过渡特征图下采样并运算得到下采样权值，将下采样权值作用于小特征图，该方法构建的类注意力机制增强了小特征图的几何信息；所述目标检测方法，将类注意力机制设计成算法模块，嵌入YOLOv3算法中，得到基于类注意力机制的YOLOv3算法，用于目标检测。本发明的有益效果可包括：改变传统注意力机制算法权值单一问题，提高了注意力效果；利用类注意力机制改进YOLOv3，在浮点运算量和网络复杂度增加不到1%的条件下，检测精度mPA高于同类算法Faster‑RCNN、SSD512，同时高于其它基于YOLOv3的改进算法，如Attention‑YOLO‑A和Attention‑YOLO‑B等。

Description

一种类注意力机制构建方法及目标检测方法

技术领域

本发明涉及人工智能领域，具体来讲，涉及图像中的目标检测。

背景技术

目标检测的任务是找出图像或视频中的感兴趣目标对象，同时检测出它们的位置和大小。传统目标检测算法主要是将矩形窗口在整张图像上滑动，通过扫描图像来生成多个图像区域，然后从每个区域中提取局部图像特征，再将提取到的特征传递给传统机器学习分类器。虽然这些方法在某些特定场景下能够取得较好检测效果，但实时性较低。同时，特定环境或结构化场景已经不能满足现实需求，因此传统目标检测方法的应用场景非常有限。

卷积神经网络CNN（Convolutional Neural Network）由于其可映射任意复杂的非线性关系，具有强大的特征提取能力，提升了目标检测的速度和精度，因此基于CNN的目标检测算法已成为检测任务的首选。基于CNN的目标检测算法主要分为三类：（1）基于R-CNN（Region with Convolutional Neural Network）的检测算法，如R-CNN、Fast R-CNN、及Faster R-CNN，由于计算开销大或小目标检测精度低等原因，该类算法未能得到很好的应用。（2）基于SSD（Single Shot Multi Detector）的算法，如SSD、DSSD（DeconvolutionalSingle Shot Multi Detector），会出现小目标漏检情况。（3）YOLO（You Only Look Once）系列算法包括YOLOv1、YOLOv2和YOLOv3，检测速度和检测精度逐渐提高，尤其是YOLOv3在多个行业得到应用，但在精度要求更高的目标检测任务中，还有待改进。

在不明显降低检测速度条件下，提出了多种基于CNN的目标检测算法的改进方法，注意力机制是常用改进方法之一。注意力机制类似于人看向某一场景时，不会关注场景中的每个目标对象，而只根据需求聚焦场景中的特定部分，其本质是一种权重参数的分配机制，目的是协助模型捕捉重要信息。典型注意力机制主要有基于位置的注意力机制、通道注意力机制与卷积注意模块等。嵌入注意力机制引入，虽然检测精度有所提高，但由于权值计算方法单一，导致注意力效果有限，因此精度提升幅度仍然无法多数检测任务要求。如Attention-YOLO算法在YOLOv3骨干网络中嵌入注意力机制取得较好的效果，mAP最高达到了81.9%，但仍与现实高精度需求存在偏差。因此有必要提出更有效的方法对现有目标检测算法进行改进。

发明内容

本发明的目的在于解决现有注意力机制由于权值较单一，注意力效果有限，导致目标检测精度提升幅度小的问题。

基于此，为了更好地聚焦图像中有目标存在的区域，重点突目标区域，抑制没有目标的区域，本发明提出一种类注意力机制构建方法。类注意力机制构建方法的思路是：将前一个特征图上的几何信息在后一个特征图中强调出来，通过学习，增强有目标部分的特征图权重，抑制没有目标的特征图权重，以降低没有目标部分特征图对目标检测造成的影响，更有利于目标的检测和定位。类注意力机制的网络结构如图1所示。

类注意力机制的输入为

和

，分别对应大特征图和小特征图，

，

，

，

。其中C*、H*、W*分别表示特征图的通道数、高度和宽度。

。令

，c表示第c个特征通道，

表示第c个特征通道上的卷积核参数，

表示卷积。整个卷积过程可由下公式(1)表示：

(1)

在卷积过程中，进行填充补0，使得

和

的高度和宽度相等。将卷积后的特征图通过Sigmoid函数，再与

特征图逐元素相乘再相加，得到特征图

，可由如下公式表示：

(2)

上式中

表示逐元素相乘，

表示逐元素相加，下同。对

进行步长为2的卷积操作，得到特征图

，

的高和宽为

的一半。将

通过Sigmoid函数，再与特征图F_B逐元素相乘和相加，得到

可由如下公式表示：

(3)

最后对

经过一次卷积操作，得到输出

。

为了实现上述目的，本专利以轻量级目标检测算法YOLOv3为例，阐述类注意力机制算法与宿主算法的嵌入方法。

YOLOv3不对原图像中目标所在区域进行预处理，直接将原图和标注进行训练，很大幅度上提升了网络的训练速度和预测速度。该网络模型是全卷积网络，且采用回归算法，进一步提升了该算法的训练和预测速度。

YOLOv3模型的特征提取骨干网络是DarkNet-53网络。在ImageNet数据集上做分类时，DarkNet-53的性能和ResNet-152相当，但DarkNet-53在网络复杂度和浮点运算量上都远低于ResNet-152。DarkNet-53结构如图2所示。图2中Conv表示卷积层（Convolutionallayer），BN表示BatchNorm（批正则化），对数据进行批正则处理，LeakyRelu是激活函数。LeakyRelu和Relu相比，LeakyRelu保留了部分负信息值。

YOLOv3的预测结构如图3所示，将特征提取网络的后三个不同尺寸的特征图用于目标检测，图3中n×c×13×13，n表示batchsize（批的样本数），c表示通道数，13和13分别表示特征图的高和宽。Conv表示卷积层，对特征图进行卷积操作，Concat表示将两条支路上的特征图在c维度上进行堆叠。通过Concat操作后，对特征图进行卷积操作，将Concat后的通道数c调整为原通道数（256,512,1024）。此时得到的特征图融合了不同大小特征图的特征和不同强度的语义特征，更有利于目标的检测、定位和分类。三个不同大小的特征图中，13×13的特征图用来检测和定位大目标，26×26的特征图用来检测和定位中等大小目标，52×52的特征图用来定位和检测小目标。

类注意力机制模块可嵌在任意两个或多个卷积操作之后，其输入为两个特征图。向YOLOv3中嵌入类注意力模块，分别在DarkNet-53的第一个模块和第二个模块之后嵌入类注意力模块，得到基于类注意力机制的YOLO算法，如图4所示。其中第一个类注意力模块的输入分别为DarkNet-53的第一个模块的Conv(3,1,1)的输出和Conv(3,2,1)的输出，Conv(3,1,1)的输出对应图1的

，Conv(3,2,1)的输出对应图1中的

。第二个类注意力模块的输入分别为第一个类注意力模块的输出和DarkNet-53的第二个模块Conv(3,2,1)的输出，分别对应图1中的

和

。

YOLOv3将DarkNet-53网络的后三个模块的输出用于检测，以分辨率为416×416的输入图像为例，后三个大小不同的特征图经过Concat和Conv以后，分别得到（13×13×75）、（26×26×75）和（52×52×75）的特征图，特征图的高和宽取决于输入图像的大小，75取决于数据集有多少个目标类。75=3×(4+1+20)，其中3表示特征图的每个网格上生成三个检验框，4表示每个检测框的中心位置坐标值和高宽值的数目个数，1表示每个检验框中包含目标的置信度，20表示数据集中有20个类。

通过DarkNet-53网络对输入图像提取特征后，将最后三个大小不同的特征图用于目标检测，若输入图像的分辨率为416×416，最后三个特征图的分辨率分别为52×52、26×26、13×13，特征图的大小与输入图像的大小相关。检测过程如下：（1）将13×13特征图Conv后直接用于检测目标；（2）对13×13的特征图进行Upsampling（上采样）处理，使得其分辨率大小为26×26，将Upsampling后的特征图与原26×26的特征图在通道维度上进行Concat（堆叠），经过Concat和Conv后的通道数为512，分别将得到的特征图用于目标检测；（3）对26×26的特征图Upsampling处理，使得其分辨率大小为52×52，将Upsampling后的特征图和原52×52的特征图在通道维度上Concat，经过Concat和Conv后通道数为256用于目标检测。在检测阶段，根据特征图大小生成网格，再在每个网格中生成三个边界框，共生成(52×52+26×26+13×13)×3=10647个边界框，其中3表示每个网格上生成3个检测框。在每个网格上，网络预测了25个值，其中前2个值是边界框的中心坐标，用t_x和t_y表示，第三和第四个值表示边界框的宽度和高度，用t_w和t_h表示，第五个值表示边界框中有无目标的置信度，用t₀表示。用(c_x,c_y)表示边界框相对于图像左上角的偏移量，在图像坐标中，设置左上角为图像的坐标原点。用p_w和p_h表示先验边界框的宽度和高度。目标的边界框b_x、b_y、b_w、b_h、

预测值可如下表示：

(8)

(9)

(10)

(11)

(12)

其中，

为Sigmoid函数，

表示目标是否处于预测框中，若有目标存在，则

，反之

，表示预测框和真实框之间的交并比IOU。剩余的20个值用来预测框中目标的类别，最大值对应的索引即为目标所属类别。

与现有技术相比，本发明的有益效果可包括：能够提高目标检测精度。

附图说明

图1示出了本发明的发明内容中所述的类注意力机制算法的网络结构示意图；

图2示出了本发明的发明内容中所述的YOLOv3骨干网络Darknet-53结构示意图；

图3示出了本发明的发明内容中所述的YOLOv3预测结构示意图；

图4示出了本发明的发明内容中所述的嵌入类注意力算法模块的Darknet-53结构图。

具体实施方式

在下文中，将结合示例性实施例和附图来详细说明本发明的类注意力机制算法及目标检测方法。

示例性实施例1

在本发明的第一示例性实施例中，所述类注意力机制构建方法及目标检测方法包括以下步骤：

所述构建的类注意力机制的输入为不同大小分辨率的特征图；

所述小特征图是分辨率较小的特征图；

所述大特征图是分辨率较大的特征图；

所述对小特征图上采样是对小特征图补0填充后卷积（卷积核大小为3，步长1），得到上采样特征图；

所述进行运算得到上采样权值是利用Sigmoid函数对上采样特征图进行计算，得到上采样权值；

所述作用于大特征图得到过渡特征图是将上采样权值与大特征图逐元素相乘再相加，得到过渡特征图；

所述对过渡特征图下采样是对过渡特征图卷积（卷积核大小为3，步长2），得到下采样特征图；

所述进行运算得到下采样权值是利用Sigmoid函数对下采样特征图进行计算，得到下采样权值；

所述将下采样权值作用于小特征图是将下采样权值与小特征图逐元素相乘再相加；

示例性实施例2

在本发明的第二示例性实施例中，所述类注意力机制算法及目标检测方法包括以下步骤：

S1、采用PASCAL VOC数据集，该数据集由20个类别的图像组成，分别为：aero、bike、bird、boat、 bottle、bus、car、cat、chair、cow、table、dog、horse、mbike、 person、plant、sheep、sofa、train、tv，使用PASCAL VOC2007训练集与验证集、PASCAL VOC2012 训练集与验证集（共计16551张图像）训练模型，使用PASCAL VOC2007 测试集（共4952张图像）测试模型，通过水平翻转、随机裁剪和随机仿射实现数据增强；

S2、在训练前，设置初始学习率α=0.001，动量参数momentum=0.9，权重衰减系数γ=0.0005，每批图像数batchsize=4，交并比IOU（Intersection-over-Union）阈值

，全体样本训练次数epochs=160；

S3、在训练中，先将DarkNet-53在ImageNet上进行预训练，嵌入类注意力机制算法模块后加载预训练好的网络模型，训练全体样本160次(160个epoch)，每个epoch从320，352，384，416，448，480，512，544，576，608，640共11和数中随机抽取一个数作为输入图像的高和宽，实现多尺寸训练；

S4、在测试阶段，采用平均精确率均值mAP（mean Average Precision）评价检测性能，通过交并比

计算出精准率P（Precision）和召回率（Recall），然后画出PR（Precision-Recall）曲线图，在峰值点向左画一条线和上一个峰值的垂线相交，与横轴和纵轴形成封闭的图形，计算出此面积即为AP（Average Precision）。用此方法计算出所有类别的AP，然后求其均值即为mAP，

，C为类别数，本专利中C=20。

1、检测数据集

采用PASCAL VOC数据集，该数据集由20个类别的图像组成，分别为：aero、bike、bird、boat、 bottle、bus、car、cat、chair、cow、table、dog、horse、mbike、 person、plant、sheep、sofa、train、tv。使用PASCAL VOC2007 训练集与验证集、PASCAL VOC2012训练集与验证集（共计16551张图像）训练模型，使用PASCAL VOC2007 测试集（共计4952张图像）测试模型。

实验硬件配置为：双核Intel(R) Xeon(R) CPU Gold 5115，内存大小为32GB，1块Quadro P4000显卡，显存为8GB。软件配置为Windows10，编程语言为Python3.7，使用Pytorch-1.7.1+cu101框架构建网络。在训练过程中，先将DarkNet-53在ImageNet上进行预训练，嵌入类注意力模块后加载预训练好的网络模型。设置初始学习率α=0.001，动量参数momentum=0.9，权重衰减系数γ=0.0005，每批图像数batchsize=4，交并比IOU（Intersection-over-Union）阈值

，全体样本训练次数epochs=160；训练全体样本160次（160个epoch），每个epoch从320，352，384，416，448，480，512，544，576，608，640共11个数中随机抽取一个数作为输入图像的高和宽，实现多尺寸训练，通过水平翻转、随机裁剪和随机仿射实现数据增强。

2、评价方法

在测试阶段，采用mAP（mean Average Precision）平均精确率均值评价检测性能。交并比阈值

，通过交并比

计算出精准率P（Precision）和召回率（Recall），然后画出PR（Precision-Recall）曲线图，在峰值点向左画一条线和上一个峰值的垂线相交，与横轴和纵轴形成封闭的图形，计算出此面积即为AP（Average Precision）。用此方法计算出所有类别的AP，然后求其均值即为mAP，可由如下公式(13)表示：

(13)

其中C为类别数，本文C=20。

3、检测结果

本专利方法在PASCAL VOC测试集上的mAP为检测结果82.8%，各目标类型的检测精度如表1所示。

表1 在PASCAL VOC测试集上的检测精度