CN112232214A

CN112232214A - 一种基于深度特征融合和注意力机制的实时目标检测方法

Info

Publication number: CN112232214A
Application number: CN202011111349.4A
Authority: CN
Inventors: 连伯杨; 王征
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-15

Abstract

本发明提供一种基于深度特征融合和注意力机制的实时目标检测方法，其特征在于，包括如下步骤：建立具有轻量注意力模块MAB、残差网络Res、基础卷积网络Conv的轻量级深度网络MAFFNet；其中:通过若干个轻量级注意力模块单元MAB对采集图像进行卷积运算处理得到初步特征图；通过残差网络Res对初步特征图进行8层残差网络处理后原图进行拼接残差所得到的残差数据模型；通过端到端的训练策略对残差数据模型进行训练、验证、测试过程获得轻量级深度网络MAFFNet性能数据，本发明是通过图像低级信息和高级语义信息的特征学习、权重调整以及特征融合的共同协作来完成目标的快速实时检测任务。

Description

一种基于深度特征融合和注意力机制的实时目标检测方法

技术领域

本发明属于机器学习的计算机视觉领域，尤其涉及一种基于深度特征融合和注意力机制的实时目标检测方法。

背景技术

目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。由于深度学习的广泛运用，目标检测算法得到了较为快速的发展，到目前为止，高性能的目标检测算法都基于深度学习。经典的关于目标检测的工作主要有：

1.最早的R-CNN(Region-based CNN)首次使用深度模型提取图像特征，它将物体识别和物体定位分为两个步骤，并以49.6％的准确率开创了检测算法的新时代。早期的物体检测，都以滑动窗口的方式生成目标建议框，这种方式本质上与穷举法无异。

2.Fast R-CNN在RCNN的基础上进行了出现是为了解决冗余计算的问题，Fast R-CNN添加了一个简化的SPP层，使得它的训练和测试过程能够合并在一起，它使用SelectiveSearch来生成目标候选框，但是速度依然达不到实时的要求。

3.Faster R-CNN直接利用RPN(Region Proposal Networks)网络来生成目标候选框，代替了Selective Search方法。RPN输入任意像素的原始图像，输出一批矩形区域，每个区域对应一个目标坐标信息和置信度。从R-CNN到Faster R-CNN是一个合并的过程，它把传统检测的三个步骤整合到同一个深度网络模型中。

4.基于回归算法的检测模型又将检测领域带到一个新的高度。其中以YOLO和SSD方法为代表的检测方法将物体分类和物体定位在一个步骤中完成，大大提高了运算和检测速度。

然而在实际工业应用中，上述方法取得的效果并不令人满意。因为在实际检测应用中，既要十分精确的检测到目标物体，同时也需要较高的检测速度来支持模型的实时检测，而上述方法无法兼顾目标检测的运算速度和精确性，所以如何更为快速和精确的检测目标物成为亟待解决的问题。

发明内容

近年来，随着深度学习的复兴，目标检测领域迅速发展，特别是CNN的出现，极大地提高了目标检测算法的性能，但现有的深度学习目标算法很难将较高检测准确率与较快的检测速度相结合。因此，为了使目标检测算法能够兼顾“精准性”与“实时性”，在模型的较低运算量和较高运算速度的基础上完成精确检测目标物体的任务，本发明以MobileNet为基础网络，提出了一种基于深度特征融合和注意力机制的轻量级检测模型(MAFFNet)。该模型充分利用轻量级网络的运算速度优势，通过端到端的方式学习样本的目标特征。为了提升模型的特征提取和学习能力，本发明将SE模块的通道注意力机制与特征融合机制相结合。最后，我们对所提出的MAFFNet方法在我们所构造的数据集上进行了评估。综合实验结果表明，该方法具有较好的准确率并在一定程度上提高了目标检测的运算速度，在螺丝钉检测任务中取得了较好的效果。

本发明采用如下技术方案实施：

1、一种基于深度特征融合和注意力机制的实时目标检测方法，包括如下步骤：

建立具有轻量注意力模块MAB、残差网络Res、基础卷积网络Conv的轻量级深度网络MAFFNet；其中:

通过若干个轻量级注意力模块单元MAB对采集图像进行卷积运算处理得到初步特征图；

通过残差网络Res对初步特征图进行8层残差网络处理后原图进行拼接残差所得到的残差数据模型；

通过端到端的训练策略对残差数据模型进行训练、验证、测试过程获得轻量级深度网络MAFFNet性能数据。

进一步，所述轻量注意力模块MAB是以MobileNet为基础网络通过载入SE模块的通道注意力机制与特征融合机制相结合构成；所述所述轻量注意力模块MAB对图像处理过程：

对原始图像经过若干个轻量级注意力模块单元MAB的卷积运算处理得到初步特征图，

对初步特征图经过8层残差网络处理，将此处理结果进行分流处理，上分支进行残差网络和轻量注意力模块MAB卷积；经基础卷积直接得到特征图Y1，下分流则直接与上分流未经基础卷积的上采样结果进行张量拼接，经基础卷积得到与Y1尺寸大小不同的特征图Y2。

将这两个特征图下采样并与标签进行函数运算，最终得到预测结果。

进一步，所述轻量级深度网络MAFFNet性能数据训练过程：

利用PASCALVOC数据集和coco数据集，对轻量级深度网络结构MAFFNet进行预训练获得预训练模型；

通过螺丝钉训练样本数据集和标签输入预训练模型，利用误差对预训练模型进行反向训练；

通过验证数据集对预训练模型进行验证获得目标检测训练模型；

将螺丝钉的测试数据集和标注完成的标签数据对目标检测训练模型训练获得准确率和所用时间；

将训练集、验证集、测试集，输入传统目标检测模型R-CNN、Fast R-CNN、Faster R-CNN；YOLO、YOLOv2、YOLOv3、SSD321，进行对比实验；统计对比实验的数据结果，对各个模型的检测准确率和检测所用时间进行比较获得轻量级深度网络MAFFNet的性能数据和结论。

有益效果

1、本发明提出了一种基于深度特征融合和注意力机制的轻量级目标检测网络结构(MAFFNet)，该网络在保证检测准确率的前提下，大大提升模型运算速度。

2、本发明在MobileNetV2的基础上引入SE通道注意力，设计出具有通道相关性的轻量化检测单元MAB(Mobile Attention Block),如图2所示。

3、本发明将YOLOV3的特征融合做法引入模型，并修改冗余结构，降低模型复杂度。

4、本发明是通过图像低级信息和高级语义信息的特征学习、权重调整以及特征融合的共同协作来完成目标的快速实时检测任务。

附图说明

图1是本发明一种基于深度特征融合和注意力机制的轻量级深度网络结构图；

图2是本发明中涉及的轻量化检测单元结构图；

图3是本发明一种基于深度特征融合和注意力机制的实时目标检测方法流程图；

图4是本发明中实施应用图。

具体实施方式：

以下结合实施案例和附图，对本发明的技术和方法进行详细描述，以下案例和附图用于说明本发明的构成，但不是用来限定本发明的范围。

本发明所提出的网络模型总体架构如图1的MAFFNet部分所示。此轻量级深度网络结构主要由轻量注意力模块MAB、残差网络Res、基础卷积网络Conv这三部分组成：一张原始图像首先经过若干个轻量级注意力模块单元MAB的卷积运算处理得到初步特征图，再将初步特征图经过8层残差网络处理，将此处理结果进行分流处理，上分支进行残差网络和轻量注意力模块MAB卷积再经基础卷积直接得到特征图Y1，下分流则直接与上分流未经基础卷积的上采样结果进行张量拼接，再经过基础卷积得到与Y1尺寸大小不同的特征图Y2。将这两个特征图下采样并与标签进行logistic函数运算，最终得到预测结果。

其中，轻量注意力模块MAB的结构如图1的左下角所示，它先经过卷积核大小为1x1的卷积运算，以此来增加特征通道的数目，接下来进行针对不同的特征通道采用不同的卷积核进行卷积运算，对运算得到的特征图组进行全局平均池化、全卷积，得到的数值结果与自身的特征图进行相乘，这样就得到了融合通道注意力机制的特征图，将此特征图进行线性激活得到最终的特征图。

残差网络Res如图右下角所示，它是由若干个轻量级注意力模块MAB串联之后再与原图进行拼接所得到的残差块。利用残差网络Res可以解决反向更新时梯度消失的问题，同时可以降低模型复杂度，保留更多的有效特征信息。

这个网络模型有三个主要特点：首先，采用端到端的训练策略，所有的训练过程都被集成到一个完整的神经网络中，这将使学习到的特征变得更具识别性；其次，以轻量级神经网络MobileNet的深度可分离卷积为基础，融合了SE模块的通道注意力机制，设计出轻量注意力模块MAB(Mobile Attention Block)，大大降低模型计算复杂度的同时对特征通道间的相关性进行建模，把重要的特征进行强化来提升模型的特征学习能力和目标检测准确率；最后，模型采用了类似FPN的Upsample和特征融合做法，但并没有直接采用YOLOV3的三个scale，而是在两个scale的feature map上做检测，大大降低模型的运算复杂度。本文的主要贡献概括如下：

S1，采用端到端的训练策略，所有的训练过程都被集成到一个完整的神经网络中，本发明使学习到的特征变得更具识别性；

S2，以轻量级神经网络MobileNet的深度可分离卷积为基础，融合了SE模块的通道注意力机制，设计出轻量注意力模块MAB(Mobile Attention Block)，大大降低模型计算复杂度的同时对特征通道间的相关性进行建模，把重要的特征进行强化来提升模型的特征学习能力和目标检测准确率；S3，模型采用了类似FPN的上采样和特征融合做法，但并没有直接采用YOLOV3的三个scale，而是在两个scale的feature map上做检测，大大降低模型的运算复杂度。其中：

1.深度可分离卷积

深度可分离卷积将传统卷积分为两部分，分别是深度卷积(Depthwise)和逐点卷积(Pointwise)。在进行深度卷积的时候，每个卷积核只关注单个通道的信息，而在逐点卷积中，每个卷积核可以联合多个通道的信息。首先，使用1*1的卷积核进行传统的卷积运算将数据升维；然后按照通道进行计算按位相乘的计算，此时通道数不改变；最后，再使用1*1的卷积核进行传统的卷积运算从而降维，此过程可以大大降低卷积过程的计算量。

2.SE模块

将经过深度可分离卷积之后的特征图进行全局平均池化，并经过两个全连接层，最后用h-switch作为激活函数将输出值限制到[0，1]的范围，再与原来的特征图相乘，这样在端到端的训练过程中就得到了带有权重的重新校准的特征图。

3.使用h-switch函数替代传统的sigmoid函数，缩短计算时间：

h-switch[x]＝x*ReLU6(x+3))/6

如图3所示，如下是本发明实用应用过程：

实验设置：本发明实验使用NVIDIA GTX 1080Ti GPU，模型代码基于Python和TensorFlow工具箱搭建。另外本文模型使用SGD优化器，学习率设置为10e-6，采用逻辑回归预测每个边界框的objectness score。如果当前预测的边界框比之前的更好地与groundtruth对象重合，那它的分数就是1。如果当前的预测不是最好的，但它和ground truth对象重合到了一定阈值以上，神经网络会忽视这个预测。实验训练过程中的损失计算方式是将边界框位置、confidence和类别的损失累加起来形成一个loss function完成端到端的训练。

数据集及评价指标：

(1)在深度学习时代，训练数据在很大程度上会影响分类模型的性能。在这项研究中，数据集是从天津的海尔智慧工业园区拍摄的洗衣机背板照片，共采集了1200个训练样本，并使用图像标注软件LabelMe手动标记完成了目标检测任务的样本数据标注工作，并按照比例7:1:2将数据集分为训练集、验证集和测试集，即图3所示。其中，图4中未标注样本(左)和已标注样本(右)。

(2)本文主要采用了以下三个评价指标作为模型检测效果的评判依据，分别是mAP(平均精确率均值)、AP50(recall大于阈值0.5时的precision)和FPS(相同条件下检测器每秒能处理图片的张数)。其中mAP即meanAverage Precision，作为目标检测中衡量检测精度的指标，精确度越高，mAP值就相应越大；FPS则用于评价模型的运算速度，速度越快，FPS的值相应越大。

实验性能比较

在本节中，本发明的轻量级检测模型进行了评估，并与目前最先进的方法进行了比较，其中包括基于深度学习的two-stage传统目标检测方法如R-CNN、Fast R-CNN、FasterR-CNN和one-stage方法如YOLO、YOLOv2、YOLOv3、SSD321。实验是在已建立的螺丝钉数据集上进行的。表1为8种方法的对比实验结果，可以看出我们提出的基于深度特征融合和注意力机制的轻量级深度网络(MAFFNet)在特定目标检测精确度和模型运算速度上的表现均优于其它的模型，取得了良好的预测效果。在对比的过程中，本发明使用了与之前实验相同的数据集，并进行了10次随机抽样，得到了最终的结果。

表1 8种方法的对比实验结果

Method	mAP(平均精确率均值)	AP50	FPS(每秒帧率)
				R-CNN	31.2	53.8	9
Fast R-CNN	33.3	56.4	15
				Faster R-CNN	34.1	58.1	21
YOLO	20.4	44.6	40
				YOLOv2	24.6	47.3	35
YOLOv3	33.2	58.4	29
				SSD321	31.9	52.7	24
Our MAFFNet	34.2	58.9	48

为了验证MAB模块相较于其他骨干网络的优越性，我们选择了54层的MAB、ResNet和Darknet在相同条件下进行分类测试，进一步彰显了MAB模块强大快速的特征提取能力。所有这些深度学习模型都使用ImageNet进行预处理，以获得更高的精度。

表2 不同网络在Top-1准确率、Top-5准确率、FPS(每秒帧率)方面的性能比较

Backbone	Top-1	Top-5	FPS
				ResNet-101	76.1	93.7	49
ResNet-152	76.6	94.0	32
				Darknet-19	74.1	92.6	153
Darknet-53	76.4	94.1	67
				MAB-54	76.3	94.1	91

从表1和表2可以得出以下结论：

(1)无论是平均精确率均值mAP还是AP50(recall大于阈值0.5时的precision)，我们的MAFFNet都在性能上高于YOLOv3和Faster R-CNN；而在效率方面，我们的MAFFNet也取得了最好的效果，运算速度远远超过其他模型。说明我们所提出的MAFFNet结构在大大提高运算速度的同时保证了检测的精确度，适合应用于复杂场景的实时目标检测任务。

(2)在相同的实验设置下，与其他基础网络相比，基于MobileNet的MAB-54在准确率方面接近于Darknet-53，获得了比较好的性能，而速度却比Darknet-53快了大约三分之一，这也进一步证明了MAB模块在快速学习底层特征的同时仍具有较高的准确率。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于深度特征融合和注意力机制的实时目标检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度特征融合和注意力机制的实时目标检测方法，其特征在于，

所述轻量注意力模块MAB是以MobileNet为基础网络通过载入SE模块的通道注意力机制与特征融合机制相结合构成；所述轻量注意力模块MAB对图像处理过程：

对原始图像经过卷积核大小为1x1的卷积运算，并针对不同的特征通道采用不同的卷积核进行卷积运算；

对运算得到的特征图组进行全局平均池化、全卷积，得到的数值结果与自身的特征图进行相乘，得到融合通道注意力机制的特征图；

将此特征图通过h-switch激活函数进行线性激活得到最终的特征图结果。

3.根据权利要求1所述的一种基于深度特征融合和注意力机制的实时目标检测方法，其特征在于，所述轻量级深度网络MAFFNet性能数据训练过程：

通过螺丝钉训练样本数据集和标签输入预训练模型，利用误差计算出损失从而对预训练模型进行反向训练；

将螺丝钉训练集、验证集、测试集，输入传统目标检测模型R-CNN、Fast R-CNN、FasterR-CNN；YOLO、YOLOv2、YOLOv3、SSD321，进行对比实验；统计对比实验的数据结果，对各个模型的检测准确率和检测所用时间进行比较获得轻量级深度网络MAFFNet的性能数据和结论。