CN111723829A

CN111723829A - 一种基于注意力掩模融合的全卷积目标检测方法

Info

Publication number: CN111723829A
Application number: CN201910204836.6A
Authority: CN
Inventors: 何小海; 董潇潇; 吴晓红; 卿粼波; 滕奇志; 吴小强; 余艳梅
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2020-09-29
Anticipated expiration: 2039-03-18
Also published as: CN111723829B

Abstract

本发明公开了一种基于注意力掩模融合的全卷积目标检测方法，涉及计算机视觉与智能信息技术领域。首先，通过卷积神经网络提取特征，经过初步二分类和边界框回归后得到一系列预选框；然后，将上述预选框输入到特征金字塔结构中，同时融合注意力掩模模块得到更具表征性的特征；最后经过多分类和边界框回归，不断训练迭代模型，得到多尺度的全卷积目标检测结果。该方法不仅实现了精度的有效提升，还能保持高效的速度，可应用于机器人视觉、消费电子、自动驾驶、人机交互、智能视频监控等场所。

Description

一种基于注意力掩模融合的全卷积目标检测方法

技术领域

本发明涉及一种基于注意力掩模融合的全卷积目标检测方法，属于计算机视觉与智能信息技术领域。

背景技术

目标检测是很多计算机视觉任务的基础，其定义如下：对于给定的图像，目标检测的目的是准确地定位和正确分类尽可能多的对象实例,同时避免错误地检测背景或重复检测相同的实例。其中，类别可以是行人、小鸟、自行车等等，定位以包围框(bounding box)的形式存在。目标检测在人工智能和信息技术的诸多领域如机器人视觉、消费电子、自动驾驶、人机交互、基于内容的图像检索、智能视频监控等有着广泛的应用。

目前，基于深度学习的目标检测算法主要分为两类，一是单阶段方法，二是两阶段方法。两阶段方法将检测问题划分为两个过程，首先产生区域建议，然后对候选区域进行分类和边界框回归，这类算法的典型代表是基于区域建议的R-CNN系列算法，检测精度较高但速度难以达到实时；单阶段方法采用基于回归的思想，跳过区域建议阶段，直接产生物体的类别概率和位置坐标值，经过单次检测即可得出最终的检测结果，故在检测速度上有更好的结果，其代表性算法有：YOLO,SSD,Focal Loss等。近年来，注意力机制在计算机视觉中的应用逐渐增加，现有的视觉注意模型可分为软注意模型和强注意模型。软注意模型以确定性的方式预测注意区域，由于它是可微的，故可以使用反向传播进行训练，让神经网络学到每一张新图片中需要关注的区域，因而形成了注意力。将注意力机制结合到目标检测中，让网络自适应地关注感兴趣区域，近来受到了较多的关注。

发明内容

本发明提出了一种基于注意力掩模融合的全卷积目标检测方法，目的在于结合注意力掩模模块和特征金字塔模块得到更具表征性特征，然后进行目标检测。

本发明通过以下技术方案来实现上述目的：

(1)使用基准网络VGG16提取特征，经过6个步幅的卷积和下采样操作后，得到多尺度全卷积特征层。

(2)使用基本的卷积层conv4_3,conv5_3,fc7以及conv6_2进行初步的二分类和包围框回归操作，以得到预选框，减少负样本搜索。

(3)将注意力掩模模块Attention Mask Module(AMM)和特征金字塔结构结合起来，即将顶层特征同底层特征融合后，再辅之以注意力信息AMM，得到更加有效的特征P1,P2,P3,P4。

(4)最后将上述特征直接用于多分类和回归操作，不断训练迭代模型，得到最终的检测结果。

附图说明

图1为本发明基于注意力掩模融合的全卷积目标检测方法框架图。

图2为本发明基于注意力掩模模块结构图。

图3为本发明基于特征金字塔融合模块结构图。

具体实施方式

下面结合附图对本发明作进一步说明：

构建注意力掩模模块方法如下：

注意力掩模模块(AMM)的结构图如图2所示。在本发明中，使用基本的卷积函数(conv),激活函数(relu)和池化函数(pool)来构建基本网络。每个注意力掩模模块分为两个分支:掩模分支和主干分支。给定输入x,主干分支经过卷积后得到输出G(x),掩模分支经过卷积和反卷积操作得到相同尺寸的输出M(x)。掩模分支中，首先经过两次conv,relu,pool操作，然后经过两次deconv操作得到特征图谱S(x),最后经过sigmoid函数得到输出的掩模：

输出掩模类似于Highway Network中的门控单元，控制着主干分支的神经元,可以自适应地学习到有效的特征并且抑制噪声。主干分支中，经过两次conv函数得到主干输出。最后输出的注意力模型P(x)公式如下所示：

P_i,c(x)＝(1+M_i,c(x))*G_i,c(x) (2)

式中，i代表神经元的空间位置，c代表神经元的通道位置。类似于残差网络中的恒等映射，M(x)的输出范围为[0,1]，当M(x)接近0时，P(x)的输出接近原始的特征G(x)。

在注意力掩模模块中，注意力掩模不仅在前向传播中充当特征选择器，在反向传播中也能进行梯度更新。特征掩模的梯度如下所示：

其中，θ是掩模分支参数，φ是主干分支参数。

构建特征金字塔融合模块方法如下：

本发明提出了融合不同特征图谱与注意力掩模的结构，不仅能进行多尺度检测，还可以结合注意力模型关注感兴趣区域，从而有效地检测出所有尺度物体。网络结构如图3所示。

输入的特征图谱为(H×W×C),其中H和W代表高和宽，C代表通道的个数。对于底部特征L1，首先经过3×3的卷积层进行特征降维，将维度从512降到256，对于检测特征P2,经过2×2的反卷积操作，在扩大特征图谱同时也进行了降维的操作，得到的输出为(40×40×256)；然后将上述输出进行eltwise sum操作，得到融合后的特征图谱T1亦为(40×40×256)；最后将注意力掩模模块同T1融合以增加注意力信息，经过Relu层后得到的检测特征P1可应用于检测系统。

若图片中存在多种尺度的目标，低层的特征如P1和P2可以用来检测小目标，而高层的特征如P3和P4具有更大的感受野，负责检测大目标。

为了验证本发明所述基于注意力掩模融合的全卷积目标检测方法的有效性，在PASCAL VOC2007和PASCAL VOC2012两个数据集中开展实验。本文的实验平台为：Ubuntu16.04.5,Nvidia GTX 1080Ti GPU,Intel(R)Xeon(R)CPU E5-2686。采用的深度学习框架为Caffe，采用的精度评价指标为mAP(mean average precision)，速度评价指标为fps(frames per second)。

VOC2007数据集的训练集有5011张，测试集有4952张。实验在VOC2007trainval和VOC2012trainval上进行训练，在VOC2007test数据集上测试。所有的实验在VGG16基准网络中进行预训练。使用Multistep方式来调整学习率，即在前80k次迭代中学习率设置为10^-2，随后20k和40k次迭代中学习率分别设置为10^-3和10^-4。输入图片尺寸为320×320时，训练时batch size设置为16，GPU数量为1；当图片尺寸为512×512时，采用两块GPU进行联合训练。测试时batchsize设置为1。本发明实验结果如表1和表2所示，对于320×320的输入，mAP为81％，检测速度为60.9fps；对于512×512的输入，mAP为82.2％，检测速度为35fps，优于大部分对比算法。

VOC2012数据集的训练集有11540张，测试集有10991张。实验在VOC2007trainval和VOC2012trainval上进行训练，在VOC2012test数据集上测试。使用Multistep方式来调整学习率，即在前160k次迭代中学习率设置为10^-2，随后40k和80k次迭代中学习率分别设置为10^-3和10^-4。对于320×320和512×512的输入，训练的batch size设置为16，并且使用两块GPU进行训练。测试时batch size设置为1。本发明实验结果如表1所示，对于320×320的输入，mAP为79％，对于512×512的输入，mAP为80.8％，精度高于所有其他对比算法，验证了本发明的有效性。

表1不同算法在VOC2007和VOC2012数据集上的测试结果

表2不同算法在VOC2007数据集上20类别的AP比较

Claims

1.一种基于注意力掩模融合的全卷积目标检测方法，其特征在于包括以下步骤：

(1)使用基准网络VGG16提取特征，经过6个步幅的卷积和下采样操作后，得到多尺度全卷积特征层，然后进行初步的二分类和包围框回归操作；

(2)构建注意力掩模模块Attention Mask Module(AMM)；

(3)将AMM和特征金字塔结构结合起来，即将顶层特征同底层特征融合后，再辅之以注意力信息AMM，得到更加有效的特征P1,P2,P3,P4用于多分类和回归操作。

2.根据权利要求1所述的方法，其特征在于(1)中构建多尺度全卷积特征层，构建方法如下：

通过VGG16网络得到一系列的卷积层，激活层和池化层，将全连接层fc6和fc7转变为卷积层后在其后添加卷积层和激活层，使用VGG16中的conv4_3，conv5_3，fc7以及添加的conv6_2层作为多尺度全卷积特征层，并将其输入到二分类和回归网络中。

3.根据权利要求1所述的方法，其特征在于(2)中构建注意力掩模模块，构建方法如下：

使用卷积函数(conv),激活函数(relu)和池化函数(pool)来构建基本网络；每个注意力掩模模块分为两个分支:掩模分支和主干分支，给定输入x,主干分支经过卷积后得到输出G(x),掩模分支经过卷积和反卷积操作得到相同尺寸的输出M(x)；掩模分支中，首先经过两次conv,relu,pool操作，然后经过两次deconv操作得到特征图谱S(x),最后经过sigmoid函数得到输出的掩模：

主干分支中，经过两次conv函数得到主干输出，最后输出的注意力模型P(x),公式如下所示：

P_i,c(x)＝(1+M_i,c(x))*G_i,c(x) (2)

式中，i代表神经元的空间位置，c代表神经元的通道位置。

4.根据权利要求1所述的方法，其特征在于(3)中注意力掩模模块同特征金字塔结构的融合，融合方法如下：

输入的特征图谱为(H×W×C),其中H和W代表高和宽，C代表通道的个数；对于底部特征L1，首先经过3×3的卷积层进行特征降维，将维度从512降到256，对于检测特征P2,经过2×2的反卷积操作，在扩大特征图谱同时也进行了降维的操作，得到的输出为(40×40×256)；然后将上述输出进行eltwise sum操作，得到融合后的特征图谱T1亦为(40×40×256)；最后将注意力掩模模块同T1融合以增加注意力信息，经过relu层后得到的检测特征P1可应用于多分类和回归操作。