CN110298387A

CN110298387A - 融入像素级attention机制的深度神经网络目标检测方法

Info

Publication number: CN110298387A
Application number: CN201910498118.4A
Authority: CN
Inventors: 宋雅麟; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2019-10-01

Abstract

本发明涉及一种融入像素级attention机制的深度神经网络目标检测方法，包括下列步骤：收集训练样本图像；将收集到的图像数据集中的数据通过预处理转为训练深度卷积神经网络所要求的格式，并进行数据增强以提升神经网络的训练效果；设计融入像素级attention机制的深度卷积神经网络结构，该网络结构用于接收输入图像并对图像中的物体输出边界框回归信息和类别信息：网络结构包括两部分，一部分是用来初步提取特征的基础网络；另一部分为在基础网络末端添加的多个级联的卷积层或下采样层，用于提取不同尺度的卷积特征图，将多尺度特征图与像素级attention机制融合；训练。

Description

融入像素级attention机制的深度神经网络目标检测方法

技术领域

本发明涉及一种图像中目标检测方法，特别是涉及一种融入像素级attention机制的神经网络目标检测方法。

背景技术

随着社会的发展和科技的进步，卷积神经网络在计算机视觉领域逐步克服了传统方法的缺陷，已被证明是解决各种视觉任务的有效模型，被应用于许多实际场景。卷积神经网络建立在卷积运算的基础上，通过融合局部感受野内的空间信息和通道信息来提取信息特征。卷积神经网络通过叠加一系列非线性卷积层和下采样层，能够捕获具有全局感受野的分层特征作为强大的图像描述。为了提高网络的表示能力，许多现有的工作已经显示出增强空间编码的好处。JieHu等人提出了“Squeeze-and-Excitation”模块，通过显式地建模通道之间的相互依赖关系，自适应地重新校准通道式的特征响应，提出了通道注意力机制。通过将这些块堆叠在一起，构建了SENet架构，在具有挑战性的图像分类数据集中以微小的计算成本提升取得了分类准确率的提升。

目标检测是计算机视觉领域的重要研究方向之一，目标检测技术在智能医疗、无人驾驶和机器人等实际场景均有重要的应用价值。基于图像输入的目标检测任务要求针对图像中的物体给出边界框坐标信息和物体的类别信息，因此目标检测任务是一个对位置敏感的任务，SENet架构尽管对图像分类有一定的改善，但是“Squeeze-and-Excitation”模块首先对特征平面的每个通道进行全局池化，损失了特征平面的位置信息，直接将SENet架构迁移到目标检测任务中则不能对物体的边界框定位有任何的帮助。GRP-DSOD在目标检测网络中融入“Squeeze-and-Excitation”模块来提升特征平面通道间表征能力的同时还引入了一个门控预测策略在不同目标尺寸的尺度预测上自适应地增强或减弱监督，来提升神经网络的检测效果，并加快神经网络的收敛。

上述方法尽管在对物体的分类能力上有所改进，但没能提升物体边界框的检测精确度。为了使神经网络对物体的定位更加精确，本专利提出了一种新的方法，用于进一步提升深度神经网络的性能。

[1]Hu,J.,Shen,L.,&Sun,G.(2018).Squeeze-and-excitation networks.InProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(pp.7132-7141).

[2]Shen,Z.,Shi,H.,Feris,R.,Cao,L.,Yan,S.,Liu,D.,...&Huang,T.S.(2017).Learning Object Detectors from Scratch with Gated Recurrent FeaturePyramids.arXiv preprint arXiv:1712.00886.

发明内容

本专利提供一种融入像素级attention机制的深度神经网络目标检测方法，以解决现有目标检测技术中对物体的定位不够精确的问题，该方法能够有效的提取特征，以较低的计算成本提高神经的目标检测能力，以取得较高的检测速度和定位精度。技术方案如下：

一种融入像素级attention机制的深度神经网络目标检测方法，包括下列步骤：

1)收集训练样本图像，要求图像为包含RGB三通道的彩色图像，并附有物体检测框标注和每个物体的类别标注信息。

2)将收集到的图像数据集中的数据通过预处理转为训练深度卷积神经网络所要求的格式，并进行数据增强以提升神经网络的训练效果；

3)图像集划分；将收集到的数据集划分为训练集，验证集和测试集三个部分，训练集用于训练深度卷积神经网络，验证集用于选择最优的训练模型，测试集用于后续测试模型的效果或在实际应用时测试使用；

4)设计融入像素级attention机制的深度卷积神经网络结构，该网络结构用于接收输入图像并对图像中的物体输出边界框回归信息和类别信息：网络结构包括两部分，一部分是用来初步提取特征的基础网络，基础网络结构包含卷积层、批量正则化层、激活函数层、下采样层，设计每个层的特征图个数和输入输出的尺寸；另一部分为在基础网络末端添加的多个级联的卷积层或下采样层，用于提取不同尺度的卷积特征图，每个卷积层利用多个卷积核学习局部感受野上的信息，生成特征图，实现特征提取；每个卷积核只能根据上一层的感受野内的局部特征进行计算生成该层新的特征，将多尺度特征图与像素级attention机制融合，即在用于检测的每一个尺度的特征图上均置入像素级attention机制模块，学习多尺度特征图中不同位置的特征的关系，自适应的调整每个特征点的权重，然后对原特征图与对应的权重相乘后再输入检测模块，其中，像素级attention机制的具体步骤如下：

a)给定一组卷积特征图F∈R^H×W×C，长和宽为H和W，通道数为C，首先应用1×1卷积层将通道数压缩为1，该层输出特征图为Z∈R^H×W×1，即Z＝W_1×1conv*F；

b)构造基于sigmoid函数的门限机制，来学习特征图中每个特征点的权重；首先通过全连接层将输入的H×W个特征点压缩为原来的1/16，经过Relu激活层后再通过一个全连接层还原至H×W个特征点，以实现学习较远特征点之间的关系，并突出重要的特征位置；之后利用Sigmoid函数将各个特征点的权重归一化至[0,1]；最后，通过乘法多尺度特征图中的每个位置的特征点乘以对应位置的权重，完成像素级特征的自适应标定过程；

5)定义目标检测的损失函数；训练阶段要对图像中物体的类别和边界框偏移量进行回归；

6)随机初始化神经网络各层的参数，并设置足够完成训练的迭代次数和合适的学习率；随机输入训练集里的图像，经过步骤4)的深度卷积神经网络输出检测结果，并通过损失函数计算相应的损失值，再通过随机梯度下降算法，计算出损失值对每个参数的梯度，根据学习率对网络中的参数逐层更新，即可实现一轮网络模型的训练；重复步骤上述步骤，直到网络的训练达到预先设置好的迭代次数为止。

(2)的方法如下：

a)将数据集中的图像缩放到m×n像素大小，标签数据也根据对应的比例缩放到对应的大小；

b)对缩放之后的图像随机裁剪包含标签的地方得到a×b像素大小的矩形图像，其中a≤m，b≤m；

c)以0.5的概率随机水平翻转裁剪后的图像；

d)依照均值为0方差为1的高斯分布，随机调整图像的亮度、对比度、饱和度；

e)将经过上述预处理步骤的图像各通道中的像素值从[0,255]均匀转换到[-1,1]范围内。

本发明的有益效果在于，将融入像素级attention机制的深度卷积神经网络用于目标检测任务中，可以保证网络具有学习图像中较远距离特征关系的能力，进一步提升网络的检测准确率。同时，该方法实现简单，仅需在现有的单阶段检测网络中融入像素级attention机制即可，计算复杂度较低。较好的平衡了检测速度和精度之间的关系。该方法具有较强的泛化能力。

附图说明

图1为本发明一种融入像素级attention机制的深度神经网络目标检测方法流程图。

图2为本发明融入像素级attention机制的深度神经网络目标检测方法结构示意图。

具体实施方式

下面结合附图和具体实例对本专利作进一步的描述。

本专利可应用于图像目标检测任务，但不局限于此任务。融入像素级attention机制的深度卷积神经网络也可用于解决例如语义分割等对位置敏感的诸多任务。图1是本方法示例的流程图。图2描述了本发明融入像素级attention机制的深度卷积神经网络用于图像目标检测的方法结构示意图。

将本发明应用于图像目标检测任务中，主要包含三个步骤：收集图像，准备数据集；设计并训练融入像素级attention机制的深度卷积神经网络；测试/应用检测模型。其具体实现步骤描述如下：

第一步：收集图像，准备数据集。

(1)收集图像。收集各种含有不同类别物体的图像，并对图像中物体的坐标和类别进行标注。对收集到的图像进行预处理，作为一种示例，将数据集中的所有图像转换为350×350的尺寸，标签数据也根据相应比例缩放到对应大小。在缩放后的图像上随机裁剪出大小为300x300像素的正方形图像。以0.5的概率水平翻转裁剪后的图像，按照均值为0方差为1的高斯分布调整图像的亮度、饱和度、对比度。将经过以上全部步骤处理后的图像各通道像素值转换到[-1,1]范围内。

(2)图像集划分。将收集的图像划分为训练集，验证集和测试集。训练集用于训练深度卷积神经网络，验证集用于选择训练后最佳的深度神经网络模型，测试集为后续测试模型效果或实际应用时使用。

第二步：设计并训练融入像素级attention机制的深度卷积神经网络。

(1)设计卷积神经网络结构。设计应用于目标检测的融入像素级attention机制的神经网络结构，示例如图2所示，选择VGG-16作为特征提取基础网络，将VGG16的FC6和FC7层转换为卷积层，即FC6层变成CONV6层，FC7层变成CONV7层。在FC7层后面添加一系列下采样层和卷积层，生成多个不同尺度的卷积特征图。选择CONV4_3层、CONV7层、CONV8_2层、CONV9_2层、CONV10_2层、CONV11_2层输出的特征图用于目标检测。将上述特征图与像素级attention机制结合，对特征图各个位置的特征之间的关系进行建模，优化网络的特征表达能力。将增强后的特征图检测模型进行目标位置回归和分类。最后使用非极大值抑制过滤重复的物体边界框，作为最终的检测结果。定义网络的损失函数，定位损失函数为SmoothL1Loss，分类任务损失函数为SoftmaxLoss。总的损失函数是上述两个损失函数的加权和。

(2)训练设计好的深度卷积神经网络。将训练数据批量的输入到该网络中，进行计算和训练，具体步骤如下：

a)初始化网络各层的参数，对所有卷积层采用均值为0，标准差为0.02的高斯分布进行初始化，而对所有的批量正则化层采用均值为1，标准差为0.02的高斯分布进行初始化。

b)将经过步骤一处理的图像批量输入到设计好的深度神经网路结构中，经过神经网络各层的计算，网络的输出层输出类别信息和回归框的坐标信息。

c)计算损失函数的值并进行反向传播，按照梯度下降法逐层更新网络权重。

d)循环步骤b)～c)，经过多次迭代后，损失函数值逐步降到最低，验证集检测准确率逐渐上升，得到训练好的神经网络模型。

第三步：测试训练好的网络模型。

(1)将训练结束后的网络参数加载到神经网络结构中，并将测试集中的图片批量或单张的输入到训练好的模型中。

(2)前向计算，将数据依次通过深度卷积神经网络的各层，计算出网络的输出值，得出检测结果。

(3)根据目标检测的评价指标计算出网络目标检测的mAP和检测速度。

Claims

1.一种融入像素级attention机制的深度神经网络目标检测方法，包括下列步骤：

2.根据权利要求1所述的方法，其特征在于，(2)的方法如下：

c)以0.5的概率随机水平翻转裁剪后的图像；