CN110298266B

CN110298266B - 基于多尺度感受野特征融合的深度神经网络目标检测方法

Info

Publication number: CN110298266B
Application number: CN201910498679.4A
Authority: CN
Inventors: 宋雅麟; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2023-06-06
Anticipated expiration: 2039-06-10
Also published as: CN110298266A

Abstract

本发明涉及一种基于多尺度感受野特征融合的深度神经网络目标检测方法，包括：收集训练样本图片，要求图像包含RGB三通道，并附有物体检测框标注和每个物体的类别标注信息；将收集到的图像数据集中的图像数据和标签数据通过预处理转为训练深度卷积神经网络所要求的格式；设计基于多尺度感受野特征融合的深度卷积神经网络结构；设计应用于目标检测的深度神经网络结构，设计时要根据输入输出数据的结构来确定网络的输入层和输出层，并确定神经网络中多尺度感受野特征融合模块的个数及卷积层的个数，确定网络训练循环迭代的次数和网络最终收敛条件。根据训练的目标和模型的结构，定义所需的损失函数，训练阶段对目标的类别和检测框偏移量进行回归。

Description

基于多尺度感受野特征融合的深度神经网络目标检测方法

技术领域

本发明涉及计算机图像识别的技术领域，特别涉及采用深度神经网络方法的图像目标检测方法。

背景技术

目标检测是计算机视觉计算领域的重要课题之一。随着社会的发展和技术的进步，目标检测这一技术不断地在各种场景中得到充分的使用，实现各种预期目标，如无人驾驶、安全监测、视频监控和交通管制等领域。针对大量的图像视频数据和变化的场景，高效地定位和分类各种感兴趣目标，实现快速而精确的目标检测，具有重要意义。

近年来，深度学习特别是卷积神经网络在计算机视觉领域和自然语言处理领域取得的巨大进步，引发了该领域学者的研究兴趣。随着一系列基于深度学习的骨架网络的提出，例如AlexNet、VGGNet、GoogLeNet、ResNet和DenseNet等，有关目标检测方法的研究在基于这些骨架网络提取特征的基础上取得了很大的进展。目前，基于深度学习的目标检测方法大致分为两类：单阶段的检测方法和两阶段的检测方法。两阶段的方法大致遵循区域建议和区域定位分类两个步骤，包括R-CNN系列方法，取得了较高的检测精度，但计算复杂度相对较高，难以满足实时性的应用需求。单阶段的方法一般采用回归的思想来直接检测边框位置及所属类别，主要包括YOLO、SSD等。单阶段检测器突破了实时性方面的瓶颈，但是检测效果有限，尤其是对小目标检测精度不高和对不同尺度物体的定位不够精确。因此，如何在确保满足系统实时性的前提下尽量提升检测精度是当前该领域的研究热点。

参考文献：

[1]Krizhevsky,A.,Sutskever,I.,&Hinton,G.E.(2012).Imagenetclassification with deep convolutional neural networks.In Advances in neuralinformation processing systems(pp.1097-1105).

[2]Simonyan,K.,&Zisserman,A.(2014).Very deep convolutional networksfor large-scale imagerecognition.arXivpreprintarXiv:1409.1556.

[3]Szegedy,C.,Liu,W.,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,...&Rabinovich,A.(2015).Going deeper with convolutions.In Proceedings of the IEEEconference on computer visionandpatternrecognition(pp.1-9).

[4]He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016).Deep residual learning forimage recognition.In Proceedings ofthe IEEE conference on computer vision andpattern recognition(pp.770-778).

[5]Huang,G.,Liu,Z.,VanDer Maaten,L.,&Weinberger,K.Q.(2017).Denselyconnected convolutional networks.In Proceedings of the IEEE conference oncomputer vision and pattern recognition(pp.4700-4708).

[6]Redmon,J.,Divvala,S.,Girshick,R.,&Farhadi,A.(2016).You only lookonce:Unified,real-time object detection.In Proceedings ofthe IEEE conferenceon computer vision and pattern recognition(pp.779-788).

[7]Liu,W.,Anguelov,D.,Erhan,D.,Szegedy,C.,Reed,S.,Fu,C.Y.,&Berg,A.C.(2016,October).Ssd:Single shot multibox detector.In European conference oncomputer vision(pp.21-37).Springer,Cham.

发明内容

为了解决现有目标检测技术中的上述问题，特别是对不同尺度目标定位能力不足的问题，本发明提出一种基于多尺度感受野特征融合的深度神经网络目标检测方法，以取得较高的检测速度和定位精度。

一种基于多尺度感受野特征融合的深度神经网络目标检测方法，用于目标检测，包括下列步骤：

1)收集训练样本图片，要求图像包含RGB三通道，并附有物体检测框标注和每个物体的类别标注信息；

2)将收集到的图像数据集中的图像数据和标签数据通过预处理转为训练深度卷积神经网络所要求的格式；

3)图像集划分；将收集到的数据集划分为训练集，验证集和测试集，训练集用于训练深度卷积神经网络，验证集用于选择最优的训练模型，测试集为后续测试模型效果或在实际应用时使用；

4)设计基于多尺度感受野特征融合的深度卷积神经网络结构；设计应用于目标检测的深度神经网络结构，设计时要根据输入输出数据的结构来确定网络的输入层和输出层，并确定神经网络中多尺度感受野特征融合模块的个数及卷积层的个数，确定网络训练循环迭代的次数和网络最终收敛条件。步骤如下：

a)构建特征提取骨架网络模型：特征提取骨架网络用于从输入的图像中提取不同尺度、不同层次的语义信息，便于网络检测部分对物体的分类和定位，包括三部分：第一部分是骨架网络stem结构，输入为RGB三通道的图像，该结构包含级联的3×3卷积层，每个卷积层后面均有批量正则化层；第二部分是用来提取多尺度特征的网络结构，该结构包含级联的多尺度感受野特征融合模块，每个模块包含多个3×3卷积层，再用一个1×1卷积层融合上述每个3×3卷积层的输出；第三部分是在末端添加的级联的卷积层，用于提取不同尺度的卷积特征图；

b)构建目标定位和目标分类网络：首先根据上一步设计的特征提取骨架网络结构来确定最终用于检测的特征平面；目标定位和目标分类网络分别在用于检测的特征平面上添加一个3×3卷积层；分类网络输出类别的分数用以分类任务，目标定位网络精修选框的位置用于回归任务，为完成分类和回归任务，该网络包含卷积层和批量正则化层；

5)根据训练的目标和模型的结构，定义所需的损失函数，训练阶段对目标的类别和检测框偏移量进行回归，

6)初始化神经网络各层的参数，对网络中卷积层采用均值为0，标准差为0.02的高斯分布进行初始化，对网络中批量正则化层中的参数采用均值为1，标准差为0.02的高斯分布进行初始化；随机输入经过训练集中的图像，经过步骤4)的特征提取网络得到相应的特征，再经过步骤4)的目标定位和目标分类网络输出检测结果，并通过所定义的损失函数计算相应的损失值，再通过随机梯度下降算法使得到的梯度对各层参数进行优化，即可实现一轮网络模型的训练；重复步骤上述步骤，直到网络的目标检测的能力达到预期的效果为止。

采用本发明所述方法，将基于多尺度感受野特征融合的深度卷积神经网络用于目标检测任务中，可以保证网络具有提取和融合不同感受野特征的能力，最大限度的适应不同尺度的目标，进一步提升网络的性能。同时，该方法实现简单，在保证网络处理效率的基础上，能有效的提升网络性能。通过应用本专利方法，实现图像物体检测任务，该方法的性能得到证明。

将本专利方法应用于SSD网络结构中，替换其中的骨架网络为包含多尺度感受野特征融合模块的网络，在PASCAL图像数据库上进行物体检测实验，本专利方法相较于传统SSD的方法，准确率提升3个百分点，效果提升明显。

附图说明

图1为本发明基于多尺度感受野特征融合的目标检测方法流程图。

图2为本发明基于多尺度的感受野特征融合模块的结构示意图。

图3为本发明基于多尺度感受野特征融合的目标检测方法整体结构示意图。

具体实施方式

下面结合附图和具体实例对本专利作进一步的描述。

本专利可应用于图像目标检测任务，但不局限于此任务。基于多尺度感受野特征融合的深度卷积神经网络可用于解决例如语义分割和图像分类等可应用场景中的诸多任务。图3描述了本发明基于多尺度的感受野特征融合的深度卷积神经网络用于图像目标检测的示例，在此介绍本专利用于图像目标检测任务上的实施方式。

将本发明应用于图像目标检测任务中，主要包含三个步骤：收集图像，准备数据集；设计并训练基于多尺度感受野特征融合的深度卷积神经网络；测试/应用检测模型。其具体实现步骤描述如下：

第一步：收集图像，准备数据集。

(1)收集图像。收集各种含有不同类别物体的图像，并标注图像中物体的坐标和类别，作为图像标签信息。收集图像的尺寸大小不做限制，网络结构可根据此调整。作为一种示例，将数据集中的图像转换为320x320x3的彩色RGB图像格式，标签数据也根据相应比例缩放到对应大小。在缩放后的图像上随机裁剪出300x300像素大小的正方形图像。以0.5的概率随机水平翻转裁剪后的图像，依照均值为0方差为1的高斯分布，随机调整图像的亮度、对比度、饱和度。将经过上述全部步骤处理后的图像各通道像素值转换到[-1,1]范围内。

(2)图像集划分。将收集的图像划分为训练集，验证集和测试集。训练集用于训练下一步设计的卷积神经网络，验证集用于选择最佳的神经网络训练模型，测试集为后续测试模型效果或者实际应用时使用。

第二步：设计并训练基于多尺度感受野特征融合的深度卷积神经网络。

(1)设计基于多尺度感受野特征融合的卷积神经网络结构。设计应用于物体检测的深度神经网络结构，包括所用的卷积层层数和多尺度感受野特征融合模块的个数和位置，设计卷积层中滤波器的个数，设计多尺度感受野特征融合模块中卷积层的个数以及卷积滤波器结构，设计网络训练循环迭代的次数和网络最终收敛条件，并初始化网络参数。具体的，特征提取骨架网络的输入为320x320x3，输出为不同尺度的特征，输出特征用于进行最终的目标定位和分类，一个网络模型的具体例子如图3所示，网络初始部分包含3个串联的3x 3卷积层，每个卷积层后面均有批量正则化层，以及非线性激活函数层，网络中包含多个多尺度感受野特征融合模块，该模块的具体例子如图2所示，模块中包含3个级联的卷积层，每个卷积层后面均有批量正则化层，以及非线性激活函数层，并用1x 1卷积层对上述每个层的特征进行融合和降维，部分多尺度感受野特征融合模块的输出特征被用于最终的目标定位和分类。特征提取骨架网络输出特征的尺寸分别为38x38x512，19x19x512，10x10x512，5x5x512，3x3x512，1x1x512。将每个骨架网络输出的特征分别输入两个3x 3卷积层进行目标位置回归和分类。最后使用非极大值抑制过滤重复的物体边界框，作为最终的检测结果。定义网络的损失函数，定位损失函数为SmoothL1Loss，分类任务损失函数为SoftmaxLoss。总的损失函数是上述两个损失函数的加权和。

损失函数如下

损失函数表示为类别置信度损失函数和位置损失函数的加权和。式中N为与真实物体框所匹配的默认框个数，x为默认框与真实物体框的匹配结果，l和s分别表示预测结果的位置信息和类别置信度，g为真实物体框，α为权重。

(2)训练设计好的基于多尺度感受野特征融合的深度卷积神经网络。将训练数据批量的输入到该网络中，进行计算和训练，具体步骤如下：

a)初始化模型各层的参数层，对所有卷积层采用均值为0，标准差为0.02的高斯分布进行初始化，而对所有的批量正则化层采用均值为1，标准差为0.02的高斯分布进行初始化。

b)将经过步骤一处理的图像批量输入到设计好的深度神经网路结构中，输出类别信息和回归框的坐标信息。

c)计算损失函数的值并进行反向传播，按照梯度下降法逐层更新网络权重。

d)循环步骤b)～c)，经过多次迭代后，损失函数值收敛，验证集错误率逐渐下降到最低，得到训练好的神经网络模型。

第三步：测试/引用训练好的网络模型。

(1)准备好测试集数据，加载设计好的网络结构和训练结束后的网络参数，并将测试集批量或单张的输入到训练好的模型中。

(2)前向计算，将数据依次通过神经网络的各卷积层和下采样层，计算出网络的输出值。

(3)根据目标检测的评价指标计算网络的平均精确度。

Claims

1.一种基于多尺度感受野特征融合的深度神经网络目标检测方法，用于目标检测，包括下列步骤：

4)设计基于多尺度感受野特征融合的深度卷积神经网络结构；设计应用于目标检测的深度神经网络结构，设计时要根据输入输出数据的结构来确定网络的输入层和输出层，并确定神经网络中多尺度感受野特征融合模块的个数及卷积层的个数，确定网络训练循环迭代的次数和网络最终收敛条件，步骤如下：

a)构建特征提取骨架网络模型：特征提取骨架网络用于从输入的图像中提取不同尺度、不同层次的语义信息，便于网络检测部分对物体的分类和定位，包括三部分：第一部分是骨架网络结构，输入为RGB三通道的图像，该结构包含级联的3×3卷积层，每个卷积层后面均有批量正则化层；第二部分是用来提取多尺度特征的网络结构，该结构包含级联的多尺度感受野特征融合模块，每个模块包含三个串联的3×3卷积层，再用一个1×1卷积层融合上述每个3×3卷积层的输出；第三部分是在末端添加的级联的卷积层，用于提取不同尺度的卷积特征图；

b)构建目标定位和目标分类网络：首先根据上一步设计的特征提取骨架网络结构来确定最终用于检测的特征平面；目标定位和目标分类网络分别在用于检测的特征平面上添加一个3×3卷积层；目标分类网络输出类别的分数用以分类任务，目标定位网络精修选框的位置用于回归任务，为完成分类和回归任务，目标定位和目标分类网络包含卷积层和批量正则化层；

5)根据训练的目标和模型的结构，定义所需的损失函数，训练阶段对目标的类别和检测框偏移量进行回归；

6)初始化神经网络各层的参数，对网络中卷积层采用均值为0，标准差为0.02的高斯分布进行初始化，对网络中批量正则化层中的参数采用均值为1，标准差为0.02的高斯分布进行初始化；随机输入训练集中的图像，经过步骤4)的特征提取网络得到相应的特征，再经过步骤4)的目标定位和目标分类网络输出检测结果，并通过所定义的损失函数计算相应的损失值，再通过随机梯度下降算法使得到的梯度对各层参数进行优化，即可实现一轮网络模型的训练；重复上述步骤，直到网络的目标检测的能力达到预期的效果为止。

2.根据权利要求1所述的方法，其特征在于，步骤2)的方法如下：

a)将数据集中的图像缩放到m×n像素大小，标签数据也根据对应的比例缩放到对应的大小；

b)对缩放之后的图像随机裁剪包含标签的地方得到a×b像素大小的矩形图像，其中a≤m，b≤n；

c)以0.5的概率随机水平翻转裁剪后的图像；

d)依照均值为0方差为1的高斯分布，随机调整图像的亮度、对比度、饱和度；

e)将经过上述预处理步骤的图像各通道像素值转换到[-1,1]范围内。