CN110245655A

CN110245655A - 一种基于轻量级图像金字塔网络的单阶段物体检测方法

Info

Publication number: CN110245655A
Application number: CN201910387974.2A
Authority: CN
Inventors: 庞彦伟; 汪天才
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-09-17
Anticipated expiration: 2039-05-10
Also published as: CN110245655B

Abstract

本发明涉及一种基于轻量级图像金字塔网络的单阶段物体检测方法，包括下列步骤:选定合适的物体检测的数据集，数据集包含图片和标注，标注含有检测框的位置和物体类别；构建用于单阶段物体检测的三个网络：提取多尺度深层特征的主干网络、用于对检测框分类、回归的分类回归子网络和所提出的轻量级图像金字塔网络；选择合适的损失函数，物体检测任务中设计为多任务的损失函数，包括分类损失函数和检测框回归的损失函数，设计网络训练循环迭代的次数和网络最终收敛条件，并初始化网络参数；从数据集里选取训练图像，进行计算和训练。

Description

一种基于轻量级图像金字塔网络的单阶段物体检测方法

技术领域

本发明属于深度学习和计算机视觉领域，特别涉及一种用于单阶段物体检测方法。

背景技术

通用物体检测是计算机视觉领域的一项重要的基础研究问题，在机器人科学、无人驾驶和视频监控等领域有着极其广泛的应用。近年来由于卷积神经网络在物体检测框架中的成功部署，通用物体检测性能取得了巨大的提升。

一般来说，深度学习类的物体检测方法可以被粗略地分为两大类，双阶段物体检测器[1]和单阶段物体检测器[2]。在双阶段物体检测方法中，物体检测问题被分成了两步：第一步是用区域建议网络产生一些候选区域，第二步对这些候选区域进行分类以及对候选区域位置进行回归和调整。单阶段方法和双阶段方法有所不同，直接在输入图像上采样默认的检测框，并对检测框直接进行回归。通常来说，单阶段检测器的检测速度快效率高，不过在检测精度上比双阶段检测器要差。

当前单阶段物体检测器能够实现速度和精度的很好的权衡，但是仍然不能很好地适应物体检测中大的尺度变化，而且在小尺度物体检测方面性能还远远不能满足需求。已有的物体检测算法利用特征金字塔网络[3,4]来解决多尺度问题和改善小尺度物体检测的性能。当前的单阶段物体检测算法没有专门利用传统的图像金字塔网络[5]来解决以上问题的方法，本专利提出一种用于单阶段物体检测器的轻量级图像金字塔网络。本专利在原有单阶段物体检测器架构的基础上，提出了一个轻量级的特征化图像金字塔网络，该网络能够产生一种新的多尺度特征表征，产生的多尺度特征能够和单阶段检测器产生的多尺度特征融合，显著增强特征的鉴别性，解决多尺度预测困难和小物体性能不足的问题。

参考文献：

[1]S.Ren,K.He,R.Girshick andJ.Sun.Faster R-CNN:towards real-timeobject detection with region proposal networks,International Conference onNeural Information Processing Systems.MITPress,2015:91-99.

[2]W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.Fu and A.Berg.SSD:Single ShotMultiBoxDetector,EuropeanConferenceonComputerVision,2015:21-37.

[3]T.Lin,P.Dollar,R.Girshick,K.He,B.Hariharan and S.Belongie.FeaturePyramid Networks forObjectDetection,InternationalConferenceonComputerVision,2016:936-944.

[4]Z.Cai,Q.Fan,R.Feris andN.Vasconcelos.A Unified Multi-scale DeepConvolutional Neural Network for Fast Object Detection,European Conference onComputer Vision.Springer,Cham,2016:354-370.

[5]E.Adelson,C.Anderson,J.Bergen,P.Burt,and J.Ogden.Pyramid methodsin image processing.RCA engineer,1984.

发明内容

本发明目的在于提供一种单阶段物体检测方法，使单阶段检测器能够引入较多的浅层特征信息，使得原有深度网络的特征可鉴别性增强，提升物体尤其是小尺度物体的分类和定位性能。可以在提升物体检测性能的同时，对检测速度的影响较小，适用于所有单阶段检测算法，具有较强的实用性和普适性。技术方案如下：

一种基于轻量级图像金字塔网络的单阶段物体检测方法，包括下列步骤:

1)选定合适的物体检测的数据集，数据集包含图片和标注，标注含有检测框的位置和物体类别；

2)构建用于单阶段物体检测的三个网络：提取多尺度深层特征的主干网络、用于对检测框分类、回归的分类回归子网络和所提出的轻量级图像金字塔网络，主干网络中的骨干网络部分选取VGG16，分类回归子网络和标准的单次多框检测器SSD相同；所设计的轻量级图像金字塔网络，首先通过迭代下采样操作生成多层级图像金字塔，该图像金字塔接着通过所设计的轻量级卷积模块生成多尺度浅层特征，所产生的多尺度浅层特征和主干网络产生的多尺度深层特征利用浅层特征增强模块进行融合；在浅层特征增强模块中，相同分辨率的浅层特征和主干网络产生的深层特征首先通过批量归一化操作实现特征归一化，使浅层特征和深层特征的分布控制在同一个幅值范围内，然后通过点乘操作，实现浅层特征对对应层级的深层特征增强；增强后产生的多尺度特征再输入到所提出的特征前向融合模块，实现不同层级特征之间的融合，融合后的多尺度特征作为分类回归子网络的输入，用于对检测框分类和回归；

3)选择合适的损失函数，物体检测任务中设计为多任务的损失函数，包括分类损失函数和检测框回归的损失函数，设计网络训练循环迭代的次数和网络最终收敛条件，并初始化网络参数；

4)从数据集里选取训练图像，进行计算和训练，具体步骤如下：

a)将训练图像分别输入到主干网络和轻量级的图像金字塔网络，分别得到多尺度深层特征和多尺度浅层特征，两种特征融合之后产生的多尺度调制特征再作为作为分类、回归子网络的输入，进一步生成检测框所属各个类别的得分以及检测框回归的位置坐标；

b)计算损失并进行反向传播，按照梯度下降法更新网络权重；

c)循环步骤a，b，经过多次迭代后，损失收敛，得到训练好的神经网络模型；

5)将训练好的模型应用于测试或实际应用中，当输入图像时，通过训练好的神经网络模型计算得到当前图像的中物体的位置和类别。

采用本发明所述方法，实现简单，应用于单阶段物体检测器，在保证检测效率的同时，可以帮助深层网络特征融入图像的浅层特征，有效地提升预测特征的可鉴别性，能很好地提升单阶段检测器的性能，尤其小尺度物体的检测性能。

附图说明

图1原始的单次多框检测器SSD的网络结构

图2基于轻量级图像金字塔增强的单次多框检测器SSD网络结构

图3轻量级图像金字塔各模块结构图

具体实施方式

下面结合附图对本专利作进一步的描述。

图1描述了原始的单次多框检测器SSD的网络结构，设定的输入图像尺寸为300*300。标准的单次多框检测器SSD使用VGG-16作为骨干网络，并且在骨干网络之后添加若干多余的卷积层，以此作为主干网络，生成多尺度的特征金字塔，六个特征的维度分别为38*38*512、19*19*1024、10*10*512、5*5*256、3*3*256和1*1*256，其中前两个维度为特征的空间维度，第三个维度为特征的通道数。多尺度特征分别输入到分类回归子网络进行独立的预测。其中，高分辨率的特征用于预测小尺度物体，低分辨率的特征用于预测大尺度物体。但是，由于主干网络的网络深度较深，所提取的多尺度特征语义级别较高，在多次下采样之后，对小物体来说，特征信息基本会全部损失，而对于大物体来说，边缘和一些细节的特征信息也会有一定的损失，对物体检测(分类和定位)会产生较大的影响。

图2描述了本专利基于轻量级图像金字塔增强的单阶段物体检测器的网络结构。轻量级图像金字塔网络主要包括浅层特征提取模块、浅层特征增强模块和特征前向融合模块三个模块。浅层特征提取模块用于生成多尺度的浅层特征金字塔；浅层特征增强模块用于融合多尺度深层特征和多尺度的浅层特征；特征前向融合模块用于融合不同语义层级之间的特征。具体细节如下：

(1)浅层特征提取。如图3(a)所示，输入图像(分辨率为300*300)首先进行迭代下采样操作，构建一个简单的图像金字塔：

I_p＝{i₁,i₂,...,i_n}

其中，n表示图像金字塔的层级数量。在图3(a)中，图像金字塔包含四个层级，输入图像执行四次下采样操作(最大池化操作或者双线性插值操作)分别得到四个不同层级的图像，图像分辨率分别为38*38、19*19、10*10和5*5，所构造的图像金字塔中每个层级的分辨率和主干网络对应层级的输出特征图分辨率相同。

经过迭代下采样之后，图像金字塔中每个层级的图像均通过一个轻量级卷积模块产生多尺度浅层特征金字塔：

S_p＝{s₁,s₂,...,s_n}

其中，s₁表示对应于分辨率为38*38的浅层特征，s_n表示对应于分辨率为5*5的浅层特征。轻量级卷积模块包括一个3*3卷积层和一个ResNet架构里bottleneck瓶颈模块，有所不同的是瓶颈模块不包含跳连接操作。轻量级卷积模块产生的多尺度浅层特征维度分别为38*38*512、19*19*1024、10*10*512和5*5*256，所产生的多尺度特征维度和单次多框检测器SSD中主干网络所产生的前四个多尺度特征维度相同。

(2)浅层特征增强。如图3(b)所示，我们引入了一个浅层特征增强模块来融合单次多框检测器SSD的多尺度特征和浅层特征提取模块产生的多尺度浅层特征。首先，相同分辨率尺寸的浅层特征和深层特征通过批量归一化(即Batch-Norm，图中简写为BN)操作实现特征归一化，使得浅层特征和深层特征的分布控制在同一个幅值范围内。然后通过点乘操作，使用浅层特征增强原始的深层特征，接着我们使用ReLU激活函数和一个3*3卷积来产生调制特征图：

其中，f_k是位于k层级的深层特征，s_k是位于k层级的浅层特征，β(.)表示批量归一化操作，表示点乘操作，表示ReLU激活函数和3x3卷积的串行操作。经过浅层特征增强之后，生成了多尺度的调制特征图，所生成的多尺度调制特征图和原始多尺度深层特征维度相同。

(3)特征前向融合。如图3(c)所示，为了进一步强化空间信息，我们引入了一个简单的特征前向融合模块，该模块用来融合不同层级的调制特征图。我们在第二个到第四个层级之间部署特征前向融合模块。在特征前向融合模块中，前一层级的调制特征首先通过一个步长为2的3*3卷积层，达到和当前层级特征相同的语义级别的同时，下采样到和当前层级相同的分辨率。前一层级下采样后的特征图和当前层级的特征图首先通过批次归一化操作，然后使用点和操作融合不同层级的特征，所产生的特征图通过ReLU激活函数生成最终用来预测的特征图：

其中，m_k是位于k层级的调制特征，m_k-1是位于k-1层级的调制特征，φ_k(.)表示串联的步长为2的3*3卷积和批量归一化操作，β(.)表示批量归一化操作，表示点和操作，γ表示ReLU激活函数操作。

下面将对本发明的技术方案进行清楚、完整地描述，描述中将对单次多框检测器SSD[2]进行轻量级图像金字塔增强的方法，显然，所描述的实施例仅是本发明的一部分实例，而不是全部的实例。

将本发明应用于物体检测任务中，主要包含三个步骤：准备数据集；设计并训练基于轻量级图像金字塔增强的单阶段检测器；测试/应用检测模型。其具体实现步骤描述如下：

第一步：准备数据集。

(1)选择合适的物体检测数据集。目前较为常用的物体检测的数据集有PascalVOC和COCO等，有物体类别和物体检测框的标签信息。数据集中的图像大小不固定，在训练中可以根据实际硬件条件以及应用的需求，设置图像一边大小固定，另一边限定最大长度。作为一种示例，我们采用COCO数据集，在此数据采用的格式为512x512x3的彩色图像格式，所有图像经过随机翻转的数据增强和归一化操作。

(2)图像集划分。COCO2014数据集包括训练集，验证集和测试集。我们将用训练集和验证集一起训练基于轻量级图像金字塔的物体检测器，测试集为后续测试模型效果或者实际应用时使用。

第二步：设计并训练基于轻量级图像金字塔增强方法的单阶段检测器。

设计基于轻量级图像金字塔增强方法的单阶段检测器。整个设计包括选取合适的提取图像特征的主干网络、分类回归子网络以及设计轻量级图像金字塔网络、特征注意力模块和前向融合模块。在设计轻量级图像金字塔网络时，需要考虑图像下采样的方式、图像金字塔的层级数和轻量级卷积模块的卷积深度；在设计特征注意力模块和前向融合模块时，需要考虑两种特征融合的方式。并且还需要设置网络训练循环迭代的次数和网络最终收敛条件，并初始化网络参数。

本发明中采用VGG-16作为基础网络，在基础网络的基础上添加若干个卷积层后作为主干网络。在轻量级图像金字塔网络中，原始图像连续下采样四次，构建一个四个层级的图像金字塔，图像金字塔中每个层级的图像都会通过轻量级卷积模块，该轻量级的卷积模块在不同的四个层级中，采用不一样的深度，具体设置为随着特征所在层级越高，所设置的网络深度越深，每增加一个层级，就会增加一个1x1和一个3x3卷积。在特征注意力模块中，采取的特征融合的方式为特征点乘，而在前向融合模块中，所采取的特征融合方式为特征点加。分类回归子网络直接采用原始单次多框检测器SSD的默认设置，由于COCO数据集有80类物体，所以总的类别数(包含背景)为81，每个位置默认框的数目为9，对应三种不同面积与长宽比例的组合。默认框均匀分配到特征金字塔网络的各级输出，默认框的长宽比有1/2，1，2。所以对于每个预测层级来说，类别预测的通道数为81x9＝729个，定位预测的通道数为4x9＝36个。

(1)初始化设计好的基于轻量级图像金字塔增强方法的单阶段检测器，基础网络即VGG16用其在ImageNet数据集分类训练的权重初始化，剩余的网络层随机初始化。

(2)接着训练基于轻量级图像金字塔增强方法的单阶段检测器，将训练图像批量的输入到该网络中，进行计算和训练，具体步骤如下：

a)将训练图像数据分别输入到主干网络和轻量级图像金字塔网络，分别提取图片的深层高语义特征和浅层低语义特征。

b)对应层级的深层特征和浅层特征通过特征注意力模块进行融合生成调制特征，前一层级的调制特征再和当前层级的调制特征通过前向融合模块生成最终用于预测的特征。

c)将计算的预测特征再传到默认的分类子网络与检测框回归子网络。将分类子网络的输出与真值利用交叉熵损失函数计算损失，将检测框回归网络的输出与真值利用Smooth L1函数计算损失。

d)循环步骤a、b、c，经过多次迭代后，损失函数收敛，得到训练好的神经网络模型。

第三步：测试/引用训练好的网络模型。

(1)准备好测试集数据，调用设计好的网络结构和训练好的网络参数，并将测试图片批量或单张的输入到训练好的模型中。

(2)前向计算，将图像数据依次通过主干网络，轻量级图像金字塔网络，分类和回归子网络。分类子网络输出为检测框属于各类的概率，并选择概率最大的类别作为最终的检测框的类别，检测框回归子网络输出的是相对默认框的偏移量，经过偏移得到更加准确的检测框结果。经过非极大值抑制之后，将类别概率大于设定阈值的认定为最终的检测结果。

通过应用本专利方法于物体检测任务，该方法的有效性得到证明。将本专利方法应用于单次多框检测器SSD[2]中，引入轻量级图像金字塔网络，在COCO图像数据库上进行物体检测实验，采用本专利方法相比于原始单次多框检测器，整体检测准确率提升了5.8个百分点，小物体检测准确率提升了7.4个百分点。

Claims

1.一种基于轻量级图像金字塔网络的单阶段物体检测方法，包括下列步骤:

2)构建用于单阶段物体检测的三个网络：提取多尺度深层特征的主干网络、用于对检测框分类、回归的分类回归子网络和所提出的轻量级图像金字塔网络。主干网络中的骨干网络部分选取VGG16，分类回归子网络和标准的单次多框检测器SSD相同；所设计的轻量级图像金字塔网络，首先通过迭代下采样操作生成多层级图像金字塔，该图像金字塔接着通过所设计的轻量级卷积模块生成多尺度浅层特征，所产生的多尺度浅层特征和主干网络产生的多尺度深层特征利用浅层特征增强模块进行融合；在浅层特征增强模块中，相同分辨率的浅层特征和主干网络产生的深层特征首先通过批量归一化操作实现特征归一化，使浅层特征和深层特征的分布控制在同一个幅值范围内，然后通过点乘操作，实现浅层特征对对应层级的深层特征增强；增强后产生的多尺度特征再输入到所提出的特征前向融合模块，实现不同层级特征之间的融合，融合后的多尺度特征作为分类回归子网络的输入，用于对检测框分类和回归；