CN111046917A

CN111046917A - 基于深度神经网络的对象性增强目标检测方法

Info

Publication number: CN111046917A
Application number: CN201911143997.5A
Authority: CN
Inventors: 韩静; 张毅; 柏连发; 王灿龙; 陈霄宇; 黄永豪; 王其鑫
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-04-21
Anticipated expiration: 2039-11-20
Also published as: CN111046917B

Abstract

本发明公开了一种基于深度神经网络的对象性增强目标检测方法，基于单阶段目标检测网络，在浅层网络使用多尺度融合模块增强特征多尺度信息，并在单阶段目标检测网络中加入对象性估计模块为目标检测的所有预测特征提供对象性先验知识，构建基于深度神经网络的目标检测模型；将训练图像数据输入目标检测模型，利用反向传播算法更新目标检测模型网络参数，直至损失函数值变化量小于设定阈值，得到训练好的目标检测模型；将测试图像数据输入训练好的目标检测模型，得到目标检测结果。本发明加入对象性估计模块，使用对象分布概率图来提高单阶段目标检测的精度；加入多尺度融合模块，使得单阶段目标检测算法对目标的尺度变化更加鲁棒。

Description

基于深度神经网络的对象性增强目标检测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于深度神经网络的对象性增强目标检测方法。

背景技术

目标检测是计算机视觉的基础问题，应用广泛。现有的目标检测算法主要划分为两大类，一个是Faster R-CNN系列为代表的两阶段检测算法，另一个则是以YOLO和SSD为代表的单阶段检测算法。其中，两阶段检测器的第一个阶段是基于区域提议策略生成目标候选区域，第二个阶段就是将特征放入分类器并修正位置。区域提议策略在提升检测器性能的同时也牺牲了检测的速度，导致双阶段检测器往往很难达到检测的实时性。单阶段目标检测算法，没有区域建议的过程，直接对全图的密集候选区域进行预测，达到了检测精度和检测效率之间的平衡。由于单阶段检测算法没有候选区域提议策略，使用默认设置的候选区域数量极大，这给预测器带来了巨大的压力，同时单阶段检测器往往采用比较简单的预测器以保证检测速度，这也从根本上限制单阶段检测器的预测效果。

发明内容

本发明的目的在于提出了一种基于深度神经网络的对象性增强目标检测方法。

实现本发明目的的技术方案为：一种基于深度神经网络的对象性增强目标检测方法，其特征在于，包括如下步骤：

步骤1、基于单阶段目标检测网络，在浅层网络使用多尺度融合模块增强特征多尺度信息，并在单阶段目标检测网络中加入对象性估计模块为目标检测的所有预测特征提供对象性先验知识，构建基于深度神经网络的目标检测模型；

步骤2、将训练图像数据输入目标检测模型，利用反向传播算法更新目标检测模型网络参数，直至损失函数值变化量小于设定阈值，得到训练好的目标检测模型；

步骤3、将测试图像数据输入训练好的目标检测模型，得到目标检测结果。

步骤1中，使用SSD作为单阶段目标检测网络，将VGG16作为骨干网络提取特征，将VGG16的两个全连接层改成卷积层，去掉分类层和最后一个全连接层，并在此网络后面增加了8个局部卷积层；

使用多尺度融合模块来增强VGG16中conv4_3的输出特征，将增强后的特征输入到对象性估计模块与SSD的fc7层；

利用对象性估计模块使用语义分割网络SE-WResNetV2直接对VGG16的conv4_3层增强特征图进行对象性分布预测，对预测输出值使用Sigmoid激活函数映射到[0,1]，获得对象分布概率图；将对象分布概率图插值到SSD每个预测尺度，并用对象分布概率图乘以与之对应尺寸的预测特征图，为SSD的预测特征进行对象性的打分。

步骤2中，损失函数定义如下：

Loss＝loss_det+loss_oe (1)

其中，loss_det表示SSD的目标检测预测结果与目标检测地面实况之间的误差，loss_oe表示对象性分布的预测结果与对象性分布的地面实况之间的误差。

对象性分布地面实况直接由每种类别目标的边界框标注数据生成；对于场景中的背景类，生成对象性分布地面实况时，将所有目标的边界框内像素值设置为0，其余为1；对于场景中出现的目标，生成对象性分布地面实况时其目标的边界框内像素值设置为1，其余为0，表示场景中目标的分布。对于未出现在场景中的目标类别，在设置对象性地面实况时将全图像素值直接设置为0。

本发明与现有技术相比，其显著优点为：1)加入对象性估计模块，使用对象分布概率图来提高单阶段目标检测的精度；2)加入多尺度融合模块对浅层特征进行多尺度信息增强，使得单阶段目标检测算法对目标的尺度变化更加鲁棒。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1是本发明构建的对象性增强目标检测方法的流程图。

图2是本发明构建的对象性增强目标检测模型示意图。

图3是本发明使用的多尺度融合模块示意图，该模块是空洞卷积与Inception结构的结合。

图4是本发明目标对象性示意图，其中图顶层为地面实况，图底层为对象性估计模块输出的对象分布概率图。

图5是本发明在VOC评估工具上的评测结果图。

具体实施方式

如图1-2所示，基于深度神经网络的对象性增强目标检测方法，具体步骤为：

步骤1、构建基于深度神经网络的目标检测模型；

模型的框架搭建基于单阶段目标检测网络，在浅层网络使用多尺度融合模块增强特征多尺度信息，并在单阶段目标检测网络中加入对象性估计模块为目标检测的所有预测特征提供对象性先验知识。

作为一种具体实现，可以使用SSD作为单阶段目标检测网络分支。SSD(SingleShot MultiBox Detector)是Wei Liu在ECCV 2016上提出的一种目标检测算法，是截止至目前主要的检测框架之一。SSD从YOLO中继承了将Detection转化为Regression的思路，采用端到端的方式一次就可以完成网络训练，提出了和Faster RCNN中的锚(anchor)类似的预选框(priorbox)，并在预测层加入了特征金字塔的检测方式，适应多种尺度大小的目标。

SSD的架构主要分为两部分：一部分是位于前端的深度卷积神经网络，采用的是去除了分类层和顶层全连接层的图像分类网络，比如VGG，用来提取图像特征；另一部分是位于后端的多尺度特征目标检测网络，是一组级联的卷积神经网络，将前端网络产生的特征层进行不同尺度条件下的特征提取之后分别输入到目标检测的预测层。

SSD网络分支使用VGG16作为骨干网络来提取特征。VGG16由3层全连接、13层局部卷积层和5层Pooling层构成，Pooling层使用Max Pooling来改变特征图的大小，减少网络参数的同时选出了分类辨识度更好的特征，而且还加入了非线性因素控制过拟合和提高模型性能。VGG16在每一层卷积后使用ReLU激活函数。当输入为负数的时候，输出为0，引入非线性因子；当输入为正数时，输出为该正数本身，这样解决了其他激活函数梯度消失的问题。同时，ReLU激活函数的计算量很小，速度快。SSD将VGG16的两个全连接层改成卷积层，去掉分类层和最后一个全连接层，并在此网络后面增加了8个局部卷积层来构造更深的特征提取网络。

如图3所示，多尺度融合模块基于RFBNet。RFBNet是一种ASPP变体结构，它结合了Inception结构，该结构在不引入大量参数的情况下生成多尺度特征。将该模块嵌入到SSD的conv4_3层与fc7层之间，进行浅层特征的多尺度信息增强。

所述对象性估计模块基于语义分割网络SE-WResNetV2。SE-WResNetV2是基于编码器-解码器深度网络结构的图像分割算法，可以在平衡精度和效率的前提下实现端到端的语义分割，即把目标与背景区分开，利用图像中不同区域在灰度、颜色、纹理或几何形状等特征上表现出来的差异性，将图像划分成若干个独立的区域，同一区域内所有像素点在选定的特征空间上能表现出很高相似性，不同区域之间则会表现出明显的不同，由此实现目标与背景的分离。

首先，使用多尺度融合模块来增强VGG16中conv4_3的输出特征。然后将增强后的特征输入到对象性估计模块与SSD的fc7层。对象性估计模块使用语义分割网络SE-WResNetV2直接对VGG16的conv4_3层输出特征图进行对象性分布预测，其输出值的值域范围使用Sigmoid激活函数映射到[0,1]，来获得对象分布概率图。最后，将对象分布概率图插值到SSD每个预测尺度，并用对象分布概率图乘以与之对应尺寸的预测特征图，为SSD的预测特征进行对象性的打分。通过对象分布概率图可以抑制背景特征对分类的干扰，并突出前景特征，起到辅助目标检测任务的作用。

步骤2、将训练图像数据输入步骤1构建的目标检测模型，利用反向传播算法更新目标检测模型网络参数，直至损失函数值变化量小于设定阈值，选取此时训练的模型参数作为训练好的模型的网络参数；

对于对象性增强目标检测网络的反向传播过程，其损失函数定义如下：

Loss＝loss_det+loss_oe (1)

其中，loss_det表示SSD的目标检测预测结果与目标检测地面实况之间的误差，loss_oe表示对象性分布的预测结果与对象性分布的地面实况之间的误差。对象性分布地面实况示例如图4所示，直接由每种类别目标的边界框标注数据生成。对于场景中的背景类，生成对象性分布地面实况时，将所有目标的边界框内像素值设置为0，其余为1。对于场景中出现的目标，生成对象性分布地面实况时其目标的边界框内像素值设置为1，其余为0，表示场景中目标的分布。对于未出现在场景中的目标类别，在设置对象性地面实况时将全图像素值直接设置为0。

实施例

为了验证本发明方案的有效性，进行如下仿真实验。

基于VOC2007 trainval和VOC2012 trainval训练数据集，在具有1个NVIDIARTX2080Ti 11GB GPU的机器上，进行对象性增强目标检测。本发明模型训练过程中，学习速率设置为三个阶段：1e-3,1e-4和1e-5，对应迭代次数为80k，20k和20k。将BatchSize设置为16，其余参数与原始SSD实验一致。

本实施例训练了300*300和512*512的模型，两个模型都是将conv4_3层的输出特征图作为对象性估计模块的输入特征图，不同之处在于，在300*300输入图像尺度下，conv4_3层的输出特征图的尺度为38*38，在512*512输入图像尺度下，conv4_3层的输出特征图的尺度为64*64。经典语义分割网络有三个下采样和三个上采样过程，由于conv4_3层的输出特征图的尺寸在输入图像尺度为300*300时足够小，所以，在300*300的输入图像尺度下，对象性估计模块中仅使用一个下采样和一个上采样过程。而在512*512的输入图像尺度下，保持原始的三个上采样和下采样操作不变。

在VOC2007测试集上评估模型，各方法的实验对比结果如表1所示，可以看出，本发明的方法OEDet在300和512的输入图像尺度下，准确率要高于单阶段目标检测算法SSD和RON，甚至逼近性能较优的双阶段目标检测算法R-FCN。不同目标特性对VOC2007测试数据的敏感性和影响如图5所示，可以看出，本发明的方法OEDet在小目标和极限长宽比的目标上都有很好的表现。

表1:PASCALVOC2007实验结果

为了进一步验证本发明提出的基于深度神经网络的对象性增强目标检测方法的综合性能，在MS-COCO的COCO trainval2014数据集训练300*300和512*512模型。模型训练过程中，将BatchSize设置为16，其余参数与原始SSD实验一致，首先使用学习率1e-3训练网络进行280k次迭代，然后使用学习率1e-4进行80k次迭代训练，最后使用学习率1e-5进行40k次迭代训练。在COCO test-dev2017上进行测试，各方法准确率的对比结果如表2所示，可以看出，本发明的方法OEDet与SSD目标检测算法相比在所有指标上提供巨大的改进。

表2:MS-COCO实验结果

Claims

1.基于深度神经网络的对象性增强目标检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度神经网络的对象性增强目标检测方法，其特征在于，步骤1中，使用SSD作为单阶段目标检测网络，将VGG16作为骨干网络提取特征，将VGG16的两个全连接层改成卷积层，去掉分类层和最后一个全连接层，并在此网络后面增加了8个局部卷积层；

3.根据权利要求1所述的基于深度神经网络的对象性增强目标检测方法，其特征在于，步骤2中，损失函数定义如下：

Loss＝loss_det+loss_oe (1)

4.根据权利要求1所述的基于深度神经网络的对象性增强目标检测方法，其特征在于，对象性分布地面实况直接由每种类别目标的边界框标注数据生成；对于场景中的背景类，生成对象性分布地面实况时，将所有目标的边界框内像素值设置为0，其余为1；对于场景中出现的目标，生成对象性分布地面实况时其目标的边界框内像素值设置为1，其余为0，表示场景中目标的分布。对于未出现在场景中的目标类别，在设置对象性地面实况时将全图像素值直接设置为0。