CN111027542A

CN111027542A - 一种基于Faster RCNN算法改进的目标检测方法

Info

Publication number: CN111027542A
Application number: CN201911143979.7A
Authority: CN
Inventors: 郭如意; 金杰; 陈景明; 刘凯燕
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-04-17

Abstract

本发明公开一种基于Faster RCNN算法改进的目标检测方法，包括以下步骤：(1)输入一张图片，然后对输入图片进行预处理，调整输入图片的大小；(2)通过DenseNet网络进行特征提取，随后在提取到的特征图上分为上、下两条支路；(3)对上步得到的上支路通过RPN网络产生候选框，下支路ROI网络利用DenseNet网络产生的特征图和上支路产生的候选框，得到固定大小的提案特征图；(4)通过预测模块进行目标分类和定位。

Description

一种基于Faster RCNN算法改进的目标检测方法

技术领域

本发明涉及计算机视觉目标检测、图像处理领域，特别是涉及一种基于FasterRCNN[1]算法改进的目标检测方法。

背景技术

随着深度学习的兴起，目标检测技术得到了飞速发展。传统的目标检测技术主要分为两大类：一是基于区域提议的目标检测方法，如RCNN系列(RCNN，Fast RCNN[3]以及Faster RCNN等)；二是单阶段的目标检测方法，如YOLO、SSD[1]以及DSSD等。前者精度高，但速度慢；后者精度低，但速度快。

目标检测技术是计算机视觉和图像处理的一个热门方向，它可以用于无人驾驶汽车、智能视频监控等诸多领域，因此，对目标检测系统的改进越来越重要。针对第一类目标检测方法的改进大致有4个方面：1、骨干网络采用复杂的网络模型，如：DenseNet、DPN等，来提取特征；2、利用FPN[5](特征金字塔网络)或DPM[2](可变形组件模型)等来进行多尺度训练；3、改进后处理操作方法，如：NMS(非极大值抑制)、Soft NMS(软化非极大值抑制)等；4、增强系统定位能力以提高精度，如：Cascade Net(级联网络)，迭代的边界框回归方法等。

虽然第一类目标检测方法有很多，但大多数的方法只是改进其中的某一方面，并没有进行有效的综合。因此在本篇专利中，不再使用VGG16或者ZF[7]作为骨干网络，而是使用DenseNet作为骨干网络，来减少参数数目，提高检测速度，同时，用Softer NMS[6]算法来代替传统的NMS算法以提高系统的定位精度。

经典的Faster RCNN算法虽然有不错的检测效果，但是它有两个问题比较突出：一是参数数目较多，检测速度慢；二是使用目标的分类分数来体现定位的精确度，传统的NMS算法会将得分较低的框过滤掉导致定位准确率降低。

本发明中涉及的相关术语解释：

Faster RCNN:基于区域提议的更快卷积神经网络

Fast RCNN:基于区域提议的快速卷积神经网络

RCNN:(Regions with CNN features)基于区域提议的卷积神经网络

YOLO:(You only look once)

SSD:(Single Shot MultiBox Detector)单次多边界盒检测器

DSSD:(Deconvolutional Single Shot MultiBox Detector)反卷积单次多边界盒检测器

DenseNet:(Densely Connected Convolutional Networks)密集连接卷积网络

DPN:(Dual Path Networks)双路径网络

NMS:(Non-Maximum Suppression)非极大值抑制

Soft NMS:(soft Non-Maximum Suppression)软化非极大值抑制

Softer NMS:(soft Non-Maximum Suppression)更软化非极大值抑制

Cascade Rcnn:(Cascade Regions with CNN features)基于区域的级联卷积神经网络

FPN:(Feature Pyramid Networks)特征金字塔网络

DPM:(Deformable Parts Model)可变形组件模型

RPN:(Region Proposal Network)区域生成网络

参考文献：

[1]Single-Shot Refinement Neural Network for Object Detection,ShifengZhang；Longyin Wen；Xiao Bian著

[2]Bottom-up Object Detection by Grouping Extreme and Center Points,Xingyi Zhou；Jiacheng Zhuo；Philipp Krahenb uhl著

[3]Fast R-CNN,Ross Girshick著

[4]Faster R-CNN:Towards Real-Time Object Detection with RegionProposal Networks,Shaoqing Ren；Kaiming He；Ross Girshick；Jian Sun著

[5]Feature Pyramid Networks for Object Detection,Tsung-Yi Lin；PiotrDollár；Ross Girshick；Kaiming He；Bharath Hariharan；Serge Belongie著

[6]Bounding Box Regression with Uncertainty for Accurate ObjectDetection,Yihui He；Chenchen Zhu；Jianren Wang著

[7]Domain Adaptive Faster R-CNN for Object Detection in the Wild，Yuhua Chen；Wen Li；Christos Sakaridis著

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于Faster RCNN算法改进的目标检测方法，通过对原始方法进行两方面的改进，从而提高了检测速度并进一步提高了准确率。首先在对输入图片进行特征提取时采用性能更优，参数量更少的网络DenseNet，以提高检测速度，其次在RPN(区域提案网络)中，使用Softer NMS算法，以提高检测精度。

本发明的目的是通过以下技术方案实现的：

一种基于Faster RCNN算法改进的目标检测方法，包括以下步骤：

(1)输入一张图片，然后对输入图片进行预处理，调整输入图片的大小；

(2)通过DenseNet网络进行特征提取，随后在提取到的特征图上分为上、下两条支路；

(3)对上步得到的上支路通过RPN网络产生候选框，下支路ROI网络利用DenseNet网络产生的特征图和上支路产生的候选框，得到固定大小的提案特征图；

(4)通过预测模块进行目标分类和定位。

进一步的，步骤(2)中DenseNet网络由卷积层、3个密集连接块(Dense Block)和过渡层构成，在Dense Block中，每一层的输出都与前面几层输出有关，其输出函数为X_n＝H_n([X_0,X_1,X_2,X₃””X_n-1])，X_n代表Dense Block中第n层输出，X_0～X_n-1代表前边所有层的输出，H_n函数由BN、ReLU和3*3的卷积层构成；两个Dense Block结构之间为过渡层，过渡层是由1*1的卷积层和2*2的平均池化层组成，此外，在过渡层中引入压缩系数θ，来进一步减少参数数量。

进一步的，步骤(3)中利用RPN网络产生候选框的过程如下：首先将DenseNet网络产生的特征图作为RPN网络的输入，然后经过滑动窗口即3*3的卷积层，在滑动窗口的每个像素点对应的原图图片上设置9个矩形窗口得到锚框，将锚框输入到两个1*1的卷积层中进行分类和回归，最后经过后处理Softer NMS得到候选框。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1、本发明Faster RCNN的骨干网络采用DenseNet，此骨干网络采用密集连接方式，使网络中的每一层都与前面层相连，这样每一层的输出特征都和前面层所提取的特征有关，实现了特征重用，另外，它把网络的每一层都设计的比较窄，只学习非常少的特征图，并且在过渡层中引入压缩系数θ，从而减少了网络中的参数数目，提高了检测速度，缩短训练所产生的时间。

2、Softer NMS算法在Soft NMS算法的基础上，提出了一种新的候选框损失函数KLLoss和基于此候选框置信度的加权平均NMS方法，解决了包围框精度不高的问题，从而提高了目标检测的定位准确度。在耗时方面，也仅仅比Soft NMS算法慢2毫秒左右。

附图说明

图1是本发明方法的框架结构示意图。

图2是DenseNet网络的框架结构示意图。

图3是Dense Block网络的框架结构示意图。

图4是RPN网络的框架结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的网络框架如图1所示，涉及DenseNet、RPN、ROI和预测模块，其中各个模块的功能如下：

DenseNet网络通过密集连接方式实现特征重复利用，增强了特征传播，减少了参数数量，提高了检测速度。此网络由卷积层、3个Dense Block(密集连接块)和过渡层构成，其结构如图2所示。在Dense Block中，每一层的输出都与前面几层输出有关，其输出函数为X_n＝H_n([X_0,X_1,X_2,X₃””X_n-1])，X_n代表Dense Block中第n层输出，X_0～X_n-1代表前边所有层的输出，H_n函数由BN、ReLU和3*3的卷积层构成，其结构如图3所示；两个Dense Block结构之间为过渡层(瓶颈层)，它是由1*1的卷积层和2*2的平均池化层组成，此外，在过渡层中引入压缩系数θ，来进一步减少参数数量。

RPN模块是用来产生候选框的。首先将DenseNet网络产生的特征图作为该模块的输入，然后经过滑动窗口(其本质是3*3的卷积层)，在滑动窗口的每个像素点对应的原图图片上设置9个矩形窗口得到锚框，将其输入到两个1*1的卷积层中进行分类和回归，最后经过后处理Softer NMS得到候选框，其结构如图4所示。在传统的RPN网络中，一般是通过非极大抑制来选取最优的候选框，但此种方法是把目标的分类分数来作为候选位置精确度的体现，在实际中拥有高的分类分数并不一定就拥有高的定位精度。因此，本专利采用了SofterNMS算法来同时学习候选框变化和定位置信度以解决上述问题。使用该算法可以大大提高定位精确度，而且几乎不会增加额外的计算。

ROI模块是将RPN所产生的候选框通过一定的公式比例投影到DenseNet产生的特征图上，其最终结果是在特征图上产生多个候选框。这些候选框就是感兴趣区域，一般来说感兴趣区域越多目标检测精度就会越高越但耗时也会变长。

预测模块首先会将ROI层形成的特征图进行全连接操作，然后利用Softmax函数进行分类，同时完成边界框回归操作进行准确定位。

整个网络的工作流程如图1所示：首先输入一张图片，然后对输入图片进行预处理，调整其大小，以方便后续处理，然后通过DenseNet网络进行特征提取，随后在提取到的特征图上分为上、下两条支路，上支路通过RPN网络产生候选框，下支路通过ROI利用DenseNet网络产生的特征图和上支路产生的候选框，来得到固定大小的提案特征图，最后则通过预测模块来进行目标分类和定位。

本专利适用于当前各类目标检测的实际应用中。采用的骨干网络是DenseNet，可以提高检测速度，所以适用于实时检测的情景中，如：公共场所的一些突发事件等。采用了Softer NMS算法，可以捕捉到数据集中的歧义，从有歧义的边框中获得更小的损失，相比于传统的NMS算法，几乎不会增加多余的计算，而且提高了定位精度，适用于需要精确检测或者周围环境干扰较多的情境中，如：雨天，对汽车有无违反交通规则的检测等。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于Faster RCNN算法改进的目标检测方法，其特征在于，包括以下步骤：

(4)通过预测模块进行目标分类和定位。

2.根据权利要求1所述一种基于Faster RCNN算法改进的目标检测方法，其特征在于，步骤(2)中DenseNet网络由卷积层、3个密集连接块(Dense Block)和过渡层构成，在DenseBlock中，每一层的输出都与前面几层输出有关，其输出函数为X_n＝H_n([X_0,X_1,X_2,X_3””X_n-1])，X_n代表Dense Block中第n层输出，X_0～X_n-1代表前边所有层的输出，H_n函数由BN、ReLU和3*3的卷积层构成；两个Dense Block结构之间为过渡层，过渡层是由1*1的卷积层和2*2的平均池化层组成，此外，在过渡层中引入压缩系数θ，来进一步减少参数数量。

3.根据权利要求1所述一种基于Faster RCNN算法改进的目标检测方法，其特征在于，步骤(3)中利用RPN网络产生候选框的过程如下：首先将DenseNet网络产生的特征图作为RPN网络的输入，然后经过滑动窗口即3*3的卷积层，在滑动窗口的每个像素点对应的原图图片上设置9个矩形窗口得到锚框，将锚框输入到两个1*1的卷积层中进行分类和回归，最后经过后处理Softer NMS得到候选框。