CN111027542A - 一种基于Faster RCNN算法改进的目标检测方法 - Google Patents
一种基于Faster RCNN算法改进的目标检测方法 Download PDFInfo
- Publication number
- CN111027542A CN111027542A CN201911143979.7A CN201911143979A CN111027542A CN 111027542 A CN111027542 A CN 111027542A CN 201911143979 A CN201911143979 A CN 201911143979A CN 111027542 A CN111027542 A CN 111027542A
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- layers
- target detection
- densenet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开一种基于Faster RCNN算法改进的目标检测方法,包括以下步骤:(1)输入一张图片,然后对输入图片进行预处理,调整输入图片的大小;(2)通过DenseNet网络进行特征提取,随后在提取到的特征图上分为上、下两条支路;(3)对上步得到的上支路通过RPN网络产生候选框,下支路ROI网络利用DenseNet网络产生的特征图和上支路产生的候选框,得到固定大小的提案特征图;(4)通过预测模块进行目标分类和定位。
Description
技术领域
本发明涉及计算机视觉目标检测、图像处理领域,特别是涉及一种基于FasterRCNN[1]算法改进的目标检测方法。
背景技术
随着深度学习的兴起,目标检测技术得到了飞速发展。传统的目标检测技术主要分为两大类:一是基于区域提议的目标检测方法,如RCNN系列(RCNN,Fast RCNN[3]以及Faster RCNN等);二是单阶段的目标检测方法,如YOLO、SSD[1]以及DSSD等。前者精度高,但速度慢;后者精度低,但速度快。
目标检测技术是计算机视觉和图像处理的一个热门方向,它可以用于无人驾驶汽车、智能视频监控等诸多领域,因此,对目标检测系统的改进越来越重要。针对第一类目标检测方法的改进大致有4个方面:1、骨干网络采用复杂的网络模型,如:DenseNet、DPN等,来提取特征;2、利用FPN[5](特征金字塔网络)或DPM[2](可变形组件模型)等来进行多尺度训练;3、改进后处理操作方法,如:NMS(非极大值抑制)、Soft NMS(软化非极大值抑制)等;4、增强系统定位能力以提高精度,如:Cascade Net(级联网络),迭代的边界框回归方法等。
虽然第一类目标检测方法有很多,但大多数的方法只是改进其中的某一方面,并没有进行有效的综合。因此在本篇专利中,不再使用VGG16或者ZF[7]作为骨干网络,而是使用DenseNet作为骨干网络,来减少参数数目,提高检测速度,同时,用Softer NMS[6]算法来代替传统的NMS算法以提高系统的定位精度。
经典的Faster RCNN算法虽然有不错的检测效果,但是它有两个问题比较突出:一是参数数目较多,检测速度慢;二是使用目标的分类分数来体现定位的精确度,传统的NMS算法会将得分较低的框过滤掉导致定位准确率降低。
本发明中涉及的相关术语解释:
Faster RCNN:基于区域提议的更快卷积神经网络
Fast RCNN:基于区域提议的快速卷积神经网络
RCNN:(Regions with CNN features)基于区域提议的卷积神经网络
YOLO:(You only look once)
SSD:(Single Shot MultiBox Detector)单次多边界盒检测器
DSSD:(Deconvolutional Single Shot MultiBox Detector)反卷积单次多边界盒检测器
DenseNet:(Densely Connected Convolutional Networks)密集连接卷积网络
DPN:(Dual Path Networks)双路径网络
NMS:(Non-Maximum Suppression)非极大值抑制
Soft NMS:(soft Non-Maximum Suppression)软化非极大值抑制
Softer NMS:(soft Non-Maximum Suppression)更软化非极大值抑制
Cascade Rcnn:(Cascade Regions with CNN features)基于区域的级联卷积神经网络
FPN:(Feature Pyramid Networks)特征金字塔网络
DPM:(Deformable Parts Model)可变形组件模型
RPN:(Region Proposal Network)区域生成网络
参考文献:
[1]Single-Shot Refinement Neural Network for Object Detection,ShifengZhang;Longyin Wen;Xiao Bian著
[2]Bottom-up Object Detection by Grouping Extreme and Center Points,Xingyi Zhou;Jiacheng Zhuo;Philipp Krahenb uhl著
[3]Fast R-CNN,Ross Girshick著
[4]Faster R-CNN:Towards Real-Time Object Detection with RegionProposal Networks,Shaoqing Ren;Kaiming He;Ross Girshick;Jian Sun著
[5]Feature Pyramid Networks for Object Detection,Tsung-Yi Lin;PiotrDollár;Ross Girshick;Kaiming He;Bharath Hariharan;Serge Belongie著
[6]Bounding Box Regression with Uncertainty for Accurate ObjectDetection,Yihui He;Chenchen Zhu;Jianren Wang著
[7]Domain Adaptive Faster R-CNN for Object Detection in the Wild,Yuhua Chen;Wen Li;Christos Sakaridis著
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于Faster RCNN算法改进的目标检测方法,通过对原始方法进行两方面的改进,从而提高了检测速度并进一步提高了准确率。首先在对输入图片进行特征提取时采用性能更优,参数量更少的网络DenseNet,以提高检测速度,其次在RPN(区域提案网络)中,使用Softer NMS算法,以提高检测精度。
本发明的目的是通过以下技术方案实现的:
一种基于Faster RCNN算法改进的目标检测方法,包括以下步骤:
(1)输入一张图片,然后对输入图片进行预处理,调整输入图片的大小;
(2)通过DenseNet网络进行特征提取,随后在提取到的特征图上分为上、下两条支路;
(3)对上步得到的上支路通过RPN网络产生候选框,下支路ROI网络利用DenseNet网络产生的特征图和上支路产生的候选框,得到固定大小的提案特征图;
(4)通过预测模块进行目标分类和定位。
进一步的,步骤(2)中DenseNet网络由卷积层、3个密集连接块(Dense Block)和过渡层构成,在Dense Block中,每一层的输出都与前面几层输出有关,其输出函数为Xn=Hn([X0,X1,X2,X3””Xn-1]),Xn代表Dense Block中第n层输出,X0~Xn-1代表前边所有层的输出,Hn函数由BN、ReLU和3*3的卷积层构成;两个Dense Block结构之间为过渡层,过渡层是由1*1的卷积层和2*2的平均池化层组成,此外,在过渡层中引入压缩系数θ,来进一步减少参数数量。
进一步的,步骤(3)中利用RPN网络产生候选框的过程如下:首先将DenseNet网络产生的特征图作为RPN网络的输入,然后经过滑动窗口即3*3的卷积层,在滑动窗口的每个像素点对应的原图图片上设置9个矩形窗口得到锚框,将锚框输入到两个1*1的卷积层中进行分类和回归,最后经过后处理Softer NMS得到候选框。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1、本发明Faster RCNN的骨干网络采用DenseNet,此骨干网络采用密集连接方式,使网络中的每一层都与前面层相连,这样每一层的输出特征都和前面层所提取的特征有关,实现了特征重用,另外,它把网络的每一层都设计的比较窄,只学习非常少的特征图,并且在过渡层中引入压缩系数θ,从而减少了网络中的参数数目,提高了检测速度,缩短训练所产生的时间。
2、Softer NMS算法在Soft NMS算法的基础上,提出了一种新的候选框损失函数KLLoss和基于此候选框置信度的加权平均NMS方法,解决了包围框精度不高的问题,从而提高了目标检测的定位准确度。在耗时方面,也仅仅比Soft NMS算法慢2毫秒左右。
附图说明
图1是本发明方法的框架结构示意图。
图2是DenseNet网络的框架结构示意图。
图3是Dense Block网络的框架结构示意图。
图4是RPN网络的框架结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的网络框架如图1所示,涉及DenseNet、RPN、ROI和预测模块,其中各个模块的功能如下:
DenseNet网络通过密集连接方式实现特征重复利用,增强了特征传播,减少了参数数量,提高了检测速度。此网络由卷积层、3个Dense Block(密集连接块)和过渡层构成,其结构如图2所示。在Dense Block中,每一层的输出都与前面几层输出有关,其输出函数为Xn=Hn([X0,X1,X2,X3””Xn-1]),Xn代表Dense Block中第n层输出,X0~Xn-1代表前边所有层的输出,Hn函数由BN、ReLU和3*3的卷积层构成,其结构如图3所示;两个Dense Block结构之间为过渡层(瓶颈层),它是由1*1的卷积层和2*2的平均池化层组成,此外,在过渡层中引入压缩系数θ,来进一步减少参数数量。
RPN模块是用来产生候选框的。首先将DenseNet网络产生的特征图作为该模块的输入,然后经过滑动窗口(其本质是3*3的卷积层),在滑动窗口的每个像素点对应的原图图片上设置9个矩形窗口得到锚框,将其输入到两个1*1的卷积层中进行分类和回归,最后经过后处理Softer NMS得到候选框,其结构如图4所示。在传统的RPN网络中,一般是通过非极大抑制来选取最优的候选框,但此种方法是把目标的分类分数来作为候选位置精确度的体现,在实际中拥有高的分类分数并不一定就拥有高的定位精度。因此,本专利采用了SofterNMS算法来同时学习候选框变化和定位置信度以解决上述问题。使用该算法可以大大提高定位精确度,而且几乎不会增加额外的计算。
ROI模块是将RPN所产生的候选框通过一定的公式比例投影到DenseNet产生的特征图上,其最终结果是在特征图上产生多个候选框。这些候选框就是感兴趣区域,一般来说感兴趣区域越多目标检测精度就会越高越但耗时也会变长。
预测模块首先会将ROI层形成的特征图进行全连接操作,然后利用Softmax函数进行分类,同时完成边界框回归操作进行准确定位。
整个网络的工作流程如图1所示:首先输入一张图片,然后对输入图片进行预处理,调整其大小,以方便后续处理,然后通过DenseNet网络进行特征提取,随后在提取到的特征图上分为上、下两条支路,上支路通过RPN网络产生候选框,下支路通过ROI利用DenseNet网络产生的特征图和上支路产生的候选框,来得到固定大小的提案特征图,最后则通过预测模块来进行目标分类和定位。
本专利适用于当前各类目标检测的实际应用中。采用的骨干网络是DenseNet,可以提高检测速度,所以适用于实时检测的情景中,如:公共场所的一些突发事件等。采用了Softer NMS算法,可以捕捉到数据集中的歧义,从有歧义的边框中获得更小的损失,相比于传统的NMS算法,几乎不会增加多余的计算,而且提高了定位精度,适用于需要精确检测或者周围环境干扰较多的情境中,如:雨天,对汽车有无违反交通规则的检测等。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (3)
1.一种基于Faster RCNN算法改进的目标检测方法,其特征在于,包括以下步骤:
(1)输入一张图片,然后对输入图片进行预处理,调整输入图片的大小;
(2)通过DenseNet网络进行特征提取,随后在提取到的特征图上分为上、下两条支路;
(3)对上步得到的上支路通过RPN网络产生候选框,下支路ROI网络利用DenseNet网络产生的特征图和上支路产生的候选框,得到固定大小的提案特征图;
(4)通过预测模块进行目标分类和定位。
2.根据权利要求1所述一种基于Faster RCNN算法改进的目标检测方法,其特征在于,步骤(2)中DenseNet网络由卷积层、3个密集连接块(Dense Block)和过渡层构成,在DenseBlock中,每一层的输出都与前面几层输出有关,其输出函数为Xn=Hn([X0,X1,X2,X3””Xn-1]),Xn代表Dense Block中第n层输出,X0~Xn-1代表前边所有层的输出,Hn函数由BN、ReLU和3*3的卷积层构成;两个Dense Block结构之间为过渡层,过渡层是由1*1的卷积层和2*2的平均池化层组成,此外,在过渡层中引入压缩系数θ,来进一步减少参数数量。
3.根据权利要求1所述一种基于Faster RCNN算法改进的目标检测方法,其特征在于,步骤(3)中利用RPN网络产生候选框的过程如下:首先将DenseNet网络产生的特征图作为RPN网络的输入,然后经过滑动窗口即3*3的卷积层,在滑动窗口的每个像素点对应的原图图片上设置9个矩形窗口得到锚框,将锚框输入到两个1*1的卷积层中进行分类和回归,最后经过后处理Softer NMS得到候选框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911143979.7A CN111027542A (zh) | 2019-11-20 | 2019-11-20 | 一种基于Faster RCNN算法改进的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911143979.7A CN111027542A (zh) | 2019-11-20 | 2019-11-20 | 一种基于Faster RCNN算法改进的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111027542A true CN111027542A (zh) | 2020-04-17 |
Family
ID=70205972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911143979.7A Pending CN111027542A (zh) | 2019-11-20 | 2019-11-20 | 一种基于Faster RCNN算法改进的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111027542A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553282A (zh) * | 2020-04-29 | 2020-08-18 | 北京百度网讯科技有限公司 | 用于检测车辆的方法和装置 |
CN111931729A (zh) * | 2020-09-23 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的行人检测方法、装置、设备及介质 |
CN112801183A (zh) * | 2021-01-28 | 2021-05-14 | 哈尔滨理工大学 | 一种基于YOLO v3的多尺度目标检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140112660A1 (en) * | 2012-10-19 | 2014-04-24 | Ciena Corporation | Systems and methods for channel additions over multiple cascaded optical nodes |
US20170076198A1 (en) * | 2015-09-11 | 2017-03-16 | Facebook, Inc. | High-capacity machine learning system |
CN110033041A (zh) * | 2019-04-13 | 2019-07-19 | 湖南大学 | 一种基于深度学习的基因表达谱距离度量方法 |
CN110046572A (zh) * | 2019-04-15 | 2019-07-23 | 重庆邮电大学 | 一种基于深度学习的地标建筑物识别与检测方法 |
CN110211097A (zh) * | 2019-05-14 | 2019-09-06 | 河海大学 | 一种基于Faster R-CNN参数迁移的裂缝图像检测方法 |
-
2019
- 2019-11-20 CN CN201911143979.7A patent/CN111027542A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140112660A1 (en) * | 2012-10-19 | 2014-04-24 | Ciena Corporation | Systems and methods for channel additions over multiple cascaded optical nodes |
US20170076198A1 (en) * | 2015-09-11 | 2017-03-16 | Facebook, Inc. | High-capacity machine learning system |
CN110033041A (zh) * | 2019-04-13 | 2019-07-19 | 湖南大学 | 一种基于深度学习的基因表达谱距离度量方法 |
CN110046572A (zh) * | 2019-04-15 | 2019-07-23 | 重庆邮电大学 | 一种基于深度学习的地标建筑物识别与检测方法 |
CN110211097A (zh) * | 2019-05-14 | 2019-09-06 | 河海大学 | 一种基于Faster R-CNN参数迁移的裂缝图像检测方法 |
Non-Patent Citations (1)
Title |
---|
陈景明,金杰,王伟锋: "Refine-FPN:一种基于FPN算法的改进" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553282A (zh) * | 2020-04-29 | 2020-08-18 | 北京百度网讯科技有限公司 | 用于检测车辆的方法和装置 |
CN111553282B (zh) * | 2020-04-29 | 2024-03-29 | 北京百度网讯科技有限公司 | 用于检测车辆的方法和装置 |
CN111931729A (zh) * | 2020-09-23 | 2020-11-13 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的行人检测方法、装置、设备及介质 |
CN111931729B (zh) * | 2020-09-23 | 2021-01-08 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的行人检测方法、装置、设备及介质 |
CN112801183A (zh) * | 2021-01-28 | 2021-05-14 | 哈尔滨理工大学 | 一种基于YOLO v3的多尺度目标检测方法 |
CN112801183B (zh) * | 2021-01-28 | 2023-09-08 | 哈尔滨理工大学 | 一种基于YOLO v3的多尺度目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241982B (zh) | 基于深浅层卷积神经网络的目标检测方法 | |
CN110263706B (zh) | 一种雾霾天气车载视频动态目标检测和识别的方法 | |
CN113688723B (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN110633610B (zh) | 一种基于yolo的学员状态检测方法 | |
CN114022432B (zh) | 基于改进的yolov5的绝缘子缺陷检测方法 | |
CN111027542A (zh) | 一种基于Faster RCNN算法改进的目标检测方法 | |
CN107680113A (zh) | 基于贝叶斯框架边缘先验的多层分割网络的图像分割方法 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN111783819B (zh) | 小规模数据集上基于感兴趣区域训练改进的目标检测方法 | |
CN110472634A (zh) | 基于多尺度深度特征差值融合网络的变化检测方法 | |
CN113591617B (zh) | 基于深度学习的水面小目标检测与分类方法 | |
CN107944354A (zh) | 一种基于深度学习的车辆检测方法 | |
CN111209858A (zh) | 一种基于深度卷积神经网络的实时车牌检测方法 | |
CN112633149A (zh) | 一种域自适应雾天图像目标检测方法和装置 | |
Han et al. | A method based on multi-convolution layers joint and generative adversarial networks for vehicle detection | |
CN112183649A (zh) | 一种用于对金字塔特征图进行预测的算法 | |
CN111540203B (zh) | 基于Faster-RCNN调节绿灯通行时间的方法 | |
CN116402850A (zh) | 一种面向智能驾驶的多目标跟踪方法 | |
CN111915558A (zh) | 一种高压输电线销钉状态检测方法 | |
CN116503709A (zh) | 一种基于改进YOLOv5的雾霾天气下车辆检测方法 | |
CN111931572B (zh) | 一种遥感影像的目标检测方法 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN111160282B (zh) | 一种基于二值化Yolov3网络的红绿灯检测方法 | |
CN113627481A (zh) | 一种面向智慧园林的多模型组合的无人机垃圾分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |