CN111178434A - 一种基于Faster-RCNN的目标检测方法 - Google Patents

一种基于Faster-RCNN的目标检测方法 Download PDF

Info

Publication number
CN111178434A
CN111178434A CN201911396092.9A CN201911396092A CN111178434A CN 111178434 A CN111178434 A CN 111178434A CN 201911396092 A CN201911396092 A CN 201911396092A CN 111178434 A CN111178434 A CN 111178434A
Authority
CN
China
Prior art keywords
rcnn
feature
fast
training
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911396092.9A
Other languages
English (en)
Inventor
武建宇
李永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911396092.9A priority Critical patent/CN111178434A/zh
Publication of CN111178434A publication Critical patent/CN111178434A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

一种基于Faster‑RCNN的目标检测方法,涉及计算机视觉领域。首先对Faster‑RCNN的基础特征提取网络VGG16进行改进,在VGG16的Conv1_2卷积层和Conv2_2卷积层采用相加法进行特征融合,得到新的特征,然后再将新的特征与Conv4_3卷积层的输出特征进行融合;然后将之前的两个新特征与原始网络提取的最后一层特征进行融合完成特征的融合过程,将浅层特征与高层特征融合;最后各特征分别通过各自的RPN网络进行候选框的选择,相较原始单一的RPN网络会使分类和回归的结果更为精确。该方法有效的提高了目标检测的精度,尤其是尺寸较小目标的检测精度。

Description

一种基于Faster-RCNN的目标检测方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于Faster-RCNN的目标检测方法。
背景技术
目标检测是计算机视觉的一个重要的研究课题,在无人驾驶、人机交互、智能安防等领域有着重要作用和广泛的应用。然而在实际的应用场景中,物体大小、光照条件、遮挡以及背景相似度等条件影响着目标检测的准确度和检测的速度。
目前,目标检测的方法有两大类,传统的目标检测方法和基于深度学习的目标检测方法,区别在于进行特征提取的时候是手动的还是采用卷积神经网络以及候选框的选取。基于深度学习的目标检测又分为One-stage和 Two-stage两类。
作为Two-stage的代表Faster-RCNN通过添加RPN网络,基于Anchor机制来生成候选框,将特征提取、候选框选取、边框回归和分类都整合到了一个网络中,提高了检测精度和检测效率。在一些复杂的场景以及尺寸较小目标等情况下,Faster-RCNN的效果并不是很理想。因此,本文明提出了一种基于Faster-RCNN改进的目标检测方法,有效的提升了小目标检测的精度。
发明内容
本发明设计对基础网络特征和候选框提取网络进行修改,将图像的不同尺度特征进行了融合,并对各自的特征图进行候选区域的选择,其目的在于提高目标检测的准确率尤其是对小目标的检测进行了改进,提高较小目标的检测效果。
本发明采用了如下的技术方案及实现步骤:
一种基于Faster-RCNN的目标检测方法,其特征在于,具体包括以下步骤:
(1)采集数据集,选取图像训练集和测试集:
(1)-1数据集中应包含小目标的图像;目标面积占图像的百分之10以下称为小目标;
(1)-2用LabelImg工具对(1)-1中的图像进行标注生成符合pascal VOC 格式的xml文件;
(2)修改Faster-RCNN的基础特征提取网络进行特征的融合:
(2)-1将基础特征提取网络的Conv1_2卷积层和Conv2_2卷积层的特征用相加法进行融合,得到新的特征,记为C1;
(2)-2将Conv4_3卷积层的输出特征与(2)-1中的C1特征进行融合,得到新的特征,记为C2;
(2)-3将(2)-1求得的C1特征、(2)-2求得的C2融合特征以及特征网络最后一层Conv5_3的输出特征采取(2)-1中的方法进行融合,得到新的特征,记为C3;
(3)
将C1、C2、C3以及原网络结构Conv5_3层输出特征分别通过各自的RPN 网络进行候选区域选择;
(4)用训练数据集对改进的Faster-RCNN进行训练:
(4)-1将(1)-2中制作好的标注图像和xml文件分别放入JPEGImages 文件夹和Annotations文件夹下;
(4)-2在pascal_voc.py中更改self._classes中的类别,添加标注的各图片的类别;
(4)-3在faster_rcnn_end2end.sh脚本中将迭代次数ITERS修改为 10000次,运行Faster-RCNN的训练脚本开始训练,在10000次以上训练后完成训练,在voc_2007_trainval文件夹中可看到训练完的iter_10000.ckpt 训练模型;
(5)利用训练好的Faster-RCNN模型进行目标的检测:
(5)-1将测试集图片放入到demo文件夹下;
(5)-2运行demo脚本,参数为(4)-3训练完的模型iter_10000.ckpt,等待脚本运行结束后完成检测并查看结果。
本发明的创造性主要体现在:
浅层特征有丰富的细节信息,深层特征有强语义信息,由于图像经过不断的卷积变化,浅层特征所包含的信息不断地变换为深层特征的语义信息,而导致最后的特征包含的细节信息大量缺失,最后的检测结果还有提升的空间。
本发通过提取基础特征网络的不同尺度的特征,使得浅层特征与深层特征充分融合,将浅层细节信息与深层语义信息相融合,由于融合特征的尺度不一样,分别通过各自的RPN网络进行候选区域的选择,让得到的结果有了互补性,提高了目标检测的准确度。
附图说明
图1是本发明的总体流程图
图2是特征融合和分别生成候选框的子框图
具体实施方式
下面结合附图和实施例,对本发明作做一步的详细说明。
如图1整体流程所示,本发明公开了一种基于Faster-RCNN改进的目标检测方法,具体包括以下步骤:
(1)采集数据集,选取图像训练集和测试集:
(1)-1数据集中应特别包含小目标的图像,输入图像数据集,通过前置程序将图像大小缩放到最小边为600像素,最大边为800像素,以符合voc 原始数据的大小;
(1)-2用LabelImg工具对(1)-1中的图像进行标注生成符合pascal VOC 格式的xml文件;
(2)修改Faster-RCNN的基础特征提取网络进行特征的融合:
(2)-1如下表为VGG16的网络配置表
表1 VGG16网络配置表
Figure RE-GDA0002396108870000041
Figure RE-GDA0002396108870000051
将基础特征提取网络的Conv1_2卷积层和Conv2_2卷积层的特征用相加法进行融合,得到新的特征,记为C1,相加法公式如下:
Figure RE-GDA0002396108870000052
公式(1)中,Xi和Yi分别代表两路输入通道,*表示卷积,c表示通道数
(2)-2将Conv4_3卷积层的输出特征与(2)-1中的C12特征采取(2) -1中的方法进行融合,得到新的特征,记为C2;
(2)-3将(2)-1求得的C1特征、(2)-2求得的C2融合特征以及特征网络最后一层Conv5_3的输出特征采取(2)-1中的方法进行融合,得到新的特征,记为C3;
(3)改进RPN网络的结构
(3)-1将C1、C2、C3以及原网络结构Conv5_3层输出特征分别通过各自的RPN网络进行候选区域选择,RPN网络需要进行多任务处理,区域候选网络的总损失函数表达为:
Figure RE-GDA0002396108870000053
公式2中,i是第i个anchor框,pi是anchor预测为目标的概率,
Figure RE-GDA0002396108870000054
是标签,当样本框为真时,其值为1,否则为0,Ncls为最小批量归一化值,Nreg为 anchor位置的数量,λ是为了将得分损失和位置损失进行近似等比例的设置, Lcls为判断anchor中是否有目标的损失函数,Lreg为位置回归损失函数,ti为预测滑动框的4个坐标,
Figure RE-GDA0002396108870000055
为与anchor相对应的真实框的目标框坐标;
分类损失函数如下:
Figure RE-GDA0002396108870000056
边界框回归损失为函数:
Figure RE-GDA0002396108870000057
Figure RE-GDA0002396108870000058
(4)用训练数据集对改进的Faster-RCNN进行训练
(4)-1将(1)-2中制作好的标注图像和xml文件分别放入JPEGImages 文件夹和Annotations文件夹下;
(4)-2在pascal_voc.py中更改self._classes中的类别,添加自己标注的各图片的类别;
(4)-3在faster_rcnn_end2end.sh脚本中将迭代次数ITERS修改为10000次,运行Faster-RCNN的训练脚本开始训练,在10000次训练后完成训练,在voc_2007_trainval文件夹中可看到训练完的iter_10000.ckpt训练模型;
(5)利用训练好的Faster-RCNN模型进行目标的检测:
(5)-1将测试集图片放入到demo文件夹下;
(5)-2运行demo脚本,参数为(4)-3训练完的模型iter_10000.ckpt,等待脚本运行结束后完成检测并查看结果。
实验数据:基于voc 2007数据集,再添加自标注的图像数据集,采用上述方法进行测试和验证。voc 2007原始数据集训练集为5011张,测试集4952 张,自标注的各类别训练集为3002张,测试集为2988张,以上共计训练集 8013张,测试集7940张,自标注小目标训练集为1433张,测试集1352张。在不同特征网络下所得的检测结果如下:
Figure RE-GDA0002396108870000061
最终融合特征基础网络MF-VGG16的原始数据集检测精度为59.2%,小目标数据集检测精度为42.3%,相比未改进网络有较大的精度提升,表明该方法具有良好的检测精度。

Claims (1)

1.一种基于Faster-RCNN的目标检测方法,其特征在于,具体包括以下步骤:
(1)采集数据集,选取图像训练集和测试集:
(1)-1数据集中应包含小目标的图像;目标面积占图像的百分之10以下称为小目标;
(1)-2用LabelImg工具对(1)-1中的图像进行标注生成符合pascalVOC格式的xml文件;
(2)修改Faster-RCNN的基础特征提取网络进行特征的融合:
(2)-1将基础特征提取网络的Conv1_2卷积层和Conv2_2卷积层的特征用相加法进行融合,得到新的特征,记为C1;
(2)-2将Conv4_3卷积层的输出特征与(2)-1中的C1特征进行融合,得到新的特征,记为C2;
(2)-3将(2)-1求得的C1特征、(2)-2求得的C2融合特征以及特征网络最后一层Conv5_3的输出特征采取(2)-1中的方法进行融合,得到新的特征,记为C3;
(3)
将C1、C2、C3以及原网络结构Conv5_3层输出特征分别通过各自的RPN网络进行候选区域选择;
(4)用训练数据集对改进的Faster-RCNN进行训练:
(4)-1将(1)-2中制作好的标注图像和xml文件分别放入JPEGImages文件夹和Annotations文件夹下;
(4)-2在pascal_voc.py中更改self._classes中的类别,添加标注的各图片的类别;
(4)-3运行Faster-RCNN的训练脚本开始训练;
(5)利用训练好的Faster-RCNN模型进行目标的检测:
(5)-1将测试集图片放入到demo文件夹下;
(5)-2运行demo脚本,参数为(4)-3训练完的模型参数,完成检测并查看结果。
CN201911396092.9A 2019-12-30 2019-12-30 一种基于Faster-RCNN的目标检测方法 Pending CN111178434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911396092.9A CN111178434A (zh) 2019-12-30 2019-12-30 一种基于Faster-RCNN的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911396092.9A CN111178434A (zh) 2019-12-30 2019-12-30 一种基于Faster-RCNN的目标检测方法

Publications (1)

Publication Number Publication Date
CN111178434A true CN111178434A (zh) 2020-05-19

Family

ID=70652227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911396092.9A Pending CN111178434A (zh) 2019-12-30 2019-12-30 一种基于Faster-RCNN的目标检测方法

Country Status (1)

Country Link
CN (1) CN111178434A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830285A (zh) * 2018-03-14 2018-11-16 江南大学 一种基于Faster-RCNN的加强学习的目标检测方法
CN109101914A (zh) * 2018-08-01 2018-12-28 北京飞搜科技有限公司 一种基于多尺度的行人检测方法和装置
CN109598290A (zh) * 2018-11-22 2019-04-09 上海交通大学 一种基于两级检测相结合的图像小目标检测方法
CN110084292A (zh) * 2019-04-18 2019-08-02 江南大学 基于DenseNet和多尺度特征融合的目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830285A (zh) * 2018-03-14 2018-11-16 江南大学 一种基于Faster-RCNN的加强学习的目标检测方法
CN109101914A (zh) * 2018-08-01 2018-12-28 北京飞搜科技有限公司 一种基于多尺度的行人检测方法和装置
CN109598290A (zh) * 2018-11-22 2019-04-09 上海交通大学 一种基于两级检测相结合的图像小目标检测方法
CN110084292A (zh) * 2019-04-18 2019-08-02 江南大学 基于DenseNet和多尺度特征融合的目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴志洋等: "改进的多目标回归实时人脸检测算法", 计算机工程与应用, vol. 54, no. 11, 31 December 2018 (2018-12-31), pages 1 - 7 *

Similar Documents

Publication Publication Date Title
CN111062951B (zh) 一种基于语义分割类内特征差异性的知识蒸馏方法
CN108647665B (zh) 基于深度学习的航拍车辆实时检测方法
US20200134456A1 (en) Video data processing method and apparatus, and readable storage medium
CN103593464B (zh) 基于视觉特征的视频指纹检测及视频序列匹配方法及系统
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN104615986B (zh) 利用多检测器对场景变化的视频图像进行行人检测的方法
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN102521340B (zh) 一种基于角色的电视剧视频分析方法
CN102385592B (zh) 图像概念的检测方法和装置
CN114841244B (zh) 一种基于鲁棒采样和混合注意力金字塔的目标检测方法
Shen et al. Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN112801182B (zh) 一种基于困难样本感知的rgbt目标跟踪方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN112364855A (zh) 一种基于多尺度特征融合的视频目标检测方法及系统
CN113239753A (zh) 基于YOLOv4改进的交通标志检测与识别方法
CN111507215A (zh) 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN112464775A (zh) 一种基于多分支网络的视频目标重识别方法
CN115564801A (zh) 一种基于注意力的单目标跟踪方法
Xu et al. Segment as points for efficient and effective online multi-object tracking and segmentation
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN113569687B (zh) 基于双流网络的场景分类方法、系统、设备及介质
TWI696958B (zh) 影像適應性特徵提取法及其應用
CN111178434A (zh) 一种基于Faster-RCNN的目标检测方法
CN114782983A (zh) 基于改进特征金字塔和边界损失的道路场景行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination