CN111178434A - 一种基于Faster-RCNN的目标检测方法 - Google Patents
一种基于Faster-RCNN的目标检测方法 Download PDFInfo
- Publication number
- CN111178434A CN111178434A CN201911396092.9A CN201911396092A CN111178434A CN 111178434 A CN111178434 A CN 111178434A CN 201911396092 A CN201911396092 A CN 201911396092A CN 111178434 A CN111178434 A CN 111178434A
- Authority
- CN
- China
- Prior art keywords
- rcnn
- feature
- fast
- training
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 239000000654 additive Substances 0.000 abstract 1
- 230000000996 additive effect Effects 0.000 abstract 1
- 238000007499 fusion processing Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
一种基于Faster‑RCNN的目标检测方法,涉及计算机视觉领域。首先对Faster‑RCNN的基础特征提取网络VGG16进行改进,在VGG16的Conv1_2卷积层和Conv2_2卷积层采用相加法进行特征融合,得到新的特征,然后再将新的特征与Conv4_3卷积层的输出特征进行融合;然后将之前的两个新特征与原始网络提取的最后一层特征进行融合完成特征的融合过程,将浅层特征与高层特征融合;最后各特征分别通过各自的RPN网络进行候选框的选择,相较原始单一的RPN网络会使分类和回归的结果更为精确。该方法有效的提高了目标检测的精度,尤其是尺寸较小目标的检测精度。
Description
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于Faster-RCNN的目标检测方法。
背景技术
目标检测是计算机视觉的一个重要的研究课题,在无人驾驶、人机交互、智能安防等领域有着重要作用和广泛的应用。然而在实际的应用场景中,物体大小、光照条件、遮挡以及背景相似度等条件影响着目标检测的准确度和检测的速度。
目前,目标检测的方法有两大类,传统的目标检测方法和基于深度学习的目标检测方法,区别在于进行特征提取的时候是手动的还是采用卷积神经网络以及候选框的选取。基于深度学习的目标检测又分为One-stage和 Two-stage两类。
作为Two-stage的代表Faster-RCNN通过添加RPN网络,基于Anchor机制来生成候选框,将特征提取、候选框选取、边框回归和分类都整合到了一个网络中,提高了检测精度和检测效率。在一些复杂的场景以及尺寸较小目标等情况下,Faster-RCNN的效果并不是很理想。因此,本文明提出了一种基于Faster-RCNN改进的目标检测方法,有效的提升了小目标检测的精度。
发明内容
本发明设计对基础网络特征和候选框提取网络进行修改,将图像的不同尺度特征进行了融合,并对各自的特征图进行候选区域的选择,其目的在于提高目标检测的准确率尤其是对小目标的检测进行了改进,提高较小目标的检测效果。
本发明采用了如下的技术方案及实现步骤:
一种基于Faster-RCNN的目标检测方法,其特征在于,具体包括以下步骤:
(1)采集数据集,选取图像训练集和测试集:
(1)-1数据集中应包含小目标的图像;目标面积占图像的百分之10以下称为小目标;
(1)-2用LabelImg工具对(1)-1中的图像进行标注生成符合pascal VOC 格式的xml文件;
(2)修改Faster-RCNN的基础特征提取网络进行特征的融合:
(2)-1将基础特征提取网络的Conv1_2卷积层和Conv2_2卷积层的特征用相加法进行融合,得到新的特征,记为C1;
(2)-2将Conv4_3卷积层的输出特征与(2)-1中的C1特征进行融合,得到新的特征,记为C2;
(2)-3将(2)-1求得的C1特征、(2)-2求得的C2融合特征以及特征网络最后一层Conv5_3的输出特征采取(2)-1中的方法进行融合,得到新的特征,记为C3;
(3)
将C1、C2、C3以及原网络结构Conv5_3层输出特征分别通过各自的RPN 网络进行候选区域选择;
(4)用训练数据集对改进的Faster-RCNN进行训练:
(4)-1将(1)-2中制作好的标注图像和xml文件分别放入JPEGImages 文件夹和Annotations文件夹下;
(4)-2在pascal_voc.py中更改self._classes中的类别,添加标注的各图片的类别;
(4)-3在faster_rcnn_end2end.sh脚本中将迭代次数ITERS修改为 10000次,运行Faster-RCNN的训练脚本开始训练,在10000次以上训练后完成训练,在voc_2007_trainval文件夹中可看到训练完的iter_10000.ckpt 训练模型;
(5)利用训练好的Faster-RCNN模型进行目标的检测:
(5)-1将测试集图片放入到demo文件夹下;
(5)-2运行demo脚本,参数为(4)-3训练完的模型iter_10000.ckpt,等待脚本运行结束后完成检测并查看结果。
本发明的创造性主要体现在:
浅层特征有丰富的细节信息,深层特征有强语义信息,由于图像经过不断的卷积变化,浅层特征所包含的信息不断地变换为深层特征的语义信息,而导致最后的特征包含的细节信息大量缺失,最后的检测结果还有提升的空间。
本发通过提取基础特征网络的不同尺度的特征,使得浅层特征与深层特征充分融合,将浅层细节信息与深层语义信息相融合,由于融合特征的尺度不一样,分别通过各自的RPN网络进行候选区域的选择,让得到的结果有了互补性,提高了目标检测的准确度。
附图说明
图1是本发明的总体流程图
图2是特征融合和分别生成候选框的子框图
具体实施方式
下面结合附图和实施例,对本发明作做一步的详细说明。
如图1整体流程所示,本发明公开了一种基于Faster-RCNN改进的目标检测方法,具体包括以下步骤:
(1)采集数据集,选取图像训练集和测试集:
(1)-1数据集中应特别包含小目标的图像,输入图像数据集,通过前置程序将图像大小缩放到最小边为600像素,最大边为800像素,以符合voc 原始数据的大小;
(1)-2用LabelImg工具对(1)-1中的图像进行标注生成符合pascal VOC 格式的xml文件;
(2)修改Faster-RCNN的基础特征提取网络进行特征的融合:
(2)-1如下表为VGG16的网络配置表
表1 VGG16网络配置表
将基础特征提取网络的Conv1_2卷积层和Conv2_2卷积层的特征用相加法进行融合,得到新的特征,记为C1,相加法公式如下:
公式(1)中,Xi和Yi分别代表两路输入通道,*表示卷积,c表示通道数
(2)-2将Conv4_3卷积层的输出特征与(2)-1中的C12特征采取(2) -1中的方法进行融合,得到新的特征,记为C2;
(2)-3将(2)-1求得的C1特征、(2)-2求得的C2融合特征以及特征网络最后一层Conv5_3的输出特征采取(2)-1中的方法进行融合,得到新的特征,记为C3;
(3)改进RPN网络的结构
(3)-1将C1、C2、C3以及原网络结构Conv5_3层输出特征分别通过各自的RPN网络进行候选区域选择,RPN网络需要进行多任务处理,区域候选网络的总损失函数表达为:
公式2中,i是第i个anchor框,pi是anchor预测为目标的概率,是标签,当样本框为真时,其值为1,否则为0,Ncls为最小批量归一化值,Nreg为 anchor位置的数量,λ是为了将得分损失和位置损失进行近似等比例的设置, Lcls为判断anchor中是否有目标的损失函数,Lreg为位置回归损失函数,ti为预测滑动框的4个坐标,为与anchor相对应的真实框的目标框坐标;
分类损失函数如下:
边界框回归损失为函数:
(4)用训练数据集对改进的Faster-RCNN进行训练
(4)-1将(1)-2中制作好的标注图像和xml文件分别放入JPEGImages 文件夹和Annotations文件夹下;
(4)-2在pascal_voc.py中更改self._classes中的类别,添加自己标注的各图片的类别;
(4)-3在faster_rcnn_end2end.sh脚本中将迭代次数ITERS修改为10000次,运行Faster-RCNN的训练脚本开始训练,在10000次训练后完成训练,在voc_2007_trainval文件夹中可看到训练完的iter_10000.ckpt训练模型;
(5)利用训练好的Faster-RCNN模型进行目标的检测:
(5)-1将测试集图片放入到demo文件夹下;
(5)-2运行demo脚本,参数为(4)-3训练完的模型iter_10000.ckpt,等待脚本运行结束后完成检测并查看结果。
实验数据:基于voc 2007数据集,再添加自标注的图像数据集,采用上述方法进行测试和验证。voc 2007原始数据集训练集为5011张,测试集4952 张,自标注的各类别训练集为3002张,测试集为2988张,以上共计训练集 8013张,测试集7940张,自标注小目标训练集为1433张,测试集1352张。在不同特征网络下所得的检测结果如下:
最终融合特征基础网络MF-VGG16的原始数据集检测精度为59.2%,小目标数据集检测精度为42.3%,相比未改进网络有较大的精度提升,表明该方法具有良好的检测精度。
Claims (1)
1.一种基于Faster-RCNN的目标检测方法,其特征在于,具体包括以下步骤:
(1)采集数据集,选取图像训练集和测试集:
(1)-1数据集中应包含小目标的图像;目标面积占图像的百分之10以下称为小目标;
(1)-2用LabelImg工具对(1)-1中的图像进行标注生成符合pascalVOC格式的xml文件;
(2)修改Faster-RCNN的基础特征提取网络进行特征的融合:
(2)-1将基础特征提取网络的Conv1_2卷积层和Conv2_2卷积层的特征用相加法进行融合,得到新的特征,记为C1;
(2)-2将Conv4_3卷积层的输出特征与(2)-1中的C1特征进行融合,得到新的特征,记为C2;
(2)-3将(2)-1求得的C1特征、(2)-2求得的C2融合特征以及特征网络最后一层Conv5_3的输出特征采取(2)-1中的方法进行融合,得到新的特征,记为C3;
(3)
将C1、C2、C3以及原网络结构Conv5_3层输出特征分别通过各自的RPN网络进行候选区域选择;
(4)用训练数据集对改进的Faster-RCNN进行训练:
(4)-1将(1)-2中制作好的标注图像和xml文件分别放入JPEGImages文件夹和Annotations文件夹下;
(4)-2在pascal_voc.py中更改self._classes中的类别,添加标注的各图片的类别;
(4)-3运行Faster-RCNN的训练脚本开始训练;
(5)利用训练好的Faster-RCNN模型进行目标的检测:
(5)-1将测试集图片放入到demo文件夹下;
(5)-2运行demo脚本,参数为(4)-3训练完的模型参数,完成检测并查看结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396092.9A CN111178434A (zh) | 2019-12-30 | 2019-12-30 | 一种基于Faster-RCNN的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396092.9A CN111178434A (zh) | 2019-12-30 | 2019-12-30 | 一种基于Faster-RCNN的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111178434A true CN111178434A (zh) | 2020-05-19 |
Family
ID=70652227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911396092.9A Pending CN111178434A (zh) | 2019-12-30 | 2019-12-30 | 一种基于Faster-RCNN的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178434A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830285A (zh) * | 2018-03-14 | 2018-11-16 | 江南大学 | 一种基于Faster-RCNN的加强学习的目标检测方法 |
CN109101914A (zh) * | 2018-08-01 | 2018-12-28 | 北京飞搜科技有限公司 | 一种基于多尺度的行人检测方法和装置 |
CN109598290A (zh) * | 2018-11-22 | 2019-04-09 | 上海交通大学 | 一种基于两级检测相结合的图像小目标检测方法 |
CN110084292A (zh) * | 2019-04-18 | 2019-08-02 | 江南大学 | 基于DenseNet和多尺度特征融合的目标检测方法 |
-
2019
- 2019-12-30 CN CN201911396092.9A patent/CN111178434A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830285A (zh) * | 2018-03-14 | 2018-11-16 | 江南大学 | 一种基于Faster-RCNN的加强学习的目标检测方法 |
CN109101914A (zh) * | 2018-08-01 | 2018-12-28 | 北京飞搜科技有限公司 | 一种基于多尺度的行人检测方法和装置 |
CN109598290A (zh) * | 2018-11-22 | 2019-04-09 | 上海交通大学 | 一种基于两级检测相结合的图像小目标检测方法 |
CN110084292A (zh) * | 2019-04-18 | 2019-08-02 | 江南大学 | 基于DenseNet和多尺度特征融合的目标检测方法 |
Non-Patent Citations (1)
Title |
---|
吴志洋等: "改进的多目标回归实时人脸检测算法", 计算机工程与应用, vol. 54, no. 11, 31 December 2018 (2018-12-31), pages 1 - 7 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062951B (zh) | 一种基于语义分割类内特征差异性的知识蒸馏方法 | |
CN108647665B (zh) | 基于深度学习的航拍车辆实时检测方法 | |
US20200134456A1 (en) | Video data processing method and apparatus, and readable storage medium | |
CN103593464B (zh) | 基于视觉特征的视频指纹检测及视频序列匹配方法及系统 | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN104615986B (zh) | 利用多检测器对场景变化的视频图像进行行人检测的方法 | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
CN102521340B (zh) | 一种基于角色的电视剧视频分析方法 | |
CN102385592B (zh) | 图像概念的检测方法和装置 | |
CN114841244B (zh) | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 | |
Shen et al. | Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN112801182B (zh) | 一种基于困难样本感知的rgbt目标跟踪方法 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN112364855A (zh) | 一种基于多尺度特征融合的视频目标检测方法及系统 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN111507215A (zh) | 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法 | |
CN112464775A (zh) | 一种基于多分支网络的视频目标重识别方法 | |
CN115564801A (zh) | 一种基于注意力的单目标跟踪方法 | |
Xu et al. | Segment as points for efficient and effective online multi-object tracking and segmentation | |
CN115690549A (zh) | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 | |
CN113569687B (zh) | 基于双流网络的场景分类方法、系统、设备及介质 | |
TWI696958B (zh) | 影像適應性特徵提取法及其應用 | |
CN111178434A (zh) | 一种基于Faster-RCNN的目标检测方法 | |
CN114782983A (zh) | 基于改进特征金字塔和边界损失的道路场景行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |