CN113516040B - 一种改进两阶段目标检测的方法 - Google Patents

一种改进两阶段目标检测的方法 Download PDF

Info

Publication number
CN113516040B
CN113516040B CN202110516218.2A CN202110516218A CN113516040B CN 113516040 B CN113516040 B CN 113516040B CN 202110516218 A CN202110516218 A CN 202110516218A CN 113516040 B CN113516040 B CN 113516040B
Authority
CN
China
Prior art keywords
network
improving
model
target detection
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110516218.2A
Other languages
English (en)
Other versions
CN113516040A (zh
Inventor
段强
李雪
李锐
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Shandong Inspur Scientific Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Scientific Research Institute Co Ltd filed Critical Shandong Inspur Scientific Research Institute Co Ltd
Priority to CN202110516218.2A priority Critical patent/CN113516040B/zh
Publication of CN113516040A publication Critical patent/CN113516040A/zh
Application granted granted Critical
Publication of CN113516040B publication Critical patent/CN113516040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明特别涉及一种改进两阶段目标检测的方法。该改进两阶段目标检测的方法,先使用大规模的数据集对卷积神经网络进行预训练,提升特征识别能力;然后用预训练模型替换Faster RCNN的骨干网络VGG16,使用目标检测数据集对FasterRCNN网络中的分类层和RPN网络进行微调,以增强负责特征提取的卷积网络能力,进而提升分类层和RPN网络的性能。该改进两阶段目标检测的方法,运用开源常用的开发语言和库,与模型进行进一步优化,提高了负责特征提取的卷积网络能力,从而显著提升了两阶段目标检测的精度。

Description

一种改进两阶段目标检测的方法
技术领域
本发明涉及深度学习与计算机视觉技术领域,特别涉及一种改进两阶段目标检测的方法。
背景技术
目标检测的任务就是确定图像当中是否有感兴趣的目标存在,接着对感兴趣的目标进行精准定位。当下非常火热的无人驾驶汽车,就非常依赖目标检测和识别,这需要非常高的检测精度和定位精度。目前,用于目标检测的方法通常属于基于机器学习的方法或基于深度学习的方法。
对于机器学习方法,首先使用SIFT、HOG等方法定义特征,然后使用支持向量机(SVM)、Adaboost等技术进行分类。
对于深度学习方法,深度学习技术能够在没有专门定义特征的情况下进行端到端目标检测,并且通常基于卷积神经网络(CNN)。但是传统的目标检测方法有如下几个问题:
1)光线变化较快时,算法效果不好;
2)缓慢运动和背景颜色一致时不能提取出特征像素点;
3)时间复杂度高;
4)抗噪性能差。
因此,基于深度学习的目标检测方法得到了广泛应用,该框架包含有FasterRCNN网络,Yolo网络,Mask R-CNN网络等。
当前绝大多数卷积神经网络训练都是基于ISLVRC 2012的ImageNet-1000数据集,而随着数据逐年增长和新模型的逐年开发,基于该数据集的预训练模型已经明显不适用于愈发复杂的任务。而目标检测方法是基于卷积神经网络的特征提取功能加上目标框搜索的功能,一个更好的特征提取器有助于提升目标检测各个阶段的表现。
目前诸如Inception模型、ResNet模型、DenseNet模型、EfficientNet模型等,均是参数量大、结构复杂、层数较深的网络,而ISLVRC 2012的ImageNet部分数据集已经不足以使网络训练到位。
为了有效提升目标检测的精度和识别能力,本发明提出了一种改进两阶段目标检测的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的改进两阶段目标检测的方法。
本发明是通过如下技术方案实现的:
一种改进两阶段目标检测的方法,其特征在于:包括以下步骤:
第一步、数据集处理与预训练模型优化
使用大规模的数据集对卷积神经网络进行预训练,提升特征识别能力;
第二步、用预训练模型替换骨干网络
用预训练模型替换Faster RCNN的骨干网络VGG(Visual Geometry GroupNetwork,视觉几何群网络)16,使用目标检测数据集对FasterRCNN网络中的分类层和RPN(RegionProposal Network,区域生成网络)网络进行微调,以增强负责特征提取的卷积网络能力,进而提升分类层和RPN网络的性能。
所述第一步中,采用ImageNet全量数据对ResNet模型进行预训练,并对预训练模型进行保存。
所述第一步中,基于ISLVRC 2012的ImageNet-1000全量数据集对ResNet-50模型,ResNet-101模型或ResNet-152模型进行预训练。
所述第一步中,下载ImageNet-1000全量数据集并将其处理成TFRecord格式备用。
所述第一步中,优化器(Optimizer)使用SGD(Stochastic Gradient Descent,随机梯度下降)算法对预训练模型进行优化。
所述第一步中,将初始学习率(learning rate)设为0.03,前五千步使用warm-up策略,学习率乘以一个预设的系数(即动量),将动量(momentum)设为0.9,对数据进行随机镜像翻转。
所述第一步中,在第10,30,60和80轮优化时对学习率进行衰减,衰减率为0.0001,将总批量(Global batch)设为4096,分布在8块NVIDIA Tesla V100计算卡上。
所述第一步中,在预训练优化结束后,将模型迁移到下游任务中时,使用MixUp数据增强,但不使用正则化方法,包括Weight Decay(权重衰减)正则化及Dropout(丢弃)正则化。
本发明的有益效果是:该改进两阶段目标检测的方法,运用开源常用的开发语言和库,与模型进行进一步优化,提高了负责特征提取的卷积网络能力,从而显著提升了两阶段目标检测的精度。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
FasterRCNN网络可以分为4个主要内容:
基础卷积层(CNN):作为一种卷积神经网络目标检测方法,FasterRCNN首先使用一组基础的卷积网络提取图像的特征图。特征图被后续RPN层和全连接层共享。本示例采用ResNet-50作为基础卷积层。
区域生成网络(RPN):RPN网络用于生成候选区域(proposals)。该层通过一组固定的尺寸和比例得到一组锚点(anchors),通过softmax判断锚点属于前景或者背景,再利用区域回归修正锚点从而获得精确的候选区域。
RoI Pooling:该层收集输入的特征图和候选区域,将候选区域映射到特征图中并池化为统一大小的区域特征图,送入全连接层判定目标类别,该层可选用RoIPool和RoIAlign两种方式,在config.py中设置roi_func。
检测层:利用区域特征图计算候选区域的类别,同时再次通过区域回归获得检测框最终的精确位置。
FasterRCNN网络的目标检测流程如下:
(1)输入测试图像;
(2)将整张图片输入CNN,进行特征提取;
(3)用RPN生成建议窗口(proposals),每张图片生成300个建议窗口;
(4)把建议窗口映射到CNN的最后一层卷积feature map上;
(5)通过RoI pooling层使每个RoI生成固定尺寸的feature map;
(6)利用Softmax Loss(探测分类概率)和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练。
该改进两阶段目标检测的方法,包括以下步骤:
第一步、数据集处理与预训练模型优化
使用大规模的数据集对卷积神经网络进行预训练,提升特征识别能力;
第二步、用预训练模型替换骨干网络
用预训练模型替换Faster RCNN的骨干网络VGG(Visual Geometry GroupNetwork,视觉几何群网络)16,使用目标检测数据集对FasterRCNN网络中的分类层和RPN(RegionProposal Network,区域生成网络)网络进行微调,以增强负责特征提取的卷积网络能力,进而提升分类层和RPN网络的性能。
实验证明,使用更大的数据集去训练网络可以让模型得到更好的优化,进而在深度学习各个下有任务中精度得到显著提升。在大规模数据集中,ImageNet全量数据:共两万一千多类,一千四百万张图像;OpenImage数据集包括六千多类,九百万张图像;JFT数据集包括一千七千个类,三亿五千张图像。为了保证预训练精度,所述第一步中,采用ImageNet全量数据对ResNet模型进行预训练,并对预训练模型进行保存。
所述第一步中,基于ISLVRC 2012的ImageNet-1000全量数据集对ResNet-50模型,ResNet-101模型或ResNet-152模型进行预训练。
所述第一步中,下载ImageNet-1000全量数据集并将其处理成TFRecord格式备用。
所述第一步中,优化器(Optimizer)使用SGD(Stochastic Gradient Descent,随机梯度下降)算法对预训练模型进行优化。
所述第一步中,将初始学习率(learning rate)设为0.03,前五千步使用warm-up策略,学习率乘以一个预设的系数(即动量),将动量(momentum)设为0.9,对数据进行随机镜像翻转。
所述第一步中,在第10,30,60和80轮优化时对学习率进行衰减,衰减率为0.0001,将总批量(Global batch)设为4096,分布在8块NVIDIA Tesla V100计算卡上。
所述第一步中,在预训练优化结束后,将模型迁移到下游任务中时,使用MixUp数据增强,但不使用正则化方法,包括Weight Decay(权重衰减)正则化及Dropout(丢弃)正则化。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (7)

1.一种改进两阶段目标检测的方法,其特征在于,包括以下步骤:
第一步、数据集处理与预训练模型优化
使用大规模的数据集对卷积神经网络进行预训练,提升特征识别能力;
基于ISLVRC2012的ImageNet-1000全量数据集对ResNet-50模型,ResNet-101模型或ResNet-152模型进行预训练;
第二步、用预训练模型替换骨干网络
用预训练模型替换FasterRCNN的骨干网络VGG16,使用目标检测数据集对FasterRCNN网络中的分类层和RPN网络进行微调,以增强负责特征提取的卷积网络能力,进而提升分类层和RPN网络的性能。
2.根据权利要求1所述的改进两阶段目标检测的方法,其特征在于:所述第一步中,采用ImageNet全量数据对ResNet模型进行预训练,并对预训练模型进行保存。
3.根据权利要求1所述的改进两阶段目标检测的方法,其特征在于:所述第一步中,下载ImageNet-1000全量数据集并将其处理成TFRecord格式备用。
4.根据权利要求1所述的改进两阶段目标检测的方法,其特征在于:所述第一步中,优化器使用SGD算法对预训练模型进行优化。
5.根据权利要求4所述的改进两阶段目标检测的方法,其特征在于:所述第一步中,将初始学习率设为0.03,前五千步使用warm-up策略,将动量设为0.9,学习率乘以动量对数据进行随机镜像翻转。
6.根据权利要求5所述的改进两阶段目标检测的方法,其特征在于:所述第一步中,在第10,30,60和80轮优化时对学习率进行衰减,衰减率为0.0001,将总批量设为4096,分布在8块NVIDIATeslaV100计算卡上。
7.根据权利要求6所述的改进两阶段目标检测的方法,其特征在于:所述第一步中,在预训练优化结束后,将模型迁移到下游任务中时,使用MixUp数据增强,但不使用正则化方法,包括WeightDecay正则化及Dropout正则化。
CN202110516218.2A 2021-05-12 2021-05-12 一种改进两阶段目标检测的方法 Active CN113516040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110516218.2A CN113516040B (zh) 2021-05-12 2021-05-12 一种改进两阶段目标检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110516218.2A CN113516040B (zh) 2021-05-12 2021-05-12 一种改进两阶段目标检测的方法

Publications (2)

Publication Number Publication Date
CN113516040A CN113516040A (zh) 2021-10-19
CN113516040B true CN113516040B (zh) 2023-06-20

Family

ID=78064440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110516218.2A Active CN113516040B (zh) 2021-05-12 2021-05-12 一种改进两阶段目标检测的方法

Country Status (1)

Country Link
CN (1) CN113516040B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109241982A (zh) * 2018-09-06 2019-01-18 广西师范大学 基于深浅层卷积神经网络的目标检测方法
CN109285139A (zh) * 2018-07-23 2019-01-29 同济大学 一种基于深度学习的x射线成像焊缝检测方法
CN110163346A (zh) * 2019-05-22 2019-08-23 成都艾希维智能科技有限公司 一种针对多目标检测的卷积神经网络设计方法
CN112307916A (zh) * 2020-10-21 2021-02-02 山东神戎电子股份有限公司 一种基于可见光摄像机的报警监控方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109285139A (zh) * 2018-07-23 2019-01-29 同济大学 一种基于深度学习的x射线成像焊缝检测方法
CN109241982A (zh) * 2018-09-06 2019-01-18 广西师范大学 基于深浅层卷积神经网络的目标检测方法
CN110163346A (zh) * 2019-05-22 2019-08-23 成都艾希维智能科技有限公司 一种针对多目标检测的卷积神经网络设计方法
CN112307916A (zh) * 2020-10-21 2021-02-02 山东神戎电子股份有限公司 一种基于可见光摄像机的报警监控方法

Also Published As

Publication number Publication date
CN113516040A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN110619369B (zh) 基于特征金字塔与全局平均池化的细粒度图像分类方法
CN107609525B (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN109035172B (zh) 一种基于深度学习的非局部均值超声图像去噪方法
CN111680706A (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
CN110716792B (zh) 一种目标检测器及其构建方法和应用
CN112613350A (zh) 一种基于深度神经网络的高分辨率光学遥感图像飞机目标检测方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN114550134A (zh) 基于深度学习的交通标志检测与识别方法
CN115049952A (zh) 一种基于多尺度级联感知深度学习网络的幼鱼肢体识别方法
CN110659702A (zh) 基于生成式对抗网络模型书法字帖评价系统及方法
CN112329830B (zh) 一种基于卷积神经网络和迁移学习的无源定位轨迹数据识别方法及系统
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN113516040B (zh) 一种改进两阶段目标检测的方法
CN116612382A (zh) 一种城市遥感图像目标检测方法和装置
CN115661542A (zh) 一种基于特征关系迁移的小样本目标检测方法
Ling et al. Magnetic tile surface defect detection methodology based on self-attention and self-supervised learning
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN114708462A (zh) 多数据训练的检测模型生成方法、系统、设备及存储介质
CN111046861B (zh) 识别红外影像的方法、构建识别模型的方法及应用
CN114220086A (zh) 一种成本高效的场景文字检测方法及系统
CN113409327A (zh) 一种基于排序与语义一致性约束的实例分割改进方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant