CN113673510B - 一种结合特征点和锚框共同预测和回归的目标检测方法 - Google Patents

一种结合特征点和锚框共同预测和回归的目标检测方法 Download PDF

Info

Publication number
CN113673510B
CN113673510B CN202110863996.9A CN202110863996A CN113673510B CN 113673510 B CN113673510 B CN 113673510B CN 202110863996 A CN202110863996 A CN 202110863996A CN 113673510 B CN113673510 B CN 113673510B
Authority
CN
China
Prior art keywords
anchor frame
target
network
detection
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110863996.9A
Other languages
English (en)
Other versions
CN113673510A (zh
Inventor
周益
荆明娥
范益波
曾晓洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110863996.9A priority Critical patent/CN113673510B/zh
Publication of CN113673510A publication Critical patent/CN113673510A/zh
Application granted granted Critical
Publication of CN113673510B publication Critical patent/CN113673510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,具体为一种结合特征点和锚框共同预测和回归的目标检测方法。本发明方法步骤包括:获取目标检测数据集,经处理得到图像/目标标签信息样本对;对训练集进行预处理,利用数据增强来扩充数据集;搭建目标检测网络,包括特征提取模块、特征融合模块、特征点检测分支和锚框检测分支;训练网络模型;把待检测图片输入检测网络即获得目标种类和位置信息。本算法利用特征点检测分支,通过关键点来获得更加精准的先验锚框,克服了手工设计锚框参数的缺点,可获得更加精准的检测结果,并且可以迁移到其他不同的检测任务中。

Description

一种结合特征点和锚框共同预测和回归的目标检测方法
技术领域
本发明属于计算机视觉技术领域,具体为一种结合特征点和锚框共同预测和回归的目标检测方法。
背景技术
目标检测旨在对一张给定的输入图像,定位图像上包含的目标并对其进行分类。由于其在城市安防、遥感图像、医学诊断等领域有着广泛的应用,目前已经成为计算机视觉领域中的一个热门研究课题,随着最近几年深度学习在计算机视觉领域的快速发展,基于深度学习的目标检测算法得到了广泛的研究和应用。
目前常见的基于深度学习的目标检测算法框架可以分为:特征提取模块,特征融合模块和特征检测模块。特征提取模块利用卷积神经网络提取图像的不同层级的特征;特征融合模块对不同层级的特征进行融合,因为通常深层特征包含较为丰富的语义信息,浅层特征包含较为丰富的空间信息;特征检测模块对融合后的特征进行检测任务,以得到图像包含的目标信息。
现有的目标检测算法根据特征检测模块的不同分为两类,一类是基于特征点检测的算法,一类是基于锚框检测的算法。但是基于锚框检测的算法需要手工设计锚框的尺寸,对于同一数据集,不同的锚框尺寸对检测的精度影响很大,因此带来了两个问题,一个是锚框尺寸参数的确定;另一个是模型的泛化能力,即当训练好的模型迁移到另一个数据集上时原有的锚框尺寸可能会不匹配。
本发明提出了一种新的结合特征点和锚框共同预测和回归的目标检测算法,利用特征点来获得更加精确的锚框,使得算法不需要根据特定的数据集来设置不同的锚框尺寸,提高算法的泛化能力。
发明内容
为了克服现有基于锚框的目标检测算法的不足(锚框的尺寸需要根据经验手工设计,并且不同的数据集锚框的尺寸要求不一致等),本发明提出一种结合特征点和锚框共同预测和回归的目标检测方法,使得网络在训练的过程中可以通过特征点来自动学习获得更加精准的锚框,从而提高检测精度。
本发明提出的结合特征点和锚框共同预测和回归的目标检测方法,具体步骤如下:
步骤1.获取并处理数据集,具体过程为:
(1.1)使用目标检测数据集MSCOCO,构建对应的图像信息标签,组成图像-目标标签样本对;
(1.2)利用图像增强对输入图片进行预处理,以扩充数据集和增加样本的随机性;
步骤2.根据算法搭建目标检测神经网络,分为特征提取模块、特征融合模块、关键点预测分支和锚框预测分支四个部分;特征提取模块用于提取图像上的目标特征,由多个残差模块构成,根据网络的大小需求可更改残差模块的数量;特征融合模块分两次进行,第一次对深层特征进行递归上采样与浅层特征融合,第二次对第一次融合后的浅层特征进行递归下采样与深层特征融合;关键点检测分支利用第一次特征融合后的特征进行关键点检测,预测输出锚框并对其进行前景背景分类;锚框检测分支利用关键点检测分支输出的锚框进行检测,以得到最终的检测结果;
步骤3.训练检测神经网络;利用步骤1得到的训练集和步骤2搭建好的网络来训练模型,通过梯度反向传播算法更新参数,直至网络收敛;
步骤4.网络收敛后进入测试阶段,输入待检测图像即可输出图像包含的目标信息(包括类别和坐标)。
本发明可以通过更加精准的锚框来提高检测的精度,并且模型具有更好的泛化性能。
具体实施方式
本发明中,采用提出的结合特征点和锚框共同预测和回归的目标检测算法模型,用于目标检测网络的训练,该算法的具体如下。
1.对目标检测数据集MSCOCO进行预处理。首先读取数据标签,得到图像-目标标签信息样本对。然后对训练集图片进行随机翻转、随机缩放处理来扩充样本的多样性。
2.搭建目标检测卷积神经网络,分为特征提取模块、特征融合模块、关键点预测分支和锚框预测分支四个部分。其中:
特征提取模块用于提取图像上的目标特征,由多个残差模块构成,根据网络的大小需求可更改残差模块的数量;
特征融合模块分两次进行融合,第一次对深层特征进行递归上采样与浅层特征融合,第二次对第一次融合后的浅层特征进行递归下采样与深层特征融合;
关键点检测分支利用第一次特征融合后的特征进行关键点检测任务,预测输出锚框并对其进行前景背景分类,其具体由4个卷积层构成,前三个卷积层每个都有256个卷积核,最后一个卷积层有5个卷积核,即关键点检测分支输出通道数为5,第一个通道代表该目标为前景的概率,第2到5个通道代表目标的中心点坐标(x,y)和长宽(w,h);
锚框检测分支利用关键点检测分支输出的锚框进行检测任务,以得到最终的检测结果,其具体也由4个卷积层构成,前三个卷积层每个都有256个卷积核,最后一个卷积层有(c+4)个卷积核,c表示训练集的目标总类别数,第1到第c个通道表示目标分别为该种类的概率,最后4个坐标表示中心点坐标和长宽相对于锚框的偏移值。
3.训练目标检测网络,具体步骤如下:
3.1初始化网络参数,特征提取模块采用在IMAGENET上预训练好的分类网络模型的参数初始化,其余部分采用Kaiming初始化;
3.2学习率初始化为0.01,每当训练时的损失函数值不在下降时,学习率降低为之前的十分之一;
3.3将训练集图片输入网络训练,关键点检测分支得到预测的锚框;锚框预测分支根据预测的相对偏移量得到最终的目标坐标框;
3.4分别对关键点检测分支输出的锚框和锚框预测分支输出的目标坐标框与真实框求损失,损失函数采用GIOU,并且同时求分类损失,损失函数采用Focal Loss;然后通过梯度反向传播算法对网络参数进行优化更新,网络训练的优化器选择SGD,其中参数设置为momentum=0.9;
3.5重复上述步骤3.3-3.4,在训练集上迭代24个epoch(192k次),网络收敛,得到训练好的模型。
4.测试阶段,将待检测的图片输入到训练好的网络中,关键点检测分支得到预测的锚框坐标和其对应为前景的概率p1;锚框检测分支得到相对于锚框的偏移量和其对应为某一具体目标种类的概率p2;最终根据锚框坐标和偏移量计算得到最终的目标坐标信息,并且将概率p1*p2作为该目标为某一目标种类的真实概率值。
参考文献
[1]Zhi Tian,Tong He,Chunhua Shen,and Youliang Yan.“Fcos:Fullyconvolutional one-stage object detection,”In Proc.IEEE Int.Conf.Comp.Vis.,2019
[2]S.Ren,K.He,R.Girshick,and J.Sun.Faster RCNN:Towards real-timeobject detection with region proposal networks.In Proc.Adv.NeuralInf.Process.Syst.,pages 91–99,2015.
[3]K.He,X.Zhang,S.Ren,and J.Sun.Deep residuallearning for imagerecognition.In Proc.IEEE Conf.Comp.Vis.Patt.Recogn.,pages 770–778,2016
[4]T.-Y.Lin,P.Goyal,R.Girshick,K.He,and P.Doll′ar.Focal loss fordenseobject detection.In Proc.IEEEConf.Comp.Vis.Patt.Recogn.,pages 2980–2988,2017.
[5]Rezatofighi,H.;Tsoi,N.;Gwak,J.;Sadeghian,A.;Reid,I.;andSavarese,S.2019.Generalized intersection over union:A metricand a loss for boundingboxregression.In The IEEE Conferenceon Computer Vision and PatternRecognition(CVPR)。

Claims (3)

1.一种结合特征点和锚框共同预测和回归的目标检测方法,其特征在于,具体步骤如下:
步骤1.获取并处理数据集,具体过程为:
(1.1)使用目标检测数据集MSCOCO,构建对应的图像信息标签,组成图像-目标标签样本对;
(1.2)利用图像增强对输入图片进行预处理,以扩充数据集和增加样本的随机性;
步骤2.根据算法搭建目标检测神经网络,分为特征提取模块、特征融合模块、关键点预测分支和锚框预测分支四个部分;其中:
特征提取模块用于提取图像上的目标特征,由多个残差模块构成,根据网络的大小需求更改残差模块的数量;
特征融合模块分两次进行融合,第一次对深层特征进行递归上采样与浅层特征融合,第二次对第一次融合后的浅层特征进行递归下采样与深层特征融合;
关键点检测分支利用第一次特征融合后的特征进行关键点检测,预测输出锚框并对其进行前景背景分类;
锚框检测分支利用关键点检测分支输出的锚框进行检测,以得到最终的检测结果;
步骤3.训练检测神经网络,利用步骤1得到的训练集和步骤2搭建好的网络来训练模型,通过梯度反向传播算法更新参数,直至网络收敛;
步骤4.测试阶段,把待检测图像输入训练好的网络,即可输出图像包含的目标信息;
步骤(2)中:
所述关键点检测分支由4个卷积层构成,前三个卷积层每个都有256个卷积核,最后一个卷积层有5个卷积核,即关键点检测分支输出通道数为5,第一个通道代表该目标为前景的概率,第2到5个通道代表目标的中心点坐标(x,y)和长宽(w,h);
所述锚框检测分支由4个卷积层构成,前三个卷积层每个都有256个卷积核,最后一个卷积层有(c+4)个卷积核,c表示训练集的目标总类别数,第1到第c个通道表示目标分别为该类别的概率,最后4个坐标表示中心点坐标和长宽相对于锚框的偏移值。
2.根据权利要求1所述的目标检测方法,其特征在于,步骤(3)中所述训练目标检测网络,具体步骤如下:
(3.1)初始化网络参数,特征提取模块采用在IMAGENET上预训练好的分类网络模型的参数初始化,其余部分采用Kaiming初始化;
(3.2)学习率初始化为0.01,每当训练时的损失函数值不在下降时,学习率降低为之前的十分之一;
(3.3)将训练集图片输入网络训练,关键点检测分支得到预测的锚框;锚框预测分支根据预测的相对偏移量得到最终的目标坐标框;
(3.4)分别对关键点检测分支输出的锚框和锚框预测分支输出的目标坐标框与真实框求损失,损失函数采用GIOU,并且同时求分类损失,损失函数采用Focal Loss;然后通过梯度反向传播算法对网络参数进行优化更新,网络训练的优化器选择SGD,其中参数设置为momentum=0.9;
(3.5)重复上述步骤3.3-3.4,在训练集上迭代24个epoch,网络收敛,得到训练好的模型。
3.根据权利要求2所述的目标检测方法,其特征在于,步骤(4)中所述测试阶段的流程为,将待检测的图片输入到训练好的网络中,关键点检测分支得到预测的锚框坐标和其对应为前景的概率p1;锚框检测分支得到相对于锚框的偏移量和其对应为某一具体目标种类的概率p2;最终根据锚框坐标和偏移量计算得到最终的目标坐标信息,并且将概率p1*p2作为该目标的真实概率值。
CN202110863996.9A 2021-07-29 2021-07-29 一种结合特征点和锚框共同预测和回归的目标检测方法 Active CN113673510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110863996.9A CN113673510B (zh) 2021-07-29 2021-07-29 一种结合特征点和锚框共同预测和回归的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110863996.9A CN113673510B (zh) 2021-07-29 2021-07-29 一种结合特征点和锚框共同预测和回归的目标检测方法

Publications (2)

Publication Number Publication Date
CN113673510A CN113673510A (zh) 2021-11-19
CN113673510B true CN113673510B (zh) 2024-04-26

Family

ID=78540694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110863996.9A Active CN113673510B (zh) 2021-07-29 2021-07-29 一种结合特征点和锚框共同预测和回归的目标检测方法

Country Status (1)

Country Link
CN (1) CN113673510B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947766B (zh) * 2021-12-21 2022-04-22 之江实验室 一种基于卷积神经网络的实时车牌检测方法
CN115206078B (zh) * 2022-09-15 2022-12-16 法施达(天津)智能科技有限公司 基于云数据分析的铁路锚固检测及预警方法、系统及设备
CN116091453B (zh) * 2023-01-07 2024-03-26 成都成电金盘健康数据技术有限公司 一种乳腺癌的病灶检测方法
CN116340807B (zh) * 2023-01-10 2024-02-13 中国人民解放军国防科技大学 宽带频谱信号检测与分类网络
CN115994898B (zh) * 2023-01-12 2023-11-14 浙江医准智能科技有限公司 一种纵膈占位病变图像检测方法、装置、设备及存储介质
CN116883393B (zh) * 2023-09-05 2023-12-01 青岛理工大学 一种基于无锚框目标检测算法的金属表面缺陷检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN111783819A (zh) * 2020-05-08 2020-10-16 国家电网有限公司 小规模数据集上基于感兴趣区域训练改进的目标检测方法
CN112001428A (zh) * 2020-08-05 2020-11-27 中国科学院大学 一种基于特征匹配优化的无锚框目标检测网络训练方法
CN112446327A (zh) * 2020-11-27 2021-03-05 中国地质大学(武汉) 一种基于无锚框的遥感图像目标检测方法
CN112507996A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种主样本注意力机制的人脸检测方法
CN112861915A (zh) * 2021-01-13 2021-05-28 北京航空航天大学 一种基于高级语义特征无锚框非合作目标检测方法
CN113158862A (zh) * 2021-04-13 2021-07-23 哈尔滨工业大学(深圳) 一种基于多任务的轻量级实时人脸检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN111783819A (zh) * 2020-05-08 2020-10-16 国家电网有限公司 小规模数据集上基于感兴趣区域训练改进的目标检测方法
CN112001428A (zh) * 2020-08-05 2020-11-27 中国科学院大学 一种基于特征匹配优化的无锚框目标检测网络训练方法
CN112446327A (zh) * 2020-11-27 2021-03-05 中国地质大学(武汉) 一种基于无锚框的遥感图像目标检测方法
CN112861915A (zh) * 2021-01-13 2021-05-28 北京航空航天大学 一种基于高级语义特征无锚框非合作目标检测方法
CN112507996A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种主样本注意力机制的人脸检测方法
CN113158862A (zh) * 2021-04-13 2021-07-23 哈尔滨工业大学(深圳) 一种基于多任务的轻量级实时人脸检测方法

Also Published As

Publication number Publication date
CN113673510A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
US11195051B2 (en) Method for person re-identification based on deep model with multi-loss fusion training strategy
Wang et al. Multiscale visual attention networks for object detection in VHR remote sensing images
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN110728209B (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN107330453B (zh) 基于分步识别和融合关键部位检测的色情图像识别方法
Fang et al. 3d-siamrpn: An end-to-end learning method for real-time 3d single object tracking using raw point cloud
US20190147602A1 (en) Hybrid and self-aware long-term object tracking
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN111079674B (zh) 一种基于全局和局部信息融合的目标检测方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN109190561B (zh) 一种视频播放中的人脸识别方法及系统
CN110348447B (zh) 一种具有丰富空间信息的多模型集成目标检测方法
CN113378676A (zh) 基于多特征融合的图像中人物交互检测方法
CN108764019A (zh) 一种基于多源深度学习的视频事件检测方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
CN112434599B (zh) 一种基于噪声通道的随机遮挡恢复的行人重识别方法
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN112580458A (zh) 人脸表情识别方法、装置、设备及存储介质
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant