CN109741318B - 基于有效感受野的单阶段多尺度特定目标的实时检测方法 - Google Patents

基于有效感受野的单阶段多尺度特定目标的实时检测方法 Download PDF

Info

Publication number
CN109741318B
CN109741318B CN201811648244.5A CN201811648244A CN109741318B CN 109741318 B CN109741318 B CN 109741318B CN 201811648244 A CN201811648244 A CN 201811648244A CN 109741318 B CN109741318 B CN 109741318B
Authority
CN
China
Prior art keywords
receptive field
network
real
scale
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811648244.5A
Other languages
English (en)
Other versions
CN109741318A (zh
Inventor
毋立芳
徐得中
赵青
简萌
王东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811648244.5A priority Critical patent/CN109741318B/zh
Publication of CN109741318A publication Critical patent/CN109741318A/zh
Application granted granted Critical
Publication of CN109741318B publication Critical patent/CN109741318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了基于有效感受野的单阶段多尺度特定目标的实时检测方法。该方法首先是从SSD的多尺度架构中提取出相应的特征层,并根据感受野覆盖的像素范围来选择尺度;其次,我们移除了传统方法中的anchor结构,采用更少的特征层,利用天然感受野的特性直接对特征图的对应的感受野框进行分类和回归。最后采用RF(感受野)采样框置灰学习策略,避免学习冗杂多余参数。本方法大大降低了传统基于anchor采样框的算法复杂度,提高了检测的效率并能够达到实时的效果,在数据量非常大的应用背景下非常具有使用价值。

Description

基于有效感受野的单阶段多尺度特定目标的实时检测方法
技术领域
本发明属于计算机领域,涉及一种基于有效感受野的单阶段多尺度特定目标的实时检测方法。
背景技术
大数据可以被认为是当前学术界和产业界研究的热点并逐渐影响着人们的日常生活和工作方式,其特征可以被认为是数据量大、多样性,因此在处理大数据的任务时实时性就变得非常重要。
随着计算机和人工智能技术在图像领域的发展,目标检测成为了一个非常热门的话题,特定目标检测是许多后续与特定目标相关应用的关键步骤,例如:特定目标识别,特定目标验证以及特定目标追踪等。近年来,卷积神经网络取得了显著地成功。从图像分类到物体检测,同时也激发了特定目标检测。一方面,很多工作在传统的检测框架中应用了CNN作为特征提取器,另一方面,特定目标检测被认为是通用目标检测的一个部分,很多方法继承了通用目标检测方法中有效的技术。然而,现有的大多数方法都只考虑检测的准确性而未达到实时性,因此随着数据量的增大使用效率会大大降低。然而现实生活中不仅要求精度,更要求速度,例如一部高清电影会产生20万到30万帧而现有的方法很难做到实时的检测和追踪。
基于anchor的检测方法主要是通过对一系列预设的anchor进行分类和回归来对特定目标进行检测,这些anchor是通过在图像上定期平铺具有不同尺度和宽高比框的集合而生成的。这些anchor与一个或几个卷积层相关联,其空间大小和步长大小分别决定了anchor的位置和间隔。对anchor相关联的层进行卷积,来对相应的anchor进行分类和对齐。
有效感受野(ERF)的目标检测方法是基于高斯分布的,就是中间的像素点比周围的像素点更具有影响力。现有的方法都是基于anchor结构的,为了更迅速的匹配到目标位置以达到实时效果,anchor的数量需要减少。
例如,2017年由Shifeng Zhang、Xiangyu Zhu、Zhen Lei等人所著的论文“S3FD:Single Shot Scale-invariant Face Detector”中提出了基于anchor的人脸检测器。具体的,为了提高性能,基于SSD的多尺度架构提出了尺度补偿anchor匹配策略,第一阶段遵循当前anchor的匹配方法,但调整更合理的阈值。第二阶段通过尺度补偿策略,确保每个人脸尺度都匹配足够anchor,最后对anchor进行分类和回归。
2018年,S Zhang,L Wen,X Bian等人所著的论文“Single-Shot RefinementNeural Network for Object Detection”提出了一个新的一阶段的检测器Refine-Det,其分为两个相互连通的模块,叫做anchor refinement模块和目标检测模块。前者的目的是过滤掉负样本anchor来减少分类器的搜索空间,后者把refined anchors作为前者的输入,进一步提升多类别标签的回归和预测,从而得到了良好的准确率和效率。
2018年,发表在ECCV,由S Liu,D Huang和Y Wang所著论文“Receptive FieldBlock Net for Accurate and Fast Object Detection”受到人类视觉系统中感受野(RF)结构的启发,提出了基于RFB-Net的检测器,通过简单地用RFB替换SSD的头部卷积层,展示了显著的性能增益,同时仍然保持计算成本的控制。
虽然基于anchor的方法在如今的目标检测任务中取得了较高的准确率和效率,然而,由于其算法的复杂性(a*a*B,a*a为特征图大小,B为anchor的数量)。随着数据量的不断增大,检测器的效率会急剧下降,例如:Faster-RCNN的计算效率就非常低。因此,我们在通用目标检测框架SSD的基础上舍弃anchor的方法,改为利用有效感受野的特性来对多尺度的特定目标进行检测,从而减小计算的复杂度提升速度。
发明内容
本发明是鉴于以上所述的一个或多个问题做出的
提出了一种基于有效感受野的单阶段多尺度特定目标的实时检测方法,该方法基于SSD多尺度架构,直接对每个特征层对应的感受野框进行分类和回归,降低了算法的复杂度;采用了RF(感受野)采样框置灰学习策略,来避免学习到一些冗杂的特征参数,影响算法性能。
为了达到上述目的,本发明采用如下技术方案:
基于有效感受野的单阶段多尺度特定目标的实时检测方法包括:基于SSD框架,利用感受野的特性直接对不同尺度特征层对应的感受野框进行分类和回归,并在训练过程中对于置灰范围内的采样框进行置灰处理,以避免学习到冗杂的特征参数,从而提升训练效率。
附图说明
图1是基于有效感受野的单阶段多尺度特定目标的实时检测方法的整体系统架构图
图2是构建网络具体参数细节示意图
图3是弃用anchor结构,利用感受野对特性的流程图
图4是RF(感受野)采样框置灰学习策略的示意图
具体实施方式
本发明目的提供一种基于有效感受野的单阶段多尺度特定目标的实时检测方法,其整体的系统架构如图1所示。下面结合附图和具体例子对本发明做进一步的详细说明。
(1)基于SSD的多尺度架构
本发明是基于SSD框架改进的,SSD是一个单阶段多框预测算法,它采用CNN(卷积神经网络)的卷积层来直接预测目标,并提取了不同尺度的特征图来做检测,大尺度特征图(较靠前的特征图)可以用来检测小物体,而小尺度特征图(较靠后的特征图)用来检测大物体;同时SSD采用了不同尺度和长宽比的先验框(Prior boxes,Default boxes,Anchors)来进行分类和回归操作。
(2)提取相应特征层
根据感受野覆盖的像素范围来选择相应尺度的特征层。感受野的计算公式如下:
Figure BDA0001932446200000031
Figure BDA0001932446200000032
表示第i层的感受野大小,S表示步长,k为kernel的大小,默认第一层的rf的大小等于kernel的大小。
特征层的大小计算公式如下:
Figure BDA0001932446200000033
fin为输入图像(或特征图大小),fout为输出特征图的大小,S表示步长,k为kernel的大小,Pad表示每个特征层补零的数量。
(3)轻量级的网络架构,简化的检测流程
输入图像矩阵集合I={I1,I2…In}(I表示输入图像的矩阵,n为表示图像矩阵的索引)
经过FCN(全卷积)神经网络,得到conv10_3,conv_13_3,conv15_3,conv17_3,conv_19_3的特征图fout,网络根据不同尺度的目标对应得特征图,直接推断出目标的位置和得分,筛选出最后的得分值高于0.5的目标经过NMS(非极大值抑制)(得分值即网络前向传输得到的预测框包含物体的概率值)去除掉IoU(交并比)大于0.7的目标框,剩余的目标框即为最终输出结果。
神经网络网络的所有参数通过优化以下损失函数得到:
Figure BDA0001932446200000041
Ltotal表示总体损失函数,Lscore表示需要计算的得分概率子损失函数,Lcoordinate表示需要计算的坐标回归子损失函数,i表示特征层的索引,N用来归一化两个损失,λ用来控制正负样本的均衡(N=1,λ=0.1),分别表示如下:
Figure BDA0001932446200000042
Figure BDA0001932446200000043
表示第j个感受野框对应区域内的每个像素,
Figure BDA0001932446200000044
表示第j个感受野框对应区域每个像素属于目标的概率值标签(即GroundTruth),GroundTruth的边界框中心值最大为1,远离中心的位置呈现高斯分布,逐渐减小。
Figure BDA0001932446200000045
Figure BDA0001932446200000046
为网络得到的正样本框坐标值,
Figure BDA0001932446200000047
为GroundTruth的样本框坐标值,都表示为边界框的4个参数坐标即左上角x坐标,左上角y坐标,宽和高)。
(4)RF(感受野)采样置灰学习策略
训练阶段,当计算感受野大小为71的范围内的感受野框时,根据以往的实验得出,理论感受野缩放3.5倍的中心区域为有效感受野的范围,可检测的目标尺度范围在20-40像素之间,原则上采样框置灰的范围在10-20像素之间,这个时候推荐设定为[10,20],以及[40,50]之间(小于最小检测尺度10像素以内的特征仅仅包含局部信息,而大于最大检测尺度的10像素以内包含背景干扰信息,都会影响模型性能)。我们的方法原则上可以检测20-210像素范围内的所有物体。训练时落在这部分区域的目标对应的感受野框在分类和回归时不会反向传播更新参数。采样框置灰的区域范围总是在略大于和略小于网络推断的物体像素区域内。
(5)建立一个实时的单阶段多尺度特定目标检测器。
训练阶段,利用天然感受野的特性,直接对不同尺度特征图对应的每个感受野框进行分类和回归。训练过程对于置灰范围内的采样框进行置灰处理,即不更新网络参数。为了提升系统的鲁棒性,本发明训练阶段拟采用数据增强后的图像数据集,增强方法包括:翻转、裁剪和缩放。预测阶段,不同尺度的特征层得到不同大小的预测框,得分值高于阈值的预测框即为最终的结果。
(6)实验数据表明,在给定的当下最有挑战的数据集WIDER FACE上测试,测试数据集包含16100张测试图片,其中根据像素范围又分为简单,中等,困难三个级别,我们的方法的AP(平均准确率)在三个级别上分别为0.921,0.915和0.835。并且在Nvidia GTX TITANX显卡上运行速度为7ms/每张图。证明了我们的方法在保证实时性的前提下,性能优异。

Claims (2)

1.一个基于有效感受野的单阶段多尺度特定目标的实时检测方法,其特征包括以下步骤:
(1)基于SSD的多尺度架构
(2)构建轻量级网络,提取相应特征层
构建了一个FCN全卷积网络,根据有效感受野覆盖的像素范围来选择相应网络层,分别提取了conv10_3,conv13_3,conv15_3,conv_17_3,conv_19_3相应的特征图大小分别分83x83,41x41,41x41,41x41,20x20,步长为4,8,8,8,16,感受野尺寸为71,111,143,175,223;
(3)训练网络
训练阶段,利用天然感受野的特性,直接对不同尺度特征图对应的每个感受野框进行分类和回归;训练过程会出现一些采样框,既不属于正样本,也不属于负样本,把这一部分的采样框进行置灰处理,即不更新网络参数;
(4)预测结果
预测阶段,不同尺度的特征层得到不同大小的预测框,得分值高于阈值的即为最终的结果,该阈值为0.5。
2.根据权利要求1所述的一个基于有效感受野的单阶段多尺度特定目标的实时检测方法,其特征在于步骤(3)具体如下:
输入图像矩阵集合I={I1,I2…In};I表示输入图像的矩阵,n为表示图像矩阵的索引;
经过FCN全卷积神经网络,得到conv10_3,conv_13_3,conv15_3,conv17_3,conv_19_3的特征图,网络根据不同尺度的目标对应得特征图,直接推断出目标的位置和得分,筛选出最后的得分值高于0.5的目标经过NMS去除掉IoU交并比大于0.7的目标框,剩余的目标框即为最终输出结果;得分值即网络前向传输得到的预测框包含物体的概率值,神经网络网络的所有参数通过优化以下损失函数得到:
Figure FDA0003298009480000011
Ltotal表示总体损失函数,Lscore表示需要计算的得分概率子损失函数,Lcoordinate表示需要计算的坐标回归子损失函数,i表示特征层的索引,N用来归一化两个损失,λ用来控制正负样本的均衡,其中N=1,λ=0.1,表示如下:
Figure FDA0003298009480000012
Figure FDA0003298009480000013
表示第j个感受野框对应区域内的每个像素,
Figure FDA0003298009480000014
表示第j个感受野框对应区域每个像素属于目标的概率值标签即GroundTruth,GroundTruth的边界框中心值最大为1,远离中心的位置呈现高斯分布,逐渐减小;
Figure FDA0003298009480000021
Figure FDA0003298009480000022
为网络得到的正样本框坐标值,
Figure FDA0003298009480000023
为GroundTruth的样本框坐标值,都表示为边界框的4个参数坐标即左上角x坐标,左上角y坐标,宽和高。
CN201811648244.5A 2018-12-30 2018-12-30 基于有效感受野的单阶段多尺度特定目标的实时检测方法 Active CN109741318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811648244.5A CN109741318B (zh) 2018-12-30 2018-12-30 基于有效感受野的单阶段多尺度特定目标的实时检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811648244.5A CN109741318B (zh) 2018-12-30 2018-12-30 基于有效感受野的单阶段多尺度特定目标的实时检测方法

Publications (2)

Publication Number Publication Date
CN109741318A CN109741318A (zh) 2019-05-10
CN109741318B true CN109741318B (zh) 2022-03-29

Family

ID=66362880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811648244.5A Active CN109741318B (zh) 2018-12-30 2018-12-30 基于有效感受野的单阶段多尺度特定目标的实时检测方法

Country Status (1)

Country Link
CN (1) CN109741318B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619460A (zh) * 2019-09-05 2019-12-27 北京邮电大学 基于深度学习目标检测的教室课堂质量评估系统及方法
CN110689083B (zh) * 2019-09-30 2022-04-12 苏州大学 一种上下文金字塔融合网络及图像分割方法
CN110852330A (zh) * 2019-10-23 2020-02-28 天津大学 一种基于单阶段的行为识别方法
CN110941995A (zh) * 2019-11-01 2020-03-31 中山大学 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
CN113128308B (zh) * 2020-01-10 2022-05-20 中南大学 一种港口场景下的行人检测方法、装置、设备及介质
CN111640103A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 图像检测方法、装置、设备以及存储介质
CN112070085B (zh) * 2020-09-04 2023-07-28 中山大学 基于双级联深度网络的无人机多特征点检测方法及装置
CN112417990B (zh) * 2020-10-30 2023-05-09 四川天翼网络股份有限公司 一种考试学生违规行为识别方法及系统
CN112560956A (zh) * 2020-12-16 2021-03-26 珠海格力智能装备有限公司 目标检测方法及装置、非易失性存储介质、电子设备
CN113033638A (zh) * 2021-03-16 2021-06-25 苏州海宸威视智能科技有限公司 一种基于感受野感知的无锚点框目标检测方法
CN113674328B (zh) * 2021-07-14 2023-08-25 南京邮电大学 一种多目标车辆跟踪方法
CN113743197A (zh) * 2021-07-23 2021-12-03 北京眼神智能科技有限公司 快速人脸检测方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527031A (zh) * 2017-08-22 2017-12-29 电子科技大学 一种基于ssd的室内目标检测方法
WO2018003212A1 (ja) * 2016-06-30 2018-01-04 クラリオン株式会社 物体検出装置及び物体検出方法
CN108304787A (zh) * 2018-01-17 2018-07-20 河南工业大学 基于卷积神经网络的道路目标检测方法
CN108416283A (zh) * 2018-02-28 2018-08-17 华南理工大学 一种基于ssd的路面交通标志识别方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108830205A (zh) * 2018-06-04 2018-11-16 江南大学 基于改进全卷积网络的多尺度感知行人检测方法
CN109101926A (zh) * 2018-08-14 2018-12-28 河南工业大学 基于卷积神经网络的空中目标检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
CN106250812B (zh) * 2016-07-15 2019-08-20 汤一平 一种基于快速r-cnn深度神经网络的车型识别方法
CN106991408A (zh) * 2017-04-14 2017-07-28 电子科技大学 一种候选框生成网络的生成方法及人脸检测方法
CN108520229B (zh) * 2018-04-04 2020-08-07 北京旷视科技有限公司 图像检测方法、装置、电子设备和计算机可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018003212A1 (ja) * 2016-06-30 2018-01-04 クラリオン株式会社 物体検出装置及び物体検出方法
CN107527031A (zh) * 2017-08-22 2017-12-29 电子科技大学 一种基于ssd的室内目标检测方法
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108304787A (zh) * 2018-01-17 2018-07-20 河南工业大学 基于卷积神经网络的道路目标检测方法
CN108416283A (zh) * 2018-02-28 2018-08-17 华南理工大学 一种基于ssd的路面交通标志识别方法
CN108830205A (zh) * 2018-06-04 2018-11-16 江南大学 基于改进全卷积网络的多尺度感知行人检测方法
CN109101926A (zh) * 2018-08-14 2018-12-28 河南工业大学 基于卷积神经网络的空中目标检测方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Previewer for Multi-Scale Object Detector;Zhihang Fu 等;《MM ’18》;20181026;第1-9页 *
Receptive Field Block Net for Accurate and Fast Object Detection;Songtao Liu 等;《ECCV 2018》;20181006;第1-16页 *
SSD: Single Shot MultiBox Detector;Wei Liu 等;《ECCV 2016》;20161016;第21-27页 *
SSD原理解读-从入门到精通;SanguineBoy;《https://www.cnblogs.com/SanguineBoy/p/11218946.html》;20180828;第1-12页 *
SSD目标检测;白裳;《https://zhuanlan.zhihu.com/p/31427288》;20181223;第1-13页 *
你知道如何计算CNN感受野吗?这里有一份详细指南;小小将;《https://zhuanlan.zhihu.com/p/35708466》;20180417;第1-6页 *
基于 SSD 网络模型的多目标检测算法;蔡汉明 等;《机电工程》;20170620;第34卷(第6期);第685-688页 *
目标检测-ssd;执剑长老;《https://www.cnblogs.com/qjoanven/p/8028284.html》;20171212;第1-15页 *

Also Published As

Publication number Publication date
CN109741318A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109741318B (zh) 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN107767405B (zh) 一种融合卷积神经网络的核相关滤波目标跟踪方法
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN107239736A (zh) 基于多任务级联卷积神经网络的人脸检测方法及检测装置
CN110569782A (zh) 一种基于深度学习目标检测方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN109948457B (zh) 基于卷积神经网络和cuda加速的实时目标识别方法
CN109101108A (zh) 基于三支决策优化智能座舱人机交互界面的方法及系统
CN110276784B (zh) 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法
CN109448307A (zh) 一种火源目标的识别方法和装置
Xiao et al. Traffic sign detection based on histograms of oriented gradients and boolean convolutional neural networks
CN114419413A (zh) 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法
CN112149665A (zh) 一种基于深度学习的高性能多尺度目标检测方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
Yin et al. G2Grad-CAMRL: an object detection and interpretation model based on gradient-weighted class activation mapping and reinforcement learning in remote sensing images
Wu et al. Damage detection of grotto murals based on lightweight neural network
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN117079095A (zh) 基于深度学习的高空抛物检测方法、系统、介质和设备
Luo et al. Multi-scale face detection based on convolutional neural network
CN116246110A (zh) 基于改进胶囊网络的图像分类方法
CN113344005B (zh) 一种基于优化小尺度特征的图像边缘检测方法
CN115331008A (zh) 一种基于目标概率密度图的端到端目标检测方法
CN104182990B (zh) 一种实时序列图像运动目标区域获取方法
Yu et al. Morphological neural networks for automatic target detection by simulated annealing learning algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant