CN109886286B - 基于级联检测器的目标检测方法、目标检测模型及系统 - Google Patents

基于级联检测器的目标检测方法、目标检测模型及系统 Download PDF

Info

Publication number
CN109886286B
CN109886286B CN201910005486.0A CN201910005486A CN109886286B CN 109886286 B CN109886286 B CN 109886286B CN 201910005486 A CN201910005486 A CN 201910005486A CN 109886286 B CN109886286 B CN 109886286B
Authority
CN
China
Prior art keywords
target
rcnn
bounding box
rpn
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910005486.0A
Other languages
English (en)
Other versions
CN109886286A (zh
Inventor
张胜森
林宏志
郑增强
白翔
刘荣华
沈亚非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Wuhan Jingce Electronic Group Co Ltd
Original Assignee
Huazhong University of Science and Technology
Wuhan Jingce Electronic Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, Wuhan Jingce Electronic Group Co Ltd filed Critical Huazhong University of Science and Technology
Priority to CN201910005486.0A priority Critical patent/CN109886286B/zh
Publication of CN109886286A publication Critical patent/CN109886286A/zh
Application granted granted Critical
Publication of CN109886286B publication Critical patent/CN109886286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于级联检测器的目标检测方法、目标检测模型及系统,该检测方法包括以下步骤:S1:采用带有目标标注的训练数据集对目标检测模型进行训练;S2:将待测图片输入训练好的目标检测模型中,通过特征提取、上采样、特征融合后得到不同尺寸的特征图P2、P3、…、Pn;S3:根据特征图Pn预测得到目标位置Bn和类别Cn;根据目标位置Bi从对应的特征图Pi‑1中提取相应的特征进行目标预测,得到目标位置Bi‑1和类别Ci‑1,i=3~n;S4:以目标位置B2作为最终预测结果;本发明通过对目标候选框的多次迭代回归预测,得到预测更加准确的目标位置,提高了目标检测精度,检测准确度更高。

Description

基于级联检测器的目标检测方法、目标检测模型及系统
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于级联检测器的高精度目标检测模型、目标检测系统及方法。
背景技术
在计算机视觉领域中,目标检测是一个非常活跃的、具有挑战性的研究方向,与分类任务不同,目标检测除了需要识别目标的类别以外,还要定位目标的位置,从而实现定位和识别的任务,在很多现实生活中的应用都与它息息相关,例如交通安防领域的车牌的检测和识别、无人驾驶汽车交通信号灯以及交通信号标志的检测和识别、相机人脸定位的算法等等。目标检测通常分为两个步骤:第一步是定位目标区域,第二部是对目标区域内的内容进行识别,获取目标类别信息。其中第一部目标定位是非常重要的环节,因为目标定位的准确度直接影响第二步的目标识别的结果。
Region-CNN(简称RCNN)是第一个成功将深度学习应用到目标检测上的算法,RCNN遵循传统目标检测的思路,同样采用候选框,对每个候选框提取特征、图像分类、非极大值抑制四个步骤进行目标检测。只不过在提取特征这一步,将传统的特征(如SIFT、HOG特征等)换成了深度卷积网络提取的特征。对于一张图片,RCNN基于selective search方法大约生成2000个候选区域,然后每个候选区域被resize成固定大小,并送入一个CNN模型中,最后得到一个特征向量。然后这个特征向量被送入一个多类别SVM分类器中,预测出候选区域中所含物体的属于每个类的概率值。每个类别训练一个SVM分类器,从特征向量中推断其属于该类别的概率大小。为了提升定位准确性,RCNN最后又训练了一个边界框回归模型,通过边框回归模型对框的准确位置进行修正。
近年来RCNN目标检测技术对于一般正常物体的检测已经取得了巨大成功,通常一般的目标检测包含目标类别预测(即分类)和标注包围盒回归定位两个任务,这两个任务既有相似性又有区别性;RCNN已经能够很好的实现物体分类的任务,而现在RCNN目标检测网络存在的主要缺陷是包围盒定位的精度不高,这是因为目标定位受长宽比变化范围大、尺度变化范围大、背景复杂等因素的影响,所以高精度的目标检测仍然具有很大的挑战性。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于级联检测器的目标检测方法、目标检测模型及系统,预测时在不同尺度的特征图上进行目标包围盒的多次回归,以此得到定位更加准确的包围盒,其目的在于解决现有的目标检测方法存在的目标定位精度不高的问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于级联检测器的目标检测方法,包括以下步骤:
S1:将待测图片输入训练好的目标检测模型中,通过特征提取、上采样、特征融合后得到不同尺寸的特征图P2、P3、…、Pn,其中,n为大于2的自然数;
S2:根据特征图Pn预测得到目标位置Bn和类别Cn;根据目标位置Bi从特征图Pi-1中提取相应的特征进行目标预测,得到目标位置Bi-1和类别Ci-1,i=3~n;
S3:以目标位置B2作为位置预测结果。
优选的,上述目标检测方法,其步骤S2包括以下子步骤:
S21:根据特征图Pn预测得到目标候选框,以及所述目标候选框的分类得分和位置偏移量Yn,根据所述位置偏移量Yn对目标候选框的位置进行调整,得到目标位置Bn和类别Cn
S22:根据目标的位置Bi从对应的特征图Pi-1中取出位置Bi对应的区域特征并预测分类得分和位置偏移量Yi-1,根据所述位置偏移量Yi-1对位置Bi进行调整,得到目标位置Bi-1和类别Ci-1
优选的,上述目标检测方法,其步骤S3中还包括:以类别Cn或类别Cn、Cn-1、…、C2的平均值作为类别预测结果。
优选的,上述目标检测方法,其步骤S21中还包括:对目标位置Bn进行非最大值抑制,删除所述分类得分小于预设的得分阈值的目标位置Bn;按照分类得分从大到小的顺序对属于同一目标类别Cn的目标位置Bn进行排序,依次计算排序后相邻两个位置Bn的IoU,若IoU小于预设的IoU阈值,则保留两个目标框,否则去掉分类得分较小的目标框。
优选的,上述目标检测方法,其步骤S1中包括以下子步骤:
S21:从待测图片中提取出不同尺度的特征图A2、A3、…、An,对第n个特征图An进行通道数调整,得到特征图Pn
S22:通过上采样调整特征图Pi的空间尺寸以使其与特征图Ai-1的尺寸相匹配,并通过一个3x3的卷积消除上采样的混叠效应;通过BN层对特征图Pi进行批规范化处理,调整均值和方差,得到Pi’;
S23:通过3x3的卷积调整特征图Ai-1的通道数并提取高级特征,通过BN层进行批规范化处理,调整均值和方差;通过Relu层进行非线性激活,得到Ai-1’;
S24:通过像素相加对Ai-1’与Pi’进行融合,再通过一个3x3的卷积提取融合后的敏感特征,得到融合后的特征图Pi-1
优选的,上述目标检测方法,其步骤S1之前还包括对目标检测模型进行训练的步骤:
S0:对样本图片进行目标标注,标签为标注包围盒Gd的左上角顶点的坐标(x,y)、包围盒的宽度w、高度h,以及目标的类别c,得到训练数据集;通过所述训练数据集对基于级联检测器的目标检测模型进行训练,计算训练标签和损失函数,利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化。
优选的,上述目标检测方法,其步骤S0中包括以下子步骤:
S01:将训练数据集中的样本图片输入目标检测模型中,通过特征提取、上采样、特征融合后得到不同尺寸的特征图;
S02:以每张特征图上的每个像素按照不同大小及长宽比对应到样本图片,产生多尺度的初始包围盒Q0
S03:计算初始包围盒Q0相对于样本图片上的标注包围盒Gd的位置偏移量和类别,生成区域建议网络的训练标签gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Crpn);其中,Δxrpn,Δyrpn,Δhrpn,Δwrpn分别为初始包围盒Q0的左上角顶点相对于标注包围盒Gd的左上角顶点的横、纵坐标、高度、宽度的位置偏移量,Crpn是类别标签;
S04:预测所述初始包围盒Q0的前景概率Prpn和位置回归偏移量Yrpn,根据所述位置回归偏移量Yrpn调整初始包围盒Q0的位置;根据初始包围盒Q0生成候选目标区域Rrcnn,计算候选目标区域Rrcnn相对于样本图片上的标注包围盒Gd的位置偏移量和类别,生成分类回归分支网络的训练标签gtrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Crcnn);其中,Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn分别为初始包围盒Q0的左上角顶点相对于标注包围盒Gd的左上角顶点的横、纵坐标、高度、宽度的位置偏移量,Crcnn是类别标签;
S05:通过分类和回归分支网络预测所述候选目标区域Rrcnn的分类得分Prcnn和预测回归偏移量Yrcnn,得到预测标签
Figure BDA0001935266820000031
S06:以训练标签gt为目标检测模型的期望输出,以预测标签
Figure BDA0001935266820000041
为目标检测模型的预测输出,计算期望输出和预测输出之间的目标损失函数;
S07:利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化,得到最优的目标检测模型。
优选的,上述目标检测方法,其步骤S03中还包括:
计算初始包围盒Q0相对于标注包围盒Gd的IoU,当所有的标注包围盒Gd与初始包围盒Q0的IoU均小于设定的IoU阈值时,该初始包围盒Q0的类别标签Crpn为0;否则,该初始包围盒Q0的类别标签Crpn为1;并以IoU最大的标注包围盒Gd计算初始包围盒Q0的位置偏移量。
优选的,上述目标检测方法,其步骤S04中还包括:
计算候选目标区域Rrcnn相对于标注包围盒Gd的IoU,当所有的标注包围盒Gd与候选目标区域Rrcnn的IoU均小于设定的IoU阈值时,该候选目标区域Rrcnn的类别标签Crcnn为0;否则,该候选目标区域Rrcnn的类别为最大IoU所对应的标注包围盒Gd的类别,并以该标注包围盒Gd计算候选目标区域Rrcnn的位置偏移量。
优选的,上述目标检测方法,其步骤S05中,所述目标损失函数的表达式如下:
L(Prpn,Yrpn,Prcnn,Yrcnn)=Lrpn(Prpn,Yrpn)+α1Lrcnn(Prcnn,Yrcnn)
其中,Lrpn(Prpn,Yrpn)为区域建议网络的损失函数,Lrcnn(Prcnn,Yrcnn)为分类回归分支网络的损失函数,α1为损失函数Lrcnn的权重系数。
按照本发明的另一个方面,还提供了一种基于级联检测器的目标检测模型,包括特征提取单元、结果输出单元和多个级联连接的检测单元D2、D3、…、Dn
所述特征提取单元用于对输入的待测图片进行特征提取、上采样、特征融合,得到不同尺寸的特征图P2、P3、…、Pn
第n级检测单元Dn用于根据特征图Pn预测得到目标位置Bn和类别Cn
第i-1级检测单元D(i-1)用于根据目标位置Bi从对应的特征图Pi-1中提取相应的特征进行目标预测,得到目标位置Bi-1和类别Ci-1,其中,i=3~n,n为大于2的自然数;
所述结果输出单元用于将目标位置B2作为位置预测结果输出。
优选的,上述目标检测模型,每一级检测单元包括预测模块和调整模块;
第n级预测模块用于根据特征图Pn预测得到目标候选框,以及所述目标候选框的分类得分和位置偏移量Yn;第n级调整模块用于根据所述位置偏移量Yn对目标候选框进行调整,得到目标位置Bn和类别Cn
第i-1级预测模块用于根据目标位置Bi从对应的特征图Pi-1中取出位置Bi对应的区域特征并预测分类得分和位置偏移量Yi-1;第i-1级调整模块用于根据所述位置偏移量Yi-1对位置Bi进行调整,得到目标位置Bi-1和类别Ci-1
优选的,上述目标检测模型,其结果输出单元还用于将目标类别Cn或目标类别Cn、Cn-1、…、C2的平均值作为类别预测结果输出。
优选的,上述目标检测模型,还包括抑制单元;
所述抑制单元用于对第n级检测单元输出的目标位置Bn进行非最大值抑制,删除分类得分小于预设的得分阈值的目标位置Bn;并按照分类得分从大到小的顺序对属于同一目标类别Cn的目标位置Bn进行排序,依次计算排序后相邻两个位置Bn的IoU,若IoU小于预设的IoU阈值,则保留两个目标框,否则去掉分类得分较小的目标框。
优选的,上述目标检测模型,其特特征提取单元包括特征提取模块和特征融合模块;
所述特征提取模块用于从待测图片中提取出不同尺度的特征图A2、A3、…、An,对第n个特征图An进行通道数调整,得到特征图Pn
所述特征融合模块用于通过上采样调整特征图Pi的空间尺寸以使其与特征图Ai-1的尺寸相匹配,并通过一个3x3的卷积消除上采样的混叠效应;通过BN层对特征图Pi进行批规范化处理,调整均值和方差,得到Pi’;
并通过3x3的卷积调整特征图Ai-1的通道数并提取高级特征,通过BN层进行批规范化处理,调整均值和方差;通过Relu层进行非线性激活,得到Ai-1’;
并通过像素相加对Ai-1’与Pi’进行融合,再通过一个3x3的卷积提取融合后的敏感特征,得到融合后的特征图Pi-1
优选的,上述目标检测模型,在训练阶段,所述特征提取单元用于对输入的带目标标注的样本图片进行特征提取、上采样、特征融合,得到不同尺寸的特征图;所述样本图片的标签为标注包围盒Gd的左上角顶点的坐标(x,y)、包围盒的长度w、宽度h,以及目标的类别c;
所述预测模块用于以每张特征图上的每个像素对应到样本图片中按照不同大小及长宽比产生多尺度的初始包围盒Q0,预测所述初始包围盒Q0的前景概率Prpn、位置回归偏移量Yrpn;并用于根据所述初始包围盒Q0生成候选目标区域Rrcnn,预测所述候选目标区域Rrcnn的分类得分Prcnn和预测回归偏移量Yrcnn
按照本发明的另一个方面,还提供了一种基于上述目标检测模型的目标检测系统,还包括标签生成单元、计算单元和训练单元;
所述标签生成单元用于获取检测单元生成的初始包围盒Q0,计算初始包围盒Q0相对于样本图片上的标注包围盒Gd的位置偏移量和类别,生成区域建议网络的训练标签gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Crpn);其中,Δxrpn,Δyrpn,Δhrpn,Δwrpn分别为初始包围盒Q0的左上角顶点相对于标注包围盒Gd的左上角顶点的横、纵坐标、宽度、高度的位置偏移量,Crpn是类别标签;并用于计算候选目标区域Rrcnn相对于样本图片上的标注包围盒Gd的位置偏移量和类别,生成分类回归分支网络的训练标签gtrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Crcnn);其中,Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn分别为初始包围盒Q0的左上角顶点相对于标注包围盒Gd的左上角顶点的横、纵坐标、宽度、高度的位置偏移量,Crcnn是类别标签;
所述标签生成单元还用于根据前景概率Prpn、偏移量Yrpn、分类得分Prcnn和回归偏移量Yrcnn生成预测标签
Figure BDA0001935266820000061
所述计算单元用于以训练标签gt为目标检测模型的期望输出,以预测标签
Figure BDA0001935266820000062
为目标检测模型的预测输出,计算期望输出和预测输出之间的目标损失函数;
所述训练单元用于利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化,得到最优的目标检测模型。
优选的,上述目标检测系统,其标签生成单元还用于计算初始包围盒Q0相对于标注包围盒Gd的IoU,当所有的标注包围盒Gd与初始包围盒Q0的IoU均小于设定的IoU阈值时,将初始包围盒Q0的类别标签Crpn置为0;否则,将该初始包围盒Q0的类别标签Crpn置为1;并以IoU最大的标注包围盒Gd计算初始包围盒Q0的位置偏移量;
并用于计算候选目标区域Rrcnn相对于标注包围盒Gd的IoU,当所有的标注包围盒Gd与候选目标区域Rrcnn的IoU均小于设定的IoU阈值时,该候选目标区域Rrcnn的类别标签Crcnn为0;否则,该候选目标区域Rrcnn的类别为最大IoU所对应的标注包围盒Gd的类别,并以该标注包围盒Gd计算候选目标区域Rrcnn的位置偏移量。
优选的,上述目标检测系统,其目标损失函数的表达式如下:
L(Prpn,Yrpn,Prcnn,Yrcnn)=Lrpn(Prpn,Yrpn)+α1Lrcnn(Prcnn,Yrcnn)
其中,Lrpn(Prpn,Yrpn)为区域建议网络的损失函数,Lrcnn(Prcnn,Yrcnn)为分类回归分支网络的损失函数,α1为损失函数Lrcnn的权重系数。
优选的,上述目标检测系统,其训练标签gt包括区域建议网络的训练标签gtrpn和分类回归分支网络的训练标签gtrcnn
其中,gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn);
gtrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Prcnn)。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)准确度高:本发明针对目标检测问题,创新性地利用了级联回归的预测方式来回归目标包围盒,更为精细地检测目标的位置和类别;每一级检测单元均根据上一级检测单元输出的目标候选框而非各自的区域建议网络预测的目标候选框作为分类和分支模块的预测对象,通过多个级联的检测单元对目标候选框的多次迭代回归预测,以此得到预测更加准确的目标候选框位置,提高了目标检测精度,检测准确度高;
(2)速度较快:本发明对最高一级检测单元预测的目标位置进行非极大值抑制操作,从最高一级检测单元开始就过滤了很多重复、冗余的边框,减少后面各级检测单元的计算量,在往下级联回归的过程中不会消耗太多时间,在保证检测和识别精度的同时,预测速度比较快,提高检测速度;
(3)通用性强:本发明提供的是一个端到端可训练的目标检测模型,模型中的级联检测单元可以方便的移植到其他具有多尺度特征图的目标检测网络;
(4)鲁棒性强:本发明可以克服目标尺度的变化,对大尺寸的目标和小尺寸的目标都有很高的检测精度。
附图说明
图1是本实施例提供的基于级联检测器的目标检测系统的逻辑框图,其中,检测单元D5、D4、D3、D2之间的虚线箭头代表测试时才会连接,训练时并不会连接;
图2是本发明实施例提供的基于级联检测器的目标检测模型的网络结构示意图;
图3是本实施例提供的目标检测模型在检测过程中的逻辑框图;
图4是本实施例提供的预测模块的结构示意图;
图5是本发明实施例提供的基于级联检测器的目标检测方法的流程图,其中,实线箭头表示训练,虚线箭头表示测试。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
卷积神经网络(Convolutional Neural Network,简称CNN)是一种前馈神经网络,人工神经元可以响应周围单元,可以进行大型图像处理。卷积神经网络包括卷积层和池化层。RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑,借助CNN良好的特征提取和分类性能,通过RegionProposal方法实现目标检测问题的转化。
VGG16:2014年ILSVRC的亚军是VGGNet,包含16个CONV/FC层,具有非常均匀的架构,从开始到结束只执行3x3卷积和2x2池化层,成为经典的卷积神经网络模型。他们的预训练模型可用于Caffe开发框架下的即插即用,通常被现有的多数计算机视觉任务采用为网络模型的基本结构。
区域提取网络(Region Proposal Network,RPN):一种用于生成候选目标区域的网络,通过使用一个滑动窗口在提取特征图上生成高度为特定维度的全连接特征,并据此生成两个全连接分支分类和回归候选目标区域,最终根据不同的锚点和比例为后续网络生成不同尺度比例的候选目标区域。
非最大值抑制(Non-Maximum Suppression,NMS):非最大值抑制是一种在计算机视觉检测领域中被广泛应用的后处理算法,它按照设定的阈值,通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤,去掉冗余的检测框,得到最终的检测结果。
图1是本实施例提供的基于级联检测器的目标检测系统的逻辑框图,如图1所示,该目标检测系统包括基于级联检测器的目标检测模型、标签生成单元、计算单元和训练单元;
图2是本发明实施例提供的基于级联检测器的目标检测模型的网络结构示意图;该目标检测模型包括特征提取单元、四个级联连接的检测单元D2~D5、结果输出单元;检测单元的级数与特征提取单元提取出来的特征图的层数相对应,每一级检测单元对应处理一层特征图;
特征提取单元包括特征提取模块和特征融合模块;本实施例中,特征提取单元以VGG16为基本网络,主要由两个子分支(路径)组成,分别为自下而上(特征提取模块)和自上而下(特征融合模块)的路径,其中自下而上的路径就是VGG16的前向过程,在前向过程中,经过四个卷积层(Layer)和池化层(pooling)得到一系列特征图构成四层特征金字塔,越高层的特征图具有越高级的语义特征,但是分辨率会逐层降低,在VGG16的网络结构中,以网络中不改变特征图大小的卷积层单元定义为一个层级,本实施例中使用第2、3、4、5层级各自最后的特征图进行后续的特征融合;自上而下的路径是采用横向连接的结构将高层的特征图与低层特征图通过特征融合模块进行特征融合,以此得到具有高分辨率以及高层语义特征的特征图;
特征提取单元中还嵌入了attention机制,待提取特征层之后通过注意力机制来对特征图进行优化,主要是加强对缺陷部分的注意力程度;其主要包含两条支路,一条支路用来传输特征图,另一条支路通过全局池化层、1×1卷积层、BN、sigmoid之后,得到特征信息的权重向量,最后再将两条支路的输出结果相乘,这里的注意力机制体现在权重向量会将原先缺陷部位的特征变得更加明显。
图3是本实施例提供的目标检测模型在检测过程中的逻辑框图;图4是本实施例提供的预测模块的结构示意图;如图3、4所示,检测单元包括预测模块和调整模块,其中,预测模块包括区域建议网络(RPN网络和RoI Pooling)、分类分支和回归分支。
基于级联检测器的目标检测模型搭建完成后,首先通过标准训练数据集对该目标检测模型进行训练,对标准训练数据集Itr中的样本图片进行目标级别的标注,标注的标签为标注包围盒的位置和目标的类别c,包围盒为水平的矩形框,其位置通过左上角顶点的坐标(x,y)、包围盒的宽度w和高度h表示,一个标注包围盒可以由(x,y,h,w)唯一的确定。
对模型初始化网络的权重和偏置,将带有目标标注的标准训练数据集Itr输入目标检测模型;在训练过程中,特征提取单元对标准训练数据集Itr中的样本图片进行特征提取、上采样、特征融合,得到不同尺寸的特征图;特征提取模块通过四个卷积层单元Conv 2~Conv 5对样本图片进行特征提取,得到不同尺寸的特征图T2~T5,先通过1x1的卷积将特征图T5的通道数调整为256,得到特征图F5;然后将F5与T4输入特征融合模块进行特征融合,得到融合后的特征图F4;特征融合模块的工作原理如下:
如图2所示,首先对特征图F5进行上采样(反卷积Deconv2×2)以将F5的空间尺寸扩大一倍,使特征图F5的尺寸与特征图T4相匹配;然后通过一个3×3的卷积Conv3×3对上采样后的特征图F5进行调整,消除上采样后产生的混叠效应;最后通过BN层对特征图F5进行批规范化操作,调整均值和方差,以防止梯度爆炸并加快网络收敛,得到特征图F5’;通过一个卷积块(包含3x3卷积和BN层以及Relu层)对特征图T4进行处理,具体为:首先通过一个3×3的卷积Conv3×3调整特征图T4的通道数为256(若其通道数本身即为256,则无需调整),并卷积提取高级特征;通过BN层对提取得到的高级特征进行批规范化操作,调整均值和方差;然后通过一个非线性函数Relu作非线性激活,得到特征图T4’;将特征图T4’与F5’进行像素相加,再通过一个3x3的卷积Conv3×3提取相加之后的特征图中的敏感特征,得到最终的融合了F5和T4的特征图F4。
同理,将F4与T3输入特征融合模块进行特征融合得到F3,将F3与T2输入特征融合模块进行特征融合得到F2,特征融合后得到的特征图F5、F4、F3、F2为四个待提取特征层,用于提取特征进行检测。
每一层级的检测单元的对应处理同一层级的特征图,以检测单元D5为例进行说明:检测单元D5用于对特征图F5进行目标预测,其预测模块中的区域建议网络以特征图F5上的每个像素对应到样本图片中按照不同大小及长宽比产生多尺度的初始包围盒Q0;定义初始包围盒Q0在特征图F2、F3、F4、F5上的尺度分别为{162,322,642}、{322,642,1282}、{642,1282,2562}、{1282,2562,5122},而每个尺度层都有长宽比{1:2,1:1,2:1};因此每个特征图上的每个像素点在原图上对应9中不同尺寸的初始包围盒Q0
区域建议网络中的RPN分支用于预测初始包围盒Q0的前景概率Prpn和位置回归偏移量Yrpn,Yrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn),根据位置回归偏移量Yrpn对属于前景的初始包围盒Q0进行位置调整,并筛选出一定数量的属于前景的初始包围盒Q0作为目标候选框proposal,区域建议网络中的ROI Pooling通过池化操作根据目标候选框proposal从特征图上提取出固定分辨率为7x7的候选区域特征,得到候选目标区域Rrcnn并将其送入分类分支和回归分支,进一步预测更为具体的目标类别和更为精细的目标回归系数;
将大小为7x7的候选目标区域Rrcnn输入预测模块中的分类分支中,分类分支通过卷积操作输出预测目标包围盒的分类得分Prcnn,即预测包围盒为某个类别的概率,取值是一个1xCk的向量,向量中第i个元素取值为[0,1]之间的小数,代表该包围盒为类别i的概率;
将大小为7x7的候选目标区域Rrcnn输入预测模块中的回归分支中,回归分支输出4个[0,1]之间的小数组成的预测回归偏移量Yrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn),作为初始包围盒Q0被预测为正类文本框时中心点的横坐标、纵坐标、文本框的高度和宽度相对于标注包围盒Gd中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。
标签生成单元根据预测模块预测得到的初始包围盒Q0的前景概率Prpn、位置回归偏移量Yrpn、分类得分Prcnn和预测回归偏移量Yrcnn生成预测标签
Figure BDA0001935266820000111
并用于获取预测模块生成的初始包围盒Q0,计算初始包围盒Q0相对于样本图片上的标注包围盒Gd的IoU、位置偏移量和类别,当所有的标注包围盒Gd与初始包围盒Q0的IoU均小于0.5,那么,初始包围盒Q0被标记为负样本(背景),类别标签Crpn取值为0;否则,即至少存在一个标注包围盒Gd与Q0的IoU不小于0.5,Q0被标注为正样本(前景),类别标签Crpn取值为1,并以IoU最大的标注包围盒Gd来计算初始包围盒Q0位置偏移量,公式如下:
x=x0+w0Δx
y=y0+h0Δy
w=w0exp(Δw)
h=h0exp(Δh)
其中,Δx、Δy、Δw、Δh分别为初始包围盒Q0的左上角顶点相对于标注包围盒Gd的左上角顶点的横、纵坐标、宽度、高度的位置偏移量,Crpn是类别标签,exp为指数运算;即可得到区域建议网络的训练标签为:
gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Crpn)
对于分类和回归分支网络,同理,计算候选目标区域Rrcnn相对于样本图片上的标注包围盒Gd的IoU、位置偏移量和类别,当所有的标注包围盒Gd与候选目标区域Rrcnn的IoU均小于0.5,那么,候选目标区域Rrcnn被标记为负样本,类别标签Crcnn取值为0,代表背景类,无位置偏移量;否则,即至少存在一个标注包围盒Gd与Q0的IoU不小于0.5,候选目标区域Rrcnn被标注为正样本,并以IoU最大的标注包围盒Gd来计算候选目标区域Rrcnn位置偏移量,以IoU最大的标注包围盒Gd的类别作为候选目标区域Rrcnn的类别标签Crcnn,得到分类和回归分支网络的训练标签为:gtrcnn=(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn,Crcnn)。
根据以上步骤,可以分别得到检测单元D5、D4、D3、D2各自的区域建议网络的训练标签gtrpn和分类回归分支网络的训练标签gtrcnn
计算单元以训练标签gt为目标检测模型的期望输出,以预测标签
Figure BDA0001935266820000112
为目标检测模型的预测输出,计算期望输出和预测输出之间的目标损失函数;整体目标损失函数由区域建议模块、分类和回归分支模块损失函数共同组成,整体目标损失函数表达式如下:
L(Prpn,Yrpn,Prcnn,Yrcnn)=Lrpn(Prpn,Yrpn)+α1Lrcnn(Prcnn,Yrcnn)
其中,Lrpn(Prpn,Yrpn)为区域建议网络的损失函数,Lrcnn(Prcnn,Yrcnn)为分类回归分支网络的损失函数,α1为损失函数Lrcnn的权重系数;α1值一般取1。在区域建议网络的损失函数中,对于背景类的初始包围盒Q0仅计算其分类损失,不计算位置回归损失;对于前景类的初始包围盒Q0计算分类损失和位置回归损失;在分类回归分支网络的损失函数中,对于背景类的候选目标区域Rrcnn只计算分类损失,无位置回归损失,对于前景类的候选目标区域Rrcnn计算分类损失和位置回归损失。
得到目标损失函数后,训练单元利用反向传播算法对目标检测模型进行迭代训练以使目标损失函数最小化,得到最优的目标检测模型。
将待测图片输入训练好的目标检测模型中,特征提取模块对输入的待测图片进行特征提取,得到不同尺寸的特征图A2、A3、A4、A5;特征融合模块通过上采样迭代地将每个层级的特征与上一级已经融合的特征再次进行融合,得到不同尺寸的特征图P2、P3、P4、P5;特征融合的过程同训练过程,此处不再赘述。
检测单元D5根据特征图P5预测得到目标位置B5和类别C5,具体的:将特征图P5输入检测单元D5中,检测单元D5中的区域建议网络从特征图P5中产生初始包围盒Q0,预测初始包围盒Q0的前景概率Prpn和位置回归偏移量Yrpn,并根据预测出的位置回归偏移量Yrpn对初始包围盒Q0进行位置调整,筛选初始包围盒Q0得到目标候选框porposal,通过RoIPooling从特征图P5上取出目标候选框proposal对应的候选目标区域Rrcnn并输入到分类和回归分支,分类分支输出预测的分类得分Prcnn,作为目标候选框porposal被预测为某个类别的概率;回归分支输出由4个小数组成的预测回归偏移量Yrcnn(Δxrcnn,Δyrcnn,Δhrcnn,Δwrcnn),作为目标候选框porposal被预测为前景某个类别目标的左上角顶点坐标和高度宽度相对于标注包围盒Gd的左上角顶点坐标、高度和宽度的位置偏移量;
调整模块根据预测得到的位置偏移量调整目标候选框proposal的位置,得到检测单元D5预测的目标候选框porposal的位置B5和类别C5;
将目标候选框porposal的位置B5输入到检测单元D4中,检测单元D4根据目标位置B5从对应的特征图P4中提取相应的特征进行目标预测,得到分类得分Prcnn和位置偏移量Yrcnn;检测单元D4中的调整模块根据预测的位置偏移量Yrcnn对目标候选框porposal的位置B5进行调整,得到检测单元D4预测的目标候选框porposal的位置B4和类别C5;
同理,检测单元D3根据检测单元D4输出的目标候选框porposal的位置B4进行目标预测,根据预测得到的位置偏移量对位置B4进行调整,输出预测的位置B3和类别C4;检测单元D2根据检测单元D3输出的目标候选框porposal的位置B3进行目标预测,根据预测得到的位置偏移量对位置B3进行调整,输出预测的位置B2和类别C2;
结果输出单元以检测单元D2预测的目标位置B2作为最终的位置预测结果,以检测单元D5预测的类别C5或者类别C2~C5的平均值作为最终的类别预测结果。由于检测单元D5预测的类别C5相比检测单元D2预测的类别C2的准确性更高,因此本实施例优选以类别C5作为最终的类别预测结果,此时检测单元D4~D2中的分类分支无需再进行目标类别的预测。
除了检测单元D5,其他每一级检测单元均根据上一级检测单元输出的目标候选框porposal而非各自的区域建议网络预测的目标候选框porposal作为分类和分支模块的预测对象,即每一级的检测单元的目标候选框proposal均来自上一级检测单元的预测输出,而不是使用自身区域建议网络预测得到的目标候选框proposal,最后一级检测单元D2能够得到更准确的目标包围盒的位置;本实施例通过4个级联的检测单元对目标候选框porposal的多次迭代回归预测,以此得到预测更加准确的目标候选框位置,提高了目标检测精度,并且能够适应多尺度的目标。
为了减少检测过程中目标检测模型的计算量,对检测单元D5预测的目标候选框porposal的位置B5进行非极大值抑制操作进行过滤:目标检测模型对特征图上每个预测为正类的目标候选框porposal都会回归出水平矩形框位置,同一张检测图片的每个特征图上回归出的正类目标候选框porposal通常会出现彼此重叠的情况,因此要对所有正类目标候选框porposal位置做非极大值抑制操作,具体步骤是:1)对预测得到的目标候选框porposal,当且仅当类别分类得分Prcnn≥0.5时,该目标候选框porposal才被保留;2)对上一步保留的目标候选框porposal,按照IoU0.5进行非最大值抑制操作,得到最后保留的分类得分Prcnn较高的正类目标候选框porposal。通过非极大值抑制去除冗余的目标检测框,提升检测精度,并可减少检测单元D4~D2的计算量。
图5是本实施例提供的基于级联检测器的目标检测方法的流程图;如图5所示,该目标检测方法包括以下步骤:
S1:采用带有目标标注的训练数据集对基于级联检测器的目标检测模型进行训练,目标标注包括目标的位置和类别;具体包括以下子步骤:
S11:对样本图片进行目标标注,标签为标注包围盒Gd的左上角顶点的坐标(x,y)、包围盒的长度w、宽度h,以及目标的类别c,得到训练数据集;
S12:将训练数据集中的样本图片输入目标检测模型中,通过特征提取、上采样、特征融合后得到不同尺寸的特征图;
S13:以每张特征图上的每个像素按照不同大小及长宽比对应到样本图片,产生多尺度的初始包围盒Q0
S14:计算初始包围盒Q0相对于样本图片上的标注包围盒Gd的IoU、位置偏移量和类别,当所有的标注包围盒Gd与初始包围盒Q0的IoU均小于0.5,那么,初始包围盒Q0被标记为负样本,类别标签Crpn取值为0;否则,即至少存在一个标注包围盒Gd与Q0的IoU不小于0.5,初始包围盒Q0被标注为正样本,类别标签Crpn取值为1,并以IoU最大的标注包围盒Gd来计算初始包围盒Q0位置偏移量,生成区域建议网络的训练标签gtrpn;其中,Δx、Δy、Δw、Δh分别为初始包围盒Q0的左上角顶点相对于标注包围盒Gd的左上角顶点的横、纵坐标、宽度、高度的位置偏移量,Crpn是类别标签,分为前景类别和背景类别;
S15:预测初始包围盒Q0的前景概率Prpn和位置回归偏移量Yrpn,并根据位置回归偏移量Yrpn调整初始包围盒Q0的位置,根据前景概率Prpn取出前景目标框,通过ROI Pooling由前景目标框在特征图上取出候选目标区域Rrcnn,计算候选目标区域Rrcnn与标注包围盒Gd的IoU确定候选目标区域Rrcnn的标签,得到分类和回归分支网络的训练标签gtrcnn
目标检测模型的训练标签gt包括区域建议网络的训练标签gtrpn和分类回归分支网络的训练标签gtrcnn
S16:通过分类和回归分支网络预测所述候选目标区域Rrcnn的分类得分Prcnn和预测回归偏移量Yrcnn,得到目标检测网络的预测标签
Figure BDA0001935266820000141
S17:以训练标签gt为目标检测模型的期望输出,以预测标签
Figure BDA0001935266820000142
为目标检测模型的预测输出,计算期望输出和预测输出之间的目标损失函数;
该目标损失函数的表达式如下:
L(Prpn,Yrpn,Prcnn,Yrcnn)=Lrpn(Prpn,Yrpn)+α1Lrcnn(Prcnn,Yrcnn)
其中,Lrpn(Prpn,Yrpn)为区域建议网络的损失函数,Lrcnn(Prcnn,Yrcnn)为分类回归分支网络的损失函数,α1为损失函数Lrcnn的权重系数。在区域建议网络的损失函数中,对于背景类的初始包围盒Q0仅计算其分类损失,不计算位置回归损失;对于前景类的初始包围盒Q0计算分类损失和位置回归损失;在分类回归分支网络的损失函数中,对于背景类的候选目标区域Rrcnn只计算分类损失,无位置回归损失,对于前景类的候选目标区域Rrcnn计算分类损失和位置回归损失。
S18:利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化,得到最优的目标检测模型。
S2:将待测图片输入训练好的目标检测模型中,通过特征提取得到不同尺寸的特征图conv5、conv4、conv3、conv2,将特征conv2、conv3、conv4、conv5输入到自上而下网络中通过上采样提取融合的特征,得到不同尺寸的特征图P2、P3、P4、P5;
首先对特征图conv5进行卷积,调整通道数得到特征图P5;将特征图conv4与特征图P5进行特征融合得到特征图P4,将特征图conv3与特征图P4进行特征融合得到特征图P3;将特征图conv2与特征图P3进行特征融合得到特征图P2。
S3:检测单元D5中的区域建议网络根据特征图P5预测得到目标候选框porposal,从特征图P5上取出目标候选框proposal对应的候选目标区域Rrcnn,分类分支输出预测的分类得分Prcnn,作为目标候选框porposal被预测为某个类别的概率;回归分支输出预测回归偏移量Yrcnn,作为目标候选框porposal被预测为前景某个类别目标的左上角顶点坐标和高度宽度相对于标注包围盒Gd的左上角顶点坐标、高度和宽度的位置偏移量;根据预测得到的位置偏移量调整目标候选框proposal的位置,得到检测单元D5预测的目标候选框porposal的位置B5和类别C5;
对目标候选框porposal的位置B5进行非最大值抑制,首先删除分类得分Prcnn<0.5的目标位置B5;计算保留的目标位置B5中相邻的两个位置之间的IoU,按照IoU0.5进行非最大值抑制操作(NMS),当两个位置B5之间的IoU小于等于0.5时,两个位置B5均保留;当两个位置B5之间的IoU大于0.5时,删除分类得分Prcnn较小的位置B5,得到最后保留的正类包围盒。
其他每一级检测单元D4~D2均根据上一级检测单元输出的目标候选框porposal预测目标的位置和类别;通过目标位置的多次迭代回归预测得到更加准确的目标位置;
S4:以最后一级检测单元D2得到的目标位置B2作为最终的位置预测结果输出,以检测单元D5预测得到的类别C5或者各级检测单元预测得到的类别C2~类别C5的平均值作为最终的类别预测结果输出。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种基于级联检测器的目标检测方法,其特征在于,包括以下步骤:
S1:将待测图片输入训练好的目标检测模型中,通过特征提取、上采样、特征融合后得到不同尺寸的特征图P2、P3、…、Pn,其中,n为大于2的自然数;
S2:根据特征图Pn预测得到目标位置Bn和类别Cn;根据目标位置Bi从特征图Pi-1中提取所述目标位置Bi对应的区域特征并预测分类得分和位置偏移量Yi-1,根据所述位置偏移量Yi-1对目标位置Bi进行调整,得到目标位置Bi-1和类别Ci-1,i=3~n;
S3:以目标位置B2作为位置预测结果。
2.如权利要求1所述的目标检测方法,其特征在于,所述根据特征图Pn预测得到目标位置Bn和类别Cn包括:
根据特征图Pn预测得到目标候选框,以及所述目标候选框的分类得分和位置偏移量Yn,根据所述位置偏移量Yn对目标候选框的位置进行调整,得到目标位置Bn和类别Cn
3.如权利要求1或2所述的目标检测方法,其特征在于,步骤S3中还包括:以类别Cn或类别Cn、Cn-1、…、C2的平均值作为类别预测结果。
4.如权利要求2所述的目标检测方法,其特征在于,还包括:对目标位置Bn进行非最大值抑制,删除所述分类得分小于预设的得分阈值的目标位置Bn
按照分类得分从大到小的顺序对属于同一目标类别Cn的目标位置Bn进行排序,依次计算排序后相邻两个位置Bn的IoU,若IoU小于预设的IoU阈值,则保留两个目标框,否则去掉分类得分较小的目标框。
5.如权利要求1或4所述的目标检测方法,其特征在于,步骤S1中包括以下子步骤:
S21:从待测图片中提取出不同尺度的特征图A2、A3、…、An,对第n个特征图An进行通道数调整,得到特征图Pn
S22:通过上采样调整特征图Pi的空间尺寸以使其与特征图Ai-1的尺寸相匹配,并对调整后的特征图Pi进行批规范化处理;
S23:调整特征图Ai-1的通道数,提取高级特征并进行批规范化处理;
S24:对批规范化处理后的特征图Pi和特征图Ai-1进行像素相加,得到融合后的特征图Pi-1
6.如权利要求1或4所述的目标检测方法,其特征在于,步骤S1之前还包括对目标检测模型进行训练的步骤:
S0:对样本图片进行目标标注,标签为标注包围盒Gd的左上角顶点的坐标(x,y)、包围盒的宽度w、高度h,以及目标的类别c,得到训练数据集;通过所述训练数据集对基于级联检测器的目标检测模型进行训练,计算训练标签和损失函数,利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化。
7.如权利要求6所述的目标检测方法,其特征在于,步骤S0中包括以下子步骤:
S01:将训练数据集中的样本图片输入目标检测模型中,通过特征提取、上采样、特征融合后得到不同尺寸的特征图;
S02:以每张特征图上的每个像素按照不同大小及长宽比对应到样本图片,产生多尺度的初始包围盒Q0
S03:计算初始包围盒Q0相对于样本图片上的标注包围盒Gd的位置偏移量和类别,生成区域建议网络的训练标签gtrpn
S04:预测所述初始包围盒Q0的前景概率Prpn和位置回归偏移量Yrpn,根据所述位置回归偏移量Yrpn调整初始包围盒Q0的位置;根据初始包围盒Q0生成候选目标区域Rrcnn,计算候选目标区域Rrcnn相对于样本图片上的标注包围盒Gd的位置偏移量和类别,生成分类回归分支网络的训练标签gtrcnn
S05:预测所述候选目标区域Rrcnn的分类得分Prcnn和预测回归偏移量Yrcnn,得到预测标签
Figure FDA0003004228470000021
S06:以训练标签gt为目标检测模型的期望输出,以预测标签
Figure FDA0003004228470000022
为目标检测模型的预测输出,计算期望输出和预测输出之间的目标损失函数;
S07:利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化,得到最优的目标检测模型。
8.如权利要求7所述的目标检测方法,其特征在于,步骤S03中还包括:
计算初始包围盒Q0相对于标注包围盒Gd的IoU,当所有的标注包围盒Gd与初始包围盒Q0的IoU均小于设定的IoU阈值时,该初始包围盒Q0的类别为0;否则,该初始包围盒Q0的类别为1;并以IoU最大的标注包围盒Gd计算初始包围盒Q0的位置偏移量。
9.如权利要求7所述的目标检测方法,其特征在于,步骤S04中还包括:
计算候选目标区域Rrcnn相对于标注包围盒Gd的IoU,当所有的标注包围盒Gd与候选目标区域Rrcnn的IoU均小于设定的IoU阈值时,该候选目标区域Rrcnn的类别为0;否则,该候选目标区域Rrcnn的类别为最大IoU所对应的标注包围盒Gd的类别,并以该标注包围盒Gd计算候选目标区域Rrcnn的位置偏移量。
10.如权利要求7所述的目标检测方法,其特征在于,步骤S05中,所述目标损失函数的表达式如下:
L(Prpn,Yrpn,Prcnn,Yrcnn)=Lrpn(Prpn,Yrpn)+α1Lrcnn(Prcnn,Yrcnn)
其中,Lrpn(Prpn,Yrpn)为区域建议网络的损失函数,Lrcnn(Prcnn,Yrcnn)为分类回归分支网络的损失函数,α1为损失函数Lrcnn的权重系数。
11.一种基于级联检测器的目标检测模型,其特征在于,包括特征提取单元、结果输出单元和多个级联连接的检测单元D2、D3、…、Dn
所述特征提取单元用于对输入的待测图片进行特征提取、上采样、特征融合,得到不同尺寸的特征图P2、P3、…、Pn
第n级检测单元Dn用于根据特征图Pn预测得到目标位置Bn和类别Cn
第i-1级检测单元D(i-1)用于根据目标位置Bi从对应的特征图Pi-1中提取所述目标位置Bi对应的区域特征并预测分类得分和位置偏移量Yi-1,根据所述位置偏移量Yi-1对目标位置Bi进行调整,得到目标位置Bi-1和类别Ci-1,其中,i=3~n,n为大于2的自然数;
所述结果输出单元用于将目标位置B2作为位置预测结果输出。
12.如权利要求11所述的目标检测模型,其特征在于,每一级检测单元包括预测模块和调整模块;
第n级预测模块用于根据特征图Pn预测得到目标候选框,以及所述目标候选框的分类得分和位置偏移量Yn;第n级调整模块用于根据所述位置偏移量Yn对目标候选框进行调整,得到目标位置Bn和类别Cn
13.如权利要求11所述的目标检测模型,其特征在于,所述结果输出单元还用于将目标类别Cn或目标类别Cn、Cn-1、…、C2的平均值作为类别预测结果输出。
14.如权利要求12所述的目标检测模型,其特征在于,还包括抑制单元;
所述抑制单元用于对第n级检测单元输出的目标位置Bn进行非最大值抑制,删除分类得分小于预设的得分阈值的目标位置Bn;并按照分类得分从大到小的顺序对属于同一目标类别Cn的目标位置Bn进行排序,依次计算排序后相邻两个位置Bn的IoU,若IoU小于预设的IoU阈值,则保留两个目标框,否则去掉分类得分较小的目标框。
15.如权利要求14所述的目标检测模型,其特征在于,所述特征提取单元包括特征提取模块和特征融合模块;
所述特征提取模块用于从待测图片中提取出不同尺度的特征图A2、A3、…、An,对特征图An进行通道数调整,得到特征图Pn
所述特征融合模块用于通过上采样调整特征图Pi的空间尺寸以使其与特征图Ai-1的尺寸相匹配,并对调整后的特征图Pi进行批规范化处理;
并用于调整特征图Ai-1的通道数,提取高级特征并进行批规范化处理;对批规范化处理后的特征图Pi和特征图Ai-1进行像素相加,得到融合后的特征图Pi-1
16.如权利要求11~15任一项所述的目标检测模型,其特征在于,在训练阶段,所述特征提取单元用于对输入的带目标标注的样本图片进行特征提取、上采样、特征融合,得到不同尺寸的特征图;所述样本图片的标签为标注包围盒Gd的左上角顶点的坐标(x,y)、包围盒的长度w、宽度h,以及目标的类别c;
所述检测单元用于以每张特征图上的每个像素对应到样本图片中按照不同大小及长宽比产生多尺度的初始包围盒Q0,预测所述初始包围盒Q0的前景概率Prpn、位置回归偏移量Yrpn;并用于根据所述初始包围盒Q0生成候选目标区域Rrcnn,预测所述候选目标区域Rrcnn的分类得分Prcnn和预测回归偏移量Yrcnn
17.一种基于权利要求16所述的目标检测模型的目标检测系统,其特征在于,还包括标签生成单元、计算单元和训练单元;
所述标签生成单元用于获取检测单元生成的初始包围盒Q0,计算初始包围盒Q0相对于样本图片上的标注包围盒Gd的位置偏移量和类别,生成区域建议网络的训练标签gtrpn;并用于计算候选目标区域Rrcnn相对于样本图片上的标注包围盒Gd的位置偏移量和类别,生成分类回归分支网络的训练标签gtrcnn;并用于根据前景概率Prpn、偏移量Yrpn、分类得分Prcnn和回归偏移量Yrcnn生成预测标签
Figure FDA0003004228470000041
所述计算单元用于以训练标签gt为目标检测模型的期望输出,以预测标签
Figure FDA0003004228470000042
为目标检测模型的预测输出,计算期望输出和预测输出之间的目标损失函数;
所述训练单元用于利用反向传播算法对目标检测模型进行迭代训练以使所述损失函数最小化,得到最优的目标检测模型。
18.如权利要求17所述的目标检测系统,其特征在于,所述标签生成单元还用于计算初始包围盒Q0相对于标注包围盒Gd的IoU,当所有的标注包围盒Gd与初始包围盒Q0的IoU均小于设定的IoU阈值时,将初始包围盒Q0的类别置为0;否则,将该初始包围盒Q0的类别置为1;并以IoU最大的标注包围盒Gd计算初始包围盒Q0的位置偏移量;
并用于计算候选目标区域Rrcnn相对于标注包围盒Gd的IoU,当所有的标注包围盒Gd与候选目标区域Rrcnn的IoU均小于设定的IoU阈值时,该候选目标区域Rrcnn的类别为0;否则,该候选目标区域Rrcnn的类别为最大IoU所对应的标注包围盒Gd的类别,并以该标注包围盒Gd计算候选目标区域Rrcnn的位置偏移量。
CN201910005486.0A 2019-01-03 2019-01-03 基于级联检测器的目标检测方法、目标检测模型及系统 Active CN109886286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910005486.0A CN109886286B (zh) 2019-01-03 2019-01-03 基于级联检测器的目标检测方法、目标检测模型及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910005486.0A CN109886286B (zh) 2019-01-03 2019-01-03 基于级联检测器的目标检测方法、目标检测模型及系统

Publications (2)

Publication Number Publication Date
CN109886286A CN109886286A (zh) 2019-06-14
CN109886286B true CN109886286B (zh) 2021-07-23

Family

ID=66925633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910005486.0A Active CN109886286B (zh) 2019-01-03 2019-01-03 基于级联检测器的目标检测方法、目标检测模型及系统

Country Status (1)

Country Link
CN (1) CN109886286B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322438B (zh) * 2019-06-26 2021-09-14 杭州上池科技有限公司 结核分枝杆菌自动检测模型的训练方法及自动检测系统
CN110288586A (zh) * 2019-06-28 2019-09-27 昆明能讯科技有限责任公司 一种基于可见光图像数据的多尺度输电线路缺陷检测方法
CN110443242B (zh) * 2019-07-31 2022-04-08 新华三大数据技术有限公司 读数框检测方法、目标识别模型训练方法及相关装置
CN110619350B (zh) * 2019-08-12 2021-06-18 北京达佳互联信息技术有限公司 图像检测方法、装置及存储介质
CN110852349B (zh) * 2019-10-21 2024-02-20 上海联影智能医疗科技有限公司 一种图像处理方法、检测方法、相关设备及存储介质
KR20210098515A (ko) * 2019-10-31 2021-08-10 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 표적 검출, 지능형 주행 방법, 장치, 디바이스 및 저장매체
CN112749710A (zh) * 2019-10-31 2021-05-04 北京市商汤科技开发有限公司 目标检测、智能行驶方法、装置、设备及存储介质
CN112749602A (zh) * 2019-10-31 2021-05-04 北京市商汤科技开发有限公司 目标查询方法、装置、设备及存储介质
CN110991303A (zh) * 2019-11-27 2020-04-10 上海智臻智能网络科技股份有限公司 一种图像中文本定位方法、装置及电子设备
CN111126278B (zh) * 2019-12-24 2023-06-20 北京邮电大学 针对少类别场景的目标检测模型优化与加速的方法
CN111523452B (zh) * 2020-04-22 2023-08-25 北京百度网讯科技有限公司 用于检测图像中人体位置的方法和装置
CN111832559A (zh) * 2020-06-19 2020-10-27 浙江大华技术股份有限公司 目标检测方法及装置、存储介质、电子装置
CN111986160A (zh) * 2020-07-24 2020-11-24 成都恒创新星科技有限公司 一种基于faster-RCNN提高小目标检测效果的方法
CN111916206B (zh) * 2020-08-04 2023-12-08 重庆大学 一种基于级联的ct影像辅助诊断系统
CN111967595B (zh) * 2020-08-17 2023-06-06 成都数之联科技股份有限公司 候选框标注方法及系统及模型训练方法及目标检测方法
CN112215179B (zh) * 2020-10-19 2024-04-19 平安国际智慧城市科技股份有限公司 车内人脸识别方法、设备、装置及存储介质
CN112206541B (zh) * 2020-10-27 2024-06-14 网易(杭州)网络有限公司 游戏外挂识别方法、装置、存储介质及计算机设备
CN112560634B (zh) * 2020-12-10 2023-04-07 齐鲁工业大学 基于现场图像的电力线路绝缘子快速检测定位方法及系统
CN112633352B (zh) * 2020-12-18 2023-08-29 浙江大华技术股份有限公司 一种目标检测方法、装置、电子设备及存储介质
CN113011435A (zh) * 2021-02-04 2021-06-22 精英数智科技股份有限公司 目标对象的图像处理方法、装置及电子设备
CN112766244B (zh) * 2021-04-07 2021-06-08 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN113269197B (zh) * 2021-04-25 2024-03-08 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法
CN113420648B (zh) * 2021-06-22 2023-05-05 深圳市华汉伟业科技有限公司 一种具有旋转适应性的目标检测方法及系统
CN113744205B (zh) * 2021-08-17 2024-02-06 哈尔滨工业大学(威海) 一种端到端的道路裂缝检测系统
CN115731588A (zh) * 2021-08-27 2023-03-03 腾讯科技(深圳)有限公司 模型处理方法及装置
CN117037158B (zh) * 2023-10-09 2024-01-09 之江实验室 基于视频语义驱动的城市大脑云边协同计算方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106323600A (zh) * 2016-08-31 2017-01-11 武汉精测电子技术股份有限公司 一种级联分布式aoi缺陷检测系统及其检测方法
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN108875624A (zh) * 2018-06-13 2018-11-23 华南理工大学 基于多尺度的级联稠密连接神经网络的人脸检测方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022237B (zh) * 2016-05-13 2019-07-12 电子科技大学 一种端到端的卷积神经网络的行人检测方法
CN106127161A (zh) * 2016-06-29 2016-11-16 深圳市格视智能科技有限公司 基于级联多层检测器的快速目标检测方法
CN106504233B (zh) * 2016-10-18 2019-04-09 国网山东省电力公司电力科学研究院 基于Faster R-CNN的无人机巡检图像电力小部件识别方法及系统
CN107506707B (zh) * 2016-11-30 2021-05-25 奥瞳系统科技有限公司 采用嵌入式系统中的小规模卷积神经网络模块的人脸检测
CN107169421B (zh) * 2017-04-20 2020-04-28 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN107463892A (zh) * 2017-07-27 2017-12-12 北京大学深圳研究生院 一种结合上下文信息和多级特征的图像中行人检测方法
CN107885764B (zh) * 2017-09-21 2020-12-18 银江股份有限公司 基于多任务深度学习快速哈希车辆检索方法
CN107590489A (zh) * 2017-09-28 2018-01-16 国家新闻出版广电总局广播科学研究院 基于级联卷积神经网络的目标检测方法
CN108427924B (zh) * 2018-03-09 2020-06-23 华中科技大学 一种基于旋转敏感特征的文本回归检测方法
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108510012B (zh) * 2018-05-04 2022-04-01 四川大学 一种基于多尺度特征图的目标快速检测方法
CN108764063B (zh) * 2018-05-07 2020-05-19 华中科技大学 一种基于特征金字塔的遥感影像时敏目标识别系统及方法
CN108694401B (zh) * 2018-05-09 2021-01-12 北京旷视科技有限公司 目标检测方法、装置及系统
CN109033950B (zh) * 2018-06-12 2020-07-17 浙江工业大学 基于多特征融合级联深度模型的车辆违停检测方法
CN109034210B (zh) * 2018-07-04 2021-10-12 国家新闻出版广电总局广播科学研究院 基于超特征融合与多尺度金字塔网络的目标检测方法
CN109117794A (zh) * 2018-08-16 2019-01-01 广东工业大学 一种运动目标行为跟踪方法、装置、设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106323600A (zh) * 2016-08-31 2017-01-11 武汉精测电子技术股份有限公司 一种级联分布式aoi缺陷检测系统及其检测方法
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN108875624A (zh) * 2018-06-13 2018-11-23 华南理工大学 基于多尺度的级联稠密连接神经网络的人脸检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Feature Pyramid Networks for Object Detection;Tsung-Yi Lin et al;《arXiv》;20170419;全文 *

Also Published As

Publication number Publication date
CN109886286A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109886286B (zh) 基于级联检测器的目标检测方法、目标检测模型及系统
US10691952B2 (en) Adapting to appearance variations when tracking a target object in video sequence
CN108549893B (zh) 一种任意形状的场景文本端到端识别方法
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN112396002A (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
US20190130232A1 (en) Font identification from imagery
JP6998440B2 (ja) 混合時間ドメイン適応による動画アクション・セグメンテーション
KR102570706B1 (ko) 분류를 위한 강제된 희소성
US20170032247A1 (en) Media classification
US11586924B2 (en) Determining layer ranks for compression of deep networks
CN112070713A (zh) 一种引入attention机制的多尺度目标检测方法
CN112927245B (zh) 一种基于实例查询的端到端实例分割方法
US20220156528A1 (en) Distance-based boundary aware semantic segmentation
Cecil et al. The application of convolutional neural networks to the automation of a meteor detection pipeline
Tang et al. Adaptive pedestrian detection using convolutional neural network with dynamically adjusted classifier
CN112396086A (zh) 使用神经网络进行可靠分类的方法和系统
Nguyen et al. YOLO5PKLot: A Parking Lot Detection Network Based on Improved YOLOv5 for Smart Parking Management System
CN111652079B (zh) 应用于流动人群的表情识别方法、系统及存储介质
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质
Satti et al. Recognizing the Indian Cautionary Traffic Signs using GAN, Improved Mask R‐CNN, and Grab Cut
Bakshi et al. ALPR-An Intelligent Approach Towards Detection and Recognition of License Plates in Uncontrolled Environments
Agbo-Ajala et al. Age group and gender classification of unconstrained faces
Ertl et al. Identification of Partially Resolved Objects in Space Imagery with Convolutional Neural Networks
US20230290273A1 (en) Computer vision methods and systems for sign language to text/speech
Lakshmi Priya et al. Vehicle Detection in Autonomous Vehicles Using Computer Vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant