CN109948628B - 一种基于判别性区域挖掘的目标检测方法 - Google Patents

一种基于判别性区域挖掘的目标检测方法 Download PDF

Info

Publication number
CN109948628B
CN109948628B CN201910200092.0A CN201910200092A CN109948628B CN 109948628 B CN109948628 B CN 109948628B CN 201910200092 A CN201910200092 A CN 201910200092A CN 109948628 B CN109948628 B CN 109948628B
Authority
CN
China
Prior art keywords
feature
discriminant
basic
stream
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910200092.0A
Other languages
English (en)
Other versions
CN109948628A (zh
Inventor
郑慧诚
陈绿然
严志伟
李烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910200092.0A priority Critical patent/CN109948628B/zh
Publication of CN109948628A publication Critical patent/CN109948628A/zh
Application granted granted Critical
Publication of CN109948628B publication Critical patent/CN109948628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种基于判别性区域挖掘的目标检测方法,通过特征提取网络进行特征提取,获取特征流;构建LDRM模块,将特征流进行局部的判别性特征学习;构建CDRM模块,对局部的判别性特征学习后的特征流进行上下文判别特征学习;构建特征流s3,采用检测器对特征流s3的特征图进行检测,得到最终的检测结果。本发明提供的一种基于判别性区域挖掘的目标检测方法,基于感受野的特征图产生判别性区域的特征表达,避免了从原图中提取判别性区域,再进行特征提取而引入的大量计算量,保证该方法以高的效率进行目标检测,防止受到表观相似的前景目标和背景区域的干扰;通过将生成的判别性区域特征与候选目标的特征进行融合,结合不同感受野的特征,优化特征表达。

Description

一种基于判别性区域挖掘的目标检测方法
技术领域
本发明涉及计算机视觉技术领域,更具体的,涉及一种基于判别性区域挖掘的目标检测方法。
背景技术
视频监控作为一项重要的安全监控手段,对于保障人民的生命财产安全、打击违法犯罪等活动具有重要意义。目前,视频监控遍布城市的角落,而现有的视频监控系统通常只被用于记录、存储和调取视频图像,无法对异常情况进行预测和报警。为了实现实时监控,需要工作人员对视频数据进行分析。随着数据规模的扩大,人工分析难以保持较高的准确率和处理效率。因此,人们希望计算机能自动对视频进行分析,完成预设的视觉任务,如目标识别、目标检测和目标跟踪等,实现实时有效的监控。
目标检测作为智能视频监控中的关键环节,一直是计算机视觉领域的重要研究方向。基于图像的目标检测算法的主要任务是检测图像中感兴趣的目标并对其实现定位。目前,目标检测在行人重识别、视频监控、视频检索、视频描述、人机交互、自动驾驶、医学图像分析等领域得到广泛应用。
常见的基于图像的目标检测算法可分两类,一类是基于候选区域的方法,另一类是无候选区域的方法。基于候选区域的方法以Fast R-CNN[1]、R-FCN[2]、Mask R-CNN[3]为代表,它们将目标检测分为两个步骤:第一步生成一系列目标候选区域,第二步对每一个候选区域进行位置预测和精细类别的分类。这类方法大多能获得较高的检测准确率,但相对耗时,计算量较大,难以满足实时的要求。为了解决这些问题,研究者们提出了无候选区域的方法,典型代表是YOLO[4],SSD[5]。无候选区域的方法从图像中提取特征后,直接预测目标位置及判断目标类别,而无需经过生成目标候选区域这一阶段。这类方法由于其运行的高效性受到广泛关注,但其检测准确率略低于基于候选区域的方法。
本发明以无候选区域的方法为基础,进一步提升它的检测准确率。在实验中发现,大部分无候选区域的方法都存在检测器鲁棒性不足的问题。具体而言,检测器很容易受到表观相似的前景目标或背景区域的影响。例如,检测器容易将背景区域中的“树”判断为前景目标“盆栽”,也容易将前景目标“自行车”与“摩托车”混淆。由于“树”与“盆栽”均为植物,而“自行车”和“摩托车”同属交通工具,它们之间存在一定的表观相似性,这使得检测器出现了混淆。而在人类视觉系统中,我们能准确地区分这些表观具有一定相似性的目标,如在区分“自行车”和“摩托车”时,两者的车轮、车把、坐垫等可以为我们提供重要的判别信息。因此,若检测器也具有捕获这些判别性区域的能力,将有利于提高特征的判别性,从而避免表观相似前景目标和背景区域对其造成干扰。为了提高特征判别性,现有方法[6,7,8]大多采用多层特征融合的方法来优化特征表达,即融合浅层的空间信息和高层的语义信息。然而,这些方法仍然缺少对某个判别性区域的关注,这使得学习的细节特征不够准确,缺乏一定的判别性。因此,我们希望检测器能有效地捕获前景目标中的判别性区域并学习其特征表达,从而提高检测器的判别性。
发明内容
本发明为克服上述现有图像目标检测算法所使用的检测器存在容易受到表观相似的前景目标和背景区域干扰的技术缺陷,提供一种基于判别性区域挖掘的目标检测方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于判别性区域挖掘的目标检测方法,包括以下步骤:
S1:通过特征提取网络进行特征提取,获取特征流s1、s2
S2:构建局部判别性区域挖掘LDRM模块,将特征流s1、s2进行局部的判别性特征学习;
S3:构建基于上下文判别性区域挖掘CDRM模块,对局部的判别性特征学习后的特征流s1、s2进行上下文判别特征学习;
S4:构建特征流s3,采用检测器对特征流s3的特征图进行检测,得到最终的检测结果。
其中,所述步骤S1包括以下步骤:
S11:将一张图像及它的×2上采样图像输入同一特征提取网络中,选取特征层的输出构成特征流s1和特征流s2;所述特征流s1用于目标的整体描述,所述特征流s2用于目标的细节描述;
S12:特征流s1经检测器d1进行目标类别判定及目标位置预测,分别得到分类损失
Figure GDA0003945780580000021
和回归损失
Figure GDA0003945780580000022
上述方案中,所述步骤S12应用于特征提取网络的训练过程中,在测试阶段可以忽略。
其中,所述步骤S2包括以下步骤:
S21:按照特征图生成的顺序,分别从特征流s1和特征流s2中取生成次序相同的特征图构成特征图对,构建LDRM模块的输入特征图对;
对于每一个LDRM模块,其输入有基础特征图Fbasic和互补特征图Fcomp构成,其中特征图Fbasic来自特征流s1,特征图Fcomp来自特征流s2
S22:判别性区域定位:设输入的基础特征图Fbasic的大小为W×H×C,其中W、H、C分别表示基础特征图Fbasic的宽、高和通道数;基础特征图Fbasic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M;对于中心位置为(xn,yn)的候选目标区域,其判别性区域表示为:
(x,y)=(xn,yn)+λ(Δx,Δy); (1)
其中,(xn,yn)遍历了基础特征图Fbasic中所有的空间位置,即:xn=1,2,...,W;yn=1,2,...,H;(Δx,Δy)表示从候选目标区域到判别性区域的位置偏移量;其中,
Figure GDA0003945780580000031
其表示特征图M中的空间位置为(xn,yn)的数值;λ为缩放权重,取值为0.75;
S23:判别性特征学习:对于一个中心位置为(xn,yn)的候选目标,设其判别性区域表示为(x,y),则其判别性区域的特征表示为:
Figure GDA0003945780580000032
其中:Fdiscri表示判别性特征图;
Figure GDA0003945780580000033
表示特征图Fdiscri在空间位置(xn,yn)上的特征,表示以(xn,yn)为中心的候选目标的判别性区域特征表达;φ(Fcomp)(x,y)表示互补特征图Fcomp在判别性区域(x,y)的变换函数,这里取恒等换;其中:
Figure GDA0003945780580000034
表示(x,y)的四个邻近整数空间位置,其中
Figure GDA0003945780580000035
表示向下取整,
Figure GDA0003945780580000036
表示向上取整;函数G是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G(u,v,x,y)=g(u,x)·g(v,y); (3)
其中,g(a,b)=1-|a-b|;
在LDRM模块中,特征图Fdiscri经过一个3×3的卷积层后与基础特征图Fbasic进行融合拼接,得到LDRM模块的输出;
S24:LDRM模块内的分类:将特征图Fdiscri输入由3×3的卷积层实现的分类器c1中,完成对目标类别的判定;根据分类器c1输出的结果,得到损失函数
Figure GDA0003945780580000037
上述方案中,所述步骤S24应用于LDRM模块的训练过程中,在测试阶段可以忽略。
其中,所述步骤S3具体包括以下步骤:
S31:CDRM模块的输入特征图对由相邻的两个LDRM模块的输出构成,取输出空间分辨率大的特征作为基础特征图F'basic,输出空间分别率小的特征作为互补特征图F'comp,构建CDRM模块的输入特征图对;
S32:判别性区域定位:设输入的基础特征图F'basic的大小为W'×H'×C',其中W'、H'、C'分别表示基础特征图F'basic的宽、高和通道数;基础特征图F'basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M';对于中心位置为(x'n,y'n)的候选目标区域,其判别性区域表示为:
(x',y')=(x'n,y'n)+λ'(Δx',Δy'); (4)
其中,(x'n,y'n)遍历了基础特征图F'basic中所有的空间位置,即:x'n=1,2,...,W';y'n=1,2,...,H';(Δx',Δy')表示从候选目标区域到判别性区域的位置偏移量;其中,
Figure GDA0003945780580000041
其表示特征图M'中的空间位置为(x'n,y'n)的数值;λ'为缩放权重,取值为1;
S33:判别性特征学习:对于一个中心位置为(x'n,y'n)的候选目标,设其判别性区域表示为(x',y'),则其判别性区域的特征表示为:
Figure GDA0003945780580000042
其中:F'discri表示判别性特征图;
Figure GDA0003945780580000043
表示特征图F'discri在空间位置(x'n,y'n)上的特征,表示以(x'n,y'n)为中心的候选目标的判别性区域特征表达;φ'(F'comp)(x',y')表示互补特征图F'comp在判别性区域表示(x',y')中的变换函数,这里取核为2×2、步长为2的解卷积操作;其中:
Figure GDA0003945780580000044
表示(x',y')的四个邻近整数空间位置,其中
Figure GDA0003945780580000045
表示向下取整,
Figure GDA0003945780580000046
表示向上取整;函数G'是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G'(u',v',x',y')=g'(u',x')·g'(v',y'); (6)
其中,g'(a',b')=1-|a'-b'|;
在CDRM模块中,基础特征图F'basic经过一个3×3的卷积层后与特征图F'discri进行逐元素相加操作,从而得到CDRM模块的输出;
S34:CDRM模块内的内分类:将特征图F'discri输入由3×3的卷积层实现的分类器c2中,完成对目标类别的判定;根据分类器c2输出的结果,得到损失函数
Figure GDA0003945780580000051
上述方案中,所述步骤S34应用于CDRM模块的训练过程中,在测试阶段可以忽略。
其中,所述步骤S4具体为:
S41:取所有CDRM模块的输出和最后两个LDRM模块的输出构成的集合作为特征流s3,采用检测器d2对特征流s3中的特征图进行最终的检测,在检测过程中对检测器d2的输出进行非极大值抑制,得到最终的检测结果;
S42:特征流s3经检测器d2进行目标类别判定及目标位置预测,分别得到分类损失
Figure GDA0003945780580000052
和回归损失
Figure GDA0003945780580000053
与现有技术相比,本发明技术方案的有益效果是:
本发明提供的一种基于判别性区域挖掘的目标检测方法,在不明显增加参数量和运算量的情况下,对判别性区域的位置进行有效的预测,实现判别性区域定位;在判别性区域的特征学习中,一方面,基于一定感受野的特征图产生判别性区域的特征表达,避免了从原图中提取判别性区域,再进行特征提取这一操作所引入的大量计算量,保证该方法以高的效率进行目标检测,防止受到表观相似的前景目标和背景区域的干扰;另一方面,将生成的判别性区域特征与候选目标的特征进行融合,结合不同感受野的特征,优化特征表达;为保证LDRM模块、CDRM模块能有效地进行训练,引入了模块内的分类分支,提供了额外的监督信号,保证了模块的判别性。
附图说明
图1为本方法流程示意图;
图2为基于判别性区域挖掘的目标检测网络示意图;
图3为LDRM模块结构示意图;
图4为CDRM模块结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于判别性区域挖掘的目标检测方法,包括以下步骤:
S1:通过特征提取网络进行特征提取,获取特征流s1、s2
S2:构建局部判别性区域挖掘LDRM模块,将特征流s1、s2进行局部的判别性特征学习;
S3:构建基于上下文判别性区域挖掘CDRM模块,对局部的判别性特征学习后的特征流s1、s2进行上下文判别特征学习;
S4:构建特征流s3,采用检测器对特征流s3的特征图进行检测,得到最终的检测结果。
更具体的,如图2所示,所述步骤S1包括以下步骤:
S11:将一张输入大小为300×300的图像及它的×2上采样图像输入同一特征提取网络中,选取特征层的输出构成特征流s1和特征流s2;对于原始输入为300×300的结构,特征流s1包含空间分辨率分别为38×38,19×19,10×10,5×5,3×3,1×1的特征图;特征流s2包含空间分辨率分别为75×75,38×38,19×19,10×10,5×5,3×3,1×1的特征图;由于特征流s2是基于×2上采样的图像得到的,它比特征流s1具有更丰富的空间信息。所述特征流s1用于目标的整体描述,所述特征流s2用于目标的细节描述;
S12:特征流s1经检测器d1进行目标类别判定及目标位置预测,分别得到分类损失和回归损失
Figure GDA0003945780580000061
在具体实施过程中,将原始尺寸的图像输入到ResNet-18进行特征提取,获取特征流s1;利用检测器d1进行目标类别判定及目标位置预测;计算分类损失
Figure GDA0003945780580000062
和回归损失
Figure GDA0003945780580000063
计算总的损失函数
Figure GDA0003945780580000064
求解梯度,更新特征提取网络和检测器d1的参数,若迭代未结束,则重新进行特征提取,最终完成特征提取网络的训练。
在具体实施过程中,所述步骤S12应用于特征提取网络的训练过程中,在测试阶段可以忽略。
更具体的,如图3所示,所述步骤S2包括以下步骤:
S21:按照特征图生成的顺序,分别从特征流s1和特征流s2中取生成次序相同的特征图构成特征图对,构建LDRM模块的输入特征图对;
对于每一个LDRM模块,其输入有基础特征图Fbasic和互补特征图Fcomp构成,其中特征图Fbasic来自特征流s1,特征图Fcomp来自特征流s2
S22:判别性区域定位:设输入的基础特征图Fbasic的大小为W×H×C,其中W、H、C分别表示基础特征图Fbasic的宽、高和通道数;基础特征图Fbasic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M;对于中心位置为(xn,yn)的候选目标区域,其判别性区域表示为:
(x,y)=(xn,yn)+λ(Δx,Δy); (1)
其中,(xn,yn)遍历了基础特征图Fbasic中所有的空间位置,即:xn=1,2,...,W;yn=1,2,...,H;(Δx,Δy)表示从候选目标区域到判别性区域的位置偏移量;其中,
Figure GDA0003945780580000071
其表示特征图M中的空间位置为(xn,yn)的数值;λ为缩放权重,取值为0.75;
S23:判别性特征学习:对于一个中心位置为(xn,yn)的候选目标,设其判别性区域表示为(x,y),则其判别性区域的特征表示为:
Figure GDA0003945780580000072
其中:Fdiscri表示判别性特征图;
Figure GDA0003945780580000073
表示特征图Fdiscri在空间位置(xn,yn)上的特征,表示以(xn,yn)为中心的候选目标的判别性区域特征表达;φ(Fcomp)(x,y)表示互补特征图Fcomp在判别性区域(x,y)的变换函数,这里取恒等换;其中:
Figure GDA0003945780580000074
表示(x,y)的四个邻近整数空间位置,其中
Figure GDA0003945780580000075
表示向下取整,
Figure GDA0003945780580000076
表示向上取整;函数G是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G(u,v,x,y)=g(u,x)·g(v,y); (3)
其中,g(a,b)=1-|a-b|;
在LDRM模块中,特征图Fdiscri经过一个3×3的卷积层后与基础特征图Fbasic进行融合拼接,得到LDRM模块的输出;
S24:LDRM模块内的分类:将特征图Fdiscri输入由3×3的卷积层实现的分类器c1中,完成对目标类别的判定;根据分类器c1输出的结果,得到损失函数
Figure GDA0003945780580000077
在具体实施过程中,所述步骤S24应用于LDRM模块的训练过程中,在测试阶段可以忽略。
更具体的,如图4所示,所述步骤S3具体包括以下步骤:
S31:CDRM模块的输入特征图对由相邻的两个LDRM模块的输出构成,取输出空间分辨率大的特征作为基础特征图F'basic,输出空间分别率小的特征作为互补特征图F'comp,构建CDRM模块的输入特征图对;
S32:判别性区域定位:设输入的基础特征图F'basic的大小为W'×H'×C',其中W'、H'、C'分别表示基础特征图F'basic的宽、高和通道数;基础特征图F'basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M';对于中心位置为(x'n,y'n)的候选目标区域,其判别性区域表示为:
(x',y')=(x'n,y'n)+λ'(Δx',Δy'); (4)
其中,(x'n,y'n)遍历了基础特征图F'basic中所有的空间位置,即:x'n=1,2,...,W';y'n=1,2,...,H';(Δx',Δy')表示从候选目标区域到判别性区域的位置偏移量;其中,
Figure GDA0003945780580000081
其表示特征图M'中的空间位置为(x'n,y'n)的数值;λ'为缩放权重,取值为1;
S33:判别性特征学习:对于一个中心位置为(x'n,y'n)的候选目标,设其判别性区域表示为(x',y'),则其判别性区域的特征表示为:
Figure GDA0003945780580000082
其中:Fd'iscri表示判别性特征图;
Figure GDA0003945780580000083
表示特征图Fd'iscri在空间位置(x'n,y'n)上的特征,表示以(x'n,y'n)为中心的候选目标的判别性区域特征表达;φ'(F'comp)(x',y')表示互补特征图F'comp在判别性区域表示(x',y')中的变换函数,这里取核为2×2、步长为2的解卷积操作;其中:
Figure GDA0003945780580000084
表示(x',y')的四个邻近整数空间位置,其中
Figure GDA0003945780580000085
表示向下取整,
Figure GDA0003945780580000086
表示向上取整;函数G'是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G'(u',v',x',y')=g'(u',x')·g'(v',y'); (6)
其中,g'(a',b')=1-|a'-b'|;
在CDRM模块中,基础特征图F'basic经过一个3×3的卷积层后与特征图F'discri进行逐元素相加操作,从而得到CDRM模块的输出;
S34:CDRM模块内的分类:将特征图F'discri输入由3×3的卷积层实现的分类器c2中,完成对目标类别的判定;根据分类器c2输出的结果,得到损失函数
Figure GDA0003945780580000091
在具体实施过程中,所述步骤S34应用于CDRM模块的训练过程中,在测试阶段可以忽略。
更具体的,所述步骤S4具体为:
S41:取所有CDRM模块的输出和最后两个LDRM模块的输出构成的集合作为特征流s3,采用检测器d2对特征流s3中的特征图进行最终的检测,在检测过程中对检测器d2的输出进行非极大值抑制,得到最终的检测结果;
S42:特征流s3经检测器d2进行目标类别判定及目标位置预测,分别得到分类损失
Figure GDA0003945780580000092
和回归损失
Figure GDA0003945780580000093
在具体实施过程中,通过由原始尺寸和×2上采样的图像输入到训练完成的参数固定的特征提取网络ResNet-18得到的特征流s1、特征流s2,利用LDRM模块获取判别性局部特征,并使用分类器c1对其进行分类;利用CDRM模块获取判别性上下文特征,并使用分类器c2对其进行分类;构建特征流s3,使用检测器d2进行目标类别判定及目标位置检测;求解与分类器c1、c2和检测器d2相关的多项损失,计算总的损失函数
Figure GDA0003945780580000094
其中α=1.5,β=γ=1;求解梯度,更新出特征提取网络和检测器d1外的参数,若迭代未结束,则重新提取特征流s1、特征流s2,最终完成LDRM模块、CDRM模块的训练。
在具体实施过程中,在测试过程中,将原始尺寸和×2上采样的图像输入到参数固定的特征提取网络ResNet-18,获取特征流s1、特征流s2;利用LDRM模块获取判别性局部特征;利用CDRM模块获取判别性上下文特征;构建特征流s3,使用检测器d2进行目标类别判定及目标位置检测,并进行非极大值抑制得到最终的检测结果。
实施例2
更具体的,在实施例1的基础上,为了体现本发明的技术效果,在PASCAL VOC 2007[9]和MS COCO[10]两个数据集进行实验,并与其它先进的目标检测方法进行对比。
在具体实施过程中,实验的输入图像有两种分辨率,分别为300×300和512×512。实验中,选取经ImageNet数据集预训练的ResNet-18和ResNet-34作为特征提取网络。
在具体实施过程中,本实验在PASCAL VOC 2007和VOC 2012的trainval数据集进行训练,在PASCAL VOC 2007test数据集进行测试,特征提取网络为ResNet-18。训练过程中批大小设置为16,迭代次数为120k。初始学习率设置为1×10-3,iv迭代次数为80k和100k时,学习率分别调整为1×10-4和1×10-5。相关的实验数据如表1所示,体现出本发明提出的基于判别性区域挖掘的目标检测网络的有效性。
表1 PASCAL VOC 2007 test数据集的检测效果
目标检测方法 特征提取网络 图像输入大小 mAP(%)
SSD300[5] VGG-16 300×300 77.2
RefineDet320[9] VGG-16 320×320 80.0
RFBNet 300[10] VGG-16 300×300 80.5
DRM-Det300 ResNet-18 300×300 80.7
SSD512[5] VGG-16 512×512 79.8
RefineDet512[9] VGG-16 512×512 81.8
RFBNet512[10] VGG-16 512×512 82.2
DRM-Det512 ResNet-18 512×512 82.3
注:mAP数值越高表示模型效果越好,黑体表示相近图像输入尺寸下的最好效果。
本实验在MS COCO的trainval35k数据集训练,在MS COCO test-dev数据集进行测试,特征提取网络为ResNet-34。训练过程中批大小(batch size)设置为16,迭代次数为115epoch。初始学习率设置为1×10-3,在迭代次数为75epoch和95epoch时,学习率分别调整为1×10-4和1×10-5。相关的实验数据如表2所示,体现出本发明提出的基于判别性区域挖掘的目标检测网络的有效性。
表2 MS COCO test-dev数据集的检测效果
检测器 特征提取网络 输入大小 AP AP<sub>50</sub> AP<sub>75</sub> AP<sub>S</sub> AP<sub>M</sub> AP<sub>L</sub>
SSD300[5] VGG-16 300×300 25.1 43.1 25.8 6.6 25.9 41.4
RefineDet320[9] ResNet-101 320×320 32.0 51.4 34.2 10.5 34.7 50.4
RFBNet300[10] VGG-16 300×300 30.3 49.3 31.8 11.8 31.9 45.9
DRM-Det300 ResNet-34 300×300 33.3 53.5 35.7 16.0 38.0 46.6
SSD512[5] VGG-16 512×512 28.8 48.5 30.0 10.9 31.8 43.5
RefineDet512[9] ResNet-101 512×512 36.4 57.5 39.5 16.6 39.9 51.4
RFBNet512[10] VGG-16 512×512 33.8 54.2 35.9 16.2 37.1 47.4
DRM-Det512 ResNet-34 512×512 37.9 59.3 40.8 22.2 41.3 49.0
注:各项与AP相关的指标数值越高表示模型效果越好,黑体表示相近图像输入尺寸上的最好效果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
[1]S.Ren,K.He,R.Girshick,and J.Sun,“Faster R-CNN:Towards real-timeobject detection with region proposal networks,”TPAMI,vol.39,no.6,pp.1137–1149,June 2017.
[2]J.Dai,Y.Li,K.He,and J.Sun,“R-FCN:Object detection via region-basedfully convolutional networks,”In NeurIPS,pp.379–387,2016.
[3]K.He,G.Gkioxari,P.Dollár and R.Girshick,“Mask R-CNN,”In ICCV,pp.2980–2988,2017.
[4]J.Redmon,S.Divvala,R.Girshick,and A.Farhadi,“You Only Look Once:Unified,Real-Time Object Detection,”In CVPR,pp.779–788,2016.
[5]W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.Fu,and A.C.Berg,“SSD:Single shot multibox detector,”In ECCV,pp.21–37,2016.
[6]T.Lin,P.Dollár,R.B.Girshick,K.He,B.Hariharan and S.Belongie,“Feature pyramid networks for object detection,”In CVPR,pp.936–944,2017.
[7]A.Shrivastava,R.Sukthankar,J.Malik and A.Gupta,“Beyond skipconnections:Top down modulation for object detection,”CoRR,abs/1612.06851,2016.
[8]S.Zhang,L.Wen,X.Bian,Z.Lei,and S.Z.Li,“Single-shot refinementneural network for object detection,”In CVPR,pp.4203–4212,2018.
[9]M.Everingham,L.V.Gool,C.K.I.Williams,J.Winn,and A.Zisserman,“ThePASCAL visual object classes(VOC)challenge,"IJCV,vol.88,no.2,pp.303--338,June2010.
[10]T.Lin,M.Maire,S.Belongie,J.Hays,P.Perona,D.Ramanan,P.Dollar,andC.L.Zitnick,“Microsoft COCO:Common objects in context,"In ECCV,pp.740--755,2014.
[11]S.Zhang,L.Wen,X.Bian,Z.Lei,and S.Z.Li,“Single-shot refinementneural network for object detection,"In CVPR,pp.4203--4212,2018.
S.Liu,D.Huang,and Y.Wang,“Receptive field block net for accurate andfast object detection,"In ECCV,pp.404--419,2018.

Claims (1)

1.一种基于判别性区域挖掘的目标检测方法,其特征在于,包括以下步骤:
S1:通过特征提取网络进行特征提取,获取特征流s1、s2
S11:将一张图像及它的×2上采样图像输入同一特征提取网络中,选取特征层的输出构成特征流s1和特征流s2;所述特征流s1用于目标的整体描述,所述特征流s2用于目标的细节描述;
S12:特征流s1经检测器d1进行目标类别判定及目标位置预测,分别得到分类损失
Figure FDA0003945780570000011
和回归损失
Figure FDA0003945780570000012
S2:构建局部判别性区域挖掘LDRM模块,将特征流s1、s2进行局部的判别性特征学习;
S21:按照特征图生成的顺序,分别从特征流s1和特征流s2中取生成次序相同的特征图构成特征图对,构建LDRM模块的输入特征图对;
对于每一个LDRM模块,其输入有基础特征图Fbasic和互补特征图Fcomp构成,其中特征图Fbasic来自特征流s1,特征图Fcomp来自特征流s2
S22:判别性区域定位:设输入的基础特征图Fbasic的大小为W×H×C,其中W、H、C分别表示基础特征图Fbasic的宽、高和通道数;基础特征图Fbasic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M;对于中心位置为(xn,yn)的候选目标区域,其判别性区域表示为:
(x,y)=(xn,yn)+λ(Δx,Δy); (1)
其中,(xn,yn)遍历了基础特征图Fbasic中所有的空间位置,即:xn=1,2,...,W;yn=1,2,...,H;(Δx,Δy)表示从候选目标区域到判别性区域的位置偏移量;其中,
Figure FDA0003945780570000013
其表示特征图M中的空间位置为(xn,yn)的数值;λ为缩放权重,取值为0.75;
S23:判别性特征学习:对于一个中心位置为(xn,yn)的候选目标,设其判别性区域表示为(x,y),则其判别性区域的特征表示为:
Figure FDA0003945780570000021
其中:Fdiscri表示判别性特征图;
Figure FDA0003945780570000022
表示特征图Fdiscri在空间位置(xn,yn)上的特征,表示以(xn,yn)为中心的候选目标的判别性区域特征表达;φ(Fcomp)(x,y)表示互补特征图Fcomp在判别性区域(x,y)的变换函数,这里取恒等换;其中:
Figure FDA0003945780570000023
表示(x,y)的四个邻近整数空间位置,其中
Figure FDA0003945780570000024
表示向下取整,
Figure FDA0003945780570000025
表示向上取整;函数G是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G(u,v,x,y)=g(u,x)·g(v,y); (3)
其中,g(a,b)=1-|a-b|;
在LDRM模块中,特征图Fdiscri经过一个3×3的卷积层后与基础特征图Fbasic进行融合拼接,得到LDRM模块的输出;
S24:LDRM模块内的分类:将特征图Fdiscri输入由3×3的卷积层实现的分类器c1中,完成对目标类别的判定;根据分类器c1输出的结果,得到损失函数
Figure FDA0003945780570000026
S3:构建基于上下文判别性区域挖掘CDRM模块,对局部的判别性特征学习后的特征流s1、s2进行上下文判别特征学习;
S31:CDRM模块的输入特征图对由相邻的两个LDRM模块的输出构成,取输出空间分辨率大的特征作为基础特征图F′basic,输出空间分别率小的特征作为互补特征图F′comp,构建CDRM模块的输入特征图对;
S32:判别性区域定位:设输入的基础特征图F′basic的大小为W′×H′×C′,其中W′、H′、C′分别表示基础特征图F′basic的宽、高和通道数;基础特征图F′basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M′;对于中心位置为(x′n,y′n)的候选目标区域,其判别性区域表示为:
(x′,y′)=(x′n,y′n)+λ′(Δx′,Δy′); (4)其中,(x′n,y′n)遍历了基础特征图F′basic中所有的空间位置,即:x′n=1,2,...,W′;y′n=1,2,...,H′;(Δx′,Δy′)表示从候选目标区域到判别性区域的位置偏移量;其中,
Figure FDA0003945780570000031
其表示特征图M′中的空间位置为(x′n,y′n)的数值;λ′为缩放权重,取值为1;
S33:判别性特征学习:对于一个中心位置为(x′n,y′n)的候选目标,设其判别性区域表示为(x′,y′),则其判别性区域的特征表示为:
Figure FDA0003945780570000032
其中:F′discri表示判别性特征图;
Figure FDA0003945780570000033
表示特征图F′discri在空间位置(x′n,y′n)上的特征,表示以(x′n,y′n)为中心的候选目标的判别性区域特征表达;φ′(F′comp)(x′,y′)表示互补特征图F′comp在判别性区域表示(x′,y′)中的变换函数,这里取核为2×2、步长为2的解卷积操作;其中:
Figure FDA0003945780570000034
表示(x′,y′)的四个邻近整数空间位置,其中
Figure FDA0003945780570000035
表示向下取整,
Figure FDA0003945780570000036
表示向上取整;函数G′是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G′(u′,v′,x′,y′)=g′(u′,x′)·g′(v′,y′); (6)
其中,g′(a′,b′)=1-|a′-b′|;
在CDRM模块中,基础特征图F′basic经过一个3×3的卷积层后与特征图F′discri进行逐元素相加操作,从而得到CDRM模块的输出;
S34:CDRM模块内的分类:将特征图F′discri输入由3×3的卷积层实现的分类器c2中,完成对目标类别的判定;根据分类器c2输出的结果,得到损失函数
Figure FDA0003945780570000037
S4:构建特征流s3,采用检测器对特征流s3的特征图进行检测,得到最终的检测结果;
S41:取所有CDRM模块的输出和最后两个LDRM模块的输出构成的集合作为特征流s3,采用检测器d2对特征流s3中的特征图进行最终的检测,在检测过程中对检测器d2的输出进行非极大值抑制,得到最终的检测结果;
S42:特征流s3经检测器d2进行目标类别判定及目标位置预测,分别得到分类损失
Figure FDA0003945780570000041
和回归损失
Figure FDA0003945780570000042
CN201910200092.0A 2019-03-15 2019-03-15 一种基于判别性区域挖掘的目标检测方法 Active CN109948628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910200092.0A CN109948628B (zh) 2019-03-15 2019-03-15 一种基于判别性区域挖掘的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910200092.0A CN109948628B (zh) 2019-03-15 2019-03-15 一种基于判别性区域挖掘的目标检测方法

Publications (2)

Publication Number Publication Date
CN109948628A CN109948628A (zh) 2019-06-28
CN109948628B true CN109948628B (zh) 2023-01-03

Family

ID=67008447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910200092.0A Active CN109948628B (zh) 2019-03-15 2019-03-15 一种基于判别性区域挖掘的目标检测方法

Country Status (1)

Country Link
CN (1) CN109948628B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396097B (zh) * 2020-11-09 2022-05-17 中山大学 基于加权最优传输的无监督域自适应视觉目标检测方法
CN114937154B (zh) * 2022-06-02 2024-04-26 中南大学 一种基于递归解码器的显著性检测方法
CN115858846B (zh) * 2023-02-16 2023-04-21 云南派动科技有限公司 一种基于深度学习的滑雪者图像检索方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
WO2006114003A1 (en) * 2005-04-27 2006-11-02 The Governors Of The University Of Alberta A method and system for automatic detection and segmentation of tumors and associated edema (swelling) in magnetic resonance (mri) images
CN107766890A (zh) * 2017-10-31 2018-03-06 天津大学 一种细粒度识别中判别性图块学习的改进方法
CN108875827A (zh) * 2018-06-15 2018-11-23 广州深域信息科技有限公司 一种细粒度图像分类的方法及系统
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
WO2019018063A1 (en) * 2017-07-19 2019-01-24 Microsoft Technology Licensing, Llc FINAL GRAIN IMAGE RECOGNITION

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
WO2006114003A1 (en) * 2005-04-27 2006-11-02 The Governors Of The University Of Alberta A method and system for automatic detection and segmentation of tumors and associated edema (swelling) in magnetic resonance (mri) images
WO2019018063A1 (en) * 2017-07-19 2019-01-24 Microsoft Technology Licensing, Llc FINAL GRAIN IMAGE RECOGNITION
CN107766890A (zh) * 2017-10-31 2018-03-06 天津大学 一种细粒度识别中判别性图块学习的改进方法
CN108875827A (zh) * 2018-06-15 2018-11-23 广州深域信息科技有限公司 一种细粒度图像分类的方法及系统
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法

Also Published As

Publication number Publication date
CN109948628A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
Liznerski et al. Explainable deep one-class classification
CN111598030B (zh) 一种航拍图像中车辆检测和分割的方法及系统
Liu et al. Multiscale U-shaped CNN building instance extraction framework with edge constraint for high-spatial-resolution remote sensing imagery
Yu et al. Dilated residual networks
Wang et al. Detection and localization of image forgeries using improved mask regional convolutional neural network
CN109902806A (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN109948628B (zh) 一种基于判别性区域挖掘的目标检测方法
CN106372666B (zh) 一种目标识别方法及装置
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN107016357A (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN107944403B (zh) 一种图像中的行人属性检测方法及装置
CN111915583B (zh) 复杂场景中基于车载红外热像仪的车辆和行人检测方法
CN102496157A (zh) 基于高斯多尺度变换及颜色复杂度的图像检测方法
Tang et al. Integrated feature pyramid network with feature aggregation for traffic sign detection
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
CN111368775A (zh) 一种基于局部上下文感知的复杂场景密集目标检测方法
Shen et al. Differential features for pedestrian detection: A Taylor series perspective
Singh et al. Semantic segmentation using deep convolutional neural network: A review
Yun et al. Part-level convolutional neural networks for pedestrian detection using saliency and boundary box alignment
Rahman et al. Vegetation Detection in UAV Imagery for Railway Monitoring.
Tao et al. F-PVNet: Frustum-level 3-D object detection on point–voxel feature representation for autonomous driving
CN113837154A (zh) 一种基于多任务辅助的开放集过滤系统及方法
Kheder et al. Transfer learning based traffic light detection and recognition using CNN inception-V3 model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared