CN109948628B

CN109948628B - 一种基于判别性区域挖掘的目标检测方法

Info

Publication number: CN109948628B
Application number: CN201910200092.0A
Authority: CN
Inventors: 郑慧诚; 陈绿然; 严志伟; 李烨
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2023-01-03
Anticipated expiration: 2039-03-15
Also published as: CN109948628A

Abstract

本发明提供一种基于判别性区域挖掘的目标检测方法，通过特征提取网络进行特征提取，获取特征流；构建LDRM模块，将特征流进行局部的判别性特征学习；构建CDRM模块，对局部的判别性特征学习后的特征流进行上下文判别特征学习；构建特征流s₃，采用检测器对特征流s₃的特征图进行检测，得到最终的检测结果。本发明提供的一种基于判别性区域挖掘的目标检测方法，基于感受野的特征图产生判别性区域的特征表达，避免了从原图中提取判别性区域，再进行特征提取而引入的大量计算量，保证该方法以高的效率进行目标检测，防止受到表观相似的前景目标和背景区域的干扰；通过将生成的判别性区域特征与候选目标的特征进行融合，结合不同感受野的特征，优化特征表达。

Description

一种基于判别性区域挖掘的目标检测方法

技术领域

本发明涉及计算机视觉技术领域，更具体的，涉及一种基于判别性区域挖掘的目标检测方法。

背景技术

视频监控作为一项重要的安全监控手段，对于保障人民的生命财产安全、打击违法犯罪等活动具有重要意义。目前，视频监控遍布城市的角落，而现有的视频监控系统通常只被用于记录、存储和调取视频图像，无法对异常情况进行预测和报警。为了实现实时监控，需要工作人员对视频数据进行分析。随着数据规模的扩大，人工分析难以保持较高的准确率和处理效率。因此，人们希望计算机能自动对视频进行分析，完成预设的视觉任务，如目标识别、目标检测和目标跟踪等，实现实时有效的监控。

目标检测作为智能视频监控中的关键环节，一直是计算机视觉领域的重要研究方向。基于图像的目标检测算法的主要任务是检测图像中感兴趣的目标并对其实现定位。目前，目标检测在行人重识别、视频监控、视频检索、视频描述、人机交互、自动驾驶、医学图像分析等领域得到广泛应用。

常见的基于图像的目标检测算法可分两类，一类是基于候选区域的方法，另一类是无候选区域的方法。基于候选区域的方法以Fast R-CNN[1]、R-FCN[2]、Mask R-CNN[3]为代表，它们将目标检测分为两个步骤:第一步生成一系列目标候选区域，第二步对每一个候选区域进行位置预测和精细类别的分类。这类方法大多能获得较高的检测准确率，但相对耗时，计算量较大，难以满足实时的要求。为了解决这些问题，研究者们提出了无候选区域的方法，典型代表是YOLO[4],SSD[5]。无候选区域的方法从图像中提取特征后，直接预测目标位置及判断目标类别，而无需经过生成目标候选区域这一阶段。这类方法由于其运行的高效性受到广泛关注，但其检测准确率略低于基于候选区域的方法。

本发明以无候选区域的方法为基础，进一步提升它的检测准确率。在实验中发现，大部分无候选区域的方法都存在检测器鲁棒性不足的问题。具体而言，检测器很容易受到表观相似的前景目标或背景区域的影响。例如，检测器容易将背景区域中的“树”判断为前景目标“盆栽”，也容易将前景目标“自行车”与“摩托车”混淆。由于“树”与“盆栽”均为植物，而“自行车”和“摩托车”同属交通工具，它们之间存在一定的表观相似性，这使得检测器出现了混淆。而在人类视觉系统中，我们能准确地区分这些表观具有一定相似性的目标，如在区分“自行车”和“摩托车”时，两者的车轮、车把、坐垫等可以为我们提供重要的判别信息。因此，若检测器也具有捕获这些判别性区域的能力，将有利于提高特征的判别性，从而避免表观相似前景目标和背景区域对其造成干扰。为了提高特征判别性，现有方法[6,7,8]大多采用多层特征融合的方法来优化特征表达，即融合浅层的空间信息和高层的语义信息。然而，这些方法仍然缺少对某个判别性区域的关注，这使得学习的细节特征不够准确，缺乏一定的判别性。因此，我们希望检测器能有效地捕获前景目标中的判别性区域并学习其特征表达，从而提高检测器的判别性。

发明内容

本发明为克服上述现有图像目标检测算法所使用的检测器存在容易受到表观相似的前景目标和背景区域干扰的技术缺陷，提供一种基于判别性区域挖掘的目标检测方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于判别性区域挖掘的目标检测方法，包括以下步骤：

S1：通过特征提取网络进行特征提取，获取特征流s₁、s₂；

S2：构建局部判别性区域挖掘LDRM模块，将特征流s₁、s₂进行局部的判别性特征学习；

S3：构建基于上下文判别性区域挖掘CDRM模块，对局部的判别性特征学习后的特征流s₁、s₂进行上下文判别特征学习；

S4：构建特征流s₃，采用检测器对特征流s₃的特征图进行检测，得到最终的检测结果。

其中，所述步骤S1包括以下步骤：

S11：将一张图像及它的×2上采样图像输入同一特征提取网络中，选取特征层的输出构成特征流s₁和特征流s₂；所述特征流s₁用于目标的整体描述，所述特征流s₂用于目标的细节描述；

S12：特征流s₁经检测器d₁进行目标类别判定及目标位置预测，分别得到分类损失

和回归损失

上述方案中，所述步骤S12应用于特征提取网络的训练过程中，在测试阶段可以忽略。

其中，所述步骤S2包括以下步骤：

S21：按照特征图生成的顺序，分别从特征流s₁和特征流s₂中取生成次序相同的特征图构成特征图对，构建LDRM模块的输入特征图对；

对于每一个LDRM模块，其输入有基础特征图F_basic和互补特征图F_comp构成，其中特征图F_basic来自特征流s₁，特征图F_comp来自特征流s₂；

S22：判别性区域定位：设输入的基础特征图F_basic的大小为W×H×C，其中W、H、C分别表示基础特征图F_basic的宽、高和通道数；基础特征图F_basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图，记为M；对于中心位置为(x_n,y_n)的候选目标区域，其判别性区域表示为：

(x,y)＝(x_n,y_n)+λ(Δx,Δy)； (1)

其中，(x_n,y_n)遍历了基础特征图F_basic中所有的空间位置，即：x_n＝1,2,...,W；y_n＝1,2,...,H；(Δx,Δy)表示从候选目标区域到判别性区域的位置偏移量；其中，

其表示特征图M中的空间位置为(x_n,y_n)的数值；λ为缩放权重，取值为0.75；

S23：判别性特征学习：对于一个中心位置为(x_n,y_n)的候选目标，设其判别性区域表示为(x,y)，则其判别性区域的特征表示为：

其中：F_discri表示判别性特征图；

表示特征图F_discri在空间位置(x_n,y_n)上的特征，表示以(x_n,y_n)为中心的候选目标的判别性区域特征表达；φ(F_comp)^(x,y)表示互补特征图F_comp在判别性区域(x,y)的变换函数，这里取恒等换；其中：

表示(x,y)的四个邻近整数空间位置，其中

表示向下取整，

表示向上取整；函数G是一个二维的双线性插值的核，表示为两个一维的双线性插值的核的乘积形式：

G(u,v,x,y)＝g(u,x)·g(v,y)； (3)

其中，g(a,b)＝1-|a-b|；

在LDRM模块中，特征图F_discri经过一个3×3的卷积层后与基础特征图F_basic进行融合拼接，得到LDRM模块的输出；

S24：LDRM模块内的分类：将特征图F_discri输入由3×3的卷积层实现的分类器c₁中，完成对目标类别的判定；根据分类器c₁输出的结果，得到损失函数

上述方案中，所述步骤S24应用于LDRM模块的训练过程中，在测试阶段可以忽略。

其中，所述步骤S3具体包括以下步骤：

S31：CDRM模块的输入特征图对由相邻的两个LDRM模块的输出构成，取输出空间分辨率大的特征作为基础特征图F'_basic，输出空间分别率小的特征作为互补特征图F'_comp，构建CDRM模块的输入特征图对；

S32：判别性区域定位：设输入的基础特征图F'_basic的大小为W'×H'×C'，其中W'、H'、C'分别表示基础特征图F'_basic的宽、高和通道数；基础特征图F'_basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图，记为M'；对于中心位置为(x'_n,y'_n)的候选目标区域，其判别性区域表示为：

(x',y')＝(x'_n,y'_n)+λ'(Δx',Δy')； (4)

其中，(x'_n,y'_n)遍历了基础特征图F'_basic中所有的空间位置，即：x'_n＝1,2,...,W'；y'_n＝1,2,...,H'；(Δx',Δy')表示从候选目标区域到判别性区域的位置偏移量；其中，

其表示特征图M'中的空间位置为(x'_n,y'_n)的数值；λ'为缩放权重，取值为1；

S33：判别性特征学习：对于一个中心位置为(x'_n,y'_n)的候选目标，设其判别性区域表示为(x',y')，则其判别性区域的特征表示为：

其中：F'_discri表示判别性特征图；

表示特征图F'_discri在空间位置(x'_n,y'_n)上的特征，表示以(x'_n,y'_n)为中心的候选目标的判别性区域特征表达；φ'(F'_comp)^(x',y')表示互补特征图F'_comp在判别性区域表示(x',y')中的变换函数，这里取核为2×2、步长为2的解卷积操作；其中：

表示(x',y')的四个邻近整数空间位置，其中

表示向下取整，

表示向上取整；函数G'是一个二维的双线性插值的核，表示为两个一维的双线性插值的核的乘积形式：

G'(u',v',x',y')＝g'(u',x')·g'(v',y')； (6)

其中，g'(a',b')＝1-|a'-b'|；

在CDRM模块中，基础特征图F'_basic经过一个3×3的卷积层后与特征图F'_discri进行逐元素相加操作，从而得到CDRM模块的输出；

S34：CDRM模块内的内分类：将特征图F'_discri输入由3×3的卷积层实现的分类器c₂中，完成对目标类别的判定；根据分类器c₂输出的结果，得到损失函数

上述方案中，所述步骤S34应用于CDRM模块的训练过程中，在测试阶段可以忽略。

其中，所述步骤S4具体为：

S41：取所有CDRM模块的输出和最后两个LDRM模块的输出构成的集合作为特征流s₃，采用检测器d₂对特征流s₃中的特征图进行最终的检测，在检测过程中对检测器d₂的输出进行非极大值抑制，得到最终的检测结果；

S42：特征流s₃经检测器d₂进行目标类别判定及目标位置预测，分别得到分类损失

和回归损失

与现有技术相比，本发明技术方案的有益效果是：

本发明提供的一种基于判别性区域挖掘的目标检测方法，在不明显增加参数量和运算量的情况下，对判别性区域的位置进行有效的预测，实现判别性区域定位；在判别性区域的特征学习中，一方面，基于一定感受野的特征图产生判别性区域的特征表达，避免了从原图中提取判别性区域，再进行特征提取这一操作所引入的大量计算量，保证该方法以高的效率进行目标检测，防止受到表观相似的前景目标和背景区域的干扰；另一方面，将生成的判别性区域特征与候选目标的特征进行融合，结合不同感受野的特征，优化特征表达；为保证LDRM模块、CDRM模块能有效地进行训练，引入了模块内的分类分支，提供了额外的监督信号，保证了模块的判别性。

附图说明

图1为本方法流程示意图；

图2为基于判别性区域挖掘的目标检测网络示意图；

图3为LDRM模块结构示意图；

图4为CDRM模块结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于判别性区域挖掘的目标检测方法，包括以下步骤：

S1：通过特征提取网络进行特征提取，获取特征流s₁、s₂；

更具体的，如图2所示，所述步骤S1包括以下步骤：

S11：将一张输入大小为300×300的图像及它的×2上采样图像输入同一特征提取网络中，选取特征层的输出构成特征流s₁和特征流s₂；对于原始输入为300×300的结构，特征流s₁包含空间分辨率分别为38×38，19×19，10×10，5×5，3×3，1×1的特征图；特征流s₂包含空间分辨率分别为75×75，38×38，19×19，10×10，5×5，3×3，1×1的特征图；由于特征流s₂是基于×2上采样的图像得到的，它比特征流s₁具有更丰富的空间信息。所述特征流s₁用于目标的整体描述，所述特征流s₂用于目标的细节描述；

S12：特征流s₁经检测器d₁进行目标类别判定及目标位置预测，分别得到分类损失和回归损失

在具体实施过程中，将原始尺寸的图像输入到ResNet-18进行特征提取，获取特征流s₁；利用检测器d₁进行目标类别判定及目标位置预测；计算分类损失

和回归损失

计算总的损失函数

求解梯度，更新特征提取网络和检测器d₁的参数，若迭代未结束，则重新进行特征提取，最终完成特征提取网络的训练。

在具体实施过程中，所述步骤S12应用于特征提取网络的训练过程中，在测试阶段可以忽略。

更具体的，如图3所示，所述步骤S2包括以下步骤：

(x,y)＝(x_n,y_n)+λ(Δx,Δy)； (1)

其中：F_discri表示判别性特征图；

表示(x,y)的四个邻近整数空间位置，其中

表示向下取整，

G(u,v,x,y)＝g(u,x)·g(v,y)； (3)

其中，g(a,b)＝1-|a-b|；

在具体实施过程中，所述步骤S24应用于LDRM模块的训练过程中，在测试阶段可以忽略。

更具体的，如图4所示，所述步骤S3具体包括以下步骤：

(x',y')＝(x'_n,y'_n)+λ'(Δx',Δy')； (4)

其中：F_d'_iscri表示判别性特征图；

表示特征图F_d'_iscri在空间位置(x'_n,y'_n)上的特征，表示以(x'_n,y'_n)为中心的候选目标的判别性区域特征表达；φ'(F'_comp)^(x',y')表示互补特征图F'_comp在判别性区域表示(x',y')中的变换函数，这里取核为2×2、步长为2的解卷积操作；其中：

表示(x',y')的四个邻近整数空间位置，其中

表示向下取整，

G'(u',v',x',y')＝g'(u',x')·g'(v',y')； (6)

其中，g'(a',b')＝1-|a'-b'|；

S34：CDRM模块内的分类：将特征图F'_discri输入由3×3的卷积层实现的分类器c₂中，完成对目标类别的判定；根据分类器c₂输出的结果，得到损失函数

在具体实施过程中，所述步骤S34应用于CDRM模块的训练过程中，在测试阶段可以忽略。

更具体的，所述步骤S4具体为：

和回归损失

在具体实施过程中，通过由原始尺寸和×2上采样的图像输入到训练完成的参数固定的特征提取网络ResNet-18得到的特征流s₁、特征流s₂，利用LDRM模块获取判别性局部特征，并使用分类器c₁对其进行分类；利用CDRM模块获取判别性上下文特征，并使用分类器c₂对其进行分类；构建特征流s₃，使用检测器d₂进行目标类别判定及目标位置检测；求解与分类器c₁、c₂和检测器d₂相关的多项损失，计算总的损失函数

其中α＝1.5，β＝γ＝1；求解梯度，更新出特征提取网络和检测器d₁外的参数，若迭代未结束，则重新提取特征流s₁、特征流s₂，最终完成LDRM模块、CDRM模块的训练。

在具体实施过程中，在测试过程中，将原始尺寸和×2上采样的图像输入到参数固定的特征提取网络ResNet-18，获取特征流s₁、特征流s₂；利用LDRM模块获取判别性局部特征；利用CDRM模块获取判别性上下文特征；构建特征流s₃，使用检测器d₂进行目标类别判定及目标位置检测，并进行非极大值抑制得到最终的检测结果。

实施例2

更具体的，在实施例1的基础上，为了体现本发明的技术效果，在PASCAL VOC 2007[9]和MS COCO[10]两个数据集进行实验，并与其它先进的目标检测方法进行对比。

在具体实施过程中，实验的输入图像有两种分辨率，分别为300×300和512×512。实验中，选取经ImageNet数据集预训练的ResNet-18和ResNet-34作为特征提取网络。

在具体实施过程中，本实验在PASCAL VOC 2007和VOC 2012的trainval数据集进行训练，在PASCAL VOC 2007test数据集进行测试，特征提取网络为ResNet-18。训练过程中批大小设置为16，迭代次数为120k。初始学习率设置为1×10^-3，iv迭代次数为80k和100k时，学习率分别调整为1×10^-4和1×10^-5。相关的实验数据如表1所示，体现出本发明提出的基于判别性区域挖掘的目标检测网络的有效性。

表1 PASCAL VOC 2007 test数据集的检测效果

目标检测方法	特征提取网络	图像输入大小	mAP(％)
				SSD300[5]	VGG-16	300×300	77.2
RefineDet320[9]	VGG-16	320×320	80.0
				RFBNet 300[10]	VGG-16	300×300	80.5
DRM-Det300	ResNet-18	300×300	80.7
				SSD512[5]	VGG-16	512×512	79.8
RefineDet512[9]	VGG-16	512×512	81.8
				RFBNet512[10]	VGG-16	512×512	82.2
DRM-Det512	ResNet-18	512×512	82.3

注：mAP数值越高表示模型效果越好，黑体表示相近图像输入尺寸下的最好效果。

本实验在MS COCO的trainval35k数据集训练，在MS COCO test-dev数据集进行测试，特征提取网络为ResNet-34。训练过程中批大小(batch size)设置为16，迭代次数为115epoch。初始学习率设置为1×10^-3，在迭代次数为75epoch和95epoch时，学习率分别调整为1×10^-4和1×10^-5。相关的实验数据如表2所示，体现出本发明提出的基于判别性区域挖掘的目标检测网络的有效性。

表2 MS COCO test-dev数据集的检测效果

检测器	特征提取网络	输入大小	AP	AP<sub>50</sub>	AP<sub>75</sub>	AP<sub>S</sub>	AP<sub>M</sub>	AP<sub>L</sub>
									SSD300[5]	VGG-16	300×300	25.1	43.1	25.8	6.6	25.9	41.4
RefineDet320[9]	ResNet-101	320×320	32.0	51.4	34.2	10.5	34.7	50.4
									RFBNet300[10]	VGG-16	300×300	30.3	49.3	31.8	11.8	31.9	45.9
DRM-Det300	ResNet-34	300×300	33.3	53.5	35.7	16.0	38.0	46.6
									SSD512[5]	VGG-16	512×512	28.8	48.5	30.0	10.9	31.8	43.5
RefineDet512[9]	ResNet-101	512×512	36.4	57.5	39.5	16.6	39.9	51.4
									RFBNet512[10]	VGG-16	512×512	33.8	54.2	35.9	16.2	37.1	47.4
DRM-Det512	ResNet-34	512×512	37.9	59.3	40.8	22.2	41.3	49.0

注：各项与AP相关的指标数值越高表示模型效果越好，黑体表示相近图像输入尺寸上的最好效果。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

[1]S.Ren,K.He,R.Girshick,and J.Sun,“Faster R-CNN:Towards real-timeobject detection with region proposal networks,”TPAMI,vol.39,no.6,pp.1137–1149,June 2017.

[2]J.Dai,Y.Li,K.He,and J.Sun,“R-FCN:Object detection via region-basedfully convolutional networks,”In NeurIPS,pp.379–387,2016.

[3]K.He,G.Gkioxari,P.Dollár and R.Girshick,“Mask R-CNN,”In ICCV,pp.2980–2988,2017.

[4]J.Redmon,S.Divvala,R.Girshick,and A.Farhadi,“You Only Look Once:Unified,Real-Time Object Detection,”In CVPR,pp.779–788,2016.

[5]W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.Fu,and A.C.Berg,“SSD:Single shot multibox detector,”In ECCV,pp.21–37,2016.

[6]T.Lin,P.Dollár,R.B.Girshick,K.He,B.Hariharan and S.Belongie,“Feature pyramid networks for object detection,”In CVPR,pp.936–944,2017.

[7]A.Shrivastava,R.Sukthankar,J.Malik and A.Gupta,“Beyond skipconnections:Top down modulation for object detection,”CoRR,abs/1612.06851,2016.

[8]S.Zhang,L.Wen,X.Bian,Z.Lei,and S.Z.Li,“Single-shot refinementneural network for object detection,”In CVPR,pp.4203–4212,2018.

[9]M.Everingham,L.V.Gool,C.K.I.Williams,J.Winn,and A.Zisserman,“ThePASCAL visual object classes(VOC)challenge,"IJCV,vol.88,no.2,pp.303--338,June2010.

[10]T.Lin,M.Maire,S.Belongie,J.Hays,P.Perona,D.Ramanan,P.Dollar,andC.L.Zitnick,“Microsoft COCO:Common objects in context,"In ECCV,pp.740--755,2014.

[11]S.Zhang,L.Wen,X.Bian,Z.Lei,and S.Z.Li,“Single-shot refinementneural network for object detection,"In CVPR,pp.4203--4212,2018.

S.Liu,D.Huang,and Y.Wang,“Receptive field block net for accurate andfast object detection,"In ECCV,pp.404--419,2018.

Claims

1.一种基于判别性区域挖掘的目标检测方法，其特征在于，包括以下步骤：

S1：通过特征提取网络进行特征提取，获取特征流s₁、s₂；

和回归损失

(x,y)＝(x_n,y_n)+λ(Δx,Δy)； (1)

其中：F_discri表示判别性特征图；

表示(x,y)的四个邻近整数空间位置，其中

表示向下取整，

G(u,v,x,y)＝g(u,x)·g(v,y)； (3)

其中，g(a,b)＝1-|a-b|；

S31：CDRM模块的输入特征图对由相邻的两个LDRM模块的输出构成，取输出空间分辨率大的特征作为基础特征图F′_basic，输出空间分别率小的特征作为互补特征图F′_comp，构建CDRM模块的输入特征图对；

S32：判别性区域定位：设输入的基础特征图F′_basic的大小为W′×H′×C′，其中W′、H′、C′分别表示基础特征图F′_basic的宽、高和通道数；基础特征图F′_basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图，记为M′；对于中心位置为(x′_n,y′_n)的候选目标区域，其判别性区域表示为：

(x′,y′)＝(x′_n,y′_n)+λ′(Δx′,Δy′)； (4)其中，(x′_n,y′_n)遍历了基础特征图F′_basic中所有的空间位置，即：x′_n＝1,2,...,W′；y′_n＝1,2,...,H′；(Δx′,Δy′)表示从候选目标区域到判别性区域的位置偏移量；其中，