CN111275044A

CN111275044A - 基于样本选择和自适应难例挖掘的弱监督目标检测方法

Info

Publication number: CN111275044A
Application number: CN202010108427.9A
Authority: CN
Inventors: 程塨; 杨钧宇; 高德成; 韩军伟; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-12

Abstract

本发明提供了一种基于样本选择和自适应难例挖掘的弱监督目标检测方法。首先，对输入图像进行预处理，并用选择性搜索算法生成图像的候选框；然后，把候选框和预处理后的图像输入卷积神经网络提取特征，再将输出的特征向量输入全连接层得到每个候选框的得分；接着，根据得分迭代选择正样本，再从目标位置和图像标签两个角度挖掘难负样本，并对不同样本赋予不同权重，基于这些权重计算损失函数；采用梯度下降法回传网络损失进行网络参数更新；最后，利用训练好的网络对图像进行目标类别和位置预测，再经过非极大值抑制处理，得到图像多类目标的精确检测结果。本发明方法具有较高的检测精度，且方法鲁棒性强。

Description

基于样本选择和自适应难例挖掘的弱监督目标检测方法

技术领域

本发明属图像处理技术领域，具体涉及一种基于样本选择和自适应难例挖掘的弱监督目标检测方法，实现了在线自适应选择高质量的弱监督训练样本，可以应用于各种类型的弱监督目标检测任务。

背景技术

随着目标检测任务的高速发展，其高标注成本的弊端也逐渐显现。由于目标检测任务的目的是得到图片中目标的分类结果和位置信息，因此在训练模型时，不仅要像分类任务一样，标注出图片有哪几类目标，还要标注出目标的具体位置及其类别属性。虽然目前有成熟的标注工具，但这无疑耗费了大量的人力物力，因此弱监督目标检测任务应运而生，即用图片级标签实现检测目标具体位置的任务，这就对神经网络模型的运用和训练样本的选择提出了更高的要求。

目前，最常用的弱监督目标检测框架是WSDDN(Weakly Supervised DeepDetection Networks)和OICR(Online Instance Classifier Refinement)。其中，WSDDN基于目标检测任务的经典框架Fast-RCNN(Fast Region-based Convolutional NeuralNetwork)，设计出了基于特征提取、样本选择和损失函数设计三个步骤的弱监督目标检测框架，后续的弱监督目标检测任务基本沿用这一步骤规范。其中，样本选择和损失函数设计对于模型的训练最为重要，也最能体现弱监督学习的创新性。

OICR框架意图扩大卷积神经网络对目标的敏感区域，因此，基于WSDDN框架，首先在样本选择上，选择最高得分框及其周围交并比(Intersection over Union，IOU)较大的候选框为正样本，其余候选框为负样本；对于损失函数，设计出加权交叉熵损失函数，将候选框得分作为权重用于计算损失。这两点改进虽然有效提升了模型的检测精度，但是相对于复杂的图像信息，其样本选择过程还是显得过于简单。在正样本选择的过程中，由于大多数图像包含多个目标而非一个目标，所以只选择最高得分框及其周围候选框为正样本就显得有所欠缺。另外，除了最高得分区域，其余的图像信息还相当复杂，其中应该包括得分较低的目标、简单背景和难负样本，如果将它们一概归为难例会产生大量噪声，影响训练。

发明内容

为了克服现有技术的不足，本发明提供一种基于样本选择和自适应难例挖掘的弱监督目标检测方法。首先，对输入图像进行预处理，并用选择性搜索(Selective Search)算法生成图像的候选框；然后，把候选框和预处理后的图像输入卷积神经网络提取特征，再将输出的特征向量输入全连接层得到每个候选框的得分；接着，根据得分迭代选择正样本，再从目标位置和图像标签两个角度挖掘难负样本，并对不同样本赋予不同权重，基于这些权重计算损失函数；采用梯度下降算法回传损失的梯度进行网络参数更新；最后，利用训练好的网络对图像进行目标类别和位置预测，再经过非极大值抑制(Non MaximumSuppression，NMS)处理，得到图像多类目标的精确检测结果。本发明方法不但可以尽可能地遍历图像中的所有目标，从而产生更多的正样本，而且可以自适应的挖掘图像中的高质量难例，并更新损失函数，具有较高的检测精度和定位精度。

一种基于样本选择和自适应难例挖掘的弱监督目标检测方法，其特征在于步骤如下：

步骤1，数据预处理和候选框提取：对原始输入图像进行尺寸调整，然后，对调整尺寸后的图像像素值进行归一化处理，得到预处理后的图像；所述的尺寸调整是指在给定的尺寸范围内随机选择一个作为调整后图像的短边尺寸，并按原始图像比例确定调整后图像的长边尺寸，然后将原始图像调整为确定的长短边尺寸大小；

同时，采用选择性搜索算法对原始图像提取目标区域候选框；

步骤2，网络前向计算：

步骤2.1，特征提取：将预处理后的图像输入VGG16卷积神经网络，得到卷积特征图，然后将卷积特征图和候选框输入RoI池化层，再输入两层串联的全连接层，输出得到每个候选框的特征向量；将所有候选框的特征向量输入一个全连接层的分类分支，输出得到维度大小为N×C的分类得分矩阵；同时将所有候选框的特征向量输入一个全连接层的检测分支，输出得到维度大小均为N×C的检测得分矩阵，其中，N代表候选框的数量，C代表目标类别的数量；

步骤2.2，计算图像分类损失：将分类得分矩阵从C维度经过Softmax运算得到一个新矩阵，将检测得分矩阵从N维度经过Softmax运算得到一个新矩阵，将两个新矩阵的对应元素相乘，得到用于图像分类的得分矩阵；将用于图像分类的得分矩阵在N维度上对应元素相加，再从C维度上经过Softmax运算，得到大小为1×C的图像级得分向量；使用多类别交叉熵损失函数对图像级得分向量和已知的图像级标签计算得到图像分类损失；

步骤2.3，获取候选框得分矩阵：将步骤2.1得到每个候选框的特征向量输入一个全连接层的候选框评分分支，此分支全连接层输出为C+1维，在C个类别的基础上增加一个背景类，输出得到维度大小为N×(C+1)的候选框得分矩阵，其中，N代表候选框的数量，C+1代表目标类别的数量加背景类；

步骤2.4，在线迭代正样本选择：根据步骤2.3得到的候选框得分矩阵，选择每一类目标得分最高的候选框及与该得分最高候选框交并比大于等于0.5的候选框为该类目标的正样本，然后继续从该类目标除已选择为正样本外的剩余候选框中按前述方法选择正样本，重复此过程，直至该目标类别除已选择为正样本外的所有剩余候选框的得分都小于0.5，停止选择，得到该类目标的所有正样本；

对每个类别的目标都按照上述过程进行正样本选择，得到每类目标的正样本；

步骤2.5，自适应难负例挖掘：对于每一类目标，将与步骤2.4中每次迭代选择的得分最高候选框交并比在0.1到0.5之间的所有候选框归入该类目标的基于目标位置的难负例集合N₁；在所有候选框中除去该类目标的正样本集合和难负样例集合N₁后，将剩余候选框中得分最高、对应类别为图像标签中不存在的类别的候选框，归入该类别目标的基于图像标签的难负例集合N₂；

步骤2.6，计算目标级损失：对于每一类目标的难负例集合N₁中的每一个候选框，将其与其对应的得分最高候选框的交并比和其得分的乘积取自然对数，作为该候选框的难负例权重；对于每一类目标的难负例集合N₂中的每一个候选框，以其得分的自然对数为其难负例权重；对于每一类目标的正样本，权重统一设置为1；所有除正样本和两个难负例集合中的候选框以外的剩余候选框的得分权重均置为零；

然后，使用加权多类别交叉熵损失函数计算目标级损失：

其中，L表示目标级损失，

表示按上述过程得到的第c类目标的第r个候选框的权重，w表示图像中正样本的最高得分，

为候选框r在目标类别c上的类别标签，

为候选框r在类别c上的得分；

步骤3，网络端到端训练：将目标级损失和图像分类损失相加作为网络总损失，重复步骤2，使用随机梯度下降算法回传损失梯度进行网络训练，得到训练好的网络；其中，训练过程共设置20个epoch，初始学习率为0.001，学习率每5个epoch下降一次，下降速率为0.1，到第20个epoch时，学习率降低为0.0000001，随机梯度下降的批次设置为2；

步骤4，目标检测：利用训练好的网络模型对测试图像中目标的类别和位置进行预测，输出为带类别预测的检测框，采用非极大值抑制方法过滤掉冗余的检测框，得到最终的检测结果。

本发明的有益效果是：(1)由于进行了自适应样本选择，使得网络在训练过程中选择出更多更全面的正样本，能够训练得到鲁棒性更强的网络。(2)针对图像中存在的类别，通过在正样本周围挖掘更多混淆性强的难负样例集合N1，可以在训练过程中重点抑制这些样本的得分；针对图像中不存在的类别，通过挖掘难负样例集合N2，可以在训练过程中重点抑制这些样本的得分；通过抑制这两类样本的得到，可以使训练得到的网络具有更好的目标检测效果。(3)由于设计了自适应损失函数，使得网络损失的计算更加准确。

附图说明

图1是本发明的基于样本选择和自适应难例挖掘的弱监督目标检测方法流程图；

图中，FC6-全连接层一，FC7-全连接层二，FC8c-分类分支全连接层，FC8d-检测分支全连接层，FC9-1-第一次迭代候选框评分分支全连接层，FC9-K-第K次迭代候选框评分分支全连接层，σ_cls-经过softmax层处理的分类得分矩阵，σ_det-经过softmax层处理的检测得分矩阵，WSDDN-阴影部分为经典弱监督目标检测网络结构Weakly Supervised DeepDetection Networks；

图2是实验所使用的数据库部分图像示例；

图3是采用本发明方法得到的检测结果示例。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于样本选择和自适应难例挖掘的弱监督目标检测方法，其具体实现过程如下：

1、数据预处理和候选框提取

对原始输入图像进行尺寸调整，然后，对原始输入图像的像素值进行归一化处理，得到预处理后的图像；所述的尺寸调整是指在给定的尺寸范围内随机选择一个作为调整后图像的短边尺寸W，如在[480,576,688,864,1200]中随机选择一个，并按原始图像比例确定调整后图像的长边尺寸L，然后将原始图像按照短边尺寸和长边尺寸进行等比例缩放。

图像归一化方法如下：

其中，img_ori代表未处理的原始图像数据，img_after代表归一化后的图像数据，mean代表原始图像数据的RGB分量均值，即mean＝(R_ave,G_ave,B_ave)，R_ave代表原始图像数据的R分量均值，G_ave代表原始图像数据的G分量均值，B_ave代表原始图像数据的B分量均值，std代表原始图像数据的RGB分量标准差，即std＝(R_std,G_std,B_std)，R_std代表原始图像数据的R分量标准差，G_std代表原始图像数据的G分量标准差，B_std代表原始图像数据的B分量标准差。

同时，采用选择性搜索(Selective Search)算法对原始图像提取目标区域候选框。

2、特征提取

将预处理后的图像输入卷积神经网络，以VGG16作为框架的主干网络，首先，通过64通道的1×1卷积核将原图处理为W×L×64的特征图；然后，通过2×2的最大池化处理，将特征图的维度从W×L降为W/2×L/2，并用3×3的卷积核将通道数从64增加为128；之后，通过相同的2×2的最大池化操作和3×3的卷积操作，进一步增加特征图的通道数，降低特征图的维度，在RoI池化层之前的卷积层得到了(W/16)×(L/16)×512的特征图。

然后，通过RoI池化层将图像特征图和候选框相结合，再输入两层串联的全连接层，输出得到候选框的特征向量，再将候选框的特征向量分别经过一个全连接层的分类分支和一个全连接层的检测分支，得到维度大小均为N×C的分类得分矩阵和检测得分矩阵，其中，N代表候选框的数量，C代表目标类别的数量。

所述的Vgg16网络结构记载在文献“Simonyan,Karen,Zisserman,Andrew.VeryDeep Convolutional Networks for Large-Scale Image Recognition[C].Int.Conf.Learn.Represent.,2014.”中；所述的RoI池化操作记载在文献“R.Girshick.Fast r-cnn[C].IEEE Int.Conf.Comput.Vision,pp.2015:1440–1448.”中。

3、计算图像分类损失

将分类得分矩阵和检测得分矩阵分别从C和N两个维度经过Softmax运算，得到两个新的矩阵后再将对应元素相乘，得到最终的候选框得分矩阵；将候选框得分矩阵在N维度上对应元素相加，得到1×C图像级得分向量；用图像级得分向量与图像级标签计算图像分类损失，其中，图像分类损失使用的是多类别交叉熵损失函数，图像级标签是已知的。

所述的多类别交叉熵损失函数的计算方法记载在文献“P.Tang,X.Wang,X.Bai,and W.Liu.Multiple instance detection network with online instance classifierrefinement[C].IEEE Int.Conf.Comput.Vision Pattern Recognit.2017:2843–2851.”中。

4、获取候选框得分矩阵

将步骤2得到每个候选框的特征向量输入一个全连接层的候选框评分分支，此分支全连接层输出为C+1维，在C个类别的基础上增加了一个背景类，输出得到维度大小为N×(C+1)的候选框得分矩阵，其中，N代表候选框的数量，C+1代表目标类别的数量加背景类；

5、在线迭代正样本选择

对于每一类目标，基于步骤4得到的候选框得分矩阵，选择该目标类别对应的最高得分框及其周围交并比大于等于0.5的候选框为正样本，然后在剩余候选框中继续选择该目标类别对应的最高得分框及其周围交并比大于等于0.5的候选框为正样本。迭代此过程，直到该目标类别对应的最高得分框的得分小于0.5。

6、自适应难负例挖掘

对于每一类目标，首先选出基于目标位置的难负例集合N₁，即通过步骤5每次迭代选出的最高得分框，选取与其交并比在0.1到0.5之间的所有候选框为难负例集合N₁。然后，选出基于图像标签的难负例集合N₂，即图像标签中没有该目标类别，但候选框得分为所有类别中最高，选取这些候选框为难负例集合N₂。

7、计算目标级损失

针对难负例集合N₁，将所有候选框与其对应的最高得分框计算交并比，并乘以其得分再经过自然对数的处理作为难负例权重；针对难负例集合N₂，只用自然对数处理其得分作为难负例权重；针对正样本，其权重统一设置为1。用公式表示为：

其中，c为目标类别序号，r为候选框序号，

为候选框r在目标类别上r的权重，IOU_r为候选框r与其最高得分框的交并比，

为候选框r在类别c上的得分，c＝1,…,C，r＝1,…,N。

再用所有这些样本权重计算目标级损失，其中，计算目标级损失使用的是加权多类别交叉熵损失函数，定义为：

其中，L表示目标级损失，w表示图像中正样本的最高得分，

为第r个候选框在目标类别上c的类别标签。在计算目标级损失时，将所有除正样本和两个难负例集合中的候选框以外的剩余候选框的得分权重均置为零。

公式(4)设计的损失函数意味着混淆效果更明显的难例提供了更大的损失。

8、网络端到端训练

步骤2-6详细叙述了从预处理图像输入网络到网络输出得分再与标签计算损失的前向传播过程。在回传损失更新卷积神经网络参数时，将目标级损失和图像分类损失相加，使用随机梯度下降算法，回传梯度更新网络参数。训练总共设置20个epoch，初始学习率设置为0.001，学习率每5个epoch下降一次，下降速率为0.1，到第20个epoch时，学习率降低为0.0000001。随机梯度下降(SGD)的批次(batch-size)设置为2。

9、目标检测

利用训练好的网络对测试图像进行目标的类别和位置预测，输出目标的类别得分和回归框，采用非极大值抑制方法过滤掉冗余的检测框，本实施例设置得分阈值为0.3，然后使用阈值为0.5的NMS过滤掉针对同一目标产生的冗余检测框，从而得到最终的检测结果。

为验证本发明方法的有效性，在硬件环境：Intel(R)Xeon(R)CPU E5-2698 v4@2.20GHz CPU服务器、GeForce GTX 1080Ti GPU、256GB内存下，采用Pycharm2016和Ubuntu16.04.5LTS软件进行实验。实验使用公开的Pascal VOC2007数据集，该数据集包含训练图片5011幅，测试图片4952幅，共计9963幅图，及20个种类(飞机、自行车、鸟、船、瓶子、公交车、小汽车、猫、椅子、牛、饭桌、狗、马、摩托车、人、盆景、羊、沙发、火车、电视机)。

使用平均检测精度(mAP)和平均定位精度对本发明方法的有效性进行评估。平均检测精度和平均定位精度的值越高，表明方法的性能越好。mAP定义为：

其中，C代表数据集中的目标类别总数，c代表目标类别序号，AP_c代表第c类目标的平均精度值。将本发明所得的检测结果与目前国际上常见的10种弱监督目标检测算法进行了对比，对比结果如表1所示，可以明显看出本发明方法的优越性。

表1

算法	平均检测精度(％)	平均定位精度(％)
			WSDDN	34.8	53.5
DSTL	41.7	56.1
			WCCN	42.8	56.7
PCL	43.5	62.7
			TS<sup>2</sup>C	44.3	61.0
MELM	47.3	61.4
			ZLDN	47.6	61.2
C-WSL	45.6	63.3
			WSRPN	45.3	63.8
OICR	41.2	60.6
			本发明方法	47.7	65.8

WSDDN方法的结果记载在文献“H.Bilen,A.Vedaldi.Weakly supervised deepdetection networks[C].IEEE Int.Conf.Comput.Vision Pattern Recognit.2016:2846–2854.”中；DSTL方法的结果记载在文献“Z.Jie,Y.Wei,X.Jin,J.Feng,and W.Liu.Deepself-taught learning for weakly supervised object localization[C].IEEEInt.Conf.Comput.Vision Pattern Recognit.2017:1377–1385.”中；WCCN方法的结果记载在文献“A.Diba,V.Sharma,A.Pazandeh,H.Pirsiavash,and L.Van Goo.Weaklysupervised cascaded convolutional networks[C].IEEE Int.Conf.Comput.VisionPattern Recognit.2017:914–922.”中；PCL方法的结果记载在文献“Tang P,Wang X,BaiS,et al.PCL:Proposal Cluster Learning for Weakly Supervised Object Detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018:1-1.”中；TS²C方法的结果记载在文献“Y.Wei,Z.Shen,B.Cheng,H.Shi,J.Xiong,J.Feng,andT.Huang.Ts2c:Tight box mining with surrounding segmentation context forweakly supervised object detection[C].Eur.Conf.Comput.Vis.2018:434–450.”中；MELM方法的结果记载在文献“F.Wan,P.Wei,J.Jiao,Z.Han,and Q.Ye.Min-entropy latentmodel for weakly supervised object detection[C].IEEE Int.Conf.Comput.VisionPattern Recognit.2018:1297-1306.”中；ZLDN方法的结果记载在文献“X.Zhang,J.Feng,H.Xiong,and Q.Tian.Zigzag learning for weakly supervised object detection[C].IEEE Int.Conf.Comput.Vision Pattern Recognit.2018:4262–4270.”中；C-WSL方法的结果记载在文献“M.Gao,A.Li,R.Yu,V.I.Morariu,and L.S.Davis,“C-wsl:Countguidedweakly supervised localization,”in Proc.Eur.Conf.Comput.Vis.2018:152–168.”中；WSRPN方法的结果记载在文献“P.Tang,X.Wang,A.Wang,Y.Yan,W.Liu,J.Huang,andA.Yuille,“Weakly supervised region proposal network and object detection,”inProc.Eur.Conf.Comput.Vis.2018:352–368.”中；OICR方法的结果记载在文献“P.Tang,X.Wang,X.Bai,and W.Liu.Multiple instance detection network with onlineinstance classifier refinement[C].IEEE Int.Conf.Comput.Vision PatternRecognit.2017:2843–2851.”中。

Claims

1.一种基于样本选择和自适应难例挖掘的弱监督目标检测方法，其特征在于步骤如下：

步骤2，网络前向计算：

然后，使用加权多类别交叉熵损失函数计算目标级损失：

其中，L表示目标级损失，

为候选框r在目标类别c上的类别标签，

为候选框r在类别c上的得分；