CN107203781A

CN107203781A - 一种基于显著性指导的端到端的弱监督目标检测方法

Info

Publication number: CN107203781A
Application number: CN201710364115.2A
Authority: CN
Inventors: 赖百胜; 龚小谨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2017-09-26
Anticipated expiration: 2037-05-22
Also published as: CN107203781B

Abstract

本发明公开了一种基于显著性指导的端到端的弱监督目标检测方法。此方法构造一个深度神经网络，在弱监督分类器网络的基础上增加目标框的显著性子网络；同时利用弱监督方法训练得到的类别相关的显著图，用上下文差异的准则选取类别相关的种子目标区域，用来监督训练显著性子网络和分类器子网络。本方法与以往的弱监督目标检测方法相比，得到了更好的性能，同时只需要图像级标签进行训练，减少了标注训练数据的工作量。

Description

一种基于显著性指导的端到端的弱监督目标检测方法

技术领域

本发明涉及图像目标检测方法，具体涉及了一种基于显著性指导的端到端的弱监督目标检测方法。

背景技术

目标检测旨在用矩形框标记出图像中的目标及其类别。传统的基于机器学习的目标检测方法，一般属于监督学习的方法，它需要带有矩形框真值的训练数据。但是在大数据场景下，标记大量的矩形框需要耗费大量的人力，因此限制了监督学习的方法在大规模数据集上的应用。

为了解决训练数据昂贵的问题，近年来，研究者发展出了基于弱监督标记的学习方法。弱监督标记虽然监督能力比监督标记弱，但是获得弱监督标记的代价要远远小于监督标记。比如对于目标检测问题来说，图像级标签是一类弱监督标记，标记图像级标签，即标记出图像中有哪些类别的目标，所需的工作量要远远小于标记出每个目标的具体位置。

另一方面，随着社交网络的兴起，互联网上有大量用户标记的数据，这类标记通常都是图像级的标签，因此，弱监督学习方法可以利用这些免费的海量标记，从而进一步减少标记的工作量。这样弱监督学习的方法相比监督学习的方法在大数据时代有更大的用武之地。

然而弱监督的目标检测是一个十分困难的问题，原因在于弱监督标记缺少位置信息，导致无法对目标进行精确的建模。为了改善位置信息缺失的问题，一些方法尝试恢复位置信息，如Bilen等人通过在网络中加入一个新的分支，得到每个候选目标区域是否为目标的分数。但是这些方法仅利用深度神经网络中的特征来获得，没有挖掘图像中更多的信息，因此对目标检测性能的提升不大。

发明内容

本发明的目的在于提供一种基于显著性指导的端到端的弱监督目标检测方法。本方法将类别相关的显著图引入弱监督目标检测中，首先从显著图中获取置信度较高的种子候选目标区域，从而恢复少量置信度高的位置信息，然后利用高质量的位置信息监督训练用来恢复位置信息的显著性子网络，同时也用来监督训练检测器。

本发明采用的技术方案是包括如下步骤：

(1)采集一幅已知图像级标签的图像I，图像级标签为y＝[y₁,y₂,...,y_C],其中y_c代表图像中具有第c个类别物体所对应的标签，标签分为前景标签和背景标签，每个标签属性为前景标签或者背景标签，y_c∈{1,-1}，y_c＝1表示图像中具有第c个类别物体，y_c＝-1表示图像中不具有第c个类别物体，一个标签对应一个类别物体，C为类别物体总数，记T＝{c|y_c＝1}为图像I具有的图像级标签的集合；

(2)对图像I进行处理获得与每个类别物体对应的类别相关显著图M_c、候选目标区域以及与每个候选目标区域相邻的超像素集合；

(3)对于每个类别物体下的每个候选目标区域进行处理计算获得上下文显著值差异然后选取上下文显著值差异最大的候选目标区域作为该类别物体下的种子目标区域，并记录种子目标区域的下标序数值：

其中，Λ_c表示种子目标区域在候选目标区域集合中的下标序数值；

然后获得图像I具有的图像级标签的集合对应的种子目标区域的下标序数值集合Λ_s＝{Λ_c,y_c＝1}；

(4)构建类别相关显著图指导的深度神经网络；

(5)将图像I及其候选目标区域输入到深度神经网络中，利用带动量(momentum)的SGD算法训练深度神经网络，获得深度神经网络的参数；

(6)采用训练后的深度神经网络对未知图像级标签的待测图像进行处理获得目标检测结果。

所述步骤(2)具体为：

使用DCSM算法对图像I进行处理得到多个类别相关显著图M，第c个类别物体具有一个类别相关显著图M_c；

使用COB算法对图像I进行处理，分割提取得到多个超像素以及由超像素组合构成的多个候选目标区域，并且为每个候选目标区域构建与其相邻的超像素的集合

多个超像素的集合表示为其中，表示第一个超像素，N_S表示超像素的个数；多个候选目标区域的集合表示为为候选目标区域的个数，表示第一个候选目标区域。

例如为第i个候选目标区域构建与其相邻的超像素的集合表示与第i个候选目标区域相邻的超像素。

所述步骤(3)以第i个候选目标区域和第c个类别物体为例，具体为：

(3.1)首先采用以下公式计算平均显著值

其中，为第i个候选目标区域的面积，M_c(p)代表图像I中第p个像素在第c个类别物体对应的类别相关显著图M中的显著值，p表示图像I中的任意一像素；

(3.2)再采用以下公式计算与第i个候选目标区域相邻的超像素的平均显著值

其中，表示与候选目标区域相邻的超像素集合的面积；

(3.3)采用以下公式计算得到上下文显著值差异

其中，σ表示面积权重的标准差。

所述步骤(4)构建的深度神经网络具体包含Convs模块、SPP模块、SSN(SaliencySub-network)模块、Sum模块、CLN(Classification-Localization Sub-network)模块、显著性损失函数模块图像级分类损失函数模块L^IC、种子区域分类损失函数模块L^SC和损失函数模块L(w)；图像I输入到Convs模块中，Convs模块输出依次经SPP模块、SSN模块后分别输出到显著性损失函数模块L^SS和CLN模块，CLN模块分别输出到种子区域分类损失函数模块L^SC和Sum模块，Sum模块输出到图像级分类损失函数模块L^IC，显著性损失函数模块L^SS、种子区域分类损失函数模块L^SC和图像级分类损失函数模块L^IC一起输出到损失函数模块L(w)。

所述的Convs模块包含传统深度神经网络中VGG16网络Conv5之前的所有运算；

所述的SPP模块为一个空间金字塔池化层(spatial pyramid pooling)；

所述的Sum模块采用以下公式定义：

其中，τ_c是Sum模块的输出，表示第c个标签的分类分数，Φ_c,i表示CLN模块的输出，i表示每个候选目标区域；

所述的SSN模块主要由Fc1层、Fc2层、Sigmoid层和Time层构成，Fc1层和Time层的输入作为SSN模块的输入，即SPP模块输出到Fc1层和Time层，Fc1层依次经Fc2层、Sigmoid层后输出到Time层，Time层输出作为SSN模块的输出；其中的Fc1层是由一个输出神经元个数为N₁的全连接层和一个ReLU层构成，Fc2层是由一个输出神经元个数为N₂的全连接层和一个ReLU层构成。

所述的CLN模块主要由Fc3层、Fc4层、Fc5层、Fc6层、Softmax3层、Softmax4层和Time层构成，其中的Fc3层是由一个输出神经元个数为N₃的全连接层和一个ReLU层构成，Fc4层是由一个输出神经元个数为N₄的全连接层和一个ReLU层构成，Fc5层是由一个输出神经元个数为N₅的全连接层和一个ReLU层构成，Fc6层是由一个输出神经元个数为N₆的全连接层和一个ReLU层构成，Softmax3层表示在第三个维度进行softmax操作，Softmax4层表示在第四个维度上进行softmax操作，Time层表示两个输入的点乘运算，

所述的显著性损失函数模块L^SS采用以下公式运算：

其中，P是SSN模块中Sigmoid层的输出，表示候选目标区域的显著值，表示种子目标区域的显著值，Q表示显著值的真值。

其中，显著值的真值Q采用以下公式计算：

其中，m表示Λ_s集合中每个元素的下标，Λ_s()表示种子目标区域下标的集合，L₀为背景标签集合，L_f为前景标签集合；公式中是分别将背景标签下类别物体和前景标签下类别物体对应的种子目标区域作为显著性的负样本和正样本来计算判别。

所述的图像级分类损失函数模块L^IC采用以下公式运算：

其中，C为类别物体总数，c为类别物体的序数；

所述的种子区域分类损失函数L^SC采用以下公式运算：

其中，T＝{c|y_c＝1}为图像I具有的图像级标签的集合；

所述的损失函数模块L(w)采用以下公式运算：

其中，w为深度神经网络中的参数，λ₁、λ₂、λ₃分别为种子区域分类损失函数、显著性损失函数和深度神经网络正则项的权重。

所述步骤(6)具体为：针对未知图像级标签的待测图像采用所述步骤(2)处理获得候选目标区域，将待测图像及其候选目标区域输入到训练后且去掉了损失函数模块L(w)的深度神经网络中进行前向传播，得到输出矩阵Φ，输出矩阵Φ的每一列作为待测图像中对应的候选目标区域的分数，例如第一列对应第一个候选目标区域，每一列的最大值为所对应候选目标区域的最终分类分数，选出最终分类分数大于阈值η的候选目标区域，在待测图像上构建选出的候选目标区域外的最小外接矩形作为目标检测结果。

本发明方法构造了一个深度神经网络，在弱监督分类器网络的基础上增加目标框的显著性子网络，同时利用弱监督方法训练得到的类别相关的显著图，用上下文差异的准则选取类别相关的种子目标框，用来监督训练显著性子网络和分类器子网络。

本发明的有益效果是：

本发明方法利用类别相关显著图得到种子目标区域，一方面利用种子区域监督训练显著性子网络，从而能够选择出更有可能是目标的区域；一方面直接利用种子区域监督检测网络的分类器；从而从两方面恢复在弱监督训练中缺失的位置信息，与以往的弱监督目标检测方法相比，得到了更好的性能，同时只需要图像级标签进行训练，减少了标注训练数据的工作量。

附图说明

图1是本发明深度神经网络的模块结构框图。

图2是SSN(Saliency Sub-network)模块的具体结构框图。

图3是CLN(Classification-Localization Sub-network)模块的具体结构框图。

图4是实施例选择出的种子目标区域结果图。

图5是实施例目标检测结果图。

具体实施方式

下面对本发明进行进一步说明。

本发明的实施例及其实施过程是：

(1)采集一幅已知图像级标签的图像I，图像级标签为y＝[y₁,y₂,...,y_C],其中y_c代表图像中具有第c个类别物体所对应的标签，标签分为前景标签和背景标签，每个标签属性为前景标签或者背景标签，y_c∈{1,-1}，y_c＝1表示图像中具有第c个类别物体，y_c＝-1表示图像中不具有第c个类别物体，一个标签对应一个类别物体，C为类别物体总数；

使用DCSM算法对图像I进行处理得到多个类别相关显著图M，第c个类别物体具有一个类别相关显著图M_c；具体实施中，DCSM算法采用Shimoda W,Yanai K.Distinct class-specific saliency maps for weakly supervised semantic segmentation文献中的计算方法。

使用COB算法对图像I进行处理，分割提取得到多个超像素以及由超像素组合构成的多个候选目标区域，并且为每个候选目标区域构建与其相邻的超像素的集合COB算法采用Maninis K K,Pont-Tuset J,etal.Convolutional oriented boundaries文献中的计算方法。

(3)对于每个类别物体下的每个候选目标区域进行处理计算获得上下文显著值差异然后选取上下文显著值差异最大的候选目标区域作为作为该类别物体下的种子目标区域，并记录种子目标区域的下标序数值：

然后获得每个类别物体(图像级标签)对应的种子目标区域的下标序数值集合Λ_s＝{Λ_c,y_c＝1}。图4展示了通过以上方法选择出的种子目标区域，可见本方法能够利用不完美的类别相关显著图，选择出正确的种子目标区域，从而恢复出训练数据中缺失的目标位置信息，用来监督深度神经网络的训练。

(4)构建深度神经网络。

如图1所示，具体包含Convs模块、SPP模块、SSN(Saliency Sub-network)模块、Sum模块、CLN(Classification-Localization Sub-network)模块、显著性损失函数模块L^SS、图像级分类损失函数模块L^IC、种子区域分类损失函数模块L^SC和损失函数模块L(w)；图像I输入到Convs模块中，Convs模块输出依次经SPP模块、SSN模块后分别输出到显著性损失函数模块L^SS和CLN模块，CLN模块分别输出到种子区域分类损失函数模块L^SC和Sum模块，Sum模块输出到图像级分类损失函数模块L^IC，显著性损失函数模块L^SS、种子区域分类损失函数模块L^SC和图像级分类损失函数模块L^IC一起输出到损失函数模块L(w)。

所述的SSN模块如图2所示，所述的CLN模块如图3所示。

具体实施中，动量设置为0.9，一共迭代20个纪元(epoch)，前10个纪元的学习率为10^-5，后10个纪元的学习率为10^-6。训练结束后，保存深度神经网络的参数。

(6)针对未知图像级标签的待测图像采用所述步骤(2)处理获得候选目标区域，将待测图像及其候选目标区域输入到训练后且去掉了损失函数模块L(w)的深度神经网络中进行前向传播，得到输出矩阵Φ，输出矩阵Φ的每一列作为待测图像中对应的候选目标区域的分数，例如第一列对应第一个候选目标区域，每一列的最大值为所对应候选目标区域的最终分类分数，选出最终分类分数大于阈值η的候选目标区域，阈值η取0.1，在待测图像上构建选出的候选目标区域外的最小外接矩形作为目标检测结果。图5展示实施例一些目标检测结果。

本实施例最后使用标准数据集VOC2007(M.Everingham,L.Van Gool,C.KIWilliams,J.Winn,and A.Zisserman.The Pascal Visual Object Classes(VOC)Challenge.International journal of computer vision,88(2):303–338,2010)进行测试，使用数据集中的trainval部分进行训练，使用数据集中test部分进行测试。使用目标检测的标准评判标准mAP进行评测，表1给出了本方法与最新的弱监督目标检测方法的mAP值，mAP值越大，说明性能越好。

表1本方法与最新方法在VOC2007数据集上的比较

从上表可见，本方法的mAP值达到43.5，都高于其他常见的方法的mAP值，其中WSDDN VGG16等价于本方法去掉显著性指导之后的方法，从本方法与WSDDN VGG16的比较来看，本方法提出的显著性指导方法，是十分有效的。同时与最新的弱监督目标检测方法相比，本发明具有其突出显著的技术效果。

Claims

1.一种基于显著性指导的端到端的弱监督目标检测方法，其特征是，包括如下步骤：

(1)采集一幅已知图像级标签的图像I，图像级标签为y＝[y₁,y₂,...,y_C],其中y_c代表图像中具有第c个类别物体所对应的标签，y_c∈{1,-1}，y_c＝1表示图像中具有第c个类别物体，y_c＝-1表示图像中不具有第c个类别物体，C为类别物体总数，记T＝{c|y_c＝1}为图像I具有的图像级标签的集合；

(4)构建类别相关显著图指导的深度神经网络；

(5)将图像I及其候选目标区域输入到深度神经网络中，利用带动量(momentum)的SGD算法训练深度神经网络；

2.根据权利要求1所述的一种基于显著性指导的端到端的弱监督目标检测方法，其特征是：所述步骤(2)具体为：

3.根据权利要求1所述的一种基于显著性指导的端到端的弱监督目标检测方法，其特征是：所述步骤(3)以第i个候选目标区域和第c个类别物体为例，具体为：

(3.1)首先采用以下公式计算平均显著值

其中，表示与候选目标区域相邻的超像素集合的面积；

(3.3)采用以下公式计算得到上下文显著值差异

其中，σ表示面积权重的标准差。

4.根据权利要求1所述的一种基于显著性指导的端到端的弱监督目标检测方法，其特征是：所述步骤(4)构建的深度神经网络具体包含Convs模块、SPP模块、SSN(Saliency Sub-network)模块、Sum模块、CLN(Classification-Localization Sub-network)模块、显著性损失函数模块L^SS、图像级分类损失函数模块L^IC、种子区域分类损失函数模块L^SC和损失函数模块L(w)；图像I输入到Convs模块中，Convs模块输出依次经SPP模块、SSN模块后分别输出到显著性损失函数模块L^SS和CLN模块，CLN模块分别输出到种子区域分类损失函数模块L^SC和Sum模块，Sum模块输出到图像级分类损失函数模块L^IC，显著性损失函数模块L^SS、种子区域分类损失函数模块L^SC和图像级分类损失函数模块L^IC一起输出到损失函数模块L(w)。

5.根据权利要求4所述的一种基于显著性指导的端到端的弱监督目标检测方法，其特征是：

所述的SPP模块为一个空间金字塔池化层(spatial pyramid pooling)；

所述的Sum模块采用以下公式定义：

所述的SSN模块主要由Fc1层、Fc2层、Sigmoid层和Time层构成，Fc1层和Time层的输入作为SSN模块的输入，Fc1层依次经Fc2层、Sigmoid层后输出到Time层，Time层输出作为SSN模块的输出；其中的Fc1层是由一个输出神经元个数为N₁的全连接层和一个ReLU层构成，Fc2层是由一个输出神经元个数为N₂的全连接层和一个ReLU层构成。

所述的CLN模块主要由Fc3层、Fc4层、Fc5层、Fc6层、Softmax3层、Softmax4层和Time层构成，其中的Fc3层是由一个输出神经元个数为N₃的全连接层和一个ReLU层构成，Fc4层是由一个输出神经元个数为N₄的全连接层和一个ReLU层构成，Fc5层是由一个输出神经元个数为N₅的全连接层和一个ReLU层构成，Fc6层是由一个输出神经元个数为N₆的全连接层和一个ReLU层构成，Softmax3层表示在第三个维度进行softmax操作，Softmax4层表示在第四个维度上进行softmax操作，Time层表示两个输入的点乘运算。

6.根据权利要求4所述的一种基于显著性指导的端到端的弱监督目标检测方法，其特征是：所述的显著性损失函数模块L^SS采用以下公式运算：

其中，P是SSN模块中Sigmoid层的输出，表示候选目标区域的显著值，表示种子目标区域的显著值，Q表示显著值的真值；

上式中的显著值的真值Q采用以下公式计算：

其中，m表示Λ_s集合中每个元素的下标，Λ_s()表示种子目标区域下标的集合，L₀为背景标签集合，L_f为前景标签集合；公式中是分别将背景标签下类别物体和前景标签下类别物体对应的种子目标区域作为显著性的负样本和正样本来计算判别；

所述的图像级分类损失函数模块L^IC采用以下公式运算：

其中，C为类别物体总数，c为类别物体的序数；

所述的种子区域分类损失函数L^SC采用以下公式运算：

其中，T＝{c|y_c＝1}为图像I具有的图像级标签的集合；

所述的损失函数模块L(w)采用以下公式运算：

7.根据权利要求1所述的一种基于显著性指导的端到端的弱监督目标检测方法，其特征是：所述步骤(6)具体为：针对未知图像级标签的待测图像采用所述步骤(2)处理获得候选目标区域，将待测图像及其候选目标区域输入到训练后且去掉了损失函数模块L(w)的深度神经网络中进行前向传播，得到输出矩阵Φ，输出矩阵Φ的每一列作为待测图像中对应的候选目标区域的分数，每一列的最大值为所对应候选目标区域的最终分类分数，选出最终分类分数大于阈值η的候选目标区域，在待测图像上构建选出的候选目标区域外的最小外接矩形作为目标检测结果。