CN108985385A

CN108985385A - 基于生成对抗学习的快速弱监督目标检测方法

Info

Publication number: CN108985385A
Application number: CN201810878970.XA
Authority: CN
Inventors: 纪荣嵘; 沈云航
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2018-12-11

Abstract

基于生成对抗学习的快速弱监督目标检测方法，属于计算机视觉技术领域。1)使用随机梯度下降算法训练代理器直到收敛；2)使用随机梯度下降算法训练生成器3)使用随机梯度下降算法训练判别器4)使用随机梯度下降算法训练代理器结合生成器的反馈候选区域和原来的候选区域作为输入的候选区域，并且迭代一个数据回合；5)重复步骤2)～4)直到收敛；6)输入图像到生成器

Description

基于生成对抗学习的快速弱监督目标检测方法

技术领域

本发明属于计算机视觉技术领域，尤其是涉及基于生成对抗学习的快速弱监督目标检测方法。

背景技术

对于目标类别检测，相关研究工作一直是计算机视觉的研究热点。当前弱监督目标检测仍存在着挑战，总体来说，挑战性主要体现在以下两个方面：鲁棒性和计算复杂性。

目标检测的鲁棒性主要由类内表观差异和类间表观差异影响，大的类内表观差异和小的类间表观差异通常会导致目标检测方法的鲁棒性降低。类内表观差异是指同类不同个体间的变化，例如，马的不同个体在颜色、纹理、形状、姿态等方面存在差异。由于光照、背景、姿态、视点的变化和遮挡的影响，即使同一匹马在不同的图像中看起来也会非常不同，使得构建具备泛化能力的表观模型极为困难。

目标检测的计算复杂性主要源自待检测目标类别的数量、类别表观描述子的维度、大量有标签数据的获取。真实世界中物体类别数量成百上千并且表观描述子是高维度的，大量充足的有标签数据的获取极为耗时耗力，因此目标检测的计算机复杂性较高，设计高效的目标检测算法至关重要。当前部分工作提出了新的特征匹配方法和定位策略。另一类计算复杂性研究方向关注如何减少目标检测时的搜索空间，这类方法统称为选择性搜索策略(Selective Search)或对象性估计(Objectess Estimation)。它们的核心思想是一张图像中并不是每个子窗口都包含有类别无关的对象，仅有少量候选窗口是目标检测时有意义的候选窗口。

除此之外，人工标注大量目标类别检测数据是极为耗时耗力的工作，通常训练目标检测需要大量人工标注的精细监督信息：目标类别标签和目标位置标签。目标类别标签通常用只包含0和1的向量来表示，1代表图中存在对应的目标，0表示图中不存在对应的目标。而目标位置标签通常用方形包围盒的形式来表示。通常只需要四个坐标就可以确定一个包围盒。这种精细的目标位置标签通常需要付出大量的人力物力来获取。在人工标注包围盒的过程会还会引入标注偏差进而影响训练结果。事实上，只带有目标类别标签的数据是比较容易获得或者标注的，比如用户在网络上传图像，通常会对图像添加标题或者描述。可以从互联网获得大量的弱监督标签信息的数据。因此，一个自然的想法就是只使用只有目标类别标签的数据来训练目标检测器。

现有的弱监督目标检测方法还存在效率低下的问题。目前最快的弱监督目标检测方法的速度也只能每秒检测两帧左右，然而很多快速的强监督目标检测器可以达到上百帧的速度。一方面是因为目前的弱监督目标检测器大多是基于候选区域的检测器，提取候选区域需要耗费一定的时间，使得弱监督目标检测器无法达到实时速度。另外一方面是因为大多弱监督目标检测器需要扩展测试样本(通常扩展10倍，5种尺度以及翻转)来提高精度，然而这大大减低了检测速度。

发明内容

本发明的目的在于提供基于生成对抗学习的快速弱监督目标检测方法。

本发明包括模型训练和模型推理两部分；

所述模型训练包括以下步骤：

1)使用随机梯度下降算法训练代理器直到收敛；

2)使用随机梯度下降算法训练生成器

3)使用随机梯度下降算法训练判别器

4)使用随机梯度下降算法训练代理器结合生成器的反馈候选区域和原来的候选区域作为输入的候选区域，并且迭代一个数据回合；

5)重复步骤2)～4)直到收敛。

所述模型推理的具体步骤为：输入图像到生成器中，获得目标检测结果。

在步骤2)中，所述使用随机梯度下降算法训练生成器的具体方法可为：迭代100次：

在步骤3)中，所述使用随机梯度下降算法训练判别器的具体方法可为：迭代1000次：

本发明是一种新颖的基于生成对抗学习的快速弱监督目标检测方法。众所周知，目前的弱监督目标检测算法的效率非常低下。已知的弱监督目标检测方法的速度最快在每秒两帧左右。本发明加速弱监督目标检测速度，至少提升了55倍，和快速强监督目标检测的速度差不多，并且准确率还有所提升。本发明使用生成对抗学习同时训练三个模型：判别器、生成器和代理器。生成器是快速强监督目标检测器，代理器是弱监督目标检测器，而判别器是用来判断检测结果是来自生成器还是代理器的。生成器模拟代理器的检测结果，以此来迷惑判别器。代理器用来挖掘弱监督数据集里的物体。训练的终止条件是三个模型都无法再改进。此时判别器无法分别测试结果是来自生成器还是代理器。在模型测试时候，只需要使用生成器就可以，代理器和判别器无需使用。生成器的检测速度不仅非常快，而且准确率还比代理器好。

本发明利用强监督目标检测算法作为生成器，不仅大大提高了检测速度，还保证了检测准确率；本发明提出一种结构相似性损失和对抗损失来联合训练生成器。综上，本发明在已有的弱监督模型上，引入快速的强监督模型，同时使用生成对抗学习方法来同时学习两种模型。最终的效果是：本发明的弱监督目标检测器和快速强监督模型的检测速度一样快，比原来的弱监督目标检测器更加准确。大量的实验结果表明，本发明的方法取得优异的弱监督目标检测和定位性能。

附图说明

图1为本发明和其他方法的流程比较。

图2为本发明的结构框架。

图3为本发明中代理器的网络结构。

具体实施方式

以下结合附图及具体的实施例对本发明进行详细说明。

首先定义本发明主要使用的符号。这里用表示生成器，表示判别器，表示代理器。用x表示一张RGB格式的输入图像。

如图1所示，本发明使用VGGNet(Simonyan,Karen,and Andrew Zisserman."Verydeep convolutional networks for large-scale image recognition."ArXiv.2014.)等网络作为的基本模型后端结构。通常情况下模型后端的深度越深，模型的表达能力也越强。

如图2所示，生成器使用了SSD模型(Liu,Wei,et al."Ssd:Single shotmultibox detector."European conference on computer vision.Springer,Cham,2016.)。SSD是基于一个前向传播CNN网络，产生一系列固定大小包围盒，以及每一个包围盒中包含物体实例的可能性，即得分。之后，进行一个非极大值抑制得到最终的预测结果。SSD模型的最开始部分称作基础网络，是用于图像分类的标准架构。在基础网络之后添加了额外辅助的网络结构：

首先添加了额外的卷积层，这些卷积层的大小是逐层递减的，可以在多尺度下进行预测。每一个添加的特征层(或者在基础网络结构中的特征层)，可以使用一系列卷积核，去产生一系列固定大小的预测。预测的输出有两部分，一部分是归属类别的一个得分，另外一部分是相对于默认包围盒坐标的形状位移。每一个默认包围盒相对于与其对应的特征图网格的位置是固定的。在每一个特征图网格中，要预测得到的包围盒与默认包围盒之间的位移，以及每一个包围盒中包含物体的得分。

如图2所示，判别器是一个深度卷积神经网络。它的输入是图像以及对应的包围盒。使用VGG16提取图像的特征图，把特征图、归一化后的包围盒坐标和得分输入两个全连接层，然后输出一个值，再经过sigmoid层来预测输入的包围盒是否是高质量的。

如图2所示，代理器是弱监督目标检测器。是一个三分支深度模型。首先候选区域的特征被分为两个分支：分类分支和检测分支。假设有C个目标类别和R个候选区域{p₁...p_R}，其中，p₁表示一个候选区域。两个分支分别输出两个得分矩阵然后两个得分矩阵分别用不同方向的softmax函数归一化：

其中，分别表示x^c和x^d中的第i行、第j列元素，[σ()]_ij表示对矩阵的第i行、第j列元素进行softmax操作。这两个分支的输出进行点对点的乘法：

x^s＝σ(x^c)·σ(x^d) (3)

然后进行累加池化获得图像级的类别得分：

其中，表示x^s中第r行、第k列元素。使用反向传播算法获得每个类别k的反应图M^k。通过反应图M^k可以粗略估计物体的位置和形状。然后计算每个候选区域的密度：

其中，表示M^k中第i行、第j列元素，γ＝0.1，maxM^k表示M^k中的最大值。同样计算获得候选区域的上下文区域的密度计算每个候选区域的响应值：

最后得到加权后的候选区域得分：

x^g＝σ(x^c)·σ(x^d)·x^r (7)

其中，x^r表示候选区域的响应值矩阵。图3显示了代理器的具体网络结构。

模型训练的损失函数定义为：

其中，λ控制两个损失函数的比例。对抗损失为：

其中，x表示图像，b表示包围盒(bounding boxes)，p_data(x，b)表示图像和对应包围盒的分布，p_data(x)表示图像的分布，表示判别器对输入(x，b)的预测，表示生成器对输入x的预测，表示判别器对输入的预测。由于弱监督目标检测中没有正确的b，因此b定义为：

其中，p为候选区域，表示对输入(x，p)的预测结果。训练中分别优化判别器和生成器

其中，p_data(x，p)表示图像和对应候选区域的分布。

结构相似性损失定义为：

其中，α控制置信度损失和定位损失的权重，是中置信度部分，是中的坐标预测部分，是中置信度部分，是中坐标预测部分。

置信度损失函数为：

其中，T和S分别指代两个置信度矩阵，W＝{1，0}是指示矩阵，表示第k个类别中，生成器的第i个包围盒是否和代理器的第j个包围盒匹配，T_ik表示第i个包围盒的第k个类别的预测置信度，T_i0表示第i个包围盒的背景类别的预测置信度，S_ik表示第i个包围盒的第k个类别的预测置信度，S_i0表示第i个包围盒的背景类别的预测置信度。首先把生成器中的每一个包围盒匹配代理器中最大重叠的包围盒。若代理器中得分最高的包围盒的类别是背景，那么匹配的生成器的包围盒被认为是负样本，反之亦然。

定位损失函数为：

其中，U、V和Z分别指代四个坐标矩阵，表示第i个包围盒的四个坐标，表示第i个包围盒的四个坐标，表示第i个包围盒的四个坐标。最后的损失函数为：

Claims

1.基于生成对抗学习的快速弱监督目标检测方法，其特征在于包括模型训练和模型推理两部分；

所述模型训练包括以下步骤：

1)使用随机梯度下降算法训练代理器直到收敛；

2)使用随机梯度下降算法训练生成器

3)使用随机梯度下降算法训练判别器

5)重复步骤2)～4)直到收敛；

2.如权利要求1所述基于生成对抗学习的快速弱监督目标检测方法，其特征在于在步骤2)中，所述使用随机梯度下降算法训练生成器的具体方法为：迭代100次：

3.如权利要求1所述基于生成对抗学习的快速弱监督目标检测方法，其特征在于在步骤3)中，所述使用随机梯度下降算法训练判别器的具体方法为：迭代1000次：