CN107273891A

CN107273891A - 一种基于点击监督训练的目标类别检测方法

Info

Publication number: CN107273891A
Application number: CN201710431113.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2017-10-20

Abstract

本发明提出了一种基于点击监督训练的目标类别检测方法，其主要内容包括：点击监督、弱监督目标定位、众包架构、点击监督与弱监督目标定位的合并，其过程为，要求标注者去点击紧密包围目标中实体的虚构边界框的中心，然后将这些所点击点合并到现有的用于弱监督目标定位的多实体学习技术中，这样就可以在所有训练图像上共同进行目标边界框的定位。本发明训练出了高质量的目标类别检测器，其表现比用弱监督训练技术所产生的检测器要好得多，并且还可以进行适度的额外标注。这些检测器的执行结果实际上在一定范围内接近手动绘制边界框所训练的结果，且由于中心点击任务执行的非常快，此发明将总标注时间缩短了9倍到18倍。

Description

一种基于点击监督训练的目标类别检测方法

技术领域

本发明涉及图像处理中的目标检测领域，尤其是涉及了一种基于点击监督训练的目标类别检测方法。

背景技术

自然界的一切图像都是连续变化的模拟图像，在日常生活中，这些图像中的运动目标往往是我们比较关心的，如：行人、行驶的交通工具以及其他的物体。目标检测和识别是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域。因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分。它的目的就是如何快速、准确地检测出监控视频中的目标，即从序列图像中将目标提取出来。迄今，目标类别检测器的训练已经存在很多方法，如何在尽量减少人的标注工作的同时训练出高质量的检测器具有重要的现实意义。

发明内容

针对本发明训练出了高质量的目标类别检测器，其表现比用弱监督训练技术所产生的检测器要好得多，并且还可以进行适度的额外标注。这些检测器的执行结果实际上在一定范围内接近手动绘制边界框所训练的结果，且由于中心点击任务执行的非常快，总的标注时间缩短了9倍到18倍。

为解决上述问题，本发明提供一种基于点击监督训练的目标类别检测方法，其主要内容包括：

(一)点击监督；

(二)弱监督对象定位；

(三)众包架构；

(四)点击监督与弱监督对象定位的合并。

其中，所述的点击监督，通过点击图像中心的方法来进行图像标注，且所点击点可以从所使用的检测器训练框架中分开独立获取。这些所点击点为完整的边界框提供可靠的定位点，因为它们对边界框的中心进行了估计。此外，还可以要求两个不同的标注者对同一个目标进行中心点击，即双击监督。由于它们的误差是独立的，故可以通过对所点击点的位置进行平均计算以获得目标中心位置的更准确的估计值，且两个所点击的点之间的距离随物体大小增加而增加，因此这样可以根据所点击点之间的距离估算目标的大小。

进一步地，所述的弱监督目标定位，从一组仅仅包含一个特定目标类别而没有给出目标位置的图像来训练出定位方法，从而在学习一个目标检测器的同时在这些图像中定位目标，这样就能够在新的测试图像中对实体进行定位。

进一步地，所述的众包架构，首先让标注者先读取由图像及其目标类别名称组成的指令集，然后需要通过一个交互式的训练阶段，其中包含一个基于合成多边形的合格性测试。在完成这个阶段后，标注者会收到一个详细的关于他们在测试中表现的反馈报告，这其中通过合格性测试的标注者就可以进入到图像标注阶段。这里在标注者训练这个阶段中，标注者可以不断重复合格性测试以防失败。最后就是进行数据收集工作，需要收集的数据包括标注时间，标注误差以及标注成本。

其中，所述的标注者训练，通过合格性测试过滤掉不好的标注者从而提高众包数据的质量。在合格性测试期间，标注者需要点击20个合成多边形的中心。这里使用合成多边形代替实际物体不仅保证了合格性测试的难度，还减少了标注者的认知负荷，从而使训练阶段更有效率。在标注者完成合格性测试之后，他们会收到一个反馈页面，其中包含所有已标注的合成多边形实例，其中每个多边形上都会显示其真实中心的位置，标注者自己点击的位置以及这两者之间的欧几里得距离(误差距离)。通过这项测试的确切标准是在测试中的所有多边形上的平均误差距离低于20个像素。通过合格性测试的标注者会被记录为合格标注者，然后他们可以继续进行主要标注任务来处理真实图像。这里允许标注者不断重复合格性测试直到他们通过为止。通过把丰富的反馈结果与重复测试相结合，这个标注者训练阶段具备了较高的互动性与效率。

进一步地，所述的图像标注，标注者需要对20个连续出现的图像进行批量标注，且这里每批的图像都是单独的目标类别，这样就在提高标注准确度的同时减少标注时间。此外，此阶段还采用了质量控制方法，即在每批次的20个图像中包含两个隐藏了已经标注好边界框的评估图像，从而监视标注者的标注准确度，这里未达到所要求标注准确度的标注者将不能提交当前数据。

进一步地，所述的数据收集，通过记录从图像出现开始直到标注者进行点击的时间作为标注时间，并以此体现标注者的标注效率；通过记录标注者的所点击点与实际边界框中心的距离来测得误差距离，并以此体现标注者的标注准确度；最后是通过记录标注者每标注一批图像所需支付的金额来体现总体的标注成本。

进一步地，所述的点击监督与弱监督目标定位的合并，将所点击点合并到最初设计用于弱监督对象检测的参考多示例学习(MIL)框架中，其中MIL的输入是一个包含目标类别的正图像以及不包含目标类别的负图像的训练集，这里将每个图像表示为使用边界框提取的一组目标区域，然后通过一个4096维的特征向量使用CNN实现描述每个目标区域，这里仅使用图像级的标签在数据库上对CNN进行了预训练。进一步的，通过交替执行重定位与重新训练两个步骤来迭代的建立SVM(支持向量机)表观模型其中重定位是指在每个正图像中选出当前表观模型给出最高分的正区域，重新训练是指使用当前从正图像中选择的正区域以及负图像的所有区域。这里进行初始化时，需要在第一次迭代时使用完整的图像作为正训练实例来训练分类器。

进一步地，需要在标准MIL架构上应用了两个改进方案，其一是使用多次覆盖方法来避免局部最优，其二是结合表观模型给的分数与物体的对象性的一般测量结果，而这其中物体的对象性之前在弱监督目标定位中用于控制定位过程朝着目标并远离背景。在重定位过程中假设与的权重相同的情况下将其两者的分数进行线性的结合，其中每个区域p的分数可由等式(1)获得。

在MIL收敛以后，在重复训练步骤额外执行两次迭代对整个CNN神经网络进行深度训练来取代基于混合特征表示法的SVM，其中在迭代过程中使用快速RCNN作为表观模型

其中，所述的单击监督，引入一个记分函数S_bc来表示区域p可以根据对象的中心点c_p及所点击点c的位置来包含对象的可能性。等式(2)中‖c_p-c‖代表c_p与c之间的欧几里德距离，标准偏差σ_bc可以控制当c_p离c越来越远时S_bc的值下降的速度。

在MIL的重定位步骤(I)中使用边界框中心的线索S_bc，其中根据记分方程的最高分S_ap与S_bc的乘积S_ap(p)·S_bc(p；c,σ_bc)来进行区域选择。实验结果表明这种方法很好的改善了重定位，从而下一个重新训练迭代中改进了外观模型，也改善了最后的MIL结果。此外，可以使用所点击点的位置来改善MIL的初始化，这里为了取代直接从完整图像中初始化正面训练样本的区域，现构建以所点击点为中心的窗口，且此窗口在不超过图像边界的同时具有最大的尺寸。这大大改进了MIL初始化过程，尤其是在所点击位置靠近图像边框的情况下。

进一步地，所述的双击监督，当使用两个标注者点击两次时与点击一次相比总标注时间增加了一倍，这样能够更准确地估算目标中心的位置。进一步的，可以根据两次所点击点之间的距离来估算对象区域的面积。这里简单地替换等式(1)中的c为两次所点击点c₁和c₂的平均值。然而，在包含目标类别的多个实体的图像中，两个标注者可能会点击不同的目标。为了解决这个问题，引入一个距离阈值d_max，超过这个距离阈值的所点击点则被认为是针对不同的目标。而在这种情况下，保留两个所点击点的值并在等式(1)中使用它们。如果‖c_p-c‖>d_max，那么对于每个方案p都使用最接近两个所点击点的中心点c_p。

由于两个标注者的误差是独立的，他们的两个所点击点之间的距离平均上随着对象面积的增加而增加，因此可以根据两次所点击点c₁和c₂之间的距离来估算目标区域的面积。令μ(‖c_p-c‖)为估算对象区域面积对数的函数，则对于每个区域p我们都引入一个方框面积分数S_ba来根据区域p面积与所估算对象面积的比率表示区域p包含对象的可能性。

等式(2)中a_p是区域p面积值的对数，(a_p-μ)表示两个区域之间的对数比，其中标准偏差σ_ba控制S_ba的值随着a_p与μ差值增加而下降的速度。此外，在MIL的重定位步骤过程中对区域p在最终分值函数S(p)中引用了所有的影响因子。

S(p)＝S_ap·S_bc(p；c₁,c₂,σ_bc)·S_ba(p；c₁,c₂,σ_ba) (4)

附图说明

图1是本发明一种基于点击监督训练的目标类别检测方法的众包架构工作流程图。

图2是本发明一种基于点击监督训练的目标类别检测方法的指令集示例图。

图3是本发明一种基于点击监督训练的目标类别检测方法的标注者接收反馈图示。

图4是本发明一种基于点击监督训练的目标类别检测方法的对象区域面积平方根与误差距离关系图。

图5是本发明一种基于点击监督训练的目标类别检测方法的方框中心分数示例图。

图6是本发明一种基于点击监督训练的目标类别检测方法的方框区域分数示例图。

图7是本发明一种基于点击监督训练的目标类别检测方法的标注误差分布图以及两个所点击点距离与对象相对区域面积的关系图。

图8是本发明一种基于点击监督训练的目标类别检测方法的单次点击和双次点击监督模型训练示例图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于点击监督训练的目标类别检测方法的众包架构工作流程图。主要包括指令读取、标注者训练、图像标注、数据收集。这里首先让标注者先读取由图像及其目标类别名称组成的指令集，然后需要通过一个交互式的训练阶段，其中包含一个基于合成多边形的合格性测试。在完成这个阶段后，标注者会收到一个详细的关于他们在测试中表现的反馈报告，这其中通过合格性测试的标注者就可以进入到图像标注阶段。这里在标注者训练这个阶段中，标注者可以不断重复合格性测试以防失败。最后就是进行数据收集工作，需要收集的数据包括标注时间，标注误差以及标注成本。

S(p)＝S_ap·S_bc(p；c₁,c₂,σ_bc)·S_ba(p；c₁,c₂,σ_ba) (4)

图2是本发明一种基于点击监督训练的目标类别检测方法的指令集示例图。左边图像指令为：所期望的边界框中心也许不在目标上；中间图像指令为：如果目标对象被缩小了，则点击可见部分的中心；右边图像指令为：如果呈现了多个实体，则点击其中任何一个的中心。

图3是本发明一种基于点击监督训练的目标类别检测方法的标注者接收反馈图示。这里对于每个实例，都会提供合成多边形的实际中心点(白色点)与标注者自己在图中所点击的点(深灰色点)，且两点之间的误差距离也会显示出来。

图4是本发明一种基于点击监督训练的目标类别检测方法的对象区域面积平方根与误差距离关系图。图中可以基于像素点所计算的误差距离随着目标区域的增加而增加，而当目标快要占满整个图像时此误差会降低。

图5是本发明一种基于点击监督训练的目标类别检测方法的方框中心分数示例图。图中以自行车作为实例，其中左图为单击标注，中间图为同一个目标上的双击标注，右图为不同目标上的双击标注。此外，图中的热点图的每个像素点的值给了S_bc一个集中那个像素的目标区域。

图6是本发明一种基于点击监督训练的目标类别检测方法的方框区域分数示例图。图中显示了S_ba的分数对不同区域的影响的一个例子，这里使用的所有区域都具有固定的纵横比，并以图中目标作为中心，其中当区域p的面积与估算的对象区域相匹配时，S_ba的值最大。

图7是本发明一种基于点击监督训练的目标类别检测方法的标注误差分布图以及两个所点击点距离与对象相对区域面积的关系图。左图中体现了在标注者进行合格性测试的过程中误差距离的分布情况，右图体现了两个所点击点距离与对象相对区域面积的关系，其中黑色线代表了回归函数μ。

图8是本发明一种基于点击监督训练的目标类别检测方法的单次点击和双次点击监督模型训练示例图。图中的目标定位的例子是基于PASCAL VOC 2007的测试训练集使用了本发明的单击监督(黑色框)以及双击监督(浅灰色框)模型来获取的，其中每个示例也都显示了通过参考MIL所完成的目标定位(深灰色框)。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于点击监督训练的目标类别检测方法，其特征在于，主要包括点击监督(一)；弱监督目标定位(二)；众包架构(三)；点击监督与弱监督目标定位的合并(四)。

2.基于权利要求书1所述的点击监督(一)，其特征在于，通过点击图像中心的方法来进行图像标注，且所点击点可以从所使用的检测器训练框架中分开独立获取，这些所点击点为完整的边界框提供可靠的定位点，因为它们对边界框的中心进行了估计；此外还可以要求两个不同的标注者对同一个目标进行中心点击，即双击监督；且由于它们的误差是独立的，故可以通过对所点击点的位置进行平均计算以获得目标中心位置的更准确的估计值，且两个所点击的点之间的距离随物体大小增加而增加，因此这样可以根据所点击点之间的距离估算目标的大小。

3.基于权利要求书1所述的弱监督目标定位(二)，其特征在于，从一组仅仅包含一个特定目标类别而没有给出目标位置的图像来训练出定位方法，从而在学习一个目标检测器的同时在这些图像中定位目标，这样就能够在新的测试图像中对实体进行定位。

4.基于权利要求书1所述的众包架构(三)，其特征在于，让标注者先读取由图像及其目标类别名称组成的指令集，然后需要通过一个交互式的训练阶段，其中包含一个基于合成多边形的合格性测试；在完成这个阶段后标注者会收到一个详细的关于他们在测试中表现的反馈报告，这其中通过合格性测试的标注者就可以进入到图像标注阶段，这里在标注者训练这个阶段中，标注者可以不断重复合格性测试以防失败；最后就是进行数据收集工作，需要收集的数据包括标注时间，标注误差以及标注成本。

5.基于权利要求书4所述的标注者训练，其特征在于，通过合格性测试过滤掉不好的标注者从而提高众包数据的质量，其中在合格性测试期间，标注者需要点击20个合成多边形的中心，这里使用合成多边形代替实际物体不仅保证了合格性测试的难度，还减少了标注者的认知负荷，从而使训练阶段更有效率；在标注者完成合格性测试之后，他们会收到一个反馈页面，其中包含所有已标注的合成多边形实例，其中每个多边形上都会显示其真实中心的位置，标注者自己点击的位置以及这两者之间的欧几里得距离(误差距离)，通过这项测试的确切标准是在测试中的所有多边形上的平均误差距离低于20个像素；通过合格性测试的标注者会被记录为合格标注者，然后他们可以继续进行主要标注任务来处理真实图像，这里允许标注者不断重复合格性测试直到他们通过为止，通过把丰富的反馈结果与重复测试相结合，这个标注者训练阶段具备了较高的互动性与效率。

6.基于权利要求书4所述的图像标注，其特征在于，标注者需要对20个连续出现的图像进行批量标注，且这里每批的图像都是单独的目标类别，这样就在提高标注准确度的同时减少标注时间；此外此阶段还采用了质量控制方法，即在每批次的20个图像中包含两个隐藏了已经标注好边界框的评估图像，从而监视标注者的标注准确度，这里未达到所要求标注准确度的标注者将不能提交当前数据。

7.基于权利要求书4所述的数据收集，其特征在于，通过记录从图像出现开始直到标注者进行点击的时间作为标注时间，并以此体现标注者的标注效率；通过记录标注者的所点击点与实际边界框中心的距离来测得误差距离，并以此体现标注者的标注准确度；最后是通过记录标注者每标注一批图像所需支付的金额来体现总体的标注成本。

8.基于权利要求书1所述的点击监督与弱监督目标定位的合并(四)，其特征在于，将所点击点合并到最初设计用于弱监督对象检测的参考多示例学习(MIL)框架中，其中MIL的输入是一个包含目标类别的正图像以及不包含目标类别的负图像的训练集，这里将每个图像表示为使用边界框提取的一组目标区域，然后通过一个4096维的特征向量使用CNN实现描述每个目标区域，这里仅使用图像级的标签在数据库上对CNN进行了预训练；进一步的，通过交替执行重定位与重新训练两个步骤来迭代的建立SVM(支持向量机)表观模型其中重定位是指在每个正图像中选出当前表观模型给出最高分的正区域，重新训练是指使用当前从正图像中选择的正区域以及负图像的所有区域，这里进行初始化时，需要在第一次迭代时使用完整的图像作为正训练实例来训练分类器；在标准MIL架构上需要应用两个改进方案，其一是使用多次覆盖方法来避免局部最优，其二是结合表观模型给的分数与物体的对象性的一般测量结果，而这其中物体的对象性之前在弱监督目标定位中用于控制定位过程朝着目标并远离背景，在重定位过程中假设与的权重相同的情况下将其两者的分数进行线性的结合，其中每个区域p的分数可由等式(1)获得：

9.基于权利要求书8所述的单击监督，其特征在于，引入一个记分函数S_bc来表示区域p可以根据对象的中心点c_p及所点击点c的位置来包含对象的可能性，等式(2)中‖c_p-c‖代表c_p与c之间的欧几里德距离，标准偏差σ_bc可以控制当c_p离c越来越远时S_bc的值下降的速度，

<mrow> <msub> <mi>S</mi> <mrow> <mi>b</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>;</mo> <mi>c</mi> <mo>,</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>b</mi> <mi>c</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>c</mi> <mi>p</mi> </msub> <mo>-</mo> <mi>c</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msubsup> <mi>&sigma;</mi> <mrow> <mi>b</mi> <mi>c</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </mfrac> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

在MIL的重定位步骤(I)中使用边界框中心的线索S_bc，其中根据记分方程的最高分S_ap与S_bc的乘积S_ap(p)·S_bc(p；c,σ_bc)来进行区域选择；实验结果表明这种方法很好的改善了重定位，从而下一个重新训练迭代中改进了外观模型，也改善了最后的MIL结果；此外可以使用所点击点的位置来改善MIL的初始化，这里为了取代直接从完整图像中初始化正面训练样本的区域，现构建以所点击点为中心的窗口，且此窗口在不超过图像边界的同时具有最大的尺寸，这大大改进了MIL初始化过程，尤其是在所点击位置靠近图像边框的情况下。

10.基于权利要求书8所述的双击监督，其特征在于，当使用两个标注者点击两次时与点击一次相比总标注时间增加了一倍，这样能够更准确地估算目标中心的位置；进一步的，可以根据两次所点击点之间的距离来估算对象区域的面积，这里简单地替换等式(1)中的c为两次所点击点c₁和c₂的平均值，然而在包含目标类别的多个实体的图像中，两个标注者可能会点击不同的目标；为了解决这个问题引入一个距离阈值d_max，超过这个距离阈值的所点击点则被认为是针对不同的目标，而在这种情况下，保留两个所点击点的值并在等式(1)中使用它们；如果‖c_p-c‖>d_max，那么对于每个方案p都使用最接近两个所点击点的中心点c_p；且由于两个标注者的误差是独立的，他们的两个所点击点之间的距离平均上随着对象面积的增加而增加，因此可以根据两次所点击点c₁和c₂之间的距离来估算目标区域的面积，这里令μ(‖c_p-c‖)为估算对象区域面积对数的函数，则对于每个区域p我们都引入一个方框面积分数S_ba来根据区域p面积与所估算对象面积的比率表示区域p包含对象的可能性：

<mrow> <msub> <mi>S</mi> <mrow> <mi>b</mi> <mi>a</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>;</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>b</mi> <mi>a</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>p</mi> </msub> <mo>-</mo> <mi>&mu;</mi> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msubsup> <mi>&sigma;</mi> <mrow> <mi>b</mi> <mi>a</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </mfrac> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow> 2

S(p)＝S_ap·S_bc(p；c₁,c₂,σ_bc)·S_ba(p；c₁,c₂,σ_ba) (4)

等式(3)中a_p是区域p面积值的对数，(a_p-μ)表示两个区域之间的对数比，其中标准偏差σ_ba控制S_ba的值随着a_p与μ差值增加而下降的速度，此外在MIL的重定位步骤过程中对区域p在最终分值函数S(p)中引用了所有的影响因子。