CN112733883B

CN112733883B - 一种点监督的目标检测方法

Info

Publication number: CN112733883B
Application number: CN202011530158.1A
Authority: CN
Inventors: 叶齐祥; 廖明祥; 万方; 焦建彬; 韩振军
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-12-07
Anticipated expiration: 2040-12-22
Also published as: CN112733883A

Abstract

本发明公开了一种点监督的目标检测方法，所述方法包括训练部分和测试部分，其中，所述训练部分为利用点标注数据集对神经网络进行训练，包括以下步骤：步骤1，提取训练图像的特征图，获得候选区域的特征向量；步骤2，通过检测网络获得每个候选区域对图像各类别的置信度；步骤3，筛选候选区域，生成伪标签。本发明公开的点监督的目标检测方法，无需边框标注数据，降低了人工成本，提高了物体检出概率，对于自然场景图像、医学图像等领域的目标检测具有重要应用价值。

Description

一种点监督的目标检测方法

技术领域

本发明属于点监督学习和计算机视觉技术领域，具体涉及一种点监督的目标检测方法，通过对带有点标注的训练图像学习实现目标检测。

背景技术

在卷积神经网络的助力之下，目标检测方法性能得到了长足的提升。目前，目标检测领域最令人瞩目的研究成果主要集中于全监督目标检测领域，即在训练集图片中标注图片的类别，并用边框的形式将物体的范围给出，由于模型复杂度高，往往需要大量训练数据才能实现良好的模型性能和泛化能力。

但是，上述的基于回归和分类的学习方法并不是最自然的，比如人类在认识一类物体时不需要额外的信息来指示物体的范围，物体范围的信息是可以从图片中挖掘出来的，相比之下，点监督是更加自然的一种监督方式。

此外，一般情况下，带有大量框标注的图片的数据集是容易获取的，但是对于一些图片标注成本很高的领域，例如在医疗图像处理和超密集目标检测等领域，获取大量框标注的图片在成本上是难以接受的。其中，对于标注成本高的医疗图像，通常由专业人士对图片进行点标注，即对于图片中的每一个物体，只标注其内部一个像素的类别。

目前，点监督目标检测领域的研究较少，亟需提供一种点监督的目标检测方法，以降低人工成本，提高物体检出概率，促进计算机视觉技术在医疗图像、智能安防等相关领域的应用。

发明内容

为了克服上述问题，本发明人进行了锐意研究，设计出一种基于点监督的目标检测方法，该方法将点监督引入弱监督目标检测方法PCL，对多示例检测分支和示例分类器精炼分支进行了改进，针对弱监督目标检测方法存在的过拟合问题，提出了基于点监督的多示例检测优化方法和基于优化分支反馈的随机点生成方法；针对弱监督目标检测方法存在的漏检测问题，提出了基于点监督的示例分类器精炼方法。该方法无需边框标注数据，降低了人工成本，提高了物体检出概率，对于自然场景图像、医学图像等领域的目标检测具有重要应用价值，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供了一种点监督的目标检测方法，所述方法包括训练部分和测试部分，

其中，所述训练部分为利用点标注数据集对神经网络进行训练，包括以下步骤：

步骤1，提取训练图像的特征图，获得候选区域的特征向量；

步骤2，通过检测网络获得每个候选区域对图像各类别的置信度；

步骤3，筛选候选区域，生成伪标签。

第二方面，提供了一种计算机可读存储介质，其中，所述介质存储有点监督的目标检测程序，所述程序被处理器执行时，使得处理器执行所述点监督的目标检测方法的步骤。

第三方面，提供了一种计算机设备，其中，所述设备包括存储器和处理器，所述存储器存储有点监督的目标检测程序，所述程序被处理器执行时，使得处理器执行所述点监督的目标检测方法的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的点监督的目标检测方法，无需边框标注数据，减少了标注的工作量，降低了人工成本；

(2)本发明提出的点监督的目标检测方法，利用点监督对候选区域进行筛选，促使模型学习区分同类物体的能力，提高了物体检出概率；

(3)本发明提出的点监督的目标检测方法，生成随机点，并利用随机点生成用于监督多示例检测分支的候选区域群，帮助模型挑出了局部最小值，缓解了过拟合问题；

(4)本发明提出的点监督的目标检测方法，能够有效解决弱监督目标检测中存在的过拟合和漏检测问题，对于自然场景图像、医学图像等领域的目标检测具有重要应用价值。

附图说明

图1示出根据本发明一种优选实施方式的点监督的目标检测方法的流程图；

图2示出根据本发明一种优选实施方式的使用随机点概率曲线；

图3示出根据本发明一种优选实施方式的将多示例检测分支输出与点标注匹配示意图；

图4示出根据本发明一种优选实施方式的候选区域包生成流程图；

图5示出根据本发明一种优选实施方式的VOC数据集结果对比图。

具体实施方式

下面通过附图和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。其中，尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

基于弱监督学习的目标检测方法，其目的在于在给定图像分类的监督情况下，自动学习得到一个物体检测器，能够显著减少人工智能任务中的人工标记工作量。弱监督目标检测不需要大量全部标记的目标框，而是需要图像级别的标定，这些在网络上容易获得，降低了图片标注成本，适用于医疗图像处理、超密集目标检测等领域。

本发明人研究发现，基于弱监督的目标检测方法，在训练优化过程中，多示例检测分支(Basic MIL network)过度依赖于标签信息，不去选择最有区别的部分，而是逐渐过度适合这些部分，存在过拟合问题；此外，多示例检测分支和示例分类器精炼分支(Instanceclassifier refinement)对数据集的利用效率低，对图片中每类物体只能生成一个伪标签，导致模型泛化性能低，存在漏检测的问题。

因此，本发明将点监督引入弱监督目标检测方法PCL(Proposal ClusterLearning)，对多示例检测分支和示例分类器精炼分支进行了改进，提供了一种点监督的目标检测方法，所述方法包括训练部分和测试部分，其中，所述训练部分为利用点标注数据集对神经网络进行训练，如图1所示，优选包括以下步骤：

步骤1，提取训练图像的特征图，获得候选区域的特征向量；

步骤3，筛选候选区域，生成伪标签。

以下进一步描述所述点监督的目标检测方法：

步骤1，提取训练图像的特征图，获得候选区域的特征向量。

在本发明中，优选利用卷积神经网络基网对训练图像提取特征图，所述基网可以选择现有技术中常用的网络，如VGG16、resnet50等。

优选地，通过感兴趣区域池化(Region of interest pooling，ROI pooling)获得每个候选区域的特征向量。

步骤2，通过检测网络获得每个候选区域对图像各类别的置信度。

在本发明中，将每个候选区域的特征向量通过检测网络，获得每个候选区域的置信度向量。

根据本发明一种优选的实施方式，所述检测网络包括一级多示例检测分支和多级的示例分类器精炼分支。

例如，所述检测网络可以为四级平行的网络分支，其中，第一级分支为多示例检测网络，之后三级为示例分类器精炼分支，将每个候选区域的特征向量输入四级平行的网络分支，从而得到每个候选区域的置信度向量。

步骤3，筛选候选区域，生成伪标签。

其中，步骤3包括以下子步骤：

步骤3-1，利用点监督筛选候选区域。

根据本发明一种优选的实施方式，所述筛选候选区域按照下述方法进行：

在多示例检测分支(Basic MIL network)，对于所有类别都只有一个物体的图片，不进行筛选；

对于只有一个类别有多个物体的图片，删除包含多个同类物体的候选区域；

对于多个类别有多个物体的图片，删除同时包含所有类别物体的候选区域；

即：在图片中所有类别物品都只有一个，或至多一类物体有多个的情况下，要求保留的候选区域中，每个类别的物体只能有一个；若图片中多个类别物品出现多次，只保留未同时包含所有类别的物品的候选区域。

本发明人研究发现，由于多示例检测分支对整个模型性能起决定性作用，在面对多个类别有多个物体的图片时，过强的筛选标准会导致多示例检测分支找到的最具判别性的特征被破坏，这时优选地采用删除同时包含所有类别物体的候选区域这一筛选标准，可以在缩小候选区域数量同时，避免最具判别性特征被破坏。

在示例分类器精炼分支(Instance classifier refinement)中，将包含了多个同类别点的候选区域删除。

即：在示例分类器精炼分支，要求保留的候选区域中，每个类别的物体只能有一个。

本发明人研究发现，在基于弱监督的目标检测方法中，存在漏检测问题，例如，常常有单个定位框包含多个同类物体的的情况，因此，本发明中优选采用点监督进行候选区域筛选，以训练网络学习区分同类物体的能力。

步骤3-2，将多示例检测分支和示例分类器精炼分支分别生成伪标签。

在本发明中，优选每一级分支为下一级分支生成伪标签，具体而言，是指多示例检测分支为第一级示例分类器精炼分支生成伪标签，第一级示例分类器精炼分支为第二级示例分类器精炼分支生成伪标签，第k级示例分类器精炼分支为第k+1级示例分类器精炼分支生成伪标签，以此类推。

根据本发明一种优选的实施方式，在多示例检测分支生成伪标签时，对于图片中的每个类别，选择置信度最大的候选区域作为候选区域群中心；

优选地，在剩余的候选区域中，将与候选区域群中心交并比大于0.5的候选区域标记为正例，

将与候选区域群中心交并比大于0.1、小于等于0.5的候选区域标记为反例，

正例、反例及候选区域群中心共同构成一个候选区域群。

根据本发明一种优选的实施方式，模型训练过程共进行18次迭代(epoch)，在每一级示例分类器精炼分支生成伪标签时，

若处于训练初期，即迭代次数小于11时，对于图片中的每个类别，选择置信度最大的候选区域作为候选区域群中心。

若处于训练后期，即迭代次数大于或等于11时，对于图片中的每个点监督，选择包含该点监督的置信度最高的候选区域作为候选区域群的中心。

优选地，在生成候选区域群的过程中，将所有与候选区域群中心交并比大于0.5的候选区域标记为正例；

将与候选区域群中心交并比大于0.1、小于等于0.5的候选区域标记为反例。

其中，图片中出现包含的所有候选区域群共同构成一个候选区域包。

步骤3-3，生成随机点。

在本发明中，利用示例分类器精炼分支的伪标签信息，即各候选区域群中心，结合多示例检测分支获得的候选区域的置信度，生成随机点。

根据本发明一种优选的实施方式，所述随机点按照下述步骤获得：

对图片中的某一类别物体，记多示例检测分支检测输出的定位框为B⁰，第k级示例分类器优化分支对相应物体检测输出的定位框为B^k，在区域((B⁰∪B^k)-B⁰)中生成一个服从均匀分布的随机点

优选地，如果该区域为空集，则不生成随机点，以该类别物体的点监督代替。

在进一步优选的实施方式中，所述B⁰对应的点监督按照下述步骤获得：

记B⁰的几何中心为P⁰，图片中与B⁰类别相同的点监督为

统计同时包含P⁰和

的候选区域的数量N_i，记k＝argmaxN_i，并认为P⁰和

属于同一个物体，则

为B⁰对应的点监督。

本发明人研究发现，基于优化分支反馈的随机点生成方法，可以有效表示示例分类器精炼分支相比于多示例检测分支的信息增益，用根据这一实施方式生成的随机点来生成的伪标签，对多示例检测分支进行监督，可以将示例分类器精炼后的检测结果反馈回多示例检测分支，从而进一步缓解多示例检测分支的过拟合问题。

步骤3-4，结合随机点和点监督生成作用于多示例检测分支的伪标签。

在本发明中，优选利用步骤3-3中生成的随机点以及点监督，生成作用于多示例检测分支的伪标签，优点是可以将示例分类器精炼后的检测结果反馈回多示例检测分支，从而进一步缓解多示例检测分支的过拟合问题。

根据本发明一种优选的实施方式，所述作用于多示例检测分支的伪标签的生成包括以下步骤：

步骤i，生成伪标签的候选区域群中心。

其中，对图片中的某一类别物体，记多示例检测分支检测输出的定位框为B⁰，B⁰的几何中心为P⁰，对应的点监督为P^c，生成的随机点为

根据本发明一种优选的实施方式，以随着训练迭代次数(epoch)变化的概率(即具体使用的实施方式不是事先确定的，而是训练时依概率随机决定的，这一概率的变化情况可见图2)，按照下述方法获得伪标签的候选区域群中心：

在同时包含P⁰和P^c的候选区域中，选择在多示例检测分支中置信度最高的候选区域作为候选区域群中心。

根据本发明另一种优选的实施方式，按照下述方法获得伪标签的候选区域群中心：

在同时包含P⁰和

的候选区域中，选择在多示例检测分支中置信度最高的候选区域作为候选区域群中心。

其中使用第二种实施方式的概率变化情况如图2所示，在epoch小于11时使用第二种实施方式的概率为0，只采用第一种实施方式生成候选区域群中心，在迭代次数(epoch)从11增长到18过程中，这一概率也逐渐增长到1。

本发明人研究发现，采用这一方式可以有效避免训练初期由示例分类器精炼分支输出不稳定带来的噪声干扰。

步骤ii，生成伪标签的候选区域群。

根据本发明一种优选的实施方式，在生成候选区域群的过程中，将所有与候选区域群中心交并比大于0.5的候选区域标记为正例，交并比大于0.1小于0.5的标记为反例。

在本发明中，所述训练部分还包括对检测网络的网络参数进行更新的步骤，

优选地，所述更新包括计算各分支的损失函数及梯度，对网络进行误差梯度反传，更新网络参数。

根据本发明一种优选的实施方式，对于第k级示例分类器精炼分支，记

为候选区域包中第n个候选区域群的得分，

为第n个候选区域群中区域的数量，

为上一级网络传给第k级优化分支的候选区域包，

为该级精炼分支对第r个候选区域预测的置信度，Pos^k为候选区域包中正例的集合，Neg^k为候选区域包中反例的集合，该级分支的损失函数如下式所示：

在进一步优选的实施方式中，对于多示例优化分支，其损失函数如下式所示：

其中，ω表示调节损失函数各部分权重的参数，一般取值为0.1；R表示候选区域的总量；

表示候选区域包中第n个候选区域群的得分；表示C表示图片中的类别总数；

表示多示例检测网络预测的图片中出现了类别c的概率；y＝[y₁,y₂,···,y_C]^T，为图片的类别向量，当且仅当图片中出现了类别为c的物品时y_c＝1，否则y_c＝0。

本发明所述的方法，在生成伪标签的过程中，利用点监督对候选区域进行筛选，生成随机点，并利用随机点生成用于监督多示例检测分支的候选区域群，帮助模型跳出了局部极小值。

根据本发明一种优选的实施方式，所述测试部分为利用训练收敛的点监督的目标检测模型，对未知图像进行检测，以验证模型的有效性。

本发明提供的目标检测方法，针对弱监督目标检测方法存在的过拟合问题，采用了基于点监督的多示例检测优化方法和基于精炼分支反馈的随机点生成方法，其中，基于点监督的多示例检测优化方法使得多示例检测网络在优化的过程中不只依赖于标签信息，从而缓解了过拟合问题；基于精炼分支反馈的随机点生成方法，可以将示例分类器精炼后的检测结果反馈回多示例检测分支，从而进一步缓解过拟合问题。

此外，针对弱监督目标检测方法存在的漏检测问题，分析得出漏检测的原因是方法数据集利用效率低，对图片中每类物体只能生成一个伪标签，导致模型泛化性能低，提出了基于点监督的示例分类器精炼方法来解决；针对漏检测问题中的单个定位框包含多个同类物体的问题，提出了基于点监督的候选区域筛选方法，促使方法学习区分同类物体的能力。

本发明还提供了一种计算机可读存储介质，存储有点监督的目标检测程序，所述程序被处理器执行时，使得处理器执行所述点监督的目标检测方法的步骤。

本发明中所述的点监督的目标检测方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有点监督的目标检测程序，所述程序被处理器执行时，使得处理器执行所述点监督的目标检测方法的步骤。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

1、数据集：

本实施例在PascalVOC2007数据集上进行。

PascalVOC2007是图像识别与检测领域的公开数据集，该数据集共有20个类别，6663张图片，训练验证集中有5011张图片，测试集中有4952张图片。

为方便训练，训练前先由标注者对训练集中的图片进行点标注。

2、性能评测准则：

采用AP(Average Precision)指标来进行测评。

对于每张测试图片，目标检测算法的输出可以用N×6的矩阵表示，其中行的数量N表示检测输出的定位框的数量，每一行的前四个输出分别表示该定位框的各个位置信息，包括：横坐标的最小值，纵坐标的最小值，横坐标的最大值以及纵坐标的最大值。而剩下的两个输出分别表示该定位框包围的物体的类别以及该定位框属于这个类别的置信度。在计算准确率均值之前，首先会将算法输出的N个定位框定位框与物体定位框的真值的交并比分成正确检出结果(TruePositive,TP)，错误检出结果(FalsePositive，FP)以及漏检结果(FalseNegative，FN)。交并比的计算方式如下：

其中，B_det表示算法输出的定位框，B_gt表示物体的标注框，即真值。每个检出的定位框B_det都会被匹配到与其交并比最大的标注框B_gt。对于每个标注框B_gt，若与其匹配的定位框B_det同时满足以下两个条件，则被判定为正确检出结果：(1)B_det与B_gt的交并比大于阈值t(在PascalVOC数据集中为0.5)；(2)B_det在B_gt的类别上的分类置信度为所有与B_gt相匹配的定位框中的最大值。未被标记为正确检出结果的定位框则会被判定为错误检测结果。如果一个标注框没有与之匹配的定位框，则该标注框会被判定为漏检结果。完成对检测结果的分类之后，可以计算算法的准确率(precisionrate)和查全率(recallrate)：

为了综合考虑准确率和查全率，引入置信度阈值μ对检测结果进行筛选：只输出置信度高于μ的定位框作为检测结果。通过调节μ可以调节准确率和查全率，μ越大，算法输出的准确率会越高，查全率就会越低。通过调节μ的取值可以获得准确率和查全率的关系曲线(precision-recall curve)，通过计算该曲线下的面积，可以得到算法的准确率均值。在测评操作中，通常使用离散化的方法来求解准确率均值，在PascalVOC数据集中准确率均值通过如下方式计算：

其中r为查全率，p_interp为大于该查全率下所有准确率的最大值。

3、任务描述

点监督的目标检测，利用点标注的数据集完成网络学习之后，对测试集中图像进行目标检测，并用AP进行性能评测。

4、结果与分析

本发明使用VGG16作为基网，在Pascal VOC 2007上进行学习与评测，不同方法的性能比对结果如表1所示：

表1

其中，Mean为20个类别的AP值的平均值。

WSDDN、OICR、C-MIDN为当前弱监督目标检测的最新技术方法，TOCDCS为当前点监督目标检测的最新技术方法：

其中，WSDDN所述方法具体如文献“Bilen,Hakan,and A.Vedaldi.:WeaklySupervised Deep Detection Networks.In:IEEE CVPR(2015)”所述；

OICR所述方法具体如文献“Tang,Peng,et al.:Multiple Instance DetectionNetwork with Online Instance Classifier Refinement.In:IEEE CVPR(2017)”所述；

C-MIDN所述方法具体如文献“Gao,Yan,et al.:C-MIDN:Coupled MultipleInstance Detection Network With Segmentation Guidance for Weakly SupervisedObject Detection.In:IEEEICCV(2019)”所述；

TOCDCS所述方法具体如文献“Papadopoulos,Dim P,et al.:Training objectclass detectors with click supervision.In:IEEE CVPR(2017)”所述；

Baseline是PCL，所述方法具体如文献“Tang,Peng,et al.:PCL:ProposalCluster Learning for Weakly Supervised Object Detection.In:IEEE TPAMI(2018)”中提出。

由表1可知，本发明所述的点监督的目标检测方法，在Baseline的基础上提高了7.3％(57.4％相比50.1％)，表明了本发明所述方法的有效性。

此外，本发明相比于目前性能最高的点监督目标检测方法(TOCDCS)性能提高了11.5％(57.4％相比45.9％)。

进一步地，将多示例检测分支输出与点标注匹配的示意图如图3所示；

候选区域包生成流程图如图4所示，其中X₁、X₂和X₃各表示一候选区域包；

图5示出了本发明所述方法与PCL方法在VOC数据集的结果比对图，结果显示：使用了本发明所述方法之后，弱监督目标检测方法PCL具有的过拟合问题和漏检测问题被有效地缓解了，一方面，检测结果不是过度拟合到物体的部分特征，而是倾向于包围物体的整体；另一方面，在多物体的场景下，物体的检出数量也有提升。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种点监督的目标检测方法，其特征在于，所述方法包括训练部分和测试部分，

步骤1，提取训练图像的特征图，获得候选区域的特征向量；

步骤3，筛选候选区域，生成伪标签；

步骤3包括以下子步骤：

步骤3-1，利用点监督筛选候选区域；

对于所有类别都只有一个物体的图片，不进行筛选；

步骤3-2，将多示例检测分支和示例分类器精炼分支分别生成伪标签；

步骤3-3，生成随机点；

所述B⁰对应的点监督按照下述步骤获得：

记B⁰的几何中心为P⁰，图片中与B⁰类别相同的点监督为

统计同时包含P⁰和

的候选区域的数量N_i，记t＝arg max N_i，并认为P⁰和

属于同一个物体，则

为B⁰对应的点监督；

步骤3-4，结合随机点和点监督生成作用于多示例检测分支的伪标签；

步骤3-4包括以下步骤：

步骤i，生成伪标签的候选区域群中心；

在同时包含P⁰和P^c的候选区域中，选择在多示例检测分支中置信度最高的候选区域作为候选区域群中心；或者

在同时包含P⁰和

的候选区域中，选择在多示例检测分支中置信度最高的候选区域作为候选区域群中心；

步骤ii，生成伪标签的候选区域群。

2.根据权利要求1所述的点监督的目标检测方法，其特征在于，步骤1中，利用卷积神经网络基网对训练图像提取特征图。

3.根据权利要求2所述的点监督的目标检测方法，其特征在于，通过感兴趣区域池化获得每个候选区域的特征向量。

4.根据权利要求1所述的点监督的目标检测方法，其特征在于，步骤2中，所述检测网络包括一级多示例检测分支和多级的示例分类器精炼分支。

5.根据权利要求1所述的点监督的目标检测方法，其特征在于，步骤3-2中，在多示例检测分支生成伪标签时，对于图片中的每个类别，选择置信度最大的候选区域作为候选区域群中心。

6.根据权利要求5所述的点监督的目标检测方法，其特征在于，在剩余的候选区域中，将与候选区域群中心交并比大于0.5的候选区域标记为正例，

7.根据权利要求1所述的点监督的目标检测方法，其特征在于，所述训练部分还包括对检测网络的网络参数进行更新的步骤。

8.根据权利要求7所述的点监督的目标检测方法，其特征在于，所述更新包括计算各分支的损失函数及梯度，对网络进行误差梯度反传，更新网络参数。

9.一种计算机可读存储介质，其特征在于，存储有点监督的目标检测程序，所述程序被处理器执行时，使得处理器执行权利要求1至8之一所述点监督的目标检测方法的步骤。

10.一种计算机设备，其特征在于，所述设备包括存储器和处理器，所述存储器存储有点监督的目标检测程序，所述程序被处理器执行时，使得处理器执行权利要求1至8之一所述点监督的目标检测方法的步骤。