CN114565752A

CN114565752A - 一种基于类不可知前景挖掘的图像弱监督目标检测方法

Info

Publication number: CN114565752A
Application number: CN202210133345.9A
Authority: CN
Inventors: 李浥东; 韩瑜珊; 曹原周汉; 王涛; 金�一; 徐群群
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2022-05-31
Anticipated expiration: 2042-02-10
Also published as: CN114565752B

Abstract

本发明提供了一种基于类不可知前景挖掘的图像弱监督目标检测方法。该方法包括：基于待进行目标检测的图像通过CNN生成前景注意力图；基于前景注意力图计算每个候选框的前景相对置信度FRC，根据各个候选框的FRC筛选出前景候选框；基于前景候选框构建实例空间图，基于数据集的标签构建标签语义图，对实例空间图和标签语义图进行图匹配，根据图匹配结果为每个前景候选框进行分类；根据各个前景候选框的分类结果生成伪监督框，将伪监督框与伪监督框的空间近邻框进行合并得到伪实例标签，将该伪实例标签作为待进行目标检测的图像的目标检测结果。本发明把定位和分类任务分离，从而实现的定位与分类性能的双向提升，有效地提升图像的弱监督目标检测性能。

Description

一种基于类不可知前景挖掘的图像弱监督目标检测方法

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于类不可知前景挖掘的图像弱监督目标检测方法。

背景技术

目标检测是计算机视觉领域一个重要的研究方向，在现实生活中有广泛的应用。随着深度学习的发展，目标检测技术也取得了很大的研究进展。然而，全监督模式下的目标检测需要精确的标注框，标注成本很高。相反，图像的类别信息更容易获得，因此大家开始研究弱监督目标检测，在只给定图像类别信息的条件下完成目标检测任务。

2015年提出的WSDDN(Weakly Supervised Deep Detection Networks，弱监督检测网络)第一次把弱监督目标检测设计成端到端的结构，2017年提出的OICR(MultipleInstance Detection Network with Online Instance Classifier Refinement，基于在线实例分类器细化的多实例检测网络)在WSDDN的基础上添加了在线细化的模块，提升了模型的检测性能，也成为弱监督目标检测领域的主要基线模型。弱监督目标检测的深度学习方法主要面临两个挑战：一是检测到的框基本只覆盖物体的局部显著区域，这是因为图像的类别标签只能用于分类损失，卷积神经网络(Convolutional Neural Network,CNN)的分类只需要依赖图像最具代表性的区域，取分类分数高的候选框往往是那些局部的小框；二是图像中同一类别有多个实例时，不能检测到所有的实例，这是因为图像中不同类别的数量不等，无法确定候选框数量。

为了解决以上问题，近几年的工作主要分为以下几个方向。

一、优化输入网络前的候选框。如针对类别筛选候选框；用类别激活图(ClassActivation Mapping，CAM)辅助生成候选框等。

二、优化输出后的预测框。移除最高分的显著框，合并剩下的近邻框；采用投票机制计算每个预测框对图像的贡献度，生成热图(Heat Map)，根据热图生成更大的框。

三、利用图像本身包含的信息，挖掘高质量的候选框。如采用多任务学习(Multi-task Learning)的方式，与分割任务结合找更完整紧致的预测框；利用图(Graph)的思想，寻找与最显著框特征相似的候选框，从而挖掘同类的更多的实例。

四、利用不同深度的特征对图像进行更全面的表示。CNN输出的特征中，低维特征更多代表外观信息，高维特征代表语义信息，把两者融合可以更好地表示整个实例，从而缓解网络更关注局部特征的问题。五、寻找更全面的视觉模式。同一类的物体间也有形态、尺寸、外观等差异，若想更好地表示每一类，可以使用如字典的数据结构保存一种或多种公共特征，使类内差异最小，类间差异最大。

目前，现有技术中的弱监督目标检测模型存在的问题主要在于：

首先，用分类指导定位任务，分类与定位任务本身关注的特征有差异，用分类指导定位任务会导致定位的不准确，将分类与定位解耦可以分别提升两个子任务的性能。

其次，大部分的工作没有考虑候选框与标签之间的关系，少数工作只考虑了候选框内与标签内的关系。然而候选框与标签内的关系也隐藏了重要信息，挖掘这种信息的一个有效工具就是图匹配，基于候选框与标签分别进行构建图，对两种图进行图匹配，可以有效挖掘候选框与标签间的信息，从而完成对定位物体的分类任务。

发明内容

针对现有技术存在的上述问题，本发明实施例提出了一种基于类不可知前景挖掘的图像弱监督目标检测方法，以实现有效地提升图像的弱监督目标检测性能。

为了实现上述目的，本发明采取了如下技术方案。

一种基于类不可知前景挖掘的图像弱监督目标检测方法，包括：

基于待进行目标检测的图像通过卷积神经网络CNN生成前景注意力图；

基于所述前景注意力图计算每个候选框的前景相对置信度FRC，根据各个候选框的FRC筛选出前景候选框；

基于所述前景候选框构建实例空间图，基于数据集的标签构建标签语义图，对所述实例空间图和所述标签语义图进行图匹配，根据图匹配结果为每个前景候选框进行分类；

根据各个前景候选框的分类结果生成伪监督框，将伪监督框与伪监督框的空间近邻框进行合并得到伪实例标签，将该伪实例标签作为所述待进行目标检测的图像的目标检测结果。

优选地，所述的基于待进行目标检测的图像通过卷积神经网络CNN生成前景注意力图，包括：

给定一幅待进行目标检测的图像I∈R^H×W，其中H和W分别代表图像的高和宽，和候选框集P∈R^N×4，其中N代表候选框的数量，把图像输入卷积神经网络CNN，得到图像的特征F∈R^h×w×c，其中h,w,c分别代表特征图的高、宽和通道数；

将图像特征F沿着CNN的通道方向相加，得到特征注意力图f^mask∈R^h×w，将特征注意力图f^mask还原到图像的尺寸，得到图像注意力图mask∈R^H×W，再经过标准化处理把图像注意力图mask的值转换到(0,1)，得到正则化后注意力图mask_normed∈R^H×W，其中标准化过程如公式(1)所示：

mask是一个二维的矩阵，其中min()是取最小值的函数，max是取最大值的函数；

计算正则化后注意力图mask_normed的像素均值，将正则化后注意力图mask_normed中像素值大于像素均值的区域确定为前景注意力图mask_fore，小于像素均值的区域确定为背景部分。

优选地，所述的基于所述前景注意力图计算每个候选框的前景相对置信度FRC，根据各个候选框的FRC筛选出前景候选框，包括：

给定一个候选框p＝x₀，y₀，x₁，y₁，该候选框区域内，先计算前景注意力图的像素值之和，再除以候选框的面积，得到该候选框p的前景相对置信度FRC；

选定FRC在均值之上的设定数量个候选框，作为前景候选框P_fore∈R^M×4，其中M是前景候选框的数量。

优选地，所述的基于所述前景候选框构建实例空间图，基于数据集的标签构建标签语义图，对所述实例空间图和所述标签语义图进行图匹配，根据图匹配结果为每个前景候选框进行分类，包括：

把前景候选框的特征f作为图的节点v^o，前景候选框之间的特征拼接作为边的属性，如公式(3)所示，构建实例空间图G^o；

对数据集的语义进行词嵌入，得到每个类别的语义特征向量w，将语义特征向量作为标签语义图的节点v^l，相邻节点的特征拼接作为边的属性，如公式(4)所示，构建标签语义图G^l；

f，w分别代表候选框和类别标签的特征向量，[x,y]指拼接函数,将向量x和y拼接，v代表节点，e代表边；

把实例空间图G^o的每个实例与标签语义图G^l的每个类别连接，构成实例-标签匹配图G^A，将实例-标签匹配图中两个节点的拼接作为边的属性；

将所述实例-标签匹配图输入到两层图卷积网络，对实例-标签匹配图的边属性做预测，边的预测值代表该实例属于该类别的概率，选取实例空间图中每个实例预测分数最大的边，则该边对应的类别节点为该实例的类别，该实例与所有类别节点的边的预测分数作为该实例的分类预测。

优选地，所述的根据各个前景候选框的分类结果生成伪监督框，将伪监督框与伪监督框的空间近邻框进行合并得到伪实例标签，将该伪实例标签作为所述待进行目标检测的图像的目标检测结果，包括：

根据各个前景候选框的分类结果生成伪监督框，将伪监督框与伪监督框的空间近邻框进行合并得到伪实例标签，将该伪实例标签作为上述待进行目标检测的图像的目标检测结果；

选择基础网络中分类分数最高的候选框P_top-score作为伪监督信息，为每个前景候选框进行分类后，选择每个类别下分数大于该类别均值的前景候选框P_fore也作为伪监督信息，则伪监督框P_pseudo＝{P_top-score，P_fore}；

再选择伪监督框P_pseudo的空间近邻框P_{pseudo-neighbor}，把空间近邻框P_{pseudo-neighbo}与伪监督框P_pseudo合并，将合并结果作为伪实例标签，将该伪实例标签作为所述待进行目标检测的图像的目标检测结果。

由上述本发明的实施例提供的技术方案可以看出，本发明方法通过类无关的定位完成前景候选框的筛选，再通过构建实例图和标签图，对两者进行图匹配完成实例的分类，该方法把定位和分类任务分离，从而实现的定位与分类性能的双向提升，从而有效地提升图像的弱监督目标检测性能。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于类不可知的前景候选框生成和图匹配的前景候选框分类的图像弱监督目标检测方法的处理流程图。

图2为本发明实施例提供的一种类不可知的前景候选框生成处理流程图。

图3为本发明实施提供的前景候选框分类的匹配图构造过程。

图4为本发明实施提供的伪实例标签生成处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出了一种基于类无关定位与图匹配的弱监督目标检测方法，该方法通过类无关的定位完成前景候选框的筛选，再通过构建实例图和标签图，对实例图和标签图进行图匹配完成实例的分类。该方法把定位和分类任务分离，从而实现定位与分类性能的双向提升。本发明在基线模型的基础上，将弱监督目标检测任务分为三个步骤，一是类不可知不可知的前景候选框生成，二是基于图匹配的前景候选框分类，三是伪实例标签生成。

本发明实施例提供的一种基于类不可知的前景候选框生成和图匹配的前景候选框分类的图像弱监督目标检测方法的处理流程图如图1所示，包括如下的处理步骤：

步骤S10、基于待进行目标检测的图像通过CNN(Convolutional NeuralNetworks,卷积神经网络)生成前景注意力图。

给定一幅待进行目标检测的图像I∈R^H×W，其中H和W分别代表图像的高和宽，和候选框集P∈R^N×4，其中N代表候选框的数量，把图像输入CNN网络，得到图像的特征F∈R^h×w×c，其中h,w,c分别代表特征图的高、宽和通道数。

CNN具有关注物体的归纳偏置，即一个随机初始化的CNN在物体上的注意力更高。利用CNN的这个归纳偏置，模型可以发现类不可知的前景区域。本发明实施例提供的一种类不可知的前景候选框生成处理流程图如图2所示，包括如下的处理过程：

将图像特征F沿着通道方向相加，可以得到特征的注意力图f^mask∈R^h×w，该注意力图反映了CNN关注的区域，特征注意力图值大的位置是CNN更加关注的部分，这部分大概率是图像中的前景部分。把特征注意力图还原到图像的尺寸得到图像上的注意力图mask∈P^H ^×W，再经过标准化可以把图像注意力图的值转换到(0,1)得到正则化后注意力图mask_normed∈R^H×W，其中标准化过程如公式(1)所示：

这里的mask是一个二维的矩阵，其中min()是取最小值的函数，max是取最大值的函数。

得到了正则化后注意力图mask_normed后，计算mask_normed的像素均值，并把该注意力图小于均值的部分置零，大于mask_normed图像素均值的区域大致为前景注意力图mask_fore，小于mask_normed图像素均值的区域为背景部分。

步骤S20、基于前景注意力图计算每个候选框的前景相对置信度(ForegroundRelative Confidence,FRC)，根据各个候选框的FRC筛选出前景候选框。

得到前景注意力图后，根据这个前景注意力图mask_fore从候选框集合中筛选前景候选框。

在这里本发明引入一个新的定义：FRC,它表征了一个候选框是否是前景的概率。给定一个候选框p＝x₀，y₀，x₁，y₁，该候选框区域内，先计算前景注意力图的像素值之和，再除以候选框的面积，得到该候选框p的FRC。

具体计算方式如公式(2)所示：

FRC的值是0到1之间，根据前景注意力图计算得到，可以反映候选框包含前景还是背景，以及包含前景的比例。下面就FRC不同范围的值进行分析。如果一个候选框的FRC值过小，说明该候选框包含的基本是背景，因为背景的mask_fore值为0，或者虽然包含了物体，但是候选框过于大，仍然包含了大量的背景区域。如果一个候选框的FRC值过大，说明它很紧致地包含了物体的一部分，而且框的面积比较小，因为生成的前景二值图不可能非常精准，所以FRC大的候选框只包含了物体局部区域。而FRC处于均值水平时，可视化结果表明候选框包含了物体的大部分区域，选定FRC在均值之上的设定数量(比如100个)个候选框，作为前景候选框P_fore∈R^M×4，其中M是前景候选框的数量。这里是把候选框的FRC值按照从小到大的顺序进行排序后，选取均值之上设定数量的候选框。

到目前为止，就生成了类不可知的前景候选框，这些前景候选框基本覆盖了图像的前景部分，所以对弱监督目标检测任务来说是一个有效的监督信息。

步骤S30、基于前景候选框构建实例空间图(Instance Spatial Graph)，基于数据集的标签构建标签语义图(Label Semantic Graph)，对实例空间图和标签语义图进行图匹配，根据图匹配结果为每个前景候选框进行分类。

得到前景候选框，需要对这些候选框包围的实例进行分类。直接使用候选框的分类分数为前景候选框分类会丢失包含完整物体的框，因为分类分数高的候选框一般是更局部的框。为了更精确地为前景候选框分类，本发明基于前景候选框构建实例空间图，基于数据集的标签构建标签语义图，对实例空间图和标签语义图进行图匹配，从而挖掘每个前景候选框的类别。

本发明实施例提供的一种图匹配分类模块构建实例-标签匹配图的工作流程如图3所示，包括如下的处理过程：

把前景候选框的特征f作为图的节点v^o，前景候选框之间的特征拼接作为边的属性，如公式(3)所示，构建实例空间图G^o。对数据集的语义进行词嵌入，得到每个类别的语义特征向量w，语义特征向量作为标签语义图的节点v^l，相邻节点的特征拼接作为边的属性，如公式(4)所示，构建标签语义图G^l。

为了进一步简历实例与标签的匹配关系，本发明把实例空间图G^o的每个实例与标签语义图G^l的每个类别连接构成实例-标签匹配图(Instance-Label Assignment Graph)G^A，在实例-标签匹配图中两个节点的拼接作为边的属性。通过这种方式，把复杂的图匹配问题转化为选择匹配图合适边的问题。

公式中f，w分别代表候选框和类别标签的特征向量，[x,y]指拼接函数,将向量x和y拼接，v代表节点，e代表边。将上述实例-标签匹配图输入到两层图卷积网络，对实例-标签匹配图的边属性做预测，边的预测值代表该实例属于该类别的概率。在图卷积后，使用多标签分类损失引导图卷积过程。对实例-标签匹配图的边做预测后，选择每个类别的最高预测分数，构成图匹配过程预测的图像级预测分数，将图像级预测分数与真实类别标签做交叉熵损失计算。交叉熵损失是一种常见的分类损失，用于分类任务。

选取实例空间图中每个实例预测分数最大的边，则该边对应的类别节点为该实例的类别，该实例与所有类别节点的边的预测分数作为该实例的分类预测。到目前为止，完成了对前景候选框的分类任务。

步骤S40、根据各个前景候选框的分类结果生成伪监督框，将伪监督框与伪监督框的空间近邻框进行合并得到伪实例标签，将该伪实例标签作为上述待进行目标检测的图像的目标检测结果。

为目标检测模型生成伪实例标签。

图4为本发明实施提供的伪实例标签生成处理流程图，包括如下的处理过程：基础网络直接选择分类分数最高的候选框P_top-score作为伪监督信息。上述基础网络由CNN层、ROIpooling和两个全连接层，以及并行的两个全连接层构成，并行的两个全连接层的输出分别沿两个维度做归一化，再相乘作为图片的分类预测；分类的候选框是由selectivesearch生成的，即滑动候选框生成的大小尺寸不一的框。

为每个前景候选框进行分类后，选择每个类别下分数大于该类别均值的前景候选框P_fore也作为伪监督信息，则伪监督框P_pseudo＝{P_top-score，P_fore}。再选择伪监督框的空间近邻框P_{pseudo-neighbor}，对于每一个伪监督框，从所有的候选框中选择与其的交并集大于0.5的候选框，作为近邻框。

把空间近邻框P_{pseudo-neighbor}与伪监督框P_pseudo合并，将合并结果作为伪实例标签，将该伪实例标签作为上述待进行目标检测的图像的目标检测结果。

因为本发明生成的前景候选框可以覆盖多个实例的大部分区域，因此可以有效缓解弱监督目标检测的局部定位和丢失多实例问题，从而提升弱监督目标检测的性能。

综上所述，本发明实施例与现有的弱监督目标检测模型相比，本发明首次尝试将弱监督目标检测分解成类不可知的定位任务与基于图匹配的前景分类任务。类不可知的定位由于可以找到尽量多和完整的实例，因此可以有效缓解弱监督目标检测关注局部显著区域以及丢失多实例的问题，图匹配由于其强大的挖掘隐藏信息能力，可以提升分类能力。最后本方法可以有效提升图像的弱监督目标检测性能。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于类不可知前景挖掘的图像弱监督目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的基于待进行目标检测的图像通过卷积神经网络CNN生成前景注意力图，包括：

给定一幅待进行目标检测的图像I∈R^H×W，其中H和W分别代表图像的高和宽，和候选框集P∈R^N×4，其中N代表候选框的数量，把图像输入卷积神经网络CNN，得到图像的特征F∈R^h ^×w×c，其中h,w,c分别代表特征图的高、宽和通道数；

3.根据权利要求2所述的方法，其特征在于，所述的基于所述前景注意力图计算每个候选框的前景相对置信度FRC，根据各个候选框的FRC筛选出前景候选框，包括：

4.根据权利要求3所述的方法，其特征在于，所述的基于所述前景候选框构建实例空间图，基于数据集的标签构建标签语义图，对所述实例空间图和所述标签语义图进行图匹配，根据图匹配结果为每个前景候选框进行分类，包括：

5.根据权利要求4所述的方法，其特征在于，所述的根据各个前景候选框的分类结果生成伪监督框，将伪监督框与伪监督框的空间近邻框进行合并得到伪实例标签，将该伪实例标签作为所述待进行目标检测的图像的目标检测结果，包括：

再选择伪监督框P_pseudo的空间近邻框P_{pseudo-neighbor}，把空间近邻框P_{pseudo-neighbor}与伪监督框P_pseudo合并，将合并结果作为伪实例标签，将该伪实例标签作为所述待进行目标检测的图像的目标检测结果。