CN113128487A

CN113128487A - 一种基于双梯度的弱监督目标定位方法及装置

Info

Publication number: CN113128487A
Application number: CN202110367847.3A
Authority: CN
Inventors: 薛松; 罗情平; 侯飞; 师帅; 王曙; 徐磊; 孟彤; 李乾
Original assignee: CRRC Qingdao Sifang Rolling Stock Research Institute Co Ltd
Current assignee: CRRC Qingdao Sifang Rolling Stock Research Institute Co Ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-07-16

Abstract

本发明提供了一种基于双梯度的弱监督目标定位方法，包括：将图像数据集作为训练集，训练原始深度学习分类模型，得到深度学习模型；图像数据集包括多个图像数据和标注向量，深度学习模型输出卷积特征图、多个类别和每个类别的概率向量；根据类别、概率向量和每个类别的标注向量，计算概率向量与标注向量的交叉熵损失；计算交叉熵损失关于卷积特征图的第一梯度；根据第一梯度对卷积特征图进行信息增强，得到类别信息增强图；计算概率向量关于卷积特征图的第二梯度；根据类别信息增强图和第二梯度，计算定位图；根据定位图和预设的阈值，确定蒙版；根据预设的函数，确定蒙版中的多个连通域；连通域具有边界线；根据边界线，确定目标定位边框。

Description

一种基于双梯度的弱监督目标定位方法及装置

技术领域

本发明涉及深度学习和计算机视觉技术领域，尤其涉及一种基于双梯度的弱监督目标定位方法及装置。

背景技术

视觉是人类获取信息的重要来源，研究表明，人类通过视觉渠道获取80％以上的外界信息。图像是多媒体中的重要信息形式，形象、生动直观地承载着大量的信息，因此研究如何用计算机系统解释图像，实现类似人类视觉系统理解外部世界具有重要意义。其中，目标检测是计算机视觉中的一个基本且重要的问题，目标检测的目的是，给定一张图片，通过计算机系统准确找到目标的位置以及判别目标的类别。目标检测在很多领域都有应用需求，被广为研究的有人脸检测，行人检测，车辆检测等检测任务。

近年来，深度学习技术迅猛发展，在目标检测领域得到越来越多的关注，克服了很多基于特征的传统目标检测方法。目前基于深度学习的全监督目标检测算法有两大类：基于回归的一级目标(one-stage)检测算法，以及基于候选框的二级目标(two-stage)检测算法。基于候选框的two-stage检测算法分为提取候选框模块和分类模块，具有代表性的算法有区域卷积神经网络(R-CNN，Region Convolutional Neural Network),快速区域卷积神经网络(Faster-RCNN)等方法。基于回归的one-stage检测算法直接通过回归来学习目标的位置及类别，代表的算法有YOLO、(Single Shot MultiBox Detector，SSD)等算法，由于相对于基于候选框的目标检测算法而言基于回归的目标检测算法只有一步，所以大大加快了目标检测的速度。然而上述中的全监督目标检测需要大量且昂贵的边界框标注信息。有标注的数据虽然提升了基于深度学习的目标检测算法的性能，但是也耗费了大量的时间成本和人力成本。现实世界中有巨量的未标注过的数据，无法训练全监督目标检测算法。

弱监督定位算法不需要昂贵的边界框标注信息，只需要图像级别的类别标签，即可学习到图像中目标的位置信息。因此如何实现高精度的弱监督定位是有很大的研究和应用价值。目前弱监督目标定位研究通过训练一个深度学习分类模型，然后通过最后分类器的特殊类别权值对最后一层卷积特征图进行加权来获取定位图。然而由于分类模型更倾向于识别图像中物体的局部区域，导致无法定位成功。针对这一问题目前已有科研团队进行相应的研究，例如Zhang X,Wei Y,Feng J,et al.Adversarial Complementary Learningfor Weakly Supervised Object Localization[J].2018提出了一种基于擦除的弱监督定位方法，该方法利用两个全连接分类器对全卷积网络提取的特征进行分类，其中分类器2所输入的特征已经擦除掉分类器1发现的显著性区域。Zhang X,Wei Y,Kang G,et al.Self-produced Guidance for Weakly-supervised Object Localization[J].2018提出了通过将显著性区域作为种子，再通过中间层特征作为弱监督标签，依靠种子来学习到精确的目标位置。Singh K K,Lee Y J.Hide-and-seek:Forcing a network to be meticulous forweakly-supervised object and action localization[C]//2017 IEEE internationalconference on computer vision(ICCV).IEEE,2017:3544-3553提出一种基于隐藏据局部图像的数据增强方式来实现弱监督定位，但是仍然基于缺乏高级引导。授权公告号为CN108764292A的发明专利，引入带参可学习池化层来学习目标的特征表达。

上述现有技术的缺点为：

1，忽略了损失函数的梯度对卷积层特征的类别信息增强能力；

2，忽略了类别的梯度对卷积层特征的类别选择能力；

3，忽略了除最后一层卷积层外其他卷积层特征的目标定位能力，限制了目标位置信息搜索范围；

4，额外的网络层和数据增强操作需要更多的计算资源以及增加了定位时间；

5，定位精度低，时间长。

发明内容

本发明实施例的目的是提供一种基于双梯度的弱监督目标定位方法及装置，以解决现有技术中存在的问题。

为解决现有技术中所存在的问题，第一方面，本发明提供了一种基于双梯度的弱监督目标定位方法，所述方法包括：

将图像数据集作为训练集，训练原始深度学习分类模型，得到深度学习模型；所述图像数据集包括多个图像数据和每个图像数据的标注向量，所述深度学习模型输出卷积特征图、多个类别和每个类别的概率向量；

根据所述类别、概率向量和每个类别的标注向量，计算概率向量与标注向量的交叉熵损失；

计算所述交叉熵损失关于所述卷积特征图的第一梯度；

根据第一梯度对所述卷积特征图进行信息增强，得到类别信息增强图；

计算概率向量关于卷积特征图的第二梯度；

根据所述类别信息增强图和所述第二梯度，计算定位图；

根据所述定位图和预设的阈值，确定蒙版；

根据预设的函数，确定蒙版中的多个连通域；所述连通域具有边界线；

根据所述边界线，确定目标定位边框。

在一种可能的实现方式中，所述根据所述类别、概率向量和每个类别的标注向量，计算概率向量与标注向量的交叉熵损失具体包括：

根据公式

计算交叉熵损失函数；其中，L(p，y_c)表示概率向量与标注向量的交叉熵损失函数，d为类别总数，p为概率向量，y_c为第c类别的标注向量，

表示标注向量y_c的第k个元素，p_k表示概率向量p的第k个元素。

在一种可能的实现方式中，所述计算所述交叉熵损失关于所述卷积特征图的第一梯度具体包括：

根据公式

计算交叉熵损失关于所述卷积特征图的第一梯度；其中，G1为第一梯度，α为增强系数，L(p，α*y_c)为概率向量p与标注向量y_c乘以增强系数α的交叉熵损失函数，S为卷积特征图。

在一种可能的实现方式中，所述根据第一梯度对所述卷积特征图进行信息增强，得到类别信息增强图具体包括：

根据公式E＝l₂(S)-l₂(G1)确定类别增强信息图；

其中，E为类别增强信息图，l₂为l2归一化函数，l₂(S)为对卷积特征图S进行归一化，l₂(G1)为对第一梯度进行归一化。

在一种可能的实现方式中，所述计算概率向量关于卷积特征图的第二梯度具体包括：

根据公式

计算第二梯度；其中，G2为第二梯度，p_c为第c类别的概率向量，S为卷积特征图。

在一种可能的实现方式中，所述根据所述类别信息增强图和所述第二梯度，计算定位图具体包括：

根据A＝∑E·G2计算定位图；其中，A为定位图，E为类别增强信息图，G2为第二梯度。

在一种可能的实现方式中，所述根据所述定位图和预设的阈值，确定蒙版具体包括：

根据mask＝abs(sign(A-th))确定蒙版；其中，A为定位图，th为预设阈值，mask为蒙版。

第二方面，本发明提供了一种基于双梯度的弱监督目标定位装置，所述装置包括：

训练模块，所述训练模块用于将图像数据集作为训练集，训练原始深度学习分类模型，得到深度学习模型；所述图像数据集包括多个图像数据和每个图像数据的标注向量，所述深度学习模型输出卷积特征图、多个类别和每个类别的概率向量；

计算模块，所述计算模块用于根据所述类别、概率向量和每个类别的标注向量，计算概率向量与标注向量的交叉熵损失；

所述计算模块还用于，计算所述交叉熵损失关于所述卷积特征图的第一梯度；

信息增强模块，所述信息增强模块用于根据第一梯度对所述卷积特征图进行信息增强，得到类别信息增强图；

所述计算模块还用于，计算概率向量关于卷积特征图的第二梯度；

所述计算模块还用于，根据所述类别信息增强图和所述第二梯度，计算定位图；

确定模块，所述确定模块用于根据所述定位图和预设的阈值，确定蒙版；

所述确定模块还用于，根据预设的函数，确定蒙版中的多个连通域；所述连通域具有边界线；

所述确定模块还用于，根据所述边界线，确定目标定位边框。

在一种可能的实现方式中，所述计算模块具体用于：

根据公式

在一种可能的实现方式中，所述计算模块具体用于：

根据公式

通过应用本发明实施例提供的基于双梯度的弱监督目标定位方法，通过引入两种梯度挖掘了任一卷积层特征图的定位能力，扩大了目标位置信息搜索的范围；通过梯度对卷积特征图的类别信息加强，能够得到更全面的目标区域。并且相对于深度学习分类模型来说，不需要增加额外的卷积层和额外的针对定位的训练，不需要增加额外的网络层，所以提高了定位的精度，减少了定位的时间。

附图说明

图1为本发明实施例一提供的深度学习分类模型结构图；

图2为本发明实施例一提供的基于双梯度的弱监督目标定位方法的实现原理示意图；

图3为本发明实施例一提供的基于双梯度的弱监督目标定位方法流程示意图；

图4为本发明实施例二提供的基于双梯度的弱监督目标定位装置结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1为本发明实施例提供的深度学习分类模型结构图。图2为本发明实施例提供的基于双梯度的弱监督目标定位方法的实现原理示意图。图3为本发明实施例提供的基于双梯度的弱监督目标定位方法流程示意图，结合图1至图3，对本申请的基于双梯度的弱监督目标定位方法的步骤进行说明。另外，除目标定位之外，本发明中的双梯度方法还可以应用到其他弱监督任务中，例如弱监督分割，弱监督检测等任务。

步骤310，将图像数据集作为训练集，训练原始深度学习分类模型，得到深度学习模型；图像数据集包括多个图像数据和每个图像数据的标注向量，深度学习模型输出卷积特征图和每个类别的概率向量；

具体的，带有类别标签的图像数据集中包括多个图像数据，每一个图像数据都可以作为一个样本。对每个图像数据可以通过自动图像标注技术进行标注，得到和该图像数据对应的标注向量，并将图像数据和标注向量作为训练集

来训练原始深度学习分类模型。其中N为图像数据集中的样本数量，x_i和y_i分别表示第i个样本数据及其标注向量。深度学习分类模型结构如图1所示，其中深度学习分类模型的组成及其顺序为：全卷积网络模型、全局平均池化层、一层带有softmax函数的全连接网络层。全卷积网络可以使用任何经典网络，例如视觉几何组网络(Visual Geometry Group Network,VGG)、inception、resnet等网络模型。使用带有多层全连接的网络结构时，例如VGG需要将全连接层移除后再作为全卷积网络。

经过针对分类任务训练之后，得到具有分类能力的深度学习分类模型。将测试图像数据经过全卷积网络提取卷积特征图，然后输入到全局平均池化层，进一步输入最后一层全连接网络层，最终经过softmax函数后输出各个类别的预测概率向量，后面简称概率向量。其中，在对原始深度学习分类模型进行训练的过程中，可以预先对输入的图像进行预处理，此处的预处理包括多尺度变换、随机裁剪、水平翻转等，从而对预处理后的图像数据进行训练，提高了训练的效率，保证了训练得到的深度学习分类模型的准确性。

步骤320，根据类别、概率向量和每个类别的标注向量，计算概率向量与标注向量的交叉熵损失；

具体的，本申请可在任意全卷积网络的卷积层实现定位，首先假定全卷积网络预测的类别总数为d类，网络输出的概率向量为p，第c类的标注向量为y_c。不失一般性，假设在卷积特征图S上实现定位第c类别目标。在本实施例中，可以采用交叉熵函数L作为分类的损失函数，则概率向量p与第c类标注向量y_c的交叉熵损失可表示为：

其中，由于概率向量p与第c类标注向量y_c均为d维向量，因此计算交叉熵损失时需从第1维计算到第d维，

表示标注向量y_c的第k个元素，p_k表示概率向量p的第k个元素，log表示log函数。

步骤330，计算交叉熵损失关于卷积特征图的第一梯度；

具体的，可以利用损失函数关于卷积特征图S的第一梯度G1来对卷积特征图S进行类别信息增强。

本申请可以通过引入增强系数α来实现信息增强的目的，即首先在标注向量y_c上进行类别信息增强，然后将增强关系通过交叉熵损失函数L中的标注向量y_c与概率向量p联系起来，最后通过反向传播算法将增强关系传递到第一梯度G1上。可以通过如下公式获得第一梯度G1：

步骤340，根据第一梯度对卷积特征图进行信息增强，得到类别信息增强图；

具体的，可以使用第一梯度G1来对卷积特征图S进行类别信息增强，从而得到类别信息增强图E，具体公式如下：

E＝l₂(S)-l₂(G1) 公式(3)

其中，由于卷积特征图S与第一梯度G1不在一个尺度上，需要通过l2归一化来统一到同一尺度上。l₂为l2归一化函数，即对卷积特征图S和第一梯度G1进行了l2范数归一化。类别信息增强图E中由于增加了类别c的信息，使得随后获得定位图时，能够覆盖更多的目标区域，而不是只定位到目标的局部区域。

步骤350，计算概率向量关于卷积特征图的第二梯度；

具体的，在深度学习分类模型中，卷积特征图S提取图像中的特征，并通过特征将图像进行分类。所以说卷积特征图S中包含各个类别的信息，若将c类别的信息提取出来，则可得到对预测的c类别做出贡献的区域，进一步就可以实现定位。在此步骤中，本申请采用第二梯度G2选择卷积特征图S的方式来获得特定类别的信息，可以通过如下公式获取第二梯度G2：

其中，第二梯度G2是针对特定第c类别的概率向量p_c的梯度，包含更多的第c类别的变化信息，适合用来选择卷积特征图S上的第c类别的信息。

步骤360，根据类别信息增强图和第二梯度，计算定位图；

具体的，可以通过如下公式计算定位图：

A＝∑E·G2 公式(5)

其中，公式(5)中求和是沿通道维度的，即A为高为h宽为w的二维图像。类别增强信息图E与第二梯度G2的形状大小是一样的，所以这一特定类别选择过程是像素级别的。

步骤370，根据定位图和预设的阈值，确定蒙版；

具体的，在获得最终定位边框，得到定位图之后，需要进一步获得蒙版，然后进一步通过蒙版获得最终的定位边框。可以通过如下公式获得蒙版：

mask＝abs(sign(A-th)) 公式(6)

本申请可以通过阈值策略来获得蒙版，可以取置信度大于阈值的像素，从而得到蒙版mask，mask是一个0/1的二值矩阵。具体而言，先将定位图A减去预设的阈值th，随后输入符号函数sign中，将大于0的值映射到1，小于0的值映射到-1，最后输入绝对值函数abs中去除负数，进而获得二值蒙版mask。

其中，针对不同的全卷积网络模型，不同的卷积层所采取的阈值th不同。本申请中的阈值th可以是多次实验的经验值。

步骤380，根据预设的函数，确定蒙版中的多个连通域；连通域具有边界线；

具体的，获得蒙版之后不仅可以来进行定位，也可以用来进行分割，因为蒙版是像素级别的，可以通过蒙版中不同连通域的边界来获得最终的边界框。

具体来说，本申请可以使用opencv的cv2.fi ndContours函数来进行轮廓检测，以获取蒙版中的不同连通域，并将连通域的上下左右边界线作为最终的边界框。

步骤390，根据边界线，确定目标定位边框。

具体的，可以将最终的边界框进行连线，从而确定目标定位边框。

其中，不同连通域的边界线可能会有交集，但不同连通域代表不同目标，边界线的重合不需要处理。

和现有技术相比，本申请一方面挖掘了全卷积网络上任意卷积特征图的目标定位能力，而现有的技术都只在全卷积网络的最后一层上进行目标定位；另一方面，利用损失函数关于卷积特征图的梯度对卷积特征图进行类别信息增强来定位到更多的目标区域，利用梯度是一种高级的信息增强，现有技术采用擦除、数据增强等方式来迫使网络关注对类别贡献小的区域，然而有些目标没有那么多的贡献小的区域。最后，本申请提供的方案是线下方案，可以很方便的和现有弱监督定位技术融合，且不需要对现有弱监督定位技术的网络结构进行更改。因此，本发明提供的解决方案具有高度可扩展、高精度，低计算资源特性，更加满足于实际生产需求。

图4为本发明实施例二提供的基于双梯度的弱监督目标定位装置结构示意图。该基于双梯度的弱监督目标定位装置应用在基于双梯度的弱监督目标定位方法中，如图4所示，该基于双梯度的弱监督目标定位装置包括：训练模块410、计算模块420、信息增强模块430和确定模块440。

训练模块410用于将图像数据集作为训练集，训练原始深度学习分类模型，得到深度学习模型；图像数据集包括多个图像数据和每个图像数据的标注向量，深度学习模型输出卷积特征图、多个类别和每个类别的概率向量；

计算模块420用于根据类别、概率向量和每个类别的标注向量，计算概率向量与标注向量的交叉熵损失；

计算模块420还用于，计算交叉熵损失关于卷积特征图的第一梯度；

信息增强模块430用于根据第一梯度对卷积特征图进行信息增强，得到类别信息增强图；

计算模块420还用于，计算概率向量关于卷积特征图的第二梯度；

计算模块420还用于，根据类别信息增强图和第二梯度，计算定位图；

确定模块440用于根据定位图和预设的阈值，确定蒙版；

确定模块440还用于，根据预设的函数，确定蒙版中的多个连通域；连通域具有边界线；

确定模块440还用于，根据边界线，确定目标定位边框。

进一步的，计算模块420具体用于：

根据公式

进一步的，计算模块420具体用于：

根据公式

计算交叉熵损失关于卷积特征图的第一梯度；其中，G1α为第一梯度，为增强系数，L(p，α*y_c)为概率向量p与标注向量y_c乘以增强系数α的交叉熵损失函数，S为卷积特征图。

进一步的，信息增强模块430具体用于：

根据公式E＝l₂(S)-l₂(G1)确定类别增强信息图；

进一步的，计算模块420具体用于：

根据公式

进一步的，计算模块420具体用于：

进一步的，确定模块440具体用于：

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。