CN113838130B

CN113838130B - 一种基于特征扩展性学习的弱监督目标定位方法

Info

Publication number: CN113838130B
Application number: CN202111004064.5A
Authority: CN
Inventors: 曹刘娟; 陈志威
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-07-18
Anticipated expiration: 2041-08-30
Also published as: CN113838130A

Abstract

一种基于特征扩展性学习的弱监督目标定位方法，涉及计算机图像视觉处理。提供基于弱监督的训练方式以低成本的图像标注，以仅有的弱标签信息获取更好的特征，达到比较好的训练结果的一种基于特征扩展性学习的弱监督目标定位方法。包括如下步骤：1)对待检测的图片进行预处理，然后将预处理后待检测的图片及其对应的图片级别的标签送入神经网络；2)神经网络对图片进行处理，在训练过程中输出待检测图片对应每一个类别的概率数值，在测试过程中输出待检测图片预测的框的坐标、类别、得分。通过擦除来促进整体目标定位，并通过最大凸显学习来提高分类性能的准确性；将从多个平行定位头中学习到的目标区域动态地与接收场的有向扩展相结合。

Description

一种基于特征扩展性学习的弱监督目标定位方法

技术领域

本发明涉及计算机图像视觉处理，尤其是涉及特征拓展和多方向特征融合的一种基于特征扩展性学习的弱监督目标定位方法。

背景技术

近年来，随着计算机性能的提升和大数据的发展，视觉信息数据迅猛增多，包括静态图像、动态图像、视频文件、音频文件等多媒体数据都以很快的速度在各种社交媒体上传播。目标检测作为计算机视觉领域最基本的问题之一，被广泛应用于目标跟踪、行为理解、人机交互、人脸识别等诸多领域，在20世纪初就吸引众多学者的广泛关注和研究。人类主要是通过视觉来接收外界信息，所以基于视觉信息的应用技术将是人工智能的一个前瞻性研究点；其中，人脸识别、视频监控、目标检测、互联网图像内容审查、生物特征识别等技术都成为当今的研究热点。这些技术也被广泛应用于医疗、养老、交通、城市运行、安防等领域，例如医学图像诊断、姿态估计、车站安检、自动驾驶、车速检测、视频监控行为分析等。

目标定位是计算机视觉和机器学习中极其重要的一个研究领域，融合图像处理、模式识别、人工智能、自动控制等多个领域的前沿知识。目标定位通常只有一个较大的对象位于图片中间位置，对它进行识别和定位。随着视频网站和社交网络的发展，人们能够接触到大量的图像和视频等多媒体资源，目标定位也开始广泛应用于上述领域，如在社交网站中对图片进行人脸检测、在图像或者视频序列中进行行人检测、在交通监控中进行车辆检测和帮助有视觉障碍的人理解视觉内容等。

目标定位最近主要集中在对卷积神经网络(CNN)上进行研究，在检测器训练过程中该卷积神经网络使用具有实例级标签(即边界框标注)的大规模数据。然而，收集特定类别的边界框标注显然是一项费时费力的工作，这限制检测器的实际使用。与边界框标注相比，收集图像级别的标签容易很多；例如，通过查询图像搜索引擎(例如Google Image)或照片共享网站(例如Flickr)，可以轻巧地手动检查收集的图像中是否存在目标对象。因此，弱监督目标定位(WSOL)任务，即仅以图像级别监督训练目标检测器最近引起越来越多的关注。

为利用图像标签进行定位，现有的WSOL方法大多采用CNN分类器挖掘目标类的定位图，形成定位头。然后生成预测的边界盒，以紧密覆盖高响应区域。不幸的是，仍然存在两个具有挑战性的问题，在WSOL和它的完全监督的对手之间形成一个显著的性能差距。首先，分类器往往忽略不显著的图像特征，过分依赖显著区域进行分类。而由于骨干网通常是通过图像分类预先训练的，学习成功的定位头是比较困难的。其次，定位头可能只捕捉目标物体的有鉴别性的部分，因为边界盒只在地图最有鉴别性的部分周围生成。上述连锁问题可能进一步相互影响；例如，给定一幅鸟的图像，即使是鸟的头部或羽毛也能提供足够的线索来达到较高的分类精度。以这幅图像为例，但是在头部或羽毛周围生成的盒子并不能对鸟类整体区域进行定位，导致定位效果较差。

为解决这种定位不完全的问题，之前的研究在训练过程中使用模型来捕捉物体的识别性较差的部分。HaS(Singh K K,Lee Y J.Hide-and-seek:Forcing a network to bemeticulous for weakly-supervised object and action localization[C]//2017IEEEinternational conference on computer vision(ICCV).IEEE,2017:3544-3553)和CutMix(Yun S,Han D,Oh S J,et al.Cutmix:Regularization strategy to trainstrong classifiers with localizable features[C]//Proceedings of the IEEEInternational Conference on Computer Vision.2019:6023-6032)随机选择要替换为零或其他图像中的图像块。类似地，ADL(Choe J,Shim H.Attention-based dropout layerfor weakly supervised object localization[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2019:2219-2228)随机滴下带有自我注意的中间特征图。然而，这些方法可以看作是一种数据增强，但由于随机选择策略带来不确定性，无法有效地消除鉴别部分。此外，擦除策略不能保证分类任务和定位任务之间的平衡。随着骨架的逐步学习，协变特征可能会降低分类性能。与擦除策略不同，Yang等人(Yang S,Kim Y,Kim Y,et al.Combinational Class Activation Maps for WeaklySupervised Object Localization[C]//The IEEE Winter Conference on Applicationsof Computer Vision.2020:2941-2949)线性组合的激活映射从概率最高的类到概率最低的类。但类概率较高的激活映射往往只捕捉局部区域的一部分，很难扩展到其他不显著的对象部分。

发明内容

本发明的目的在于提供基于弱监督的训练方式以低成本的图像标注，以仅有的弱标签信息获取更好的特征，达到比较好的训练结果的一种基于特征扩展性学习的弱监督目标定位方法。

本发明包括如下步骤：

1)对待检测的图片进行预处理，然后将预处理后待检测的图片及其对应的图片级别的标签送入神经网络；

2)神经网络对图片进行处理，在训练过程中输出待检测图片对应每一个类别的概率数值，在测试过程中输出待检测图片预测的框的坐标、类别、得分。

在步骤1)中，所述图片进行预处理，可先对图片进行标准化处理，再把图片缩放为256×256大小，最后随机裁剪为224×224大小；

所述神经网络主要包含三个部分：CNN主干特征提取网络、最大注意激发模块(MAE)和三联融合扩展模块(TFE)。

步骤2中，所述神经网络对图片进行处理具体包括如下步骤：

步骤a1，给定带有图像级别标签的数据集集合，将集合划分为训练图片样本集和测试图片样本集；

步骤a2，从训练图片样本集中任意选取图像I，将该图像I以及其对应的图像级别的标签y输入神经网络的主干网络，其中在第2、4、5层应用最大注意激发模块(MAE)；

步骤a3，假设神经网络的第2层的输出特征为X，特征的形状为C×H×W，C为通道数量、H为特征图的高度、W为特征图的宽度；首先在通道数的维度上取平均值，得到A^s：

其中，i，j分别表示特征图的第i行和第j列；接着引入一个超参数ξ＝0.5以获取空间平均注意特征A^m：

然后，空间平均注意特征A^m与输入的特征X相乘得到特征X^a，特征X^a再通过一个卷积核为1×1的卷积层得到特征A^e；最后，使用取最大操作得到MAE模块的最终输出特征

MAE模块的最终输出特征再作为输入，进入到神经网络的下一层；

步骤a4，重复步骤a3，在神经网络的第4、5层应用MAE模块；

步骤a5，当得到步骤a4的输出特征后，使用三联融合扩展模块(TFE)进行特征扩展融合，得到三个分类器的输出；

在步骤a5中，所述特征扩展融合分为训练阶段和测试阶段；所述训练阶段共三个分支，第一、三个分支分别插入一个卷积核为1×3和3×1的卷积层，之后特征经过GAP(全局池化层)进入分类器(Classifier)；第二个分支直接为一个GAP进入分类器；三个分类器均由FC层和softamx层组成；所述测试阶段是将特征图从三个分支抽取并进行融合。

步骤a6，在训练阶段，将步骤a5所得三个分类器的输出相加作为网络的分类结果，然后将图像级别的标签和分类结果做交叉熵损失得到网络的损失，至此完成训练阶段；

步骤a7，在测试阶段，通过对步骤a5得到的融合特征进行分析，利用CAM中的方法来生成边界框。

本发明具有以下突出的优点：

第一，本发明提出的MAE模块利用“最大擦除”学习，显式擦除显著区域来激活不显著的图像特征。因此，MAE被设计用于通过擦除来促进整体目标定位，并通过最大凸显学习来提高分类性能的准确性；

第二，本发明将从多个平行定位头中学习到的目标区域动态地与接收场的有向扩展相结合。具体来说，除之前的WSOL模型中原有的定位头之外，TFE还引入额外的并行分支，分别用于在水平方向和垂直方向上处理识别性较差的物体部分。

附图说明

图1是本发明神经网络的网络结构示意图；

图2是本发明中TFE模块原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下实施例将结合附图对本发明进行作进一步的说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，以下对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

研究发现随机擦除鉴别目标部分不能有效地捕获目标的全部范围。本发明显式地激活不显著的图像特征，扩展不区分的物体部分，同时有效地提高分类精度。本发明提出一种新的“激发-扩展”网络，称为E²Net，用于在弱监督设置中发现所有感兴趣的对象，如图1所示。E²Net包括两个关键组件，即最大注意激发模块(MAE)和三联融合扩展模块(TFE)。该模块利用“最大移除”学习，方便整体目标定位，提高分类性能的准确性。此外，MAE的目标是通过显式地消除显式区域来从不显式图像特征中学习。TFE模块动态地将多个平行定位头获取的目标区域与接收场的有向扩展组合在一起，生成完整的目标定位。具体来说，在大多数WSOL模型中，除最初的定位头之外，TFE还引入额外的定向扩展分支，以分别在水平和垂直方向上对有区别的对象部分进行定位。

本发明提供一种基于特征扩展性学习的弱监督目标定位方法，包括如下步骤：

步骤1，将预处理后待检测的图片及其对应的候选框送入神经网络；在图片的预处理中，先对图片进行标准化处理，再把图片缩放为256×256大小，最后随机裁剪为224×224大小。

步骤2，神经网络对图片进行处理，在训练过程中输出待检测图片对应每一个类别的概率数值，在测试过程中输出待检测图片预测的框的坐标、类别、得分。

如图1所示，本发明中的神经网络主要包含三个部分：CNN主干特征提取网络，最大注意激发模块(MAE)和三联融合扩展模块(TFE)。

所述神经网络的训练方法包括如下步骤：

步骤a2，从训练图片样本集中任意选取图像I，将该图像I，以及其对应的图像级别的标签y输入神经网络的主干网络，其中在第2、4、5层应用最大注意激发模块(MAE)；

步骤a3，以神经网络的第2层应用MAE为例，假设该层的输出特征为X，特征的形状为C×H×W，C为通道数量、H为特征图的高度、W为特征图的宽度。首先在通道数的维度上取平均值，得到特征图A^s：

其中，i，j分别表示特征图的第i行和第j列。接着引入一个超参数ξ＝0.5以获取空间平均注意特征A^m：

然后，空间平均注意特征Am与输入的特征X相乘得到特征X^a，特征X^a再通过一个卷积核为1×1的卷积层得到特征A^e。最后，使用取最大操作得到MAE模块的最终输出特征

特征再作为输入，进入到神经网络的下一层。

步骤a4，重复步骤a3，再在神经网络的第4、5层应用MAE模块。

步骤a5，当得到步骤a4的输出特征后，就使用本发明的三联融合扩展模块(TFE)进行特征扩展融合。训练阶段：如图2所示左边与图1的TFE部分相对应，一共有三个分支，第一、三个分支分别插入一个卷积核为1×3和3×1的卷积层，之后特征经过GAP(全局池化层)进入分类器(Classifier)；第二个分支直接是一个GAP然后进入分类器。三个分类器均由FC层和softamx层组成。测试阶段：如图2所示右边，特征图从三个分支抽取并进行融合。

步骤a6，经过步骤a5，可以得到三个分类器的输出，再将三个输出相加作为网络的分类结果，最后将图像级别的标签和分类结果做交叉熵损失得到网络的损失。

本发明的效果通过以下仿真实验作进一步的说明。

1)仿真条件

本发明在Ubuntu平台上进行开发，开发的深度学习框架基于Tensorflow。本发明中主要用的语言为Python。

2)仿真内容

取CUB-200-2011以及ILSVRC 2012数据集，根据以上的步骤训练网络并且使用测试集进行测试。表1和表2分别为本发明和其他方法在两个数据集的分类结果，表3和表4分别为本发明和其他方法在两个数据集的定位结果。经过直观的数值比较，可以发现相比于其他的方法，本发明效果最佳。其中VGG16-E²Net(Ours)和ResNet50-E2Net(Ours)是本发明的结果，评价指标Top-1 err.表示的是Top-1错误率。本方法在CUB-200-2011数据集和ILSVRC 2012数据集上在分类性能上达到23.64％、17.83％的错误率，在定位性能上达到49.1％、34.9％的错误率，相比其他方法错误率更加的低，证明本发明分类和定位的更佳效果。

表1 表2

表3 表4

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于特征扩展性学习的弱监督目标定位方法，其特征在于包括如下步骤：

1)对待检测的图片进行预处理，然后将预处理后待检测的图片及其对应的图片级别的标签送入神经网络；所述神经网络主要包含三个部分：CNN主干特征提取网络、最大注意激发模块MAE和三联融合扩展模块TFE；

2)神经网络对图片进行处理，在训练过程中输出待检测图片对应每一个类别的概率数值，在测试过程中输出待检测图片预测的框的坐标、类别、得分；

所述神经网络对图片进行处理具体包括如下步骤：

步骤a2，从训练图片样本集中任意选取图像I，将该图像I以及其对应的图像级别的标签y输入神经网络的主干网络，其中在输入神经网络第2、4、5层应用最大注意激发模块MAE；

步骤a3，最大注意激发模块MAE具体如下：假设神经网络的第2层的输出特征为X，特征的形状为C×H×W，C为通道数量、H为特征图的高度、W为特征图的宽度；首先在通道数的维度上取平均值，得到

其中，i,j分别表示特征图的第i行和第j列；接着引入一个超参数ξ＝0.5以获取空间平均注意特征

然后，空间平均注意特征与输入的特征X相乘得到特征X^a，特征X^a再通过一个卷积核为1×1的卷积层得到特征A^e；最后，使用取最大操作得到MAE模块的最终输出特征/>

步骤a4，重复步骤a3，在神经网络的第4、5层应用MAE模块；

步骤a5，当得到步骤a4的输出特征后，使用三联融合扩展模块TFE进行特征扩展融合，得到三个分类器的输出；

所述使用三联融合扩展模块TFE进行特征扩展融合为训练阶段和测试阶段；所述训练阶段共三个分支，第一、三个分支分别插入一个卷积核为1×3和3×1的卷积层，之后特征经过GAP全局池化层进入分类器Classifier；第二个分支直接为一个GAP进入分类器；三个分类器均由FC层和softamx层组成；所述测试阶段是将特征图从三个分支抽取并进行融合；

步骤a6，将步骤a5所得三个分类器的输出相加作为网络的分类结果，然后将图像级别的标签和分类结果做交叉熵损失得到网络的损失；

2.如权利要求1所述一种基于特征扩展性学习的弱监督目标定位方法，其特征在于在步骤1)中，所述图片进行预处理，先对图片进行标准化处理，再把图片缩放为256×256大小，最后随机裁剪为224×224大小。