CN110287970B

CN110287970B - 一种基于cam与掩盖的弱监督物体定位方法

Info

Publication number: CN110287970B
Application number: CN201910554530.3A
Authority: CN
Inventors: 徐杰; 盛纾纬; 魏号亮; 黄云扬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2021-07-27
Anticipated expiration: 2039-06-25
Also published as: CN110287970A

Abstract

本发明公开了一种基于CAM与掩盖的弱监督物体定位方法，其包括以下步骤：S1、基于CAM获取第一显著性热力图；S2、获取边界框及框选区域；S3、获取掩码图；S4、对掩码图进行取反操作，得到掩盖了框选区域的新掩码图；S5、将新掩码图与原图相乘得到掩盖了原图中框选区域的图像A；S6、基于CAM方法获取图像A对应的第二显著性热力图；S7、合并并归一化第一显著性热力图和第二显著性热力图，得到框选了整体显著区域的图像，完成基于CAM与掩盖的弱监督物体定位方法。本方法可提高弱监督物体定位准确率，可以应用于多种网络结构，能很便捷的与其他网络结构相结合，具有很强的灵活性。

Description

一种基于CAM与掩盖的弱监督物体定位方法

技术领域

本发明涉及弱监督物体定位领域，具体涉及一种基于CAM与掩盖的弱监督物体定位方法。

背景技术

弱监督物体定位是仅根据图片的标签来学习物体的位置。近些年，随着深度学习的发展，已经在计算机视觉的各个领域任务中取得了显著的提升。深度学习最为基础的仍然是数据，数据量越大，信息越丰富，相应的模型效果也就更好。然而，海量标注数据的获取是一项非常耗时费力的工作，而且往往在实际应用中难以实现。因此弱监督学习，仅需要图像的类别标签，就成为了解决数据问题的重要方法。随着深度学习的蓬勃发展，弱监督学习已被证实在各个领域中有良好的应用，如目标检测，语义分割，视觉属性定位等。因此WSL(弱监督物体定位)是一项既有挑战性又有实际意义的任务。相对于有监督学习，它需要较少的细节标注，因此有可能借助Web上大量弱标签的可视数据来完成多项的大规模图像任务。

当前的WSL方法主要是通过挖掘判别图像区域或特征或通过分析由训练用于图像分类的深层网络生成的高级特征来生成的。卷积滤波器可以作为检测器来激活深度特征图上的位置，这为图像分类提供了信息证据。CAM(类激活映射，Class Activation Mapping)方法在最后一层卷积之后使用全局平均池化层(GAP)代替神经网络全连接层，可获得更大尺寸的特征图。为了确保更详细的特征，CAM使用与分类结果对应的完全连接层中的神经元的权重来优化卷积层的最后一层的输出的特征图。因此，CAM的定位效果与分类的准确性密切相关。但是，CAM仅关注对象的最突出区域，忽略对象的不太重要的区域。最突出领域的信息往往并不完美，这些不太重要的信息是最重要的区域的良好补充和完善。因此，由于类别内的变化或仅仅依赖于分类目标，CAM方法通常不识别对象的整个范围，而是仅定位图像中最具辨别力的区域。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于CAM与掩盖的弱监督物体定位方法通过获取次显著区域解决了仅依赖最显著区域来进行弱监督物体定位造成的定位偏差问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于CAM与掩盖的弱监督物体定位方法，其包括以下步骤：

S1、基于CAM方法获取待处理图像的热力图，得到第一显著性热力图；

S2、将第一显著性热力图转换为二值图像，通过阈值获取连通区域，得到边界框及框选区域；

S3、对框选区域进行插值缩放使其大小与原图一致，并通过标准化操作得到掩码图；

S4、对掩码图进行取反操作，得到掩盖了框选区域的新掩码图；

S5、将新掩码图与原图相乘得到掩盖了原图中框选区域的图像A；

S6、基于CAM方法获取图像A的热力图，得到第二显著性热力图；

S7、合并并归一化第一显著性热力图和第二显著性热力图，得到框选了整体显著区域的图像，完成基于CAM与掩盖的弱监督物体定位方法。

进一步地，步骤S1的具体方法包括以下子步骤：

S1-1、将待处理图像送入CAM的卷积神经网络，获取最后一个卷积层的特征f和全连接层的分类结果s和对应的权重W_s；

S1-2、根据公式

获取待处理图像的热力图，即第一显著性热力图M₁；其中W_s ⁱ表示与第i个分类结果相对应的权重；fⁱ表示与第i个分类结果相对应的特征。

进一步地，步骤S5的具体方法为：

根据公式

将j个通道下的新掩码图与原图相乘得到j个通道下掩盖了原图中框选区域的图像

进而得到每个通道下掩盖了原图中框选区域的图像A；其中M_a为步骤S4中得到的新掩码图；I_j为原图；j∈{0,1,2}，表示图像的第j个通道。

进一步地，步骤S7的具体方法为：

根据公式

M＝Normalize(βM₁+γM₂)

合并并归一化第一显著性热力图M₁和第二显著性热力图M₂，得到框选了整体显著区域的图像M；其中β为第一显著性热力图M₁的权重；γ为第二显著性热力图M₂的权重；Normalize(·)为归一化函数。

本发明的有益效果为：本发明首先使用CAM方法提取最显著的区域，然后掩盖了最具辨别力的区域，并使用CAM来提取剩余区域中的次显著区域，最后将这两个区域集成在一起以获得整个对象范围。本方法非常方便，只需要数据集的相应分类网络，不需要训练定位网络，解决了仅依赖最显著区域来进行弱监督物体定位造成的定位偏差问题。

附图说明

图1为本发明的流程示意图；

图2为本方法得到的显著性区域热力图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该基于CAM与掩盖的弱监督物体定位方法包括以下步骤：

步骤S1的具体方法包括以下子步骤：

S1-2、根据公式

步骤S5的具体方法为：根据公式

步骤S7的具体方法为：根据公式

M＝Normalize(βM₁+γM₂)

在具体实施过程中，本方法采用的深度学习框架为Caffe，并使用基于Ubuntu16.04.3的Linux系统，使用的编程语言是Python。在本实施过程中，本方法采用的是ImageNet数据集来验证定位方法的准确性。

当GAP(全局平均池化层)之前的最后一个卷积层输出的特征图具有更高的空间分辨率时，网络的定位能力能得到提高，并称之为映射分辨率。为此，我们从一些网络中删除了几个卷积层：对于AlexNet网络，我们在conv5之后删除了层(即pool5到prob)，导致映射分辨率为13×13。对于VGGnet网络，我们在conv5-3之后删除了层(即pool5到prob)，导致映射分辨率为14×14。对于GoogLeNet网络，我们在初始4e之后删除了层(即pool4到prob)，导致映射分辨率为14×14。对于上述每个网络，我们添加了一个卷积层大小为3×3，步幅为1，小区1为1024个单位，接着是GAP层和softmax层。然后，这些网络中的每一个都在ILSVRC(ImageNet大规模视觉识别挑战赛)的1.3M训练图像上进行微调，用于1000个对象分类，分别产生我们的最终网络AlexNet-GAP，VGGnet-GAP和GoogLeNet-GAP。

在测试过程中，对于每一张图片都进行10次的过采样剪裁方式，分别取该图的(左上，左下，右上，右下，正中)以及它们的水平翻转。对这十个图片分别提取CNNs特征图以及预测的分类结果。最后合并这十个特征图以获取最终的热力图。

对于ILSVRC的定位任务来说，是与分类任务相辅相成的。每张图片的真实标签我们用C_k,k＝1,...,n表示，这意味着每张图片不只有一个标签。对于每个标签(第k个标签)，都有对应的边界框B_km(m＝1,...,M_k)，其中M_k为在该图像中此物体出现的次数。当c_i＝C_k时令d(c_i,C_k)＝0，否则d(c_i,C_k)＝1；其中c_i为预测的分类。当b_i与B_km重叠面积超过50％时，令f(b_i,B_km)＝1，否则f(b_i,B_km)＝0，其中b_i为预测的边界框。因此，对于每张图片的错误率可以用以下两种度量方式计算：

1)、只计算分类：

其中e为错误率；

2)、分类与定位：

其中e为错误率。

由上述度量公式可以看出，ImageNet的定位任务需要先判断分类是否准确。如果图片的分类错误，定位也是错误。如果图片的分类正确，再接着计算定位的错误率。当计算预估的边界框与标签的边界框的重叠面积时，采用的是与图像检测任务中一致的Intersection-Over-Union(IoU：交并比)。

本实施中分别以AlexNet-GAP，VGGnet-GAP和GoogLeNet-GAP为特征提取网络来评估本方法在ILSVRC2012Validation数据集上的分类与定位错误率。

表1：显著性区域定位结果

如表1所示，本方法在AlexNet-GAP上定位错误率降低了2.11％，在VGG-GAP上降低了3.9％，在GoogLeNet-GAP上降低了0.9％。从表中不同基础网络架构上的提升有着较大的差异，AlexNet与VGG上本方法提升相对于GoogLeNet较大。这都证明了本方法相对于CAM更加关注了物体的整体部分，从而提高了定位的准确率。相比于Grad-CAM，本方法在VGG-GAP上提高了3.21％。Hide-and-Seek是在训练过程中随机掩盖图片中的一些区域，这是一种类似于数据增强的方法，因此在AlexNet与GoogLeNet识别的准确率上有显著的提高，识别准确率的提高也相应的会提高定位的准确率。因此Hide-and-Seek的定位准确率较高。GoogLeNet-HaS-32表示基础架构GoogLeNet，在训练过程中将图片划分为32×32个小网格并随机掩盖后得到的结果。AlexNet-HaS-Mixed表示基础架构AlexNet，在训练过程中随机将图片划分为N×N,N＝1,16,32,44,56，其中N＝1表示神经网络正常训练，不随机掩盖。因为本方法是有目的性的掩盖图片中的区域，省去了训练的过程，仅需要线下的特征提取与整合。同时，本方法与其也有一定的优势，本方法在AlexNet上定位的错误率降低了0.71％。

如图2所示，图中第一行表示基于CAM方法生成的热力图和框选区域；第二行为掩盖了框选区域后的图像对应的热力图；第三行为本方法最终得到的图像的热力图。从该图中可以看出，本方法可以发现多个显著性区域，以得到物体整体的区域。

在另一个实施例中，以GoogLeNet为基础网络，σ＝40，θ＝0.6时(σ为获取边界框时的阈值，θ为转换为二值图时采用的阈值)，一共有48238张测试图片(若干图片的标注存在问题，因此测试图像不足50000张)，最终定位错误的图片有26345张，图像识别正确但是IoU低于指标的图片有9832张，识别错误的图片有16513张。因此有37.3％的错误是显著性区域的选取有错，63.7％的错误是由图像识别错误导致的。因此大部分的定位错误来源于图像识别的错误。

在本实施例中，假设所有图片的分类是正确的，只关注显著性区域的选取是否正确。从表2中可以发现，当神经网络知晓图片的正确类别时，定位的错误率有了大幅度的降低：在GoogLeNet-GAP上，定位错误率降低了19％；在VGGnet-GAP上，定位错误率降低了17％；在AlexNet-GAP上，定位错误率降低了23％；在Hide-and-seek中，也使用了GroundTruth作为预测标签。与之相比，本项目的结果在GoogLeNet与AlexNet都高了2％～3％。说明在排除了识别准确率的影响后，定位的效果有了显著的提升。单从显著性区域选取的角度来说，本方法在ILSVRC2012数据集上的表现较好。并且本方法可以应用于多种网络结构，能很便捷的与其他网络结构相结合，具有很强的灵活性。

表2：定位错误率

综上所述，本发明通过CAM提取最显著区域，通过掩盖算法产生抑制最显著区域的权重图，与原图结合后通过CAM提取次显著性区域，结合最显著区域与次显著区域后，得到最终的热力图以定位物体。本方法可提高弱监督物体定位准确率，可以应用于多种网络结构，能很便捷的与其他网络结构相结合，具有很强的灵活性。