CN112465909B

CN112465909B - 基于卷积神经网络的类激活映射目标定位方法及系统

Info

Publication number: CN112465909B
Application number: CN202011416095.7A
Authority: CN
Inventors: 程明明; 张长彬; 姜鹏涛
Original assignee: Nankai University
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-09-20
Anticipated expiration: 2040-12-07
Also published as: CN112465909A

Abstract

本发明公开了基于卷积神经网络的类激活映射目标定位方法及系统，将待处理图像输入到训练后的卷积神经网络中，根据类别信息进行反向传播，得到网络中每个卷积层的每个特征图对应的梯度；每个卷积层均输出一个特征图；每个特征图包括C个子特征图；每个子特征图均有一一对应的梯度；从卷积神经网络中选定M个卷积层，对所述M个卷积层中的每个卷积层所提取的C个子特征图与权重进行相乘处理；其中，权重为子特征图所对应的梯度；将相乘处理结果输入到非线性的ReLU函数中，对ReLU函数输出值进行通道维度上的求和操作，每个被选定的卷积层均得到一个对应的类激活映射图，即得到M个类激活映射图；对M个类激活映射图进行融合，得到定位图。

Description

基于卷积神经网络的类激活映射目标定位方法及系统

技术领域

本申请涉及图像处理技术领域，特别是涉及基于卷积神经网络的类激活映射目标定位方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

当前，许多注意力模型都利用了基于卷积神经网络的图像分类器以生成类激活映射图。在只有图像类别标签的情况下，这些映射图可以定位目标物体区域的位置，有较大激活值的像素更可能属于目标物体。图像级别的标签只指明目标物体是否存在，这些标签并不提供物体在图像中的位置信息。因此，类激活映射图的定位能力可以弥补图片级别标签的这个不足，这进一步促进了基于图像级别标签的弱监督任务的发展。

类激活映射图的概念首先在BoLei Zhou的Learning Deep Features forDiscriminative Localization文中被提出，该方法生成的映射图可以定位到我们感兴趣类别的物体区域。他们通过使用特定的网络结构生成类激活映射图，该网络将图像分类器的全连接层替换为全局平均池化层。后来，Ramprasaath R.Selvaraju在Grad-CAM:VisualExplanations from Deep Networks via Gradient-based Localization一文中提出Grad-CAM,该方法进一步增强了类激活映射图的泛化能力，这使得用任何现存的基于卷积神经网络的任务都能生成类激活映射图。Grad-CAM利用了特征图的平均梯度来代表该特征图对于目标类别物体区域的重要性。尽管这些方法可以有效的在图像中定位物体区域，它们中一个共同的问题是都只依赖卷积神经网络的最后一个卷积层的特征图来生成类激活映射图。由于源于最后一层卷积层的输出的低分辨率，类激活映射图只能粗略地定位物体区域。它们不能获取足够的物体细节。

然而，诸如语义分割这类的弱监督问题通常需要更加准确的物体定位信息。类激活映射图生成的粗略物体位置信息限制了弱监督任务性能的上界。

发明内容

为了解决现有技术的不足，本申请提供了基于卷积神经网络的类激活映射目标定位方法及系统；

第一方面，本申请提供了基于卷积神经网络的类激活映射目标定位方法；

基于卷积神经网络的类激活映射目标定位方法，包括：

将待处理图像输入到训练后的卷积神经网络中，根据类别信息进行反向传播，得到网络中每个卷积层的每个特征图对应的梯度；其中，每个卷积层均输出一个特征图；每个特征图包括C个子特征图；C为正整数；每个子特征图均有一一对应的梯度；

从卷积神经网络中选定M个卷积层，对所述M个卷积层中的每个卷积层所提取的C个子特征图与权重进行相乘处理；其中，权重为子特征图所对应的梯度；将相乘处理结果输入到非线性的ReLU函数中，对非线性的ReLU函数输出值进行通道维度上的求和操作，每个被选定的卷积层均得到一个对应的类激活映射图，即得到M个类激活映射图；

对M个类激活映射图进行融合操作，得到最终的定位图。

第二方面，本申请提供了基于卷积神经网络的类激活映射目标定位系统；

基于卷积神经网络的类激活映射目标定位系统，包括：

梯度计算模块，其被配置为：将待处理图像输入到训练后的卷积神经网络中，根据类别信息进行反向传播，得到网络中每个卷积层的每个特征图对应的梯度；其中，每个卷积层均输出一个特征图；每个特征图包括C个子特征图；C为正整数；每个子特征图均有一一对应的梯度；

类激活映射图获取模块，其被配置为：从卷积神经网络中选定M个卷积层，对所述M个卷积层中的每个卷积层所提取的C个子特征图与权重进行相乘处理；其中，权重为子特征图所对应的梯度；将相乘处理结果输入到非线性的ReLU函数中，对非线性的ReLU函数输出值进行通道维度上的求和操作，每个被选定的卷积层均得到一个对应的类激活映射图，即得到M个类激活映射图；

融合模块，其被配置为：对M个类激活映射图进行融合操作，得到最终的定位图。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

利用不同卷积层，而不是仅利用最后一个卷积层来生成不同尺度下的类激活映射图。不同层的类激活映射图会获取不同的物体位置信息，卷积神经网络的浅层可以获得物体细节信息，例如耳朵的位置，从深层可以获得物体大致定位信息，我们将这些信息结合起来，以求保留目标物体的更多位置信息，从而提升弱监督任务的性能。

本方法能够在只有图像级别标注的训练数据的弱监督场景下得到像素级别物体位置信息。通过结合神经网络浅层捕捉到的较为精细的目标物体细节与深层捕捉到的较为宏观的定位信息并且通过双曲正切函数将上述两种层级的数值大小进行调整，本方法可以更加精确地定位物体位置，较以往定位方法的精度有明显提高。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请实施例一的完整网络结构示意图；

图2为本申请实施例一的图1中的LayerCAM处理单元；

图3(a)-图3(c)为对比方法最后生成的激活图；图3(a)为输入图像；图3(b)为第四个卷积层产生的激活图像；图3(c)为第十三个卷积层产生的激活图像；对比方法在浅层的激活图结果非常差；

图3(d)-图3(f)为本申请的方法生成的激活图；图3(d)为输入图像；图3(e)为第四个卷积层产生的激活图像；图3(f)为第十三个卷积层产生的激活图像；本申请在浅层的激活图也能好好定位目标物体区域，并且具有丰富的细节信息比如物体轮廓；

图4(a)是网络中每层梯度中的每个通道的方差大小，表明网络中浅层的梯度的方差更大；

图4(b)-图4(m)是VGG-16网络的特征图；图4(b)为输入图像；图4(c)为第二个卷积层的特征图；图4(d)为第四个卷积层的特征图；图4(e)为第七个卷积层的特征图；图4(f)为第十个卷积层的特征图；图4(g)为第十三个卷积层的特征图；

图4(h)为输入图像；图4(i)为第二个卷积层的特征图；图4(j)为第四个卷积层的特征图；图4(k)为第七个卷积层的特征图；图4(l)为第十个卷积层的特征图；图4(m)为第十三个卷积层的特征图；

图5(a)-图5(u)是本申请的方法产生的激活图；图5(a)为输入图像；图5(b)为第二个卷积层的激活图；图5(c)为第四个卷积层的激活图；图5(d)为第七个卷积层的激活图；图5(e)为第十个卷积层的激活图图；图5(f)为第十三个卷积层的激活图；图5(g)为将五个激活图融合起来的激活图；

图5(h)为输入图像；图5(i)为第二个卷积层的激活图；图5(j)为第四个卷积层的激活图；图5(k)为第七个卷积层的激活图；图5(l)为第十个卷积层的激活图图；图5(m)为第十三个卷积层的激活图；图5(n)为将五个激活图融合起来的激活图；

图5(o)为输入图像；图5(p)为第二个卷积层的激活图；图5(q)为第四个卷积层的激活图；图5(r)为第七个卷积层的激活图；图5(s)为第十个卷积层的激活图图；图5(t)为第十三个卷积层的激活图；图5(u)为将五个激活图融合起来的激活图；

图6(a)-图6(g)是展示定位效果的输入图像；

图6(h)-图6(n)是比较方法一Grad-CAM的定位效果；

图6(o)-图6(u)是比较方法二Grad-CAM++的定位效果；

图6(v)-图6(B)是本申请的定位效果图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于卷积神经网络的类激活映射目标定位方法；

基于卷积神经网络的类激活映射目标定位方法，包括：

S101：将待处理图像输入到训练后的卷积神经网络中，根据类别信息进行反向传播，得到网络中每个卷积层的每个特征图对应的梯度；其中，每个卷积层均输出一个特征图；每个特征图包括C个子特征图；C为正整数；每个子特征图均有一一对应的梯度；

S102：从卷积神经网络中选定M个卷积层，对所述M个卷积层中的每个卷积层所提取的C个子特征图与权重进行相乘处理；其中，权重为子特征图所对应的梯度；

将相乘处理结果输入到非线性的ReLU函数中，对非线性的ReLU函数输出值进行通道维度上的求和操作，每个被选定的卷积层均得到一个对应的类激活映射图，即得到M个类激活映射图；

S103：对M个类激活映射图进行融合操作，得到最终的定位图。

作为一个或多个实施例，所述训练后的卷积神经网络的获取步骤包括：

S1011：构建数据集，所述数据集为已知目标类别标签的若干幅图像；

S1012：构建卷积神经网络，利用数据集对卷积神经网络进行训练，得到训练后的卷积神经网络。

示例性的，所述卷积神经网络为VGG16神经网络。

示例性的，所述C也是网络的通道数，梯度的形状大小与子特征图的形状大小是完全一样的。

示例性的，所述对非线性的ReLU函数输出值进行通道维度上的求和操作，每个被选定的卷积层均得到一个对应的类激活映射图，是指：将每层卷积层的C个子特征图在通道方向上进行求和，每层卷积层得到一个激活图。

示例性的，所述S102：从卷积神经网络中选定M个卷积层，具体是指，选择的第2、4、7、10、13个卷积层。

作为一个或多个实施例，所述S103：对M个激活图进行融合操作，得到最终的定位图；具体步骤包括：

对M个激活图分别进行归一化操作；

对归一化操作后的M个卷积层中选定的N个浅层卷积层的激活图进行定位增强处理；

将定位增强处理后的N个激活图与(M-N)个未定位增强的激活图进行融合处理；

得到最终的定位图。

进一步地，所述对M个激活图分别进行归一化操作；归一化的方式为每个激活图的像素都除以整个激活图中的像素最大值。

进一步地，所述对M个激活图分别进行归一化操作；具体包括：

X＝X/max(X)

也就是说在归一化时，使得X中的最大值为1。

进一步地，所述浅层卷积层，是指M个卷积层中的前两个卷积层。

示例性的，所述浅层卷积层，是指第二个卷积层和第四个卷积层。

进一步地，所述对归一化操作后的M个卷积层中选定的N个浅层卷积层的激活图进行定位增强处理；具体步骤包括：

通过一个双曲正切函数，对归一化操作后的M个卷积层中选定的N个浅层卷积层的激活图进行定位增强处理。

示例性的，所述双曲正切函数，为：

X＝tanh(2*X)

X表示激活图。

进一步地，所述将定位增强处理后的N个激活图与(M-N)个未定位增强的激活图进行融合处理；具体包括：

首先，对将定位增强处理后的N个激活图与(M-N)个未定位增强的激活图，均利用二次线性插值resize到原图尺寸大小；

然后，在每个像素位置取所有激活图中的像素最大值作为最后激活图的像素值，就得到了最后的一个多尺度融合的激活图。

应理解的，对这些不同层之间的激活图进行融合，来得到更高质量的激活图。

本申请能够对分类网络中任意一层都得到可信赖的定位图，通过进一步融合这些多尺度的定位图可以得到更好的定位效果以及质量更高的激活图。

本发明公开了一种基于卷积神经网络分类器的类激活映射定位方法。该方法的目的是在仅有图像类别标签的弱监督场景下，对多种类别的物体进行像素级别的定位。该方法发展了原有的类激活映射方法，通过结合卷积神经网络不同层级中信息的方式，解决了原有类激活映射方法生成的类激活映射图定位粗略、缺少细节的问题。该方法生成的类激活映射图充分结合了在不同尺度下图像的细节，可以更完整地确定物体范围，为诸如语义分割等弱监督任务提供了更具体、更全面的物体定位信息。此外，该方法的优点在于可以不加改动地、轻松地迁移到现有的任意卷积神经网络结构中，该方法使用范围广泛且使用方便。

利用类别信息进行反向传播，得到了卷积神经网络中每个特征图对应的梯度。我们将梯度看作特征图的权重，一个特征图中的每一个像素点都会有一个单独的权重。对于正梯度，我们视作权重；对于负梯度，我们将该位置权重置为0，从而捕捉到更细化的物体定位信息；

VGG-16网络中有13个卷积层，不需要融合所有卷积层，本申请从这13个卷积层中选择了其中的5个卷积层，分别是第2、4、7、10、13个卷积层，我们会对每一层分别计算得到一个激活图，也就是说我们会计算得到5个激活图，我们把第2、4个卷积层叫做浅层，然后需要把这两个卷积的激活图进行增强，之后再把5个卷积层的值进行逐像素取所有激活图的最大值进行融合。融合之后的激活图就只有一个。

浅层的类激活映射图与其他层的类激活映射图结合时，首先通过一个放缩函数逐元素放大该层的值，以平衡各个层级之间数值上的差异；

放缩的公式是双曲正切函数：

其中x表示激活图中每个像素的值，f(x)表示增强后该像素的值。

在训练过程中，利用类专有的梯度的反向传播对一个特征图中的每一个空间位置都生成一个单独的权重。一个特征图是一个三维结构，可以看成是C个H*W子特征图组成的。

对于正梯度，我们视作权重；对于负梯度，我们将该位置权重置为0，从而捕捉到更细化的物体定位信息；

浅层的类激活映射图与其他层的类激活映射图结合时，首先通过一个放缩函数逐元素放大该层的值，以平衡各个层级之间数值上的差异。此方法中使用的放大函数为双曲正切函数。

采用弱监督的方式，使用图像级别的标注训练分类网络，在网络的每个特征图中，我们考虑到空间中不同位置的特异性，为空间中的每个位置分别维护一个权重，作为此特征图中该位置对最终结果影响大小的度量；

利用感兴趣类别回传的梯度来生成特征图中每个位置的权重，对于分配负梯度的位置，用0表示，对于分配正梯度的位置，用正梯度代表它的权重；

在结合来自不同层的类激活映射图时，我们对于从神经网络中的五个卷积层生成的五个特征图；五个特征图生成五个类激活映射图；最后将这五个类激活映射图融合为一个激活映射图；采用双曲正切函数以增加其在最终结果中的影响，从而解决浅层权重大小与深层权重大小差距过大的问题，使得各个层级间的信息能够更有效地结合；

如图1所示，本方法使用图像级别的标注训练一个基于VGG16架构的分类网络，与用于对照的方法不同，我们在生成最终的类激活映射图时，不仅采用最后一层卷积层捕捉到的信息，而且使用前几层捕捉到的信息。另外，我们为空间中的每个位置均维护了一个权重，此权重使用类专用的反向传播梯度得到。

本方法结果相较于以往先进方法的优越性，可见在神经网络不同层上本方法均优于以往方法。

在VGG16神经网络的浅层特征图的梯度变化较大，每个特征图整体赋予一个权重并不能很好的代表每个位置的重要性，这体现出本方法对每个特征图中的每个空间位置均赋予单一权重的理论优势。

本方法采用融合多层信息的方式生成最后结果。显然，本方法的结果更加精细。

我们可以总结出本方法的具体流程：

a.使用图像级别的标注训练一个基于VGG16的分类网络，在训练中为每个特征图的每个空间位置维护一个单独的权重，该权重由反向传播梯度信息得到；

b.各个特征图与其对应权重相乘后求和，通过非线性的ReLU映射为类激活映射图，得到最后定位结果；

图1为本申请实施例一的完整网络结构示意图；

图2为本申请实施例一的图1中的LayerCAM处理单元；

图4(a)是网络中每层梯度中的每个通道的方差大小，表明网络中浅层的梯度的方差更大；所以Grad-CAM方法使用每层梯度的均值作为整个特征图的权重，Grad-CAM在浅层的激活图的效果非常差；这也表明，本申请在所有层都使用element-wise的权重是更加合理的。

图6(a)-图6(g)是展示定位效果的输入图像；图6(h)-图6(n)是比较方法一Grad-CAM的定位效果；图6(o)-图6(u)是比较方法二Grad-CAM++的定位效果；图6(v)-图6(B)是本申请的定位效果图。

实施例二

本实施例提供了基于卷积神经网络的类激活映射目标定位系统；

基于卷积神经网络的类激活映射目标定位系统，包括：

此处需要说明的是，上述梯度计算模块、类激活映射图获取模块和融合模块对应于实施例一中的步骤S101至S103，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于卷积神经网络的类激活映射目标定位方法，其特征是，包括：

对M个类激活映射图进行融合操作，得到最终的定位图，具体步骤包括：

对M个激活图分别进行归一化操作；

得到最终的定位图。

2.如权利要求1所述的基于卷积神经网络的类激活映射目标定位方法，其特征是，所述训练后的卷积神经网络的获取步骤包括：

构建数据集，所述数据集为已知目标类别标签的若干幅图像；

构建卷积神经网络，利用数据集对卷积神经网络进行训练，得到训练后的卷积神经网络。

3.如权利要求1所述的基于卷积神经网络的类激活映射目标定位方法，其特征是，所述对M个激活图分别进行归一化操作；归一化的方式为每个激活图的像素都除以整个激活图中的像素最大值。

4.如权利要求1所述的基于卷积神经网络的类激活映射目标定位方法，其特征是，所述对归一化操作后的M个卷积层中选定的N个浅层卷积层的激活图进行定位增强处理；具体步骤包括：

5.如权利要求1所述的基于卷积神经网络的类激活映射目标定位方法，其特征是，所述将定位增强处理后的N个激活图与(M-N)个未定位增强的激活图进行融合处理；具体包括：

6.如权利要求1所述的基于卷积神经网络的类激活映射目标定位方法，其特征是，所述浅层卷积层，是指M个卷积层中的前两个卷积层。

7.基于卷积神经网络的类激活映射目标定位系统，其特征是，包括：

融合模块，其被配置为：对M个类激活映射图进行融合操作，得到最终的定位图，具体步骤包括：

对M个激活图分别进行归一化操作；

得到最终的定位图。

8.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项所述的方法。