CN111046962A

CN111046962A - 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统

Info

Publication number: CN111046962A
Application number: CN201911300222.4A
Authority: CN
Inventors: 张文林; 司念文; 牛铜; 罗向阳; 屈丹; 杨绪魁; 李�真; 闫红刚; 张连海; 魏雪娟
Original assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-21
Anticipated expiration: 2039-12-16
Also published as: CN111046962B

Abstract

本发明公开一种基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统，该方法包括：对输入彩色图像进行特征提取，输出多通道特征图；使用像素级注意力对特征图进行加权调整；采用交叉熵损失函数作为分类损失函数，对像素级注意力进行L1正则化约束，并对分类损失函数进行改进，对加权调整后的特征图进行训练，得出分类结果；将调整后的特征图与原始输入的彩色图像进行叠加，得出彩色图像重要特征的可视化展示，从而给出对分类结果的可视化解释；该系统包括特征提取模块、注意力模块、分类模块及特征可视化模块。本发明提升图像分类准确率的同时，采用特征可视化展示出该图像最重要的特征区域。

Description

基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统

技术领域

本发明属于图像分类特征可视化技术领域，尤其涉及一种基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统。

背景技术

现有的卷积神经网络可视化方法包括基于反卷积(deconvolution)、基于梯度(gradient-based)、基于反向传播(back-propagation)等方法。这些方法对卷积神经网络所学特征、类别区分性特征的可视化有一定效果，但这些方法多数仅面向特征可视化研究，并不对卷积神经网络本身的性能有所贡献。因此，本发明从该点出发，研究在提升卷积神经网络分类性能的情形下，更精确定位到目标物体最重要特征。

一方面，卷积神经网络中间层的特征图中，包含有大量图像编码后的语义信息，特征图直接可视化能够在一定程度上展示网络学习到的特征，但由于一般卷积神经网络的特征图中同时包含有一些噪声信息，特征图直接可视化对区分性特征的定位效果并不理想。

另一方面，现有的基于注意力机制的卷积神经网络用于图像分类时，通常使用基于通道的和基于空间位置的注意力机制(H.Jie,S.Li,and S.Gang.Squeeze-and-excitation networks.Computer Vision and Pattern Recognition,2017.)(SanghyunWoo,Jongchan Park,Joon-Young Lee,and In So Kweon.CBAM:Convolutional blockattention module.In ECCV,2018.)，能够很好的为目标物体最重要部分调整分配更大权重，但这类的注意力并不完全，受到通道限制和空间位置限制，未充分发挥注意力机制的整体功能。并且，特征图各个通道所使用的空间注意力掩码(mask)相同，对不同通道的像素空间分布特征的关注受到了限制。

为此，本发明在现有基于通道注意力和空间注意力的卷积神经网络基础上，提出基于稀疏注意力的模型，并且该注意力使用像素级注意力掩码，可对特征图中每个像素分配注意力权重，而不仅是从单一通道、空间位置层面进行通道级别注意力调整。同时，通过在损失函数中对注意力掩码进行L1正则化约束，保证其稀疏性，使权重分配朝着少量重要特征上倾斜。

发明内容

本发明针对基于深度卷积网络的图像分类模型在准确率上越来越高，但由于深度网络“端到端”属性的限制，导致该分类过程如同一个“黑盒”，无法对其分类结果进行解释，也无法定位图像哪些区域的特征对分类结果贡献最大的问题，提出一种基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统。

为了实现上述目的，本发明采用以下技术方案：

一种基于稀疏注意力的卷积神经网络模型的特征可视化方法，包括：

步骤1：使用多个卷积层和下采样层，对输入训练样本中彩色图像进行特征提取，输出多通道特征图；所述训练样本由多个彩色图像及对应类别标签组成；

步骤2：采用卷积-反卷积网络，通过卷积、反卷积操作实现像素级注意力；使用像素级注意力对特征图进行加权调整，得到经过像素级注意力加权调整后的特征图；

步骤3：采用交叉熵损失函数作为分类损失函数，对像素级注意力进行L1正则化约束，通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进，以最小化改进后的分类损失函数为目标进行训练，完成基于稀疏注意力的卷积神经网络模型构建，得出分类结果；

步骤4：将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加，得出彩色图像重要特征的可视化展示，通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。

进一步地，所述步骤2包括：

通过如下公式实现像素级注意力：

F_act＝f_deconv(f_conv(F；θ))

其中，F_act表示像素级注意力掩码矩阵，F表示多通道特征图，θ表示卷积神经网络的超参数，f_conv()表示卷积函数，f_deconv()表示反卷积函数；

通过如下公式得出像素级注意力加权调整后的特征图F_att：

其中，σ表示带参数的激活函数，

表示矩阵张量间的哈达玛积。

进一步地，所述步骤3包括：

经过像素级注意力调整后的特征图进入全连接层，经过softmax分类函数后，输出一个n维向量，向量每个元素值表示在该类别上的得分大小：

y_p＝softmax(f_linear(F_att；θ))

其中，f_linear()函数表示全连接层的线性变换过程，y_p∈Rⁿ表示输出层得到的各类别概率分布向量；

采用交叉熵损失函数计算单个训练样本的分类损失，采用mini-batch批次梯度下降法进行训练：

其中，l_c为分类损失函数，y_i∈R^N表示训练样本中对应的类别标签向量，N表示训练样本个数，f_cel表示交叉熵损失函数，m表示每批量样本数量，λ₁表示对θ的L2正则化约束参数；

对像素级注意力掩码矩阵F_act作L1正则化约束得到稀疏注意力，通过L1正则化约束后的F_act对分类损失函数l_c进行改进，改进后的分类损失函数为：

其中，Loss为改进后的分类损失函数，λ₂表示注意力掩码矩阵F_act的稀疏正则化约束参数。

一种基于稀疏注意力的卷积神经网络模型的特征可视化系统，包括：

特征提取模块，用于使用多个卷积层和下采样层，对输入训练样本中彩色图像进行特征提取，输出多通道特征图；所述训练样本由多个彩色图像及对应类别标签组成；

注意力模块，用于采用卷积-反卷积网络，通过卷积、反卷积操作实现像素级注意力；使用像素级注意力对特征图进行加权调整，得到经过像素级注意力加权调整后的特征图；

分类模块，用于采用交叉熵损失函数作为分类损失函数，对像素级注意力进行L1正则化约束，通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进，以最小化改进后的分类损失函数为目标进行训练，完成基于稀疏注意力的卷积神经网络模型构建，得出特征分类结果；

特征可视化模块，用于将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加，得出彩色图像重要特征的可视化展示，通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。

进一步地，所述注意力模块具体用于：

通过如下公式实现像素级注意力：

F_act＝f_deconv(f_conv(F；θ))

通过如下公式得出像素级注意力加权调整后的特征图F_att：

其中，σ表示带参数的激活函数，

表示矩阵张量间的哈达玛积。

进一步地，所述分类模块具体用于：

y_p＝softmax(f_linear(F_att；θ))

对像素级注意力掩码矩阵F_act作L1稀疏正则化约束得到稀疏注意力，通过稀疏L1正则化约束后的F_act对分类损失函数l_c进行改进，改进后的分类损失函数为：

与现有技术相比，本发明具有的有益效果：

为了让基于卷积神经网络的图像分类过程在保证分类效果的同时，决策原因变得更加能够被用户理解，本发明使用注意力机制引导网络关注图像上最重要特征，并使用带参数的激活函数对注意力掩码矩阵进行激活约束，确保注意力的连续性。同时，通过设计损失函数来利用稀疏正则约束注意力机制，保证注意力机制注意到少量最重要特征。最后，在基础卷积神经网络基础上，提升分类准确率的同时，通过对注意力掩码矩阵加权调整后的特征图的可视化展示，给出对分类结果的可视化解释。

本发明面向基于深度学习的图像分类领域特征可视化，使用常见的卷积神经网络结构，通过添加像素级注意力并实现带参数的激活，使得卷积神经网络能够学习最少最重要特征，对注意力掩码的L1正则化约束进一步保证其能够保持最少特征关注度。通过本发明可在基本卷积神经网络基础上，提升图像分类准确率的同时，采用特征可视化展示出该图像最重要的特征区域，便于用户了解到卷积神经网络的分类决策原因。

附图说明

图1为本发明实施例一种基于稀疏注意力的卷积神经网络模型的特征可视化方法的基本流程图；

图2为本发明实施例一种基于稀疏注意力的卷积神经网络模型的特征可视化方法的注意力掩码生成过程示意图；

图3为本发明实施例一种基于稀疏注意力的卷积神经网络模型的特征可视化系统的架构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

实施例1

如图1所示，一种基于稀疏注意力的卷积神经网络模型的特征可视化方法，包括：

步骤S101：使用多个卷积层和下采样层，对输入训练样本中彩色图像进行特征提取，输出多通道特征图；所述训练样本由多个彩色图像及对应类别标签组成；

具体地，可自行设计满足一定需求的卷积层，也可以使用常用的卷积神经网络的特征提取部分结构，如AlexNet,VGGNet,ResNet等卷积神经网络及其变种。

对于输入图像

N表示样本个数，特征提取过程可形式化的表示如下：

F＝CONV(x；θ)

其中，x_i表示第i个彩色图像，y_i表示x_i对应的类别标签，特征图F∈R^C×H×W为多通道特征图，C表示通道数，H和W分别表示高和宽，θ表示卷积神经网络的超参数。

步骤S102：采用卷积-反卷积网络，通过卷积、反卷积操作实现像素级注意力；使用像素级注意力对特征图进行加权调整，得到经过像素级注意力加权调整后的特征图；

具体地，本部分是本发明区别于现有方法的主要部分。现有方法包括使用通道级别注意力，或使用单通道注意力掩码作为空间注意力，或使用二者结合的方式。本发明认为，这些注意力均带有片面性，对特征图中信息利用及权重分配仍受一致限制。为此，本发明使用像素级注意力对特征图进行像素级权重再调整，使重要区域实现像素级特征关注。

对于生成像素级注意力掩码应满足两点要求：其一，为了实现像素级注意力，生成的掩码矩阵在尺寸上应与输入特征图相同；其二，为了实现对特征图中重要区域与像素的关注，掩码矩阵能够初步包含一些主要目标特征信息，后期可在训练中进一步调整参数。

为此，考虑采用卷积—反卷积网络，在卷积过程中进一步降尺寸、升通道、压缩特征图，以提取重要特征，再通过反卷积过程使之返回到原来大小，此时输出的掩码矩阵不仅在尺寸上满足要求，同时还包含一些特征信息。

注意力掩码矩阵生成过程如图2所示，包括：

通过如下公式实现像素级注意力：

F_act＝f_deconv(f_conv(F；θ))

其中，F_act表示像素级注意力掩码矩阵，F表示多通道特征图，θ表示卷积神经网络的超参数，f_conv()表示卷积函数，f_deconv()表示反卷积函数；卷积过程每使用连续两个卷积后，紧接着max pooling操作降低尺寸，反卷积过程则是卷积过程的逆过程。

通过如下公式得出像素级注意力加权调整后的特征图F_att：

其中，σ表示带参数的激活函数，通过在训练中自适应调整激活函数的参数，可保证学习到合适的自适应激活门限；

表示矩阵张量间的哈达玛积，即逐元素乘法。

此处像素级注意力权重生成过程与文献[1](H.Jie,S.Li,and S.Gang.Squeeze-and-excitation networks.Computer Vision and Pattern Recognition,2017.)和[2](Sanghyun Woo,Jongchan Park,Joon-Young Lee,and In So Kweon.CBAM:Convolutionalblock attention module.In ECCV,2018.)明显不同，文献[1]提出的SENet采用通道级注意力权重，对每个通道使用GAP降尺寸，这样会丢失大量信息，而这里使用一般方法(如卷积-反卷积方法)，不会丢失信息。文献[2]则使用通道注意力与空间注意力结合，但与本发明提出的像素级注意力相比，仍然不够完全利用注意力的优势，相比之下，本发明像素级注意力关注细节更多，将卷积-反卷积网络作为注意力权重生成机制，在效果上也会更好。

步骤S103：采用交叉熵损失函数作为分类损失函数，对像素级注意力进行L1正则化约束，通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进，以最小化改进后的分类损失函数为目标对卷积神经网络进行训练，完成基于稀疏注意力的卷积神经网络模型构建，得出特征分类结果；

具体地，所述步骤S103包括：

y_p＝softmax(f_linear(F_att；θ))

其中，l_c为分类损失函数，y_i∈R^N表示训练样本中对应的类别标签向量，N表示训练样本个数，f_cel表示交叉熵损失函数(CrossEntropyLoss)，m表示每批量样本数量，λ₁表示对θ的L2正则化约束参数，防止模型过拟合；

同时，对注意力掩码作L1稀疏正则化约束，保证注意力掩码的元素值分布更加集中，仅为特征图中少量最重要特征加强关注，其它区域保持数值稀疏化，有利于学习最重要特征。因此，对像素级注意力掩码矩阵F_act作L1稀疏正则化约束得到稀疏注意力，通过L1正则化约束后的F_act对分类损失函数l_c进行改进，改进后的分类损失函数为：

步骤S104：将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加，得出彩色图像重要特征的可视化展示，通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。

作为一种可实施方式，在Anaconda集成开发环境中，使用python语言调用深度学习库(如pytorch或tensorflow等)，搭建本发明设计的基于稀疏注意力的卷积神经网络模型，同时采用交叉熵损失函数，使用随机梯度下降算法优化网络权重；使用带标注的训练集(如ImageNet数据集、CIFAR10和CIFAR100数据集等)，按照设计的批次大小，批量输入带标注的训练样本图片，进入到卷积神经网络中，分别进行特征提取、像素级注意力加权、Loss计算等；每一批样本结束后，反向传播并更新参数，并在开发集上进行测试保留最佳参数设置；完整训练结束后，保存并固化模型参数，方便下次加载使用；输入新的测试样本图片，可由训练好的模型直接输出分类结果，同时可将经过像素级注意力加权调整后的特征图直接缩放到原图大小并与原图叠加，即可标明由该输入图像提取到的最重要的特征，该特征最能支撑网络输出结果。

综上，为了让基于卷积神经网络的图像分类过程在保证分类效果的同时，决策原因变得更加能够被用户理解，本发明使用注意力机制引导网络关注图像上最重要特征，并使用带参数的激活函数对注意力掩码矩阵进行激活约束，确保注意力的连续性。同时，通过设计损失函数来利用稀疏正则约束注意力机制，保证注意力机制注意到少量最重要特征。最后，在基础卷积神经网络基础上，提升分类准确率的同时，通过对注意力掩码矩阵加权调整后的特征图的可视化展示，给出对分类结果的可视化解释。

实施例2

如图3所示，一种基于稀疏注意力的卷积神经网络模型的特征可视化系统，包括：

特征提取模块201，用于使用多个卷积层和下采样层，对输入训练样本中彩色图像进行特征提取，输出多通道特征图；所述训练样本由多个彩色图像及对应类别标签组成；

注意力模块202，用于采用卷积-反卷积网络，通过卷积、反卷积操作实现像素级注意力；使用像素级注意力对特征图进行加权调整，得到经过像素级注意力加权调整后的特征图；

分类模块203，用于采用交叉熵损失函数作为分类损失函数，对像素级注意力进行L1正则化约束，通过加入L1正则化约束后的像素级注意力对分类损失函数进行改进，以最小化改进后的分类损失函数为目标进行训练，完成基于稀疏注意力的卷积神经网络模型构建，得出特征分类结果；

特征可视化模块204，用于将经过像素级注意力加权调整后的特征图与原始输入的彩色图像进行叠加，得出彩色图像重要特征的可视化展示，通过彩色图像重要特征的可视化展示给出对分类结果的可视化解释。

具体地，所述注意力模块202具体用于：

通过如下公式实现像素级注意力：

F_act＝f_deconv(f_conv(F；θ))

通过如下公式得出像素级注意力加权调整后的特征图F_att：

其中，σ表示带参数的激活函数，

表示矩阵张量间的哈达玛积。

具体地，所述分类模块203具体用于：

y_p＝softmax(f_linear(F_att；θ))

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。