CN111046939B - 基于注意力的cnn类别激活图生成方法 - Google Patents

基于注意力的cnn类别激活图生成方法 Download PDF

Info

Publication number
CN111046939B
CN111046939B CN201911241048.0A CN201911241048A CN111046939B CN 111046939 B CN111046939 B CN 111046939B CN 201911241048 A CN201911241048 A CN 201911241048A CN 111046939 B CN111046939 B CN 111046939B
Authority
CN
China
Prior art keywords
weight
channel
class
activation
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911241048.0A
Other languages
English (en)
Other versions
CN111046939A (zh
Inventor
张文林
司念文
屈丹
罗向阳
闫红刚
陈琦
张连海
牛铜
杨绪魁
李�真
李喜坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Zhengzhou Xinda Institute of Advanced Technology
Original Assignee
Information Engineering University of PLA Strategic Support Force
Zhengzhou Xinda Institute of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force , Zhengzhou Xinda Institute of Advanced Technology filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN201911241048.0A priority Critical patent/CN111046939B/zh
Publication of CN111046939A publication Critical patent/CN111046939A/zh
Application granted granted Critical
Publication of CN111046939B publication Critical patent/CN111046939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于深度学习与计算机可视化技术领域,公开一种基于注意力的CNN类别激活图生成方法,包括:步骤1、计算特征图M=(M0,M1,...,MK‑1)每个像素点的梯度值作为神经元类别相关的空间注意力权重;步骤2、获取各类别神经元对应的连接权重作为通道注意力权重;步骤3、根据空间注意力权重及通道注意力权重生成CNN类别激活图。本发明将类别激活权重作用注意力权重,同时利用特征图的通道‑空间位置重要性,与CAM、Grad‑CAM方法相比,生成的类别激活图的可视化效果更好,并且该方法不受网络结构的限制,使用更加灵活。

Description

基于注意力的CNN类别激活图生成方法
技术领域
本发明属于深度学习与计算机可视化技术领域,尤其涉及一种基于注意力的 CNN类别激活图生成方法。
背景技术
卷积神经网络(Convolutional Neural Network,CNN)在许多领域取得了巨大 成功,但由于其端到端的“黑盒”特性,掩盖了中间层知识存储与处理机制,使 人们无法窥探其内部特征及外部决策的依据,在一定程度上影响了其应用价值。 可视化即为一种常见的用于解释CNN决策原因、展示其内部学习到的特征的方 式,目前有一些研究将其应用到CNN的特征理解与决策原因解释中,例如CAM 方法(class activation map),Grad-CAM方法(gradient-based CAM)(R.R.Selvaraju,M.Cogswell,A.Das,R.Vedantam,D.Parikh,andD.Batra.Grad-cam:Visual explanations from deep networks via gradient-basedlocalization.In arXiv:1610.02391v3,2017.),反卷积方法(deconvolution),但有些方法受到网络 结构的限制,只能对特定结构的网络进行可视化,有些只能可视化内部特征或对 原图进行重建,无法将内部特征和CNN外部决策依据关联起来,实现对CNN 分类依据的有效解释。因此,需要在现有方法基础上,提出一种更好的可视化方 法,在可视化CNN内部所学特征的同时,对CNN决策依据进行有效解释,使 内部所学特征与外部决策结果对应起来,进一步增强对CNN决策机制的理解。
发明内容
本发明针对虽然基于深度卷积网络的图像分类模型在准确率上越来越高,但 由于深度网络“端到端”属性的限制,导致该分类过程如同一个“黑盒”,无法 对其分类结果进行解释,也无法定位图像哪些区域的特征对分类结果贡献最大的 问题,提出一种基于注意力的CNN类别激活图生成方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于注意力的CNN类别激活图生成方法,包括:
步骤1:计算特征图M=(M0,M1,...,MK-1)每个像素点的梯度值作为神经元类 别相关的空间注意力权重;
步骤2:获取各类别神经元对应的连接权重作为通道注意力权重;
步骤3:根据空间注意力权重及通道注意力权重生成CNN类别激活图。
进一步地,在所述步骤1之前还包括:
在含有GAP层或不含有GAP层的CNN中,对输入特征图 M=(M0,M1,...,MK-1)进行特征提取与分类层神经元分类;
计算第一类别激活权重及第二类别激活权重的关系,将第一类别激活权重作 为通道注意力权重,将第二类别激活权重作为空间注意力权重;所述第一类别激 活权重为各类别神经元的连接权重,所述第二类别激活权重为关于神经元类别c 的梯度值;第一类别激活权重及第二类别激活权重的关系如下:
其中,为一端与ml相连接且另一端与分类层第c类神经元相连接的权重,ml表 示通道Ml平均池化后的值,/>表示l通道内位置(i,j)处的梯度值,l表示通道号, K表示通道数目。
进一步地,所述步骤1包括:
对CNN输出的分值反向传播,计算特征图中每个像素点关于得分的梯度作 为类别相关的空间注意力权重,得到空间注意力权重矩阵,即像素级梯度矩阵gc
其中,表示梯度矩阵的l通道每个元素值对应像素点的梯度值。
进一步地,所述步骤2包括:
获取分类层各类别神经元的连接权重作为各类别神经元对应的通道注意力 权重,得到通道注意力权重矩阵,即连接权重矩阵wc
进一步地,所述步骤3包括:
按照如下公式根据空间注意力权重及通道注意力权重生成CNN类别激活图
根据第一类别激活权重及第二类别激活权重的关系对式(10)进一步变形, 得到空间-通道注意力权重调节的类别激活图生成公式:
与现有技术相比,本发明具有的有益效果:
基于深度卷积网络的图像分类模型在准确率上越来越高,但由于深度网络 “端到端”属性的限制,导致该分类过程如同一个“黑盒”,无法对其分类结果 进行解释,也无法定位图像哪些区域的特征对分类结果贡献最大。为了让基于卷 积网络的图像分类过程在保证分类效果的同时,决策原因变得更加能够被用户理 解,本发明提出基于注意力的CNN类别激活图生成方法,该方法将类别激活权 重作用注意力权重,同时利用特征图的通道-空间位置重要性,与CAM、 Grad-CAM方法相比,生成的类别激活图的可视化效果更好,并且该方法不受网络结构的限制,使用更加灵活。
附图说明
图1为ResNet-18网络可视化示例图;其中,(a)、(g)为输入原图,(b)~(f) 表示中间层特征图可视化,conv1表示第1个卷积层,conv2_x~conv5_x表示 ResNet-18设计的卷积模块;(h)为最高层特征图可视化;(i)和(j)为分别针对输入 原图中“dog”和“cat”的CAM可视化;(k)和(l)为分别针对输入原图中“dog” 和“cat”的Grad-CAM类别激活图可视化;
图2为CAM网络结构及类别激活图生成过程示意图;
图3为Grad-CAM网络结构及类别激活图生成过程示意图;
图4为类别激活图生成过程示意图;
图5为含有GAP层的CNN特征提取与分类流程图;
图6为采用4种不同池化方式(GAP,池化窗口大小为整个特征图大小;averagepooling,池化窗口大小为(2,2),步长设为2;max pooling,池化窗口大小为(2,2), 步长设为1;average pooling,池化窗口大小为(2,2),步长设为1)的过程示意图;
图7为本发明实施例一种基于注意力的CNN类别激活图生成方法流程图;
图8为ResNet-18类别激活权重可视化结果图之一;其中(a)为ResNet-18: “dog”的类别激活权重可视化结果;(b)为ResNet-18:“cat”类别激活权重可 视化结果;(c)为DenseNet-161:“dog”的类别激活权重可视化结果;(d)为DenseNet-161:“cat”类别激活权重可视化结果;
图9为ResNet-18类别激活权重可视化结果图之二;其中,(a)为ResNet-18: top3类别激活权重softmax weight可视化结果,(b)为ResNet-18:top3类别激活 权重averagegradient可视化结果;
图10为不同网络结构下不同类别激活图生成方法可视化效果比较图;其中,(a1)、(b1)、(c1)、(d1)为输入原图;(a2)~(a4)分别为SqueezeNet网络结构下 分别采用CAM、Grad-CAM、Att-CAM的可视化结果;(b2)~(b4)分别为ResNet-18 网络结构下分别采用CAM、Grad-CAM、Att-CAM的可视化结果;(c2)~(c4)分别为RenNet50网络结构下分别采用CAM、Grad-CAM、Att-CAM的可视化结果; (d2)~(d4)分别为DenseNet-161网络结构下分别采用CAM、Grad-CAM、Att-CAM 的可视化结果;
图11为类别激活图对于不同输出类别的可视化结果图;其中,(a)、(b)、 (c)为输入原图;(a1)~(a5)分别为(a)对应的DenseNet-161网络结构下采用 Att-CAM方法top5类别激活图;(b1)~(b5)分别为(b)对应的DenseNet-161网 络结构下采用Att-CAM方法top5类别激活图;(c1)~(c5)分别为(c)对应的 DenseNet-161网络结构下采用Att-CAM方法top5类别激活图;
图12为对同一类别的不同图像的可视化效果比较图;其中,(a)为spider 类图像可视化结果;(b)为hourglass类图像可视化结果;(c)为chimpanzee类 图像可视化结果;(d)为butterfly类图像可视化结果。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
(1)特征图可视化、CAM及Grad-CAM分析
卷积神经网络擅长表示学习,隐含层滤波器可看作不同类型的特征提取器, 对输入图像进行分层次的特征提取与表示。不同层次隐含层编码的特征图关注重 点不同,较低层的特征图学习到边缘、纹理等轮廓特征,较高层的特征图则学习 到目标细节等局部特征。越往高层的卷积层神经元,所含语义信息越丰富,对物 体、场景等目标越具有区分性。因此,CNN的特征图可视为输入图像的特征空 间,尤其是高层特征图蕴含着较为丰富的语义信息,对特征图可视化有利于理解 CNN内部特征与表达。
特征图直接可视化可观察CNN中间各层的特征表达,如图1所示,输入原 图(a)和(g)中有2个较显著的目标物体,即“dog”和“cat”,图1中(b)~(f) 为ResNet-18中间卷积层((b)conv1,(c)conv2_x,(d)conv3_x,(e)conv4_x, (f)conv5_x)输出,可见越往高层特征表达越抽象。图1中(h)将其最高层(conv5_x) 特征图各通道叠加并投影到原图,得到最具区分性的特征表达,从中可以看出, CNN最高层特征图可定位到具有语义概念信息的特征位置,图像中重要目标区 域特征都被编码到网络中,表明整个网络的特征学习是有效的。然而,虽然特征 图可视化能够帮助理解CNN学习到了输入图像的哪些特征,但这些特征是被统 一的表达与展示出来,无法确定这些特征与当前决策结果的关联性高低,即特征图可视化具有类别无关性,无法对CNN的决策结果做出有效解释。
Zhou等人(参见B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba.Learning deep features for discriminative localization.In CVPR,2016.)提出了利用特征图加权叠加的方式生成类别激活图,使用这种类别相关的热力图 (Class-specificHeatmap)对CNN分类原因进行解释。热力图可定位目标区域的 关键特征,该特征能够支撑当前具体分类结果。如图1中(i)和(j),分别表示CAM 方法生成的与ResNet-18分类结果中“dog”和“cat”相关的热力图,图中分别对关 键区域进行高亮,表示该区域特征与当前决策最相关。图2所示为CAM方法所 依赖的CNN结构,其中前半部分为常见CNN结构,如AlexNet、VGGNet和 GoogLeNet等,用于输入图像特征提取,后半部分是去除原始CNN中的全连接 层并添加3个层:卷积层、GAP层和softmax分类层,其中GAP(Global Average Pooling,GAP)表示全局平均池化操作,将整张特征图平均化为一个数值。在该 网络结构中,生成CAM热力图的具体过程如虚线所示,由softmax分类层关于 某个类别的神经元权重,与最高层特征图各通道加权叠加得到。
CAM方法生成类别激活图过程非常简单,且定位效果较好,缺点在于结构 中对GAP层的依赖,并不是所有CNN结构中都含有GAP层。因此,使用CAM 方法可视化CNN分类原因时,需修改原始CNN结构(将全连接层替换成卷积 层、GAP层和softmax层),使其后半部分符合图2所示的结构,并且修改结构后需重新训练网络,这样导致其使用较为复杂。同时,由于GAP操作将丢失大 量特征图信息,因此修改后的网络与原始CNN相比,分类性能有所下降。
由于CAM方法的限制,使其并不适用于一般类型网络,因此,Selvaraju等 人(参见R.R.Selvaraju,M.Cogswell,A.Das,R.Vedantam,D.Parikh,and D.Batra. Grad-cam:Visual explanations from deep networks via gradient-based localization.InarXiv:1610.02391v3,2017.)提出另一种生成类别激活图的思路——Grad-CAM。 如图1中(k)和(l)所示,分别表示利用Grad-CAM方法生成的与ResNet-18分类结 果中“dog”和“cat”相关的热力图。Grad-CAM方法并不需要改变网络结构,而是通过计算反向传播过程中,特征图每个像素关于某个类别的梯度,再对各通道像 素点的梯度加以平均,即得到各通道对应的权重大小。图3所示为Grad-CAM网 络结构及类别激活图生成过程。虽然Grad-CAM需要反向传播计算梯度,但涉 及对单张输入图像进行可视化解释时,只需获取梯度来计算权重,而无需更新网 络参数,因此不需要重新训练网络。
综上,这3种可视化方法均采用热力图的形式,对输入图像的关键区域进行 高亮,以表示CNN学习到的特征及支撑当前分类结果的依据。热力图生成过程 大致相同,如图4所示,使用的特征空间即最高层特征图,对其采用加权求和的 方式,经过插值放大并与原图叠加,即可标明原图中关键区域及特征。不同点在于所使用的权重,不同的权重使得可视化效果的不同:特征图直接叠加等同于各 通道权重均设置为1,此时权重是不含类别信息的固定数值,表明各个通道检测 到的特征对当前分类结果的重要性相同;CAM使用的权重来自softmax分类层中关于某个类别神经元的连接权值,该权重与GAP层输出元素一一对应,进而 映射到前一层特征图各通道重要性;Grad-CAM使用的权重则来自特征图各通道 像素关于某个类别得分的反向梯度均值,这些梯度均值即对应各通道权重大小。
图4所示类别激活图生成过程如下:
其中,公式(1)仅表示类别激活权重为的情形,c表示类别, K表示通道数,其它两种类型同理。特征图可视化、CAM和Grad-CAM均可看 作对特征图采用通道注意力机制,为各通道分配不同注意力权重,注意力权重分 布不同导致合成类别激活图的解释效果也不同。
(2)类别激活权重分析
通过对特征图可视化、CAM和Grad-CAM方法的比较可知,CNN类别激活 权重具有十分重要的作用,一定程度上决定了生成类别激活图的质量和解释效果。 为了进一步分析比较CAM与Grad-CAM方法所使用的类别激活权重,本发明首先在含有GAP层的CNN网络,分析对比2种类别激活权重间的关系,再进一 步打破GAP层限制,研究在不含GAP层的网络结构中两者间的关系。
a.含有GAP层的CNN类别激活权重
GAP层将特征图整个通道平均池化为一个数值点,该过程无需参数训练, 可减少参数数量,防止过拟合。同时,GAP层输出特征向量维度与输入特征图 通道数(即卷积滤波器个数)相同,因此可使输出维度固定而不受输入图像尺寸 影响。由于GAP层的这些优势,越来越多CNN结构中使用其代替全连接层, 对特征图进行全局平均池化,然后映射到softmax分类层。
在CNN结构中含有GAP层时,可在不修改网络结构的情形下,将CAM和 Grad-CAM这2种可视化方法统一到同一网络中,在相同网络结构与输入图像的 情形下,可保证特征空间相同,从而针对不同的类别激活权重进行详细分析。
在含有GAP层的CNN中,对输入图像的特征提取与分类流程如图5所示:
设最后一个卷积层输出特征图M=(M0,M1,...,MK-1),经过GAP层输出特征向 量,最后进入分类层,该过程形式化为:(未经过softmax函数, l表示通道号),其中类别c对应的得分yc计算方式如下:
其中,ml表示通道Ml平均池化后的值,其计算方式如下:
其中,表示与ml相连接另一端与分类层第c类神经元相连接的权重,Ml,i_j表 示l通道内位置(i,j)处的像素值。
由公式(2)、(3)可知,得分yc与特征图各像素值以及分类层权重有关。 此时,分类层权重即为CAM方法所使用的类别激活权重。
另一方面,按照Grad-CAM方法的思路计算其类别激活权重,对得分yc反 向传播到特征图空间,可获取其关于每个像素的梯度:
其中,表示l通道(通道Ml)内位置(i,j)处的梯度值,则l通道的梯度平均 值为:
注意,这些梯度均表示关于特定类别c的梯度。此时,各通道平均梯度值即为Grad-CAM方法所使用的类别激活权重。
由公式(4)、(5),并结合公式(2)、(3),经计算可得这2种类别激活权重 wc间的关系:
由公式(6)可知,在含有GAP层的CNN结构中,2种不同的类别激活权 重之间存在线性对应关系。直观地看,如图5所示流程,从多通道特征图映射为CNN输出各类别得分的过程中,中间仅包含GAP操作,未使用非线性激活函数, 且GAP属于线性计算过程,因而可得出该线性关系。图1中(g)和(i)、图1中(h) 和(j)对应的类别激活图可视化效果相近,也验证了该线性对应关系。
b.不含GAP层的CNN类别激活权重
GAP层的全局平均池化操作是一种特殊的池化方式,池化窗口为整张特征 图大小。对于常见的池化方式如average pooling和max pooling,为了降低尺寸的同时保留更多特征图信息,池化窗口尺寸选择一般较小(如2x2或3x3),且 max pooling操作是一种非线性算子,因此在对最高层特征图进行普通池化层的 CNN中,2种类别激活权重之间关系更加复杂,需对不同情形分别加以分析。
以3通道4x4大小特征图为例,如图6所示,分别采用GAP池化和其它3 种普通池化方式,分析此时2种类别激活权重之间的关系。
如图6所示,对于输入图像,经过CNN前半部分卷积和下采样,得到3x4x4 大小特征图,分别经过4种不同池化(padding默认为0),再将池化后特征图展 开,映射到二分类的分类层,输出得分y0和y1(未经过softmax函数)。其中, 池化方式分为以下4种:
1、GAP,池化窗口大小为整个特征图大小。由公式(6),2种类别激活权 重之间的关系为:
此时,2种类别激活权重之间存在线性关系,系数大小为特征图尺寸的倒数。
2、average pooling,池化窗口大小为(2,2),步长设为2。此时,类别1的 得分y1为:
其中,根据average pooling池化过程,可计算m0~m3的值:
同理可计算m4~m11,由上式并结合(7)式可知,得分y1由分类层权重w1和 特征图像素值加权得到。因此,反向传播中,特征图像素值的梯度仍与分类层权 重相关,按照各通道平均梯度的计算公式(4)和(5),可计算此时关于类别1 的各通道平均梯度值:
此时,类别激活权重是wc元素的线性组合,求和元素的个数与池化结果 所得特征图中各通道元素个数相同,线性组合系数大小仍为特征图尺寸的倒数。
3、max pooling,池化窗口大小为(2,2),步长设为2:得到结论同2。
4、average pooling,池化窗口大小为(2,2),步长设为1,此时,特征图池 化步长重叠的位置产生梯度叠加,经过对通道内所有像素的梯度值相加再求平均, 可得到如下关系:
此时,类别激活权重仍是wc元素的线性组合,求和元素的个数及线性组 合系数仍与情形2相同。
由上述结果可知,在普通池化方式下,CAM和Grad-CAM所使用的2种类 别激活权重之间仍存在线性关系。其中,类别激活权重始终是wc元素的线性 组合,求和元素个数等于池化结果中各通道元素个数,即池化结果所得特征图尺 寸。即使在GAP池化下,池化所得特征图大小为1,此时结论仍然成立。因此, CNN的2种类别激活权重wc和/>始终具有一致性,依据该一致性可对2种类 别激活权重结合使用,对类别激活图生成过程进行细微调整以提升可视化质量。
类别激活权重的作用相当于通道注意力权重,在合成类别激活图时,实现对 特征图的通道级注意力调整。出于对类别激活权重一致性的考虑,并且其带有与 CNN分类结果相关联的特征,本发明提出一种基于注意力的CNN类别激活图生 成方法,采用通道级的类别激活权重作为通道注意力权重,采用特征空间每个像 素点的梯度值作为空间像素级注意力权重,通过空间与通道注意力结合的方式, 使特征图中与当前分类类别关联性高的位置和通道得到进一步加强,关联性的位置和通道得到进一步抑制,这样合成的类别激活图将更加突出对分类结果有重要 贡献的特征,而相关度较低的特征被更好地抑制。
将本发明提出的基于注意力的CNN类别激活图生成方法记作Att-CAM,其 具体过程如图7所示,包括:
步骤1:计算特征图M=(M0,M1,...,MK-1)每个像素点的梯度值作为神经元类 别相关的空间注意力权重;
步骤2:获取各类别神经元对应的连接权重作为通道注意力权重;
步骤3:根据空间注意力权重及通道注意力权重生成CNN类别激活图。
具体地,在所述步骤1之前还包括:
在含有GAP层或不含有GAP层的CNN中,对输入特征图 M=(M0,M1,...,MK-1)进行特征提取与分类层神经元分类;
计算第一类别激活权重及第二类别激活权重的关系,将第一类别激活权重作 为通道注意力权重,将第二类别激活权重作为空间注意力权重;所述第一类别激 活权重为各类别神经元的连接权重,所述第二类别激活权重为关于神经元类别c 的梯度值;第一类别激活权重及第二类别激活权重的关系如下:
其中,为一端与ml相连接且另一端与分类层第c类神经元相连接的权重,ml表 示通道Ml平均池化后的值,/>表示l通道内位置(i,j)处的梯度值,l表示通道号, K表示通道数目。
具体地,所述步骤1包括:
对CNN输出的分值反向传播,计算特征图中每个像素点关于得分的梯度作 为类别相关的空间注意力权重,得到空间注意力权重矩阵:
CNN高层特征图编码中,与目标相关的语义信息丰富且空间位置相对集中, 各通道内不同位置所含像素信息差别较大。由于各通道内特征分布并不均匀,单 独使用通道注意力并不能很好地利用像素的空间分布特征,因此,本文采用空间 注意力机制对各通道不同位置实现不同加权,可利用这种空间分布特征。通过对 CNN输出分值反向传播,计算特征图中每个像素点关于得分的梯度,可得到类 别相关的空间注意力权重矩阵,即像素级梯度矩阵gc
其中,表示梯度矩阵的l通道每个元素值对应像素点的梯度值,H和W分别表示高和宽。该梯度矩阵既含有各空间位置的重要性特征,也含 有与分类类别相关的特征,可在生成类别激活图时实现像素级注意力加权。
具体地,所述步骤2包括:
获取分类层各类别神经元的连接权重作为各类别神经元对应的通道注意力 权重,得到通道注意力权重矩阵:
CAM和Grad-CAM方法采用的通道注意力机制将特征图各通道视为一个整 体,认为各个通道对应不同特征,对当前分类结果中各类别的贡献不同,因而在 生成类别激活图时,通道之间应赋予不同大小注意力权重。在含有GAP层的CNN 中,通过获取分类层各类别神经元的连接权重,可得到各类别对应的通道注意力 权重,如下:
具体地,所述步骤3包括:
此时,由空间-通道注意力权重调节的类别激活图生成方式如下:
由公式(6)可知,在含有GAP层的CNN中,2种类别激活权重wc存 在线性对应关系。结合公式(5)(6),可对公式(10)进一步化简:
上式中,空间与通道注意力权重均由梯度构成,与(10)式相比,仅由梯度 即可实现像素级与通道级注意力加权。
池化方式采用avgpool/maxpool(2,2)/2时,由公式(5)、(8)可得第1个通 道的通道注意力权重如下:
其中,s表示池化后特征图中元素总数,其它通道类似。此时,忽略系数的影 响,通道注意力权重/>仍可用像素级梯度求和代替:
因此,在该池化方式下,类别激活图生成方法仍为公式(11)。同理,池化 方式采用avgpool(2,2)/1时,由公式(5)、(9),可推导出公式(11)所示形式。
综上,本发明Att-CAM方法如公式(11)所示,该式在现有的通道注意力 基础上,添加空间注意力提升类别激活图质量,并将不同池化方式下的通道注意 力权重与空间注意力权重的表示统一起来,无需再依赖分类层权重对通道加权, 简化了类别激活图生成过程。
值得注意的是,文献(M.T.Ribeiro,S.Singh,and C.Guestrin.why should itrust you?: Explaining the predictions of any classifier.In ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining,pages 1135–1144,2016.)、(Sanghyun Woo, Jongchan Park,Joon-Young Lee,and In So Kweon.CBAM:Convolutional block attention module.In ECCV,2018.)和(Chen,L.,Zhang,H.,Xiao,J.,Nie,L.,Shao,J.,Liu,W.,Chua,T.S.:SCA-CNN-Spatial and ChannelWise Attentionin Convolutional Networks for Image Captioning.CVPR(2017)6298–6306.)在CNN结构中加入空 间-通道注意力机制,注意力权重跟随网络参数一起调整更新,用于提升CNN分类准确率。与之不同,本发明所提方法Att-CAM仅实现基于类别激活图的CNN 可视化解释,通过对特征图使用空间-通道注意力加权,提升类别激活图生成质量。因此,本发明所用注意力权重采用网络的梯度构成,可离线获取而不跟随网 络一起训练。
为验证本发明效果,进行如下实验:
实验使用的预训练模型采用torchvision自带的预训练CNN网络,分别为SqueezeNet、ResNet-18、ResNet-50和DenseNet-161,这些网络预先在ImageNet 数据集上训练至最佳性能。理论上讲,分类准确率越高的模型,特征提取及表示 能力越强,重要特征定位能力就越好,生成的类别激活图可视化效果也越好。实 验使用的预训练网络在ImageNet数据集上的分类性能如表1所示。
表1、4种网络在ImageNet数据集上的错误率及最高层特征图尺寸
实验在Ubuntu 18.04系统下,Anaconda 4.4.10集成环境中,使用深度学习框 架PyTorch实现,其中torchvision自带大量在ImageNet上的预训练网络。由于 可视化实验是对预训练的CNN分类结果进行解释,因此不涉及网络训练及参数 调优。
1、类别激活权重可视化实验
类别激活权重对生成热力图的解释效果至关重要,实验对ResNet-18和DenseNet-161的类别激活权重进行可视化及比较。按照前文所述,类别激活权重 分为2种:(1)CAM方法中,采用分类层某个类别对应的神经元与前一层的连接权重,作为特征图各通道的权重;(2)Grad-CAM方法中,采用各通道特征图 关于某个类别输出得分的梯度平均值,作为特征图各通道的权重。
(1)关于同一输出类别的不同类别激活权重比较实验
对于残差网络ResNet-18和DenseNet-161,输入图像为图1中(a),尺寸大小 为224x224x3。以ResNet-18为例,对ResNet-18类别激活权重进行可视化,由 于高层特征图通道数较多,为了便于清晰展示,从其conv5_x层输出的512个通 道中,随机选取50个通道对应的权重进行可视化,如图8中(a)和(b)所示。由于 反向传播的梯度在数值上非常小,与前向分类层的权重数值上相差较大,因此为 方便比较其关系,绘图时对average gradient数值上扩大100倍,这样并不会影 响二者在数值上的关系比较。
图8所示的类别激活权重有以下2种:
Softmax weight:表示softmax分类层某个神经元(类别)的连接权重,即第 1种类别激活权重;
Average gradient:表示特征图关于某个类别的梯度均值,即第2种类别激活 权重。
图8中(a)和(b)分别表示ResNet-18输出类别“dog和“cat”时,所对应的2种 类别激活权重。其中,横轴表示特征图的各个通道(随机选取),纵轴表示该通道对应的2种类别激活权重值大小。可以看出,这2种类别激活权重存在明显的 对应关系,数值大小总是呈现相同的波动,表明二者之间存在数值上的线性对应 关系。与之类似,图8中(c)和(d)分别表示DenseNet-161输出类别为“dog”和“cat” 时对应的类别激活权重,可以看到相似的线性关系。
(2)关于不同输出类别的同一类别激活权重比较实验
考虑对于同一种类别激活权重,关于不同输出类别的各通道权重值大小,如 图9所示。
图9中(a)表示对ResNet-18的类别激活权重softmax weight的可视化,其输 出top3类别为boxer=0.426,bull mastiff=0.265,tiger cat=0.175,其中softmaxweight1~3分别与之对应。同理,图9中(b)表示对类别激活权重average gradient 的可视化。可以看出,对于同一类别激活权重,在同一通道上,不同输出类别对 应的权重值差异巨大,表示该通道对各输出类别的贡献大小互不相同。因此,由 于权重值的差异化,其与特征图的加权叠加才能够出现不同的类别激活区域效果。 同时,对图9(a)和(b)中各类别对应的权重曲线进行横向比较,进一步验证了上一小节的结论。
2、类别激活图可视化与比较实验
通过3组实验,对本发明提出的Att-CAM方法的可视化效果进行验证,以 及与其它几种可视化方法的效果对比。
(1)Att-CAM与CAM、Grad-CAM可视化效果比较
在同一输入图像上,对4种CNN网络:SqueezeNet、ResNet-18、ResNet-50 和DenseNet-161,分别采用3种可视化方法:CAM、Grad-CAM、Att-CAM(本 文方法)进行效果比较,如图10所示。这里应用的4种CNN结构中,都带有 GAP层进行全局平均池化,因此根据类别激活权重分析,可在其上同时使用CAM 和Grad-CAM可视化,这样可保证预训练网络结构及参数的一致性。
从图10所示可视化结果,可以看到:
a.从横向看,在同一CNN结构下,采用CAM、Grad-CAM和Att-CAM这3 种可视化方法,可看到本发明提出的Att-CAM方法的可视化效果更好。由于 Att-CAM所使用的注意力权重同时包含了2种类别激活权重,因此对区分性特 征区域定位效果更好;
b.从纵向看,对于同一种可视化方法,对比在不同网络下的可视化效果。从 表1可以看出,这4种网络的分类错误率高低依次为: SqueezeNet>ResNet-18>ResNet-50>DenseNet-161,即分类准确率顺序相反。因此, 从可视化效果对比发现,分类网络自身的准确率越高,生成的热力图定位效果越 好。直观地理解,CNN自身性能越好,其中间层特征图对目标物体的特征关注越集中,学习到的特征越全面,因此采用特征图加权的方式生成的热力图解释效 果也更好。
(2)Att-CAM关于不同输出类别的可视化
Att-CAM方法使用的注意力权重来自两种类别激活权重,这些类别激活权 重与网络输出类别直接相关,因此,Att-CAM方法可对特定类别特征进行可视 化,对和输出类别相关的感兴趣区域进行定位。如图11所示,表示对 DenseNet-161各个输出类别进行可视化解释。对于图11中原图(a),DenseNet-161top5分类结果分别为:flowerpot=0.270,littleblue heron=0.148,hummingbird=0.069, walkingstick=0.062,bulbul=0.051;对于图11中原图(b),DenseNet-161top5分 类结果分别为:schooner=0.821,pirate ship=0.051,yawl=0.021,wreck=0.013, dock=0.009;对于图11中原图(c),DenseNet-161top5分类结果分别为:studio couch=0.860,bookcase=0.118,library=0.010,rocking chair=0.003,table lamp =0.002;在每个类别对应的类别激活图中,与该分类结果最相关的图像区域被高 亮,表示该区域最能支撑当前分类结果。
由图11所示的可视化结果,并结合类别激活权重分析可以得知,可视化效 果与输出类别非常相关,不同类别对应的类别激活权重显著不同,因而生成的类 别激活图可实现对特定输出类别的解释。但可视化效果与该类别对应的得分无关, 即图像属于该类别的可能性大小并不会影响其可视化效果。
(3)Att-CAM关于同一类别图像的可视化
选取同一类别的多张图像,可视化其中的区分性特征,测试Att-CAM从不 同图像中定位同类目标的能力,如图12所示,表示对属于4个类别“spider”、 “hourglass”、“chimpanzee”和“butterfly”的不同图像进行区分性特征定位结果。
图12可视化结果表明,对于同一类别的图像,在分类结果相同的情形下, Att-CAM方法能够有效地定位与该图像中目标相关的区域。同时,对于有些图 像中像素非常相近的目标,该方法也可从中寻找到合理的区域以解释当前分类结 果,表明Att-CAM可视化方法具有较好的鲁棒性。
本发明在详细分析特征图可视化、CAM和Grad-CAM方法的基础上,通过 对不同池化情形下的类别激活权重进行研究分析,发现不同的类别激活权重之间 存在一致的线性对应关系,据此提出了涉及一种基于注意力的CNN类别激活图 生成方法Att-CAM,该方法将不同的类别激活权重结合作为注意力权重,可在 同时关注特征图通道特征和空间分布特征的情况下,提升类别激活图生成质量。 实验结果表明,与现有的方法相比,本文方法能够有效提升类别激活图的可视化 效果。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些 改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于注意力的CNN类别激活图生成方法,其特征在于,包括:
步骤1:计算特征图M=(M0,M1,...,MK-1)每个像素点的梯度值作为神经元类别相关的空间注意力权重;
步骤2:获取各类别神经元对应的连接权重作为通道注意力权重;
步骤3:根据空间注意力权重及通道注意力权重生成CNN类别激活图;
在所述步骤1之前还包括:
在含有GAP层或不含有GAP层的CNN中,对输入特征图M=(M0,M1,...,MK-1)进行特征提取与分类层神经元分类;
计算第一类别激活权重及第二类别激活权重的关系,将第一类别激活权重作为通道注意力权重,将第二类别激活权重作为空间注意力权重;所述第一类别激活权重为各类别神经元的连接权重,所述第二类别激活权重为关于神经元类别c的梯度值;第一类别激活权重及第二类别激活权重的关系如下:
其中,为一端与ml相连接且另一端与分类层第c类神经元相连接的权重,ml表示通道Ml平均池化后的值,/>表示l通道内位置(i,j)处的梯度值,l表示通道号,K表示通道数目;
所述步骤3包括:
按照如下公式根据空间注意力权重及通道注意力权重生成CNN类别激活图
其中,表示梯度矩阵的l通道每个元素值对应像素点的梯度值,H和W分别表示高和宽;
根据第一类别激活权重及第二类别激活权重的关系对式(10)进一步变形,得到空间-通道注意力权重调节的类别激活图生成公式:
2.根据权利要求1所述的基于注意力的CNN类别激活图生成方法,其特征在于,所述步骤1包括:
对CNN输出的分值反向传播,计算特征图中每个像素点关于得分的梯度作为类别相关的空间注意力权重,得到空间注意力权重矩阵,即像素级梯度矩阵gc
其中,表示梯度矩阵的l通道每个元素值对应像素点的梯度值。
3.根据权利要求2所述的基于注意力的CNN类别激活图生成方法,其特征在于,所述步骤2包括:
获取分类层各类别神经元的连接权重作为各类别神经元对应的通道注意力权重,得到通道注意力权重矩阵,即连接权重矩阵wc
CN201911241048.0A 2019-12-06 2019-12-06 基于注意力的cnn类别激活图生成方法 Active CN111046939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911241048.0A CN111046939B (zh) 2019-12-06 2019-12-06 基于注意力的cnn类别激活图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911241048.0A CN111046939B (zh) 2019-12-06 2019-12-06 基于注意力的cnn类别激活图生成方法

Publications (2)

Publication Number Publication Date
CN111046939A CN111046939A (zh) 2020-04-21
CN111046939B true CN111046939B (zh) 2023-08-04

Family

ID=70235052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911241048.0A Active CN111046939B (zh) 2019-12-06 2019-12-06 基于注意力的cnn类别激活图生成方法

Country Status (1)

Country Link
CN (1) CN111046939B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327190A (zh) 2020-02-28 2021-08-31 阿里巴巴集团控股有限公司 图像、数据处理的方法和装置
CN112101438B (zh) * 2020-09-08 2024-04-16 南方科技大学 一种左右眼分类方法、装置、服务器和存储介质
CN112130200B (zh) * 2020-09-23 2021-07-20 电子科技大学 一种基于grad-CAM注意力引导的断层识别方法
CN112200794A (zh) * 2020-10-23 2021-01-08 苏州慧维智能医疗科技有限公司 一种基于卷积神经网络的多模型糖网病变自动筛查方法
CN112560039B (zh) * 2020-12-25 2023-04-18 河南交通职业技术学院 一种计算机安全防护方法
CN112651407B (zh) * 2020-12-31 2023-10-20 中国人民解放军战略支援部队信息工程大学 一种基于区分性反卷积的cnn可视化方法
CN112560999B (zh) * 2021-02-18 2021-06-04 成都睿沿科技有限公司 一种目标检测模型训练方法、装置、电子设备及存储介质
CN112906867B (zh) * 2021-03-03 2023-09-15 安徽省科亿信息科技有限公司 一种基于像素梯度加权的卷积神经网络特征可视化方法及系统
CN113033549B (zh) * 2021-03-09 2022-09-20 北京百度网讯科技有限公司 定位图获取模型的训练方法和装置
CN113095382B (zh) * 2021-03-30 2022-07-26 浙江大学 基于ct图像的可解释性肺结核分类网络识别方法
CN113077466A (zh) * 2021-05-11 2021-07-06 清华大学深圳国际研究生院 基于多尺度感知损失的医学图像分类方法和装置
CN113744284B (zh) * 2021-09-06 2023-08-29 浙大城市学院 脑肿瘤图像区域分割方法、装置、神经网络及电子设备
CN113780557B (zh) * 2021-11-11 2022-02-15 中南大学 基于免疫理论的对抗图像攻击方法、装置、产品及介质
WO2023220859A1 (en) * 2022-05-16 2023-11-23 Intel Corporation Multi-dimensional attention for dynamic convolutional kernel

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563999A (zh) * 2017-09-05 2018-01-09 华中科技大学 一种基于卷积神经网络的芯片缺陷识别方法
WO2019057200A1 (zh) * 2017-09-25 2019-03-28 清华大学 检查方法和检查设备以及计算机可读介质
CN109858482A (zh) * 2019-01-16 2019-06-07 创新奇智(重庆)科技有限公司 一种图像关键区域检测方法及其系统、终端设备
CN109858506A (zh) * 2018-05-28 2019-06-07 哈尔滨工程大学 一种面向卷积神经网络分类结果的可视化算法
CN110322509A (zh) * 2019-06-26 2019-10-11 重庆邮电大学 基于层级类激活图的目标定位方法、系统及计算机设备
JP2019192082A (ja) * 2018-04-27 2019-10-31 Awl株式会社 学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563999A (zh) * 2017-09-05 2018-01-09 华中科技大学 一种基于卷积神经网络的芯片缺陷识别方法
WO2019057200A1 (zh) * 2017-09-25 2019-03-28 清华大学 检查方法和检查设备以及计算机可读介质
JP2019192082A (ja) * 2018-04-27 2019-10-31 Awl株式会社 学習用サーバ、不足学習用画像収集支援システム、及び不足学習用画像推定プログラム
CN109858506A (zh) * 2018-05-28 2019-06-07 哈尔滨工程大学 一种面向卷积神经网络分类结果的可视化算法
CN109858482A (zh) * 2019-01-16 2019-06-07 创新奇智(重庆)科技有限公司 一种图像关键区域检测方法及其系统、终端设备
CN110322509A (zh) * 2019-06-26 2019-10-11 重庆邮电大学 基于层级类激活图的目标定位方法、系统及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
司念文等.基于注意力长短时记忆网络的中文词性标注模型.《计算机科学》.2018,第45卷(第4期),66-82. *

Also Published As

Publication number Publication date
CN111046939A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046939B (zh) 基于注意力的cnn类别激活图生成方法
Engstrom et al. Adversarial robustness as a prior for learned representations
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN110956126B (zh) 一种联合超分辨率重建的小目标检测方法
CN111199214B (zh) 一种残差网络多光谱图像地物分类方法
CN109712165B (zh) 一种基于卷积神经网络的同类前景图像集分割方法
CN112750201B (zh) 三维重建方法及相关装置、设备
CN111652822B (zh) 一种基于生成对抗网络的单幅图像阴影去除方法及系统
CN111563408B (zh) 多层次感知特征渐进自学习的高分辨率影像滑坡自动检测方法
US10832180B2 (en) Artificial intelligence system that employs windowed cellular automata to create plausible alternatives
CN117597703A (zh) 用于图像分析的多尺度变换器
CN114241277A (zh) 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质
Chen et al. Geo-defakehop: High-performance geographic fake image detection
Zhang et al. Multiresolution attention extractor for small object detection
Jain et al. Analyzing and improving neural networks by generating semantic counterexamples through differentiable rendering
Maciejewski Data representations, transformations, and statistics for visual reasoning
Wang et al. Spectral-spatial global graph reasoning for hyperspectral image classification
Li et al. A novelty harmony search algorithm of image segmentation for multilevel thresholding using learning experience and search space constraints
CN116228753B (zh) 肿瘤预后评估方法、装置、计算机设备和存储介质
Yang et al. FishFormer: Annulus slicing-based transformer for fisheye rectification with efficacy domain exploration
Wang et al. Detection of plane in remote sensing images using super-resolution
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
CN112529025A (zh) 一种数据处理方法及装置
Ke et al. Scale-aware dimension-wise attention network for small ship instance segmentation in synthetic aperture radar images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant