CN114723049A - 一种基于梯度优化的类激活映射方法及装置 - Google Patents
一种基于梯度优化的类激活映射方法及装置 Download PDFInfo
- Publication number
- CN114723049A CN114723049A CN202210450329.2A CN202210450329A CN114723049A CN 114723049 A CN114723049 A CN 114723049A CN 202210450329 A CN202210450329 A CN 202210450329A CN 114723049 A CN114723049 A CN 114723049A
- Authority
- CN
- China
- Prior art keywords
- class activation
- gradients
- gradient
- image
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于梯度优化的类激活映射方法及装置。首先将电气设备图像输入至已训练好的卷积神经网络提取目标卷积层的特征图,同时网络输出能预测该图像类别的分数,利用反向传播计算特征图相对于分数的梯度;对得到的梯度进行优化处理,并使所有梯度都转换为正梯度后得到正相关梯度,将正相关梯度进行全局平均池化操作得到权重,最后将权重与特征图线性结合,并进行上采样和归一化操作得到初始类激活图;将得到的初始类激活图与输入图像点乘后再送入卷积神经网络,经过softmax操作后得到分数;将的分数与初始类激活图相乘,ReLU操作后得到最后的类激活图。本发明通过优化梯度使类激活图中显著性区域更加集中。
Description
技术领域
本发明涉及计算机视觉、深度学习可解释性领域,主要涉及一种基于梯度优化的类激活映射方法及装置。
背景技术
近几年,深度学习的可解释性成为当前人工智能领域研究的新课题,引起了学术界和企业界的高度关注。深度学习可解释性是指模型决策结果以可理解的方式向人类呈现,它有助于人们理解复杂模型的内部工作机制、做出特定决策的依据、以及系统的可靠性。为了提高模型透明度,诸多可解释性方法被提出,主要包括基于梯度方法、基于类激活映射方法、基于扰动解释方法。基于类激活映射方法是目前最先进的可视化显著图技术,根据权重获取方式的不同,该方法又分为基于梯度(Gradient-based)、无梯度(Gradient-free)两大类。基于梯度的类激活映射方法使用反向传播中获取的通道梯度均值作为通道权重,再与激活图线性结合生成类激活图来可视化CNN的关注区域。该方法生成的类激活图具有较好的类别区分性,但其类激活图也存在较粗糙、具有一定噪声、会定位到与决策无关的特征等缺点。
通过对几种典型的基于类激活方法的原理分析可知,它们生成类激活图的方式大致相同,都是由权重和最高层特征图加权求和得到的,不同点在于权重的获取方式以及对应的数值。CAM的权重来自于softmax层某个类别神经元的连接权值。Grad-CAM的权重来自于反向传播获取的通道梯度均值。Score-CAM的权重来自于特征图的CIC分数。因此当选定的CNN模型、目标卷积层、特征图都相同时,类激活图的质量主要取决于权重的获取方式以及对应的数值。为了获得视觉效果更好的类激活图,基于类激活映射方法的研究重点在于合适权重的获取。其中Gradient-based CAM方法均使用反向传播获取的通道梯度均值作为通道权重,对应的显著图会存在一定的噪音,而且数值为负的梯度会影响类激活图显著性区域的集中性,正梯度可以增强输出神经元激活的视觉特征。为解决Gradient-based CAM方法的缺点,本发明提出一种新的CAM变体方法—Abs-CAM(Absolute valueClass Activation Mapping-based)。该方法在Grad-CAM的基础上,对反向传播求导得到的梯度进行优化,通过取绝对值的策略将梯度全部变成正梯度,使类激活图中显著性区域更加集中。受RISE、Score-CAM框架结构的启发,将其整体结构分为生成初始类激活图和生成最终类激活图两大部分。第一部分通过优化梯度使类激活图中显著性区域更加集中,第二部分将初始类激活图与原图叠加,增强类激活图的语义信息。
发明内容
本发明主要是解决现有Gradient-based CAM方法生成的类激活图存在较粗糙、具有一定噪声、会定位到与决策无关的特征等问题。如附图1所示,本发明提出一种基于梯度优化的类激活映射方法—Abs-CAM,生成的类激活图类激活图中显著性区域更加集中,区域边缘只有少量的冗余信息。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于梯度优化的类激活映射方法,其特征在于,包括:
将电气设备图像输入至已训练好的卷积神经网络提取目标卷积层的特征图,同时网络输出能预测该图像类别的分数,利用反向传播计算特征图相对于分数的梯度;
对得到的梯度进行优化处理,并使所有梯度都转换为正梯度后得到正相关梯度,将正相关梯度进行全局平均池化操作得到权重,最后将权重与特征图线性结合,并进行上采样和归一化操作得到初始类激活图;
将得到的初始类激活图与输入图像点乘后再送入卷积神经网络,经过softmax操作后得到分数;
在上述的一种基于梯度优化的类激活映射方法,提取目标卷积层的特征图、输出目标类别分数、计算反向传播梯度;具体包括:
步骤1.2、输出目标类别分数:经过softmax操作后,模型Y输出预测该图像类别的分数Yc'(X0);
在上述的一种基于梯度优化的类激活映射方法,优化处理得到初始类激活图具体包括:
其中U表示上采样操作,S表示归一化操作。
在上述的一种基于梯度优化的类激活映射方法,点乘初始类激活图和输入图像获取得分具体包括:
步骤3.1、点乘初始类激活图和输入图像:将初始类激活图M0与输入图像X0点乘得到M1;
M1=M0·X (5)
步骤3.2、获取分数:然后将M1送入模型,经过softmax后得到Yc(M1)。
在上述的一种基于梯度优化的类激活映射方法,最终类激活图的获取具体包括:
一种基于梯度优化的类激活映射装置,其特征在于,包括:
第一模块:将电气设备图像输入至已训练好的卷积神经网络提取目标卷积层的特征图,同时网络输出能预测该图像类别的分数,利用反向传播计算特征图相对于分数的梯度;
第二模块:对得到的梯度进行优化处理,并使所有梯度都转换为正梯度后得到正相关梯度,将正相关梯度进行全局平均池化操作得到权重,最后将权重与特征图线性结合,并进行上采样和归一化操作得到初始类激活图;
第三模块:将得到的初始类激活图与输入图像点乘后再送入卷积神经网络,经过softmax操作后得到分数;
因此,本发明具有如下优点:
1.对反向传播求导得到的梯度进行优化,通过取绝对值的策略将梯度全部变成正梯度,使类激活图中显著性区域更加集中。
2.受RISE、Score-CAM框架结构的启发,将其整体结构分为生成初始类激活图和生成最终类激活图两大部分。第一部分通过优化梯度使类激活图中显著性区域更加集中,第二部分将初始类激活图与原图叠加,增强类激活图的语义信息。
附图说明
附图1是本发明的基于梯度优化的类激活映射方法框架图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本发明为一种基于梯度优化的类激活映射方法,本发明的算法流程图如图1所示,可以分为四部分:1)提取目标卷积层的特征图、输出目标类别分数、计算反向传播梯度;2)优化梯度、全局平均池化得到权重、得到初始类激活图;3)点乘初始类激活图和输入图像、获取得分;4)得到最终类激活图。
步骤一:提取目标卷积层的特征图、输出目标类别分数、计算反向传播梯度,步骤如下:
B、输出目标类别分数:经过softmax操作后,模型Y输出预测该图像类别的分数Yc'(X0);
步骤二:优化梯度、全局平均池化得到权重、得到初始类激活图,步骤如下:
其中U表示上采样操作,S表示归一化操作
步骤三:点乘初始类激活图和输入图像、获取得分,步骤如下:
A、点乘初始类激活图和输入图像:将初始类激活图M0与输入图像X0点乘得到M1。
M1=M0·X (11)
B、获取分数:然后将M1送入模型,经过softmax后得到Yc(M1);
步骤四:得到最终类激活图,步骤如下:
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (6)
4.根据权利要求1所述的一种基于梯度优化的类激活映射方法,其特征在于,点乘初始类激活图和输入图像获取得分具体包括:
步骤3.1、点乘初始类激活图和输入图像:将初始类激活图M0与输入图像X0点乘得到M1;
M1=M0.X (5)
步骤3.2、获取分数:然后将M1送入模型,经过softmax后得到Yc(M1)。
6.一种基于梯度优化的类激活映射装置,采用权利要求1至5任意一项所述方法,其特征在于,包括:
第一模块:将电气设备图像输入至已训练好的卷积神经网络提取目标卷积层的特征图,同时网络输出能预测该图像类别的分数,利用反向传播计算特征图相对于分数的梯度;
第二模块:对得到的梯度进行优化处理,并使所有梯度都转换为正梯度后得到正相关梯度,将正相关梯度进行全局平均池化操作得到权重,最后将权重与特征图线性结合,并进行上采样和归一化操作得到初始类激活图;
第三模块:将得到的初始类激活图与输入图像点乘后再送入卷积神经网络,经过softmax操作后得到分数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450329.2A CN114723049A (zh) | 2022-04-26 | 2022-04-26 | 一种基于梯度优化的类激活映射方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450329.2A CN114723049A (zh) | 2022-04-26 | 2022-04-26 | 一种基于梯度优化的类激活映射方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114723049A true CN114723049A (zh) | 2022-07-08 |
Family
ID=82244779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210450329.2A Pending CN114723049A (zh) | 2022-04-26 | 2022-04-26 | 一种基于梯度优化的类激活映射方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114723049A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861930A (zh) * | 2022-12-13 | 2023-03-28 | 南京信息工程大学 | 一种基于层级差异特征聚合的人群计数网络建模方法 |
-
2022
- 2022-04-26 CN CN202210450329.2A patent/CN114723049A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861930A (zh) * | 2022-12-13 | 2023-03-28 | 南京信息工程大学 | 一种基于层级差异特征聚合的人群计数网络建模方法 |
CN115861930B (zh) * | 2022-12-13 | 2024-02-06 | 南京信息工程大学 | 一种基于层级差异特征聚合的人群计数网络建模方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287849B (zh) | 一种适用于树莓派的轻量化深度网络图像目标检测方法 | |
CN109816593B (zh) | 一种基于注意力机制的生成对抗网络的超分辨率图像重建方法 | |
CN108985317B (zh) | 一种基于可分离卷积和注意力机制的图像分类方法 | |
CN110046671A (zh) | 一种基于胶囊网络的文本分类方法 | |
CN109035251B (zh) | 一种基于多尺度特征解码的图像轮廓检测方法 | |
CN109948692B (zh) | 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法 | |
CN111861906B (zh) | 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法 | |
CN112418330A (zh) | 一种基于改进型ssd的小目标物体高精度检测方法 | |
CN112488025B (zh) | 基于多模态特征融合的双时相遥感影像语义变化检测方法 | |
CN107330355A (zh) | 一种基于正样本平衡约束的深度行人再标识方法 | |
CN111553462A (zh) | 一种类激活映射方法 | |
CN112036419B (zh) | 一种基于VGG-Attention模型的SAR图像部件解译方法 | |
CN112766283B (zh) | 一种基于多尺度卷积网络的两相流流型识别方法 | |
CN111046917A (zh) | 基于深度神经网络的对象性增强目标检测方法 | |
CN109712108A (zh) | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN111815526B (zh) | 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统 | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN114723049A (zh) | 一种基于梯度优化的类激活映射方法及装置 | |
CN114565628A (zh) | 一种基于边界感知注意的图像分割方法及系统 | |
CN112163447B (zh) | 基于Attention和SqueezeNet的多任务实时手势检测和识别方法 | |
Ling et al. | A facial expression recognition system for smart learning based on YOLO and vision transformer | |
CN114723733A (zh) | 一种基于公理解释的类激活映射方法及装置 | |
CN116977280A (zh) | 基于改进UPerNet与连通域分析的轨面缺陷检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |