CN112926696A - 一种基于注意力图的可解释局部迁移互学习方法 - Google Patents
一种基于注意力图的可解释局部迁移互学习方法 Download PDFInfo
- Publication number
- CN112926696A CN112926696A CN202110426494.XA CN202110426494A CN112926696A CN 112926696 A CN112926696 A CN 112926696A CN 202110426494 A CN202110426494 A CN 202110426494A CN 112926696 A CN112926696 A CN 112926696A
- Authority
- CN
- China
- Prior art keywords
- attention
- model
- local
- map
- diagram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013508 migration Methods 0.000 title claims abstract description 40
- 230000005012 migration Effects 0.000 title claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 230000004913 activation Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 23
- 238000005259 measurement Methods 0.000 claims description 10
- 239000010410 layer Substances 0.000 claims description 7
- 239000011229 interlayer Substances 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000012800 visualization Methods 0.000 abstract description 7
- 230000000007 visual effect Effects 0.000 abstract description 6
- 230000009467 reduction Effects 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000006096 Attention Deficit Disorder with Hyperactivity Diseases 0.000 description 1
- 208000036864 Attention deficit/hyperactivity disease Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 208000015802 attention deficit-hyperactivity disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000013403 hyperactivity Diseases 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力图迁移的局部互学习方法,致力于提高模型注意力图标注精度,从而提升模型的可解释性。首先采用两个轻量模型,在迁移过程中,模型间通过Pearson算法度量注意力图之间的距离,随着训练过程互相学习对方注意力图。为了避免负迁移的影响,注意力图进行了区域划分,设置阈值,选择高相似度的注意力图部分进行迁移。本发明所提出算法与最先进方法相比分别实现了可视化可解释性置信度28.2%的平均下降率和29.5%的平均增长率,在很大程度上优于其他基于输入扰动与基于类激活映射的方法,同时能够标注样本图片中最响应区域,而不局限于视觉可视化区域。
Description
技术领域
本发明属于图像识别技术领域,可应用于工业,金融,医疗等场景下的深度学习模型解释中。
背景技术
在卷积神经模型中,特征可视化具备的可解释性对直观理解模型决策具有重要作用。Simonyan等人提出了基于梯度的此类方法,该方法基于深度卷积模型中最大值分类的输出得分,对该类的特征进行了可视化。Zeiler等人提出了反卷积模型,该模型与原始模型共享权重,并用于将某些特征投影到图像平面上,从而对图片进行可视化。通过引入正则化进一步优化激活最大化的方法,使可视化图像更清晰、更具可解释性。Shi等人提出了向上卷积模型将CNN特征图反转为图像,将上卷积视为一种间接说明与特征图相对应的图像外观的工具。然而与基于梯度的方法相比,上卷积方法无法在数学上确保可视化结果准确反映CNN中的特征表示。
注意力可视化模型是通过可视化解释深度学习模型表示的另一种典型技术。基于注意力机制最早是由Larochelle等人通过受限布尔兹曼机完成的,Selvaraju等人提出了Grad-CAM,这是一种结合了引导反向传播和CAM的方法。此方法对分类结果贡献度较高区域可视化,对模型预测提供更好的视觉可解释性。与此同时,注意力图作为特征可视化的另一个重要方法,备受关注。近年来,注意力机制开始应用于基于递归神经模型的机器翻译等方面及一些与NLP相关的任务。
在模型结构优化中,蒸馏模型由Hinton等人提出,该模型利用预训练模型作为教师为学生模型提供额外的知识,实验表明小模型通过模仿大模型估计的类别概率,表现出与大模型相近的性能。然而,蒸馏模型需要预训练教师模型作为先验知识,仅对小模型进行单向的知识传递,小模型学习过程中难以向教师模型反馈信息以对训练过程进行优化。因此模型的准确性与可解释性具有局限性。
在传统教师模型对模型进行注意力图传递的模型中,模型能够学习到教师模型所学习的注意力图与知识,从而取得很好的检测效果。在之前的工作中,常见的方法是模型进行全局的互相迁移学习,即选取整幅图像进行迁移。传统方法没有考虑到模型自身注意力图权重分布不同对迁移学习产生的影响。在大部分情况下,经过训练的模型,由于其先验知识受到教师模型的限制造成其注意力图存在标注不准确甚至标注错误的问题。并且,当模型需要学习新的知识时,重复训练教师模型开销较大。因此现有算法具有较大局限性。
发明内容
发明目的:为解决目前模型所构建的注意力图标注区域出现偏差导致模型可解释性较差的问题。在全局注意力图迁移算法的基础之上,本发明提出了一种基于注意力图迁移的局部互学习方法,致力于提高模型注意力图标注精度,使得模型的可解释性得到提升。
技术方案:本发明提出了基于注意力图的可解释局部迁移互学习方法,包括以下步骤:
步骤1.1:选取两个轻量模型作为候选模型进行协同训练,分别为ST1模型与ST2模型,并于模型层间提取出权重构建特征图,采用特征图叠加方式构建注意力图;
步骤1.2:依据注意力图尺寸对注意力图进行划分,获取局部注意力图;
步骤1.3:对局部注意力图进行相似度度量,获取局部注意力图间相似度。通过设定阈值选取相似度高的局部注意力图;
步骤1.4:对局部注意力图进行矢量化,构建损失函数进行模型间注意力图迁移过程。
2、根据权利要求1所述的一种基于注意力图的可解释局部迁移互学习方法,其特征在于,所述步骤1.1中提取模层间特征图的方法如下:
步骤2.1:以残差网络为例,模型在每一个残差块后提取出模型特征图组;
步骤2.2:根据卷积核通道数确定特征图数量,较低层级为低级边角特征,较高层级为全局特征;
步骤2.3:将上模型特征图对应的3D激活张量A∈fC×H×W作为输入,H、W分别为特征图高度与宽度,C为通道数;
步骤2.4.:将激活张量A传入映射函数F后,输出空间注意图,所使用的特征图叠加公式F(A)具体如下:
其中i表示特征图索引,指数表示特征图叠加方式。
3、根据权利要求1所述的一种基于注意力图的可解释局部迁移互学习方法,其特征在于,所述步骤1.2中对全局注意力图划分的方法如下:
步骤3.1:以卷积核的大小为基准对全局注意力图进行划分;
步骤3.2:将局部注意力图使用K={1,2,...i...,k}表示,可表示为:
其中QS1表示ST1模型局部注意力图组,QS2表示ST2模型局部注意力图组,i表示局部注意力图索引。
4、根据权利要求1所述的一种基于注意力图的可解释局部迁移互学习方法,其特征在于,所述步骤1.3中选取局部注意力图的方法如下:
步骤4.1:选取前80%相似度局部注意力图作为阈值;
步骤4.2:对应局部注意力图进行归一化处理;
步骤4.3:使用皮尔逊算法对局部注意力图进行度量;
计算其余弦距离得出余弦值并以此衡量两个向量间相似度,具体如下所示:
4、根据权利要求1所述的一种基于注意力图的可解释局部迁移互学习方法,其特征在于,所述步骤1.4中,局部迁移互学习方法具体实现过程如下:
步骤4.1:使用L(W,x)为传统的标准交叉熵损失函数;
步骤4.3:依据损失函数对模型进行训练,总体损失函数如下所示:
本发明的有益效果:
1、基于注意力图的可解释局部迁移互学习方法,融合深度互学习模型和注意力图,在很大程度上克服注意力图标注区域出现偏差导致的可解释性下降的问题;
2、另外,采用了皮尔逊度量算法能够很大程度的避免样本数据信息缺失对度量结果的干扰,同时使用模型层间特征图叠加所得的注意力图作为深度互学习模型的输入,能够适当弥补仅通过独立模型训练导致注意图标注不准确造成的可视化可解释性的损失。
3、本发明所提出算法分别实现了注意力图可视化可解释性置信度28.2%的平均下降率和29.5%的平均增长率,在很大程度上优于其他基于输入扰动与基于类激活映射的方法。同时本发明所提出算法能够成功地找出样本图像中最响应区域,而不局限于视觉可视化区域,能更为准确地揭示原始CNN模型的决策依据。
附图说明
图1是基于注意力图的可解释局部迁移互学习算法结构图;
图2是模型结构示意图;
图3是注意力图构建示意图;
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明所述基于注意力图的可解释局部迁移互学习方法主要包括注意力图构建、注意力图相似度度量、局部注意力图迁移以及互迁移等步骤。下面将从这几个方面详细阐述本发明的实施方法。
针对目前模型特征图可视化方案中特征图标注区域不准确、标注错误导致模型可解释性下降的问题。本发明提出了一种基于注意力图的可解释局部迁移互学习算法。主要包括注意力图构建算法,注意力图相似度度量算法及注意力图局部迁移算法三部分。
如图2所示,本发明提出一种基于注意力图的可解释局部迁移互学习方法,对模型可解释性进行提升。主要使用两个轻量模型在迁移过程中同时训练,不同模型学习到不同的权重知识并于层间提取出特征图从而构建注意力图,将注意力图进行划分后,对局部注意力图相似度度量并进行迁移学习。提升模型的泛化能力,使注意力图标注更为准确从而提升模型的可解释性。
如图3所示,首先,在特征提取方面,以ResNet-50残差网络为例,ResNet-50基于Bottleneck实现,使用residual block搭建layer层。Layer1尺寸为256×56×56,其输入进入layer2的第1个block后,通过conv1削减通道数,conv2将尺寸降低。由于尺寸发生变化,将输入进行downsample,通过stride=2的1×1卷积层实现。与此同时于每一个残差块后提取出模型特征图组,根据卷积核通道数确定特征图数量,较低层级为低级边角特征,较高层级为全局特征。
在注意力图构建过程中,首先将上述训练过程中模型特征图,即其对应的3D激活张量A∈fC×H×W作为输入,H、W分别为特征图高度与宽度,C为通道数。将A传入映射函数F后,输出空间注意图。映射函数F如下所示:
后续将对注意力图进行相似度度量,选取模型构建的注意力图中高相似度区域,并通过注意力图互迁移损失函数进行迁移。
为此本发明提出模型层间注意图度量算法。由模型对于同一样本不同的初始权重开始,为相互学习提供了额外的知识。由于模型层间对于样本的注意力图权重是不同的,因此相互学习网络中,学生网络需要对模型间注意力图进行度量,从每个训练实例找出并匹配相似特征从而增加每个学生网络的后验熵,提升模型准确度与泛化能力。因此使用何种图像度量方式至关重要。
在图像分类领域中,图像间的距离算法直接影响输出结果的准确性。通常情况下,度量图像间距离可直观反映图像之间的相似度,距离越近,则相似度越高,距离越远,则相似度越低。皮尔逊相关性度量能够在图片发生尺度放缩、平移、旋转等数据不规范的情况下给出更好的结果。因此本发明选择采用皮尔逊度量算法度量注意力图间相似度。
在皮尔逊算法中,两个特征向量之间的距离表示如下:
首先,获得基于模型间特征图构建的注意力图后,对模型输出特征映射的尺寸进行调整。为避免负迁移对于迁移学习造成的不良影响,需对全局注意力图进行划分。
若模型层间注意力图尺寸为H×W,为保证上采样对注意力图空间信息的完整性,本发明以特征图所在卷积层中卷积核的大小为基准对注意力图进行划分,同时对注意力图进行像素填充。K={1,2,...i...,k}为局部注意力图标号,则局部注意力图如下所示:
对得到的局部注意力通过皮尔逊距离进行相似度度量,同时,为避免负迁移对于注意力图标注带来的负面影响,通过设定阈值λ对相似度较高区域进行迁移,对相似度较低区域进行丢弃。虽然在学习注意力图过程中丢弃部分低相似度区域,迁移过程中模型在保留自身权重知识的基础上,根据损失函数中设定超参数决定模型学习外部知识的程度,因此对模型本身特征权重的学习并未产生损害。
由此,通过皮尔逊度量对应注意力图的相似度,并通过设定阈值确定ST1模型与ST2模型之间需要进行迁移的局部注意力图,以此提升模型注意力图标注的准确性。本节提出的算法有效避免了负迁移对模型分类精度和注意力图标注带来的影响。
局部注意力图将通过注意力迁移损失函数实现ST1模型与ST2模型之间的迁移。令S1,S2和W分别表示ST1模型与ST2模型及其各自权重。所提出损失函数如下所示:
损失函数由两部分组成,第一部分L(W,x)为传统的标准交叉熵损失函数,表示模型训练过程中对自身权重进行更新。第二部分由局部注意力图互学习构成,j表示为第j对模型之间注意力图的索引。在注意力图迁移过程中,使用二范数正则化注意力图,在公式中使用替换矢量化注意力图Q,通过将局部注意力图矢量化,使用二范数度量矩阵权重的距离,得到损失函数并对模型进行训练。为人工设定的权值,表示外部知识对于网络模型的影响程度。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于注意力图的可解释局部迁移互学习方法,其特征在于,包括如下步骤:
步骤1.1:选取两个轻量模型作为候选模型进行协同训练,分别为ST1模型与ST2模型,并于模型层间提取出权重构建特征图,采用特征图叠加方式构建注意力图;
步骤1.2:依据注意力图尺寸对注意力图进行划分,获取局部注意力图;
步骤1.3:对局部注意力图进行相似度度量,获取局部注意力图间相似度。通过设定阈值选取相似度高的局部注意力图;
步骤1.4:对局部注意力图进行矢量化,构建损失函数进行模型间注意力图迁移过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110426494.XA CN112926696A (zh) | 2021-04-20 | 2021-04-20 | 一种基于注意力图的可解释局部迁移互学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110426494.XA CN112926696A (zh) | 2021-04-20 | 2021-04-20 | 一种基于注意力图的可解释局部迁移互学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112926696A true CN112926696A (zh) | 2021-06-08 |
Family
ID=76174581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110426494.XA Pending CN112926696A (zh) | 2021-04-20 | 2021-04-20 | 一种基于注意力图的可解释局部迁移互学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926696A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806547A (zh) * | 2021-10-15 | 2021-12-17 | 南京大学 | 一种基于图模型的深度学习多标签文本分类方法 |
CN114580571A (zh) * | 2022-04-01 | 2022-06-03 | 南通大学 | 一种基于迁移互学习的小样本电力设备图像分类方法 |
CN114814776A (zh) * | 2022-06-24 | 2022-07-29 | 中国空气动力研究与发展中心计算空气动力研究所 | 基于图注意力网络和迁移学习的pd雷达目标检测方法 |
CN114913321A (zh) * | 2022-03-30 | 2022-08-16 | 南开大学 | 基于局部到全局知识迁移的物体注意力挖掘方法及系统 |
CN115937617A (zh) * | 2023-03-06 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 一种风险识别模型训练、风险控制方法、装置和设备 |
-
2021
- 2021-04-20 CN CN202110426494.XA patent/CN112926696A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806547A (zh) * | 2021-10-15 | 2021-12-17 | 南京大学 | 一种基于图模型的深度学习多标签文本分类方法 |
CN113806547B (zh) * | 2021-10-15 | 2023-08-11 | 南京大学 | 一种基于图模型的深度学习多标签文本分类方法 |
CN114913321A (zh) * | 2022-03-30 | 2022-08-16 | 南开大学 | 基于局部到全局知识迁移的物体注意力挖掘方法及系统 |
CN114913321B (zh) * | 2022-03-30 | 2024-07-26 | 南开大学 | 基于局部到全局知识迁移的物体注意力挖掘方法及系统 |
CN114580571A (zh) * | 2022-04-01 | 2022-06-03 | 南通大学 | 一种基于迁移互学习的小样本电力设备图像分类方法 |
CN114814776A (zh) * | 2022-06-24 | 2022-07-29 | 中国空气动力研究与发展中心计算空气动力研究所 | 基于图注意力网络和迁移学习的pd雷达目标检测方法 |
CN114814776B (zh) * | 2022-06-24 | 2022-10-14 | 中国空气动力研究与发展中心计算空气动力研究所 | 基于图注意力网络和迁移学习的pd雷达目标检测方法 |
CN115937617A (zh) * | 2023-03-06 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 一种风险识别模型训练、风险控制方法、装置和设备 |
CN115937617B (zh) * | 2023-03-06 | 2023-05-30 | 支付宝(杭州)信息技术有限公司 | 一种风险识别模型训练、风险控制方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN112926696A (zh) | 一种基于注意力图的可解释局部迁移互学习方法 | |
US10410350B2 (en) | Skip architecture neural network machine and method for improved semantic segmentation | |
CN111738363B (zh) | 基于改进的3d cnn网络的阿尔茨海默病分类方法 | |
Luo et al. | FloorplanGAN: Vector residential floorplan adversarial generation | |
CN108052966A (zh) | 基于卷积神经网络的遥感图像场景自动提取和分类方法 | |
CN102542302A (zh) | 基于分等级对象语义图的复杂目标自动识别方法 | |
CN114897914A (zh) | 基于对抗训练的半监督ct图像分割方法 | |
CN111950525B (zh) | 一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法 | |
CN117541844B (zh) | 一种基于超图学习的弱监督组织病理学全切片图像分析方法 | |
CN116129141B (zh) | 医学数据处理方法、装置、设备、介质和计算机程序产品 | |
CN115761240B (zh) | 一种混沌反向传播图神经网络的图像语义分割方法及装置 | |
CN114372523A (zh) | 一种基于证据深度学习的双目匹配不确定性估计方法 | |
CN116977872A (zh) | 一种CNN+Transformer遥感图像检测方法 | |
CN117036288A (zh) | 一种面向全切片病理图像的肿瘤亚型诊断方法 | |
CN114170460A (zh) | 一种基于多模态融合的艺术品分类方法及系统 | |
CN117475228A (zh) | 一种基于双域特征学习的三维点云分类和分割方法 | |
CN117351194A (zh) | 基于互补图推理网络的涂鸦式弱监督显著性目标检测方法 | |
CN116778566A (zh) | 一种分类模型的训练方法和眼底图像分类方法 | |
CN111578956A (zh) | 一种基于深度学习的视觉slam定位方法 | |
CN113688864B (zh) | 一种基于分裂注意力的人-物交互关系分类方法 | |
Jain et al. | Flynet–neural network model for automatic building detection from satellite images | |
Zhang et al. | Nucleus image segmentation method based on GAN network and FCN model | |
Wei et al. | Wall segmentation in house plans: fusion of deep learning and traditional methods | |
Zhou et al. | Terrain Classification Algorithm for Lunar Rover Using a Deep Ensemble Network with High‐Resolution Features and Interdependencies between Channels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |