CN112861933A

CN112861933A - 一种深度神经网络模型可视化解释方法及系统

Info

Publication number: CN112861933A
Application number: CN202110088772.5A
Authority: CN
Inventors: 葛仕明; 化盈盈
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-28
Anticipated expiration: 2041-01-22
Also published as: CN112861933B

Abstract

本发明涉及一种深度神经网络模型可视化解释方法及系统。该方法包括：给定待解释的输入图片，利用变分自编码器生成合成图片；通过深度神经网络模型对合成图片打标签，依据合成图片的标签是否变化将合成图片分为两类，得到合成标签，从而得到合成数据集；在合成数据集上训练可解释模型，将深度神经网络模型的知识蒸馏到可解释模型中；根据训练好的可解释模型，建立输入图片和深度神经网络模型的预测结果的对应关系，进而得到一张显著图，从而实现对深度神经网络决策结果的解释。本发明能够提高深度神经网络模型的可解释性，使模型透明化，使用户更好地理解深度神经网络的决策过程，从而促进模型的实际部署，推动人工智能领域研究的发展。

Description

一种深度神经网络模型可视化解释方法及系统

技术领域

本发明属于计算机领域，尤其涉及一种深度神经网络模型可视化解释方法及系统。

背景技术

深度神经网络模型在许多领域都具有非常好的性能，比如人脸识别、图片分类、自然语言处理等，但是这种表现更多的依赖于模型高度的非线性和调参技术。人们无法探知深度模型究竟从数据中学到了哪些知识，以及如何进行最终决策的。这种“端到端”的决策模式导致深度神经网络模型的解释性极弱。站在人的角度分析，模型的决策过程是无法理解的，即深度神经网络模型是不可解释的。

深度神经网络模型的不可解释性存在很多的潜在危险，尤其在安全攻防领域。一方面会降低模型的可信度，难以建立人与机器之间的信任；另一方面也会带来难以解决的安全问题，比如对抗样本攻击模型时，很难说明是哪些原因导致结果出现了如此大的偏差，从而无法对模型的攻击进行追踪和溯源。此外，一个不可解释的模型由于无法给予用户更多可靠的信息，在很多领域的实际部署会受到极大地限制。模型的不可解释性所带来的一连串问题，也在不断驱动我们深入地探究如何提高深度学习模型的可解释性。因此，人们一直致力于更透彻地去理解深度学习模型内部复杂的过程，从而达到进一步优化模型的目的。

对于深度神经网络模型，可解释性主要体现在三个方面：第一，对于使用者来说，如果人工智能的技术只是提一些建议或者帮助我们做决定，那么做决定的人必须要能够理解这个决策，为什么人工智能系统给他们提了这个建议。比如，医生借助人工智能诊断疾病时，要能理解为什么医疗诊断系统做这样的建议。第二，对于受到AI(人工智能)影响的人，如果AI自己做了决定，那些受到决定影响的人要能够理解这个决定。第三，对于开发者来说，理解了深度学习的黑盒子，可以通过提供更好的学习数据，改善方法和模型，提高系统能力。而且提高深度学习模型的可解释性和透明度，将有助于模型的除错、引导未来的数据收集方向、为特征构建和人类决策提供真正可靠的信息，最终在人与模型之间建立信任。

为了提高深度学习模型的可解释性，已经提出了很多可解释性方法，比如利用特征重要性衡量不同特征对决策结果的影响，对不同的特征进行汇总统计或者显著性可视化，以此建立特征和预测之间的因果关系；或者利用本质上可解释的模型近似模拟黑盒模型，然后通过查看可解释性模型内部的参数或者特征统计信息来解释该黑盒模型。比如借助可解释的决策模型或稀疏性的线性模型来近似黑盒模型，可以通过蒸馏等方法，在可解释的模型上建立输入和输出之间的关系，实现可解释性的迁移。

目前可解释性的研究成果仍然无法满足对深度模型的要求，主要还存在以下问题：

1)对深度模型进行解释的效果不理想。尽管已经提出了很多的可解释性方法，有的方法也取得了不错的解释结果。但是目前所能实现的可解释性仍然达不到人们对神经网络的要求，深度模型内部的运作机制依旧不是人为可以理解的方式。目前的可解释性研究更多的还是停留于初级探索阶段，尤其在安全领域，从而限制了人工智能的进一步应用。

2)缺乏统一的可解释性评价指标。由于可解释的概念偏向于抽象，所以导致缺乏可信的评价指标，更多的是定性评价可解释性方法，缺少统一的定量指标。可解释性衡量指标的缺乏归根到底还是人们对人工智能的可解释性理解不够，从而会影响可解释性的研究。

3)可解释性的应用领域有限。已有的方法主要是用于解释深度学习在图像分析领域的应用，而在安全应用方面，比如逆向工程和恶意软件分析领域，缺乏可解释的研究。而且现有的方法通常有较低的解释精度。对于拥有模糊边界的应用而言，比如图像识别，相对较低的解释精度是可以接受的。但是对于安全应用，比如二进制分析而言，即使对于一个字节的解释偏差也会导致严重的误解或者错误。

发明内容

为解决上述问题，本发明目的在于提供一种深度神经网络模型可视化解释方法及系统，旨在提高深度神经网络模型的可解释性，使模型透明化，确保用户更好地理解深度神经网络的决策过程，从而促进模型的实际部署，推动人工智能领域研究的发展。

为实现上述目的，本发明的技术方案如下：

一种深度神经网络模型可视化解释方法，实现对深度神经网络模型预测结果的解释，其步骤如下：

1)给定待解释的输入图片x，利用变分自编码器(VAE)生成合成图片{x'}。

2)通过深度神经网络模型对合成图片{x'}打标签，依据合成图片的类别标签是否变化，将合成图片分为两类，得到新的合成标签y'，最终得到合成数据集{x',y'}。

3)在合成数据集上{x',y'}训练一个可解释模型，比如可解释的线性模型、决策树模型等，同时将深度神经网络模型的知识蒸馏到该可解释模型中。

4)根据训练好的可解释模型，可以建立输入图片x和深度神经网络模型的预测结果y的对应关系，最终可以得到一张显著图，非常直观地标记出对预测结果有显著影响的特征，进而实现对深度神经网络决策结果的解释。

进一步地，在生成合成图片时，采用的是预训练好的VAE，通过向VAE的隐特征中添加随机噪声，可以生成多张合成图片。

进一步地，该可视化解释方法中使用的是预训练好的深度神经网络模型，通过对合成图片打标签，可以把该模型的局部分类边界知识传递到合成数据集中。

进一步地，通过对比合成图片的预测结果和输入图片的预测结果是否一样，将图片分为0/1两类，可以更好的捕获该输入图片在深度神经网络模型中的局部分类边界。

进一步地，训练的可解释模型是一个两类的可解释模型，通过将可解释模型和深度神经网络模型的输出概率分布进行匹配，实现模型间的知识蒸馏。

进一步地，可解释模型的权重参数量化了输入图片不同特征对预测结果的贡献，二者(输入图片和权重参数)相乘即可得到显著图，作为可视化的解释结果。

一种采用上述方法的深度神经网络模型可视化解释系统，其包括：

合成模块，用于给定待解释的输入图片，利用变分自编码器生成合成图片；

标签模块，用于通过深度神经网络模型对合成图片打标签，依据合成图片的标签是否变化将合成图片分为两类，得到合成标签，根据合成图片和合成标签得到合成数据集；

蒸馏模块，用于在合成数据集上训练可解释模型，将深度神经网络模型的知识蒸馏到可解释模型中；

解释模块，用于根据训练好的可解释模型，建立输入图片和深度神经网络模型的预测结果的对应关系，进而得到一张显著图，直观地标记出对预测结果有显著影响的特征，从而实现对深度神经网络决策结果的解释。

与现有技术相比，本发明的积极效果为：

1)提出的深度神经网络模型可视化解释方法可以实现对单个输入数据的决策结果解释，不需要大量的数据，计算量少。

2)创新性地提出了重标签蒸馏的方法，可以将深度神经网络模型的分类边界知识传递到可解释的模型中，从而实现模型的可解释。

3)该方法具有广泛的适用性，可应用于各种深度神经网络模型和多种机器学习任务中，并且扩展性好。

附图说明

图1为本发明的深度神经网络模型可视化解释方法框架。

图2为本发明的合成模块流程图。

图3为本发明的标签模块流程图。

图4为本发明的蒸馏模块流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明的一个实施例提供了一种深度神经网络模型可视化解释方法，详细流程图如图1所示。对于给定的输入图像，首先通过合成模块来生成一些合成图像，然后利用标签模块得到对应的合成标签，二者组成的合成数据集经由蒸馏模块，可以得到一个训练好的线性模型。该线性模型可以用来解释输入图片的预测结果，解释模块借助可视化技术，得到显著图，作为最终的解释结果。

本实施例的方法框架主要包括合成模块、标签模块、蒸馏模块和解释模块四部分组成。

一、合成模块

如图2所示，该模块是为了对输入图片进行重构，同时生成一些语义上有意义且类别也发生变化的图片。

本发明采用了变分自编码器(VAE)作为图片生成器，VAE由编码器p和解码器q组成。

编码器p的目的是学习一个隐向量z，然后再通过解码器q，解码器对隐向量的任何采样都能尽可能准确地重构输入数据，进而得到合成图片。

本发明采用预先训练好的VAE，为了生成合成图片{x₁',x₂',...,x_n'}，通过向VAE的隐向量中直接添加随机噪声ε_i，最终VAE的输出为，

x_i'＝q(x|z_i＝μ+ε_i*∑)

其中μ和∑是编码器学习到的隐向量的平均值和方差，z_i是经过噪声扰动之后的隐向量。

合成图片可以很好的学习输入图片的特征分布，同时表征输入图片在深度神经网络模型中的局部分类边界知识。

二、标签模块

如图3所示，标签模块主要是利用深度神经网络模型得到合成图片对应的标签，同时把神经网络的分类知识传递到合成数据中。

为了解释输入图片x在深度神经网络T上的预测结果f_T(x)，本发明利用新合成的图片来表征模型的局部分类边界。

首先将合成图片x'送入到同一个深度神经网络T中，得到对应的预测结果f_T(x')。

然后判断合成图片的预测结果是否发生变化，由此对这些合成图片进行0/1分类，得到新的合成标签y'。

合成标签可以用来表征神经网络的分类知识，输入图片周围的局部分类边界知识通过标签模块很好地传递到合成数据集{x',y'}中，实现了深度神经网络内部知识的解构。

三、蒸馏模块

如图4所示，蒸馏模块是训练一个线性模型来学习深度神经网络模型的输出结果，从而可以在神经网络的输入和输出之间建立线性关系，即可实现对模型预测结果的解释。

线性模型由于其结构的简单而具有良好的可解释性，本发明可以借助线性模型的可解释性来解开深度神经网络的黑盒特性。

本发明是在合成数据集{x',y'}上进行知识蒸馏，深度神经网络T作为教师模型，线性模型S作为学生模型。

训练线性模型时，其输出要尽可能和神经网络的输出相似，可以通过匹配二者的概率分布，作为软标签损失L₁，同时线性模型的输出和合成标签之间的距离作为硬标签损失L₂。

因此，训练线性模型S的损失可以定义为：

其中w表示线性模型的权重，λ₁和λ₂是权重系数，f_S(·)表示线性模型的预测结果，n表示合成图片的数量，P_S(x_i’)表示线性模型的输出概率分布，P_T(x_i’)表示深度神经网络模型的输出概率分布。

四、解释模块

解释模块主要是通过可视化的方式对解释结果进行展示，以便直观地理解深度神经网络的预测结果。

基于以上分析，训练后的线性模型在输入图片x和模型预测y之间建立了一种线性的映射关系，该线性模型可以作为模型分类的解释器。

其中，线性模型中的权重参数w可以衡量输入图片不同像素的重要性，量化了不同特征对预测结果的贡献程度。

通过权重参数w可以在输入图片上定位出关键特征，该模块借助显著图来展示解释结果。

显著图m可以表示为：

m＝x·w

因此，本发明可以通过将显着特征定位到图像上来获得解释。

由于本发明提供的深度神经网络模型可视化解释方法会为每个输入训练一个特定的解释器，因此它不受数据量和神经网络模型的限制，具有广阔的应用前景。

基于深度神经网络模型可视化解释方法，本发明可以开发一个完备的可视化解释系统，包括上述合成模块、标签模块、蒸馏模块和解释模块，应用于图片分类、人脸识别、伪造检测等任务。

本发明的深度神经网络模型可视化解释系统不仅可以给出模型决策结果的解释，同时能够对解释结果进行评估，确定解释结果的可信度。该系统的解释结果以特征显著图的形式呈现，通过观察显著图定位关键性像素区域的准确性，定性判断解释结果的性能。其次，可以利用一些定量评估方法，比如删除指标和插入指标，删除指标是通过不断移除原始图片中的显著区域，观察深度神经网络预测概率的变化，以此来判断该显著区域的有效性；插入指标是指向空白图片中不断增加显著区域，通过深度神经网络对该图片预测概率的变化，判断显著区域的有效性。此外，也可以利用其他的定量指标来衡量解释结果的可信度。

该系统旨在实现对模型可解释性的统一度量，并将可解释性指标纳入模型的评估方法。由于可解释的概念偏向于抽象，并且对可解释性机理的理解不充分，所以缺乏一套普适可信的评价指标，尤其是可解释性的量化指标。

基于此，本发明提出了可解释性度量方法，不仅可以对可解释性方法的性能进行评价，而且可以给出模型决策结果的置信度，从而提高了模型的可信度和可理解性。

本发明提出的可解释性评估方法，主要从定性和定量两方面进行测试。定性指标是通过生成模型决策结果的特征显著图，定位出影响模型决策的特征区域。定量指标是对解释结果的性能进行评价，包括解释的准确性、鲁棒性等，并且对决策结果的可信度进行衡量。

本发明的蒸馏模块可以用其他的可解释模型代替线性模型，把深度神经网络模型蒸馏到其他的一些可解释模型中，比如决策树模型，同样可以在深度神经网络模型的输入和输出之间建立人为可理解的关系，从而实现对深度神经网络模型预测结果的解释。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种深度神经网络模型可视化解释方法，其特征在于，包括以下步骤：

给定待解释的输入图片，利用变分自编码器生成合成图片；

通过深度神经网络模型对合成图片打标签，依据合成图片的标签是否变化将合成图片分为两类，得到合成标签，根据合成图片和合成标签得到合成数据集；

在合成数据集上训练可解释模型，将深度神经网络模型的知识蒸馏到可解释模型中；

根据训练好的可解释模型，建立输入图片和深度神经网络模型的预测结果的对应关系，进而得到一张显著图，直观地标记出对预测结果有显著影响的特征，从而实现对深度神经网络决策结果的解释。

2.根据权利要求1所述的方法，其特征在于，所述变分自编码器是预训练好的变分自编码器，通过向变分自编码器的隐特征中添加随机噪声，生成多张合成图片。

3.根据权利要求1所述的方法，其特征在于，所述深度神经网络模型是预训练好的深度神经网络模型，通过对合成图片打标签，将该模型的局部分类边界知识传递到合成数据集中。

4.根据权利要求1所述的方法，其特征在于，所述依据合成图片的标签是否变化将合成图片分为两类，是通过对比合成图片的预测结果和输入图片的预测结果是否一样，将图片分为0/1两类，以更好的捕获该输入图片在深度神经网络模型中的局部分类边界。

5.根据权利要求1所述的方法，其特征在于，所述将深度神经网络模型的知识蒸馏到可解释模型中，是通过将可解释模型和深度神经网络模型的输出概率分布进行匹配，实现模型间的知识蒸馏；所述可解释模型是可解释的线性模型或决策树模型。

6.根据权利要求5所述的方法，其特征在于，训练所述可解释模型时，可解释模型的输出要尽可能和深度神经网络模型的输出相似，通过匹配二者的概率分布，作为软标签损失L₁，同时可解释模型的输出和合成标签之间的距离作为硬标签损失L₂，据此训练可解释模型S的损失定义为：

其中，w表示可解释模型的权重，λ₁和λ₂是权重系数，f_S(·)表示可解释模型的预测结果，x’表示合成图片，y’表示合成标签，n表示合成图片的数量，P_S(x_i’)表示可解释模型的输出概率分布，P_T(x_i’)表示深度神经网络模型的输出概率分布。

7.根据权利要求1所述的方法，其特征在于，通过所述可解释模型的权重参数量化输入图片不同特征对预测结果的贡献，输入图片和权重参数相乘得到所述显著图，作为可视化的解释结果。

8.一种采用权利要求1～7中任一权利要求所述方法的一种深度神经网络模型可视化解释系统，其特征在于，包括：

蒸馏模块，用于在合成数据集上训练可解释的可解释模型，将深度神经网络模型的知识蒸馏到可解释模型中；

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。