CN111695590A

CN111695590A - 约束优化类激活映射的深度神经网络特征可视化方法

Info

Publication number: CN111695590A
Application number: CN202010332669.6A
Authority: CN
Inventors: 孔祥维; 王鹏达
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-22
Anticipated expiration: 2040-04-24
Also published as: CN111695590B

Abstract

本发明公开了一种约束优化类激活映射的深度神经网络特征可视化方法。通过训练或下载获得一个用于图像分类的采用深度神经网络构建的预训练模型；使用预训练模型对一幅待测图像进行前向传递获得特征图，并进一步处理获得最终权重向量；通过最终权重向量对特征图的各分量进行加权求和，获得可视化特征图，作为最终可视化结果进行呈现。本发明能够对任意的深度神经网络进行特征可视化，可以达到更好的深度特征可解释性的可视化效果，具有更少的噪声及更强的类判别性。

Description

约束优化类激活映射的深度神经网络特征可视化方法

技术领域

本发明涉及了一种深度学习可解释性领域的图像特征可视化方法，尤其是一种约束优化和类激活映射的深度神经网络特征可视化方法。

背景技术

深度学习技术已经在一些领域取得了显著的成果和优越的性能，特别是计算机视觉领域，如图像分类等任务。然而由于其数学原理没有被完全探明，其端到端的黑盒特性导致人类无法得知一个深度神经网络是如何做出决策的。因而关于深度学习可解释性的研究在近年来逐渐兴起，一种最直接的思路便是利用可视化技术获得对于预测起正向作用的图像区域，特别是可视化深度神经网络中间层的特征表示。

深度神经网络的特征可视化技术有多种分类，如基于反向传播的方法、基于扰动的方法以及基于类激活映射的方法。本发明与基于类激活映射的可视化方法相关。它们通常利用特征图的加权求和结果作为最终的可视化结果。CAM是最早提出的类激活映射方法，但它需要调整模型结构，插入一个全局平均池化层并重新训练，然后权重由模型的分类器部分给出，因此它的局限性较大，无法应用于所有的深度神经网络上。之后，改进方法Grad-CAM和Grad-CAM++利用预测向量特定类别的预测值对特征图求梯度来计算权重，因此不需要调整模型结构，比CAM更加泛用。但它们的可视化结果通常噪声较大，且类判别性较弱，即当一幅图像中包含多个类别的物体时，指定特定类别的解释效果区别性较弱。当预训练模型不包含批归一化层时，这些问题更加严重。另一种类激活映射的方法，Guided FeatureInversion，同样使用优化权重向量的思想，不同的是使用了两步的优化，并且受限于其第一步的优化，权重向量最好以常数初始化。但它也存在噪声较大，且类判别性较弱的问题。

发明内容

为了解决背景中存在的问题，针对目前深度神经网络特征可视化结果噪声较大，且类判别性较弱的问题，本发明提供一种基于类激活映射的深度神经网络特征可视化方法。本发明能够对任意的深度神经网络进行特征可视化，可以达到更好的深度特征可解释性的可视化效果，具有更少的噪声及更强的类判别性。

如图1所示，本发明解决其技术问题采用的技术方案如下：

1)通过训练或下载获得一个用于图像分类的采用深度神经网络构建的预训练模型；

所述的预训练模型是由已知数据库下载获得，或自行采用数据集预训练已有的深度神经网络模型获得。

2)使用预训练模型对一幅待测图像进行前向传递获得特征图A，并进一步处理获得最终权重向量；

3)通过最终权重向量对步骤2)获得的特征图A的各分量进行加权求和，获得最终可视化特征图，作为最终深度神经网络特征可视化结果进行呈现。

所述步骤2)具体为：

2.1)针对一幅待测图像X，输入预训练模型进行前向传递获得特征图A，并且预训练模型处理过程中得到待测图像的预测向量y，同时能够获得每个类别c的预测值，但是针对一幅待测图像X前向传递获得的预测值后续并无用到；

2.2)针对图像分类的类别c，初始化一个权重向量ω^c，如下式所示：

ω^c＝ReLU(α^c)

其中，ω^c为图像分类的第c个类别的权重向量，c为图像分类的类别序号，α^c表示初步得到的待处理权重向量；A_ij为特征图的坐标位置为(i,j)的像素值，i、j为特征图上的横纵坐标位置，y为预测向量，Z表示特征图上像素点的总数，ReLU表示取正值的操作；

2.3)对特征图A加权求和取正值后，获得热力图M，如下式所示：

其中，k为权重向量ω^c中的权重值的序数，ω^c _k为权重向量ω^c中的第k个权重值，A^k为特征图中的第k个分量；特征图A中的分量总数和权重向量ω^c中的权重值总数相同，特征图A的一个分量和权重向量ω^c的一个权重值对应；

2.4)将热力图M和热力图M的取反图像1-M分别与待测图像X相乘，获得两幅中间图像E₊和E_-，如下式所示：

E₊＝X·M

E_-＝X·(1-M)

2.5)两幅中间图像E₊和E_-分别输入预训练模型，进行两次前向传递获得两幅中间特征图A(E₊)、A(E_-)，以及类别c下两幅中间特征图A(E₊)、A(E_-)各自对应的中间预测值

2.6)通过构造热力图M、两幅中间特征图A(E₊)、A(E_-)与两个中间预测值

的以下约束项L：

L_EFC＝||ReLU(α^c)(A(E₊)-A(E_-))||_F

α＝1-log(soft max(y^c))

其中，L表示总约束项；α表示根据类别c的预测概率y^c对L中第一项的自适应调节系数，β表示根据不同模型设置的平衡数字量级的调节参数，β根据不同模型而设置不同数值；；TV(M)表示改进的全变分约束项(主要起降噪的作用)，M表示热力图M，M_i,j表示热力图上坐标为(i,j)的像素值，两竖线F表示Frobenius范数，F表示Frobenius；λ表示根据不同模型而设置的平衡数字量级的调节参数，是根据深度神经网络模型而设置；L_EFC表示互斥特征约束项(主要起增强类判别性的作用)，softmax()表示非线性激活函数softmax，定义为

其中yⁱ表示预测向量y的第i个类别的分量，y^c表示预测向量的第c个类别的分量，l表示常量的罗马数字1。

改进的全变分约束项中，前两项为常规全变分约束，约束热力图中每个点与其周边两个点的距离，最后一项为新增的致密约束，使其突出区域尽可能集中，减少噪声。

2.7)最后对总约束项L利用自适应矩估计(Adam)优化器对权重向量进行一次迭代优化，更新权重向量；

2.8)不断重复上述步骤2.3)～2.7)直到迭代次数达到预设的次数阈值，则停止迭代优化，以最后迭代次获得的权重向量进行输出作为最终权重向量。

所述的深度神经网络采用VGG19网络。

本发明针对图像分类的深度神经网络的特征可视化可解释问题，通过建立优化的约束项对权重向量进行迭代，以权重向量对特征图加权求和获得最终的深度神经网络特征可视化结果。

本发明的有益效果是：

本发明主要针对现实中使用深度神经网络进行图像分类和预测，辅助人类做出人工智能决策的应用场合，例如医疗领域根据图像进行智能诊断，自动驾驶领域根据拍摄的图像进行智能物体识别等等。这些领域都需要可解释算法对深度神经网络做出的预测进行智能解释，深度特征可视化便是其中较为常用的手段。

本发明的优势在于能够对任意的深度神经网络进行特征可视化解释，在可视化解释的性能方面，相比其他方法，本发明的特征可视化热力图解释可以达到更好的视觉效果，即深度神经网络特征可视化热力图具有更少的噪声，在对一幅图像中不同类别的物体进行指定解释时，可视化热力图解释具有更强的类判别性。

附图说明

图1是本发明实施步骤流程图，通过图中所示约束优化权重向量获得最终可视化结果M，即最后一步迭代结束之后，以权重向量对特征图加权求和，获得的热力图。图中：上边部分为Grad-CAM计算权重向量的示意，可训练的权重向量可初始化为该权重向量，也可以初始化为常数向量。

图2为一幅示例测试图像。

图3为图2中的示例测试图像在迭代训练过程中可视化结果的变化过程。

图4为本发明与其他方法在一些测试图像上的可视化结果对比。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

按照本发明发明内容完整方法实施的例子及其实施情况如下：

实施例以在ImageNet数据集上训练的深度神经网络VGG19作为目标模型，进行说明详细如下：

1)通过训练或下载获得一个预训练模型。Torchvision中提供在ImageNet数据集上预训练好的VGG19模型，直接加载使用。

2)设定好要使用的特征图，即VGG19模型的某一层输出作为后续可视化所使用的特征图，例如选择VGG19最后一个卷积层的输出“features.34”。

3)针对一幅待测图像X，如图2所示，输入预训练模型进行前向传递获得“features.34”特征图A，并且预训练模型处理过程中得到待测图像的预测向量y，并针对所选择的类别c初始化一个权重向量ωc。

4)以权重向量ωc对特征图A加权求和，得到热力图M，将热力图M和热力图M的取反图像1-M分别与待测图像X相乘，获得两幅中间图像E₊和E_-。

5)两幅中间图像E₊和E_-分别输入预训练模型进行两次前向传递获得两幅中间特征图A(E₊)、A(E_-)及类别c下两幅中间特征图A(E₊)、A(E_-)各自对应的中间预测值

6)根据计算出的各个变量分别计算改进的全变分约束项TV(M)，互斥特征约束项L_EFC，然后计算总约束项L，利用自适应矩估计(Adam)优化器对权重向量ωc进行一次迭代优化。

7)设定学习率为0.0001、优化次数为15、λ为0.05、β为50，重复执行4)、5)、6)三步。优化过程结束后得到最终的权重向量，对特征图加权求和得到最终的特征可视化结果。一幅示例图像的训练过程如图3所示，对比最终结果与训练前的可视化结果，可以发现可视化效果逐渐变好，噪声变小。图4为与其他方法相比，可以发现本方法可视化结果的噪声与类判别性均有所改善。

Claims

1.一种约束优化类激活映射的深度神经网络特征可视化方法，其特征在于：所述方法步骤具体如下：

2.根据权利要求1所述的一种约束优化类激活映射的深度神经网络特征可视化方法，其特征在于：所述步骤2)具体为：

2.1)针对一幅待测图像X，输入预训练模型进行前向传递获得特征图A，并且预训练模型处理过程中得到待测图像的预测向量y；

ω^c＝ReLU(α^c)

E₊＝X·M

E_-＝X·(1-M)

的以下约束项L：

L_EFC＝||ReLU(α^c)(A(E₊)_-A(E_-))||_F

α＝1-log(softmax(y^c))

其中，L表示总约束项；α表示根据类别c的预测概率y^c对L中第一项的自适应调节系数，β表示根据不同模型设置的平衡数字量级的调节参数；TV(M)表示改进的全变分约束项，M表示热力图M，M_i,j表示热力图上坐标为(i,j)的像素值，两竖线F表示Frobenius范数，F表示Frobenius；λ表示根据不同模型而设置的平衡数字量级的调节参数；L_EFC表示互斥特征约束项，softmax()表示非线性激活函数softmax，定义为

其中yⁱ表示预测向量y的第i个类别的分量，y^c表示预测向量的第c个类别的分量，l表示常量的罗马数字1；

3.根据权利要求1所述的一种约束优化类激活映射的深度神经网络特征可视化方法，其特征在于：所述的深度神经网络采用VGG19网络。