CN112270700B

CN112270700B - 一种愚弄深度神经网络可解释算法的攻击判断方法

Info

Publication number: CN112270700B
Application number: CN202011185396.3A
Authority: CN
Inventors: 孔祥维; 宋倩倩
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-06-28
Anticipated expiration: 2040-10-30
Also published as: CN112270700A

Abstract

本发明公开了一种愚弄深度神经网络可解释性的攻击方法。每幅输入图像在某区域内加噪声后生成扰动图像；利用扰动图像构造损失函数项。在保持生成的扰动图像分类结果和原始图像分类结果相同的前提下，用可解释性算法对分类结果进行解释，并将解释的突出区域定位于扰动区域内；利用Adam优化算法逐步将噪声进行限制直到视觉上感知不出扰动存在，使扰动不明显，最后生成使解释发生错误的扰动图像。本发明将攻击与可解释性任务结合起来，能够有效攻击五种深度神经网络可解释方法，且攻击区域的大小和位置可以任意改变，可以衡量解释在攻击下的鲁棒性能。

Description

一种愚弄深度神经网络可解释算法的攻击判断方法

技术领域

本发明涉及了一种图像处理的可解释攻击判断方法，尤其是涉及了一种愚弄深度神经网络可解释算法的攻击判断方法。

背景技术

对于人工智能系统来说，现实环境复杂多变，系统的决策失误将会导致重大损失，所以人工智能系统模型的可解释性变得十分重要，让人们明白系统是如何工作的，决策是如何形成的，寻找其错误原因、对其进行改进。因此，研究深度学习的可解释性十分必要。然而，随着人工智能可解释性算法的不断提出，出现了对可解释算法的攻击。例如在输入图像中加入扰动，在保持预测结果不发生改变的情况下，其解释效果将发生很大程度的改变，因此对深度神经网络的可解释性算法进行鲁棒性度量是一个困难但必要的任务。

发明内容

本发明的目的在于对现有深度学习图像分类的可解释性算法进行攻击，可以同时对单目标物体和多目标物体图像的分类展开愚弄攻击，且对原始图像的扰动改变视觉不可感知，提供一种愚弄深度神经网络可解释算法的攻击判断方法，也是一种基于优化区域块噪声的攻击神经网络可解释性方法。

本发明中要解决的技术问题包括：一种有效的攻击算法；加入噪声的扰动大小要约束；单目标物体和多目标物体图像分类解释均可被愚弄；多目标物体图像分类解释被愚弄要分配合适。

为了比较现有可解释性技术的鲁棒性能，设计一种有效的愚弄深度学习可解释性算法的攻击方法是本发明要解决的技术问题之一。

此外，在输入图像中加入扰动时，还要确保扰动后的图像和原图像在视觉上尽可能的相像，即扰动不明显，分类结果不改变，同时也要达到愚弄解释的效果，扰动同时并能攻击解释也是本发明要解决的技术问题之一。

本发明不仅攻击了只包含一个目标物体的图像分类的解释，对于单幅同时包含两个及两个以上目标物体的图像，其解释也要达到被愚弄的效果，即对图像内的每个目标物体的解释不仅要产生错误，而且解释突出的区域也要分别被“分配”到各自的方形区域内，这种“分配”是可被控制的，这也是本发明要解决的技术问题之一。

如图1所示，本发明是通过以下技术方案来实现的：

步骤1)生成扰动图像：

对于每幅原始图像x，在原始图像x内利用二进制掩码图像m加入初始噪声z，得到带有扰动的且扰动较明显的初步的扰动图像

步骤2)将扰动图像

的分类类别和扰动图像

对应的原始图像的分类类别c保持一致，同时针对扰动图像

采用已经固定网络模型参数的深度神经网络进行图像分类的解释方法处理获得解释热力图，然后将扰动图像

输入到解释的分类模型中进行训练处理，并根据解释热力图和保持分类不变建立损失函数优化获得扰动明显的噪声z；

利用初步扰动图像x～，在保持扰动和原始图像的分类的类别一致的同时，最终将解释的可视化区域定位于该掩码区域内，从而改变解释的结果，达到愚弄解释的效果。

深度神经网络图像分类的解释方法，将解释的可视化热力图区域定位于该掩码区域m内，使得解释热力图不再突出图像中目标物体本身，从而达到愚弄深度神经网络可解释算法的目的。

步骤3)根据预先设置的

限制范围对步骤2)获得的噪声z进行限制迭代处理，并同时对扰动图像进行优化，

表示噪声限制范围的上限，将每次迭代优化得到的噪声z加到原始图像x的扰动区域内，得到最终的视觉难感知的扰动不明显的扰动图像X；

步骤4)对步骤3)得到的视觉难感知的扰动图像X和原始图像x分别采用解释方法进行解释处理，解释处理可以是一种可视化处理方式，判断解释是否被愚弄，若解释被愚弄，则攻击成功；否则攻击不成功。

所述步骤1)中，针对多目标物体的图像分类解释被攻击的情况，单幅包含n个目标物体的扰动图像生成为：

其中，x和

分别是原始图像和扰动图像，m_n表示带有n块扰动区域的二进制掩码图像，二进制掩码图像是一个只包含数字0和1的大小和原始图像相同的图像，二进制掩码图像m_n中包含有n块方形区域作为扰动区域，方形区域用0填充，其余区域用1填充；z为噪声。这样将噪声z同时填充到该n个扰动区域内，本发明仅以包含两个目标物体为例，即令n＝2，同样设置为边界或角落位置，z为初始噪声。

具体实施中，将方形区域设置为角落或边界位置，能够不遮挡图像内主要目标物体。

所述的步骤2)中，具体为：

对于单幅单目标物体的输入图像x，输入分类模型后分类结果为c，分类模型为事先训练好的神经网络模型，分类损失定义为

使扰动图像

的分类不发生改变，定义为位置重要性损失l_loim(h,m)，使解释区域定位于定义的方形区域内，其计算为：

将l_loim(h,m)作为惩罚项，则总的损失函数为：

其中，

为分类损失，l_loim(h,m)为位置重要性损失，λ是权衡两项损失的超参数，

为扰动图像

的解释热力图。

对于单幅包含n个目标物体的输入图像x，输入到预先训练好的分类模型中，各自分类结果为c_j(j＝1,2,...n)，加入噪声后的扰动图像

使得每个类别均不改变的同时，也将各自解释区域h_j定位于任意的n个角落位置，设置总共损失函数为：

其中，l_loim(h_j,m_j)是图像中第j个目标物体的解释区域h_j和其对应的二进制掩码m_j的位置重要性损失，

是扰动图像

和第j个目标物体的分类c_j的分类损失，λ_j是各目标物体的权衡位置重要性损失和分类损失的两项损失的超参数，c_j表示第j个分类，n表示分类类别的总数；

以总共损失函数最小化优化处理获得扰动明显的噪声Z。

具体实施中包含两个目标物体的情况，令n＝2。

所述步骤3)具体为：

3.1)以2.1)损失函数为例，在第n+1次求取损失函数反向传播梯度过程后，得到中间的未被限制大小的更新噪声

计算为：

其中，z_n是第n次优化且被限制大小的噪声，L(X_n,h,c,m)表示在第n次得到的扰动图X_n上的损失，sgn()表示符号函数，▽表示求梯度，sgn(▽L())表示损失梯度的符号，ε是每次迭代梯度的贡献值；h表示解释得到的热力图，c表示预测的分类结果；

3.2)进一步对更新噪声

进行限制处理，具体表示为：

其中，clip表示裁剪符号，

表示将

限制为

范围内，符号clip计算为：

clip_a,b(Z)＝min(max(Z，a),b)

其中，a、b分别表示约束范围的最小和最大值，Z表示约束的对象即噪声；

这样即将

限制为

范围内，得到了第n+1次约束后的更新噪声Z_n+1。

3.3)将限制大小的噪声Z_n+1加入到原始图像x中的扰动区域内，得到第n+1次的图像X_n+1，计算为：

3.4)重复步骤3.1)～3.3)进行多次迭代，共进行T次迭代后，得到最终迭代获得的图像X_T作为视觉难感知的扰动不明显的扰动图像X。

最终根据损失函数和噪声约束过程同时采用在Adam优化器中进行优化，得到最终的优化噪声Z，以及优化噪声Z下加入后的视觉难感知的扰动不明显的扰动图像X。

本发明对于一幅输入图像，在图像的某区域内加噪声后生成扰动图像；利用扰动图像构造损失函数项；在保持生成的扰动图像分类结果和原始图像分类结果相同的前提下，用可解释性算法对分类结果进行解释，并将解释的突出区域定位于加扰区域内；同时，为了使扰动不明显，利用Adam优化算法逐步将噪声进行限制直到视觉上感知不出扰动存在，最后生成使解释发生错误的扰动图像。

本发明中用来愚弄可解释性算法的攻击方法，具有一定的迁移性，即针对某种解释算法优化得到的扰动图像，同时也可以直接进行愚弄其他的解释算法。

本发明的有益效果是：

1.本发明能够有效攻击五种深度学习可解释性算法，分别为Grad-CAM、GFI(Guided-Feature-Inversion)、Grad-CAM++、Full-Grad和Score-CAM，在不改变分类结果的同时，将解释突出到提前定义的二进制掩码方形区域内，且定义的区域的大小和位置可以随意改变，即攻击后生成的解释可以被定位到任意位置，不再突出图像内主要目标物体。

2.本发明也对噪声的大小进行了限制，从而生成视觉上不可察觉的扰动图像。

3.本发明不仅可以攻击单幅包含单个目标物体的图像的解释，同时也能愚弄单幅包含多个目标物体的图像的解释。实验中愚弄了包含两个目标物体的解释，且能分别将两个目标物体的解释定位于两个提前定义的不同的位置，是一种“一对一”针对性的愚弄，而不是只是简单的将多目标物体解释区域同时定位于同一个位置，或者进行简单的交换两个目标物体的解释。

4.本发明攻击解释的算法能够在不同解释算法间进行迁移。例如分别用Full-Grad、Grad-CAM++解释算法进行计算得到的扰动图像，可以愚弄Grad-CAM的解释，但是反过来，用Grad-CAM解释算法计算得到的扰动图像，对Full-Grad解释改变效果不明显，说明Full-Grad算法鲁棒性更好，而Grad-CAM算法鲁棒性较差。

综合来说，本发明将攻击与可解释性任务结合起来，能够有效攻击五种深度神经网络可解释方法，且攻击区域的大小和位置可以任意改变，可以衡量解释在攻击下的鲁棒性能。

附图说明

图1为本发明实施步骤流程图，通过图中所示约束优化噪声获得最终的扰动不明显的图像，并进行解释。图中：上边部分为原始图像的解释结果，下边部分为解释被攻击之后的可视化结果。

图2为原始图像在五种未被攻击的解释上的可视化结果。

图3为图2的左下角被攻击后得到的扰动图像。

图4为图3的扰动图像在五种解释上的可视化结果。

图5为Grad-CAM的攻击单幅两目标物体前后的可视化结果。

图6为分别攻击Full-Grad和Grad-CAM++优化得到的噪声迁移到Grad-CAM的可视化结果。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

按照本发明的发明内容完整方法实施的例子及其实施情况如下：

本发明在ImageNet数据集上训练的深度神经网络VGG19模型上实施，以Grad-CAM为例，进行详细说明如下：

1)生成一个随机初始化噪声，生成一个二进制掩码，如果是单幅单目标物体图像，如图2第一列所示，设定对应方形区域位置的值为0，其他区域为1；如果是单幅多目标物体的图像，如图5第一列所示，同时设定对应两个方形区域位置的值为0，其他区域为1。

2)将噪声和二进制掩码进行相乘，然后加上原始图像，得到扰动较明显的扰动图像

3)将扰动图像在模型VGG19上进行解释，分别构造分类损失

和位置重要性损失l_loim(h,m)，目的是为了在保持扰动和原始图像的分类的类别不发生改变的同时，能够将解释的突出的区域定位于该掩码区域内。

4)计算总损失项，并将噪声进一步约束在

内，利用自适应矩估计(Adam)优化器对噪声进行迭代优化。

5)攻击单幅单目标物体图像的解释时，设定学习率为0.01、优化次数为150次、λ为0.1、

攻击单幅两目标物体图像的解释时，设定学习率为0.01、优化次数为350次、λ₁和λ₂均为0.1、

重复执行2)、3)、4)三步。优化结束后得到最终的训练好的噪声，将该噪声加入到原始图像中，得到如图3所示的扰动不明显的图像，分别对原始图像和扰动图像进行解释。

对比图2和图4的可视化结果，可以发现预测分类未发生改变下，解释区域发生了变化。

图5为单幅两目标物体的解释被攻击，可以发现两个目标物体的预测分类均未改变时，但是可视化区域被各自分配。图6上为噪声迁移前的Grad-CAM对原图像的解释，发现解释区域在目标物体上；图6下为噪声迁移后的Grad-CAM对扰动图像的解释，发现解释区域在方形区域内，解释被愚弄。