CN112364915B

CN112364915B - 一种不可察觉的对抗补丁生成方法及应用

Info

Publication number: CN112364915B
Application number: CN202011246415.9A
Authority: CN
Inventors: 钱亚冠; 王佳敏; 王滨; 陶祥兴; 周武杰; 云本胜
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2024-04-26
Anticipated expiration: 2040-11-10
Also published as: CN112364915A

Abstract

本发明属于人工智能安全技术领域，公开了一种高强度对抗补丁样本生成方法及应用，首先通过Grad‑CAM计算图像中对CNNs分类决策影响较大的区域，并将该区域作为图像的特征贡献区域(CFRs)；然后利用掩膜机制定位该区域，使得能够在确定的特征贡献区域完成加扰。本发明重新定义一个损失函数作为优化的目标函数，进而利用随机梯度下降优化算法并引入超参数寻找高效的扰动，即可获得基于CFRs的对抗样本。本发明通过只在特征贡献区域加扰以及将扰动范围限制在人眼难以察觉的微小范围内，实现了对抗强度和不可感知性之间良好的平衡，在CIFAR‑10和ILSVRC2012数据集上得到了实验验证。本发明产生的对抗样本应用于对抗训练，可有效提高深度学习防御能力。

Description

一种不可察觉的对抗补丁生成方法及应用

技术领域

本发明属于人工智能安全技术领域，尤其涉及一种对抗补丁生成方法、生成系统、设备、储存介质及应用。

背景技术

目前，深度学习技术的发展，促进了深度神经网络(DNNs)在各个领域的成功应用。尤其是其中的卷积神经网络(CNNs)，在图像分类领域表现出了优异的性能。但是，许多现有的研究表明，CNNs容易受到人类察觉不到的扰动的干扰，这种添加了微小扰动的样本被称为对抗样本。已有学者提出了多种生成对抗样本的技术，例如L-BFGS、FGSM、I-FGSM、PGD和C&W。这些技术生成的对抗样本可以成功的欺骗CNNs做出错误的预测，使得CNNs在某些安全敏感领域的应用(例如自动驾驶、基于人脸识别的金融支付等)受到限制，因此对对抗样本的研究具有重要意义。

最近的研究表明深层神经网络容易受到精心制作的对抗样本的影响，并且已经提出了许多先进的算法来制作对抗样本，上述所有工作要么通过某些优化技术生成了具体的对抗样本，要么尝试利用对抗现象来理解CNN易受微小扰动干扰的现象。相反，本发明尝试利用CNNs的可解释性来生成更有效的对抗样本，本发明中称之为补丁对抗样本，利用该对抗样本进行对抗训练，可有效增强深度神经网络的防御能力。

从两种被认为是最先进的解释CNNs的方法：CAM和Grad-CAM的工作中得到启发。通过Grad-CAM计算得到图像中哪一部分部分贡献最大，这类似于人类的注意力机制，该特殊区域在本发明称为“特征贡献区域”(CFRs)。到目前为止，这是从视觉上反映CNNs的最好解释。有了这个观察，本发明推测在CFRs上添加扰动生成的对抗样本用于对抗训练会比以往的方法更有效。

显然，本发明的方法是在语义级别上进行对抗扰动，而先前的工作主要集中在像素级别上。FGSM和C&W这样的典型方法只会扰乱图像中的所有像素，而不考虑其语义。尽管某些方法会扰乱局部图像区域，例如JSMA和one-pixel技术，但它们并未考虑相邻像素之间具有扰动的相互作用，即被扰动的像素可能不会形成连续区域。与本发明的工作类似的是目前一些被提出的补丁对抗样本或贴纸对抗样本，也是属于局部连续区域的对抗方法。因此，本发明对CFRs的扰动可以视为某种形式的对抗补丁。但是，本发明的方法在三个方面与现有的对抗补丁不同。首先已有的补丁或贴纸的形状是规则的，而本发明的CFRs形状是任意的。第二个问题是补丁或贴纸的位置是任意确定的，而本发明的CFRs由Grad-CAM在语义级别定位。最后，已提出的方法其补丁和贴纸的扰动幅度不受限制，而本发明的方法将扰动范围限制在人眼难以察觉的微小范围内。

尽管本发明工作似乎是在图像语义级别考虑CFRs，但它与图像语义分割不同，因为本发明的方法将更多的注意力放在影响分类的区域上，而图像分割则是尝试找到图像边缘。从网络可解释性开始，而图像分割则专注于对象本身。最近技术1Xie等人制作了对抗样本来欺骗语义分割和对象检测器，而技术2Gu等人利用YOLO检测器来定位敏感区域以增加扰动。本质上，他们的方法都没有充分利用网络解释。另外，本发明CFRs的大小远小于物体检测器获得的区域。

通过上述分析，现有技术存在的问题及缺陷为：第一，现有对抗样本生成方法主要集中在像素级别上的扰动，而不考虑其语义；第二，尽管某些方法是局部扰动，但是扰动的像素点可能是离散的，并未考虑相邻像素之间具有扰动的相互作用；第三，已被提出的对抗补丁或者对抗贴纸其补丁或贴纸的形状是规则的并且其位置是任意确定的；第四，已提出对抗补丁或者贴纸方法扰动幅度不受限制。

解决以上问题及缺陷的难度为：首先，目前的补丁扰动其对抗块在视觉上非常明显，如何生成对人类来说是不可见的，但对对抗训练有效的对抗补丁是一个具有挑战的问题。其次，如何从网络的可解释性来实现有效的对抗，CNNs一直被认为是一个黑盒，对它为什么做出这样的分类结果没有一个合理的解释，那么如果能够得知CNNs分类决策的依据，就可以实现一个更有效的生成对抗补丁样本方法。

解决以上问题及缺陷的意义为：目前提出的一类对抗补丁方法,其目的只是欺骗识别系统,很少用来对抗训练增强模型的防御能力；同样也没有考虑补丁的不可察觉性，在优化目标中仅考虑对抗补丁的放置位置及可能经过的变换，这就导致生成的对抗样本很容易被察觉。本发明通过对对抗补丁添加约束，利用Grad-CAM和掩膜机制确定的补丁位置和大小，在保证不可察觉性的同时确保了对抗的性能，实现了对抗强度和不可感知性之间良好的平衡。

发明内容

针对现有技术存在的问题，本发明提供了一种不可察觉的对抗补丁生成方法、生成系统、设备、储存介质及应用。

本发明是这样实现的，一种基于网络可解释性的生成不可察觉的对抗补丁的方法，所述基于网络可解释性的生成不可察觉的对抗补丁包括：

通过Grad-CAM和掩膜方法计算、定位图像中对CNNs分类决策影响较大的区域，并将定该区域作为图像的特征贡献区域(CFRs)；定义一个损失函数作为优化的目标函数，利用随机梯度下降算法进行迭代优化，并引入超参数(即反温度T)寻找高效的扰动，即可得基于特征贡献区域的对抗补丁。

进一步，所述基于网络可解释性的生成不可察觉的对抗补丁的方法包括以下步骤：

步骤一，进行干净图像获取，利用Grad-CAM计算的图像的特征贡献区域(CFRs)；

步骤二，通过掩膜定位图像的特征贡献区域；

步骤三，定义一个损失函数作为优化的目标函数；

步骤四，在局部区域利用随机梯度下降算法迭代优化补丁，并引入超参数(即反温度T)寻找高效的扰动；

步骤五，将计算得到的对抗补丁与步骤S101对应的干净图像相加即可得到补丁对抗样本。

进一步，步骤一中，所述利用Grad-CAM计算的图像的特征贡献区域(CFRs)包括：

(1)将获取的原始图像X通过CNN，在最后一层卷积层输出图像X的高层特征表示为A，其中用A^k∈R^u×v表示高层特征A中第k个卷积核的激活输出，卷积核的大小为u×v。A经过一个全连接层FC后，输出每个类的得分向量Y；

(2)采用全局平均池化操作，计算第k个卷积核的权重

其中，Z＝u×v，为第k个卷积核(i,j)处的激活输出；Y^C表示第C类的Logits值；表示Y^C对A^k的梯度；所述/>用于衡量第k个卷积核对第C类的分类预测重要性；

(3)结合权重对A^k进行加权求和，得到关于第C类的一个特征激活映射并对加权结果进行一次ReLU激活处理，得到第C类的激活映射：

(4)以热力图的形式可视化其中红色区域即为对分类器分类到第C类的特征贡献区域CFRs。

进一步，步骤二中，所述掩膜包括：

所述掩膜为一个与输入图像同样大小的0-1矩阵mask_X；利用阈值机制即可得到mask_X：

其中，1表示保留像素的区域即CFRs的像素位置；0表示不保留像素的区域；t为阈值，表示输入图像X为第C类激活映射。

进一步，步骤三中，所述定义一个损失函数作为优化的目标函数包括：

所述目标函数如下：

J＝-logS_j；

其中，是softmax函数,β是一个超参数，用于控制失真的程度。

进一步，步骤四中，所述对局部扰动进行迭代更新并引入超参数(即反温度T)寻找高效的扰动包括：

其中，T表示反温度，表示1/F在δ_CFR的梯度；LR是一个超参数，表示学习率。

进一步，步骤五中，所述将计算得到的对抗补丁与步骤S101对应的干净图像相加即可得到补丁对抗样本包括：

X′＝X+δ_CFR；

本发明的另一目的在于提供一种基于网络可解释性生成不可察觉的对抗补丁系统，所述基于网络可解释性生成不可察觉的对抗补丁系统包括：

(1)特征贡献区域获取模块，用于利用Grad-CAM计算的图像的特征贡献区域；

(2)局部区域定位模块，用于通过掩膜定位图像的特征贡献区域；

(3)重新定义损失函数模块，用于在一定约束下以另一种形式进行估算补丁；

(4)在局部区域利用随机梯度下降算法迭代优化以及引入反温度模块，用于求解一定约束下高效的对抗补丁；

(5)将对抗补丁与干净图像相加模块，用于可得到相应的补丁对抗样本。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

过Grad-CAM计算图像中对CNNs分类决策影响较大的区域，并将所述区域作为图像的特征贡献区域；

利用掩膜机制定位所述区域，在确定的特征贡献区域完成加扰。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

(1)本发明通过网络的可解释性，只在特征贡献区域生成对抗补丁；

(2)本发明方法将扰动限制在微小的范围内，因此生成的补丁是人眼不可察觉的；

(3)本发明生成的补丁形状是任意的，并且是由Grad-CAM在图像语义级别上的定位；

最后，本发明结合了Grad-CAM和优化技术，实现在对抗强度和不可感知性之间取得良好的平衡，其扰动的幅度大大降低并且对抗补丁的大小显著减小。

本发明利用Grad-CAM和掩膜机制来计算、定位图像中对CNNs分类决策影响较大的区域，将生成对抗样本的损失函数和扰动的l₂范数进行求和得到优化的目标函数，以确保尽可能创建一个不可察觉的对抗补丁，然后本发明利用随机梯度下降优化算法在局部区域优化补丁。本发明还借助蒸馏思想引入超参数—反温度T，超参数的引入避免了目标函数趋向于0时扰动不更新的情况。

本发明的方法生成的对抗样本具有更高对抗性和可转移性，并且本发明在CIFAR-10和ILSVRC2012数据集上通过实验验证了这一点。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于网络可解释性生成不可察觉的对抗补丁方法流程图。

图2是本发明实施例提供的利用Grad-CAM生成的热力图以及top-3分类示意图。

图3是本发明实施例提供的CIFAR-10上部分图片的CFRs和非CFRs。

图4是本发明实施例提供的不同网络结构的准确率。

图5是本发明实施例提供的在CIFAR-10数据集上PGD、C&W和CFR方法生成的扰动和对抗样本的比较(三种方法的扰动的l₂范数约束均为2)。

图6是本发明实施例提供的在ILSVRC2012数据集上PGD、C&W和CFR方法生成的扰动和对抗样本的比较(三种方法的扰动的l₂范数约束均为45)。

图7是本发明实施例提供的在CIFAR-10数据集上使用ResNet-18网络(t＝0.2,LR＝10,β＝1)迭代次数N和超参数T对对抗成功率的影响。

图8是本发明实施例提供的在ILSVRC2012数据集上使用VGG-16网络(t＝0.2,LR＝20,β＝1)迭代次数N和超参数T对对抗成功率的影响。

图9是本发明实施例提供的在CIFAR-10数据集上使用ResNet-18网络(N＝30,T＝0.1,LR＝10,β＝1)阈值t对对抗成功率和扰动的l₀范数的影响。

图10是本发明实施例提供的在ILSVRC2012数据集上使用VGG-16网络(N＝30,T＝0.1,LR＝20,β＝1)阈值t对对抗成功率和扰动的l₀范数的影响。

图11是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型VGG-11在不同方法下的准确率。

图12是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型VGG-13在不同方法下的准确率。

图13是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型VGG-16在不同方法下的准确率。

图14是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型RseNer-18在不同方法下的准确率。

图15是本发明实施例提供的CIFAR-10数据集上替代模型和目标模型RseNer-34在不同方法下的准确率。

图16是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型VGG-16在不同方法下的准确率。

图17是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型VGG-19在不同方法下的准确率。

图18是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型RseNer-34在不同方法下的准确率。

图19是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型RseNer-50在不同方法下的准确率。

图20是本发明实施例提供的ILSVRC2012数据集上替代模型和目标模型RseNer-101在不同方法下的准确率。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种不可察觉的对抗补丁生成方法、生成系统、设备、储存介质及应用，下面结合附图对本发明作详细的描述。

本发明实施例提供的基于网络可解释性生成不可察觉的对抗补丁方法包括：

通过Grad-CAM和掩膜方法计算、定位图像中对CNNs分类决策影响较大的区域，并将定该区域作为图像的特征贡献区域(CFRs)；定义一个损失函数作为优化的目标函数，利用随机梯度下降算法进行迭代优化，并引入超参数(即反温度)寻找高效的扰动，即可得基于特征贡献区域的对抗补丁。

如图1所示，本发明实施例提供的基于网络可解释性生成不可察觉的对抗补丁方法包括以下步骤：

S101，利用Grad-CAM计算的图像的特征贡献区域(CFRs)；

S102，通过掩膜定位图像的特征贡献区域；

S103，定义一个损失函数作为优化的目标函数；

S104，在局部区域利用随机梯度下降算法迭代优化补丁，并引入超参数(即反温度T)寻找高效的扰动；

S105，将计算得到的对抗补丁与步骤S101对应的干净图像相加即可得到对抗样本。

步骤S101中，本发明实施例提供的利用Grad-CAM搜索计算干净图像的特征贡献区域(CFRs)包括：

(2)采用全局平均池化操作，计算第k个卷积核的权重

步骤S102中，本发明实施例提供的掩膜包括：

步骤S103中，本发明实施例提供的一个损失函数作为优化的目标函数包括：

J＝-logS_j；

其中，是softmax函数；β是一个超参数，用于控制失真的程度。

步骤S104中，本发明实施例提供的对补丁进行迭代更新以及引入反温度包括：

其中，T表示反温度；表示1/F在δ_CFR的梯度；LR是一个超参数，表示学习率。

步骤S105中，本发明实施例提供的将计算得到的对抗补丁与步骤S101对应的干净图像相加即可得到补丁对抗样本包括：

X′＝X+δ_CFR；

下面结合具体实施例对本发明的技术效果作进一步描述。

实施例1：

1.本发明试图提出一种新的对抗补丁方法，尝试利用CNNs的可解释性在语义级别上创建补丁对抗样本，目的是为了进行对抗训练，增强深度神经网络的防御能力。该方法结合了Grad-CAM和优化技术，可以在对抗强度和不可感知性之间取得良好的平衡。本发明从两个方面改进了对抗补丁方法：首先，扰动的幅度大大降低，这几乎是人类无法察觉的；第二，对抗补丁的大小显著减小。

2.本发明通过对抗样本证实了Grad-CAM的合理解释。本发明工作表明，在由Grad-CAM定位的CFRs中的对抗扰动可以有效地欺骗CNNs。这从一个新的角度揭示了CNNs具有人类神经网络特征的一个重要事实，即CNNs在某种程度上具有类似于人类的注意力机制，这为进一步探索人工智能提供了重要的线索。

3.受“注意力机制”的启发，本发明认为CNNs的性能受到某些特定特征区域的影响很大。因此，如果本发明找到特征区域作为添加补丁的位置，则会比以往的方法更有效。本发明的想法是将图像分为两个语义部分：CFRs和Non-CFRs，CFRs确定了补丁的位置和大小。

3.1基本的符号定义

深度神经网络：深度神经网络可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布。从函数逼近角度可以把深度神经网络表示为高维逼近函数：f(X,θ):R^m→Rⁿ，在这里，X∈R^m是输入，Y∈Rⁿ是的真实分类标签，θ代表所有参数。在本发明关注深度神经网络分类器softmax层前的输入，即Logits层，在这里/>是权重矩阵，A是Logits层的输入向量(分类器倒数第三层的输出)，这里面包含一个映射函数/>那么softmax函数可以表示为/>最终分类器可以表示为给定一个输入X，那么X的预测标签可以表示为/>分类器训练目标是最小化交叉熵损失函数，交叉熵损失函数可以表示为：

其中Y是1×C的向量，里面有C个值，只有1个值是1(对应真实标签)，其他C-1个值都是0。对于N个输入-标签对(X_i,Y_i)，分类器的交叉熵损失函数可以表示为：

对抗样本：对于深度神经网络分类器f(X,θ)，输入样本为X，其真实标签为Y,δ为对抗扰动。那么对抗样本可以表示为X′＝X+δ。通常情况下，扰动δ通过l₀，l₂或l_∞范数来约束，即对于生成无目标对抗样本，只需要让目标模型实现Y′＝argmax_j＝1,2,..,Cf(X′)_j，Y′≠Y，并不指定模型分类成哪一类；对于生成有目标对抗样本，则需要指定某一类Y^*，Y^*≠Y，使得目标模型不仅对样本分类错误并且需要分类成指定的类别。从难度上来讲，有目标的实现要难于无目标。

3.2特征贡献区域(Contributing Feature Regions)

特征贡献区域(CFRs)指的是图像中用于模型预测的重要区域。典型的搜索特征贡献区域的方法包括Grad-CAM、CAM和c-MWP。本发明选择Grad-CAM作为搜索特征贡献区域，是因为相比于CAM和c-MWP，Grad-CAM不仅不受特定CNNs架构的约束，并且只需要更小的计算量即可生成更优的定量定性结果。

假设输入图像X，通过CNNs后，在最后一层卷积层输出该图像的高层特征表示A，其中用A^k∈R^u×v表示高层特征A中第k个卷积核的激活输出，卷积核的大小为u×v。A经过一个全连接层FC后，会输出每个类的得分向量Y(也称Logits)，其中Y^C表示第C类的Logits值，该值越大表示X被预测为第C类的概率越大。Y^C对A^k的梯度可以衡量第k个卷积核对第C类的分类预测重要性。基于这个理论，本发明进一步采用全局平均池化操作，计算第k个卷积核的权重/>

其中，Z＝u×v，为第k个卷积核(i,j)处的激活输出。最后，结合权重/>对A^k进行加权求和，得到关于第C类的一个特征激活映射/>考虑到只有/>中的正值会对最后的分类结果产生积极作用，所以对最终的加权结果再进行一次ReLU激活处理，去除负值的影响，得到第C类的激活映射：

本发明可以热图的形式可视化(例如图2)，其中红色区域是第C类的特征贡献区域(CFRs)。

由于CFRs通常是不规则的，因此本发明引入了一种掩膜机制来定位。形式上，掩膜是具有与输入图像相同大小的矩阵。mask_X中不保留像素的区域为0，保留像素的区域为1，即CFRs的像素位置为1，利用简单的阈值机制即可得到mask_X：

其中，t是阈值，表示输入图像X是第C类激活映射。本发明使用mask_X定位补丁的位置。算法1中详细说明了获得特征贡献区域补丁的方法。

3.3在特征贡献区域生成对抗补丁

首先，对抗扰动的初始表述定义如下：

s.t.f(X+δ)≠y

X+δ∈[0，1]^m

本发明不同之处在于，仅扰动CFRs，因此通过如下公式解决此问题：

s.t.f(X+δ_CFR)≠y

X+δ_CFR∈[0，1]^m

但是，由于约束f(X+δ)≠y是高度非线性的，因此现有算法难以精确计算||δ_CFR||_p。因此，本发明以更适合的优化方法近似估算||δ_CFR||_p。本发明定义一个满足f(X+δ_CFR)≠y的目标函数F。该目标函数由两部分组成：(1)用于生成对抗样本的损失函数，以及(2)用于约束补丁大小的l₂正则化函数。从理论上讲，l₀和l_∞范数也可以视为正则函数。但是，本发明注意到l₀范数是不可微的，不能用于标准梯度下降算法。另外，l₀范数仅关注δ_CFR中的最大值，在梯度下降过程中易于在两个次优解之间振荡。因此，本发明将δ_CFR的l₂范数用作距离度量。因此，本发明的目标函数定义如下：

其中，β是一个超参数，控制失真的程度。对于输入图像X，本发明优化目标是在模型错误分类情况下，在约束内找到最大化F的δ_CFR：

max F

s.t.X+δ_CFR∈[0,1]^m

由于最大化F和最小化1/F是等价的，于是本发明可以得到下面最优化问题：

s.t.X+δ_CFR∈[0，1]^m

本发明使用随机梯度下降(SGD)算法来求解δ_CFR。1/F在δ_CFR的梯度为利用/>来迭代更新δ_CFR：

其中LR是一个超参数，相当于学习率。

本发明首先生成一个随机扰动δ_CFR，得到的对抗样本X′＝X+δ_CFR。通过式可知，当/>时，J_adv→0，本发明令P＝β(1/||δ_CFR||₂)，J_adv＝J(f_θ(X+δ_CFR),Y)，此时1/F＝1/P，/>那么继续利用随机梯度下降(SGD)算法更新δ_CFR将不会导致J_adv变大，为了避免出现这种情况，本发明借助蒸馏思想，引入超参数T。我们知道/>若0＜T＜1，/>的下界被放大，变大，即/>变大；T＞1则使得/>下界缩小，/>变小，即变小。本发明的目的是使得/>变大，因此设置0＜T＜1。

那么，本发明目标函数修改为：

本发明提出生成对抗样本的算法如算法1所示：

4.下面结合实验验证对本发明作进一步描述。

(1)CFRs是最终分类决定的重要依据；(2)CFRs对抗将产生不可察觉的干扰；(3)在本节中，本发明展示了白盒对抗和黑盒对抗的实验，结果表明本发明具有强大的白盒对抗能力和较高的可传递性；(4)本发明在白盒设置下生成了补丁对抗样本，进一步表明目前最先进的防御方法对本发明的对抗样本防御性能较低。

4.1实验设置

数据集：本发明在CIFAR-10和ILSVRC2012这两个数据集上进行实验验证。CIFAR-10数据集由60,000个32×32×3图像组成，包含10个类，每类6,000张图。这里面有50,000张用于训练，构成了5个训练批，每一批10,000张图；另外10,000用于测试。ILSVRC2012图像分类数据集包含了来自1,000个类别的120万张图片，50,000张图像作为验证集。对已经被错误分类的图像添加扰动没有什么意义，因此本发明用于生成补丁对抗样本的图像都是被所有网络正确分类的图像。

模型：对于CIFAR-10，本发明使用VGG-11和ResNet-18，它们的测试准确率分别达到91.66％和92.19％。对于ILSVRC2012本发明训练了VGG-19和ResNet-34，测试准确率分别为71.02％和72.17％。

评价指标：本发明设置的评价指标为对抗成功率ASR，峰值信噪比PSNR以及l₂失真度量值，其中ASR和PSNR定义如下：

对抗成功率ASR：给定n个正确分类的输入X_i，其相应的对抗样本为X_i′，真实标签为Y_i，本发明通过下式计算对抗成功率ASR：

/>

峰值信噪比Peak Signal-to-Noise Ratio(PSNR)：给定一个大小为H×W的干净图像X和其对应的对抗样本X′，可以得到其均方误差(MSE)为下式：

那么PSNR可以定义为：

4.2CFRs的影响

本发明首先通过两组特殊对抗图像评估CFRs对分类器的影响。一组中的图像保持CFR的像素不变，而其余像素设置为0，表示为Adv-CFR。相反，另一组将CFR的像素设置为0，图像的其余像素保持不变，这被表示为Adv-Non-CFR。这些对抗图像是从CIFAR-10的10,000张干净图像中精心制作的。图3显示了Adv-CFR和Adv-Non-CFR的样本。

结果如图4所示，输入Adv-CFR的准确率高达85％以上。但是，输入Adv-Non-CFR的准确率非常低。实验结果表明，CFR对模型决策具有最大的语义部分，并且是对模型分类有积极贡献的领域。

4.3对抗的效果分析

本发明在白盒设置下使用两个数据集上生成对抗样本。表1中的结果显示了干净测试数据的分类准确性以及由本发明的补丁对抗方法在不同模型而生成对抗样本的ASR。图5、图6展示了几种全局对抗和本发明所产生的扰动和对抗样本。可以看出，本发明生成的对抗补丁添加到干净图像上得到的对抗样本与相应的图像非常接近，本发明提出的对抗补丁与之前的方法对比其补丁在视觉上几乎是不可察觉的。当使得l₂失真度量值约束相同时，本发明观察到在两个数据集上PGD的ASR分别为74.33％和56.50％，C&W的ASR分别为72.11％和45.00％。相反，本发明仅扰动局部语义同时仍具有强大的对抗性能。

表1第二列：不同模型上干净样本的准确率(Accuracy)；第三列：对抗样本的对抗成功率(ASR)

4.4与其他方法对比

表2不同方法的ASR、PSNR和l₂失真度量值对比

表2展示了不同方法的ASR、PSNR和l₂失真度量值(此处指出，本发明给出了对抗样本与干净图像之间的平均差异)。本发明证明，CFRs对抗方法不仅会产生较小的扰动(较小的l₂失真度量值)，而且具有强大的对抗性能(较高的ASR)，并且生成的补丁几乎是不可察觉的(较大的PSNR)。具体而言，C&W的失真性能最差，两个数据集上的l₂失真度量值最大，且PSNR最小。鉴于JSMA和one-pixel都是局部对抗技术，本发明使用这两种技术进行了对比实验。在CIFAR-10上，JSMA的性能低于CFRs对抗技术(ASR：90.33％vs 100.00％)；并且它的l₂失真度量值非常大。在ILSVRC2012上，本发明在所有度量指标上均优于JSMA。对于one-pixel技术，本发明选择修改5个像素。在CIFAR-10上，one-pixel技术不仅具有很大的l₁失真，而且其对抗性能也很差。在ILSVRC2012上，尽管one-pixel技术的l₂最小，但其对抗成功率仅为40.56％，在实验过程中，one-pixel技术需要大量内存。因此，本发明观察到扰动语义的减少不会降低CFRs对抗技术的性能。

4.5超参数分析

迭代次数N和反温度T：N和T是本发明中的主要超参数，在这里探讨它们对ASR的影响。本发明观察到N对ASR上有正向的影响(图7和图8)。随着N增大，ASR也趋于增加。当N＝30时，两个数据集上的ASR均可达到100％。当N＝1到N＝5时，ASR增长最快，之后趋于缓慢增长，直到100％。随着迭代次数的增加，本发明的目标函数可以更好地找到全局最优解，从而避免陷入局部最优解。对于两个不同的数据集，T＞1或T过小都会对结果产生负影响(图7和图8)。首先，本发明设置T是为了防止趋向于0，如果T＞1，/>会变得更小，从图7和图8可以发现，当T＝2时对抗成功率表现出不同程度的下降。其次，当T＝0.01到0.1时曲线整体呈现上升的趋势，当T＝0.1到2时，曲线明显出现下降趋势。换句话说，T过小的情况下会导致/>变得很大从而导致其远远偏离原始值和最优的方向，因此不容易收敛到最优解。总的来说，T的值要适中选择，即T＝0.1。

阈值t：阈值t的大小直接确定了掩膜mask_X的大小，即添加扰动的范围大小。为了确定t的变化对对抗成功率和扰动的l₀范数的影响，本发明固定了迭代次数N和超参数T。当t＝0，在两个数据集上面的对抗成功率都达到100％，在CIFAR-10数据集上的l₀＝2903，ILSVRC2012数据集上l₀＝198402，随着阈值t的不断增大，特征贡献区域随之减小，即扰动的范围不断减小，直接的表现就是扰动的l₀范数直线下降，当t达到0.5时，在两个数据集上面的l₀范数分别降到1529和24026，与t＝0时相比，分别降低至其l₀范数的1/2和1/10，但是其对抗成功率并没有下降多少，在CIFAR-10上降低0.7％，在ILSVRC2012数据集上降低5.07％(图9和图10)。在本发明的实验中都将阈值t设置为0.2。

4.6黑盒对抗

在这一小节中，本发明展示黑盒对抗的实验效果。在黑盒对抗中，首先指定黑盒模型的替代模型，然后生成一组能够成功欺骗替代模型的对抗样本。通常这组对抗样本被认为具有很强的可转移性，即在误导替代模型情况下，也会误导目标模型。潜在的假设是具有高度可转移的对抗样本可以在许多不同的目标模型上实现类似的对抗性能。因此本发明可以预期，具有可转移性的对抗样本会降低替代模型的准确性，同时也会降低目标模型的准确性，从而导致高的黑盒对抗能力。为了证明本发明的黑盒对抗能力，本发明在两个数据集上对不同的目标模型进行黑盒对抗实验。

CIFAR-10：本发明首先只在一个经过正常训练的模型上制作对抗样本，并在所有五个模型上进行测试。模型的准确率如图11-图15所示，如图11，Natural表示五个模型在干净的测试样本上面的准确率。本发明利用PGD、M-DI²-FGSM、C&W和CFRs方法在替代模型VGG-11上生成对抗样本，本发明把这组对抗样本喂给VGG-11、VGG-13等五个目标模型，分别得到目标模型的分类准确率。当然替代模型和目标模型一致情况下相当于白盒对抗，替代模型不同于目标模型即黑盒对抗。从图11-图15可以发现本发明的方法明显优于PGD和C&W技术上，CFRs对抗补丁导致替代模型的准确性更低。对比M-DI²-FGSM，当替代模型VGG-13，VGG-16，ResNet-18时，CFRs对抗方法生成的补丁对抗样本可转移性更高，例如替代模型ResNet-18，M-DI²-FGSM对抗技术使得目标模型VGG-11的准确率为0.272，而CFRs补丁对抗样本使得目标模型VGG-11的准确率更低，为0.149。

ILSVRC2012：本发明在ILSVRC2012数据集上面做了同样地实验，选取一个模型作为替代模型，并在所有五个模型上进行测试。如图16，本发明利用PGD、M-DI²-FGSM、C&W和CFRs对抗在替代模型VGG-16上生成对抗样本，本发明把这组对抗样本喂给VGG-16、VGG-19等五个目标模型，分别得到目标模型的分类准确率。同样从图16-图20可以发现本发明的方法在ILSVRC2012数据集上面也明显优于PGD和C&W技术，因为本发明的方法使得替代模型的准确率更低。同样对比M-DI²-FGSM，在替代模型VGG-19上，M-DI²-FGSM技术使得目标模型ResNet-34的准确率为0.323，而CFRs补丁对抗样本使得目标模型VGG-11的准确率为0.195，显然本发明的方法生成的对抗样本可转移性更强。

4.7进一步评估补丁对抗样本的有效性

为了评估防御情况下补丁对抗样本的对抗强度，本发明采用白盒设置生成对抗样本。本发明主要关注对抗训练，因为对抗训练是被公认的最有效的防御方法之一。在这里本发明使用了两种防御策略：Fast对抗训练和PGD对抗训练。表3展示了CIFAR-10和ILSVRC2012数据集的结果。本发明观察到，这两种防御策略针对三种对抗方法都不能产生较高的防御性能(对抗成功率ASR都高于50.00％)。其中这两种防御方法在CFRs对抗方法上具有最低的防御性能，例如在CIFAR-10数据集上，经过PGD对抗训练的ResNet-18模型，利用PGD和C&W生成的对抗样本成功率分别是57.57％和65.71％，而本发明的方法对抗成功率达到77.39％。本发明提出的这种方法基于网络可解释性生成对抗补丁，对抗性能也更强，这也为以后开发出更好的防御系统开辟了一个新的方向，更加的关注网络的可解释性。

表3模型ResNet-18和VGG-16经过Fast和PGD对抗训练，利用PGD、C&W和CFRs对抗补丁生成的样本的对抗成功率

本发明证明了基于网络可解释性的对抗补丁是最为有效的。正如本发明的理论和实验所表明的，本发明设计出了一个人眼不可察觉的对抗补丁方法。本发明使用CIFAR-10和ILSVRC2012数据集进行了广泛的实验，结果表明本发明的补丁对抗样本比现有的全局对抗(例如PGD和C&W)以及局部对抗(例如JSMA和One-Pixel)要强的多，并且基于网络可解释性的补丁对抗样本也为以后实现更好的防御方法提供了一个新的视角。

总之，本发明首先通过Grad-CAM计算图像中对CNNs分类决策影响较大的区域，并将该区域作为图像的特征贡献区域(Contributing Feature Regions，以下简称CFRs)；然后利用掩膜机制定位该区域，使得能够在确定的特征贡献区域完成加扰。该发明使得对抗补丁的形状是任意的，并且其位置是由Grad-CAM在图像语义层面上的定位。为了尽可能创建一个肉眼不可察觉的补丁，本发明重新定义一个损失函数作为优化的目标函数，进而利用随机梯度下降优化算法并引入超参数寻找高效的扰动，即可获得基于CFR的补丁对抗样本。本发明通过只在特征贡献区域加扰以及将扰动范围限制在人眼难以察觉的微小范围内，实现了对抗强度和不可感知性之间良好的平衡。本发明的方法生成的对抗样本具有更高的可转移性，并且本发明在CIFAR-10和ILSVRC2012数据集上通过实验验证了这一点。本发明的补丁对抗样本为实现更好的防御方法提供了新的思路。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于网络可解释性的生成人眼难以察觉的对抗补丁的方法，其特征在于，所述基于网络可解释性的生成人眼难以察觉的对抗补丁的方法包括：

通过Grad-CAM计算图像中对CNNs分类决策影响较大的区域，并将所述区域作为图像的特征贡献区域；

利用掩膜机制定位所述区域，在确定的特征贡献区域完成加扰；

所述基于网络可解释性的生成人眼难以察觉的对抗补丁的方法具体包括：

(1)利用Grad-CAM搜索获取的图像的特征贡献区域CFRs；

(2)通过掩膜定位图像CFRs，与原始图像进行Hadamard乘积后获得扰动区域；

(3)生成对抗样本损失函数和扰动的l₂范数作为优化的目标函数，利用随机梯度下降算法优化计算特征贡献区域的对抗补丁，叠加到原始图像后得到只有局部扰动的补丁对抗样本；

所述利用Grad-CAM搜索获取的图像的特征贡献区域包括：

(1)将获取的原始图像X通过CNN，在最后一层卷积层输出图像X的高层特征表示为A，其中用表示高层特征A中第k个卷积核的激活输出，卷积核的大小为u×v；A经过一个全连接层FC后，输出每个类的得分向量Y；

(2)采用全局平均池化操作，计算第k个卷积核的权重

(3)结合权重对A^k进行加权求和，得到关于第C类的一个特征激活映射/>并对加权结果进行一次ReLU激活处理，得到第C类的激活映射：

(4)以热力图的形式可视化其中红色区域即为对分类器分类到第C类的特征贡献区域CFRs；

所述掩膜包括：

其中，1表示保留像素的区域即CFRs的像素位置；0表示不保留像素的区域；t为阈值，表示输入图像X为第C类激活映射；

所述目标函数包括生成对抗样本的损失函数和局部扰动δ_CFR的l₂正则化函数；

所述目标函数如下：

其中，β是一个超参数，用于控制失真的程度；/>T表示超参数；

所述对局部扰动进行迭代优化包括：

其中，表示1/F在δ_CFR的梯度；LR是一个超参数，表示学习率。

2.一种应用如权利要求1所述的基于网络可解释性的生成人眼难以察觉的对抗补丁的方法的基于网络可解释性生成不可察觉的对抗补丁系统，其特征在于，所述基于网络可解释性生成不可察觉的对抗补丁系统包括：

(3)对抗补丁获取模块，基于重新定义的目标函数，在局部区域利用随机梯度下降算法进行迭代优化计算对抗补丁，并基于计算得到的补丁与获取的图像相加得到补丁对抗样本。

3.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1所述的基于网络可解释性的生成人眼难以察觉的对抗补丁的方法的步骤。

4.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1所述的基于网络可解释性的生成人眼难以察觉的对抗补丁的方法的步骤。

5.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1所述的基于网络可解释性的生成人眼难以察觉的对抗补丁的方法的步骤。