CN112633280A

CN112633280A - 一种对抗样本生成方法及系统

Info

Publication number: CN112633280A
Application number: CN202011620173.5A
Authority: CN
Inventors: 叶贵鑫; 王玉莉; 车小康; 田洋; 瞿兴; 范子茜; 汤战勇; 房鼎益
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-09
Anticipated expiration: 2040-12-31
Also published as: CN112633280B

Abstract

本发明公开了一种对抗样本生成方法与系统。所公开的方法包括获取原始图像的可解释性区域图像；确定合适的像素阈值，根据可解释性区域图像生成该阈值下原始图像的扰动添加模板，根据扰动添加模板中的0像素点值在原始图像的相应像素点处添加叠加扰动，生成该原始图像的对抗样本。所述公开的系统为执行所述对抗样本生成方法的系统。本发明可确保对抗扰动的可感知性和攻击性，且人眼不易发现本发明的方法加在对抗样本中的扰动，同时经验证模型以较高的概率被对抗样本误分类。

Description

一种对抗样本生成方法及系统

技术领域

本发明涉及计算机应用技术领域，具体是一种基于模型可解释性的对抗样本生成方法。

背景技术

对抗样本指在数据集中通过故意添加细微的干扰(即对抗扰动)所形成的输入样本，导致模型以高置信度给出一个错误的输出。在图像识别中，可以理解为原来被一个卷积神经网络(如InceptionV3、Alexnet、Lenet5等CNN模型)分类为一个类(比如“熊猫”)的图片，经过非常细微甚至人眼无法察觉的改动后，突然被误分成另一个类(比如“长臂猿”)。对抗扰动指加在图像上的扰动，对抗样本指在原图上添加对抗扰动后的图像。

评价对抗样本的指标主要包括：对抗样本的攻击性：生成的对抗样本使得模型分类错误的能力；对抗样本的感知性：人眼对添加在图像上的对抗扰动的可见性。

基于上述原理，在原始输入数据集中加入细微的扰动，可以有效的防御某些基于网络模型(如DNNs模型)的攻击。

现有产生对抗样本的方法多种多样。例如：快速梯度符号法(FGSM)是一种基于梯度的扰动生成方法，利用对输入图像的分类损失梯度产生对抗扰动来欺骗识别模型。它提供了一个快速的解决方案，以获得对抗样本。I-FGSM是FGSM的迭代版本，通过划分较小的步长将其多次应用以获得更好的攻击性。

虽然大多数现有的对抗样本生成方法能产生攻击性强的对抗样本，但都是以“全局”的方式添加对抗扰动。“全局”指该扰动生成方法平等地对待一张图像中的所有像素，对所有像素均添加对抗扰动。这种扰动添加方式往往不考虑自然图像中像素具有的局部平滑特性。特别是，随着扰动大小的增加，模型测试精度降低，由于添加全局的扰动将破坏原始图像的局部平滑，使得扰动变得更容易被人眼感知。因此，在对自然图像进行攻击时，如何权衡对抗扰动攻击的成功率和扰动的可感知性是目前需要解决的问题。

发明内容

针对现有技术的缺陷或不足，本发明一方面提供了一种对抗样本生成方法。

为此，本发明所提供的对抗样本生成方法包括：

步骤一，获取原始图像的可解释性区域图像；

步骤二，确定合适的像素阈值threshold，根据可解释性区域图像生成该阈值下原始图像的扰动添加模板Mask，根据扰动添加模板中的0像素点值在原始图像的相应像素点处添加叠加扰动，生成该原始图像的对抗样本；所述叠加扰动采用公式(1)计算：

其中：

L_n(x,y)表示为第n个第二CNN分类模型训练时的损失函数，n＝1,2,3,...,N，N≥2；y表示原始图像x的类别；例如可以理解为y是数据集中已给定的原始图像x的类别；

表示第n个第二CNN分类模型的关于损失函数L_n(x,y)的梯度，N个第二CNN分类模型的初始结构或/和网络参数不同，且N个第二CNN分类模型采用相同的训练集训练获得；

描述了loss函数的梯度方向，α为在该方向上的偏移量级；α>0。

进一步，所述步骤一包括将原始图像集中的任一原始图像x和第一CNN分类模型作为模型可解释性算法的输入，输出原始图像x的可解释性区域图像，所述原始图像x为第一CNN分类模型可识别并分类的图像。

可选的，所述模型可解释性算法采用Grad-CAM算法。

进一步，所述步骤二包括：

Step1，根据公式(2)划分原始图像x的可解释性区域图像，得到当前阈值threshold_temp对应的临时扰动添加模板Mask_temp，

其中，m_i,j为可解释性区域图像中像素点(i,j)处的像素值，mask_i,j为临时扰动添加模板Mask_temp对应像素点(i,j)处的像素值，初始0≤threshold_temp≤255；

Step2，在原始图像x中的与Step1生成的临时扰动添加模板Mask_temp中像素值为0的像素点对应的像素点处添加采用公式(1)计算的叠加扰动ε，生成原始图像x的临时对抗样本x^adv+；

Step3，用临时对抗样本x^adv+对第一CNN分类模型进行攻击，得到的攻击成功率rate_temp；

Step4，若rate_temp>rate，则更新rate＝rate_temp,threshold＝threshold_temp，然后临时阈值threshold_temp增加至少1个单位像素值后跳至step5；否则，不更新rate和阈值threshold，临时阈值thredhold_temp增加至少1个单位像素值后跳至step5；初始模型攻击成功率rate≥0；

Step5，若临时阈值threshold_temp小于等于255，跳转至Step1；若临时阈值threshold_temp大于255，则跳到step6；

Step6，当前阈值作为所确定的threshold，该阈值下生产的临时扰动添加模板为原始图像x的扰动添加模板Mask，所生生的临时对抗样本为该原始图像的对抗样本。

可选的，所述Step4中，若rate_temp>rate，则更新rate＝rate_temp,threshold＝threshold_temp，然后临时阈值threshold_temp增加1、2、3、4、5或6个单位像素值后跳至step5；否则，不更新rate和阈值threshold，临时阈值threshold_temp增加1、2、3、4、5或6个单位像素值后跳至step5；初始模型攻击成功率rate≥0。

更进一步的方案中，方法用于生成原始图像集中的各原始图像的对抗样本；进一步还包括步骤三：生成原始图像集中各原始图像的可解释性区域图像；利用其中任一原始图像确定合适的像素阈值threshold，根据可解释性区域图像生成该阈值下原始图像的扰动添加模板Mask；在合适阈值threshold下，分别生成原始图像集中各原始图像的扰动添加模板；之后在各原始图像中与各自的扰动添加模板中像素值为0的像素点对应像素点处添加采用式(1)生成的对抗扰动，生成各原始图像的对抗样本，各原始图像的α取值相同或不同。

进一步，本发明的方法还包括：采用步骤1-5确定α值：

步骤1，取α_temp，采用公式(1)生成临时对抗扰动ε_temp，α_temp初始大于0；

步骤2，将产生的临时对抗扰动ε_temp全局添加到原始图像x或待处理图像上，得到临时对抗样本

步骤3，用临时对抗样本

攻击第一CNN模型，得到的攻击成功率为

步骤4，比较

与当前rate_attack的大小，若两者相等或差值的绝对值在允许的误差范围内，则flag+1，跳转到步骤5；否则，

跳转到步骤5；其中flag初始取0，初始rate_attack≥0；

步骤5，判断flag的值，若小于等于flagmax，flagmax≥2,则α_temp增加至少1个单位后继续步骤1；否则当前α_temp为α。

可选的，步骤5中判断flag的值，6≥flagmax≥2,则α_temp增加1、2、3、4、5或6个单位继续步骤1；否则当前α_temp为α。

本发明同时还提供了一种对抗样本生成系统。为此，本发明提供的对抗样本生成系统包括可解释区域图像生成模块和对抗样本生成模块；所述可解释性区域图像生成模块用于获取待处理图像的可解释性区域图像，所述对抗样本生成模块用于生成待处理图像的对抗样本。

进一步，所述系统还包括扰动优化模块，该扰动优化模块用于执行上述步骤1-5。

本发明可确保对抗扰动的可感知性和攻击性，且人眼不易发现本发明的方法加在对抗样本中的扰动，同时经验证模型以较高的概率被对抗样本误分类。

附图说明

图1Grad-CAM算法产生的类激活映射图示例；

图2为实施例确定类激活映射图二值化阈值threshold的示例；

图3为实施例中本发明的方法与现有的以“全局”方式添加对抗扰动方法生成的对抗样本在不同扰动大小下视觉上的对比，(a)为以“全局”的方式添加对抗扰动；(b)为以本发明的方法添加对抗扰动。

具体实施方式

除非另有说明，本文中的术语根据本发明所属领域普通技术人员的常规认识理解。

本发明所述的图像可解释性区域图像是指图像分类问题中，对分类器分类起到了关键作用的区域。如图1所示，类激活映射图通过颜色变化的程度，直观反应出图像中对分类影响的区域其重要程度分布信息。

可采用模型可解释性算法与相应CNN分类模型获得原始图像的可解释性区域图像，所述CNN分类模型是指采用与原始图像属性相同(如均为动物图像、均为熊猫图像、均为熊猫爪子的图像；均为汽车图像、均为轿车图像、均为轮胎图像，即属性的广义程度不做限定)的样本集和相应的标签集对初始网络进行训练获得的分类模型。

适用于本发明的模型可解释性算法为现有的相应算法，以Grad-CAM算法为例，Grad-CAM(Gradient-weighted Class Activation Mapping)是一种能对卷积神经网络的决策生成“可视化解释”的技术。该方法由Selvaraju等人提出；其基本思路是针对某类别A的解释，首先获得softmax层之前对类别A的分数值；假设最后一层卷积层特征图B通过类别A的数值反向传播到对应的卷积层(即调用分类模型中的相应层)，得到对应的梯度，梯度尺寸与特征图B一致；再将梯度全局平均来计算对应通道的权重；最后通过加权和的方式得到原始图像的类激活映射图。如图2所示，类激活映射图以彩色图的形式全图覆盖，无法确定在哪些区域中添加对抗扰动既能保证攻击成功率又能使添加扰动的区域更小。

本发明对抗扰动的生成方法是基于FGSM算法所做的改进，FGSM算法称为快速梯度法(Fast Gradient Sign Method)，该算法最早由Goodfellow等人在其论文中提出，其原理为，让输入的样本图像朝着类别置信度降低的方向移动，在深度学习模型中寻找其梯度变化最大的方向，并按照此方向在一定阈值的限制内，通过一次移动，来对输入样本添加扰动，使得模型的loss增大，最终导致模型的分类错误。本发明改进后的算法是对原始图像叠加N个不同网络结构或/和网络参数的CNN分类模型产生的扰动，即生成叠加对抗扰动ε，基于该改进算法生成的对抗样本不仅能很好的攻击原模型，也能更好的攻击其他模型。具体来讲，本发明的方法在生产对抗扰动时所使用的N个不同结构或/和网络参数的CNN分类模型，但使用相同属性样本集训练且训练过程相同，训练过程中的损失函数相同或不同，所述损失函数为神经网络训练过程中可使用的损失函数，例如但不限于：CrossEntropyLoss、MultiMarginLoss等。

并且，在能保证攻击模型成功的情况下，本发明对抗扰动生成过程中的相应梯度方向偏移量值α可取优选值。本发明提供了一种α取值的确定方法，具体包括：

步骤1，根据α_temp的取值，采用公式(1)生成临时对抗扰动ε_temp，α_temp初始大于0；

步骤2，将产生的临时对抗扰动ε_temp全局添加到原始图像x上，得到临时对抗样本

步骤3，用临时对抗样本

攻击第一CNN模型，得到的攻击成功率为

步骤4，比较

与当前rate_attack的大小，若两者相等或差值的绝对值在允许的误差范围内(其中误差范围越小效果越好，例如可取0.005-0.01，合理的误差范围为了表示攻击模型的成功率几乎不在变化这一点，误差值大小可任意设定，误差值越小，结果越精确)，则flag+1，跳转到步骤5；否则，

跳转到步骤5；其中flag初始取0，rate_attack初始取0；

步骤5，判断flag的值，若小于等于4，则α_temp增加至少1单位继续步骤1；否则当前α_temp为α。

以下是发明人提供的具体实施例，以对本发明的方案做进一步解释说明。

实施例：

该实施例的数据集选取ImageNet数据集中6个类别，每个类别中的100张图像作为数据集；

该实施例中第一CNN分类模型是：Pytorch框架中预训练好的Inception V3；第二CNN分类模型分别是：Pytorch框架中预训练好的Inception V3和ResNet34，即N＝2；

根据本发明提供的α确定方法，该实施例在初始α_temp＝5、间隔取5、误差范围取0.01、flagmax＝4、初始rate_attack＝0的条件下，确定α的取值，循环过程α＝10之后继续增加扰动，扰动对模型的攻击成功率几乎保持不变，因此该实施例后续步骤以α＝10时，对模型的攻击成功率为依据找出合适的阈值生成二值掩码；

分别对ImageNet数据中6个类别(分别为：rock crab、malinois、Great Pyrenees、wood rabbit、Arabian camel和macaque)的100张图像，通过使用Grad-CAM可解释性算法找到Inception V3模型对这些图像的可解释性区域(即生成类激活映射图)，该实施例具体采用文献《Grad-CAM:Why did you say that？Visual Explanations from Deep Networksvia Gradient-based Localization》中公开的方法获得类激活映射图；

该实施例的像素值threshold_temp初始取120，初始rate＝0，依次循环取125、130、135、140、145、150、155为阈值划分二值掩码，如图2所示，依据二值掩码Mask中像素值为0的区域在数据集中任一类别任一原图上分别添加基于InceptionV3和Resnet34模型产生的α＝10生成的扰动对应的对抗样本

攻击Inception V3模型，根据得到的攻击成功率确定最终二值掩码的阈值大小；以生成的对抗样本攻击模型的成功率越高且添加对抗扰动的区域越小为原则确定二值掩码阈值；结果如表1所示，该表列出在不同阈值下的可解释性区域掩码中，添加α＝10的对抗扰动，攻击第一CNN模型Inception V3模型的成功率，从表中可以看出在二值掩码阈值为像素值130，对抗样本的攻击准确率基本不再变化，当像素值继续减小(即增加添加扰动的区域面积)攻击准确率可能会增加，但增加幅度并不明显。因此在以生成的对抗样本攻击模型的成功率越高且添加对抗扰动的区域越小的原则下，划分二值掩码的阈值设为像素值130；

之后取α＝10、像素值130，采用上述方案生成数据集中其他图像的对抗样本。

表1

在上述实施例方案基础上，进一步，将本发明的方法与添加单一扰动的方案进行对比，其中添加单一扰动的方案与该实施例的方案不同的是，公式(1)中为两个相同的Inception V3模型，具体方案是：

通过对一张图像按像素值130划分Grad-CAM算法对第一CNN分类Inception V3模型给出的可解释性区域得到二值掩码，并在掩码中像素值为0的区域，分别添加扰动大小α＝2.5、5、7.5、10的由第二CNN分类Inception V3和ResNet34模型产生的FGSM叠加扰动，由此生成的对抗样本去分别测试对InceptionV3、Resnet34、VGG11和Alexnet模型的攻击成功率；并与同等扰动大小的仅由Inception V3模型产生的对抗扰动攻击结果做对比。结果如表2所示，本发明的扰动叠加的攻击方法相较于单扰动攻击，从攻击效果和迁移效果整体来说，要更有效一些。

同时该实施例用上述方案中生成的各叠加扰动攻击Pytorch框架中预训练好的VGG11和Alexnet模型，测试本发明生成的对抗扰动的迁移效果，结果如表2所示，说明本发明的生成的对抗扰动的迁移效果良好。

表2

更进一步，将本发明在可解释性区域的掩码范围内添加扰动生成对抗样本的方法与现有在“全局”范围内添加扰动生成对抗样本的方法进行对比，其中所添加的扰动为：在α＝2.5、5、7.5、10下，由第一CNN分类Inception V3和ResNet34模型产生的叠加扰动。

结果如图3所示，从图中可以看出，对于背景平滑的图像来说，现有方法产生的扰动易破坏该图像平滑性，且添加的扰动越大，背景中的扰动越易被人眼感知。例如在α＝10的情况下，人眼能明显看出浅色背景中添加的扰动。而本发明提出的方法，由于扰动添加到该图像的可解释性区域(即图像的主体兔子上)，背景区域几乎没有对抗扰动添加，因此极大的保证了对抗扰动的可感知性。并且随着扰动的增大，本发明的生成对抗样本的方法在扰动感知性方面优势越大。

Claims

1.一种对抗样本生成方法，方法用于生成原始图像的对抗样本，其特征在于，所述方法包括：

步骤一，获取原始图像的可解释性区域图像；

步骤二，确定合适的像素阈值threshold，根据可解释性区域图像生成该阈值threshold下原始图像的扰动添加模板Mask，根据扰动添加模板中的0像素点值在原始图像对应的像素点处添加叠加扰动ε，生成该原始图像的对抗样本；

其中：

L_n(x，y)表示为第n个第二CNN分类模型训练时的损失函数，n＝1，2，3，...，N，N≥2；y表示原始图像x的分类类别；

表示第n个第二CNN分类模型的关于损失函数L_n(x，y)的梯度，N个第二CNN分类模型的初始结构或/和网络参数不同，且N个第二CNN分类模型采用相同的训练集训练获得；

描述了loss函数的梯度方向，α为在该方向上的偏移量级；α＞0。

2.如权利要求1所述的对抗样本生成方法，其特征在于，所述步骤一包括将原始图像x和第一CNN分类模型作为模型可解释性算法的输入，输出原始图像x的可解释性区域图像，所述原始图像x为第一CNN分类模型可识别并分类的图像。

3.如权利要求2所述的对抗样本生成方法，其特征在于，所述模型可解释性算法采用Grad-CAM算法。

4.如权利要求1所述的对抗样本生成方法，其特征在于，所述步骤二包括：

其中，m_i，j为可解释性区域图像中像素点(i，j)处的像素值，mask_i，j为临时扰动添加模板Mask_temp对应像素点(i，j)处的像素值，初始0≤threshold_temp≤255；

Step2，在原始图像x中的与Step1生成的临时扰动添加模板Mask_temp中像素值为0的像素点对应的像素点处添加采用公式(1)计算的叠加扰动ε，生成原始图像x的临时对抗样本x^adv ⁺；

Step4，若rate_temp＞rate，则更新rate＝rate_temp，threshold＝threshold_temp，然后临时阈值threshold_temp增加至少1个单位像素值后跳至step5；否则，不更新rate和阈值threshold，临时阈值threshold_temp增加至少1个单位像素值后跳至step5；初始模型攻击成功率rate≥0；

5.如权利要求1至4任一权利要求所述的对抗样本生成方法，其特征在于，所述Step4中，若rate_temp＞rate，则更新rate＝rate_temp，threshold＝threshold_temp，然后临时阈值threshold_temp增加1、2、3、4、5或6个单位像素值后跳至step5；否则，不更新rate和阈值threshold，临时阈值threshold_temp增加1、2、3、4、5或6个单位像素值后跳至step5；初始模型攻击成功率rate≥0。

6.如权利要求1所述的对抗样本生成方法，其特征在于，方法用于生成原始图像集中的各原始图像的对抗样本；进一步还包括步骤三：生成原始图像集中各原始图像的可解释性区域图像；利用其中任一原始图像确定合适的像素阈值threshold，根据可解释性区域图像生成该阈值下原始图像的扰动添加模板Mask；在合适阈值threshold下，分别生成原始图像集中各原始图像的扰动添加模板，之后在各原始图像中与各自的扰动添加模板中像素值为0的像素点对应像素点处添加采用式(1)生成的对抗扰动，生成各原始图像的对抗样本，各原始图像的α取值相同或不同。

7.如权利要求1所述的对抗样本生成方法，其特征在于，进一步还包括，采用步骤1-5确定α值：

步骤3，用临时对抗样本

攻击第一CNN模型，得到的攻击成功率为

步骤4，比较

跳转到步骤5；其中flag初始取0，初始rate_attack≥0；

步骤5，判断flag的值，若小于等于flagmax，flagmax≥2，则α_temp增加至少1个单位后继续步骤1；否则当前α_temp为α。

8.如权利要求7所述的对抗样本生成方法，其特征在于，步骤5中判断flag的值，6≥flagmax≥2，则α_temp增加1、2、3、4、5或6个单位继续步骤1；否则当前α_temp为α。

9.一种对抗样本生成系统，其特征在于，包括可解释区域图像生成模块和对抗样本生成模块；所述可解释性区域图像生成模块用于获取待处理图像的可解释性区域图像，所述对抗样本生成模块用于生成待处理图像的对抗样本。

10.如权利要求9所述对抗样本生成系统，其特征在于，还包括扰动优化模块，该扰动优化模块用于执行权利要求7所述步骤。