CN115115905A

CN115115905A - 基于生成模型的高可迁移性图像对抗样本生成方法

Info

Publication number: CN115115905A
Application number: CN202210663143.5A
Authority: CN
Inventors: 黄鹤; 李欢欢; 李浩川; 曹洪龙
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-09-27
Anticipated expiration: 2042-06-13
Also published as: CN115115905B

Abstract

本发明涉及一种基于生成模型的高可迁移性图像对抗样本生成方法，包括：采集黑盒目标模型训练集的样本图像进行预处理得到训练样本；构建并训练白盒替身模型，构建包括扰动重利用模块PRM和特征增强模块FEM的生成网络模型；使用训练完成的白盒替身模型训练生成网络模型；将目标图像输入训练完成的生成网络模型，训练完成的生成网络模型生成目标图像的对抗样本，将目标图像的对抗样本输入黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击。本发明有效利用白盒替身模型的中间层特征，缓解对抗样本对白盒替身模型的过拟合，提高对抗样本的可迁移性和黑盒攻击表现效果，生成对抗样本效率高，且生成的对抗样本可以用于评价神经网络的鲁棒性。

Description

基于生成模型的高可迁移性图像对抗样本生成方法

技术领域

本发明涉及深度学习、图像分类、对抗攻击技术领域，尤其是指一种基于生成模型的高可迁移性图像对抗样本生成方法。

背景技术

随着深度学习技术的不断进步，各种深度神经网络模型已经在图像分类、人脸识别、语音识别等众多不同的领域中展现出接近人类甚至超越人类水平的优越性能。但是，近年来的许多工作表明，深度神经网络模型极易受到对抗样本的攻击。对抗样本(Adversarial examples)是指在数据集中通过故意添加细微的干扰所形成的输入样本，会导致模型以高置信度给出一个错误的输出，这些被攻击者恶意添加扰动或者噪声的样本用来攻击机器学习模型(包括深度神经网络模型)使其发生错误。在图像分类领域，这些对抗样本是攻击者有意合成的图像，以人类的视觉系统来看这些合成的图像几乎与原始图像完全相同，但会误导深度神经网络模型提供与正确标签偏差极大的预测输出。如图1所示的对抗样本示意图，左图原始样本为一张琵鹭的图片，此时经过训练的深度神经网络Inception-v3可以正确识别该样本，中间图为精心设计的对抗噪声，右图视为将噪声添加在左图上得到的对抗样本，当面对右图的对抗样本时，Inception-v3模型会将其识别为日本猎犬。由此可见，面对精心设计的对抗样本时，深度神经网络的鲁棒性远远低于人类。

在深度学习技术应用越来越广泛的背景下，对抗样本带来了巨大的安全挑战，如自动驾驶、人脸识别支付等应用都面临对抗样本的潜在威胁。因此，深度学习中的对抗样本问题得到了越来越多的关注。对抗样本的出现原因以及生成方法是对抗样本研究的关键问题，但是现在学界对于对抗样本出现的原因还没有一个公认的、合理的解释，所以研究对抗样本的生成方法有重要意义。研究对抗样本的生成方法不仅可以促进对对抗样本的特性以及存在的原因的理解，而且对于对抗攻击的研究可以促进效果更好的对抗样本防御算法的产生，使深度学习算法的应用变得更加安全和完善。对抗样本的存在也表明了深度学习的研究还存在盲点，对对抗样本的研究还可以促进对深度学习模型的理解，也将促进深度神经网络模型鲁棒性的提高。

研究深度神经网络模型的设计、合成对抗样本的行为被称为对抗攻击，被攻击的模型被称为目标模型。依据攻击者可以获得的目标模型的信息，对抗攻击又可以分为白盒攻击与黑盒攻击两类。白盒攻击是指攻击者可以获得目标模型的所有信息，如模型的权重参数、结构、梯度及输出等，并且利用这些信息来设计合成对抗样本。黑盒攻击是指攻击者不能获取目标模型内部的任何信息，只能查询目标模型的输出，利用有限的信息来设计合成对抗样本。在现实情况中，使用者通常不能访问模型的内部信息，所以黑盒攻击更加符合现实情形。因此，设计和实现有效的黑盒攻击是对抗样本的一个研究趋势以及研究难点。

黑盒攻击方法可以分为两类，一类是基于决策查询的方法，另一类是基于对抗样本可迁移性的方法。对抗样本的可迁移性是指针对白盒模型生成的对抗样本，可以用于攻击其他黑盒目标模型。基于对抗样本可迁移性的方法又可以根据具体的实现方式分为以下三类：基于优化的对抗样本生成方法、基于梯度的对抗样本生成方法和基于生成模型的对抗样本生成方法。

1、基于优化的对抗样本生成方法

基于优化的对抗样本生成方法是将对抗样本的生成过程当作受约束的优化问题，可以形式化为下式：

其中x表示原始样本，

表示对抗样本，t表示真实标签，δ表示对抗扰动，D(.)是一种距离度量函数(如L_∞范数距离、L₂范数距离)，C(.)代表目标分类模型的输出，该式表示在使目标模型出错的情况下最小化原始样本x与对抗样本

之间的距离，从而使对抗样本与原始样本难以分辨。由于这个问题是高度非线性的且难以求解，因此需要对式(1)进行转换后进行求解：

其中loss_f(.)是一个与模型和样本标签有关的损失函数，可以为交叉熵损失函数或者其他形式的损失函数。转换后的问题可以使用受约束的L-BFGS或者其他优化方法来求解：对于每一个常量c＞0，重复优化求解这个最小化问题，每一个c都能找到一个满足问题的可行解，通过执行全局的线性搜索，最终找到满足L₂距离最小的对抗样本。

2、基于梯度的对抗样本生成方法

基于梯度的对抗样本生成方法通过求解约束优化问题来生成对抗样本，与基于优化的方法的不同之处在于其定义的优化问题不同：

其中J一般是交叉熵损失函数，

表示对抗样本，y表示真实标签，ε表示对抗扰动的最大幅度，该式表示在对抗扰动的L_∞范数满足小于ε的条件下最大化对抗样本相对于真实标签的损失函数，从而实现对抗攻击。

在求解该优化问题的过程中，通过更新对抗样本

不断最大化对抗样本

相对于真实标签y的损失函数，就可以使目标模型对于对抗样本的输出不断偏离原始输出，从而实现对抗攻击。最大化该损失函数可以使用梯度上升的方法，即使用该损失函数相对于样本x的梯度来更新得到对抗样本，如下式：

式(4)使用符号函数来获得梯度的方向，使用ε约束扰动的幅度以满足L_∞范数条件。这个方法又称为FGSM(Fast Gradient Sign Method,FGSM)，从式(4)中可以看出FGSM只通过一步更新就得到对抗样本，因此不能保证得到最优解。迭代方法I-FGSM(IterativeFast Gradient Sign Method,I-FGSM)通过多次以小的步长α应用FGSM来更新对抗样本，从而更好地逼近全局最优解，如下式：

实验结果表明I-FGSM可以有效地提高白盒攻击的性能，但是其黑盒攻击效果很差，这是由于生成的对抗样本对白盒模型过拟合，导致其可迁移性下降，黑盒攻击的效果变差。为此，MI-FGSM(Momentum Iterative Fast Gradient Sign Method,MI-FGSM)方法被提出以提高对抗样本的可迁移性，如下式：

其中，μ表示动量的系数，可以看出MI-FGSM方法每次更新都结合上一次迭代的梯度，因此不同迭代之间更新的方向的相似性更高，更新过程更稳定，也更容易脱离局部最小，从而缓解过拟合现象，提高了对抗样本的可迁移性。

3、基于生成模型的对抗样本生成方法

基于生成模型的对抗样本生成方法的框架由如图2所示的生成模型和目标模型组成。该方法的训练流程是：第一步，将原始样本x输入生成模型f_θ(.)，生成模型生成相应的对抗扰动，然后对扰动进行缩放使其满足L_∞范数的要求，再将扰动与原始样本相叠加，确保叠加后得到的对抗样本所有像素都处于有效范围内后得到最终的对抗样本

第二步，将对抗样本

输入预训练的目标模型K，利用目标模型的输出计算损失函数；第三步，反向传播得到生成模型的梯度，使用优化算法更新生成模型；第四步，重复以上步骤直至损失函数收敛。这种方法的特点是一旦模型训练完成，就可以在不访问目标模型的前提下高效地生成对抗样本，并且取得比较好的攻击结果。

但是，基于优化的对抗样本生成方法、基于梯度的对抗样本生成方法和基于生成模型的对抗样本生成方法这三种传统方法也存在缺点：1、现有的基于生成模型生成对抗样本的方法仅利用目标模型的输出来计算相关的对抗损失，缺乏对目标模型中间层特征的有效利用；2、这些方法生成的对抗样本可迁移性较低，黑盒攻击表现不好；3、这些方法通常直接丢弃超过L_∞范数阈值的扰动，对其缺乏有效地利用；4、基于优化和基于梯度的对抗样本生成方法计算速度慢，生成对抗样本效率低。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中的不足，提供一种基于生成模型的高可迁移性图像对抗样本生成方法，可以提高对抗样本的生成效率和对抗样本可迁移性、且生成的对抗样本可以用于评价神经网络的鲁棒性。

为解决上述技术问题，本发明提供了一种基于生成模型的高可迁移性图像对抗样本生成方法，包括以下步骤：

S1：采集黑盒目标模型训练集的样本图像，对所述样本图像进行预处理得到训练样本；

S2：构建白盒替身模型，训练所述白盒替身模型得到训练完成的白盒替身模型，构建包括扰动重利用模块PRM和特征增强模块FEM的生成网络模型；

S3：使用训练完成的白盒替身模型训练所述生成网络模型，得到训练完成的生成网络模型；

S4：将目标图像输入所述训练完成的生成网络模型，所述训练完成的生成网络模型生成所述目标图像的对抗样本，将目标图像的对抗样本输入所述黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击。

作为优选的，所述生成网络模型的网络结构包括下采样模块、残差模块和上采样模块，所述生成网络模型由下采样模块、残差模块和上采样模块级联组成，输入图像依次经过下采样模块、残差模块和上采样模块生成对抗扰动。

作为优选的，所述下采样模块包括至少一个卷积层，图像在输入第一个卷积层的卷积核前使用反射的方式填充图像的边缘；

所述残差模块包括至少一个残差块，每个所述残差块包括至少一个卷积层，图像在输入第一个残差块中的第一个卷积层的卷积核前使用反射的方式填充图像的边缘；

所述上采样模块包括至少一个转置卷积层和至少一个卷积层，图像在输入卷积层的卷积核前使用反射的方式填充图像的边缘，卷积层使用的激活函数为tanh激活函数；

所述上采样模块中的转置卷积层和所述上采样模块中的除最后一层外的卷积层、所述下采样模块中的所有卷积层以及所述残差模块中的所有卷积层均使用Conv-BatchNorm-ReLU的单元结构。

作为优选的，所述使用训练完成的白盒替身模型训练所述生成网络模型，得到训练完成的生成网络模型，具体为：

S3-1：将所述训练样本输入所述生成网络模型，所述生成网络模型生成相应的对抗扰动，所述对抗扰动经过扰动重利用模块PRM得到修正后的对抗扰动，将所述修正后的对抗扰动和原始图像逐像素相加得到对抗样本；

S3-2：获取训练完成的白盒替身模型的中间层，对所述训练样本进行输入转换得到训练样本的输入转换集合，并将所述输入转换集合输入所述训练完成的白盒替身模型，根据所述中间层的梯度得到聚合梯度

S3-3：将所述对抗样本和所述训练样本分别输入训练完成的白盒替身模型，从所述中间层中提取出所述对抗样本的特征图f_k(x')和训练样本的特征图f_k(x)，所述特征增强模块FEM使用所述聚合梯度

对所述f_k(x')进行增强得到增强后的特征图A_k(x')，所述特征增强模块FEM使用所述聚合梯度

对所f_k(x)进行增强得到增强后的特征图A_k(x)，计算A_k(x')和A_k(x)之间的差异作为损失函数；

S3-4：根据所述损失函数进行反向传播计算生成网络模型的梯度，使用优化算法更新所述生成网络模型；

S3-5：重复S3-1～S3-4直到所述损失函数收敛，保存生成网络模型此时的参数，得到训练完成的生成网络模型。

作为优选的，所述对抗扰动经过扰动重利用模块PRM得到修正后的对抗扰动，具体为：

所述对抗扰动按L_∞范数进行裁剪操作，将裁剪后得到的超过阈值ε的扰动部分作为超出扰动，低于阈值ε的扰动部分作为合法扰动；

使用预设的卷积核作为所述超出扰动的投影核，对所述超出扰动进行卷积操作得到超出扰动的投影，预设的卷积核的权重参数W_p[i,j]为：

其中，k_w代表卷积核尺寸；

将所述超出扰动的投影与所述合法扰动相加得到所述修正后的对抗扰动。

作为优选的，所述获取训练完成的白盒替身模型的中间层，对所述训练样本进行输入转换得到训练样本的输入转换集合，并将所述输入转换集合输入所述训练完成的白盒替身模型，根据所述中间层的梯度得到聚合梯度

具体为：

对所述训练样本以概率p_d进行N次随机转换得到输入转换集合；

将所述输入转换集合中的样本依次输入所述训练完成的白盒替身模型，利用梯度反向传播计算训练完成的白盒替身模型的输出对于中间层的梯度

其中x代表输入图像，f(x)[t]代表模型关于标签t的输出，f_k(x)代表针对输入图像x训练完成的白盒替身模型第k层的特征图，

的通道数、尺寸大小均与f_k(x)相同；

对N次计算得到的梯度

进行逐元素相加并求平均值，

表示第i次计算得到的梯度，此时的输入图像为x_i，

将所述平均值作为聚合梯度

作为优选的，所述随机转换为随机掩膜或者添加随机噪声，

所述随机掩膜的表达式为：

其中，

为遵循Bernouli分布的矩阵，矩阵元素只有0、1两个值，且每个元素有p_d(0＜p_d＜1)的概率为0，

与输入图像x逐元素相乘得到随机掩膜后的图像

所述添加随机噪声的表达式为：

r∈U[0，1]ⁿ，对输入图像x添加服从均匀分布的随机噪声r后得到添加随机噪声后的图像

作为优选的，所述特征增强模块FEM使用所述聚合梯度

对所f_k(x)进行增强得到增强后的特征图A_k(x)，具体为：

对所述聚合梯度

进行逐通道的全局平均池化得到特征重要性系数向量

所述特征重要性系数向量中每个元素代表每个特征图的权重，计算公式为：

其中k代表训练完成的白盒替身模型的第k层，c代表第k层的第c个通道，

代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度，p代表特征图的宽度，q代表特征图的高度，m代表聚合梯度的第m行，n代表聚合梯度的第n列，

代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度的第m行、第n列处的梯度值；

将所述特征重要性系数向量与所述f_k(x')逐通道相乘得到增强后的特征图A_k(x')，所述特征重要性系数向量与所述f_k(x')逐通道相乘的计算公式为：

其中

为增强后的f_k(x')的第k层的第c个通道的特征图，

表示原始f_k(x')第k层的第c个通道的特征图，逐通道相乘后完成对f_k(x')的特征增强；

将所述特征重要性系数向量与所述f_k(x)逐通道相乘得到增强后的特征图A_k(x)，所述特征重要性系数向量与所述f_k(x)逐通道相乘的计算公式为：

其中

为增强后的f_k(x)第k层的第c个通道的特征图，

表示原始f_k(x)第k层的第c个通道的特征图，逐通道相乘后完成对f_k(x)的特征增强。

作为优选的，所述计算A_k(x')和A_k(x)之间的差异作为损失函数，具体为：

将A_k(x')转换为向量

其中S为特征图A_k(x')中元素的总个数，

代表特征图A_k(x')中第s个元素值；将A_k(x)转换为向量

其中S为特征图A_k(x)中元素的总个数，

代表A_k(x)中第s个元素值；计算V_k(x')和V_k(x)之间的余弦相似度作为损失函数，计算公式为：

其中|| ||₂为欧几里得范数。

作为优选的，所述将目标图像输入所述训练完成的生成网络模型，所述训练完成的生成网络模型生成所述目标图像的对抗样本，具体为：

将目标图像输入所述训练完成的生成网络模型，所述训练完成的生成网络模型生成目标图像的对抗扰动；

目标图像的对抗扰动经过所述扰动重利用模块PRM得到修改后的扰动，将修改后的扰动与所述目标图像逐像素相加和像素裁剪得到目标图像的对抗样本。

本发明的上述技术方案相比现有技术具有以下优点：

在训练生成网络模型时，通过白盒替身模型获取聚合梯度，抑制模型预测时与目标无关的特征，增强模型预测时的关键特征；同时，通过特征增强模块计算模型中间层各个特征图的重要性，进一步增强了白盒替身模型进行预测时的关键特征；有效利用了白盒替身模型的中间层特征，缓解了对抗样本对白盒替身模型的过拟合，提高了对抗样本的可迁移性和黑盒攻击表现效果，并且生成的对抗样本可以用于评价神经网络的鲁棒性。

通过扰动重利用模块有效利用超过L_∞范数阈值的扰动，提高了对抗噪声的聚集性。相较于传统的基于梯度或者优化方法的对抗样本生成方法，本发明具有较强的数据学习能力、更高的生成效率和更高的样本质量，可以在无需目标模型的情况下生成对抗样本，生成对抗样本效率高。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是对抗样本示意图；

图2是基于生成模型的对抗样本生成方法的框架结构图；

图3是本发明的流程图；

图4是本发明中生成网络模型的网络结构示意图；

图5是本发明中生成网络的训练框架；

图6是本发明中扰动重利用模块的结构示意图；

图7是本发明中得到聚合梯度的流程图；

图8是本发明中特征增强模块FEM的结构示意图；

图9是本发明中生成网络模型测试阶段的框架示意图；

图10是本发明实施例中原始样本和本发明生成的对抗样本的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图3流程图所示，本发明公开了一种基于生成模型的高可迁移性图像对抗样本生成方法，包括以下步骤：

S1：采集黑盒目标模型训练集的相关样本图像，对每个样本图像标注标签和分类定义，对所述样本图像进行预处理得到训练样本。

S2：构建白盒替身模型，训练所述白盒替身模型得到训练完成的白盒替身模型，根据实际任务设计白盒模型结构，将所述训练样本作为训练集，将交叉熵函数作为白盒替身模型的损失函数，训练白盒替身模型直到白盒替身模型的损失函收敛，保存保存白盒替身模型此时的权重参数，得到训练完成的白盒替身模型。

构建包括扰动重利用模块PRM(Perturbation Reuse Module,PRM)和特征增强模块FEM(Feature Enhancement Module,FEM)的生成网络模型。如图4所示，所述生成网络模型的网络结构包括下采样模块、残差模块和上采样模块，所述生成网络模型由下采样模块、残差模块和上采样模块级联组成，输入图像依次经过下采样模块、残差模块和上采样模块生成对抗扰动。

所述下采样模块包括至少一个卷积层，图像在输入第一个卷积层的卷积核前使用反射的方式填充图像的边缘；本实施例中，所述下采样模块包括两个卷积层，在下采样模块中，输入图像首先经过一个卷积核大小为7×7的卷积层，而后输出64通道的特征图，在输入图像输入卷积核前使用反射的方式填充图像的边缘，可以使输入输出的尺寸一致并减少图像边缘的人工痕迹；第一个卷积层之后是两个步长为2的3×3卷积核，每经过一个卷积层，特征图的通道数将增大一倍，同时特征图的尺寸缩小一倍，即实现了下采样：经过这两个卷积层，特征图的大小被下采样到原来的1/4，减少了模型计算量的同时增大了有效感受野。

所述残差模块包括至少一个残差块，每个所述残差块包括至少一个卷积层，图像在输入第一个残差块中的第一个卷积层的卷积核前使用反射的方式填充图像的边缘。本实施例中，残差模块包含6个残差块，每个残差块包含两个3×3的卷积层；卷积层的通道数与其输入保持一致，并使用了反射填充，以保证残差块的输入与输出的特征图大小保持一致。残差块的作用是引入了恒等映射，使得优化过程更加容易并且便于生成对抗扰动时更多地利用输入图像中的信息。

所述上采样模块包括至少一个转置卷积层和至少一个卷积层，图像在输入卷积层的卷积核前使用反射的方式填充图像的边缘，卷积层使用的激活函数为tanh激活函数；本实施例中，上采样模块包含两个步长为2、卷积核大小为3×3的转置卷积层，每经过一个转置卷积层，特征图的大小将扩大一倍，同时通道数变为原来的一半，从而实现特征图的上采样；转置卷积层之后是一个7×7的卷积层，该卷积层将特征图映射成为三通道(RGB)的输出，同时使用反射填充保证输入输出尺寸一致，并且使用tanh激活函数保证生成网络的输出在[-1,1]的范围内。

S3：使用训练完成的白盒替身模型训练所述生成网络模型，得到训练完成的生成网络模型；本实施例中构建包括训练生成网络模型和训练白盒替身模型的生成网络的训练框架，生成网络的训练框架如图5所示。

S3-1：将所述训练样本输入所述生成网络模型，所述生成网络模型生成相应的对抗扰动，所述对抗扰动经过扰动重利用模块PRM得到修正后的对抗扰动，将所述修正后的对抗扰动和原始图像逐像素相加得到对抗样本。

S3-1-1：将所述训练样本输入所述生成网络模型，所述生成网络模型生成相应的对抗扰动。

S3-1-2：所述对抗扰动通过扰动重利用模块PRM对超过L_∞范数阈值ε的扰动部分进行重新利用，本实施例中ε取值16；扰动重利用模块结构如图6所示：所述对抗扰动按L_∞范数进行裁剪操作，将裁剪后得到的超过阈值ε的扰动部分作为超出扰动，低于阈值ε的扰动部分作为合法扰动。

S3-1-3：使用预设的卷积核作为所述超出扰动的投影核，对所述超出扰动进行卷积操作得到超出扰动的投影，本实施例中的投影核为一个通道为3，尺寸为3×3的卷积核；预设的卷积核的权重参数W_p[i,j]为：

W_p代表所述预设的卷积核，其中k_w代表卷积核尺寸；根据这个公式，卷积核中心的权重为0，其余部分的权重都相同，这样就可以把超出扰动投影到周围，并且为了保证投影前后输入输出的扰动尺寸保持一致，卷积之前需要对原扰动进行“补零”填充。

S3-1-4：将所述超出扰动的投影与所述合法扰动相加得到所述修正后的对抗扰动。对超过L_∞范数阈值部分采用启发式的投影策略对该部分扰动进行重新利用，经过扰动重利用模块PRM后，超出扰动将被投影到原扰动中超出阈值ε的像素的周围像素，这样就使原扰动幅度大的区域在修正后扰动更加密集，提高对抗扰动的聚集性，进一步提高对抗样本的有效性。

S3-1-5：将所述修正后的对抗扰动和原始图像逐像素相加得到对抗样本。

S3-2：获取训练完成的白盒替身模型的中间层(卷积层)，如图7所示，对所述训练样本进行输入转换得到训练样本的输入转换集合，并将所述输入转换集合输入所述训练完成的白盒替身模型，根据所述中间层的梯度得到聚合梯度

具体为：

S3-2-1：对所述训练样本以概率p_d进行N次随机转换得到输入转换集合，所述随机转换为随机掩膜或者添加随机噪声。

所述随机掩膜的表达式为：

对图像进行随机掩膜即随机丢弃一些像素，其中，

与输入图像x逐元素相乘得到随机掩膜后的图像

所述添加随机噪声的表达式为：

为了保持原始图像的空间结构和纹理，随机噪声r乘以0.001以保证足够小。

在计算训练完成的白盒替身模型中间层各个特征图的重要性时，对输入的样本进行随机像素丢弃、添加随机噪声等转换，计算该样本集合的聚合梯度，从而抑制模型预测时与目标无关的特征，同时进一步增强模型预测时的关键特征，促进生成更高可迁移性的对抗样本。

S3-2-2：将所述输入转换集合中的样本依次输入所述训练完成的白盒替身模型，利用梯度反向传播计算训练完成的白盒替身模型的输出对于中间层的梯度

的通道数、尺寸大小均与f_k(x)相同。

S3-2-3：对N次计算得到的梯度

进行逐元素相加并求平均值，

表示第i次计算得到的梯度，此时的输入图像为x_i，

将所述平均值作为聚合梯度

虽然输入转换集合中的图像在保留输入图像空间结构和纹理信息的情况下损失了一些图像细节，但由于与图像语义相关的区域对这类转换比较鲁棒并且通常包含模型预测时的关键特征，而其他的与图像语义无关的区域(如背景、边缘等)面对这些转换更加脆弱且包含特定于具体模型的特征，因此聚合梯度可以用于突出模型预测时的关键特征，同时减少特定于模型的特征的影响。

对所f_k(x)进行增强得到增强后的特征图A_k(x)，计算A_k(x')和A_k(x)之间的差异作为损失函数。

S3-3-1：将所述对抗样本和所述训练样本分别输入训练完成的白盒替身模型，从所述中间层中提取出所述对抗样本的特征图f_k(x')和训练样本的特征图f_k(x)。

所述特征增强模块FEM使用所述聚合梯度

对所述f_k(x')和f_k(x)进行增强，特征增强模块FEM的结构示意图如图8所示，具体为：

S3-3-2：对所述聚合梯度

进行逐通道的全局平均池化得到特征重要性系数向量

其中k代表训练完成的白盒替身模型的第k层，c代表第k层的第c个通道，g_kc代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度，p代表特征图的宽度，q代表特征图的高度，m代表聚合梯度的第m行，n代表聚合梯度的第n列，综合来说，

代表训练完成的白盒替身模型第k层的第c个通道的聚合梯度的第m行，第n列处的梯度值。

S3-3-3：将所述特征重要性系数向量与所述f_k(x')逐通道相乘得到增强后的特征图A_k(x')，从而对不同通道的特征图赋予不同的权重，所述特征重要性系数向量与所述f_k(x')逐通道相乘的计算公式为：

其中

为增强后的f_k(x')的第k层的第c个通道的特征图，

表示原始f_k(x')第k层的第c个通道的特征图，逐通道相乘后完成对f_k(x')的特征增强。

S3-3-4：将所述特征重要性系数向量与所述f_k(x)逐通道相乘得到增强后的特征图A_k(x)，从而对不同通道的特征图赋予不同的权重，所述特征重要性系数向量与所述f_k(x)逐通道相乘的计算公式为：

其中

为增强后的f_k(x)第k层的第c个通道的特征图，

S3-3-5：将A_k(x')转换为向量

其中S为A_k(x')特征图中元素的总个数，

代表特征图A_k(x')中第s个元素值；将A_k(x)转换为向量

其中S为A_k(x)特征图中元素的总个数，

代表特征图中A_k(x)中第s个元素值；例如特征图A_k(x)的形状为(3,10,10)，其中3为特征图通道数，10、10分别为特征图的宽度和高度，这里的“将A_k(x)转换为向量”的意思是将该特征图转换为300维的向量。S3-3-6：计算V_k(x')和V_k(x)之间的余弦相似度作为损失函数，计算公式为：

V_k(x')表示将对抗样本第k层的增强特征图A_k(x')转换为的向量，V_k(x)表示将原始样本第k层的增强特征图A_k(x)转换为的向量，其中|| ||₂为欧几里得范数。

通过计算模型中间层各个特征图的重要性和聚合梯度增强白盒替身模型预测时的关键特征，并以原始样本和相应的对抗样本在白盒替身模型的中间层特征的差异作为生成模型训练的损失函数，有效利用白盒替身模型的中间层特征，缓解了对抗样本对白盒替身模型的过拟合现象，使得对抗样本和原始样本在中间层的特征空间有较大的分歧，从而提高了对抗样本的可迁移性。

S3-4：根据S3-3中得到的所述损失函数进行反向传播计算生成网络模型的梯度，使用优化算法更新所述生成网络模型。

所述将对抗样本输入黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击是对生成网络模型的测试，生成网络模型测试阶段的框架示意图如图9所示。

S4-1：将目标图像输入所述训练完成的生成网络模型，所述训练完成的生成网络模型生成目标图像的对抗扰动。

S4-2：目标图像的对抗扰动经过所述扰动重利用模块PRM得到修改后的扰动，将修改后的扰动与所述目标图像逐像素相加和像素裁剪得到目标图像的对抗样本。逐像素相加后进行像素裁剪可以保证对抗样本的像素在合法的像素值域中。

S4-3：将目标图像的对抗样本输入所述黑盒目标模型实现基于对抗样本可迁移性的黑盒攻击。

本发明在训练生成网络模型时，通过白盒替身模型获取聚合梯度，抑制模型预测时与目标无关的特征，增强模型预测时的关键特征；同时，通过特征增强模块计算模型中间层各个特征图的重要性，进一步增强了白盒替身模型进行预测时的关键特征；有效利用了白盒替身模型的中间层特征，缓解了对抗样本对白盒替身模型的过拟合，提高了对抗样本的可迁移性和黑盒攻击表现效果，并且生成的对抗样本可以用于评价神经网络的鲁棒性。

本发明通过扰动重利用模块利用超过L_∞范数阈值的扰动，采用启发式的投影策略对该部分扰动进行重新利用，提高了对抗噪声的聚集性。相较于传统的基于梯度或者优化方法的对抗样本生成方法，本发明具有较强的数据学习能力、更高的生成效率和更高的样本质量，且一旦生成网络模型训练完成，即可以在无需目标模型的情况下生成对抗样本，生成对抗样本效率高。

为了进一步说明本发明的有益效果，本实施例中使用本发明方法进行仿真实验，生成对抗样本并统计对抗样本对于多个黑盒模型的攻击成功率。仿真实验的硬件配置和软件环境如表1所示：

CPU	Intel(R)Core(TM)i9-9900X CPU@3.50GHz
		内存	128GB
硬盘	4TB
		显卡	GeForce RTX 2080Ti
操作系统	Linux
		编程语言	Python 3.6.9
开发平台	Pycharm
		依赖关系	Pytorch 1.4.0、numpy 1.19.2、torchvision 0.5.0等

表1硬件配置和软件环境表

样本数据使用CIFAR-10数据集，CIFAR-10是一个用于图像识别任务的小型彩色图像数据集，共包含10个类别的RGB彩色图像，每个图像的尺寸为32×32，每个类别有6000个图像，50000张图像被划分为训练集，10000张为测试集。CIFAR-10数据集为公开数据集，所以无需进行标注和分类。

预处理操作为随机水平翻转、数据集归一化和数据集z-score标准化。随机水平翻转：将图像通过中心轴随机进行左右翻转，是一种数据增强方法，可以起到扩充数据集的作用。数据集归一化：将数据集中所有图像的像素值缩放到[0,1]之间。数据集z-score标准化：数据集图像3通道的均值为mean＝[0.485,0.456,0.406]，数据集图像3通道的标准差为std＝[0.229,0.224,0.255]，使用公式

对每个图像进行处理，其中x代表原始图像，x'代表处理后的图像。

目标是使用对抗样本来攻击图像分类模型，因此需要训练多个实现图像分类任务的深度神经网络模型来作为白盒替身模型和黑盒目标模型。本实施例中训练了四个不同的卷积神经网络，分别为经典的VGG-19、ResNet-50、DenseNet-121和一个7层CNN的自定义模型，自定义模型的网络结构如表2所示：

层数	类型	输入通道数	输出通道数	激活函数
					1	卷积层(3*3卷积核)	1	32	ReLU
2	卷积层(3*3卷积核)	32	32	ReLU
					3	卷积层(3*3卷积核)	32	64	最大值池化+ReLU
4	卷积层(3*3卷积核)	64	64	最大值池化+ReLU
					5	全连接层	1024	1024	ReLU
6	全连接层	200	200	Dropout+ReLU
					7	全连接层	10	10	Softmax

表2自定义模型的网络结构表

训练四个不同的卷积神经网络时使用的损失函数为交叉熵损失函数，使用的优化算法为Adam，学习率为0.01，Adam优化算法的一阶矩估计的指数衰减率为0.9，二阶矩估计的指数衰减率为0.999，模型训练的batch size为128，每个模型训练60个epoch，各个模型在测试集上的准确率，即白盒攻击的结果如表3所示，从表3可以看到在CIFAR-10标准测试集上各个分类模型都能取得较高的准确率。

表3各个模型在测试集上的准确率表

本实施例中白盒替身模型选择训练完成的VGG-19模型，黑盒目标模型选择为ResNet-50、DenseNet-121、自定义模型，预先指定VGG-19的卷积层conv3-3作为中间层。训练生成网络模型的具体过程为：

第一步：生成网络模型的训练采用批次训练法，每个批次大小设为128，即每批次样本张量形状为128×3×32×32，由于白盒替身模型识别错误的原始样本对于对抗攻击是没有意义的，因此需要先将整个批次的原始样本输入白盒替身模型中，根据白盒替身模型的输出保留可以正确分类的样本，剔除错误分类的样本。

第二步：经过挑选后，该批次样本数小于等于128。计算该批次样本的聚合梯度，每个样本的聚合梯度的张量形状为1×256×4×4。

第三步：将经过挑选后的样本输入生成网络模型，生成网络模型将输出对应的对抗扰动，其张量形状与生成网络模型的输入相同。对抗扰动经过扰动重利用模块PRM，然后与原始样本相叠加得到最终的对抗样本。

第四步：将原始样本与生成的对抗样本分别输入白盒替身模型，从中提取出每个样本对应的中间层特征，每个样本的中间层特征张量形状为1×256×4×4。利用第二步中计算得到的聚合梯度，通过特征增强模块FEM对原始样本和对抗样本的特征进行增强，并将特征图转换为向量形式，计算增强后的特征向量之间的余弦相似度作为损失函数。

第五步：根据第四步中得到的损失函数进行反向传播计算梯度，使用Adam优化算法对模型权重进行更新，学习率0.0001，Adam优化算法的一阶矩估计的指数衰减率为0.9，二阶矩估计的指数衰减率为0.999。

第六步：重复第一步～第五步，直至生成网络模型收敛，保存此时生成网络模型的权重，得到训练完成的生成网络模型。

将指定的目标图像输入训练完成的生成网络模型，保存生成的对抗样本并输入黑盒目标模型以实现黑盒对抗攻击。将本发明与FGSM、I-FGSM、MI-FGSM的黑盒对抗攻击进行对比，攻击结果如表4所示：

目标模型	VGG-19*	ResNet-50	DenseNet-121	自定义模型
					FGSM	5.01％	13.55％	12.89％	20.94％
I-FGSM	0.02％	3.96％	2.09％	19.15％
					MI-FGSM	0.04％	3.03％	1.75％	10.58％
提出的方法	0.14％	1.24％	1.27％	6.4％

表4本发明与FGSM、I-FGSM、MI-FGSM的黑盒对抗攻击结果对比表表4中的第2-5行是以VGG19为白盒模型，使用FGSM、I-FGSM、MI-FGSM和本发明的方法在CIFAR-10测试集上进行对抗攻击后模型的准确率，表格中第2列表示白盒攻击的结果，3-5列表示黑盒攻击的结果，通过对比可以看出本发明生成的对抗样本集的黑盒攻击成功率是最高的，这表明本发明所述生成模型生成的对抗样本具有更高的可迁移性，同时也表明现有的深度神经网络模型的鲁棒性亟需提高。

表5为使用本发明与FGSM、I-FGSM、MI-FGSM的生成模型生成10000个对抗样本所需的时间对比表。

表5使用FGSM、I-FGSM、MI-FGSM与本发明生成对抗样本时间对比表

从表5可以看出，本发明的生成时间远少于其他方法，表明了本发明可以有效提高对抗样本的生成效率。

图10为原始样本和本发明方法生成的对抗样本示意图，图10中第一行为原始样本，图10中第二行为本发明方法生成的对抗样本，从图10可以看出两者之间有较高的相似度且难以用人眼区分，也进一步验证了本发明生成的对抗样本的有效性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。