CN117057408A

CN117057408A - 一种基于gan的黑盒可迁移性对抗攻击方法

Info

Publication number: CN117057408A
Application number: CN202310266763.XA
Authority: CN
Inventors: 王小银; 王丹; 孙家泽; 王曙燕; 李文澳
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-11-14

Abstract

本发明针对现有对抗方法在黑盒场景下攻击成功率不高、生成质量低等问题，公开了一种基于GAN的黑盒可迁移性对抗攻击方法。首先搭建神经网络目标模型，运用黑盒对抗攻击框架训练代理模型实现可迁移性对抗攻击，获得更加有效的高黑盒攻击成功率。其次构建基于GAN的对抗攻击网络，生成器G和判别器D都采用端到端的训练方法，以干净图像和目标类别作为输入执行有针对性的对抗攻击。在生成器中设计基于扩张卷积的残差块和轻量高效的金字塔分割注意力模块以提高模型在更细粒度下的多尺度特征表达能力，设置带有辅助分类器的判别器用于对生成的样本进行正确分类，并且添加攻击者对判别器进行对抗训练，增强了对抗样本的攻击能力，稳定了GAN的训练过程。

Description

一种基于GAN的黑盒可迁移性对抗攻击方法

技术领域

本发明涉及深度学习的人工智能安全领域，具体地，涉及一种基于GAN的黑盒可迁移性对抗攻击方法。

背景技术

神经网络的发展提高了人们生活效率，但由于其本身的不可解释性和脆弱性，导致网络的安全性受到人们的质疑。在2014年，Goodfellow与Szegedy等人发现深度神经网络的模型容易受到对抗样本的干扰，这些示例的生成方式是通过在干净的输入样本上添加人眼难以察觉的扰动。对抗样本的出现引起了人们对敏感性应用的安全担忧，在发现能够误导深度神经网络的对抗性示例出现后，各种对抗攻击方式陆续被提出。对抗攻击根据目标模型暴露给攻击者的信息量可分为白盒攻击和黑盒攻击，白盒算法比黑盒算法更容易和更有效地生成对抗扰动，因为它们可以利用目标模型的全部知识，包括模型权重、架构和梯度。例如，快速梯度符号方法FGSM通过在梯度上添加增量来使模型对样本做出错误分类；投影梯度下降攻击法PGD是在梯度迭代过程中进行多次迭代，控制扰动在规定的范围；基于优化的迭代攻击C&W方法主要思想是在迭代训练过程中将网络参数固定下来，把扰动当做唯一需要训练的参数，通过反向传播过程调整对抗扰动。但由于隐私和安全性，这种攻击场景在实际部署中通常不可用。在更实际的对抗场景中，攻击者可以采用基于查询的黑盒攻击，虽然在黑盒攻击者模型信息是隐藏的，但攻击者可以查询模型并观察相应的标签预测，但该方法通常耗时，且在大多数黑盒攻击场景下成功率都不高，因此目前大部分黑盒攻击方法都是基于对抗样本的可迁移性，利用对抗样本的可迁移性可以训练替代模型来欺骗未知的目标模型。

还有一些研究人员利用生成模型，例如基于GAN来产生对抗性扰动，或直接生成对抗样本，与基于梯度和优化的方法相比，生成模型大大减少了对抗样本的生成时间。然而，现有方法具有两个明显的缺点:1)生成能力有限，即它们一次只能执行一个特定的目标攻击，不同的目标需要重新训练。2)它们很难扩展到现实世界的数据集。大多数基于GAN的对抗攻击方法仅在MNIST和CIFAR-10数据集上进行了测试评估并取得了不错的效果，但在复杂的现实任务中是不可行的。

基于以上现有问题，提出了一种基于GAN的黑盒可迁移性对抗攻击方法，构建GAN网络生成对抗样本实现对抗攻击，并设计黑盒对抗攻击场景增加攻击对象的迁移性和通用性，提高对抗样本生成效率和图像质量。此外，不仅在MNIST和CIFAR-10数据集上获得了高攻击性能，还在更现实的肺部X-Ray图像上进行了实验，证明了所提出的攻击方法的有效性和可行性。

发明内容

本发明的目的是提供一种基于GAN的黑盒可迁移性对抗攻击方法，首先构建神经网络目标模型，设计黑盒攻击场景实现可迁移性对抗攻击，其次利用生成式对抗网络生成对抗样本，并且在生成器中设计基于扩张卷积的残差块和金字塔分割注意力机制增强特征表达能力，最后利用对抗样本对目标模型进行对抗攻击来识别和暴露模型中存在的缺陷和安全问题，为指导模型进行有针对性的防御和增强模型的对抗鲁棒性提供了参考方案。

本发明的一种基于GAN的黑盒可迁移性对抗攻击方法，具体包括如下步骤：

(1)构建神经网络目标模型，具体实施过程为：

使用CheXNet模型搭建目标模型T，CheXNet模型以DensNet121网络为基本骨架，利用3×3小卷积替换7×7大卷积减少模型参数量，并通过密集连接充分提取图像中的边缘纹理特征信息；

利用来自在ImageNet数据集上预训练模型的权重初始化网络的权重，使用具有标准参数的SGD+Momentum优化算法端到端训练网络；

在模型末尾使用卷积代替全连接层，并利用Sigmoid函数完成模型最终的分类输出，实现对图像的多标签分类；

不断对参数进行调优直到目标模型达到最佳准确率后保存。

(2)设计黑盒攻击场景，构建代理模型S实现可迁移性对抗攻击，具体包括如下步骤：

合成数据：将一批随机噪声Z映射到所需的数据X＝VAE(Z)上，生成模型VAE的目标置为合成分布接近于目标训练所需的数据，将合成的训练数据X输入到代理模型S中，最小化损失函数来更新生成模型，生成损失表示为：

式中：d是交叉熵损失函数，S(X)是向代理模型输入生成模型合成的数据，是随机平滑标签，α是调整正则化值的超参数，L_H是信息熵损失；

模型蒸馏：为了能够显著提高黑盒攻击方式下的成功率，在对代理模型和目标模型进行蒸馏时，鼓励代理模型S和目标模型T具有高度一致的决策边界来促进代理模型的训练，因此在蒸馏过程中需要对两种类型数据多加关注，所以最终损失函数由三部分组成，代理模型的损失函数定义为：

式中：L_dis表示目标模型和代理模型之间的蒸馏损失，L_bd代表代理模型S和目标模型T之间存在决策分歧数据时产生的边界支持损失，L_adv代表数据容易从代理模型S转移到目标模型T时产生的对抗样本支持损失，β₁和β₂用来控制两个损失函数的占比；

最终对经过蒸馏提炼的网络进行对抗攻击。

(3)使用GAN网络生成对抗样本，实现高黑盒攻击成功率和目标可迁移性攻击，具体包括如下步骤：

向生成器G中输入原始样本x和目标类别t生成扰动后叠加到原始样本上产生对抗样本X_pert并送入判别器D中；

将攻击者a生成的对抗样本X_adv和原始样本x也送入判别器中，由于在判别器中设置了辅助分类器，因此判别器既能通过优化函数引导生成器的训练促使生成的对抗样本与真实数据无法区分，也能对两种类型的对抗样本进行正确分类；

实施对抗攻击，以X_pert为输入输出其损失L_target，它表示预测目标类(有针对性攻击)的距离，与预测真实类(无针对性攻击)的距离相反。

(4)生成器结构设计，具体结构如下：

使用ResNet-50模型作为生成器的网络主体，通过残差块结构来简化深度学习过程，增强梯度传播的同时也解决了深度神经网络的退化问题；

采用预训练的编码-解码结构，输入图像经过编码映射到特征空间，特征经过解码映射回数据空间完成数据重建，进一步学习从输入到特征空间的映射关系。并且在生成特征块中使用扩张卷积，从而有效的增大卷积核感受野，在提取特征时能够高效地生成具有针对性的对抗扰动；

在原始样本输入和生成器输出之间引入轻量高效的金字塔分割注意力模块，该注意力模块能够充分提取多尺度特征图的空间信息以及实现跨维度通道注意力特征交互，捕捉远程特征通道之间的相互依赖关系，提升网络性能；

在使用肺部图像进行测试时，由于医学图像的特殊性，将数据增强方法作为一种机制引入到生成模型训练中,一方面多样化的数据增强方法可以丰富目标模型回传的梯度流信息以增加数据多样性,另一方面数据增强的引入使得生成器具备抵御各种数据变换的能力以增强对抗样本的鲁棒性。

(5)判别器结构设计，具体结构如下：

在原始GAN的基础上做进一步的改进，设置辅助分类器来获取图像分类功能以此来提高原始任务的性能。在判别器中加入分类器后使得判别器既能判别图像真假，也能实现类别区分，因此判别器的损失由判别损失和分类损失两部分组成，分类损失是由生成器生成的对抗样本和攻击者生成的对抗样本分别与真实标签计算获得的交叉熵损失；

判别器产生对抗损失后，优化并反馈给生成器网络，引导生成器的训练以确保生成的对抗样本与真实图像的数据接近，保证对抗样本的真实性。

(6)对训练好的生成器G进行测试评估，在不同数据集的测试集上让训练收敛的生成器G生成扰动，从而生成测试对抗样本，让测试对抗样本攻击目标分类网络，并设置不同的目标类别来执行有针对性对抗攻击。

附图说明

附图仅为更加充分的说明本发明的流程，并不构成对本发明范围的限制。

图1为本发明中对抗训练的基本流程图；

图2为本发明中对抗攻击的整体架构图；

图3为本发明中构建代理模型的整体架构图，其中(a)模块表示高效的数据合成方法，

(b)模块表示替代模型的蒸馏方法；

图4为本发明在生成器模型中引入的金字塔分割注意力模块图；

图5为本发明在金字塔分割注意力模块中引入的SPC模块图；

图6为本发明中的FID分数对比实验结果图；

图7为本发明中的对抗攻击成功率对比结果图；

图8为本发明中的SSIM对比实验结果图。

具体实施方案

为了使本领域相关人员能够更好的理解本方法的工作流程，下面将结合附图对本方法做出系统、完整地阐述。其中，上述阐述过的GAN网络模块构成没有详细说明，见图2所示。

图1绘示了本发明中对抗训练的基本流程，其主要功能包括：

步骤1，首先搭建CheXNet模型作为迁移学习目标模型，以DenseNet121网络为基本骨架，在模型末尾使用卷积层代替全连接层，利用3×3小卷积替换7×7大卷积以减少模型参数量，使用来自在ImageNet数据集上预训练模型的权重初始化网络权重，使用SGD+Momentum算法进行迭代优化，增加Sigmoid非线性激活函数实现对模型的最终分类输出，训练模型直至达到收敛状态后保存目标模型T；

步骤2，利用高效的数据合成方法和替代模型蒸馏方法训练一个代理模型S作为对抗攻击网络实现黑盒可迁移性对抗攻击，构建代理模型的整体架构如图3所示，具体包括如下步骤：

首先将一批随机噪声Z映射到所需的数据X＝VAE(Z)上，目的是合成分布接近目标训练数据的所需数据，将合成数据X输入到代理模型S中计算损失，其中为了解决训练过程中模型容易崩溃的问题，引入最大化信息熵和随机标签平滑策略。最小化损失函数来更新生成模型，最终生成损失表示为：

式中：d是交叉熵损失函数，S(X)是向代理模型输入生成器合成的数据，是随机平滑标签，α是调整正则化值的超参数，L_H是信息熵损失；

其次是对代理模型和目标模型进行蒸馏，训练代理模型模仿目标模型，最小化蒸馏网络：

式中：d表示交叉熵损失函数，T(X)表示目标模型的输出，S(X)表示蒸馏的代理模型的输出；

为了让代理模型S和目标模型T具有高度一致的决策边界来促进代理模型的训练，需要对两种类型数据在蒸馏过程中多加关注。第一种是指S和T之间存在决策分歧的数据，这类数据主要存在于目标模型和代理模型的决策边界之间，给予这些数据更多的权重有助于弥合两个决策边界之间的差距。由于更加关注这些样本因此引入了边界支持损失L_bd：

另一种重要的类型是在进行对抗攻击过程中生成的对抗样本，这类数据可以很容易地从S转移到T，这类数据的存在意味着它附近S和T的决策边界比较接近，对这类数据给予更多关注可确保S继续朝着靠近T边界的正确方向移动，因此引入了对抗样本支持损失L_adv：

式中：表示对抗样本，最终代理模型S的损失函数定义为：

式中：β₁和β₂控制不同损失函数的占比；

通过优化所有训练图像的蒸馏目标，得到一个代理模型S，其特征非常接近于黑盒目标模型，然后对经过蒸馏提炼后的网络进行对抗攻击；

步骤3，将原始图像x和目标类标签t输入生成器G中，生成器G输出扰动G(x,t)，对G(x,t)进行剪裁，使得G(x,t)的范围在(-c_treshold,c_treshold)之间，c_treshold是设置的扰动系数，再将生成的扰动G(x,t)叠加到原始样本x中得到对抗样本X_pert＝x+G(x,t)，在这里生成器的目标不是直接生成对抗样本，而是将生成的扰动叠加到原始样本后才输出对抗样本，目的是可以动态调整扰动大小防止扰动过度，所述生成器的损失函数包括攻击目标模型的产生的对抗损失L_target(pert)和输入判别器时产生的判别损失L_D(pert)，具体表示如下：

式中：X_pert代表生成器生成的对抗样本，t是目标攻击的类别，最大化L_target(pert)+L_D(pert)-L_S使对抗样本在攻击过程中的结果更接近于期望值。

步骤4，将S3得到的对抗样本输入到判别器D中，所述判别器D用来区分对抗样本X_pert和原始样本x。为了能进一步增强对抗样本的攻击能力，添加攻击者a对分类模型进行对抗训练，健壮的判别器有助于稳定和加速整个训练。此时将引入的攻击者a生成的对抗样本X_adv也输入到判别器中，由于在判别器D中设置了辅助分类器，因此判别器D也能对样本进行正确分类。最终判别器D中有两个分支:一个被用来训练区分真实图像X_real和扰动图像X_pert，另一个是对对抗样本进行分类。判别器的损失函数由三部分组成:用于区分真实/扰动图像的交叉熵损失L_S、攻击者和生成器生成样本的产生的分类损失L_C(adv)和L_C(pert)，定义为：

式中：X_real代表真实样本，X_pert代表生成器生成的对抗样本，X_adv代表攻击者a生成的对抗样本，y代表真实的标签，最大化损失函数Ls+Lc(adv)+L_C(pert)促使生成图像无限逼近于真实图像，保证对抗样本的质量；

步骤5，使用Adam方法优化生成器和判别器的损失函数，利用反向传播方式修改模型权重，不断调节模型参数直至模型达到收敛状态后保存，生成器G训练完成；

步骤6，对训练好的生成器G进行测试，利用不同数据集的测试集生成扰动，从而产生测试对抗样本，将测试对抗样本输入到目标分类网络中，设置不同的目标类别执行有针对性对抗攻击。

图4绘示了在生成器中引入的金字塔分割注意力模块图，其主要由以下四个步骤组成：

(1)首先利用SPC模块对通道进行切分，然后针对每个通道特征图上的空间信息进行多尺度特征提取，获得信道上的多尺度特征图；

F＝Cat([F₀,F₁,…,F_N-1])

式中：拆分和融合模块SPC如图5所示，为了得到不同的空间分辨率和深度，将输入特征图从通道级别上划分成N个组，表示为[X₀，X₁....,X_N-1]，每组进行不同尺度的卷积k_i＝

2*(i+1)+1(i＝0,1,...,N-1)，从而可以获得包含单一类型卷积核的特征图进而提取每个通道特征图上的空间信息。对于每个分割部分，它可以独立地学习多尺度空间信息，并以局部方式建立跨通道交互。但是，随着卷积核尺寸增加将导致计算量增大。因此采用多尺度卷积核对每一组的特征进行分组，分组数量为多尺度特征提取的过程具体计算方式如下：

F_i＝Conv(k_i×k_i,W_i)(X_i),i＝0,1,2…N-1

(2)采用SEWeight模块提取不同尺度特征图的通道注意力，得到每个不同尺度上的通道注意力向量，注意力权重的向量可以表示为：

Z_i＝SEWeight(F_i),i＝0,1,2…N-1

为了实现注意信息的交互，在不破坏原始信道注意向量的情况下融合跨维度向量，以串联的方式获得整个多尺度信道注意向量。整个多尺度通道注意力权重向量为：

(3)使用Softmax函数对多尺度通道注意力向量进行特征重新标定，得到新的多尺度通道交互之后的注意力权重，交互后的多尺度信道权重表示为：

(4)对重新校准的权重和相应的特征图按元素进行点乘操作，输出得到一个多尺度特征信息注意力加权之后的特征图，具体计算如下：

Out＝Cat([Y₀,Y₁,…,Y_N-1])

式中：Y_i是将多尺度信道注意力a_tt_i重新校准后的权重与相应尺度F_i的特征图相乘获得的多尺度通道注意力权重的特征图，该特征图多尺度信息表示能力更加丰富。

通过上述操作可以将多尺度空间信息和跨通道注意力集成到ResNet-50网络中每个拆分的特征组块里，能产生更好的像素级注意力，可以在更粒度的级别上提取多尺度空间信息，并捕获远程信道的依赖性，强化了生成器的特征提取能力。

下面通过对比实验结果分析，来说明本发明的优势和可行性。

(1)表1展示了现有对抗攻击方法和本发明攻击方法生成对抗样本所需的时间，由表所示本发明提出的方法BA-GAN提高了样本生成效率。

表1攻击方法生成对抗样本的时间

(2)表2展示了分别在MNIST和CIFAR-10数据集上使用不同的目标类别实现有针对性对抗攻击获得的成功率。

表2目标攻击成功率

(3)在肺部X-Ray影像数据集上使用常见的基于GAN的对抗攻击方法AdvGAN、AdvGAN++、Natural-GAN、Rob-GAN与本发明提出的BA-GAN方法进行比较。

图6绘示了不同对抗攻击方法的FID分数对比图，FID是一种评估图像生成质量的指标，FID值越小说明生成的图片与真实图片的相似度越高。由图可知本发明的FID值最小，生成的对抗样本更为逼真。

图7绘示了不同对抗攻击方法在迭代轮数不断增加时获得的对抗攻击成功率，由图可知本发明提出的对抗攻击方法BA-GAN在对抗攻击成功率上优于其它主流的对抗攻击策略，能显著地提高黑盒攻击方式下的攻击成功率。

图8绘示了不同对抗攻击方法的结构相似性结果图，较高的SSIM说明生成的对抗样本在亮度、对比度、结构三方面和真实图像的相似性越高，由图可知本发明的SSIM值最大，生成图像更接近于真实图像。

Claims

1.一种基于GAN的黑盒可迁移性对抗攻击方法，其特征包括：

(1)使用CheXNet模型搭建目标模型T，CheXNet模型以DensNet121网络为基本骨架，在模型末尾使用卷积层代替全连接层，利用3×3小卷积替换7×7大卷积以减少模型参数量，使用来自在ImageNet数据集上预训练模型的权重初始化网络权重，使用SGD+Momentum算法进行迭代优化，增加Sigmoid非线性激活函数实现对模型的最终分类输出，训练模型直至达到收敛状态后保存目标模型T；

(2)设计黑盒攻击场景，构建代理模型S实现可迁移性对抗攻击，首先进行数据合成，将生成模型VAE目标置为合成分布接近于目标训练数据X并输入到代理模型S中，最小化损失函数来更新生成模型，其中为了解决训练过程中模型容易崩溃的问题，引入最大化信息熵和随机标签平滑策略，生成损失表示为：

其次是使用模型蒸馏的方法训练代理模型来有效地模仿目标模型，让代理模型S和目标模型T具有高度一致的决策边界来促进代理模型的训练，代理模型的损失函数定义为：

式中：L_dis表示目标模型和代理模型之间的蒸馏损失，L_bd表示代理模型和目标模型之间存在决策分歧时产生的边界支持损失，L_adv表示在生成对抗样本时容易从代理模型S转移到目标模型T时产生的对抗样本支持损失，β₁和β₂用来控制两个损失函数的占比；

(3)构建基于GAN的对抗攻击网络，实现目标可迁移性对抗攻击，获得高黑盒攻击成功率；

(4)向生成器G中输入原始图像x和目标类别t，叠加高维噪声后生成对抗扰动G(x,t)，再将X_pert＝x+G(x,t)和原始图像x送入判别器D中，判别为原始输入或对抗样本；

(5)为了增强对抗样本的攻击能力和稳定整体的训练过程，引入攻击者a到判别器中进行对抗训练，并且在判别器D中设置辅助分类器C实现对样本的正确分类；

(6)训练好代理模型S和生成器G后，使用生成器G生成的对抗样本X_pert执行有针对性地目标攻击。

2.根据权利要求书1所述的基于GAN的黑盒可迁移性对抗攻击方法，其特征在于，采用AC-GAN的判别器，设置辅助分类器既能区分真实图像和扰动图像，也能正确地对对抗样本进行分类。所述判别器D的损失函数具体包含三部分：用于区分真实/扰动图像产生的交叉熵损失L_S、对攻击者a生成的对抗样本和生成器G生成的对抗样本进行分类时产生的损失L_C(adv)和L_C(pert)，具体表示如下：

式中：X_real代表真实样本，X_pert代表生成器生成的对抗样本，X_adv代表攻击者a生成的对抗样本，y代表真实的标签，最大化损失函数Ls+Lc(adv)+L_C(pert)促使生成图像无限逼近于真实图像，保证对抗样本的质量。

3.根据权利要求书1所述的基于GAN的黑盒可迁移性对抗攻击方法，其特征在于，生成器G采用ResNet-50模型作为基本骨架，使用编码-解码结构进行特征提取，并设计残差块、扩张卷积和金字塔分割注意力机制强化生成器的特征表达能力。所述生成器的损失函数包括攻击目标模型的产生的对抗损失L_target(pert)和输入判别器时产生的判别损失L_D(pert)，具体表示如下：

4.根据权利要求1所述的基于GAN的黑盒可迁移性对抗攻击方法，其特征在于，步骤(6)还应该包括对训练好的生成器G进行测试评估，在不同数据集的测试集上让训练收敛的生成器G生成对抗扰动，从而生成测试对抗样本，让测试对抗样本攻击目标分类网络，并设置不同的目标类别执行有针对性对抗攻击。