CN114359672B

CN114359672B - 基于Adam的迭代快速梯度下降对抗攻击方法

Info

Publication number: CN114359672B
Application number: CN202210012611.2A
Authority: CN
Inventors: 董云云; 张锦涛; 周维; 蔡莉
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2023-04-07
Anticipated expiration: 2042-01-06
Also published as: CN114359672A

Abstract

本发明公开了一种基于Adam的迭代快速梯度下降对抗攻击方法，设置用于对抗攻击的基于深度神经网络的图像分类模型及其他对抗攻击参数，然后初始化迭代参数，在每次迭代时，将当前图像输入图像分类模型得到其分类结果，计算本次图像分类的损失函数梯度，根据该损失函数梯度对梯度均值和梯度方差进行更新，对梯度均值和梯度方差修正后更新每幅图像，如此循环直至达到最大迭代次数，将最后一次迭代得到的图像作为对抗样本。本发明引入Adam算法对I‑FGSM算法进行改进，能够在缩短训练时间的同时，提升生成对抗样本的迁移性和攻击成功率。

Description

基于Adam的迭代快速梯度下降对抗攻击方法

技术领域

本发明属于对抗攻击技术领域，更为具体地讲，涉及一种基于Adam的迭代快速梯度下降对抗攻击方法。

背景技术

近年来，深度神经网络在各个领域的贡献颇为显著，卷积神经网络(Convolutional Neural Network，CNN)在自动驾驶汽车、监视、恶意代码检测、无人机等领域得以成功应用，并且在其中扮演着关键性角色，因此深度神经网络模型安全的重要性更加凸显。

对抗攻击是威胁深度学习模型的主要攻击类型之一，其目的是通过对输入样本添加微小的噪声扰动，从而使得模型的预测结果发生错误(又称为无目标的攻击)，甚至能根据特定噪声扰动输出攻击者所期望的预测结果(称为有目标的攻击)。对抗攻击一方面对深度神经网络模型构成了威胁，另一方面也可用于辅助模型的训练和优化。现有研究结果表明，对抗攻击不仅可用于在深度神经网络模型启动之前测试其漏洞，评估模型脆弱性，而且可以融合对抗样本训练学习模型，丰富了训练样本的空间分布，有助于提高深度神经网络模型的鲁棒性。

对抗攻击可以分为黑盒攻击(black-box attack)和白盒攻击(white-boxattack)，区别在于攻击者是否知晓有关深度学习模型的先验知识，如深度神经网络结构、参数、超参数、训练样本、给定样本的学习结果等。在了解给定学习模型结构和参数的条件下，白盒攻击算法能成功生成对抗样本。相比而言，白盒攻击效果好，但已知条件较多；黑盒攻击效率低下，迁移性差。由于实际应用中所能获取的先验知识有限，因此黑盒攻击仍然是一种更为常用的对抗攻击方法。

经研究发现，对于用于图像分类的深度神经网络模型，通过在一张图片上做微小的扰动，就能让图片以很高的置信度被深度神经网络模型错误分类，甚至可以让图片被分类成一个指定的标签。GoodFellow等人于2015年分析了产生对抗攻击的根本原因为深度学习模型在高维空间中的线性特性，而非之前人们猜测的神经网络的复杂性，同时在这个假设前提下提出了一种高效生成对抗样本的算法快速梯度下降法FGSM，该方法是基于梯度的单步攻击方法，通过最大化损失函数来找到对抗样本。此后，2017年Madry等人提出了改进的I-FGSM算法，在FGSM算法基础上，定义了步长参数，用于增加多次迭代攻击，其效果更加显著。

就FGSM算法而言，其在计算对抗样本时采用了线性假设，但是在具体实践中，当失真较大时(如图片模糊不清)，线性假设可能不成立，这使得FGSM生成的对抗样本无法成功攻击目标深度神经网络模型，从而限制了其攻击的效率。I-FGSM算法虽然进行了改进，但是在每次迭代中会在梯度的符号方向上贪婪地向生成对抗样本的方向移动。因此，对抗样本容易陷入不良的局部最大值并“过拟合”模型，如此生成的对抗样本虽然攻击强度上更强，但是在黑盒模型上体现的攻击效果会更差。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于Adam的迭代快速梯度下降对抗攻击方法，引入Adam算法对I-FGSM算法进行改进，在更短训练时间内提升生成对抗样本的迁移性和攻击成功率。

为了实现上述发明目的，本发明基于Adam的迭代快速梯度下降对抗攻击方法包括以下步骤：

S1：设置用于对抗攻击的基于深度神经网络的图像分类模型，确定若干输入图像x_k，k＝1,2,…,K，K表示输入图像数量，记输入图像x_k对应的类型标签为y_k；根据需要设置输入图像的扰动量ε和最大迭代次数T，计算步长λ＝ε/T；

S2：初始化梯度均值v₀＝0，梯度方差s₀＝0；将各个输入图像x_k作为初始图像

S3：令迭代次数t＝0；

S4：将各个图像

输入图像分类模型得到其分类结果

S5：根据步骤S4得到的分类结果，计算本次图像分类的损失函数梯度

S6：采用如下公式分别计算更新后的梯度均值v_t′₊₁和梯度方差s_t′₊₁：

其中，α和β分别为预设的衰减率；

然后对梯度均值和梯度方差进行修正，得到修正后的梯度均值v_t+1和梯度方差s_t+1：

S7：采用如下公式更新每幅图像，得到更新后的图像

其中，sign[]表示符号函数；

S8：判断是否t＜T-1，如果是，进入步骤S9，否则进入步骤S10；

S9：令t＝t+1，返回步骤S4；

S10：将最后一次迭代后得到的图像

作为输入图像x_k的对抗样本，用于对目标图像分类模型进行对抗攻击。

本发明基于Adam的迭代快速梯度下降对抗攻击方法，设置用于对抗攻击的基于深度神经网络的图像分类模型及其他对抗攻击参数，然后初始化迭代参数，在每次迭代时，将当前图像输入图像分类模型得到其分类结果，计算本次图像分类的损失函数梯度，根据该损失函数梯度对梯度均值和梯度方差进行更新，对梯度均值和梯度方差修正后更新每幅图像，如此循环直至达到最大迭代次数，将最后一次迭代得到的图像作为对抗样本。本发明引入Adam算法对I-FGSM算法进行改进，能够在缩短训练时间的同时，提升生成对抗样本的迁移性和攻击成功率。

附图说明

图1是本发明基于Adam的迭代快速梯度下降对抗攻击方法的具体实施方式流程图；

图2是本发明基于不同基础分类模型生成的对抗样本图；

图3是I-FGSM算法基于不同基础分类模型生成的对抗样本图；

图4是本发明和I-FGSM算法对三个不同分类模型在不同迭代次数下的攻击成功率对比图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于Adam的迭代快速梯度下降对抗攻击方法的具体实施方式流程图。如图1所示，本发明基于Adam的迭代快速梯度下降对抗攻击方法的具体步骤包括：

S101：设置对抗攻击参数：

设置用于对抗攻击的基于深度神经网络的图像分类模型，确定若干输入图像x_k，k＝1,2,…,K，K表示输入图像数量，记输入图像x_k对应的类型标签为y_k。根据需要设置输入图像的扰动量ε和最大迭代次数T，计算步长λ＝ε/T。

S102：初始化迭代参数：

初始化梯度均值v₀＝0，梯度方差s₀＝0。将各个输入图像x_k作为初始图像

S103：令迭代次数t＝0。

S104：获取图像分类模型输出：

将各个图像

输入步骤S1设置好的图像分类模型得到其分类结果

S105：计算损失函数梯度：

根据步骤S104得到的分类结果，计算本次图像分类的损失函数梯度

损失函数可以根据实际需要设置，本实施例中损失函数采用交叉熵损失。

S106：更新梯度均值和梯度方差：

采用如下公式分别计算更新后的梯度均值v_t′₊₁和梯度方差s_t′₊₁：

其中，α和β分别为预设的衰减率，通常取值为α＝0.9，β＝0.99。

S107：更新图像：

采用如下公式更新每幅图像，得到更新后的图像

其中，sign[]表示符号函数；

S108：判断是否t＜T-1，如果是，进入步骤S109，否则进入步骤S110。

S109：令t＝t+1，返回步骤S104。

S110：确定对抗样本：

将最后一次迭代后得到的图像

根据以上步骤可知，本发明中引入了Adam思想，在迭代过程中求出每一轮当前轮次的梯度后，再使用指数移动平均的方式求出该轮的Momentum梯度(即梯度均值v_t′₊₁)，用于优化跟踪过去梯度的指数衰减平均值，以避免在攻击过程中陷入局部最优，接着求出该轮的RMSP梯度(即梯度方差s_t′₊₁)，跟踪过去梯度平方的指数衰减平均值,来防止梯度上升过程中的“震幅过大”，然后对Momentum梯度与RMSP梯度进行偏差修正，修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩估计，最终使用Adam的方式进行混合得到最终梯度，从而稳定更新方向并避免出现不良的局部最大值，进而提高对抗样本的质量。

为了更好地说明本发明的技术效果，采用具体实例对本发明进行实验验证。本次实验验证所用数据集为天池IJCAI-19阿里巴巴人工智能对抗算法竞赛的官方数据集，其中训练数据集为包括110个种类的11万张商品图片，商品图片均来自阿里巴巴的电商平台，每张图片对应一个种类ID(标签)。本次实验中，选取Inception_v1,Resnet_v1和Vgg_16三种基础分类模型作为被攻击对象，各分类模型均加载训练好的权值参数，且在给定测试数据集上的top1正确率均在70％以上。

本次实验验证的侧重点在于生成可以干扰分类模型进行分类的对抗样本，因此选取110张分别对应不同种类、且在三个基础模型中识别率均为100％的图片作为起始样本，分别将AI-FGSM算法和I-FGSM算法作用在选定的110张起始图片上产生相应的对抗样本图片。然后分别测试不同模型对两种不同对抗攻击样本的检测性能，最终对比分析两种攻击算法的优劣。

本次实验中采用目前业内较为常用的FGSM算法、I-FGSM算法和DeepFool算法三种方法作为对比方法，采用对比方法和本发明对从输入数据集中选取的110张图片做攻击训练，生成对抗样本，然后测试各分类模型对每个对抗样本的分类效果。在约束对抗样本与起始样本之间的差异小于给定阈值的前提下，被分类模型错误分类的对抗攻击样本数量越多，则表明该攻击算法越有效。因此，本次实验验证设置了两个指标评价攻击算法的优劣，即干扰量和攻击成功率。

其中，干扰量用于量化对抗样本与真实图像之间的差异，计算公式如下：

其中,x表示真实图像，x^*表示生成的对抗样本，M表示目标图像分类模型，y表示真实图像x的真实标签，M(x^*)表示目标图像分类模型M对于对抗样本的分类结果，如果目标图像分类模型对对抗样本x^*的种类识别正确，则此次攻击不成功，单个像素扰动量计算大小上限为64；如果模型对对抗样本x^*的种类识别错误，则攻击成功，采用L₂距离来计算对抗样本x^*和真实样本x的扰动量。最后，累加110个对抗攻击样本的扰动量取其平均值作为评估攻击算法干扰程度的指标。

本次实验验证中攻击成功率由110张不同分类生成的对抗样本攻击成功所占比例计算得来，对抗样本对目标图像分类模型的攻击成功率越高，说明对抗样本的欺骗率越强，攻击方法越有效。定义融入对抗样本后的目标图像分类模型的准确率为Acc，则攻击成功率Acc_adv＝1-Acc。

首先采用本发明和对比方法分别基于三种基础分类模型进行对抗攻击。实验中，首先输入大小为224*224(共计50176个像素点)的图片分别训练得到三个图像分类模型：Inception_v1,Resnet_v1和Vgg_16。然后将选取的110张图像中被三个分类模型均准确分类的图片分别作为输入，在本发明和对比方法中产生对抗样本。

图2是本发明基于不同基础分类模型生成的对抗样本图。图3是I-FGSM算法基于不同基础分类模型生成的对抗样本图。图2、图3中D值即为干扰值，AI-FGSM表示本发明方法。如图2和图3所示，本发明和I-FGSM算法在生成的扰动图像上均可以欺骗目标图像分类模型，但可以发现本发明在该真实图像上的干扰值(即图2、图3中D值)平均值较I-FGSM算法小3左右，扰动更小，效果更好。

表1是本发明和对比方法对三种基础分类模型分别进行攻击时的实验结果统计表。

表1中，带*号的模型名称是表示攻击的目标图像分类模型，后缀带(w)的结果表示为白盒攻击，其他为黑盒攻击。

如表1所示，一方面在白盒攻击下本发明和I-FGSM的攻击成功率平均接近99％,真实图像和对抗样本的距离也较其他攻击方法最少小3左右。另一方面，本发明同样降低了原始样本和对抗样本的差异化，干扰量均在15左右。在黑盒攻击时，本发明攻击方法的效果更为明显，在三个分类模型上的黑盒攻击成功率都要比其他三种攻击方法高，比I-FGSM算法平均高15％左右，比FGSM算法平均高13％左右。不仅如此，真实图像与对抗样本之间的差异也略小，其干扰量较FGSM、I-FGSM、DeepFool平均分别都要小4、6、20左右。这也说明了本发明使用Adam的思想对图片攻击确实能达到理想的效果。根据以上实验结果的比较分析可知，本发明在保证白盒攻击成功率的同时，其黑盒攻击下的成功率验证了本发明有着强大的迁移性，即亦能产生可迁移对抗样本，发挥更强的攻击作用。

基于表1的实验结果，对本发明和对比方法在不同数据集上的表现进行详细分析，从而揭示各攻击方法在不同数据样本上的表现情况。图4是本发明和I-FGSM算法对三个不同分类模型在不同迭代次数下的攻击成功率对比图。如图2所示，当进行白盒攻击时，本发明和I-FGSM算法的攻击效果差别不大，但是在黑盒攻击时，可以发现同样攻击迭代次数情况下，本发明攻击同样模型的成功率都要高于I-FGSM算法，且攻击成功率之差一度达到20％左右。不仅如此，本发明在攻击所需迭代次数上其攻击成功率更快达到峰值。综合比较，本发明攻击较I-FGSM算法攻击的成功率平均高出15％左右，攻击迭代次数平均低50％左右。

在实际应用中，还存在由多个分类模型联合得到的集合模型。攻击集合模型是指在攻击算法中融合了多种分类模型的分类结果，攻击必须对全部分类模型有效。因此针对集合模型的对抗攻击难度更高，但成功的攻击方法也因此具备更强的通用性。因此本次实验验证也针对集合模型进行了实验，即将三种基础分类模型联合得到集合模型，再进行攻击实验。表2是本发明基于集合模型进行对抗攻击时的实验结果统计表。

表2

如表2所示，在迭代攻击3次后使用以攻击集合模型生成的对抗样本，对于三种基础模型的攻击成功率都在97.27％。这说明在攻击集合模型生成的对抗样本具有良好的鲁棒性。另外由于本发明引入了Adam思想，因此它能以高效率和高成功率来攻击大部分的分类模型。特别是当应用在大规模数据集上时，其时间复杂度所体现出来的优势会更为明显。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。