CN115147682A

CN115147682A - 一种具有迁移性的隐蔽白盒对抗样本生成方法及装置

Info

Publication number: CN115147682A
Application number: CN202210778468.8A
Authority: CN
Inventors: 张晓琳; 张帅; 王静宇; 王永平; 高鹭; 刘月峰; 张稳稳
Original assignee: Inner Mongolia University of Science and Technology
Current assignee: Inner Mongolia University of Science and Technology
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-10-04

Abstract

本发明公开了一种具有迁移性的隐蔽白盒对抗样本生成方法及装置，涉及人工智能安全领域，本发明方法中，使用动量迭代法更新像素二阶重要性分数，稳定像素重要性分数的更新，摆脱局部最大值；然后使用自适应攻击步长，将对抗扰动集中在图像中被不同模型采用的共同关键特征上，减少对图像背景破坏；通过以上两种手段增加对抗样本的迁移性；解决了本发明的现有技术中白盒对抗样本技术过度拟合被攻击的深度神经网络，攻击其他黑盒模型时效果不佳，表现出较低的迁移性的问题。

Description

一种具有迁移性的隐蔽白盒对抗样本生成方法及装置

技术领域

本发明属于人工智能安全领域，尤其涉及一种具有迁移性的隐蔽白盒对抗样本生成方法及装置。

背景技术

“数字内容伪造”是指使用新兴技术（包括人工智能和机器学习技术）来制造或操纵音频、视觉或文本内容，意图产生误导的效果。通过机器学习对图像、音频、视频进行处理乃至伪造来欺骗人类的行为已经唤起了人们的安全意识，并对其加以防范依法管理。然而人工智能暗藏一股更强大的力量——对抗样本（adversarial sample）技术，这种技术可以通过机器学习对图像文本等数据进行处理来欺骗机器学习模型。迄今为止，越来越多威胁机器学习安全的问题被发现，有针对面部识别系统缺陷来模仿受害者身份的非法认证危害，也有涉及医疗数据、人物图片数据的隐私窃取危害，更有针对自动驾驶汽车、语音控制系统的恶意控制危害。随着机器学习应用领域的不断扩大，有关机器学习的安全性问题受到更为广泛的关注。一场围绕对抗样的攻防战就此打响，越来越多的研究人员将目光投向该领域，研究人员希望通过对对抗样本的研究分析，更加深入的了解模型深层结构；通过研究模型本身算法机制，来提高模型鲁棒性；通过研究对抗样本的生成技术，来寻找机器学习模型算法、结构的盲点；通过研究对抗样本的防御技术，来提高机器学习模型对于对抗样本的抵抗性，力求实现机器学习模型在实践中能够做到高效准确的决策，保障个人、企业、乃至国家的信息安全。因此在不影响模型决策的情况下保证模型不受对抗样本干扰、增强模型的鲁棒性已经成为众多学者关注的问题。

对抗样本由Szegedy等人提出，其生成过程可看作为一个约束优化问题。常见的对抗攻击包括快速梯度下降法(Fast Gradient Sign Method，FGSM)、基本迭代法(BasicIterative Method，BIM) 、投影梯度下降算法 (Projected Gradient Descent，PGD)，Deepfool、JSMA、C&W等。此外，对抗样本还具有三种重要属性，分别是对抗攻击效果、隐蔽性以及迁移性；然而上述现有对抗攻击在应用中并不能有效平衡这三种属性。其中FGSM属于单步攻击（只进行一次梯度计算），由于一阶梯度对深度神经网络(Deep Neural Networks，DNNs)的逼近能力有限，无法进一步找到更强大的对抗样本，因此FGSM的攻击效果较差，但具有较好的迁移性。为提高对抗攻击效果，属于迭代攻击（进行多次梯度计算）的BIM与PGD等攻击方法被提出，它们通过增加迭代次数增强了攻击效果，但降低了迁移性。以上三种攻击均存在攻击效果与其隐蔽性呈反比关系的问题。同时为了使迭代攻击具有的更好的迁移性，MI-FGSM在迭代攻击的基础上添加了动量项，但依然存在噪声冗余的现象不具有较好的隐蔽性。Deepfool、JSMA、C&W均属于迭代攻击，能更好的拟合目标神经网络的参数，具有更强的攻击效果与隐蔽性，但迁移性进一步降低。

现有技术中，深度神经网络为图像分类、语音处理、自动驾驶、机器翻译等领域的发展发挥了重要的作用。然而深度神经网的应用也带来了新的安全问题-对抗攻击：攻击者通过在原始样本上添加令人难以察觉的对抗扰动制作出对抗样本，使深度神经网络对其进行错误分类，从而达到欺骗深度神经网络的目的，对抗样本的出现给DNNs的使用带来了巨大的安全隐患。对抗攻击目前主要集中在图像分类领域，在图像分类任务中，攻击者制作出的对抗样本会使得深度神经网络的输出为错误类别。并且，可以根据攻击者是否掌握被攻击深度神经网络的信息将对抗样本技术分为白盒攻击与黑盒攻击。研究表明，当前大多白盒对抗样本技术过度拟合被攻击的深度神经网络，攻击其他黑盒模型时效果不佳，表现出较低的迁移性；此外，大多对抗样本技术在提高攻击效果或迁移性的同时使得添加的对抗扰动过多，造成对抗样本具有低隐蔽性。

发明内容

本发明的目的在于提供一种具有迁移性的隐蔽白盒对抗样本生成方法及装置，以至少解决现有技术中白盒对抗样本技术过度拟合被攻击的深度神经网络，攻击其他黑盒模型时效果不佳，表现出较低的迁移性的问题；此外，进一步解决对抗样本技术在提高攻击效果或迁移性的同时使得添加的对抗扰动过多，造成对抗样本具有低隐蔽性的问题；最终以达到攻击效果、迁移性、隐蔽性有效平衡的效果。

本发明采用的技术方案如下：

根据本公开的第一方面，提供了一种具有迁移性的隐蔽白盒对抗样本生成方法,所述方法包括如下步骤：

S1、在图像分类任务中，获取输入图像的图像数据，在图像数据上使用像素二阶重要性计算获得图像数据上每个像素的二阶重要性得分，得到对抗扰动的方向；

S2、使用动量迭代法更新步骤S1获得的二阶重要性得分，并使用自适应归一化，得到对抗扰动攻击步长；在图像数据上添加对抗扰动生成对抗样本。

通过以上两步操作，使用动量迭代法更新像素二阶重要性分数，稳定像素重要性分数的更新，摆脱局部最大值。然后使用自适应攻击步长，将对抗扰动集中在图像中被不同模型采用的共同关键特征上，减少对图像背景破坏。通过以上两种手段增加对抗样本的迁移性。解决了本发明的现有技术中白盒对抗样本技术过度拟合被攻击的深度神经网络，攻击其他黑盒模型时效果不佳，表现出较低的迁移性的问题。

在本申请的一个实施例中，上述方法还包括,

S3、通过

范数约束条件对步骤S2获得的对抗样本进行判断并输出；具体的，将符合

范数约束条件的对抗样本输出；否则，将更新后的图像数据作为步骤S1的输入图像数据，再迭代执行步骤S1-S3。

步骤S3中使用

范数约束条件对对抗样本进行限制，使本发明方法生成的对抗扰动较小，令对抗样本具有更好的隐蔽性。进一步解决现有对抗样本技术在提高攻击效果或迁移性的同时使得添加的对抗扰动过多，造成对抗样本具有低隐蔽性的问题；最终达到攻击效果、迁移性、隐蔽性三属性有效平衡的效果。

在本申请的一个实施例中，步骤S1包括如下步骤：

S1.1、在图像分类任务中，输入已训练好的深度神经网络图像作为图像数据

，其中

为输入图像的集合，

为图像批次数量，

为图像颜色通道数，

为图像高度，

为图像宽度；

S1 .2、计算深度神经网络损失函数

关于步骤S1.1图像数据的梯度（一阶梯度）矩阵

与 Hesse（二阶梯度）矩阵

；

S1 .3、将梯度矩阵与Hesse矩阵相乘进行像素二阶重要性计算，获得图像数据上每个像素的二阶重要性得分

。

在本申请的一个实施例中，步骤S2包括如下步骤：

S2 .1、将图像数据上每个像素的二阶重要性得分使用动量迭代法进行更新，令当前第

轮的每个像素的累积二阶重要性得分为

，其中

为衰减因子，是一个超参数；

S2 .2、将获得的累积重要性得分进行归一化处理得到自适应归一化值，即：

，然后将自适应归一化值与一个固定的攻击步长

相乘，获得自适应攻击步长

；其中攻击步长

为一个超参数；

S2 .3、结合对抗扰动方向与对抗扰动自适应攻击步长得到当前轮对抗扰动

，并在当前的图像数据上添加对抗扰动得到对抗样本，计算公式为：

其中，

为第

轮的对抗样本，

为第

轮的对抗扰动，当

为0时

，

为剪裁函数，将图像像素约束在[0,1]范围内；

为符号函数，用来获取每个像素的累积二阶重要性

的方向。

在本申请的一个实施例中，步骤S3具体包括如下步骤：

S3 .1、将第

轮的对抗样本

与原始输入图像

相减，得到对抗扰动

；

S3 .2、计算对抗扰动的

距离，得到

；将

与

进行比较，小于

再迭代执行步骤S1-S3，大于等于

则输出对抗样本；其中

为超参数，通过

与损失函数值以及对抗样本攻击效果分析获得，取能够导致较高损失函数值且对抗样本分类准确率接近于0时最小的

。

根据本公开的第二方面，本申请还提供了一种具有迁移性的隐蔽白盒对抗样本生成装置，应用上述具有迁移性的隐蔽白盒对抗样本生成方法，包括，

对抗扰动方向获取模块，该模块用于：在图像分类任务中，获取输入图像的图像数据，在图像数据上使用像素二阶重要性计算获得图像数据上每个像素的二阶重要性得分，得到对抗扰动的方向；

对抗样本生产模块，该模块用于：使用动量迭代法更新步骤S1获得的二阶重要性得分，并使用自适应归一化，得到对抗扰动攻击步长；在图像数据上添加对抗扰动生成对抗样本；

对抗样本输出模块，该模块用于：通过

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

本发明提供了一种具有迁移性的隐蔽白盒对抗样本生成方法及装置，具有如下有益效果：本发明方法中，使用动量迭代法更新像素二阶重要性分数，稳定像素重要性分数的更新，摆脱局部最大值。然后使用自适应攻击步长，将对抗扰动集中在图像中被不同模型采用的共同关键特征上，减少对图像背景破坏。通过以上两种手段增加对抗样本的迁移性。解决了本发明的现有技术中白盒对抗样本技术过度拟合被攻击的深度神经网络，攻击其他黑盒模型时效果不佳，表现出较低的迁移性的问题。

进一步，本发明步骤S3中使用

附图说明

图1是本发明的流程示意图。

图2是本发明隐蔽性对比实验的数据结果柱状图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和机构的描述。

如图1所示，一种具有迁移性的隐蔽白盒对抗样本生成方法，包括如下步骤：

S1、在图像分类任务中，获取输入图像的图像数据，在图像数据上使用像素二阶重要性计算获得图像数据上每个像素的二阶重要性得分，得到对抗扰动的方向。

S3、通过

进一步，上述步骤S1具体包括如下步骤：

，其中

为输入图像的集合，

为图像批次数量，

为图像颜色通道数，

为图像高度，

为图像宽度。

S1 .2、计算深度神经网络损失函数

关于步骤S1.1图像数据的梯度（一阶梯度）矩阵

与 Hesse（二阶梯度）矩阵

。

。

小结：步骤S1中像素二阶重要性计算能够更加准确地寻找对抗扰动的方向，进一步提高对抗样本的攻击效果。

进一步，上述步骤S2具体包括如下步骤：

轮的每个像素的累积二阶重要性得分为

，其中

为衰减因子，是一个超参数。

，然后将自适应归一化值与一个固定的攻击步长

相乘，获得自适应攻击步长

；其中攻击步长

为一个超参数。

其中，

为第

轮的对抗样本，

为第

轮的对抗扰动，当

为0时

。

为剪裁函数，将图像像素约束在[0,1]范围内。

为符号函数，用来获取每个像素的累积二阶重要性

的方向。

小结：步骤S2中，首先使用动量迭代法更新像素二阶重要性分数，稳定像素重要性分数的更新，摆脱局部最大值。然后使用自适应攻击步长，将对抗扰动集中在图像中被不同模型采用的共同关键特征上，减少对图像背景破坏。通过以上两种手段增加对抗样本的迁移性。

进一步，上述步骤S3具体包括如下步骤：

S3 .1、将第

轮的对抗样本

与原始输入图像

相减，得到对抗扰动

。

S3 .2、计算对抗扰动的

距离，得到

。将

与

进行比较，小于

再迭代执行步骤S1-S3，大于等于

则输出对抗样本。其中

为超参数，通过

。

小结：步骤S3中使用

范数约束条件对对抗样本进行限制，使本发明方法生成的对抗扰动较小，令对抗样本具有更好的隐蔽性。

为了证明本申请方法的有益效果，本申请进一步提供了下述实验。

实验条件：在通道数为3，图像尺寸为32×32 的CIFAR10 数据集上使用 VGG16、VGG19、ResNet18 模型。攻击方法采用FGSM、BIM、DeepFool、C&W四种经典方法以及本发明方法。如下表1所示，表中带(*)为白盒攻击，其余为黑盒攻击。

实验过程如下：

现有一个通道数为3，图像尺寸为32×32 图像

，将该图像输入已训练好的深度神经网络中，计算深度神经网络损失函数（交叉熵损失函数）关于图像的梯度（一阶梯度）矩阵

与 Hesse（二阶梯度）矩阵

。

将图像

的梯度矩阵

与 Hesse矩阵

相乘进行像素二阶重要性计算，获得图像

上每个像素的二阶重要性得分

。

将图像

上每个像素的二阶重要性得分使用动量迭代法进行更新，令当前第

轮的每个像素的累积二阶重要性得分为

，其中

为衰减因子，为设定为0.8的超参数。

对图像

的累积重要性得分进行归一化处理得到自适应归一化值，即：

，然后将自适应归一化值与一个固定的攻击步长

相乘，获得自适应攻击步长

，其中

为设定为0.1的超参数。

通过结合对抗扰动方向与对抗扰动自适应攻击步长得到当前第

轮的对抗扰动

，并在当前的图像数据上添加对抗扰动并剪裁，得到对抗样本即

，其中当

为0时

。

将第

轮得到的对抗样本

与输入图像

相减，得到对抗扰动

。

计算对抗扰动

的

距离，得到

。将

与

进行比较，小于

再迭代执行步骤S1-S3，大于等于

则输出对抗样本。其中

为设定为1.5的超参数。最终获得本发明方法生成的对抗样本。

为验证本方法能有效地解决对抗样本攻击效果和迁移性之间的权衡问题，进行了实验。实验使用五种方法生成的对抗样本对上述模型进行攻击，对四种经典方法与本发明在不同模型上的攻击成功率进行比较。

实验结论：实验结果如下表1所示。在CIFAR10数据集与其对应的三种模型上，与其他四种主流经典对抗攻击方法进行比较，本发明方法在白盒情况下对抗样本的攻击成功率保持在99%，具有较好的攻击效果。同时在黑盒情况下本发明方法生成的对抗样本的攻击成功率整体处于50%以上，显著高于其他经典对抗样本技术，表现出较好的迁移性。

表1

本方法能有效地解决上述权衡问题的条件下，进一步提高了对抗样本的隐蔽性。并采用实验进行了验证，实验比较在CIFAR10数据集上VGG16模型中的五种对抗样本的对抗扰动的平均

距离，验结果见图2所示。如图2所示，本发明方法较其他四种攻击（平均

距离较小但失去迁移性的DeepFool与C&W攻击、平均

距离较大且迁移性一般的FGSM与BIM攻击）在解决对抗样本的攻击效果与迁移性不能有效权衡问题的同时具备了较好的隐蔽性。

本发明还提供了一种具有迁移性的隐蔽白盒对抗样本生成装置，包括：

对抗扰动方向获取模块，该模块用于：在图像分类任务中，获取输入图像的图像数据，在图像数据上使用像素二阶重要性计算获得图像数据上每个像素的二阶重要性得分，得到对抗扰动的方向。

对抗样本生产模块，该模块用于：使用动量迭代法更新步骤S1获得的二阶重要性得分，并使用自适应归一化，得到对抗扰动攻击步长；在图像数据上添加对抗扰动生成对抗样本。

对抗样本输出模块，该模块用于：通过

需要说明的是：上述具有迁移性的隐蔽白盒对抗样本生成装置中各模块单元的具体细节已经在对应的具有迁移性的隐蔽白盒对抗样本生成方法进行了详细的描述，因此这里不再赘述。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。