CN109948663A

CN109948663A - 一种基于模型抽取的步长自适应的对抗攻击方法

Info

Publication number: CN109948663A
Application number: CN201910147799.XA
Authority: CN
Inventors: 韩亚洪; 石育澄
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-06-28
Anticipated expiration: 2039-02-27
Also published as: CN109948663B

Abstract

本发明公开了一种基于模型抽取的步长自适应的对抗攻击方法，步骤1、构建图像数据集；步骤2、对图像集合IMG训练卷积神经网络，作为待攻击目标模型，步骤3、计算交叉熵损失函数，实现对卷积神经网络的模型抽取，初始化迭代攻击的梯度值与步长g₁；步骤4、形成新的对抗样本x₁；步骤5、重新计算交叉熵损失函数，利用新的梯度值更新下一步添加对抗噪声的步长；步骤6、重复输入图像‑计算交叉熵损失函数‑计算步长‑更新对抗样本的过程；将步骤5重复操作T‑1次，得到最终的迭代攻击对抗样本x′_i，并将对抗样本输入到目标模型中进行分类，得出分类结果N(x′_i)。与现有技术相比，本发明可以实现更好的攻击效果，这种相比当前的迭代方法具备更强的非黑盒攻击能力。

Description

一种基于模型抽取的步长自适应的对抗攻击方法

技术领域

本发明涉及机器学习安全技术领域，尤其涉及一种面向深度图像识别系统的非黑盒对抗迭代攻击的方法。

背景技术

近年来，随着机器学习理论和技术的不断进步与发展，尤其是在计算机视觉和多媒体领域的突破性进展，医疗图像处理、生物图像识别、人脸识别等技术得到了广泛的应用。然而，机器学习领域火速发展也带来了许多安全问题。在自动驾驶、健康系统、财政系统等与安全与隐私密切相关的系统中，机器学习的安全性对人们的切身利益甚至生活构成了潜在的威胁。因此，如何维护机器学习系统的安全以及如何保护用户隐私成为机器学习发展的基础。已有人提出深度神经网络易受对抗样本攻击的特性，即通过对输入进行不可察觉的细微的噪声，可以使得深度神经网络以较高的信任度输出任意想要的分类，这样的输入称为对抗样本，这对基于深度学习的应用领域安全性构成了一定威胁。

对抗攻击的类型可分为黑盒攻击和非黑盒攻击。其中，黑盒攻击指攻击者得不到目标模型的内部结构和参数，但是可以访问和查询目标模型；而非黑盒攻击指攻击者已知目标模型的结构和参数，攻击者可以通过分析目标模型结构来构造对抗样本进行对抗攻击。根据添加对抗噪声的过程的不同，非黑盒攻击被分为单步攻击、迭代攻击和优化攻击三种。其中，(1)单步攻击方法最经典的算法是快速梯度符号法，主要向目标模型损失函数对于原图的梯度方向添加噪声来实现错误分类。(2)迭代攻击方法的算法是迭代快速梯度符号法，将改变幅度分为了若干小的步长，并在每个步长上分别实施攻击。迭代快速梯度符号法的攻击效果是当前迭代攻击当中最高的，但主要的缺陷在于无法对步长进行适应性的调整。该方法的另一个改进是包含动量的迭代快速梯度符号法，通过引入一个动量项来提升对抗样本在模型间的迁移能力。(3)基于优化的攻击方法，通过最小化原始图像与对抗样本之间的距离，并最大化目标模型的对抗损失来提升攻击效果。但基于优化的攻击方法普遍需要多于迭代攻击的查询次数，这就限制了优化攻击在真实场景中的应用。因此，迭代攻击是当前最为实用的一类对抗攻击方法。然而，当前所有迭代攻击的添加噪声的步长都是固定的。由于在迭代过程中的每一步对抗噪声的步长对最终攻击效果的贡献不是等价的，每一步对抗噪声的步长也不应该平均分配。同时，现有方法对每一步对模型抽取得到的梯度信息的利用仅限于计算梯度值的符号。而事实上，梯度信息包含了目标模型的结构细节，反映了损失函数上升最快的方向，对模型抽取所获的梯度信息的利用不应是一次性的，而是在整个迭代过程中指引对抗攻击。

发明内容

针对以上现有存在的问题，本发明提出一种基于模型抽取的步长自适应的对抗攻击方法，将迭代过程中每一步抽取得到的梯度值与梯度的历史信息进行比对，从剩余的对抗预算中为当前噪声分配合理的步长，构建适应性调整噪声步长的对抗样本，得到最终的迭代攻击对抗样本。

本发明的一种基于模型抽取的步长自适应的对抗攻击方法，该方法包括以下步骤：

步骤1、将收集的图片及标签信息形成<图像，类别>对，这里的类别为0～n-1，即所有图像总共有n个类别，具体包括以下处理：

使用ImageNet大规模图像分类数据集构成图像集合IMG：

其中，x_i表示一张图像，N_d表示图像集合IMG中的图像总数；

构建图像集合IMG中每个图像对应的图像描述集合GroundTruth：

其中，y_i表示每一个图像所对应的类别编号，N_d表示图像集合IMG中的图像总数；

由图像集合IMG以及每个图像对应的图像描述集合GroundTruth组成最终的数据集DataSet＝{IMG,GroundTruth}；

步骤2、以图像分类作为任务对图像集合IMG训练卷积神经网络，作为待攻击的目标模型，具体包括以下处理：

加载并归一化ImageNet训练和测试数据集、定义卷积神经网络(选择Inception-v3深度神经模型)、定义损失函数为交叉熵损失函数、利用训练数据来训练网络、利用测试数据来测试网络；

步骤3、将数据集DataSet中原始图像输入到步骤2训练好的卷积神经网络中，得到原始图像的网络输出分类结果，并将分类结果与图像描述比对，计算交叉熵损失函数，利用复合函数的求导法则进行反向传播，以实现上述对卷积神经网络的模型抽取过程；接着初始化迭代攻击的第一步的步长s₁和第一步的梯度值g₁，步长s₁和梯度值g₁，所有计算公式如下：

其中，x₀表示原始图像矩阵，y_T表示x₀的正确类别即标签类别，T表示迭代的次数，ε表示总的对抗预算，即允许添加的对抗噪声的幅度上限，J(x,y)表示输入表示原始图像x与标签类别y的交叉熵损失函数，y_k与N_k(x)分别表示正确类别独热编码(独热编码是一个长度为类别数目向量，且下标为正确类别的位置为1，其余为0)中第k类的置信度与目标模型对图像x分类结果中第k类的置信度，h(z,y_T)表示对向量z中第y_T个元素的softmax归一化结果，exp()表示以e为底的指数函数，z_i表示目标模型的输出向量的第i个位置的值，表示目标模型的输出向量的第y_T个位置的值；

步骤4、利用步骤3得到的初始梯度g₁矩阵和初始步长值s₁得到初始对抗噪声矩阵s₁·sign(g₁)，与原图矩阵x₀直接相加，形成新的对抗样本x₁：

x₁＝x₀+s₁·sign(g₁)

其中，sign()表示符号函数；

步骤5、将新的对抗样本x₁输入卷积神经网络模型，重新计算交叉熵损失函数，具体公式见步骤3中，然后计算当前梯度值除以之前所有梯度值的平均值，得到ρ，且计算中使用了sigmoid函数限制了对抗预算的震荡，该ρ用于更新下一步添加对抗噪声的步长；具体过程为：

x_t＝x_t+s_t+1·sign(g_t+1)

其中，和分别表示前t步的梯度与步长的均值；ρ表示根据g_t相对于的比例计算得到的s_t-1相对于的放大倍率，在第t+1步，从剩余的对抗预算中分配ρ/(ρ+T-t-1))给当前步的对抗噪声；

步骤6、将步骤5重复操作T-1次，得到最终的迭代攻击对抗样本x′_i，并将对抗样本输入到目标模型中进行分类，得出分类结果N(x′_i)。

与现有技术相比，本发明相比较其他固定步长的迭代攻击方法，在每一步迭代时，使用通过模型抽取获得的梯度信息来自适应地调整对抗预算；通过实验表明，在相同的迭代步数T和噪声幅度ε下分配与梯度值正相关的对抗性预算可以实现更好的攻击效果，这种适应性调整噪声步长的对抗样本构建方法相比当前的迭代方法具备更强的非黑盒攻击能力。

附图说明

图1、2为三种基于迭代的攻击方法的攻击轨迹可视化效果示意图；

图3、4为对抗样本示例图；

图5为本发明的一种基于模型抽取的步长自适应的对抗攻击方法整体流程图。

具体实施方式

下面将结合附图对本发明的实施方式作进一步的详细描述。

这里选取Inception-v3作为目标模型，使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击。

(1-1)使用ImageNet大规模图像分类数据集构成图像集合IMG：

其中，x_i表示一张图像，N_d表示图像集合IMG中的图像总数；

(1-2)构建图像集合IMG中每个图像对应的图像描述集合GroundTruth：

(1-3)由图像集合IMG以及每个图像对应的图像描述集合GroundTruth组成最终的数据集DataSet＝{IMG,GroundTruth}；

加载并归一化ImageNet训练和测试数据集、定义卷积神经网络(选择Inception-v3深度神经模型，网络结构可任意选择)、定义损失函数表示交叉熵损失函数、利用训练数据来训练网络、利用测试数据来测试网络；

其中，x₀表示原始图像矩阵，y_T表示x₀的正确类别即标签类别，T表示迭代的次数，ε表示总的对抗预算，即允许添加的对抗噪声的幅度上限，J(x,y)表示输入为原始图像x与标签类别y的交叉熵损失函数，y_k与N_k(x)分别表示正确类别独热编码(独热编码是一个长度为类别数目向量，且下标为正确类别的位置为1，其余为0)中第k类的置信度与目标模型对图像x分类结果中第k类的置信度，h(z,y_T)表示对向量z中第y_T个元素的softmax归一化结果，exp()表示以e为底的指数函数，z_i表示目标模型的输出向量的第i个位置的值，表示目标模型的输出向量的第y_T个位置的值；

x₁＝x₀+s₁·sign(g₁)

其中，sign()表示符号函数；

步骤5、将新的对抗样本x₁输入卷积神经网络模型，重新计算交叉熵损失函数，具体公式见步骤3中；然后计算当前梯度值除以之前所有梯度值的平均值，得到ρ，且计算中使用了sigmoid函数限制了对抗预算的震荡，该ρ用于更新下一步添加对抗噪声的步长，具体过程为：

x_t＝x_t+s_t+1·sign(g_t+1)

步骤6、将步骤5重复操作T-1次，得到最终的迭代攻击对抗样本x′_i，并将对抗样本输入到目标模型中进行分类，得出分类结果N(x′_i)，并在对抗样本上测试目标模型的分类准确率，计算对抗噪声的幅度，达到对抗攻击的目的。攻击成功率(即攻击效果通过攻击的成功率)以及目标模型准确率下降的计算公式如下：

其中，M表示测试集的图像总数，表示指示函数，N表示目标模型，表示验证集第i张图片的真实标签。目标模型准确率下降衡量了攻击方法对原本被正确分类的图像的攻击效果，而攻击的成功率则衡量了对抗样本对目标模型原始分类结果的改变状况。

如图1、图2包括迭代快速梯度符号法(白色实线)，包含动量的迭代快速梯度符号法(黑色虚线)和本发明使用的适应性调整噪声步长的对抗样本构建方法(黑色实线)；图中每个像素表示一张图像，不同的区域表示目标模型不同的分类结果，图中左侧中心位置表示原图。左上角的图片为原始图像，三种攻击生成的对抗噪声分别由相应的圆圈标识。由于适应性分配了对抗预算，适应性调整噪声步长的对抗样本构建方法相比于其他两种方法在相同的对抗预算下成功实现了错分；可以看出适应性调整噪声步长的对抗样本构建方法在迭代过程的前期为噪声分配较大的步长，快速逼近对抗样例附近，从而为迭代后期节省查询次数，实现对噪声的微调。

如图3所示，是比较不同攻击方法产生的对抗样本，其中对抗预算ε＝1/16总迭代步数T＝10。每行的最左边是原始图像，对比了快速梯度符号法(FGSM)、迭代的快速梯度符号法(I-FGSM)和包含动量的迭代快速梯度符号法(MI-FGSM)，最右边是本发明的适应性调整噪声步长的对抗样本构建方法攻击生成的对抗样本。在添加由适应性调整噪声步长的对抗样本构建方法生成的对抗性噪声之后，Inception-v3模型上的分类结果由上到下从(木鞋，面包车，树蛙)变为(吉普车，救护车，河马)。请注意，在第二行中，面包车上的标志不是红叉，因此将分类结果从“面包车”转换为“救护车”是成功的对抗攻击。

如图4所示，仍然是比较不同攻击方法产生的对抗样本，参数与图3一致。在添加由适应性调整噪声步长的对抗样本构建方法生成的对抗性噪声之后，Inception-v3模型上的分类结果由上到下从(猎狗，灯塔，贝叶多孔菌)变为(臼炮，水瓶，珊瑚礁)。

Claims

1.一种基于模型抽取的步长自适应的对抗攻击方法，其特征在于，该方法包括以下步骤：

使用ImageNet大规模图像分类数据集构成图像集合IMG：

其中，x_i表示一张图像，N_d表示图像集合IMG中的图像总数；

构建图像集合IMG中每个图像对应的图像描述集合GroundTruth：

选择Inception-v3深度神经模型作为目标模型；

经过以下五个步骤完成图像分类器卷积神经网络的训练：加载并归一化ImageNet训练和测试数据集、定义卷积神经网络作为待攻击的目标模型、定义损失函数、利用训练数据来训练网络、利用测试数据来测试网络；

其中，x₀表示原始图像矩阵，y_T表示x₀的正确类别即标签类别，T表示迭代的次数，ε表示总的对抗预算，即允许添加的对抗噪声的幅度上限，J(x,y)表示输入表示原始图像x与标签类别y的交叉熵损失函数，y_k与N_k(x)分别表示正确类别独热编码中第k类的置信度与目标模型对图像x分类结果中第k类的置信度，h(z,y_T)表示对向量z中第y_T个元素的softmax归一化结果，exp()表示以e表示底的指数函数，z_i表示目标模型的输出向量的第i个位置的值，表示目标模型的输出向量的第y_T个位置的值；

步骤4、利用步骤3得到的初始梯度矩阵g₁和初始步长值s₁得到初始对抗噪声矩阵s₁·sign(g₁)，与原图矩阵x₀直接相加，形成新的对抗样本x₁：

x₁＝x₀+s₁·sign(g₁)

其中，sign()表示符号函数；

步骤5、将新的对抗样本x₁输入卷积神经网络模型，重新计算交叉熵损失函数，具体公式见步骤3中；然后计算得到相对于的放大倍率ρ，用于更新下一步添加对抗噪声的步长，具体计算过程为：

x_t＝x_t+s_t+1·sign(g_t+1)