CN111160400A

CN111160400A - 一种基于修正边界攻击的对抗攻击方法

Info

Publication number: CN111160400A
Application number: CN201911245233.7A
Authority: CN
Inventors: 王思宇; 石育澄; 韩亚洪; 刘江
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-15

Abstract

本发明公开了一种基于修正边界攻击的对抗攻击方法，步骤1，收集图像及标签信息，形成<图像，类别>对，构建图像数据集；步骤2，取原始图像x_i，进而得到由对抗样本所构成的集合x^*；步骤3，构造噪声集合z^*，以及构造并初始化扰动空间参数集合W；步骤4，通过计算扰动空间参数W的均值，构造扰动空间，在扰动空间中对扰动进行随机取样，生成噪声的切向方向的向量集合η；步骤5，修正边界攻击，构造新的对抗样本x′；步骤6，将新的对抗样本x′输入到目标模型，对扰动空间参数W进行调整；步骤7，重复步骤4、步骤5、步骤6共B‑1次，得到最终对抗样本x′，并将对抗样本输入到目标模型中进行分类，得出分类结果F(x′)。本发明达到了构建攻击能力更强的对抗样本的目的。

Description

一种基于修正边界攻击的对抗攻击方法

技术领域

本发明涉及机器学习安全技术领域，尤其涉及一种面向深度图像识别系统的黑盒对抗决策攻击的方法。

背景技术

基于决策的攻击是对抗攻击方法中重要的一个类别。不同于基于迭代或优化的攻击方法，基于决策的攻击不需要耗费大量的计算资源对目标模型重复求导，而是通过在原始图像的输入空间内随机漫步，并对目标模型进行一定次数的查询以实现非黑盒攻击以及对抗噪声的压缩，能够以更高的效率和更少的限制生成噪声幅度较小的对抗样本。然而，现有的基于决策的攻击，例如Boundary Attack，Evolutionary Attack等并不使用对目标模型的历史查询建模目标模型对图像各像素的噪声的敏感度。基于决策的攻击本质上是在输入空间中原始图像的邻域内进行采样，并在保证错分的前提下寻找改变幅度尽可能小的噪声幅度。事实上一张图像中不同的像素点对于错分的贡献程度并不相同，不同模型对于图像的敏感区域也有所差异，这些信息都可以通过对目标模型的历史查询来获得，可以认为历史查询的结果是对像素点噪声敏感度的一个无偏近似。

另一方面，决策攻击中失败的采样(也就是落在正确类别的采样)事实上包含了决策边界的位置信息。尽管失败的采样无法直接压缩噪声幅度，但刻画了更高概率穿越决策边界的方向。由于对于攻击方来说希望尽可能多的采样落在相对于正确类别而言决策边界的另一侧，失败采样的信息可以使新的采样尽量避开失败概率较高的区域。但当前基于决策的攻击方法没有利用到这一包含目标模型决策边界的关键信息。

发明内容

为解决以上技术问题，本发明提出一种基于修正边界攻击的对抗攻击方法，通过分析一张图像中不同的像素点对于错分的贡献程度，对贡献较大的像素点进行攻击，同时结合成功和失败两方面的采样，以达到构建攻击能力更强的对抗样本的目的。

本发明的基于修正边界攻击的对抗攻击方法，该方法包括以下步骤：

步骤1，收集图像及标签信息，形成<图像，类别>对，构建图像数据集；

步骤2，取原始图像x_i，对x_i添加随机高斯噪声得到

使得目标分类器(DNN)输出分类结果F(x_i ^*)≠y_i，进而得到由对抗样本所构成的集合x^*；

步骤3，构造噪声集合z^*，表达式如下：

构造并初始化扰动空间参数集合W，表达式如下：

；

步骤4，通过计算扰动空间参数W的均值，构造扰动空间，在扰动空间中对扰动进行随机取样，得到的噪声的切向方向向量集合η，表达式如下：

；

步骤5，依据以下公式修正边界攻击：

其中，

表示z^*中绝对值最大的像素点，r表示新的采样包含的像素点数量相对于当前噪声的像素点数量的比例，即像素保留率；

修正边界攻击操作是依据r的比例挑选出当前噪声中绝对值最大的像素点，并构成一个掩模T，过滤出不敏感的图像区域；T在有效压缩采样空间的同时构建了一个对图像噪声区域的筛选机制。

由此，构造出新的对抗样本x′：

其中，δ为加入噪声的切向步长，ε为加入噪声的径向步长，都为本算法的超参数；

步骤6，首先将新的对抗样本x′输入到目标模型，记为F(·)，然后使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击，根据目标模型返回结果对x^*和对扰动空间参数W进行调整：

如果F(x′)≠y，即模型对于对抗样本x′的输出结果与其真实类别标签不一致，表示采样成功，也就意味着攻击成功，此时对噪声进行进一步压缩，用x′替换x^*并将扰动空间参数集合W置为空集

x^*＝x′,

如果F(x′)＝y，表示采样失败，此时将失败采样进行记录并反馈给x^*，即将η更新至扰动空间参数集合W：

W＝W∪η；

步骤7，重复步骤4、步骤5、步骤6共B-1次，B为对于每张图像的最大查询次数。得到最终对抗样本x′，并将对抗样本输入到目标模型中进行分类，得出分类结果F(x′)；

攻击效果通过对抗样本噪声压缩幅度θ来衡量：

其中，X表示测试图像的集合，x′表示使用决策攻击生成的对抗样本，x*表示初始对抗样本，|X|表示X中元素总数，θ∈(0,1)用于衡量决策攻击的噪声压缩能力。

与现有技术相比，本发明的有益效果如下：

相比较其他边界攻击的对抗攻击方法，本发明的一种基于修正边界攻击的对抗攻击方法，在每一次攻击时，仅调整当前噪声幅度已经较大的像素，并同时结合成功和失败两方面的采样信息指导新的采样，修正边界攻击在不同的目标模型上使用相同的查询次数实现了最高的噪声压缩幅度。

附图说明

图1为本发明的一种基于修正边界攻击的对抗攻击方法整体流程图；

图2为不同攻击方法产生的对抗样本的不同效果对比图；

图3为Tiny-Imagenet上θ随着B和r变化的改变对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

如图1所示，为本发明的一种基于修正边界攻击的对抗攻击方法整体流程图。

步骤1，将收集的图像及标签信息形成<图像，类别>对，所有图像总共有n个类别，这里的类别标记为0～(n-1)；

使用大规模图像分类数据集(ImageNet)构成图像集合(Img)：

其中，x_i表示第i张图像的RGB像素值，其维度为W×H×C，分别表示图像的宽、高和通道数量(这里为3)，N_d表示图像集合(Img)中的图像总数；

构建图像集合(IMG)中每个图像所对应的图像描述集合(Label)：

其中，y_i表示第i个图像所对应的类别编号；

由图像集合(Img)以及每个图像对应的图像描述集合(Label)组成最终的数据集；

步骤2，取原始图像x_i，对x_i添加随机高斯噪声得到

使得目标分类器(DNN)输出分类结果F(x_i ^*)≠y_i，进而得到由对抗样本所构成的集合x^*：

其中，

为x_i经过添加随即高斯噪声所得到的对抗样本；

步骤3，构造并初始化攻击参数：

构造噪声z_i ^*：

噪声集合z^*表达式如下：

构造并初始化扰动空间参数集合W_i为空集

扰动空间参数集合W表达式如下：

步骤4，通过计算扰动空间参数W的均值，构造扰动空间，在扰动空间中对扰动进行随机取样，生成η_i，表示采样得到的噪声的切向方向向量：

噪声的切向方向向量集合η表达式如下：

当

即集合W为空集时，

步骤5，依据以下公式修正边界攻击，并且仅调整当前噪声幅度已经较大的像素，如下公式所示，即仅更改前r大的像素值：

其中，

表示z^*中绝对值最大的像素点，r表示新的采样包含的像素点数量相对于当前噪声的像素点数量的比例，即像素保留率。

修正边界攻击操作是依据r的比例挑选出当前噪声中绝对值最大的像素点，并构成一个掩模T，过滤出不敏感的图像区域。T在有效压缩采样空间的同时构建了一个对图像噪声区域的筛选机制。

由此，构造出新的对抗样本x′：

其中，δ为加入噪声的切向步长，ε为加入噪声的径向步长，都为本算法的超参数。

步骤6，首先将新的对抗样本x′输入到目标模型，这里的目标模型指的是深度神经网络模型Inception-v3，包含卷积操作、池化操作等，记为F(·)。然后使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击，根据目标模型返回结果对x^*和对扰动空间参数W进行调整：

如果F(x′)≠y，即模型对于对抗样本x′的输出结果与其真实类别标签不一致，表示采样成功，也就意味着攻击成功，此时对噪声进行进一步压缩，用x′替换x*并将扰动空间参数集合W置为空集

x*＝x′,

如果F(x′)＝y，表示采样失败，此时将失败采样进行记录并反馈给x*，即将η更新至扰动空间参数集合W：

W＝W∪η

步骤7，重复步骤4、步骤5、步骤6共B-1次，B为对于每张图像的最大查询次数。得到最终对抗样本x′，并将对抗样本输入到目标模型中进行分类，得出分类结果F(x′)。

攻击效果通过对抗样本噪声压缩幅度θ来衡量：

其中，X表示测试图像的集合，x′表示使用决策攻击生成的对抗样本，x*表示初始对抗样本，|X|表示X中元素总数。θ∈(0,1)用于衡量决策攻击的噪声压缩能力。较高的θ表明攻击方法能够在相同的查询次数下将对抗噪声压缩至一个较低的水平。

如图2所示，为不同攻击方法产生的对抗样本的不同效果对比图。每行的最左边是原始图像，对比了C&W攻击(Whey)、边界攻击(Boundary)、贝叶斯边界攻击(BiasedBoundary)和优化攻击(Evolutionary)，最右边是本发明的修正边界攻击的对抗样本构建方法攻击生成的对抗样本。在添加由修正边界攻击的对抗样本构建方法生成的对抗性噪声之后，Inception-v3模型上的分类结果由上到下从(水鸟，金鱼，锤头鲨，红海龟，绿曼巴)变为(红脚鹬，海星，蜥蜴，河马，鳗鱼)。由于修正边界攻击利用当前噪声修正采样的正态分布，可以看出噪声幅度较高的区域的幅度得到了显著压缩。

如图3所示，为在Tiny-Imagenet上压缩幅度θ随着B和r变化的改变。其中图3(a)(b)(c)表示在不同的攻击算法之后使用本发明提出算法的压缩幅度θ随着查询次数B变化的改变，更多的查询次数B可以给决策攻击提供更多的压缩对抗噪声的机会，可以看出修正边界攻击在所有的查询次数下噪声压缩幅度都超过了其他方法。图3(d)表示压缩幅度θ随着像素保留率r变化的改变，像素保留率和采样空间的维度压缩相关。这一参数存在探索和利用之间的平衡。r越小，则采样过程更集中于噪声幅度已经较大的区域。然而，如果r过小则会导致仅有少量噪声幅度最大的像素点被保留，因此这一参数的选择需要对搜索空间大小及噪声压缩效率进行平衡。

通过实验表明，相对于边界攻击而言，修正边界攻击的θ在某些情况下能够达到边界攻击的2-3倍，这验证了根据当前噪声调整采样分布，以及利用历史失败查询的有效性。

Claims

1.一种基于修正边界攻击的对抗攻击方法，其特征在于，该方法包括以下步骤：

步骤2，取原始图像x_i，对x_i添加随机高斯噪声得到x_i ^*，使得目标分类器输出分类结果F(x_i ^*)≠y_i，进而得到由对抗样本所构成的集合x^*；

步骤3，构造噪声集合z^*，表达式如下：

；

构造并初始化扰动空间参数集合W，表达式如下：

；

；

步骤5，依据以下公式修正边界攻击：

其中，

修正边界攻击操作是依据r的比例挑选出当前噪声中绝对值最大的像素点，并构成一个掩模T，过滤出不敏感的图像区域；T在有效压缩采样空间的同时构建了一个对图像噪声区域的筛选机制；

由此，构造出新的对抗样本x′：

步骤6，首先将新的对抗样本x′输入到目标模型，记为F(·),然后使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击，根据目标模型返回结果对x^*和对扰动空间参数W进行调整：

如果F(x′)≠y，即目标模型对于对抗样本x′的输出结果与其真实类别标签不一致，表示采样成功，也就意味着攻击成功，此时对噪声进行进一步压缩，用x′替换x^*并将扰动空间参数集合W置为空集

x^*＝x′,

W＝W∪η；

步骤7，重复步骤4、步骤5、步骤6共B-1次，B为对于每张图像的最大查询次数，得到最终对抗样本x′，并将对抗样本输入到目标模型中进行分类，得出分类结果F(x′)；

攻击效果通过对抗样本噪声压缩幅度θ来衡量：

其中，X表示测试图像的集合，x′表示使用决策攻击生成的对抗样本，x^*表示初始对抗样本，|X|表示X中元素总数，θ∈(0,1)用于衡量决策攻击的噪声压缩能力。