CN114758198A

CN114758198A - 一种基于元学习对抗扰动的黑盒攻击方法及系统

Info

Publication number: CN114758198A
Application number: CN202210291566.9A
Authority: CN
Inventors: 孙健; 付俊傑; 王钢; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-07-15
Anticipated expiration: 2042-03-23
Also published as: CN114758198B

Abstract

本发明公开了一种基于元学习对抗扰动的黑盒攻击方法及系统，将元学习训练数据集D输入至黑盒模型的替代模型，根据替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数，根据损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v^*。利用元对抗扰动v^*进行黑盒攻击，若黑盒模型对图像样本的分类结果为预先设定的目标标签，则攻击完成；若分类结果不是预先设定的目标标签，则对图像样本进行更新，利用更新后的图像样本继续进行黑盒攻击，直至分类结果为预先设定的目标标签。本发明训练的元对抗扰动为原始图像选择了较好的初始位置，大幅提升了对黑盒模型的查询效率及攻击成功率，对提升神经网络黑盒攻击具有非常重要的意义。

Description

一种基于元学习对抗扰动的黑盒攻击方法及系统

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于元学习对抗扰动的黑盒攻击方法及系统。

背景技术

随着深度学习技术的飞速发展，图像识别领域在研究与应用层面连续取得重大突破，深度卷积神经网络对物体的精准识别能力甚至已经超越了人类的表现。越来越多的深度模型投入应用，如人脸识别、自动驾驶、行人监测等。可以说，深度学习技术为计算机视觉和机器学习带来了革命性的进步，深度神经网络也在方方面面影响着人们的日常生活。

然而，深度神经网络在诸多任务中大放异彩的同时，其自身也暴露出了严重的安全隐患。大量研究表明，深度神经网络很容易受到对抗样本的攻击，从而导致其产生错误的预测结果，这在一些对安全性能要求很高的任务中，是非常致命的。执行攻击的对抗样本是指在原始输入样本上通过添加人类难以分辨的微小扰动，而使神经网络产生错误分类的样本。根据攻击者是否了解深度模型的网络结构及参数，对抗攻击可分为白盒攻击与黑盒攻击。Goodfellow等人在文献(Explaining and harnessing AdversarialExamples.Computer Science,2014.)中提出了一种基于梯度的白盒攻击方法，称为快速梯度符号法(FGSM)，该方法通过对判定类别归属程度的损失函数进行梯度下降，得到对抗扰动的调整方向，进而通过一步更新生成对抗样本。之后，在FGSM算法的启发下，大量基于此思想的白盒攻击方法被相继提出。相比于白盒攻击条件，现实生活中大多数场景中的深度模型是不对使用者开放的，因此，研究人员转向研究黑盒条件下的攻击方法。与白盒攻击思想类似，黑盒攻击同样是基于梯度进行的，不同的是，攻击者无法直接获取模型的精确梯度，只能通过零阶优化算法或者替代模型来获得黑盒模型的近似梯度。Pin-Yu Chen等人在文献(ZOO:Zeroth OrderOptimization Based Black-box Attacks to Deep NeuralNetworks without TrainingSubstitute Models.ACM,2017)中提出了一种梯度估计方法，称为零阶优化算法(Zero Order Optimal,ZOO)，该方法通过有限差分的方式获取梯度，并使用ADAM优化器迭代更新生成对抗样本。随后，Chun-Chen Tu等人在文献(Autozoom:Autoencoder-based zeroth order optimization method for attackingblack-boxneural networks.CoRR)采用编码解码方法，降低了输入维度，同时采用RGF算法进行梯度估计，提高了查询效率。

上述列举的黑盒算法中，都需要通过对模型进行大量的查询来获得梯度的估计值，而在很多实际应用中，模型通常会限制查询次数。因此，需要设计一种高效的黑盒攻击算法，通过较少的查询次数就能完成攻击任务。为了解决这一问题，需要设计一种有效的对抗扰动初始值，同时这种初始对抗扰动应具有较强的泛化能力并能够通过简单的训练获得。目前为止，还没有一种方法能够有效的生成高泛化能力且易训练的黑盒对抗扰动初始值，大幅提升黑盒攻击性能。

发明内容

有鉴于此，本发明提供了一种基于元学习对抗扰动的黑盒攻击方法，能够提升对黑盒模型的查询效率及攻击成功率。

本发明采用的具体技术方案如下：

一种基于元学习对抗扰动的黑盒攻击方法，包括：

将元学习训练数据集D输入至黑盒模型的替代模型，根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数，根据所述损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v^*；

将所述元对抗扰动v^*与待进行目标攻击的图像样本叠加并输入至黑盒模型进行黑盒攻击，若黑盒模型对所述图像样本的分类结果为预先设定的目标标签，则攻击完成；若黑盒模型对所述图像样本的分类结果不是预先设定的目标标签，则对所述图像样本进行更新，利用更新后的图像样本继续进行黑盒攻击，直至黑盒模型对所述图像样本的分类结果为预先设定的目标标签。

进一步地，所述初始化扰动v进行梯度下降更新获得元对抗扰动v^*为：

a1、从所述元学习训练数据集D中选取数据集B，将初始化扰动v与数据集B叠加并输入至替代模型，根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数，根据所述损失函数对所述初始化扰动v进行梯度下降更新，获得适应扰动v'；

a2、从所述元学习训练数据集D中选取数据集B'，将适应扰动v'和数据集B'叠加并再次输入至替代模型，根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数，根据所述损失函数对所述适应扰动v'进行梯度下降更新，获得初始元对抗扰动v₁；

a3、利用所述初始元对抗扰动v₁替换所述初始化扰动v，重复a1和a2直至迭代次数等于预设的训练代数epoch时，结束训练，获得元对抗扰动v^*。

进一步地，对所述初始元对抗扰动v₁进行投影，利用投影之后获得的投影元对抗扰动v₂替换所述初始化扰动v。

进一步地，所述对图像样本进行更新为：

b1、采用零阶优化算法RGF算法对黑盒模型进行梯度估计，获得黑盒模型的梯度估计值

b2、采用符号函数对所述梯度估计值

进行处理，获得符号函数处理后的梯度估计值

b3、根据所述梯度估计值

设置学习率lr，同时以当前图像样本与前一次图像样本之差作为动量项，对图像样本进行更新，更新后的图像样本为：

其中，x_i表示当前的图像样本，x_i+1表示更新后的图像样本，x_i－1表示前一次图像样本，η表示动量项系数。

进一步地，在对所述图像样本进行更新之前，对当前的图像样本x_i进行投影，利用投影后当前的图像样本对所述图像样本进行更新。

一种基于元学习对抗扰动的黑盒攻击系统，包括扰动训练模块、攻击模块和迭代更新模块；

所述扰动训练模块用于将元学习训练数据集D输入至黑盒模型的替代模型，根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数，根据所述损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v^*；

所述攻击模块用于将所述元对抗扰动v^*与待进行目标攻击的图像样本叠加并输入至黑盒模型进行黑盒攻击，若黑盒模型对所述图像样本的分类结果为预先设定的目标标签，则攻击完成；若黑盒模型对所述图像样本的分类结果不是预先设定的目标标签，则进入迭代更新模块；

所述迭代更新模块用于对图像样本进行更新，并将更新之后的图像样本发送至所述攻击模块继续进行黑盒攻击，直至黑盒模型对所述图像样本的分类结果为预先设定的目标标签。

进一步地，在所述扰动训练模块中，所述初始化扰动v进行梯度下降更新获得元对抗扰动v^*为：

进一步地，在所述迭代更新模块中，所述对图像样本进行更新为：

b2、采用快速梯度符号法FGSM对所述梯度估计值

进行符号函数处理，获得符号函数处理后的梯度估计值

b3、根据所述梯度估计值

有益效果：

(1)一种基于元学习对抗扰动的黑盒攻击方法，利用训练的元对抗扰动进行黑盒攻击，为原始的图像样本选择了较好的初始位置，在黑盒条件下，大幅提升了对黑盒模型的查询效率及攻击成功率。同时，生成的元对抗扰动能够在不同的数据集间进行迁移，是一种高泛化能力且易训练的初始对抗扰动，对提升神经网络黑盒攻击具有非常重要的意义。

(2)在元对抗扰动的训练过程中，只需要使用少量训练数据就可以获得高泛化性能的元对抗扰动，很好地解决了于真实场景中数据难以搜集的困难，同时能够提高训练效率。元对抗扰动的训练过程，花费较少的时间及数据成本，就可以获得高质量的初始对抗扰动。

(3)对初始元对抗扰动进行投影，利用投影之后获得的投影元对抗扰动替换原始扰动，可以保证元对抗扰动被限制在允许的范数值内，从而保证叠加对抗扰动后的图像样本不会产生较大的失真。

(4)在黑盒攻击的样本更新过程中，引入动量项可以进一步提高黑盒攻击的效率和准确率，加速攻击并在一定程度上减少对黑盒模型的查询次数。

(5)对当前的图像样本进行投影，利用投影后当前的图像样本对图像样本进行更新，可以防止更新后的图像样本与原始图像样本之间的失真尺度过大，保证了对抗样本图像不易被检测。

(6)一种基于元学习对抗扰动的黑盒攻击方法，为黑盒攻击开辟了新的研究思路，通过元学习的方法，基于对抗样本良好的可迁移性的特性，训练通用对抗扰动，为黑盒攻击选取了较好的初始扰动值。在黑盒攻击环境中，不同的黑盒攻击算法都可以使用本方法训练的元对抗扰动作为初始条件，从而加速攻击。由于本方法训练的元对抗扰动同时具有良好的跨数据集迁移性，同样可以在不同数据集中使用该扰动，以达到加速攻击的目的。

附图说明

图1为本发明的一种基于元学习对抗扰动的黑盒攻击方法的元对抗扰动训练流程图。

图2为本发明的一种基于元学习对抗扰动的黑盒攻击方法的黑盒攻击方法流程图。

图3为本发明的一种基于元学习对抗扰动的黑盒攻击方法的实际攻击运行效果图。

具体实施方式

一种基于元学习对抗扰动的黑盒攻击方法及系统，将元学习训练数据集D输入至黑盒模型的替代模型，根据替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数，根据损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v^*。利用元对抗扰动v^*进行黑盒攻击，若黑盒模型的输出值与攻击目标的目标标签值相等，则攻击完成；若不相等，则对当前待进行目标攻击的图像样本进行更新，利用更新后的图像样本和元对抗扰动v^*继续进行黑盒攻击，直至黑盒模型的输出值与攻击目标的目标标签值相等。本发明训练的元对抗扰动为原始图像选择了较好的初始位置，大幅提升了对黑盒模型的查询效率及攻击成功率，对提升神经网络黑盒攻击具有非常重要的意义。

下面结合附图并举实施例，对本发明进行详细描述。

本发明中的黑盒攻击，主要针对黑盒条件下的目标攻击进行，目标攻击要求生成的对抗样本被分类器分类到指定的类别。而对于相对简单的非目标攻击，本发明同样适用，只需在攻击过程中做细微调整即可，因此，下面主要以目标攻击为例。

如图1所示，首先是利用元学习技术生成元对抗扰动，将元学习训练数据集D输入至黑盒模型的替代模型，根据所述替代模型的输出结果和预先设定的目标标签计算替代模型的损失函数，根据所述损失函数对初始化扰动v进行梯度下降更新获得元对抗扰动v^*。其中，初始化扰动v进行梯度下降更新获得元对抗扰动v^*具体包括如下步骤：

a1、从元学习训练数据集D中选取数据集B，根据初始化扰动v和数据集B获得适应扰动v'。

先准备元学习训练数据集D及替代模型M₁,M₂,...,M_n，随机初始化扰动v∈R^d，设定目标攻击的目标标签值t，并设定训练代数epoch；其中R表示实数域，d为输入的图像样本的维度。

从数据集D中选取小批次数据集B，将扰动v叠加到数据B中，此时的数据集变为B+v，将其分别输入每一个替代模型M_i(i＝1,...,n)中，得到每一个模型的输出结果，计算每个替代模型对应的损失函数值L(M_i,B+v,t)，这里的损失函数可以选择交叉熵损失函数、边缘损失函数等，本发明中采用交叉熵损失函数。

由于替代模型已知，均为白盒模型，因此可以直接采用梯度反向传播获得损失函数L对扰动v的导数

并采用学习率α对扰动v进行梯度下降更新，得到适应扰动v'；

学习率α是一个超参数，在训练时根据需要进行调整。

a2、从元学习训练数据集D中选取数据集B'，根据适应扰动v'和数据集B'获得初始元对抗扰动v₁。

将适应扰动v'叠加到数据B'中，此时的数据集变为B'+v'，同样将其分别输入每一个替代模型M_i(i＝1,...,n)中，计算每个替代模型对应的损失函数值L(M_i,B'+v',t)，通过梯度反向传播获取损失函数L对适应扰动v'的导数

并采用学习率β对初始扰动v进行梯度下降更新，得到元对抗扰动v；

这里需要注意的是，先获得的是适应扰动v'，而本步骤中更新的参数是初始扰动v，这也是元学习技术的主要特点之一。后续的迭代训练中，不再重新设置初始扰动，而使用上一次更新结果作为当前初始值。

a3、利用初始元对抗扰动v₁替换原始扰动v，重复a1和a2直至迭代次数等于预设的训练代数epoch时，结束训练，获得元对抗扰动v^*。

在每次迭代中更新对抗扰动后，对其进行投影操作，其表达式如下：

v₂＝Π_ε(v^*)

其中，Π表示投影操作函数，ε表示对抗扰动允许的范数值，v₂表示投影元对抗扰动，v^*表示迭代更新后的元对抗扰动，每次的迭代更新后的元对抗扰动和最终的元对抗扰动均用v^*表示。投影操作保证对抗扰动被限制在允许的范数值内，从而保证叠加对抗扰动后的图像不会产生较大的失真。

当对初始元对抗扰动v₁进行投影后，则利用投影之后获得的投影元对抗扰动v₂替换原始扰动v。

在迭代次数没有超过训练代数epoch时，进行迭代，可以使得最终得到具有较强适应能力及攻击性能的通用元对抗扰动，将其保存，以便执行黑盒攻击时随时调用。

上述步骤已经完成了元对抗扰动的训练，此时的元对抗扰动已经具有很强的对抗攻击能力。在执行黑盒攻击过程中，首先对保存好的元对抗扰动v^*进行加载，然后导入原始图像x，将训练好的元对抗扰动v^*叠加在原始图像上，此时图像变成x'＝x+v^*已经具有较强的对抗能力，部分图像样本此时已经可以成功进行目标攻击。将叠加元对抗扰动的图像输入黑盒模型f_θ，得到黑盒模型的输出f_θ(x,y)。若此时黑盒模型输出f_θ(x,y)＝t，则证明当前图像已经成功实现目标攻击任务，则无需后续步骤，攻击结束；否则，对当前待进行目标攻击的图像样本进行更新，利用更新后的图像样本和所述元对抗扰动v^*继续进行黑盒攻击，直至黑盒模型的输出值与攻击目标的目标标签值相等或对黑盒模型查询次数超过预先设定值时，迭代结束。

对当前待进行目标攻击的图像样本进行更新为：

RGF算法的主要操作步骤如下，在d维(d为输入图像维度)单位球面上随机选取q个单位向量，选取平滑系数σ，即可获取黑盒模型梯度的估计值。对黑盒模型进行一次零阶优化梯度估计，需要对模型进行q+1次查询，因此执行越多次数的零阶优化估计梯度，就需要对黑盒模型进行越多次数的查询，查询效率也就越低。通过上述公式，可估计出模型对于输入样本的梯度值，该梯度值将被用于后续攻击。

b2、采用快速梯度符号法FGSM对梯度估计值

进行符号函数处理，获得符号函数处理后的梯度估计值

通过符号函数对估计梯度值

进行处理，符号函数公式如下：

通过上式可以看出，梯度值经过符号函数处理后，大于0的部分被统一整合为1，小于0的部分被统一整合为-1，等于0的部分则仍为0。之所以采用这样的操作，一方面的为了加快收敛速度，另一方面则是因为使用零阶优化算法估计的梯度并不是真实的梯度，其梯度值仍不准确，因此，采用符号函数对其进行整合，可以在一定程度上降低梯度估计的不确定性。

b3、根据梯度估计值

在对图像样本进行更新之前，对当前的图像样本x_i进行投影，利用投影后当前的图像样本对图像样本进行更新。

投影可选择L₂范数或L_∞范数等投影方式，保证扰动在预先设定的范围内，从而控制对抗样本与原始图像之间的失真尺度。当黑盒模型对图像x的分类结果成为目标标签t时，攻击成功；当攻击成功或对黑盒模型查询次数超过预先设定值时，迭代结束。

如图3所示，CIFAR10数据集上的图像尺寸为32×32×3，图3(a)为原始输入样本，图3(b)为本发明训练的元对抗扰动，图3(c)为原始图像叠加元对抗扰动后生成的对抗样本，该样本可被深度模型分类为指定目标标签类别中，可成功执行黑盒攻击任务。

根据上述一种基于元学习对抗扰动的黑盒攻击方法，本发明还提供了一种基于元学习对抗扰动的黑盒攻击系统，包括扰动训练模块、攻击模块和迭代更新模块。

扰动训练模块用于根据元学习训练数据集D及n个替代模型M₁,M₂,...,M_n进行训练获得元对抗扰动v^*；其中，n为正整数。

攻击模块用于利用元对抗扰动v^*进行黑盒攻击，并黑盒模型的输出值与攻击目标的目标标签值相等，若相等则攻击完成，若不相等则进入迭代更新模块。

迭代更新模块用于对当前待进行目标攻击的图像样本进行更新，并将更新之后的图像样本发送至攻击模块继续进行黑盒攻击，直至黑盒模型的输出值与攻击目标的目标标签值相等。

在扰动训练模块中，元对抗扰动v^*的训练过程为：

a1、从元学习训练数据集D中选取数据集B，根据原始扰动v和数据集B获得适应扰动v'；

a2、从元学习训练数据集D中选取数据集B'，根据适应扰动v'和数据集B'获得初始元对抗扰动v₁；

a3、利用初始元对抗扰动v₁替换原始扰动v，重复a1和a1直至迭代次数等于预设的训练代数epoch时，结束训练，获得元对抗扰动v^*。

对初始元对抗扰动v₁进行投影，利用投影之后获得的投影元对抗扰动v₂替换原始扰动v。

在迭代更新模块中，对当前待进行目标攻击的图像样本进行更新为：

b2、采用快速梯度符号法FGSM对梯度估计值

进行符号函数处理，获得符号函数处理后的梯度估计值

b3、根据梯度估计值

本发明提供了一种元学习对抗扰动的黑盒攻击方法及系统，通过元学习技术，在替代模型中使用少量数据训练元对抗扰动，将训练好的元对抗扰动叠加在原始样本上，之后在黑盒模型中使用RGF算法对其进行零阶优化梯度估计，最后使用FGSM算法对输入样本进行迭代更新并引入动量项加快收敛速度，实现高效黑盒攻击。

以上的具体实施例仅描述了本发明的设计原理，该描述中的部件形状，名称可以不同，不受限制。所以，本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换；而这些修改和替换未脱离本发明创造宗旨和技术方案，均应属于本发明的保护范围。