CN111680292B

CN111680292B - 一种基于高隐蔽性通用扰动的对抗样本生成方法

Info

Publication number: CN111680292B
Application number: CN202010524788.1A
Authority: CN
Inventors: 郭敏; 曾颖明; 赵晓燕; 韩磊; 方永强
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2023-05-16
Anticipated expiration: 2040-06-10
Also published as: CN111680292A

Abstract

本发明涉及一种基于高隐蔽性通用扰动的对抗样本生成方法，涉及人工智能安全技术领域。本发明首先将攻击目标函数优化问题，由最大化单一图像的损失，调整为最大化某特定类别图像的期望损失，以实现扰动的通用性；其次，为提高对抗样本的不易察觉性，本发明设置多目标优化函数，使特定类别的图像被错误识别的同时，保证其他类别的图像不受干扰影响，仍能被正确决策；最后，在隐蔽性方面，经前期实验发现，传统的梯度方法能够较快地产生具有对抗效果的扰动，而低频噪声往往更隐蔽更稳定，因此，本发明在使用传统梯度方法生成初步的对抗扰动后，进一步采用低通滤波器来消除通用扰动中的高频尖锐噪音，在实现通用攻击的同时保证对抗样本的隐蔽性。

Description

一种基于高隐蔽性通用扰动的对抗样本生成方法

技术领域

本发明涉及人工智能安全技术领域，具体涉及一种基于高隐蔽性通用扰动的对抗样本生成方法。

背景技术

近年来，对抗攻击成为人工智能领域一个新的研究热点，数据污染、逃避、模仿等攻击方法不断涌现。目前国内外研究机构针对人工智能算法的攻击技术研究，主要以对抗样本攻击为主。对抗样本是通过向原始样本中添加特定的干扰，形成的具有对抗性攻击效果的样本。即，使智能算法对样本识别错误。

当前，各种对抗样本生成算法被陆续提出，典型的对抗样本生成算法包括快速梯度攻击、雅克比映射攻击、深度欺骗攻击等等。但现有的对抗样本生成方法，大都是针对各样本添加针对性的扰动。在真实应用场景中，受限于数据获取能力和实时性需求，往往难以对每个样本逐一添加针对性的干扰。最新研究表明，通用性扰动可以有效解决此问题，通过添加一种干扰，可对一类样本产生攻击效果。但现有通用扰动技术在实现通用性的同时，以牺牲对抗样本的隐蔽性为代价，比如在图像数据中，通用扰动多为明显的斑点或者色块。同时，针对某一类样本的通用性干扰，往往会对其他类型样本也产生对抗效果，易在还未达到攻击目标时被提前发现。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种基于高隐蔽性通用扰动的对抗样本生成方法，使对抗扰动具备通用性的同时，还能够兼备隐蔽性和不易察觉性。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于高隐蔽性通用扰动的对抗样本生成方法，包括以下步骤：

步骤1、最大化特定类别的期望损失，得到通用损失函数，以实现基本的通用性扰动生成；

步骤2、基于步骤1实现高隐蔽性通用扰动生成：首先在所述通用损失函数中加入对目标攻击类之外样本的修正，构建无目标、有目标通用性对抗样本生成的损失函数；其次采用梯度下降的方式对所述损失函数进行优化训练，得到初步的通用性扰动；最后采用低通滤波对所述初步的通用性扰动进行过滤，去除噪音。

优选地，步骤1中：设定x∈X为输入样本，y∈Y为样本标签，(X，Y)为数据所属集合，C(·)为分类器，C(x)表示对样本x的分类结果；

则无目标对抗样本生成是指给定一个合法的输入样本x，C(x)＝a，寻找一个对抗样本x′，使得C(x)≠a；有目标对抗样本生成是指给定一个合法的输入样本x及一个分类目标t，t∈Y，C(x)≠t，寻找一个对抗样本x′，使得C(x)＝t；

在对抗样本生成过程中，确定扰动函数ρ：X→X，使得：

x′＝ρ(x)＝x+δ (1)

其中，δ为添加的对抗扰动，对扰动大小加以限制：||δ||_p≤ε，||·||_p为L_p距离，ε为预设常值；

设定特定类别为d∈Y，该类别数据集为D((x，y)|C(x)＝d，y＝d)，

将无目标通用扰动的损失函数设定为：

maxE_(x，y)～D[L(C(ρ(x))，y)]s.t.||δ||_p≤ε (4)

将有目标通用扰动的损失函数设定为：

maxE_(x，y)～D[L(C(ρ(x))，y)-L(C(ρ(x))，y_targ)]s.t.||δ||_p≤ε (5)

其中，L(·)为欧式距离，E_(x，y)～D[·]表示损失函数在数据集D上的期望，所述无目标通用扰动的损失函数、有目标通用扰动的损失函数组成所述通用损失函数。

优选地，步骤2中，构建无目标、有目标通用性对抗样本生成的损失函数时，先将通用扰动的无目标损失函数Loss，有目标攻击损失函数Loss_targ分别定义如下：

Loss＝max[(E_(x，y)～D[L(C(ρ(x))，y)]-E_(x，y)～F[L(C(ρ(x))，y)])]s.t.||δ||_p≤ε (6)

Loss_targ＝max[(E_(x，y)～D[L(C(ρ(x))，y)-L(C(ρ(x))，y_targ)]-E_(x，y)～F[L(C(ρ(x))，y)])]s.t.||δ||_p≤ε (7)

其中，F＝(X，Y)-D，是D的补集。

优选地，步骤2中，构建无目标、有目标通用性对抗样本生成的损失函数时，再引入SSIM指标来衡量对抗样本与原干净样本之间的相似度，通过限制相似度对对抗样本进行进一步优化，将公式(6)、(7)的损失函数分别调整为：

Loss＝max[(E_(x，y)～D[L(C(ρ(x))，y)]-E_(x，y)～F[L(C(ρ(x))，y)])]s.t.||δ||_p≤ε₁，SSIM(x，ρ(x))≤ε₂， (8)

Loss_targ＝max[(E_(x，y)～D[L(C(ρ(x))，y)-L(C(ρ(x))，y_targ)]-E_(x，y)～F[L(C(ρ(x))，y)])]s.t.||δ||_p≤ε₁，SSIM(x，ρ(x))≤ε₂ (9)

其中，ε₁、ε₂均为预设的常数，SSIM表示结构相似性。

优选地，步骤2中，采用梯度下降的方式对所述损失函数进行优化训练，得到初步的通用性扰动具体为：

首先采用迭代梯度的方法来优化损失函数得到通用扰动ρ(x)，通过对每轮迭代数据集中的数据点进行不断迭代，逐步建立通用扰动，在每次迭代中，如果分类器可以将目标识别成攻击方指定的攻击目标，则跳过当前点，对于添加通用扰动后仍无法达到攻击方设置的目标，包括将特定目标识别为攻击目标和正常目标错误分类的数据点，计算出其Loss、Loss_targ损失最大化的方向梯度，与预先设定的学习率α相乘，将成绩加至当前的通用扰动中；

在每轮迭代后，都对本轮迭代使用的数据集识别准确率进行判断，其中无目标攻击的准确率为将某特定类别分错类的概率以及将其他类别正确识别的概率加权之和；有目标攻击的准确率为将某一特定类别数据识别为某另一特定类别的概率，与将其他类别数据正确识别的概率加权之和，如果准确率达到预设的阈值则停止迭代，随机初始化下一个数据子集，进行下一批次的迭代，最终输出初步的通用性扰动，为一个矩阵，称为通用扰动矩阵。

优选地，步骤2中，采用低通滤波对所述初步的通用性扰动进行过滤，去除噪音时，是通过卷积来消除所述初步的通用性扰动中的高频噪声。

优选地，通过卷积来消除所述初步的通用性扰动中的高频噪声是用一个矩阵完整扫过通用扰动矩阵得到新的通用扰动。

优选地，通过卷积来消除所述初步的通用性扰动中的高频噪声具体为：卷积将核的锚点放在上一步骤中生成的通用扰动矩阵特定位置元素上，同时，核内的其他值与该元素邻域的各元素重合；将核内各值与相应元素值相乘，并将乘积相加；将所得结果放到与锚点对应的元素上；对通用扰动矩阵所有元素值重复上述过程，最终，实现用邻域内元素的加权平均灰度值去替代模板中心元素点的值。

本发明还提供了一种所述的方法在对抗攻击中的应用。

本发明又提供了一种所述的方法在人工智能安全领域中的应用。

(三)有益效果

本发明首先将攻击目标函数优化问题，由最大化单一图像的损失，调整为最大化某特定类别图像的期望损失，以实现扰动的通用性；其次，为提高对抗样本的不易察觉性，本发明设置多目标优化函数，使特定类别的图像被错误识别的同时，保证其他类别的图像不受干扰影响，仍能被正确决策；最后，在隐蔽性方面，经前期实验发现，传统的梯度方法能够较快地产生具有对抗效果的扰动，而低频噪声往往更隐蔽更稳定，因此，本发明在使用传统梯度方法生成初步的对抗扰动后，进一步采用低通滤波器来消除通用扰动中的高频尖锐噪音，在实现通用攻击的同时保证对抗样本的隐蔽性。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合实施例，对本发明的具体实施方式作进一步详细描述。

本发明提出了一种基于高隐蔽性通用扰动的对抗样本生成方法，使对抗扰动具备通用性的同时，还能够兼备隐蔽性和不易察觉性。该方法具体包括以下步骤：

步骤1.基本的通用性扰动生成

传统的对抗样本生成方法按照攻击目标可以分为有目标对抗样本生成和无目标对抗样本生成。设定x∈X为输入样本，y∈Y为样本标签，(X，Y)为数据所属集合，C(·)为分类器，C(x)表示对样本x的分类结果；

则无目标对抗样本生成是指给定一个合法的输入样本x，C(x)＝a，寻找一个对抗样本x′，使得C(x)≠a；有目标对抗样本生成是指给定一个合法的输入样本x及一个分类目标t(t∈Y，C(x)≠t)，寻找一个对抗样本x′，使得C(x)＝t；

在对抗样本生成过程中，需要确定扰动函数ρ：X→X，使得：

x′＝ρ(x)＝x+δ (1)

其中，δ为添加的对抗扰动，为保证对抗样本的隐蔽性，对扰动大小加以限制：||δ||_p≤ε，||·||_p为L_p距离，ε为人为设定的常值；

传统的无目标对抗样本生成过程就是，对于给定的输入样本对(x，y)，找到一个满足噪声约束的扰动ρ使得分类器C(·)的损失loss最大化：

max L(C(ρ(x))，y)s.t.||δ||_p≤ε (2)

其中，L(·)为欧式距离，包含L₁、L₂、L_∞等计算方式；

传统的有目标对抗样本生成，即对抗样本能够被分类器识别为攻击方指定的类别y_targ，其损失函数可以表示如下：

max(L(C(ρ(x))，y)-L(C(ρ(x))，y_targ))s.t.||δ||_p≤ε (3)

总体来说，传统的对抗样本生成方法是通过最大化单一数据的损失，实现对每个样本添加针对性的对抗扰动。而本发明旨在提出一种通用扰动生成方法，通过生成一个扰动，可以对某一类样本都具有对抗攻击效果。因此，本发明首先将最大化单一图像的损失，调整为最大化某特定类别的期望损失，以实现扰动的通用性。

基于通用性需求，设定某特定类别为d∈Y，该类别数据集为D((x，y)|C(x)＝d，y＝d)，

本发明首先将无目标通用扰动的损失函数设定为：

maxE_(x，y)～D[L(C(ρ(x))，y)]s.t.||δ||_p≤ε (4)

将有目标通用扰动的损失函数设定为：

maxE_(x，y)～D[L(C(ρ(x))，y)-L(C(ρ(x))，y_targ)]s.t.||δ||_p≤ε (5)

其中，E_(x，y)～D[·]表示损失函数在数据集D上的期望。

步骤2.高隐蔽性通用扰动生成

(1)非特定类别的识别限制

在实际使用中，这种通用扰动一般会添加在所有样本中，本发明计划实现的攻击目标是，对某一类样本产生攻击效果，且不影响其他类样本的决策结果。而在上述损失函数下生成的通用扰动存在着易被察觉的问题，具体来说，对所有样本添加干扰后，可能会影响“其他”类别样本的决策准确率。比如，攻击方的目标是仅仅将路牌上的“停止”标志识别为“继续前进”，但在添加通用性对抗扰动后，可能将“限速60公里”的标志也误识别为“限速40公里”。这种设定之外的攻击不是攻击方所需要的，同时很容易引起防御方的警觉从而通过这些异常发现自已的系统受到攻击。

因此，需要对损失函数做进一步的处理，以掩盖攻击方的攻击意图，防止被防御方轻易发现，达到通用扰动的不可察觉性。本发明在上述通用损失函数中加入对目标攻击类之外样本的修正，通过抑制通用扰动对其他类别样本的攻击效果，以达成通用扰动的不可察觉性。

本发明将通用扰动的无目标损失函数Loss，有目标攻击损失函数Loss_targ定义如下：

Loss＝max[(E_(x，y)～D[L(C(ρ(x))，y)]-E_(x，y)～F[L(C(ρ(x))，y)])]s.t.||δ|||_p≤ε (6)

其中，F＝(X，Y)-D，是D的补集。

本步骤中，为提高对抗样本的不易察觉性，设置了多目标优化函数，使特定类别的图像被错误识别的同时，保证其他类别的图像不受干扰影响，仍能被正确决策。

(2)引入结构相似性指标增强人类视觉下的对抗扰动隐蔽性

对上述目标函数进行优化训练，可得到具有一定不可察觉性的通用性对抗扰动，但仍存在一些问题。在传统的对抗样本生成中，我们一般采用欧氏距离来衡量分类器识别结果与真是结果的差距，但欧式距离与我们人类视觉、听觉识别效果存在差异性。

以图像为例，人类对RGB图像三个通道的敏感程度不同。一般来说，人类对蓝色通道添加的扰动敏感度较低，对红色通道添加的扰动敏感度较高。在欧氏距离下对三个通道添加同样大小的扰动，红色通道添加的扰动更容易被发觉。

人类视觉系统(HVS)对噪声的敏感性取决于局部亮度、对比度和结构的不同，攻击方需要另一种指标来评估添加通用噪声的通信的隐蔽性。结构相似性(SSIM)是一种在HVS下，衡量两幅图像相似度的指标。SSIM从图像组成的角度将结构信息定义为独立于亮度、对比度的，反映场景中物体结构的属性，并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计，标准差作为对比度的估计，协方差作为结构相似程度的度量。SSIM被广泛应用于衡量图像及视频质量。

本发明引入SSIM指标来衡量对抗样本与原干净样本之间的相似度，通过限制相似度对对抗样本进行进一步优化。损失函数调整为：

Loss_targ＝max[(E_(x，y)～D[L(C(p(x))，y)-L(C(ρ(x))，y_targ)]-E_(x，y)～F[L(C(ρ(x))，y)])]s.t.||δ||_p≤ε₁，SSIM(x，ρ(x))≤ε₂ (9)

ε₁、ε₂均为预设的常数，SSIM表示结构相似性；

(3)优化训练

1)基于梯度下降方法的优化训练

现有的主流对抗攻击技术，大都是通过计算样本梯度信息来优化扰动噪声。受此启发，本发明首先采用迭代梯度的方法来优化损失函数得到通用扰动ρ(x)。通过对每轮迭代数据集中的数据点进行不断迭代，逐步建立通用扰动。

在每次迭代中，如果分类器可以将目标识别成攻击方指定的攻击目标，则跳过当前点。对于添加通用扰动后仍无法达到攻击方设置的目标，包括将特定目标识别为攻击目标和正常目标错误分类的数据点，计算出其Loss、Loss_targ损失最大化的方向梯度，与原先设定的学习率α相乘，将成绩加至当前的通用扰动中。

在每轮迭代后，都对本轮迭代使用的数据集识别准确率进行判断。其中无目标攻击的准确率为将某特定类别分错类的概率以及将其他类别正确识别的概率加权之和；有目标攻击的准确率为将某一特定类别数据识别为某另一特定类别的概率，与将其他类别数据正确识别的概率加权之和。如果准确率达到预设的阈值则停止迭代，随机初始化下一个数据子集，进行下一批次的迭代，最终输出通用扰动，为一个矩阵，称为通用扰动矩阵。

2)基于低通滤波增强通用干扰隐蔽性

现有的典型分类器中，如卷积神经网络，因具有太多的卷积层，这就导致尖锐的噪声会在深度网络中放大到很高的倍数。高频噪声易被人眼识别和发现，防御方也可以通过寻找高频噪声来识别对抗样本。因此，在通用扰动的每次迭代后，加入低通滤波器。低通滤波可以让样本数据变得光滑，滤除通用噪声中的尖锐点，使得通用扰动更具有普遍性和不可见性。

本发明采用高斯滤波，通过卷积来消除通用扰动中的高频噪声。具体地说，用一个矩阵完整扫过原通用扰动得到新的通用扰动。通过卷积来消除通用扰动中的高频噪声具体为：卷积将核的锚点放在上一步骤中生成的通用扰动矩阵特定位置元素上，同时，核内的其他值与该元素邻域的各元素重合；将核内各值与相应元素值相乘，并将乘积相加；将所得结果放到与锚点对应的元素上；对通用扰动矩阵所有元素值重复上述过程。最终，实现用邻域内元素的加权平均灰度值去替代模板中心元素点的值。

综上，本步骤生成高隐蔽性通用扰动的流程总结如下：

Step1：设定通用性扰动损失函数。通过考虑扰动的通用性攻击效果、对非特定类别的影响最小化，以及真实物理意义上的不可察觉性，构建无目标、有目标通用性对抗样本生成的损失函数，如公式(8)、(9)；

Step2：采用梯度下降的方式对损失函数进行优化训练，得到初步的通用性扰动；

Step3：采用低通滤波对上一步骤中产生的扰动进行过滤，去除尖锐噪音，增强对抗样本隐蔽性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于高隐蔽性通用扰动的对抗样本生成方法，其特征在于，该方法首先将攻击目标函数优化问题，由最大化单一图像的损失，调整为最大化某特定类别图像的期望损失；其次，设置多目标优化函数，使特定类别的图像被错误识别的同时，保证其他类别的图像不受干扰影响，仍能被正确决策；包括以下步骤：

步骤1、最大化特定类别图像的期望损失，得到通用损失函数，以实现基本的通用性扰动生成；

步骤2、基于步骤1实现高隐蔽性通用扰动生成：首先在所述通用损失函数中加入对目标攻击类之外样本的修正，构建无目标、有目标通用性对抗样本生成的损失函数；其次采用梯度下降的方式对所述损失函数进行优化训练，得到初步的通用性扰动；最后采用低通滤波对所述初步的通用性扰动进行过滤，去除噪音；

步骤1中：设定x∈X为输入样本，y∈Y为样本标签，(X，Y)为数据所属集合，C(·)为分类器，C(x)表示对样本x的分类结果；

则无目标对抗样本生成是指给定一个合法的输入样本x，C(x)＝a，寻找一个对抗样本x′，使得C(x′)≠a；有目标对抗样本生成是指给定一个合法的输入样本x及一个分类目标t，t∈Y，C(x)≠t，寻找一个对抗样本x′，使得C(x′)＝t；

在对抗样本生成过程中，确定扰动函数ρ：X→X，使得：

x′＝ρ(x)＝x+δ (1)

将无目标通用扰动的损失函数设定为：

maxE_(x，y)～D[L(C(ρ(x))，y)]s.t.||δ||_p≤ε (4)

将有目标通用扰动的损失函数设定为：

maxE_(x，y)～D[L(C(ρ(x))，y)—L(C(ρ(x))，y_targ)]s.t.||δ||_p≤E (5)

其中，y_targ为攻击方指定的类别，L(·)为欧式距离，E_(x，y)、D[·]表示损失函数在数据集D上的期望，所述无目标通用扰动的损失函数、有目标通用扰动的损失函数组成所述通用损失函数；

步骤2中，构建无目标、有目标通用性对抗样本生成的损失函数时，先将通用扰动的无目标损失函数Loss，有目标攻击损失函数Loss_targ分别定义如下：

Loss＝max[(E_(x，y)～D[L(C(ρ(x))，y)]-E_(x，y)～F[L(C(ρ(x))，y)])]s.t.‖δ‖_p≤ε (6)

Loss_targ＝max[(E_(x，y)～D[L(C(ρ(x))，y)-L(C(ρ(x))，y_targ)]-E_(x，y)～F[L(C(ρ(x))，y)]s.t.||δ||_p≤ε (7)

其中，F＝(X，Y)-D，是D的补集；

步骤2中，构建无目标、有目标通用性对抗样本生成的损失函数时，再引入SSIM指标来衡量对抗样本与原干净样本之间的相似度，通过限制相似度对对抗样本进行进一步优化，将公式(6)、(7)的损失函数分别调整为：

Loss＝max[(E_(x，y)～D[L(C(ρ(x))，y)]-E_(x，y)～F[L(C(ρ(x))，y)])]s.t.||δ||_p≤ε₁，SSIM(x，ρ(x))≤ε₂，(8)

其中，ε₁、ε₂均为预设的常数，SSIM表示结构相似性；

结构相似性SSIM是一种在HVS下，衡量两幅图像相似度的指标，SSIM从图像组成的角度将结构信息定义为独立于亮度、对比度的，反映场景中物体结构的属性，并将失真建模为亮度、对比度和结构三个不同因素的组合，用均值作为亮度的估计，标准差作为对比度的估计，协方差作为结构相似程度的度量。

2.如权利要求1所述的方法，其特征在于，步骤2中，采用梯度下降的方式对所述损失函数进行优化训练，得到初步的通用性扰动具体为：

首先采用迭代梯度的方法来优化损失函数得到通用扰动ρ(x)，通过对每轮迭代数据集中的数据点进行不断迭代，逐步建立通用扰动，

在每次迭代中，如果分类器可以将目标识别成攻击方指定的攻击目标，则跳过当前点，对于添加通用扰动后仍无法达到攻击方设置的目标，包括将特定目标识别为攻击目标和正常目标错误分类的数据点，计算出其Loss、Loss_targ损失最大化的方向梯度，与预先设定的学习率α相乘，将成绩加至当前的通用扰动中；

3.如权利要求2所述的方法，其特征在于，步骤2中，采用低通滤波对所述初步的通用性扰动进行过滤，去除噪音时，是通过卷积来消除所述初步的通用性扰动中的高频噪声。

4.如权利要求3所述的方法，其特征在于，通过卷积来消除所述初步的通用性扰动中的高频噪声是用一个矩阵完整扫过通用扰动矩阵得到新的通用扰动。

5.如权利要求4所述的方法，其特征在于，通过卷积来消除所述初步的通用性扰动中的高频噪声具体为：卷积将核的锚点放在上一步骤中生成的通用扰动矩阵特定位置元素上，同时，核内的其他值与该元素邻域的各元素重合；将核内各值与相应元素值相乘，并将乘积相加；将所得结果放到与锚点对应的元素上；对通用扰动矩阵所有元素值重复上述过程，最终，实现用邻域内元素的加权平均灰度值去替代模板中心元素点的值。