CN111461307B

CN111461307B - 一种基于生成对抗网络的通用扰动生成方法

Info

Publication number: CN111461307B
Application number: CN202010254686.2A
Authority: CN
Inventors: 何琨; 陈晶; 郑宏毅; 杜瑞颖
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2022-04-29
Anticipated expiration: 2040-04-02
Also published as: CN111461307A

Abstract

本发明公开了一种基于生成对抗网络的通用扰动生成方法，首先生成网络生成通用扰动得到对抗样本；然后判别网络判别对抗样本与原始样本，并计算判别网络目标函数并反向传播进行优化；最后深度学习模型预测对抗样本分类，判别网络判别对抗样本，并计算生成网络目标函数并反向传播进行优化；本发明所提供的基于GAN的通用扰动生成方法能够在计算机视觉及深度学习等领域，为使用者提供机器学习模型安全性研究的思路。

Description

一种基于生成对抗网络的通用扰动生成方法

技术领域

本发明属于深度学习技术领域，具体涉及一种基于生成对抗网络的黑盒场景下的通用扰动生成方法。

背景技术

2012年，在ImageNet大规模视觉识别挑战赛中，深度神经网络(Deep NeuralNetworks，DNNs)获得当时最好的图像分类结果，开始获得工业界的广泛关注。近年来，随着大数据技术和计算性能提升，深度学习发展迅速，现实生活中越来越多的应用开始使用深度学习模型应用。例如，自动驾驶技术使用深度学习来完成物体检测、增强学习、多模态学习等；苹果公司使用深度学习完成基于面部识别的生物认证技术；基于行为的恶意软件检测使用深度学习发现语义特征。

在深度学习模型代替人类完成多项任务的同时，人们逐渐开始关注模型带来的安全问题，对抗样本(Adversarial Examples)就是针对模型抗干扰能力研究。对于一个分类正确的原始图片样本，在加入人类难以识别的扰动之后，神经网络会以极高的置信度得出错误的分类结果。这些被错误分类的样本被称为对抗样本。对抗样本扰动是根据某种算法生成得针对特定模型、特定数据集的特殊噪声。现有的深度学习模型非常容易受到对抗样本影响，他可以使深度学习模型分类错误，甚至导致各种基于深度模型的异常检测系统失效，给深度学习在实际应用领域带来了很大的安全性挑战。

目前，对抗样本从对抗攻击所需知识(Adversary’s Knowledge)可分为白盒攻击和黑盒攻击：白盒攻击假设攻击者知道模型的所有知识，例如训练数据集、模型架构、训练超参数、层数、激活函数、模型权重值等，对抗样本通过计算模型梯度生成；黑盒攻击假设攻击者无权访问模型内部结构，攻击者和其他模型使用者一样，只具备模型输出(标签和置信度)访问权限。目前大多数对抗样本的研究都集中在白盒攻击的应用场景下：少数黑盒攻击的研究也普遍基于对抗样本的可迁移性，无法攻击鲁棒性较高的模型。

另一方面，对抗样本从扰动范围(Perturbation Scope)亦可分为个体攻击和通用攻击：个体攻击针对单一输入生成特定的对抗样本扰动，对不同的输入样本都需要生成新的扰动以欺骗模型；通用攻击对数据集生成通用的对抗样本扰动，数据集内任意输入加上改扰动后都可导致深度模型输出结果错误。大多数对抗样本研究方案都基于单个样本生成攻击扰动，对于不同的样本需要重新训练优化扰动。而通用扰动(Universalperturbation)则省去了对抗样本生成阶段的训练过程，可以直接得到样本攻击深度学习模型，减少了对抗样本的攻击时间。目前通用扰动的生成方式都要求攻击者具有模型的白盒访问权限，而在现实场景中，攻击者往往权限受限，仅能访问深度学习模型最终的输出值。因此，具有黑盒攻击能力的通用扰动是更适合于现实场景的深度模型攻击策略，这类种场景下的通用扰动问题是亟待解决的。

发明内容

鉴于以上提及的黑盒场景下的通用攻击方法研究的不足，本发明提供了一种在黑盒攻击场景下的通用扰动生成方案。

本发明所采用的技术方案是：一种基于生成对抗网络的通用扰动生成方法，其特征在于，包括以下步骤：

步骤1：使用生成网络生成通用扰动，将扰动与任意图片数据集结合得到对抗样本；

步骤2：将数据集中原始样本与步骤1中得到的对抗样本输入判别网络得到输入样本为真实样本的概率值，根据判别网络目标函数计算损失值，并进行反向传播，优化判别网络判别对抗样本能力；

步骤3：将步骤1中得到的对抗样本输入被攻击模型和判别网络，分别得到分类概率值和对抗样本概率值，根据生成网络目标函数计算损失值，并进行反向传播，优化生成网络生成通用扰动能力；

步骤4：重复步骤1到步骤3预定次数后，生成网络即可生成攻击成功率达到预定要求的通用扰动攻击被攻击模型。

本发明相比现有技术，其优点和积极效果主要体现在以下几个方面：

(1)本发明提供了一种基于GAN的通用扰动生成方法，基于我们的设计，使用任意图片数据集即可在黑盒攻击场景下训练针对攻击模型的通用扰动；

(2)本发明设计了一种通用扰动生成网络结构和判别网络，其好处在于能够生成扰动范围更小的通用扰动，得到人眼不宜察觉的对抗样本；

附图说明

图1为本发明实施例的整体框架图。

图2为本发明实施例中生成网络结构图。

具体实施方式

为了便于本领域普遍技术人员的理解和实施本发明，下面结合附图及实施例对本发明作为进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的基于生成对抗网络(Generative Adversarial Net，GAN)的黑盒场景下的通用扰动生成方法，包括通用扰动生成网络实现随机噪声图片到通用扰动的函数映射、对抗样本判别网络预测网络输入为真实样本的概率、目标函数用于训练生成网络和判别网络提高对抗样本攻击成功率；通用扰动生成网络由卷积层构成下采样，反卷积层构成上采样，上采样和下采样层间具有共享特征的连接；判别网络预测输入样本为真实样本的概率值，其结构由反卷积层构成，将图片分为多块，并输出每一块图片为真实样本的预测值，用于计算损失值优化通用扰动大小；目标函数计算生成网络和判别网络的损失值，用于反向传播优化网络，其中生成网络损失值包括类别约束损失值、对抗约束损失值、像素级约束损失值，根据部署在目标攻击和非目标攻击场景下可选择不同的类别约束目标函数，根据不同的扰动测量方式可以选择选择不同像素级目标函数。

本发明提供的一种基于GAN的黑盒场景下的通用扰动生成方法，包括生成网络生成通用扰动得到对抗样本，判别网络判别对抗样本与原始样本，计算判别网络目标函数并反向传播进行优化，深度学习模型预测对抗样本分类，判别网络判别对抗样本，计算生成网络目标函数并反向传播进行优化，整体架构图请见图1。具体包括以下步骤：

步骤1：生成网络生成通用扰动，将扰动与任意图片数据集结合得到对抗样本；

具体包括以下子步骤：

步骤1.1：获取任意图片样本数据集X_raw并进行数据扩充，随机选择其中部分样本进行翻转、0值填充生成新的图片加入数据集中，再将X_raw中的样本随机裁剪像素值为深度学习模型输入大小，得到样本数为m的训练数据集X；

步骤1.2：使用卷积层、反卷积层构建生成网络G，网络结构如图2所示，其中每个方框顶部的数字表示提取特征的通道数，左侧下方数字表示提取特征的大小，上采样部分每一层的输入都为下采样的特征加上一层特征输出，该结构可以生成扰动范围更小、人眼不易识别的对抗样本，网络参数如表1所示，使用使用LeakyReLU(Leaky Rectified LinearUnit)代替普通的线性整流函数(Rectified Linear Unit，ReLU)作为激活函数防止梯度消失，加速模型收敛，使用InstanceNormalization归一化方法替换BatchNormalization归一化方法，提高生成器模型生成扰动的质量，上采样阶段每一层进行Dropout，防止生成网络出现模型塌陷；

表1

步骤1.3：生成与数据集X相同像素大小的噪声图片数据集Z，噪声图片每一像素的数值为符合N(0,0.5)正态分布的随机数，将数据集

输入生成网络，得到样本数为m的通用扰动

选择噪声系数α，将通用扰动

与图片样本

结合得到对抗样本

其计算公式如下：

x′＝α×μ+x

步骤2：将数据集中原始样本与步骤1中得到的对抗样本输入判别网络得到输入样本为真实样本的概率值，根据判别网络目标函数计算损失值，并进行反向传播，优化判别网络；

具体包括以下子步骤：

步骤2.1：构建判别网络D，网络参数如表2所示，用LeakyReLU作为激活函数，不使用池化层，使用Instance Normalization归一化方法；

表2

步骤2.2：将图片样本

与对抗样本

输入判别网络计算损失函数L_d，其计算公式如下：

其中，D(x^(j))表示判别网络输出结果，G(z^(j))表示生成网络输出结果。

步骤2.3：反向传播更新判别网络权重

其中，

表示ω_d的梯度；

步骤3：将步骤1中得到的对抗样本输入被攻击模型和判别网络，分别得到分类概率值和对抗样本概率值，根据生成网络目标函数计算损失值，并进行反向传播，优化生成网络；

具体包括以下子步骤：

步骤3.1：将对抗样本

输入深度学习模型f得到分类的概率向量

步骤3.2：计算生成网络类别约束损失值L_c、对抗样本判别网络损失值L_GAN、像素级约束损失值L_pix,得到生成网络损失值L_g＝L_c+βL_GAN+γL_pix，其中β、γ为权重值，L_c根据目标攻击和非目标攻击可选择不同目标函数。

通用扰动生成可以部署在目标攻击和非目标攻击场景下，也可基于攻击成功对抗样本计算损失值L_s，进一步优化生成网络性能；

非目标攻击下，对于数据集X中的样本x，被攻击模型f(x)的预测结果标签为c₀，对抗样本只需被分类为非原始标签即可，其目标就是使除c₀外任意标签的置信度大于c₀，此时类别约束的损失函数定义为：

在学习过程中，模型将不断降低标签c₀的置信度，直到任意分类的置信度高于c₀的置信度为止，同时也可以引入阈值κ提高攻击的可靠性，使错误分类置信度高于c₀分类置信度一定程度之后再停止优化，即满足以下情况时停止优化：

引入阈值κ之后的损失函数变为：

目标攻击下，先选定攻击标签c，通用扰动的目的是使标签c的置信度大于其他标签，此时类别约束损失函数定义为：

在学习过程中，生成网络生成的通用扰动将不断提高标签c的置信度，直到c的置信度高于其他标签的置信度为止，同样我们可以引入阈值κ提高攻击的可靠性，即满足以下情况时停止优化：

引入阈值κ之后的损失函数则变为：

即类别约束损失值L_c可取目标攻击下的L_c＝L_t+L_s，或非目标攻击下的L_c＝L_nt+L_s。

所述基于攻击成功对抗样本计算损失值L_s，对于攻击成功的对抗样本数据集

L_s损失函数定义如下：

L_GAN为对抗样本判别网络损失值，用于优化扰动大小，定义为：

L_GAN＝log(D(x^(j)+G(z^(j))))

L_pix根据攻击扰动测量方式不同可选择不同目标函数；

像素级约束损失值L_pix根据攻击扰动测量方式不同可选择不同目标函数；

所述扰动测量方式可选择

三种方式，分别对应三种不同范式距离，对于

范式，L_pix损失函数定义如下：

其中

范式为扰动像素值之和，

为扰动平方和的平方根，

为扰动最大像素值；μ^(j)表示生成网络生成的通用扰动，p表示不同范式距离

的取值；

步骤3.3：使用生成网络损失值L_g反向传播更新生成网络权重

其中，

表示ω_d的梯度。

步骤4：重复步骤1到步骤3预定次数后，生成网络即可生成攻击成功率达到预定要求的通用扰动攻击被攻击模型f(x)。

本发明能够提供：

1.黑盒场景下的通用扰动生成方法：使用任意图片样本数据集，在仅访问攻击模型预测结果的条件下即可生成针对模型数据集的通用扰动；

2.人眼不易识别的对抗样本生成方案：生成网络上采样层与下采样层进行特征共享，并使用强判别能力的判别网络优化生成网络，可以生成更小的通用扰动，使对抗样本更加接近原始样本。

本发明所提供的基于GAN的通用扰动生成方法能够在计算机视觉及深度学习等领域，为使用者提供机器学习模型安全性研究的思路。

应当理解的是，本说明书为详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于生成对抗网络的通用扰动生成方法，其特征在于，包括以下步骤：

步骤3：将步骤1中得到的对抗样本输入被攻击模型得到样本分类概率值，输入判别网络得到对抗样本概率值，根据生成网络目标函数计算损失值，并进行反向传播，优化生成网络生成通用扰动能力；

其中，计算生成网络类别约束损失值L_c、判别网络损失值L_GAN、像素级约束损失值L_pix，得到生成网络损失值L_g＝L_c+βL_GAN+γL_pix，其中β、γ为权重值；

L_c根据目标攻击和非目标攻击可选择不同目标函数；非目标攻击下，对于数据集X中的样本x，被攻击模型f(x)的预测结果标签为c₀，对抗样本只需被分类为非原始标签即可，其目标就是使除c₀外任意标签的置信度大于c₀，此时类别约束的损失函数定义为L_nt；目标攻击下，先选定攻击标签c，通用扰动的目的是使标签c的置信度大于其他标签，此时类别约束损失函数定义为L_t；则类别约束损失值L_c取目标攻击下的L_c＝L_t+L_s，或非目标攻击下的L_c＝L_nt+L_s；L_s为基于攻击成功对抗样本计算的损失值；

像素级约束损失值L_pix根据攻击扰动测量方式不同选择不同目标函数；

2.根据权利要求1所述的基于生成对抗网络的通用扰动生成方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：获取任意图片样本数据集X_raw并进行数据扩充，随机选择其中部分样本进行翻转、0值填充生成新的图片加入数据集中，再将X_raw中的样本随机裁剪为深度学习模型输入大小，得到样本数为m的训练数据集X；

步骤1.2：使用卷积层、反卷积层构建通用扰动生成网络G，网络中上采样部分每一层的输入都为下采样的特征加上一层特征输出，网络参数为表1；

表1

步骤1.3：生成与训练数据集X相同像素大小的噪声图片数据集Z，噪声图片

每一像素的数值为符合N(0,0.5)正态分布的随机数，将数据集

输入生成网络，得到样本数为m的通用扰动

选择噪声系数α，将通用扰动

与图片样本

得到对抗样本

其结合公式如下：

x′＝α×μ+x。

3.根据权利要求2所述的基于生成对抗网络的通用扰动生成方法，其特征在于，步骤2的具体实现包括以下子步骤：

步骤2.1：构建判别网络D，判别网络D将样本分为N×N块，预测每一块为真实样本的概率值，网络参数为表2；

表2

步骤2.2：将图片样本

与对抗样本

输入判别网络计算损失函数L_d；

其中，D(x^(j))表示判别网络输出结果，G(z^(j))表示生成网络输出结果；

步骤2.3：反向传播更新判别网络权重

其中，

表示ω_d的梯度。

4.根据权利要求2所述的基于生成对抗网络的通用扰动生成方法，其特征在于：步骤3中，深度学习模型预测对抗样本分类，判别网络预测对抗样本概率，计算生成网络目标函数并反向传播进行优化；

具体实现包括以下子步骤：

步骤3.1：将对抗样本

输入被攻击模型f得到分类的概率向量

步骤3.2：计算生成网络类别约束损失值L_c、对抗样本判别网络损失值L_GAN、像素级约束损失值L_pix，得到生成网络损失值L_g＝L_c+βL_GAN+γL_pix，其中β、γ为权重值，L_c根据目标攻击和非目标攻击可选择不同目标函数，L_GAN为对抗样本判别网络损失值，用于优化扰动大小，定义为：

L_GAN＝log(D(x^(j)+G(z^(j))))

L_pix根据攻击扰动测量方式不同可选择不同目标函数；

步骤3.3：使用生成网络损失值L_g反向传播更新生成网络权重