CN111582384A

CN111582384A - 一种图像对抗样本生成方法

Info

Publication number: CN111582384A
Application number: CN202010390030.3A
Authority: CN
Inventors: 王曙燕; 金航; 孙家泽; 王小银
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-08-25
Anticipated expiration: 2040-05-11
Also published as: CN111582384B

Abstract

本发明实例涉及一种图像对抗样本生成方法，属于机器学习和AI安全领域。包括：训练生成对抗网络模型，该模型包括两个生成器(样本生成器G1,扰动生成器G2)，其中G1的输入为高维随机噪声，输出为图像样本，采用卷积网络搭建，在第一次被调用时被训练，用于扩充原始数据集；G2的输入为图像样本，输出为该图像数据针对某一攻击目标的扰动；对抗样本由图像和其对应的扰动相加得到。本发明创新的运用了双生成器的生成对抗网络，提高了利用生成对抗网络构造对抗样本的效率，使生成对抗样本的数量不再受限制，增大了对抗样本之间的差异性。

Description

一种图像对抗样本生成方法

技术领域

本发明涉及机器学习和AI安全领域，具体地，涉及一种神经网络模型图像对抗样本的生成方法。

背景技术

神经网络系统如今被广泛应用于诸多方面，其安全性和稳定性也越来越受到重视。神经网络的对抗样本是指在原数据集中添加肉眼不可见或不影响整体观感的扰动(噪音)，所形成的一类样本。对抗样本可以使得神经网络模型以较高的置信度给出与原样本不同的分类结果。

自SzegedyC等提出对抗样本的概念，到GoodfellowI等证明了神经网络的高维线性是导致对抗样本产生的根本原因，逐渐产生了一系列对抗样本生成方法。GoodfellowI提出的FGSM(快速梯度符号法)通过再梯度方向上添加增量来诱导网络对生成的图片进行误分类。AlexeyKurakin等提出了基础迭代法(I-FGSM),其基本思想是通过多个小步增大损失函数的处理，来优化一大步运算增大损失函数从而生成图像的扰动。Seyed-Mohsen等人提出的DeepFool，对深度网络也有很强的对抗性和鲁棒性。ChaoweiXiao等人提出了一种利用生成对抗网络来构造对抗样本的方法，这种网络架构可以学习和模拟出真实的图像分布。一旦网络架构中的生成器训练完毕，对于任何的图像输入都可以高效的生成带有扰动的对抗样本。该方法生成的对抗样本更加自然真实且有极高的攻击成功率且能够同时应用于白盒攻击和黑盒攻击，但是这种方法针对每一个原始样本只能生成一个对抗样本，大大限制了对抗样本的数量，导致对抗样本缺乏多样性，揭错能力不足。

发明内容

为解决上述问题，本发明提供一种图像对抗样本生成方法，用于解决现有利用生成对抗网络法生成图像对抗样本时数量受限、样本多样性差、揭错能力不足的问题。

本发明的技术方案如下：

(1)训练双生成器的生成对抗网络模型；

具体实施过程为：

首先输入原始样本类型、攻击样本类型和扰动系数；

判断样本生成器G1(以下称G1)是否已经训练完毕，若G1没被训练过(不可用)，则使用原始样本训练G1；

具体地，G1的作用是生成符合原始样本类型的数据样本，其中G1的输入是高维随机噪音数据和原始样本类型，输出是符合原始样本类型的图像，将G1的输出作为输入，输入到判别器D，判别器D的作用是验证G1的输出是否与源数据集一致,以保证G1的输出能够以假乱真，当判别器D的输出接近纳什均衡，G1训练完毕；

若G1已被训练(可用)，则将G1生成的图像数据作为训练数据，训练一个攻击样本类型所对应的扰动生成器G2(以下称G2)，G2通过对目标模型的黑盒查询访问，得到由数据图像计算所得的、符合攻击样本类型的扰动；

(2)生成目标对抗样本

输入原始类别、目标攻击类别和要生成的样本数量；

将原始类别和随机生成的高维噪音输入G1，生成与所需样本数量一致的原始样本；

将原始样本和目标攻击类别输入G2,生成所对应的扰动；

将扰动规格化，使其范围在扰动系数范围之内(±扰动系数)；

然后将图像数据与扰动相加，得到对抗样本；

将得到的对抗样本规范化，使其范围在像素点灰度范围之内(0-255)，得到最终的有目标攻击图像对抗样本。

上述技术方案有如下优点或有益效果：

本发明提供的对抗样本生成方法，通过一种双生成器(样本生成器G1、扰动生成器G2)的生成对抗网络架构，扩大了原始对抗样本集的规模，以此来达到扩大对抗样本集规模的目的。使得生成的对抗样本差异化增大，数量增多，揭错能力大大提升，不受原始对抗样本集大小的影响。同时只需对目标模型进行接口式的访问而不需获取其内部架构信息，因此可以对目标模型进行黑盒攻击。整体上将会大大提高生成对抗样本的质量和速度。

附图说明

附图仅为更加充分的说明本发明的流程，并不构成对本发明范围的限制。

图1为本发明中对抗模型的训练流程图；

图2为本发明中生成对抗样本的流程图。

具体实施方案

为了使本领域相关人员能够更好的理解本方法的工作流程，下面将结合附图对本方法做出系统、完整地阐述。其中，众所周知的模块构成、运行方式没有明示或详细说明。

图1绘示了本发明的开始阶段模型训练工作，其主要功能包括：

步骤S11，输入目标对抗样本的原始类别Lab、预期使模型误判的类别LabTar以及扰动系数Thresh；

步骤S12，判断生成器G1是否存在，若不存在：步骤S13利用原始样本Img0训练生成器G1；若存在：步骤S14使用G1生成Lab的数据样本Img1；

具体地，步骤S13训练G1的过程：

将Img0的类别记为Lab0，Lab0和高维噪音Z作为输入，输入到G1，得到Img1；

将Img1输入到判别器D中，得到真伪判别结果Dis1和类别结果LabF1；

将Img0输入到判别器D中，得到真伪判别结果Dis0和类别结果LabT0；

将Img0的预期判别结果记为DisT0，将Img1的预期判别结果记为DisF1；

计算Dis0和DisT0的交叉熵损失，记为Ldf；

计算Dis1和DisT1的交叉熵损失，记为Ldt；

计算Lab0和LabF1的交叉熵损失，记为Lgf；

计算Lab0和LabT0的交叉熵损失，记为Lgt；

计算损失函数LossG1＝Ldf+Ldt+Lgf+Lgt；

在每次迭代过程中最小化LossG1，并利用反向传播方式更改模型参数，保存模型，生成器G1训练完成。

具体地，步骤S14生成数据样本Img1的过程：

由Lab构建高维随机噪音Z，Z经过G1的计算生成Img1。

步骤S15，将生成的数据样本Img1、Lab和LabTar作为输入，训练LabTar对应的生成器G2，G2生成以Lab为原类别，以LabTar为攻击类别，以Img1为基础的对抗样本。

具体地，生成以Img1为基础的对抗样本的训练过程：

使用CNN网络模型生成Img1所对应的扰动Pert0；

对Pert0进行裁切，使得Pert0的范围在(-Thresh,Thresh)之间，得到Pert1；

将Img1与Pert1相加得到AdvImg；

将Img1输入判别器D，得到真伪判别结果Dis2和类别结果LabT2；

将AdvImg输入判别器D，得到真伪判别结果Dis3和类别结果LabF3；

将AdvImg输入待攻击模型，得到模型的判别结果LabM；

将Img1的预期判别结果记为DisT2，AdvImg的预期判别结果记为DisF3；

计算Dis2和DisT2的均方误差，记为DisLabT；

计算Dis3和DisF3的均方误差，记为DisLabF；

计算损失函数LossD＝DisLabT+DisLabF；

计算Pert1的损失函数，保证扰动最小，记为L_Pert；

计算LabM和LabTar的均方误差，记为L_AvdImg；

计算损失函数LossG2＝L_Pert+L_AdvImg；

在每次迭代过程中最小化LossD和LossG2，并利用反向传播方式更改模型参数，保存模型，LabTar所对应的生成器G2训练完成。

步骤S16，将训练好的G1和G2进行封装并进行保存。

在上述实施例中，采用G1生成数据样本，G1采用卷积网络构建，可以生成质量较高的图像数据，生成新的图像旨在提高原始数据集的规模。G1只需在初次调用时训练一次，训练完毕将模型保存，在后续过程中可以直接调用。G1采用高维随机噪音作为输入，可以最大程度上保证数据之间的差异性，同时将此数据作为G2的输入，可以加快G2的训练速度和生成噪音的质量。

进一步地，图2绘示了对抗样本生成的过程，具体如下：

步骤S21，输入原始类别Lab、攻击类别LabTar和要生成的样本数量Num；

步骤S22，由生成器G1生成Lab的原始样本Img，其数量为Num；

步骤S23，由LabTar所对应的生成器G2生成以Img为基础以LabTar为攻击目标的扰动Pert；

步骤S24，计算对抗样本AdvImg＝Img+Pert；

将AdvImg返回。

在上述实施例中，假设对于一个识别手写数字数据集的模型M，要构造100张对抗样本图像使分类模型将数字“0”误识别为数字“5”，那么输入参数：原始攻击类别为“0”、攻击类别为“5”，生成的样本数量为100。首先生成器G1将会生成100张数字“0”的数据样本，然后由生成器G2构造出使模型误判的对应扰动，将扰动与数据样本相加后再规范化，即得到100张使目标模型将数字“0”误判为数字“5”的图像对抗样本。

下面通过实验结果分析，来说明本发明的优势和可行性。

在实验对比方面，以DNN架构的手写数字识别模型M(以下称M)为目标模型，对M进行对抗攻击。其中M的判别正确率为97.56％。具体地，M的层信息为(784,1024,2048,1024,512,10)，输入层为784维，输出层为10维。对于手写数字(0-9)数据集，构造十个扰动生成器G2,分别用以对于任意输入，生成(0-9)之间的扰动，从而构造所对应的对抗样本。

利用常规生成对抗网络生成对抗样本的方式和本发明生成对抗样本的方式，生成1000组对抗样本，判别其平均差异性指标，如表1所示：

表1差异性指标对比

相比较于常规利用对抗生成网络生成对抗样本的方式，本发明生成对抗样本攻击模型M的准确率如表2所示：

表2攻击准确率对比表

其中表1中正相关的数值代表数值越大，图像的差异性就越大，负相关反之。表2中的目标模型准确率表示在对抗样本的攻击下模型M的判断准确率；有目标攻击准确率表示在对抗样本的误导下，模型M将对抗样本误识别为目标类别的准确率。经过比较可知：本发明生成对抗样本的方法相较于原始方法，能够在略微对抗样本质量的同时，显著提升样本间的差异性，并且对于生成对抗样本的数量没有限制。

由以上可知，本发明所提出的一种基于改进生成对抗网络的图像对抗样本生成方法，至少具有以下优点：

1)创新性的在生成对抗网络中采用双生成器结构，使得生成所需对抗样本的质量更高，同时对抗样本间差异性更强，揭错能力更强。

2)相比较于传统的对抗样本生成方式，本发明所提出的对抗样本生成方式更为简洁，模型训练完毕后，构造对抗样本时不需准备原始样本，生成对抗样本的数量不受限制。

Claims

1.一种图像对抗样本生成方法，其特征在于包括：

a.根据所需图像对抗样本的要求，构建双生成器(样本生成器G1，扰动生成器G2)的生成对抗网络，具体地：

a1.输入所需对抗样本的原始类别、攻击类别和扰动系数；

a2.判断样本生成器G1是否已被训练，具体地，样本生成器G1由卷积神经网络构建，作用是生成符合原始类别的图像样本；

a3.若样本生成器G1没被训练，则使用目标模型数据集数据训练样本生成器G1，其输入为高维噪音和原始类别符号，输出为符合原始类别的图像数据，模型训练完毕后将模型保存，同时生成符合原始类别的图像数据，具体地，样本生成器G1的输入为高维噪音，输出为符合原始类别的图像数据，模型训练完毕后将模型保存，同时生成符合原始类别的图像数据；

a4.若样本生成器G1已被训练，则生成符合原始类别的图像数据；

a5.将步骤a3/a4生成的图像数据作为输入，训练扰动生成器G2使其生成与输入图像数据和攻击类别对应的扰动，具体地，扰动生成器G2所生成的扰动其范围在(-扰动系数,+扰动系数)之间；

b.根据所需图像对抗样本的需求，输入相应参数得到对抗样本，具体地：

b1.输入所需对抗样本的原始类别、攻击类别和要生成的样本数量；

b2.调用样本生成器G1生成输入样本数量个数的符合原始类别的图像样本，具体地，图像样本由高维随机噪声经过反卷积操作生成；

b3.调用攻击类别所对应的扰动生成器G2生成图像样本所对应的扰动；

b4.将图像样本和所对应的扰动相加并进行规格化，得到所需对抗样本。