CN113657448B

CN113657448B - 一种基于生成对抗网络和梯度解释的对抗样本防御方法

Info

Publication number: CN113657448B
Application number: CN202110797650.3A
Authority: CN
Inventors: 孔祥维; 杨浩
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-11-24
Anticipated expiration: 2041-07-14
Also published as: CN113657448A

Abstract

本发明公开了一种基于生成对抗网络和梯度解释的对抗样本防御方法。对每幅原始图像进行预处理得到训练图像；构建生成对抗网络，包括由深度神经网络组成的生成器模块和鉴别器模块；将训练图像输入到生成器模块中，得到梯度解释图像；将梯度解释图像和训练图像共同输入到鉴别器中进一步训练得到最终的生成对抗网络；对于待测对象样本，输入到网络中进行预测分类，输出真实样本或者对抗样本的分类结果，对抗样本进行排除，实现对抗样本防御。本发明通过生成对抗网络约束梯度解释和原始图像之间的特征分布，使训练后的图像分类网络能够更好的抵御对抗样本。

Description

一种基于生成对抗网络和梯度解释的对抗样本防御方法

技术领域

本发明涉及了一种深度学习领域提高模型鲁棒性的方法，尤其是涉及一种基于生成对抗网络和梯度解释的对抗样本防御方法。

背景技术

近年来随着人工智能和深度学习的发展，深度学习相关技术已广泛遍及计算机视觉、自然语言处理、语音识别等多个领域。尽管深度学习模型在很多实际场景中取得了巨大成功，但人们发现它们很容易受到对抗样本的影响。对抗样本是指在数据集中通过故意添加细微干扰所形成的输入样本，这些样本在人眼视觉效果上与真实图像无异，但会导致模型以高置信度给出一个错误的输出。对抗样本的存在对于人工智能系统在实际场景的部署，特别是对安全性要求较高的场景带来了潜在的安全威胁。

针对对抗样本引起的人工智能安全性问题，研究者们已经提出了大量的防御方法提升模型鲁棒性。这些防御方法大致可分为四类：基于转换的方法、基于梯度掩蔽的方法、基于对抗训练的方法和基于检测的方法。

基于转换的方法是在样本输入到模型进行判定之前，先对样本进行预处理，剔除其中扰动的信息。但预处理同时也会影响对真实样本的预测结果，降低真实样本的预测准确率。基于梯度掩蔽的方法通过隐藏模型的原始梯度，能够防御基于梯度方法产生的对抗样本，但对其他方法的对抗样本效果会下降。

基于检测的方法只是能够发现输入样本中的对抗样本，但无法进行防御，不适用于实际场景中使用。基于对抗训练的防御方法是将生成的对抗样本加入到训练集中与真实样本一起训练，让模型在训练时就先学习一遍对抗样本，可理解为一种数据增强的技术。在这些防御方法中，基于对抗训练的方法被认为具有最强大的防御能力，但不可避免的缺点是大大增加了训练模型的时间，同时会降低预测真实样本的准确率。

发明内容

为了克服深度神经网络模型易受对抗样本的影响，解决基于对抗训练的对抗样本防御方法模型训练效率低，同时会降低预测真实样本准确率的技术问题，本发明提供了一种基于生成对抗网络和梯度解释的对抗样本防御方法。本发明针对所有类型的对抗样本都有很好的防御效果，同时在模型训练过程中无需对抗样本参与，提高了的训练效率，并且不影响模型预测真实样本的准确性。

本发明是通过以下技术方案来实现的：

步骤1)对于每幅原始图像x_o进行预处理，得到训练图像x；

步骤2)构建生成对抗网络，生成对抗网络包括由深度神经网络组成的生成器模块和鉴别器模块；

步骤3)将训练图像x输入到生成器模块中，得到梯度解释图像IG(x)；

步骤4)将步骤3)中得到的梯度解释图像IG(x)和训练图像x共同输入到鉴别器中模块，进一步训练得到最终的生成对抗网络；

步骤5)对于待测对象图像样本，输入到步骤4)获得的生成对抗网络中进行正确的预测分类，输出真实样本或者对抗样本的分类结果，对抗样本进行排除，实现对抗样本防御。

本发明的样本通常为生活中的需要识别目标的图像，所述对抗样本为影响分类的干扰图像。

所述步骤1)具体为：

将均匀分布的噪声ε加入到原始图像x_o的各个像素中，得到预处理后的训练图像x，计算过程如下式所示：

x＝x_o+ε，ε_i～unif[-∈，∈]，ε＝{ε_i}

其中，unif[-∈，∈]表示大小分布在[-∈，∈]之间的均匀噪声，∈表示噪声大小，i表示图像中的像素的序数，ε_i表示图像中的像素i处所添加的噪声。

所述步骤2)中，生成对抗网络包括分类器F、适应器A和鉴别器D，分类器F和适应器A共同组成生成器模块。

所述步骤2)中，分类器F是由ResNet18网络组成，适应器A主要由带有激活层的1×1卷积组成，鉴别器D主要由三个卷积层依次连接组成。

所述步骤3)中具体为：

3.1)首先将步骤1)得到的训练图像x输入到生成器模块中的分类器F中，得到初始梯度解释图像IG_o(x)，计算过程如下式所示：

其中，x′表示基准图像，下标i表示图像的第i个像素，x_i表示图像第i个像素处的像素值，α表示由0到1的积分路径，F()表示分类器F，IG_o(x)表示由训练图像x对应获得的初始梯度解释图像；

3.2)然后将初始梯度解释图像IG_o(x)输入到适应器A中，使初始梯度解释图像映射到图像域，得到最终的梯度解释图像IG(x)：

IG(x)＝A(IG_o(x))

其中，IG(x)表示由训练图像x对应获得的梯度解释图像，A()表示适应器A；

所述步骤4)中具体为：

4.1)将梯度解释图像IG(x)和训练图像x共同输入到鉴别器D中，分别计算分类损失L_cls和生成对抗损失L_adv，计算过程如下式：

L_cls＝-C(F(x)，y)

L_adv＝E_xlog D(x)+E_IG(x)[log(1-D(IG(x)))]

其中，C表示交叉熵损失，y表示训练图像的标签，D()表示鉴别器D，E_x表示求以训练图像x作为变量的期望，E_IG(x)表示求以梯度解释图像IG(x)作为变量的期望；

4.2)利用分类损失L_cls和生成对抗损失L_adv分别利用自适应矩估计(Adam)优化器对分类器、适应器和鉴别器参数进行优化，优化过程如下式所示：

其中，θ表示分类器的参数，ξ表示适应器的参数，ψ表示鉴别器的参数，α表示生成对抗损失权重系数。

本发明引入了生成对抗网络来增强梯度解释的显著性，其中生成对抗网络中的生成器模块用于生成显著的梯度解释，鉴别器模块用于鉴别梯度解释和原始图像。生成器和鉴别器间的博弈使得两者特征分布越来越相近，同时训练后的模型能够更好的抵御对抗样本。

本发明的有益效果是：

本发明使训练后的网络具有更好的鲁棒性，避免对抗样本对深度神经网络进行分类和预测时的影响。在防御对抗样本的性能方面，本发明的防御效果在所有对抗样本图像上均有很好表现，同时不影响真实样本的测试准确率。在训练效率方面，本发明的训练时间最短，训练效率最高。

附图说明

图1为本发明所提出的方法的结构图，通过图中的计算流程经过训练得到最终的模型。

图2为本发明与其他方法在原始图像和对抗样本图像测试准确率上的结果对比。

图3为本发明与其他方法每个轮次训练时间上的结果对比。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

按照本发明发明内容完整方法实施的实施例如下：

实施例采用CIFAR10数据集作为训练数据集。

1)对CIFAR10数据集上的图像进行预处理，在每幅图像的像素中加入[-6，6]之间的均匀分布噪声。

2)如图1所示，图像经过ResNet18网络结构的分类器计算初始梯度解释图像，其中计算过程中的基准图像选择全黑图像，即像素点全为0的图像。

构建生成对抗网络，生成对抗网络包括分类器F、适应器A和鉴别器D，分类器F和适应器A共同组成生成器模块；分类器F是由ResNet18网络组成，适应器A主要由带有激活层的1×1卷积组成，鉴别器D主要由三个卷积层依次连接组成。

3)将初始梯度解释图像输入到生成器模块中，得到最终的梯度解释图像IG(x)。

4)将梯度解释图像IG(x)和训练图像x共同输入到鉴别器中，计算生成对抗损失。

5)将标准训练的分类损失加入到生成对抗损失中，利用自适应矩估计(Adam)优化器对分类器、适应器和鉴别器参数进行优化。每更新15次分类器和适应器参数，更新一次鉴别器参数。

6)依据经验设定训练次数为100，设置初始学习率为0.01，训练40次后设置学习率为0.001、生成对抗损失权重系数α设置为1。全部训练结束后得到最终的模型。

图2为本发明与其他方法的对比结果，本方法在各类对抗样本图像上都有较高的测试准确率，在原始图像上的测试准确率虽然略低于标准模型，但相较于其他防御方法性能更好。

图3为本发明与其他方法每个轮次的平均训练时间结果对比。本发明所需训练时间最少，效率最高，与Adv PGD方法相比，具有相近防御性能的同时，训练时间只为其三分之一。

由此可见，本发明通过生成对抗网络约束梯度解释和原始图像之间的特征分布，使训练后的图像分类网络能够更好的抵御对抗样本。

Claims

1.一种基于生成对抗网络和梯度解释的对抗样本防御方法，其特征在于：方法包括以下步骤：

步骤1)对于每幅原始图像x_o进行预处理，得到训练图像x；

步骤4)将步骤3)中得到的梯度解释图像IG(x)和训练图像x共同输入到鉴别器中模块，训练得到最终的生成对抗网络；

步骤5)对于待测对象图像样本，输入到步骤4)获得的生成对抗网络中进行正确的预测分类，输出真实样本或者对抗样本的分类结果，对抗样本进行排除，实现对抗样本防御；

所述步骤2)中，生成对抗网络包括分类器F、适应器A和鉴别器D，分类器F和适应器A共同组成生成器模块；

所述步骤3)中具体为：

IG(x)＝A(IG_o(x))

其中，IG(x)表示由训练图像x对应获得的梯度解释图像，A()表示适应器A。

2.根据权利要求1所述的一种基于生成对抗网络和梯度解释的对抗样本防御方法，其特征在于：所述步骤1)具体为：

x＝x_o+ε，ε_i～unif[-∈，∈]，ε＝{ε_i}

3.根据权利要求2所述的一种基于深度神经网络可解释性的对抗样本防御方法，其特征在于：所述步骤2)中，分类器F是由ResNet18网络组成，适应器A主要由带有激活层的1×1卷积组成，鉴别器D主要由三个卷积层依次连接组成。

4.根据权利要求1所述的一种基于深度神经网络可解释性的对抗样本防御方法，其特征在于：所述步骤4)中具体为：

L_cls＝-C(F(x)，y)

L_adv＝E_xlog D(x)+E_IG(x)[log(1-D(IG(x)))]