CN108537271B

CN108537271B - 一种基于卷积去噪自编码机防御对抗样本攻击的方法

Info

Publication number: CN108537271B
Application number: CN201810305146.5A
Authority: CN
Inventors: 贾云健; 李独运; 李勇明
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2021-02-05
Anticipated expiration: 2038-04-04
Also published as: CN108537271A

Abstract

本发明涉及一种基于卷积去噪自编码机防御对抗样本攻击的方法。对抗图像样本x^*(图像分类器识别输出标签为y^*)是在未经修改的干净图像样本x(图像分类器识别输出标签为y)上经过人为添加对抗扰动所构建的，能够达到y^*≠y的欺诈目的，即使图像分类器将两张本质上代表相同含义的图像错误分成两类。本发明设计了一种基于卷积去噪自编码机CDAE连接至目标图像分类器的集成防御模型，即输入样本首先经过一个训练有素的CDAE内部编码和解码，以移除输入样本中绝大部分对抗扰动，从而输出一个接近于原始干净样本的去噪样本，接着再喂给目标图像分类器，因此可以提升目标分类器分类正确率，起到防御对抗样本攻击的作用。

Description

一种基于卷积去噪自编码机防御对抗样本攻击的方法

技术领域

本发明属于信息安全技术领域，涉及一种基于卷积去噪自编码机防御对抗样本攻击的方法。

背景技术

随着机器学习技术在各个领域得到广泛应用，具体包括身份验证，自动驾驶，语音识别等领域，因此其安全性也备受大家的关注。Nguyen等人在2014年发现深度神经网络很容易被对抗样本所欺骗。Goodfellow等人在2015年的研究表明，任何机器学习分类器都有可能被对抗样本所欺骗，并不局限于深度学习网络。攻击者通过对输入数据源进行细微修改，以达到用户感知不到，而实现机器学习系统接受该数据后做出错误的后续操作的目的即在未经修改的干净样本x(图像分类器识别输出标签为y)上经过人为刻意添加对抗扰动所构建得到对抗图像样本x*(图像分类器识别输出标签为y*)，以达到y*≠y的欺诈目的。举例来说，攻击者可以制作一个经过添加了对抗扰动的红灯样本(在人眼看来两个样本都代表着红灯信号的含义)却能让自动驾驶系统识别成为绿灯信号，这对于道路交通安全来说是非常危险的。

目前用于防御对抗样本攻击的方法主要是进行对抗训练，即在模型训练过程中加入对抗样本，与干净样本一同训练，从而提高目标模型对对抗样本的泛化能力。相较于一般的训练过程，对抗样本的加入意味着训练过程需要消耗更多的计算资源和花费更多的时间代价；且训练时难以同时拟合对抗样本和干净样本；此外，对抗训练的效果取决于对抗样本集合的可代表性，加入新的对抗样本则需重新对目标模型重新进行训练以巩固防御因而效率表现欠佳；另存在缺乏良好可解释性的问题。

因此构建一种能够高效防御对抗样本攻击同时又具有良好可解释性的方法以提升机器学习系统的安全性便显得尤为重要。

发明内容

有鉴于此，本发明目的在于提供一种防御对抗样本攻击的方法，以提高机器学习系统的安全性。由于对抗样本是在干净样本上添加对抗扰动构建而成的，因此设法将对抗样本中的对抗扰动移除，并且移除地越彻底，残留的微小对抗扰动对目标分类器分类结果产生的负面影响就越小，因此可以起到防御对抗样本攻击，显然，这在理论上具有很高的可解释性。

为达到上述目的，本发明提供如下技术方案：去噪自编码机的主要思想是通过使用加入带噪声的训练样本进行训练来重构真实的样本。一般对样本加噪过程使用的是随机噪声，但这不适用于防御对抗攻击，因此我们使用经过特定方法构建带对抗扰动的样本替代带随机噪声的样本进行去噪训练。同时，为了更好应用于高分辨率的图像分类和实现最佳分类性能，我们使用卷积版本的去噪自编码机CDAE。输入样本经过CDAE内部的编码和解码之后能够移除输入样本中绝大部分的对抗扰动，输出一个经过去噪的样本，接着再喂给目标分类器，理论上，CDAE的去噪能力越强，目标分类器分类性能则越接近原始分类正确率。

进一步，实现该方法包括以下几个步骤：

A1：数据抽取：分别从未经任何修改的图像数据集的训练集和测试集中进行图像数据抽取，构建新的训练集和新的测试集；

A2：训练目标分类器：使用A1中所述的新的训练集和新的测试集对目标分类器进行训练和测试，记录在新的测试集下该目标分类器的分类正确率；

A3：构建对抗数据集：选取对抗扰动的系数和对抗样本的生成方法，使用A1中所述的新的训练集和新的测试集，分别构建相对应的对抗训练集和对抗测试集，使用对抗测试集测试A2中训练完成的目标分类器并记录该目标分类器的分类正确率；

A4：根据输入样本的尺寸大小、颜色通道来构建相应的卷积去噪自编码机，使用A3中所述的对抗训练集联合A1中所述的新的训练集对卷积去噪自编码机进行训练，训练目标为最小化重构误差；再使用A3中所述的对抗测试集联合A1中所述的新的测试集测试上述训练完成的卷积去噪自编码机去噪性能；

A5：设计一种基于A4中所述的训练完成的卷积去噪自编码机与目标分类器联合的集成模型；

A6：使用A1中所述的新的测试集和A3中所述的对抗测试集分别对A5中所述的集成模型进行测试，将可见集成模型对于A1中所述的新的测试集的分类正确率与A2中记录的分类正确率接近，同时，集成模型对A3中所述的对抗测试集的分类正确率相比于A3中记录的分类正确率有显著提升，即起到防御对抗样本攻击的作用。

可选的，所述图像数据集为任意可用于分类识别任务的图像数据集。

可选的，所述数据抽取包括：将图像数据平均分配到图像数据集包含的每个类中。

可选的，所述对抗扰动是指利用深度学习网络的可微损失函数的梯度生成的信息，所述对抗扰动的系数可以是固定值，也可以是随机变化值，用于表征对抗扰动的大小。

可选的，所述卷积去噪自编码机包括输入层、编码层和解码层，其中：所述输入层用于输入一个原始表示，即原始图像样本；所述编码层用于将输入编码成隐层表示；所述解码层用于将隐层表示解码成原始表示。

可选的，除位于所述解码层中最后一层的卷积层采用Sigmoid激活函数外，其余卷积层均采用修正线性单元ReLU作为激活函数。

可选的，所述卷积去噪自编码机用于移除对抗样本中的绝大部分对抗扰动。

可选的，所述卷积去噪自编码机去噪过程与目标分类器训练过程彼此独立。

可选的，步骤A4中所述对卷积去噪自编码机进行训练是指将干净样本和对抗样本同时用于最小化卷积去噪编码机重构误差的训练。

可选的，所述分类正确率是指一种用于衡量分类器分类准确性的指标。

本发明的有益效果在于：

1、所设计的卷积去噪自编码机连接目标分类器的集成模防御型，能够显著提高目标分类器对对抗样本的分类正确率，并具有良好的可解释性；

2、由于卷积去噪自编码机的去噪过程与目标分类器的训练过程相独立，后续无需对目标分类器反复训练以巩固防御效果，可移植性高；

3、所述方法属于无监督学习，训练样本无需标注标签，故可减少计算开销和工作量；

4、对卷积去噪自编码机的结构及参数作相应适当的修改即可应用于不同尺寸图像的去噪，扩展性好。

附图说明

图1为本发明实施例提供的一种基于卷积去噪自编码机防御对抗样本欺诈攻击方法的流程图；

图2为本发明实施例提供的卷积去噪自编码机与目标分类器联合的集成防御模型示意图；

图3为本发明实施例所用卷积去噪自编码机的网络结构示意图；

图4为本发明实施例的干净样本、对抗样本及去噪样本对比效果图。

具体实施方式

为了更形象阐述本方法的操作流程思路，我们使用MNIST数据集和Cleverhans库加以解释说明，但值得强调的是，本发明不局限于MNIST数据集，而普适于任何用作分类识别的图像数据集，并且实施参数需根据实际情况作出相应的调整与修改。

MNIST数据集是谷歌实验室和纽约大学柯朗研究所构建的一个手写数字数据集，训练集包含60000张数字图像，测试集包含10000张，其常被用于图像识别算法的原型验证；Cleverhans是一个开源软件库，提供标准的对抗样本构建的参考实现，可被用于开发更为稳健的机器学习模型。Cleverhans内置了FGSM(Fast Gradient Sign Method，快速梯度符号法)算法(该库还内置其他攻击算法，所提方法不局限于基于FGSM算法生成对抗样本的攻击)，其是Goodfellow等人提出的比较典型的对抗样本生成算法，原理简述如下：

其中，x代表输入的干净样本，y代表输入样本的真实标签，J代表损失函数，ε代表对抗扰动的系数，sign代表符号函数，x^adv代表生成的对抗样本。

如图1所示，本发明实施例提供一种基于卷积去噪自编码机防御对抗样本攻击的方法，具体实施过程包括如下步骤：

A1：数据抽取：分别从未经任何修改的图像数据集的训练集和测试集中进行图像数据抽取，构建新的训练集和新的测试集。

进一步地，所述数据抽取包括将图像数据平均分配到图像数据集包含的每个类中。

进一步地，所述图像数据集为任意可用于分类识别任务的图像数据集。

在本实施例中，选择从MNIST数据集的训练集中均匀抽取20000张图片构建新的训练集，用X_train表示，即意味着每个类均包含2000张图片；从MNIST数据集的测试集中均匀抽取5000张图片构建新的测试集，用X_test表示，即意味着每个类均包含500张图片。

A2：训练目标分类器：使用步骤A1中所述的新的训练集和新的测试集对目标分类器进行训练和测试，记录在新的测试集下该目标分类器的分类正确率。

在本实施例中，用f表示基于卷积神经网络的目标分类器，用步骤A1中所述的X_train对f进行训练，调参优化后记为f_pre；用步骤A1中所述的X_test对f_pre进行测试，并记录测试后的f_pre的分类正确率，用

表示。

A3：构建对抗数据集：选取对抗扰动的系数和对抗样本的生成方法，使用步骤A1中所述的新的训练集和新的测试集，分别构建相对应的对抗训练集和对抗测试集，使用对抗测试集测试步骤A2中训练完成的目标分类器并记录该目标分类器的分类正确率。

进一步地，所述对抗扰动是指利用深度学习网络的可微损失函数的梯度生成的信息。

在本实施例中，选取ε作为对抗扰动的系数，ε可以是固定值，也可以是随机变化值，用于表征对抗扰动的大小。

在本实施例中，优选采用ε的随机变化值以获得一个高代表性的对抗样本集合。利用FGSM算法，对新的训练集X_train生成一个加入了对抗扰动的对抗训练集，用

表示，对新的测试集X_test运用相同的操作，生成的对抗测试集用

表示；用对抗测试集

对目标分类器f_pre进行测试，记录测试后的f_pre的分类正确率，用

表示；

A4：根据输入样本的尺寸大小、颜色通道构建相应的卷积去噪自编码机CDAE，用步骤A3中所述的对抗训练集

联合步骤A1中所述的新的训练集X_train对卷积去噪自编码机CDAE进行训练，训练目标为最小化重构误差。再用步骤A3中所述的对抗测试集

和步骤A1中所述的新的测试集X_test测试所构建的卷积去噪自编码机CDAE的去噪性能；

进一步地，所述卷积去噪自编码机用于移除对抗样本中的绝大部分对抗扰动。

在深度学习中，卷积去噪自编码机是一种无监督学习模型，针对本实施例的具体构造过程如下，其结构示意图如附图3所示：

a.输入层

输入层输入一个原始表示，本实施例的输入为28×28×1的图像，表示尺寸大小为28×28的单通道(即深度为1)图像。

b.编码层

编码层将原始表示编码成隐层表示，其由1个28×28×64卷积层、1个14×14×64卷积层、3个2×2最大池化层及1个7×7×32卷积层组成，卷积层使用修正线性单元ReLU作为激活函数。

c.解码层

解码层将上述得到的隐层表示解码成原始表示，其由1个7×7上采样层、1个7×7×32卷积层、1个14×14上采样层、1个14×14×64卷积层、1个28×28上采样层、1个28×28×64卷积层以及1个28×28×1卷积层组成。

需要说明的是，解码层中的卷积层除最后一层采用Sigmoid激活函数外，其余卷积层均采用修正线性单元ReLU作为激活函数。

最小化Sigmoid交叉熵损失函数作为训练目标，优化卷积去噪自编码机的去噪性能。

进一步地，所述对卷积去噪自编码机CDAE进行训练是指将干净样本和对抗样本同时用于最小化卷积去噪编码机重构误差的训练。

在本实施例中，所述卷积去噪自编码机的去噪效果如图4所示。第一行为干净样本，第二行是在干净样本基础上用特定攻击方法构建的对抗样本，第三行是对抗样本经过训练有素的卷积去噪自编码机移除对抗扰动后得到的去噪样本。

A5：设计一种基于步骤A4中所述的训练完成的卷积去噪自编码机与目标分类器联合的集成模型。

在本实施例中，用f_CDAE表示在目标分类器f_pre输入之前连接一个卷积去噪自编码机CDAE的集成防御模型，具体如附图2中虚线框所示。其中x为输入干净样本，x*为用特定攻击方法构建(包括但不局限于FGSM算法)的对抗样本，x^为经过卷积去噪自编码机处理的去噪样本，y_pred为目标分类器输出的预测标签；

可以看出，卷积去噪自编码机去噪过程与目标分类器的训练过程彼此独立，因此后续无需对目标分类器反复训练以巩固防御效果。举例来说，假设有n个不同的目标分类器，用

表示对抗样本训练集合，当

得到更新时，以往为巩固防御效果需对n个不同的目标分类器分别重新进行对抗训练，因此效率欠佳，尤其是在数据集较大和分类器数目较多时表现将会更为明显；而使用所述卷积去噪自编码机→目标分类器结构的集成模型只需对卷积去噪自编码机进行训练，即可移植给其余n-1个不同的目标分类器，因此可简化训练过程。

在本实施例中，使用步骤A1中构建的新的测试集X_test对f_CDAE进行测试，记录分类正确率，用

表示；使用步骤A3中构建的对抗测试集

对f_CDAE进行测试，记录分类正确率，用

表示；通过对比

和

和

结果可见，

与

接近，

相比于

有显著提升。

在本实施例中，相比较于对输入样本不采取任何措施直接进行分类，集成了卷积去噪自编码机CDAE后能够将输入样本中的对抗扰动尽可能地移除，使喂给目标分类器的样本接近于干净样本，基于上述，

会与

非常接近，但也存在有轻微损失的可能；与此同时，相较于没有采取防御措施时目标分类器的

得益于引入CDAE去噪的防御机制，目标分类器的

将会得到显著改善，即起到防御对抗样本攻击的作用。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于卷积去噪自编码机的防御对抗样本攻击的方法，用于防御对抗样本攻击，提高机器学习系统的安全性，具体包括如下步骤：

A3：构建对抗数据集：选取ε作为对抗扰动的系数，其中，ε可以是固定值，也可以是随机变化值，并采用ε的随机变化值以获得一个高代表性的对抗样本集合，使用A1中所述的新的训练集和新的测试集，分别构建相对应的对抗训练集和对抗测试集，使用对抗测试集测试A2中训练完成的目标分类器并记录该目标分类器的分类正确率；

A4：根据输入样本的尺寸大小、颜色通道来构建相应的用于移除对抗样本中的绝大部分对抗扰动卷积去噪自编码机，使用A3中所述的对抗训练集中的对抗样本联合A1中所述的新的训练集中的干净样本对卷积去噪自编码机进行重构误差训练，训练目标为最小化重构误差；再使用A3中所述的对抗测试集联合A1中所述的新的测试集测试上述训练完成的卷积去噪自编码机去噪性能；

A5：设计一种基于A4中所述的训练完成的卷积去噪自编码机与目标分类器联合的集成模型，该集成模型由目标分类器的输入端连接卷积去噪自编码机构成；

A6：使用A1中所述的新的测试集和A3中所述的对抗测试集分别对A5中所述的集成模型进行测试，将可见集成模型对于A1中所述的新的测试集的分类正确率与A2中记录的分类正确率接近，同时，集成模型对A3中所述的对抗测试集的分类正确率相比于A3中记录的分类正确率有显著提升，即卷积去噪自编码机对对抗样本的去噪能力，能够输出非常接近于干净样本的去噪样本，从而起到防御对抗样本攻击的作用。

2.根据权利要求1所述的方法，其特征在于，所述图像数据集为任意可用于分类识别任务的图像数据集。

3.根据权利要求1所述的方法，其特征在于，所述数据抽取包括：将图像数据平均分配到图像数据集包含的每个类中。

4.根据权利要求1所述的方法，其特征在于，所述对抗扰动是指利用深度学习网络的可微损失函数的梯度生成的信息；所述对抗扰动的系数可以是固定值，也可以是随机变化值，用于表征对抗扰动的大小。

5.根据权利要求1所述的方法，其特征在于，所述卷积去噪自编码机包括输入层、编码层和解码层，其中：所述输入层用于输入一个原始表示，即原始图像样本；所述编码层用于将输入编码成隐层表示；所述解码层用于将隐层表示解码成原始表示。

6.根据权利要求5所述的方法，其特征在于，除位于所述解码层中最后一层的卷积层采用Sigmoid激活函数外，其余卷积层均采用修正线性单元ReLU作为激活函数。

7.根据权利要求1所述的方法，其特征在于，所述卷积去噪自编码机去噪过程与目标分类器训练过程彼此独立。

8.根据权利要求1所述的方法，其特征在于，步骤A4中所述对卷积去噪自编码机进行训练是指将干净样本和对抗样本同时用于最小化卷积去噪编码机重构误差的训练。

9.根据权利要求1所述的方法，其特征在于，所述分类正确率是指一种用于衡量分类器分类准确性的指标。