CN112381150A

CN112381150A - 一种基于样本鲁棒性差异的对抗样本检测方法

Info

Publication number: CN112381150A
Application number: CN202011284008.7A
Authority: CN
Inventors: 宋富; 赵哲; 陈光科
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-19

Abstract

本发明涉及一种基于样本鲁棒性差异的对抗样本检测方法。其特征在于，包括以下步骤：利用已有的正常样本和对抗样本数据集，计算出正常样本和对抗样本的鲁棒性指标分布；使用正常样本和对抗样本的鲁棒性指标，有监督的构造分类器；或仅使用正常样本指标，构造异常值检测器；对于新输入的样本，计算出其鲁棒性指标，利用分类器或异常值检测器判断新输入样本是否为正常样本或对抗样本。

Description

一种基于样本鲁棒性差异的对抗样本检测方法

技术领域

本发明涉及一种基于样本鲁棒性差异的对抗样本检测方法。

背景技术

目前基于神经网络的人工智能技术被广泛应用在人机交互、医疗诊断、自动驾驶等各个领域，其受攻击的可能性以及是否具备较强的鲁棒性备受业界关注，在安全攸关的场景中使用人工智能，需要确保人工智能系统在面对由环境变化、人为攻击等因素产生的安全挑战时，可以有着稳定的、可靠的输出结果。如果人工智能系统被入侵或者产生了错误的判断，引发的连锁反应会造成严重后果。人工智能面临的安全挑战以及对应的安全性研究是人工智能技术落地的重要一环。

对抗样本(Adversarial examples)作为一种针对人工智能系统设计的特定攻击，近年来得到了飞速的发展。对抗样本是指，通过在正常样本上添加人类难以察觉的扰动，导致图片在可以被人类正确分类的情况下，让神经网络产生误判。对抗样本生成技术中，最简单且常见的方法被称为快速符号梯度攻击(Fast gradient sign method)，该方法利用了神经网络训练过程中依赖的关键信息——梯度，通过获得输入样本的梯度信息并沿着梯度方向对输入样本进行扰动，可以获得十分微小且有效的噪声，进而得到让神经网络误判的对抗样本。

为了阻止此类攻击，许多防御方法被提出，其中主要的思想为梯度混淆，这类方法通过对神经网络结构或者预处理方法进行变换，使得攻击者无法直接获得梯度。这种方法在攻击者完全对防御不知情时，有较好的效果，但攻击者一旦知晓了防御手段，很容易绕过防御混淆。因此目前对抗样本的防御依然是一个亟待解决的问题。

发明内容

本发明的目的是：通过利用正常样本和对抗样本之间固有属性的差异引申出相应一系列的检测方法，使得防御者可对输入进行分类，检测出其中的对抗样本。

为了达到上述目的，本发明的技术方案是提供了一种基于样本鲁棒性差异的对抗样本检测方法，其特征在于，利用正常样本和对抗样本的鲁棒性指标差异检测出对抗样本，包括以下步骤：

步骤1：利用已有的正常样本和对抗样本数据集，计算出正常样本和对抗样本的鲁棒性指标分布，其中，正常样本为可以被神经网络正确分类的样本；

步骤2：使用步骤1中获得的正常样本的鲁棒性指标分布和对抗样本的鲁棒性指标分布，有监督的构造分类器；

或者仅使用步骤1中获得的正常样本的鲁棒性指标分布，构造异常值检测器；

步骤3：计算新输入的样本的鲁棒性指标，基于得到的鲁棒性指标利用步骤2获得的分类器或异常值检测器判断新输入的样本是否为正常样本或对抗样本。

优选地，通过提升模型鲁棒性的方式，扩大正常样本和对抗样本的鲁棒性差异，进而提升检测准确率。

优选地，构造分类器时，使用多种鲁棒性指标构造多种分类器或多维分类器，结合多种分类器的所有分类结论或基于多维分类器得出的分类结论对新输入的样本是否为正常样本或对抗样本进行判断。

本发明通过正常样本和对抗样本之间固有属性的差异，提出一种不可导的区分特征。该特征易于计算，通过对该特征的利用，可以引申出相应一系列的检测方法，防御者可使用此方法对输入进行分类，检测出其中的对抗样本。本发明提供的方法具有较好的准确率和检测效率，并具有较强的可解释性和可扩展性。

本发明中使用的鲁棒性指标在对抗样本和正常样本之间有很高的区分度，提出的检测方法在面对JSMA、Deepfool等方法生成的对抗样本时，有着极高的准确率，且难以被基于梯度的攻击手段攻破。

附图说明

图1为本发明的技术方案的具体步骤。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

根据本发明的技术方案，实施重点是获取正常样本和对抗样本的鲁棒性指标数据，对鲁棒性指标数据进行学习，并以此作为分类依据。兹以优选实施例，对本发明作进一步的详细说明，具体实施技术方案如图1所示。

步骤1：本地生成样本并计算其鲁棒性指标，包括以下步骤：

步骤1.1：获得神经网络训练时使用的训练样本集，将其中可以被网络正确分类的样本作为正常样本。对神经网络的训练样本集实施常见的对抗样本攻击，包括但不限于快速梯度迭代攻击方法、基础迭代攻击方法、优化攻击方法等，并将这些样本视为对抗样本；

步骤1.2：计算训练集样本的鲁棒性指标，由于正常样本所处的集合在网络训练过程中，会被网络多次学习特征并分类，所以这部分样本往往具有更好的鲁棒性。鲁棒性指标有多种表示形式，以局部鲁棒性为例，局部鲁棒性表示了样本被攻击成功所需要的最小扰动，其主要目的如下式(1)所示：

上式(1)中，x为原样本，f(x)为原样本分类的结果，x′代表生成的对抗样本，f(x′)为对抗样本分类的结果，δ为添加的扰动，min函数用于计算最小值。

局部鲁棒性的计算有多种方式，例如C&W算法、L-BFGS优化方法、线性规划算法、基于约束求解的算法、CLEVER(Cross Lipschitz Extreme Value)算法等。在计算完成后，样本的鲁棒性指标被记为N。对于正常样本，其N值要远高于大多数的对抗样本。这意味着可以使用这一鲁棒性指标对新输入的样本进行分类。以CLEVER算法为例，实验结果显示，在MNIST数据集上，正常样本的N值的平均值约为对抗样本70倍，在CIFAR10数据集上，正常样本的N值的平均值约为对抗样本的5倍，同时，这一数值会受到模型鲁棒性的影响，模型鲁棒性更好时，正常样本和对抗样本的鲁棒性之间会进一步拉大。在下表1中，具体的展示了这一鲁棒性差异，Benign Examples(正常样本)列，代表了正常样本的鲁棒性指标数据，Adversarial Examples(对抗样本)列，代表了对抗样本的鲁棒性指标数据，这里选取了多种不同的对抗样本进行计算比较。分别在两个数据集的四种条件下计算了正常样本和对抗样本的CLEVER指标，展示了不同样本鲁棒性指标数据的均值、90％的置信区间以及正常样本和对抗样本之间的均值大小比率。

表1：正常样本和对抗样本的鲁棒性指标差异展示

步骤2：利用步骤1中获得的鲁棒性指标构造分类器，分为以下两种情况讨论：

第一种情况：

防御者已知正常样本和部分对抗样本的鲁棒性指标数据。此时，该方法将步骤1中获得的鲁棒性指标数据作为新分类器的训练集，并打上标签。假设所有正常样本的鲁棒性指标被分类为第0类，所有对抗样本的鲁棒性指标被分类为第1类。随后，使用获得的鲁棒性指标数据训练分类器。由于鲁棒性指标有着良好的区分度，此处的分类方法在使用K近邻算法、逻辑回归、决策树、随机森林、支持向量机等常见分类器时，都能取得较高的分类成功率。

第二种情况：

防御者仅知晓正常样本的鲁棒性指标结果。此时，可以使用异常检测方法对正常样本和对抗样本进行区分，包括但不限于均方差异常值检测方法、箱形图检测方法、聚类算法、孤立森林算法等。

步骤3：计算新输入对象的鲁棒性指标，并进行分类。分为以下两种情况讨论：

第一种情况：

以K近邻算法为例，计算新输入数据的鲁棒性指标后，判断与其最接近的K个样本中，哪一种类别的样本居多。若K个样本中正常样本占大多数，认为新输入的对象为正常样本，反之亦然。具体而言，假设在步骤1中获得了5个正常样本的N值(1，2，3，4，5)和5个对抗样本的N值(0.1，0.2，0.3，0.4，0.5)，在K-近邻算法中，假设K＝3，此时输入一个新样本，计算其N值为0.8，则距离其最近的三个邻居为1、2、3，均为正常样本，则输入会被认为是正常样本。

第二种情况：

以均方差异常值检测方法为例，可以使用均值和标准差计算出大多数样本所处的区间，若输入样本的鲁棒性指标不在此区间内，将其认为是异常值，即对抗样本；若输入样本未被检测为异常值，可以将其认为是正常样本。具体而言，假设在步骤1中获得了100个正常样本的N值，其均值为1，标准差为0.1且服从正态分布，根据正态分布的样本分布可知，大约68％的数据值会在均值的一个标准差范围内，大约95％会在两个标准差范围内，大约99.7％会在三个标准差范围内。若想要保证95％的正常样本识别率，则可以将N<0.8的输入认为是异常值，即对抗样本，这里的阈值可以根据实际需求调整。

上述实施例可与优选技术特征结合，在此处兹以说明。

在步骤1中，可以使用对抗训练等方式提升模型鲁棒性，这样有助于增大鲁棒性指标的区分度。模型鲁棒性的提升，可以增大正常样本的鲁棒性指标，此时攻击正常样本需要的最小扰动会增大，这会导致正常样本鲁棒性指标和对抗样本鲁棒性指标的比值进一步提升，有助于提高本方法的检测准确率。

在步骤1、2、3中，可以使用多种分类器相结合的方法提高检测准确率。本发明的关键是使用鲁棒性指标进行对抗样本检测，步骤1中的鲁棒性指标可以从多角度使用多种方法进行计算，获得多种鲁棒性指标的分布N₁,N₂,…,N_n。步骤2、3中可以使用多个鲁棒性指标构造多种或多维分类器并进行相应分类。

Claims

1.一种基于样本鲁棒性差异的对抗样本检测方法，其特征在于，利用正常样本和对抗样本的鲁棒性指标差异检测出对抗样本，包括以下步骤：

2.如权利要求1所述的一种基于样本鲁棒性差异的对抗样本检测方法，其特征在于，通过提升模型鲁棒性的方式，扩大正常样本和对抗样本的鲁棒性差异，进而提升检测准确率。

3.如权利要求1所述的一种基于样本鲁棒性差异的对抗样本检测方法，其特征在于，构造分类器时，使用多种鲁棒性指标构造多种分类器或多维分类器，结合多种分类器的所有分类结论或基于多维分类器得出的分类结论对新输入的样本是否为正常样本或对抗样本进行判断。