CN112381152B

CN112381152B - 一种基于攻击成本的对抗样本检测方法

Info

Publication number: CN112381152B
Application number: CN202011285900.7A
Authority: CN
Inventors: 宋富; 赵哲; 陈光科
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2023-12-05
Anticipated expiration: 2040-11-17
Also published as: CN112381152A

Abstract

本发明涉及一种基于攻击成本的对抗样本检测方法，其特征在于，包括以下步骤：利用已有的正常样本和对抗样本数据集，计算出正常样本和对抗样本的攻击成本分布；使用正常样本和对抗样本的攻击成本，有监督的构造分类器；或仅使用正常样本指标，构造异常值检测器；对于新输入的样本，计算出其攻击成本，利用分类器或异常值检测器判断新输入样本是否为正常样本或对抗样本。

Description

一种基于攻击成本的对抗样本检测方法

技术领域

本发明涉及一种基于攻击成本的对抗样本检测方法。

背景技术

目前基于神经网络的人工智能技术被广泛应用在人机交互、医疗诊断、自动驾驶等各个领域，其受攻击的可能性以及是否具备较强的鲁棒性备受业界关注，在安全攸关的场景中使用人工智能，需要确保人工智能系统在面对由环境变化、人为攻击等因素产生的安全挑战时，可以有着稳定的、可靠的输出结果。如果人工智能系统被入侵或者产生了错误的判断，引发的连锁反应会造成严重后果。人工智能面临的安全挑战以及对应的安全性研究是人工智能技术落地的重要一环。

对抗样本(Adversarial examples)作为一种针对人工智能系统设计的特定攻击，近年来得到了飞速的发展。对抗样本是指，通过在正常样本上添加人类难以察觉的扰动，导致图片在可以被人类正确分类的情况下，让神经网络产生误判。对抗样本生成技术中，最简单且常见的方法被称为快速符号梯度攻击(Fast gradient sign method)，该方法利用了神经网络训练过程中依赖的关键信息——梯度，通过获得输入样本的梯度信息并沿着梯度方向对输入样本进行扰动，可以获得十分微小且有效的噪声，进而得到让神经网络误判的对抗样本。

为了阻止此类攻击，许多防御方法被提出，其中主要的思想为梯度混淆，这类方法通过对神经网络结构或者预处理方法进行变换，使得攻击者无法直接获得梯度。这种方法在攻击者完全对防御不知情时，有较好的效果，但攻击者一旦知晓了防御手段，很容易绕过防御混淆。因此目前对抗样本的防御依然是一个亟待解决的问题。

发明内容

本发明的目的是：通过利用正常样本和对抗样本之间攻击成本的差异引申出相应一系列的检测方法，使得防御者可对输入进行分类，检测出其中的对抗样本。

为了达到上述目的，本发明的技术方案是提供了一种基于攻击成本的对抗样本检测方法，其特征在于，利用正常样本和对抗样本的攻击成本差异检测出对抗样本，包括以下步骤：

步骤1：利用已有的正常样本数据集和对抗样本数据集，计算出正常样本和对抗样本的攻击成本分布，其中，正常样本为可以被神经网络正确分类的样本；

步骤2：使用步骤1中获得的正常样本的攻击成本分布和对抗样本的攻击成本，有监督的构造分类器；

或者仅使用步骤1中获得的正常样本的攻击成本分布，构造异常值检测器；

步骤3：计算得到新输入的样本的攻击成本，基于得到的攻击成本利用步骤 2获得的分类器或异常值检测器判断新输入的样本是否为正常样本或对抗样本。

优选地，所述攻击成本为输入攻击成功所需要的攻击时间或者输入攻击成功所需要的迭代次数。

优选地，构造分类器时，使用多种攻击成本构造多种分类器或多维分类器，结合多种分类器的所有分类结论或基于多维分类器得出的分类结论对新输入的样本是否为正常样本或对抗样本进行判断。

优选地，通过提升模型鲁棒性的方式，扩大正常样本和对抗样本的攻击成本差异，进而提升检测准确率。

正常样本和对抗样本之间攻击成本的差异是输入样本的固有属性，不可导且易于计算。通过对上述特征的利用，使得本发明提供的方法具有较好的准确率和检测效率，并具有较强的可解释性和可扩展性。

本发明中使用的攻击成本，在对抗样本和正常样本之间有很高的区分度，提出的检测方法，在面对JSMA、Deepfool等方法生成的对抗样本时，有着极高的准确率，且难以被基于梯度的攻击手段攻破。

附图说明

图1为本发明的技术方案的具体步骤；

图2为正常样本和对抗样本的攻击成本差异展示。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

根据本发明的技术方案，实施重点是获取正常样本和对抗样本的攻击成本数据，对攻击成本数据进行学习，并以此作为分类依据。兹以优选实施例，对本发明作进一步的详细说明，具体实施技术方案如图1所示。

步骤1：本地生成样本并计算其攻击成本，包括以下步骤：

步骤1.1：获得神经网络训练时使用的训练样本集，将其中可以被网络正确分类的样本视为正常样本。对神经网络的训练样本集实施常见的对抗样本攻击，包括但不限于快速梯度迭代攻击方法、基础迭代攻击方法、优化攻击方法等，并将这些样本视为对抗样本。

步骤1.2：计算训练样本集中样本的攻击成本，指标可以由以下两种形式体现：对输入攻击成功所需要的攻击时间；对输入攻击成功所需要的迭代次数。由于正常样本所处的集合在神经网络训练过程中，会被神经网络多次学习特征并分类，所以这部分样本往往具有更好的鲁棒性，因此攻击成本较高。

以攻击成功所需要的迭代次数为例，我们可以使用迭代攻击方法对样本进行攻击，并获得该数据，例如基础迭代攻击BIM(Basic iteration attack method)，该攻击首先会计算在攻击者设定的损失函数上对输入的梯度，随后求出梯度的方向，并在该方向上对每个像素都进行轻微的扰动。以上过程会不断迭代，直至攻击成功或者达到了我们设置的阈值。其主要思想如下式(1)所示：

式(1)中，x代表原样本；x′代表生成的对抗样本；α代表每次修改的步长，也就是轻微扰动的大小；sign函数返回梯度的方向(+1、-1或者0)；J(x)代表攻击者定义的损失函数；代表针对原样本得出的梯度。

在迭代攻击完成后，其迭代次数被记为N。对于正常样本，N值要远高于大多数的对抗样本。这意味着可以使用这一攻击成本对新输入的样本进行分类。经实验结果显示，在MNIST数据集上，正常样本的N值的平均值约为对抗样本的50 倍，在CIFAR10数据集上，正常样本的N值的平均值约为对抗样本的5倍。这一数值会受到模型鲁棒性的影响，模型鲁棒性更好时，正常样本和对抗样本的鲁棒性之间会进一步拉大。在图2中，具体的展示了这一差异，其中横轴代表了五种不同输入，分别是正常样本和在FGSM、BIM、JSMA、C&W四种攻击方法下生成的对抗样本，纵轴代表了攻击迭代次数N的分布。图2中，正常样本的N值平均为255，而多种对抗样本的N值的平均值都在30以下。需要注意的是，该方法有很好的通用型，基于迭代的攻击方法大多数都可被用作检测指标，并且该指标面对多种对抗样本均有效。

步骤2：利用步骤1中获得的攻击成本构造分类器，分为以下两种情况讨论：

第一种情况：

防御者已知正常样本和部分对抗样本的攻击成本数据。此时，将步骤1中获得的攻击成本数据作为新分类器的训练集，并打上标签。假设所有正常样本的攻击成本被分类为第0类，所有对抗样本的攻击成本被分类为第1类。随后，使用获得的攻击成本数据训练分类器。由于攻击成本有着良好的区分度，此处的分类方法在使用K近邻算法、逻辑回归、决策树、随机森林、支持向量机等常见分类器时，都能取得较高的分类成功率。

第二种情况：

防御者仅知晓正常样本的攻击成本。此时，可以使用异常检测方法对正常样本和对抗样本进行区分。若某一样本的攻击成本相对正常样本属于异常值，认为该样本为对抗样本。异常值检测方法包括但不限于均方差异常值检测方法、箱形图检测方法、聚类算法、孤立森林算法等。

步骤3：计算新输入对象的攻击成本，并进行分类。与步骤2一致，分为以下两种情况讨论：

第一种情况：

以K近邻算法为例，计算新输入数据被攻击成功所需要的迭代次数N后，判断与其最接近的K个样本中，哪一种类别的样本居多。若K个样本中正常样本占大多数，认为新输入的对象为正常样本，反之亦然。具体而言，假设在步骤1中获得了5个正常样本的N值(101，102，103，104，105)和5个对抗样本的N值 (11，12，13，14，15)。在K-近邻算法中，假设K＝3，此时输入一个新样本，计算其N值为80，则距离其最近的三个邻居为101、102、103，均为正常样本，则输入会被认为是正常样本。

第二种情况：

以均方差异常值检测方法为例，可以使用均值和标准差计算出大多数样本所处的区间，若输入样本的攻击成本不在此区间内，将其认为是异常值，即对抗样本；若输入样本未被检测为异常值，可以将其认为是正常样本。具体而言，假设在步骤1中获得了100个正常样本的N值，其均值为100，标准差为10且服从正态分布。根据正态分布的样本分布可知，大约68％的数据值会在均值的一个标准差范围内，大约95％会在两个标准差范围内，大约99.7％会在三个标准差范围内。若想要保证95％的正常样本识别率，则可以将N<80的输入认为是异常值，即对抗样本，这里的阈值可以根据实际需求调整。

上述实施例可与优选技术特征结合，在此处兹以说明。

在步骤1中，可以使用对抗训练等方式提升模型鲁棒性，这样有助于增大攻击成本的区分度。模型鲁棒性的提升，可以增大正常样本的攻击成本，此时攻击正常样本需要的最小扰动会增大，攻击时间和迭代次数也会增加，这会导致正常样本攻击成本和对抗样本攻击成本的比值进一步提升，有助于提高本方法的检测准确率。

在步骤1、2、3中，可以使用多种分类器相结合的方法提高检测准确率。本发明的关键是使用攻击成本进行对抗样本检测。步骤1中的攻击成本可以分为对输入攻击成功所需要的攻击时间；对输入攻击成功所需要的迭代次数。在每一类下，都有多种不同的计算方法，以输入攻击成功所需要的迭代次数N为例，可以一个输入样本实施多种不同攻击，获得多种攻击所需要的不同的N值N₁,N₂,…,N_n。步骤2、3中可以使用多个攻击成本构造多种或多维分类器并进行相应分类。

Claims

1.一种基于攻击成本的对抗样本检测方法，其特征在于，利用正常样本和对抗样本的攻击成本差异检测出对抗样本，包括以下步骤：

步骤3：计算得到新输入的样本的攻击成本，基于得到的攻击成本利用步骤2获得的分类器或异常值检测器判断新输入的样本是否为正常样本或对抗样本。

2.如权利要求1所述的一种基于攻击成本的对抗样本检测方法，其特征在于，所述攻击成本为输入攻击成功所需要的攻击时间或者输入攻击成功所需要的迭代次数。

3.如权利要求1所述的一种基于攻击成本的对抗样本检测方法，其特征在于，构造分类器时，使用多种攻击成本构造多种分类器或多维分类器，结合多种分类器的所有分类结论或基于多维分类器得出的分类结论对新输入的样本是否为正常样本或对抗样本进行判断。

4.如权利要求1所述的一种基于攻击成本的对抗样本检测方法，其特征在于，通过提升模型鲁棒性的方式，扩大正常样本和对抗样本的攻击成本差异，进而提升检测准确率。