CN112329837B

CN112329837B - 一种对抗样本检测方法、装置、电子设备及介质

Info

Publication number: CN112329837B
Application number: CN202011203505.XA
Authority: CN
Inventors: 周书亚; 裘晓峰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2023-01-17
Anticipated expiration: 2040-11-02
Also published as: CN112329837A

Abstract

本申请实施例提供了一种对抗样本检测方法、装置、电子设备及介质，涉及深度学习技术领域。该方法包括：获取待分类图像，将待分类图像分别输入图像分类模型和辅助模型，获取图像分类模型对待分类图像的第一分类结果，以及辅助模型对待分类图像的第二分类结果。其中，辅助模型为在指定约束条件下，与图像分类模型的决策边界差异最大的深度学习模型。若第一分类结果与第二分类结果相同，则确定待分类图像的分类结果为第一分类结果；若第一分类结果与第二分类结果不同，则确定待分类图像为对抗样本。采用该方法可以提高深度学习模型在受到对抗样本攻击时的分类准确率。

Description

一种对抗样本检测方法、装置、电子设备及介质

技术领域

本申请涉及深度学习技术领域，特别是涉及一种对抗样本检测方法、装置、电子设备及介质。

背景技术

随着人工智能科技和机器学习的飞速发展，深度学习模型被应用在越来越多的场景中。比如在自动驾驶和智能视频监控的应用场景中，可以将采集到的图像输入到用于对图像分类的深度学习模型，该深度学习模型可以识别出该图像所属的分类。

经研究发现，深度学习模型在图像分类领域具有较高的分类正确率，但是深度学习模型容易受到带有轻微扰动的输入的影响。比如，若采集到的图像被攻击者添加轻微的扰动，则该图像被输入深度学习模型之后，深度学习模型可能会输出错误的分类结果。

目前攻击者可以通过在大量图像中添加通用扰动的方式，导致深度学习模型对大量图像的分类结果均不准确，被添加了扰动的图像可以被称为对抗样本。相关技术中深度学习模型容易受到对抗样本的攻击，使得深度学习模型的分类准确率较低。

发明内容

本申请实施例的目的在于提供一种对抗样本检测方法、装置、电子设备及介质，以提高深度学习模型在受到对抗样本攻击时的分类准确率。

第一方面，本申请实施例提供一种对抗样本检测方法，所述方法包括：

获取待分类图像；

将所述待分类图像分别输入图像分类模型和辅助模型，获取所述图像分类模型对所述待分类图像的第一分类结果，以及所述辅助模型对所述待分类图像的第二分类结果；其中，所述辅助模型为在指定约束条件下，与所述图像分类模型的决策边界差异最大的深度学习模型；

若所述第一分类结果与所述第二分类结果相同，则确定所述待分类图像的分类结果为所述第一分类结果；

若所述第一分类结果与所述第二分类结果不同，则确定所述待分类图像为对抗样本。

在一种可能的实现方式中，所述辅助模型通过以下步骤得到：

针对所述图像分类模型对应的预设训练集中的每个指定样本，生成该指定样本对应的边界样本；其中，所述图像分类模型为基于所述预设训练集对深度学习模型进行训练得到的模型，所述边界样本位于所述图像分类模型的决策边界；

针对每个指定样本，为该指定样本添加指定扰动，得到该指定样本对应的反边界样本；其中，所述指定扰动为：在所述指定约束条件下，使得所述图像分类模型与所述辅助模型的决策边界差异最大的扰动，所述图像分类模型的决策边界基于各指定样本对应的边界样本确定；所述指定约束条件为所述指定扰动的规模小于扰动阈值；

基于所述预设训练集和反边界样本集对深度学习模型进行训练，得到所述辅助模型；所述反边界样本集包括各指定样本对应的反边界样本，以及各反边界样本所属的类别，所述辅助模型的决策边界基于各指定样本对应的反边界样本确定。

在一种可能的实现方式中，所述针对所述图像分类模型对应的预设训练集中的每个指定样本，生成该指定样本对应的边界样本包括：

针对所述图像分类模型对应的预设训练集中的每个指定样本，基于预设公式为该指定样本添加扰动；

其中，所述预设公式为

或者

i为迭代次数；i的初始值为零，当i为0时，x₀为该指定样本；x_i为此次添加扰动前的样本；x_i+1为对x_i添加扰动后得到的样本；η为梯度下降步长；

和

均为添加的扰动；

为

的梯度；

为符号函数；

为

的p范数；

为损失函数，

其中，b为该指定样本的原始类别，t为目标类别，f_b(x)为所述图像分类模型对样本x进行分类得到的分类结果为b类别的概率，f_t(x)为所述图像分类模型对样本x进行分类得到的分类结果为t类别的概率；

将i加1，判断i<max_iter和

>κ是否成立；其中max_iter为最大迭代次数，κ为损失函数阈值；

若是，则返回基于预设公式为该指定样本添加扰动的步骤；

若否，则确定该指定样本对应的边界样本为x^*＝Clip_∈{x_i}，Clip_∈{x_i}用于将x_i的取值限定在预设范围内。

在一种可能的实现方式中，所述针对每个指定样本，为该指定样本添加指定扰动，得到该指定样本对应的反边界样本，包括：

针对每个指定样本，确定该指定样本对应的差值扰动δ_o，其中，x^*＝x+δ_o，x为该指定样本，x^*为该指定样本对应的边界样本；

计算该指定样本对应的满足以下约束条件的指定扰动δ_A：

s.t.||δ_A||_p≤∈

其中，

为δ_A与δ_o之间的欧式距离或者余弦距离，∈为指定扰动δ_A的p范数的最大值；

为该指定样本添加该指定样本对应的指定扰动δ_A，得到该指定样本对应的反边界样本

在一种可能的实现方式中，所述基于所述预设训练集和反边界样本集对深度学习模型进行训练，得到所述辅助模型包括：

分别将所述预设训练集中的每个指定样本和所述反边界样本集中的每个反边界样本输入深度学习模型，获取所述深度学习模型对该指定样本的分类结果和对该反边界样本的分类结果；

获取使得

的值最小时的θ值；

其中，

为基于所述深度学习模型对指定样本x的分类结果计算得到的损失函数，y为指定样本x在所述预设训练集中的标注分类，p_data1为所述预设训练集；θ为所述深度学习模型的模型参数；

为基于所述深度学习模型对反边界样本

的分类结果计算得到的损失函数，t为反边界样本

在所述反边界样本集中的标注分类，p_data2为所述反边界样本集。

第二方面，本发明实施例还提供一种对抗样本检测装置，所述装置包括：

获取模块，用于获取待分类图像；将所述待分类图像分别输入图像分类模型和辅助模型，获取所述图像分类模型对所述待分类图像的第一分类结果，以及所述辅助模型对所述待分类图像的第二分类结果；其中，所述辅助模型为在指定约束条件下，与所述图像分类模型的决策边界差异最大的深度学习模型；

确定模块，用于若所述第一分类结果与所述第二分类结果相同，则确定所述待分类图像的分类结果为所述第一分类结果；若所述第一分类结果与所述第二分类结果不同，则确定所述待分类图像为对抗样本。

在一种可能的实现方式中，所述装置还包括训练模块：

所述训练模块用于：

在一种可能的实现方式中，所述训练模块具体用于：

其中，所述预设公式为

或者

和

均为添加的扰动；

为

的梯度；

为符号函数；

为

的p范数；

为损失函数，

将i加1，判断i<max_iter和

若是，则返回基于预设公式为该指定样本添加扰动的步骤；

在一种可能的实现方式中，所述训练模块具体用于：

计算该指定样本对应的满足以下约束条件的指定扰动δ_A：

s.t.||δ_A||_p≤∈

其中，

在一种可能的实现方式中，所述训练模块具体用于：分别将所述预设训练集中的每个指定样本和所述反边界样本集中的每个反边界样本输入深度学习模型，获取所述深度学习模型对该指定样本的分类结果和对该反边界样本的分类结果；

获取使得

的值最小时的θ值；

其中，

为基于所述深度学习模型对反边界样本

的分类结果计算得到的损失函数，t为反边界样本

第三方面，本发明实施例还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的对抗样本检测方法步骤。

第四方面，本发明实施例还提供一种所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的对抗样本检测方法步骤。

第五方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面中所述的对抗样本检测方法。

本发明实施例有益效果：

采用上述方案，将与图像分类模型的决策边界差异最大的辅助模型与该图像分类模型联合对待分类图片进行分类，辅助模型的决策边界与图像分类模型的决策边界存在差异，且差异最大，所以该对抗样本难以同时跨越图像分类模型和辅助模型的决策边界，从而使得辅助模型对该对抗样本进行分类后输出与图像分类模型不同的分类结果。因此，若图像分类模型和辅助模型对同一待分类图像的分类结果不相同时，便可以确定该待分类图像为对抗样本，此时可以对图像分类模型的输出结果不予置信，能够降低对抗样本对深度学习模型的攻击成功率，从而提高深度学习模型在受到对抗样本攻击时的分类准确率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的一种对抗样本检测方法的流程图；

图2为本申请实施例提供的训练辅助模型的方法的流程图；

图3为本申请实施例提供的生成边界样本的方法的流程示意图；

图4为本申请实施例提供的对抗样本检测方法的流程示意图；

图5为本申请实施例提供的图像分类模型和辅助模型的决策边界的示例性示意图；

图6为本申请实施例提供的对原始样本叠加扰动后得到的边界样本和对抗样本的示例性示意图；

图7为本申请实施例提供的对PGD攻击成功的对抗样本的检测率随PGD攻击中单步扰动参数变化的折线图；

图8为本申请实施例的对PGD攻击失败的对抗样本的检测率随PGD攻击中单步扰动参数变化的折线图；

图9为本申请实施例提供的一种对抗样本检测装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为方便理解，首先对本发明实施例涉及的相关术语进行解释。

对抗攻击：对抗攻击是指攻击者对深度学习模型的输入添加微小的扰动，从而使得深度学习模型产生错误的输出。

以图像分类模型为例，对图像添加微小的扰动是指对图像的像素值进行小幅的增加和/或减小，即攻击者可以对待分类图像的像素值进行小幅的增减，使得图像分类模型对待分类图像分类错误。

对抗样本：对抗样本是指在深度学习模型的数据集包括的样本中，添加微小的扰动后所形成的输入样本，该输入样本会导致高置信度的深度学习模型产生错误的输出。

比如，以深度学习模型为图像分类模型为例，攻击者对正常的待分类图像添加特定的扰动，添加扰动后的待分类图像即为对抗样本，将该对抗样本输入图像分类模型后，图像分类模型对该对抗样本输出的分类结果与原始待分类图像的实际分类不同。对抗样本通常与原始待分类图像非常相似，肉眼难以区分出对抗样本与原始待分类图像之间的差异，但是图像分类模型会对对抗样本输出与原始待分类图像不同的分类结果。

白盒攻击：白盒攻击是指攻击者对目标深度学习模型的结构、深度学习模型所使用的算法、模型参数等设置充分了解，进而对深度学习模型进行对抗攻击。

黑盒攻击：黑盒攻击是指攻击者在不了解目标深度学习模型的结构、深度学习模型所使用的算法、模型参数等设置的情况下，对该深度学习模型进行对抗攻击。

迁移攻击：迁移攻击是指，当攻击者需要对目标模型进行黑盒攻击时，首先通过白盒攻击的方式训练一个替代模型，并利用在替代模型上生成的对抗样本采用黑盒攻击的方式攻击目标模型。其中，目标模型和替代模型均为深度学习模型。用替代模型白盒攻击成功的一组对抗样本，迁移攻击目标模型的成功比例，称为对抗样本从替代模型到目标模型的迁移率。

决策边界：深度学习模型的决策边界是指将样本空间分割为多个集合的超曲面，决策边界由深度学习模型的分类器的参数决定。

在针对二分类的统计分类问题中，深度学习模型的决策边界是个可将基础向量空间划分为两个集合超曲面，分类器将决策边界一侧的所有点归为一个分类，将决策边界另一侧的点归为另一个分类。

边界样本：边界样本是指存在于决策边界附近的样本。深度学习模型对边界样本进行分类所输出的两类分类的概率近似相等。

以待分类图像为包含动物的图像为例，通过深度学习模型对该待分类图像进行分类，若该深度学习模型输出该待分类图像属于“狗”的概率为与属于“猫”的概率近似相等，也可以说深度学习模型输出该待分类图像属于“狗”的概率与属于“猫”的概率之间的差值小于预设概率阈值，则该待分类图像可以称为该深度学习模型的边界样本。因此，深度学习模型的决策边界可以由大量的上述边界样本体现。

为了提高深度学习模型在受到对抗样本攻击时的分类准确率，本发明实施例提供了一种对抗样本检测方法，该方法应用于电子设备，如图1所示，该方法包括：

S101，获取待分类图像。

其中，待分类图像为需要被图像分类模型进行分类的图像。比如，若图像分类模型用于对图像中包括的交通工具进行分类，则待分类图像为包含交通工具的图像。

S102，将待分类图像分别输入图像分类模型和辅助模型，获取图像分类模型对待分类图像的第一分类结果，以及辅助模型对待分类图像的第二分类结果。

其中，图像分类模型为预先训练好的深度学习模型，该深度学习模型能够准确地识别出正常样本(非对抗样本)所属的类别，误判率较低。辅助模型为在指定约束条件下，与图像分类模型的决策边界差异最大的深度学习模型，辅助模型也可以准确地识别出正常样本所属的类别。因辅助模型与图像分类模型的边界差异较大，所以可以降低同一对抗样本在图像分类模型和辅助模型之间的迁移率。即，若将对抗样本输入辅助模型和图像分类模型，辅助模型和图像分类模型将输出不同的分类结果。

在本申请实施例中，在将待分类图像分别输入图像分类模型和辅助模型后，图像分类模型和分类模型分别输出该待分类图像属于各个类别的概率。第一分类结果是指图像分类模型对待分类图像进行分类时输出较高的概率所对应的分类，第二分类结果是指辅助模型对待分类图像进行分类时输出较高的概率所对应的分类。

示例的，该待分类图像的内容是一只狗，将该待分类图像分别输入图像分类模型和辅助模型，图像分类模型和辅助模型可以分别输出该待分类图像的内容为“狗”和“猫”的概率，若图像分类模型输出该待分类图像属于“狗”的概率大于“猫”的概率，则可判定该待分类图像的类别为“狗”，反之可判定该待分类图像的类别为“猫”，辅助模型也是同理。

S103，若第一分类结果与第二分类结果相同，则确定待分类图像的分类结果为第一分类结果。

S104，若第一分类结果与第二分类结果不同，则确定待分类图像为对抗样本。

如果图像分类模型和辅助模型对待分类图像的分类判定分别为“狗”和“猫”，则确定该待分类图像为对抗样本，图像分类模型的分类结果不可信。

由于对抗样本为对原始样本叠加扰动得到的样本，所以图像分类模型在对对抗样本进行分类时会输出与原始样本的分类不同的分类结果，即对抗样本跨越了图像分类模型的决策边界。

在本发明的实施例中，因为辅助模型的决策边界与图像分类模型的决策边界存在差异，且差异最大，所以该对抗样本难以同时跨越图像分类模型和辅助模型的决策边界，从而使得辅助模型对该对抗样本进行分类后输出与图像分类模型不同的分类结果。因此，若图像分类模型和辅助模型对同一待分类图像的分类结果不相同时，便可以确定该待分类图像为对抗样本，此时可以对图像分类模型的输出结果不予置信，能够降低对抗样本对深度学习模型的攻击成功率，从而提高深度学习模型在受到对抗样本攻击时的分类准确率。

在本发明的实施例中，如图2所示，辅助模型通过以下步骤得到：

S201，针对图像分类模型对应的预设训练集中的每个指定样本，生成该指定样本对应的边界样本。

其中，图像分类模型为基于预设训练集对深度学习模型进行训练得到的模型，边界样本位于图像分类模型的决策边界。

可以理解的，由于边界样本位于图像分类模型的决策边界，所以若将边界样本输入图像分类模型，图像分类模型输出的该边界样本属于原始类别的概率与属于其他类别的概率之间的差值小于预设概率阈值，即图像分类模型输出的该边界样本属于各类别的概率近似相等。其中，原始类别为该边界样本对应的指定样本所属的类别。

以二分类为例，边界样本分布在两个类别的边界上，深度学习模型对边界样本输出的属于这两个类别的概率近似等于50％。

在本申请实施例中，对于预设训练集中的每个指定样本，可通过边界逼近法生成该指定样本对应的边界样本，生成边界样本的方法将在下文中进行详细描述。

S202，针对每个指定样本，为该指定样本添加指定扰动，得到该指定样本对应的反边界样本。

其中，指定扰动为：在指定约束条件下，使得图像分类模型与辅助模型的决策边界差异最大的扰动，图像分类模型的决策边界基于各指定样本对应的边界样本确定；指定约束条件为指定扰动的规模小于扰动阈值，反边界样本所属的类别与该反边界样本对应的指定样本的所属类别不一致。

S203，基于预设训练集和反边界样本集对深度学习模型进行训练，得到辅助模型。

其中，反边界样本集包括各指定样本对应的反边界样本，以及各反边界样本所属的类别，辅助模型的决策边界基于各指定样本对应的反边界样本确定。

在本发明的实施例中，辅助模型的训练集采用指定样本和与指定样本对应的反边界样本，因反边界样本所属的类别与该反边界样本对应的指定样本的所属类别不一致，所以辅助模型在正常样本和反边界样本间划分了新的边界，在保证对正常样本的分类正确的前提下，使得该辅助模型与图像分类模型的决策边界最大。因本申请实施例训练得到的辅助模型与图像分类模型之间的决策差异较大，所以同一对抗样本在图像分类模型与辅助模型之间的迁移率较低，使得对抗样本无法同时欺骗图像分类模型和辅助模型，从而使得本申请实施例可以识别对抗样本的攻击。

在本申请实施例的一种实施方式中，如图3所示，边界逼近法也就是上述步骤S201具体可以实现为：

S2011，针对图像分类模型对应的预设训练集中的每个指定样本，基于预设公式为该指定样本添加扰动。

其中，预设公式为

或者

和

均为添加的扰动；

为

的梯度；

为符号函数；

为

的p范数；

为损失函数，

其中，b为该指定样本的原始类别，t为目标类别，f_b(x)为图像分类模型对样本x进行分类得到的分类结果为b类别的概率，f_t(x)为图像分类模型对样本x进行分类得到的分类结果为t类别的概率；

S2012，将i加1。

S2013，判断i<max_iter和

>κ是否成立。若是，则返回上述S2011，基于预设公式为该指定样本添加扰动的步骤；若否，则执行S2014。

其中，max_iter为最大迭代次数，κ为损失阈值。例如，κ的取值可以为0.2％。

S2014，确定该指定样本对应的边界样本为x^*＝Clip_∈{x_i}，Clip_∈{x_i}用于将x_i的取值限定在预设范围内，该预设范围可根据实际需求设置。

Clip_∈{x_i}还用于限制为该指定样本添加的扰动的规模小于扰动阈值。

在生成边界样本的过程中，为了使得指定样本对应的边界样本足够准确，在满足min|f_b(x^*)-f_t(x^*)|和s.t.||x^*-x||_p≤∈的情况下，可以利用梯度下降法将该损失函数

最小化，使指定样本对应的对抗样本越来越靠近决策边界。其中，∈为扰动阈值，也就是添加扰动的p范数的最大值，x^*为指定样本x对应的边界样本。

即，上述S2011-S2014具体可以表示为：

1.i＝0，x₀＝x

2.

3.

或

4.i++

5.end while

6.return x^*＝Clip_∈{x_i}

其中，i的初始值为零，x₀为该指定样本，η为梯度下降步长；

为添加的扰动，max_iter为最大迭代次数，κ为损失阈值；

在梯度下降法循环过程中，首先给i赋值为0，设定x₀为指定样本，然后判断i<max_iter和

>κ是否成立，若是，则进入梯度下降法中的第3步，也就是该指定样本添加扰动的步骤，并在添加扰动后将i加1，重新对i<max_iter和

>κ是否成立进行判断；

若是，则返回梯度下降法中的第3步；

若否，则依次进入梯度下降法中的第5步和第6步，确定该指定样本对应的边界样本为x^*＝Clip_∈{x_i}，来保证对抗样本的取值在合理的范围内。

在本发明的另一种实施方式中，第3步可以为

为添加的扰动。因为指定样本实际上为图像，而图像包含大量的像素，则添加的扰动就是对指定样本上的像素点的像素值进行小幅度的增减，如果选择(p＝∞)，可以改变指定样本上所有的像素点，但每个像素点的像素值改动的幅度较小，类似于高斯噪声；如果选择(p≠∞)，则可以改变指定样本上的部分像素点的像素值，改动的幅度会更大，类似于椒盐噪声。

在本发明另一实施例中，对得到反边界样本的方法进行描述。

上述S202中，针对每个指定样本，得到该指定样本对应的反边界样本，具体可以实现为：

针对每个指定样本，确定该指定样本对应的差值扰动δ_o，其中，x^*＝x+δ_o；计算该指定样本对应的满足以下约束条件的指定扰动δ_A：

s.t.||δ_A||_p≤∈

其中，

由于s.t.||x^*-x||_p≤∈，即s.t.||δ_i||_p≤∈，令||δ_A||_p＝||δ_o||_p≤∈，进而求解得δ_A＝-δ_o，能够使得

取得最大值。又因图像分类模型的决策边界可以由大量的上述边界样本体现，辅助模型同理，因此图像分类模型和辅助模型的决策边界差异即为

此时图像分类模型和辅助模型的决策边界差异最大。

在本发明另一实施例中，上述S203中，基于预设训练集和反边界样本集对深度学习模型进行训练，得到辅助模型，具体可以实现为：

分别将预设训练集中的每个指定样本和反边界样本集中的每个反边界样本输入深度学习模型，获取深度学习模型对该指定样本的分类结果和对该反边界样本的分类结果，然后获取使得

的值最小时的θ值。

其中，

为基于深度学习模型对指定样本x的分类结果计算得到的损失函数，y为指定样本x在预设训练集中的标注分类，p_data1为预设训练集；θ为深度学习模型的模型参数；

为基于深度学习模型对反边界样本

的分类结果计算得到的损失函数，t为反边界样本

在反边界样本集中的标注分类，p_data2为反边界样本集，

用于将

的取值限定在预设范围内。

电子设备可以通过求解以下目标函数获取上述θ值：

因为

δ_A＝-δ_o，所以

另外x^*＝x+δ_o；基于此上述目标函数还可以表示为：

在本发明实施例中，

表示辅助模型对指定样本x进行分类后，得到的分类结果的损失函数的数学期望，

表示辅助模型对反边界样本

进行分类后，得到的分类结果的损失函数的期望，将使得两者之和最小时的θ值确定为辅助模型的模型参数。

以下结合图4对本申请实施例提供的对抗样本检测方法进行描述，如图4所示，将待测样本X分别输入图像分类模型O和辅助模型A，判断图像分类模型O和辅助模型A对该待测样本X的分类结果是否相同，若相同，确定该待测样本X为正常样本，若不相同，确定该待测样本X为对抗样本。

采用该方法，若图像分类模型和辅助模型对同一待分类图像的分类结果不相同时，便可以确定该待分类图像为对抗样本，图像分类模型和辅助模型对同一待分类图像的分类有这互补的作用，因此即使辅助样本受到对抗攻击，也不影响本发明实施例提供的对抗样本检测方法对对抗样本的识别率。且因图像分类模型和辅助模型的决策边界差异较大，对攻击失败的对抗样本，也同样具有较高的检测率，有利于使用者发现处于初期阶段的对抗攻击者。

如图5所示，图5为图像分类模型和辅助模型的决策边界的示例性示意图，图5中的实线表示图像分类模型的决策边界，虚线表示辅助模型的决策边界，两者的决策边界存在差异，决策边界的两侧的“1”和“0”分别表示样本的真实类别1和真实类别0。

图5中的实心圆圈表示真实类别为1的正常样本，空心圆圈表示真实类别为0的正常样本。

实心圆圈的一侧的实线箭头指向的三角形代表正常样本对应的边界样本，另一侧的虚线箭头指向的正方形代表正常样本对应的反边界样本。

空心圆圈一侧的实线箭头指向的三角形代表正常样本对应的边界样本，另一侧的虚线箭头指向的正方形代表正常样本对应的反边界样本。

从图5中可以看出，边界样本均位于辅助模型和图像分类模型的决策边界附近，反边界样本的分类与正常样本的分类不同。

由于在训练辅助模型时加入了正常样本的反边界样本，且反边界样本与正常样本的分类不同，所以辅助模型在正常样本与反边界样本之间划分了新的边界，使得辅助模型可以在保证对正常样本分类正确的前提下，与原图像分类模型的决策边界差异最大。

为了验证通过最大化辅助模型与原图像分类模型之间的决策边界差异，可以显著降低迁移率，可以进行以下迁移性实验。

实验中的深度学习模型采用二分类卷积神经网络，数据集采用Cifar-10，Cifar-10是一个包含60000张彩色图像的数据集，图像的尺寸均为32*32，分为10类，每类6000张图。本实施例中实验取Cifar-10数据集中的两类数据，例如汽车和飞机的图像，共12000张图片，然后将取出的数据集随机分成两部分：一部分为包含10000张图像的训练数据集，另一部分为包含2000张图像的测试数据集。在实验过程中，可以利用投影梯度下降(Projected gradient descent，PGD)法对训练数据集中的图像进行处理，以生成用于迁移攻击的对抗样本，且可利用边界逼近法生成训练数据集中的图像对应的边界样本。

将训练数据集中的图像作为原始样本，图6示出了将原始样本分别转换为边界样本和对抗样本的示例性示意图。如图6所示，原始样本为一张包含汽车的图像，该原模型(对应于上文的图像分类模型)可判定图像属于汽车类别的概率为99.9％，属于飞机的概率为0.1％。

通过边界逼近法为该原始样本添加边界逼近扰动后，得到边界样本。原模型可判定该边界样本属于汽车类别的概率为49.9％，属于飞机类别的概率为50.1％。

另外，通过PGD法为原始样本添加PGD扰动，可以得到该原始样本对应的对抗样本，原模型可判定该对抗样本属于汽车的概率为0.1％，属于飞机的概率为99.9％。

实验过程包括以下步骤：

步骤一，通过上述训练数据集训练二分类卷积神经网络，分别训练得到原模型O和对照模型C。测试得到原模型O、对照模型C的分类准确率分别为96.8％和96.9％；

步骤二，通过边界逼近法生成10000个正常样本中，每个正常样本x对应的边界样本x^*，该边界逼近法使用的目标类别为类别t。

其中，上述10000个正常样本x为原模型O对应的训练数据集中的样本。

步骤三，构造边界样本对应的反边界样本

构造反边界样本的方法可参考上述实施例中的相关描述，此处不再赘述。

步骤四，利用反边界样本

扩展训练集，得到训练集

通过训练集

训练得到辅助模型A。辅助模型A的分类准确率为92.05％。

其中，训练集(x,y)中y为正常样本x的标注分类，训练集

中t为正常样本x对应的反边界样本

的标注分类。

步骤五，通过PGD生成上述测试数据集中的2000个图像中，每个图像对应的对抗样本，统计原模型O、对照模型C和辅助模型A对上述对抗样本的迁移率；其中，PGD参数为：单步扰动＝0.1，迭代次数10。

得到实验结果如表1所示：

表1

生成模型/迁移模型	原模型O	对照模型C	辅助模型A
				原模型O	99.85％	73.66％	9.21％
对照模型C	65.50％	100％	25.20％
				辅助模型A	2.80％	2.25％	100％

表中的百分比是指对抗样本从生成模型到迁移模型的迁移率；表1中的迁移率是对生成模型白盒攻击成功的一组对抗样本，对迁移模型进行迁移攻击成功的比率。

可以看出，辅助模型A到原模型O的迁移率为2.80％，被迁移率为9.21％，相比对照模型C到原模型O的迁移率(65.50％)和被迁移率(73.66％)有显著降低。另外，辅助模型A到对照模型C的迁移率(2.25％)和被迁移率(25.20％)也非常低，证明将边界差异最大化能够降低迁移率，低的迁移率意味着，成功攻击原模型O的对抗样本能够大概率的被辅助模型A甄别，而成功攻击辅助模型A的对抗样本又能够被原模型O甄别。也就是说，与原模型O决策边界差异最大的辅助模型A能够降低对抗样本对联合模型(原模型O与辅助模型A组合而成的模型)的迁移率，也就是攻击成功率，从而提高深度学习模型在受到对抗样本攻击时的分类准确率。

进一步的，以二分类为例评估本发明实施例的分类性能，采用原模型加对抗性逻辑配对(Adversarial Logits Pairing，ALP)模型(Ori+ALP)与原模型加低迁移率模型(Ori+LowTrans)作比较。

其中，原模型Ori为本发明上述实施例中的图像分类模型，ALP模型为通过ALP这种对抗防御方法训练得到的深度学习模型，低迁移率模型LowTrans即为本发明实施例中的辅助模型A。

在将上述两组模型进行比较时，采用评估指标共有三类，分别是：攻击成功的对抗样本的检测率、攻击失败的对抗样本的检测率和假阳率。其中，对抗样本通过PGD白盒攻击原模型产生。对抗样本的检测率是指检测出对抗样本的概率，假阳率为对正常样本的误判率，即将正常样本判定为对抗样本的概率。

如图7所示，图7为PGD攻击成功时的对抗样本检测率的折线图，图7的横轴表示PGD的单步扰动参数，纵轴为PGD攻击成功的对抗样本检测率。

图7中带圆形的折线表示原模型Ori和ALP模型联合对对抗样本进行分类后，检测出对抗样本的概率，该对抗样本为对原模型Ori攻击成功的对抗样本。

图7中带正方形的折线表示原模型Ori和ALP模型联合对对抗样本进行分类后，检测出对抗样本的概率，该对抗样本为对原模型ALP攻击成功的对抗样本。

图7中带三角形的折线表示原模型Ori和低迁移率模型LowTrans联合对对抗样本进行分类后，检测出对抗样本的概率，该对抗样本为对原模型Ori攻击成功的对抗样本。

图7中带星形的折线表示原模型Ori和低迁移率模型LowTrans联合对对抗样本进行分类后，检测出对抗样本的概率，该对抗样本为对低迁移率模型LowTrans攻击成功的对抗样本。

从图7中可以看出，当原模型Ori和ALP模型联合分类时，若ALP模型受到对抗攻击，对对抗样本的检测率出现大幅度降低。当原模型Ori和低迁移率模型LowTrans联合分类时，若作为辅助模型的低迁移率模型LowTrans受到对抗攻击，对对抗样本的检测率依然较高。所以采用本发明实施例提供的方法可以提高对对抗样本的检测率。

如图8所示，图8为PGD攻击失败时的对抗样本检测率的折线图，图7的横轴表示PGD的单步扰动参数，纵轴为PGD攻击失败的对抗样本检测率。

图8中带圆形的折线表示原模型Ori和ALP模型联合对对抗样本进行分类后的对抗样本检测率，该对抗样本为对原模型Ori攻击失败的对抗样本。

图8中带正方形的折线表示原模型和ALP模型联合对对抗样本进行分类后的对抗样本检测率，该对抗样本为对ALP模型攻击失败的对抗样本。

图8中带三角形的折线表示原模型Ori和低迁移率模型LowTrans联合对对抗样本进行分类时后的对抗样本检测率，该对抗样本为原模型Ori攻击失败的对抗样本。

从图8中可以看出，对低迁移率模型LowTrans攻击失败的对抗样本，图像分类模型Ori+低迁移率模型LowTrans的联合分类也保持着较高的检测率，这样能够帮助使用者发现初期外界对图像分类模型和辅助模型的潜在攻击。

且通过实验得到图像分类模型Ori+ALP模型的假阳率(对正常样本的误判率)为8.5％(170/2000)；图像分类模型Ori+低迁移率模型LowTrans的假阳率(对正常样本的误判率)为7.17％(143/2000)，因此，本发明的实施例对正常样本误判率要更低，表现更好。

另外，现有的ALP模型为通过ALP这种对抗防御方法对原模型进行训练得到的深度学习模型，该ALP模型在训练过程中需要重构原模型，成本较高，而本发明实施例提供的对抗样本检测方法不需要重构原模型，且只需要一次性的对原模型生成边界样本，能够节省大量时间成本和运算成本。

对应于上述方法实施例，基于相同的发明构思，本申请实施例还提供一种对抗样本检测装置，如图9所示，该装置包括：

获取模块901，用于获取待分类图像；将待分类图像分别输入图像分类模型和辅助模型，获取图像分类模型对待分类图像的第一分类结果，以及辅助模型对待分类图像的第二分类结果；其中，辅助模型为在指定约束条件下，与图像分类模型的决策边界差异最大的深度学习模型；

确定模块902，用于若第一分类结果与第二分类结果相同，则确定待分类图像的分类结果为第一分类结果；若第一分类结果与第二分类结果不同，则确定待分类图像为对抗样本。

可选的，该装置还包括训练模块：

训练模块用于：

针对图像分类模型对应的预设训练集中的每个指定样本，生成该指定样本对应的边界样本；其中，图像分类模型为基于预设训练集对深度学习模型进行训练得到的模型，边界样本位于图像分类模型的决策边界；

针对每个指定样本，为该指定样本添加指定扰动，得到该指定样本对应的反边界样本；其中，指定扰动为：在指定约束条件下，使得图像分类模型与辅助模型的决策边界差异最大的扰动，图像分类模型的决策边界基于各指定样本对应的边界样本确定；指定约束条件为指定扰动的规模小于扰动阈值；

基于预设训练集和反边界样本集对深度学习模型进行训练，得到辅助模型；反边界样本集包括各指定样本对应的反边界样本，以及各反边界样本所属的类别，辅助模型的决策边界基于各指定样本对应的反边界样本确定。

可选的，训练模块具体用于：

针对图像分类模型对应的预设训练集中的每个指定样本，基于预设公式为该指定样本添加扰动；

其中，预设公式为

或者

和

均为添加的扰动；

为

的梯度；

为符号函数；

为

的p范数；

为损失函数，

其中，b为该指定样本的原始类别，i为目标类别，f_b(x)为图像分类模型对样本x进行分类得到的分类结果为b类别的概率，f_t(x)为图像分类模型对样本x进行分类得到的分类结果为t类别的概率；

将i加1，判断i<max_iter和

若是，则返回基于预设公式为该指定样本添加扰动的步骤；

可选的，训练模块具体用于：

计算该指定样本对应的满足以下约束条件的指定扰动δ_A：

s.t.||δ_A||_p≤∈

其中，

可选的，训练模块具体用于：分别将预设训练集中的每个指定样本和反边界样本集中的每个反边界样本输入深度学习模型，获取深度学习模型对该指定样本的分类结果和对该反边界样本的分类结果；

获得使得

的值最小时的θ值；

其中，

为基于深度学习模型对反边界样本

的分类结果计算得到的损失函数，t为反边界样本

在反边界样本集中的标注分类，p_data2为反边界样本集。

基于相同的发明构思，本申请实施例还提供一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信；

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现上述方法实施例中的方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于相同的发明构思，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，实现上述方法实施例中的方法步骤。

基于相同的发明构思，本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，实现上述方法实施例中的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。