CN114724014B

CN114724014B - 基于深度学习的对抗样本攻击检测方法、装置及电子设备

Info

Publication number: CN114724014B
Application number: CN202210630379.9A
Authority: CN
Inventors: 王滨; 钱亚冠; 陈思; 王星; 李超豪; 谢瀛辉; 王伟; 赵海涛
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2023-06-30
Anticipated expiration: 2042-06-06
Also published as: CN114724014A

Abstract

本申请提供一种基于深度学习的对抗样本攻击检测方法、装置及电子设备，该方法包括：利用优化的基于动量迭代梯度方式，生成干净样本对应的对抗样本；依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果。该方法可以更有效地对深度神经网络模型的防攻击性能进行评估。

Description

基于深度学习的对抗样本攻击检测方法、装置及电子设备

技术领域

本申请涉及人工智能安全技术领域，尤其涉及一种基于深度学习的对抗样本攻击检测方法、装置及电子设备。

背景技术

目前，深度学习的发展为人工智能的应用提供了一种可靠的工具，深度神经网络（Deep Neural Networks，DNNs）已在计算机视觉（如人脸识别、目标检测、自动驾驶）等领域被广泛应用。在自然图像上（如CIFAR-10和ImageNet数据集），最先进的卷积神经网络在图像分类任务中的识别率已经超过人眼。

在深度神经网络应用中，所谓对抗样本，其相对于干净样本

，正确类标签为

，如果存在扰动

，

，使得

满足

，且

，则此时可称

为干净样本x对应的对抗样本。目前，在生成对抗样本时，其并未考虑对抗样本与干净样本在特征空间的差异，这导致生成的对抗样本迁移性较差，会出现诸如无法充分检测深度神经网络模型对对抗样本的防攻击性能等问题。

发明内容

有鉴于此，本申请提供一种基于深度学习的对抗样本攻击检测方法、装置及电子设备，以生成更具有迁移性的对抗样本。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种基于深度学习的对抗样本攻击检测方法，包括：

利用优化的基于动量迭代梯度方式，生成干净样本对应的对抗样本；

依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果；

其中，对于任一干净样本，在生成该干净样本对应的对抗样本的任一次迭代过程中：

依据当前的动量以及交叉熵损失，确定第一梯度，并依据当前的对抗样本以及所述第一梯度，确定第一阶段对抗样本；

依据所述第一阶段对抗样本与该干净样本的特征表示输出差异，确定特征空间损失，依据所述特征空间损失，确定第二梯度，并依据所述第一阶段对抗样本以及所述第二梯度，确定第二阶段对抗样本；所述特征空间损失用于表征所述第一阶段对抗样本与该干净样本之间的特征空间距离，且与所述第一阶段对抗样本与该干净样本之间的特征空间距离正相关；

在迭代次数达到预设最大迭代次数的情况下，将所述第二阶段对抗样本确定为该干净样本对应的对抗样本。

根据本申请实施例的第二方面，提供一种基于深度学习的对抗样本攻击检测装置，包括：

生成单元，用于利用优化的基于动量迭代梯度方式，生成干净样本对应的对抗样本；

检测单元，用于依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果；

所述生成单元，具体用于对于任一干净样本，在生成该干净样本对应的对抗样本的任一次迭代过程中：

根据本申请实施例的第三方面，提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现第一方面提供的方法。

本申请实施例的基于深度学习的对抗样本攻击检测方法，通过提出一种优化的基于动量迭代梯度方式，并利用该优化的基于动量迭代梯度方式，生成干净样本对应的对抗样本，在对抗样本生成过程中，不仅考虑对抗样本与干净样本在图像空间的距离，还考虑对抗样本与干净样本在特征空间的距离，得到更具有迁移性的对抗样本，进而，依据干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果，更有效地对深度神经网络模型的防攻击性能进行评估。

附图说明

图1为本申请一示例性实施例示出的一种基于深度学习的对抗样本攻击检测方法的流程示意图；

图2为本申请一示例性实施例示出的一种基于深度学习的对抗样本攻击检测装置的结构示意图；

图3为本申请一示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，下面先对本申请实施例涉及的部分技术术语进行简单说明。

1、目标模型：参数、模型结构可直接获得的分类器

，可以记为

，也可以称为白盒模型。

2、代理模型：参数、模型结构不可直接获得的分类器

，可以记为

，也可以称为黑盒模型或源模型。

3、黑盒测试：利用模型结构、参数不可知的分类器

（即代理模型）生成的对抗样本对模型

（即目标模型）进行测试的过程称为黑盒测试。

4、白盒测试：利用模型结构、参数均可知的分类器

（即目标模型）生成的对抗样本对模型

（即目标模型）进行测试的过程称为白盒测试。

5、干净样本：指从训练样本集中取出，且不进行任何预处理的样本，也可以称为自然样本。

6、对抗样本：对于干净样本

，它的正确类标签为

。如果存在扰动

，

，使得

满足

，且

，那么称

为干净样本x对应的对抗样本。

7、白盒对抗样本：利用模型结构、参数可知的分类器

生成的对抗样本为白盒对抗样本，记为

。

8、代理对抗样本：利用模型结构、参数未知的分类器

生成的对抗样本为黑盒对抗样本，记为

。

9、迁移率：假设

表示包含所有被代理模型错误分类的对抗样本的集合。使用

中的对抗样本来测试目标模型，并用

表示被目标模型错误分类的对抗样本的集合，其中，

。可以将迁移率定义为

衡量黑盒对抗样本的可转移性。

为了使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参见图1，为本申请实施例提供的一种基于深度学习的对抗样本攻击检测方法的流程示意图，如图1所示，该基于深度学习的对抗样本攻击检测方法可以包括以下步骤：

步骤S100、利用优化的基于动量迭代梯度方式，生成干净样本对应的对抗样本。

步骤S110、依据干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果。

本申请实施例中，考虑到传统利用基于动量迭代梯度的方式生成对抗样本的方案中，生成对抗样本时并未考虑对抗样本与干净样本在特征空间的差异，导致基于该方案生成的对抗样本无法充分检测深度神经网络模型对对抗样本的防攻击性能。

基于上述考虑，本申请实施例中，可以对基于动量迭代梯度方式进行优化（可以称为优化的基于动量迭代梯度方式），在利用优化的基于动量迭代梯度方式生成对抗样本时，不仅考虑对抗样本与干净样本在图像空间的差异，还考虑对抗样本与干净样本在特征空间的差异，以生成更具有迁移性的对抗样本，更充分地检测深度神经网络模型对对抗样本的防攻击性能。

示例性的，图像空间也可以称为输入空间，指模型输入所有可能的取值集合，即样本本身存在的空间。

特征空间是指输入空间中样本经过特征工程处理过后（如经过CNN提取特征后的特征图）存在的空间，可以将输入空间中隐藏的特征显现出来。

示例性的，按照步骤S100中描述的方式生成的对抗样本可以为黑盒对抗样本，从而，可以在不需要获得进行防攻击性能评估的深度神经网络模型的参数和结构模型的情况下，即可生成用于不同深度神经网络模型进行防攻击性能评估的对抗样本，有效扩展了防攻击性能评估方案的适用场景。

需要说明的是，对于按照步骤S100中描述的方式生成的黑盒对抗样本，可以统计所生成的黑盒对抗样本的迁移率，迁移率越高，则表明所生成的黑盒对抗样本用于进行对抗样本攻击的攻击成功率越高，进而，表明所生成的黑盒对抗样本用于进行深度神经网络模型防攻击性能评估的效果越好。

本申请实施例中，在利用优化的基于动量迭代梯度方式，生成干净样本对应的对抗样本的过程中，对于任一干净样本，在生成该干净样本对应的对抗样本的任一迭代过程中，其实现可以包括以下步骤：

步骤S101、依据当前的动量以及交叉熵损失，确定第一梯度，并依据当前的对抗样本以及第一梯度，确定第一阶段对抗样本。

步骤S102、依据第一阶段对抗样本与该干净样本的特征表示输出差异，确定特征空间损失，依据特征空间损失，确定第二梯度，并依据第一阶段对抗样本以及第二梯度，确定第二阶段对抗样本；该特征空间损失用于表征第一阶段对抗样本与该干净样本之间的特征空间距离，且与第一阶段对抗样本与该干净样本之间的特征空间距离正相关。

本申请实施例中，在生成干净样本对应的对抗样本的过程中，任一次迭代过程可以包括两个阶段：依据干净样本与对抗样本在图像空间的距离增加扰动的阶段（可以称为第一阶段），以及，依据干净样本与对抗样本在特征空间的距离增加扰动的阶段（可以称为第二阶段）。

相应地，对于任一干净样本，在利用优化的基于动量迭代梯度方式生成该干净样本对应的干扰样本时，对于任一次迭代过程，可以依据当前的动量以及交叉熵损失（用于表征干净样本与对抗样本在图像空间上的距离），确定此次迭代过程中第一阶段的梯度（本文中称为第一梯度）。

示例性的，对于第一次迭代过程，当前的动量可以为预设的初始动量，如0；对于非第一次迭代过程，当前的动量为上一次迭代过程中第二阶段确定的梯度（可以称为第二梯度）。

示例性的，在得到第一梯度的情况下，可以依据该第一梯度，对当前的对抗样本进行扰动增加，得到第一阶段对抗样本。

示例性的，对于第一次迭代过程，当前的对抗样本可以为干净样本；对于非第一次迭代过程，当前的对抗样本可以为上一次迭代过程中第二阶段确定的对抗样本（可以称为第二对抗样本）。

示例性的，在一次迭代过程的第二阶段，可以依据第一阶段对抗样本与干净样本的特征表示输出差异，确定特征空间损失（用于表征干净样本与对抗样本在特征空间上的距离），并依据特征空间损失确定第二阶段的梯度（即第二梯度）。

在确定了第二梯度的情况下，可以依据该第二梯度，对第一阶段对抗样本进行扰动增加，得到第二阶段对抗样本。

示例性的，在迭代次数达到预设最大迭代次数的情况下，可以将此次迭代过程中确定的第二阶段对抗样本确定为该干净样本对应的对抗样本；在迭代次数未达到预设最大迭代次数的情况下，可以将此次迭代过程中确定的第二阶段对抗样本确定为当前对抗样本，并继续进行下一次迭代过程。

本申请实施例中，在按照上述方式生成了干净样本对应的对抗样本的情况下，可以依据干净样本对应的对抗样本对深度神经网络模型进行防攻击性能评估，确定深度神经网络模型的防攻击性能评估。

例如，可以统计深度神经网络模型对对抗样本的分类准确性，准确性越高，则表明深度神经网络模型的防攻击性能越好（如抗黑盒攻击能力越强）。

可见，在图1所示方法流程中，通过提出一种优化的基于动量迭代梯度方式，并利用该优化的基于动量迭代梯度方式，生成干净样本对应的对抗样本，在对抗样本生成过程中，不仅考虑对抗样本与干净样本在图像空间的距离，还考虑对抗样本与干净样本在特征空间的距离，得到更具有迁移性的对抗样本（即更容易使深度神经网络模型分类错误的对抗样本），进而，依据干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果，更有效地对深度神经网络模型的防攻击性能进行评估。

在一些实施例中，上述依据第一阶段对抗样本与该干净样本的特征表示输出差异，确定特征空间损失，可以包括：

依据所述第一阶段对抗样本与该干净样本的特征表示输出差异，利用投影公式，确定特征空间损失。

示例性的，为了尽可能扩大对抗样本与干净样本的特征表示输出差异在当前特征改变方向的投影，可以依据第一阶段对抗样本与该干净样本的特征表示输出差异，利用投影公式，确定特征空间损失。

举例来说，假设

为

在l层的特征输出表示，

为样本x在深度神经网络模型中的输出，则可以依据

确定第一阶段对抗样本与干净样本的特征表示输出差异，利用投影公式，确定特征空间损失；其中，

即为上述第一阶段对抗样本。

例如，假设

，

，其中，

的取值与

相同，

为变量，

为与

大小相等（即模长相等）的常量，

即为

在

上的投影，可以利用

确定特征空间损失，其中，

为

的 2-范数，其值即为

的模长。

在另一些实施例中，上述依据第一阶段对抗样本与该干净样本的特征表示输出差异，确定特征空间损失，可以包括：

依据第一阶段对抗样本与该干净样本的特征表示输出差异的范数，确定特征空间损失。

示例性的，为了提高特征空间损失确定的效率，可以不考虑方向，而仅考虑距离本身，尽可能扩大对抗样本与干净样本在特征空间上的距离。

示例性的，可以依据第一阶段对抗样本与干净样本的特征表示输出的范数，确定特征空间损失。

例如，假设

为

在l层的特征输出表示，

为样本x在深度神经网络模型中的输出，则可以依据

确定特征空间损失，其中，

为

的2-范数，可以用于表征

与

在欧式空间上的距离，即依据第一阶段对抗样本和干净样本的特征输出表示在欧式空间上的距离，确定特征空间损失。

依据第一阶段对抗样本与该干净样本的特征表示输出差异，利用投影公式，确定第一特征空间损失；

以及，依据第一阶段对抗样本与该干净样本的特征表示输出差异的范数，确定第二特征空间损失；

依据第一特征空间损失、第二特征空间损失，以及，预设特征空间损失均衡参数，确定最终特征空间损失。

示例性的，为了均衡方向和距离的关系，得到更准确地表征对抗样本与干净样本之间的特征空间距离的特征空间损失，可以分别按照上述方式得到包含方向信息的特征空间损失（可以称为第一特征空间损失），以及，未包含方向信息的特征空间损失（可以称为第二特征空间损失），依据该两个损失确定最终的特征空间损失。

示例性的，可以预先设定用于对第一特征空间损失和第二特征空间损失进行均衡的均衡参数（可以称为预设特征空间损失均衡参数），进而，可以依据第一特征空间损失、第二特征空间损失，以及，预设特征空间损失均衡参数，确定最终特征空间损失。

在一些实施例中，上述依据当前的对抗样本以及第一梯度，确定第一阶段对抗样本，可以包括：

依据当前的对抗样本、第一梯度、预设步长，以及，预设步长调节参数，确定第一阶段对抗样本；

上述依据第一阶段对抗样本以及第二梯度，确定第二阶段对抗样本，可以包括：

依据第一阶段对抗样本、第二梯度、预设步长，以及，预设步长调节参数，确定第二阶段对抗样本。

示例性的，由于生成干净样本对应的对抗样本的任一次迭代过程中，扰动增加被划分为了两个阶段，因此，一次迭代过程中的扰动增加的步长也可以分为两个阶段，该两个阶段增加的扰动可以依据预设步长调节参数确定。

示例性的，对于生成干净样本对应的对抗样本的任一次迭代过程，在第一阶段，可以依据当前的对抗样本、第一梯度、预设步长，以及，预设步长调节参数，确定第一阶段对抗样本。

在第二阶段，可以依据第一阶段对抗样本、第二梯度、预设步长，以及，预设步长调节参数，确定第二阶段对抗样本。

在一个示例中，上述依据当前的对抗样本、第一梯度、预设步长，以及，预设步长调节参数，确定第一阶段对抗样本，可以包括：

依据预设步长以及预设步长调节参数，确定第一步长；

依据当前的对抗样本、第一梯度，以及，第一步长，确定第一阶段对抗样本；

上述依据第一阶段对抗样本、第二梯度、预设步长，以及，预设步长调节参数，确定第二阶段对抗样本，可以包括：

依据预设步长以及预设步长调节参数，确定第二步长；

依据第一阶段对抗样本、第二梯度，以及，第二步长，确定第二阶段对抗样本。

示例性的，对于生成干净样本对应的对抗样本的任一次迭代过程，在第一阶段，可以依据预设步长调节参数，对预设步长进行调节，得到第一步长，并依据第一步长以及第一梯度，对当前的对抗样本进行扰动增加，得到第一阶段对抗样本。

在第二阶段，可以依据预设步长调节参数，对预设步长进行调节，得到第二步长，并依据第二步长以及第二梯度，对第一阶段对抗样本进行扰动增加，得到第二阶段对抗样本。

示例性的，上述第一步长与第二步长之和等于上述预设步长。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，下面结合具体实例对本申请实施例提供的技术方案进行说明。

在该实施例中，可以利用在特征空间中的脆弱性，通过扩大迭代过程中当前特征改变方向上的投影，调整迭代过程中梯度的生成方向，以引导生成更具有迁移性的对抗样本。在迭代过程中，通过保证特征变化方向的一致性，生成更具有迁移性的对抗样本，以更加充分地利用特征空间中的信息，更好地检测DNNs模型在特征空间中的脆弱性及其在黑盒测试下的模型有效性。

在该实施例中，生成干净样本对应的对抗样本的每一次迭代过程可以包括两个阶段：

第一阶段、使用交叉熵损失（

）生成梯度（即上述第一梯度，记为

），并生成对抗样本（即上述第一阶段对抗样本

）；

其中，

以动量的形式影响最终梯度的生成，以保证对抗样本生成在图像空间中的稳定。

第二阶段：引入空间特征损失（

），依据第一阶段对抗样本与干净样本的特征表示输出差异，确定

，依据

确定第二梯度（

，记为

），使用第二梯度对第一阶段对抗样本进行扰动增加，得到第二阶段对抗样本。

下面对具体实现流程进行说明。

步骤1、确定超参数：扰动大小

约束

，步长

，最大迭代次数（或称为迭代步数）N、步长调节参数

等。

步骤2、将每一次迭代过程划分为两个阶段：第一阶段和第二阶段。

步骤3、在第一阶段，使用交叉熵损失（

）生成梯度

，并生成对抗样本

。

步骤4、在第二阶段，引入

损失，分别计算

和

，其中，

的取值与

相同，

的取值与

的取值相同，但是

为常量，

为变量，即

为依据

的取值确定的等值常量（该常量的取值与

的取值相同）。

其中，为了减少特征中极值带来的影响，提高所确定的空间特征损失的准确性，可以对特征表示输出进行标准化处理后，依据标准化处理后的特征表示输出确定特征空间损失，即

，

。

其中，

为标准化函数。

示例性的，可以依据

和

确定空间特征损失：

其中，

即为上述带有方向信息的特征空间损失（可以记为

），

为均衡方向和距离的特征空间损失（可以记为

），

的取值范围为[0，1]，具体取值可以预先设定。

需要说明的是，在生成特征空间损失时，也可以不考虑方向信息，而依据第一阶段对抗样本与干净样本的特征表示输出差异的范数，确定特征空间损失（可以记为

）。

其中，定义

，选取一层中间层的特征表示输出，并忽略标准化过程对特征空间损失的确定进行说明：

其中，

代表在欧式空间上距离的扩展而并不带有方向性；

表示尽可能扩大在初始方向上的投影，其包括了方向信息。

通过计算

和

对一个元素

的导数，当该损失仅进行一次迭代时，这两个导数的值是相等的（二者导数不同，但是当

等于

时，二者导数的值相等），因此，当使用

时，可以使用

替代。

为了均衡方向和距离的关系，可以将

和

进行缩放并相加得到精调版本损失函数

。其中：

方向部分由

计算得到，而距离部分由

计算得到，使用参数

对方向和距离进行平衡。

步骤5、依据空间特征损失

可以得到梯度

，即

，使用

生成最终的梯度方向。

步骤6、依据梯度

对第一阶段干扰样本进行扰动增加，得到第二阶段对抗样本

。

示例性的，若未达到预设最大迭代次数（即N次），将第二阶段对抗样本

作为下一次迭代过程的当前的对抗样本。

示例性的，可以利用参数

平衡第一阶段和第二阶段中的扰动增加。

例如，

；

。

其中，

是指以扰动大小

约束

对得到的干扰样本进行约束。

步骤7、重复上述步骤3~6，直至迭代次数达到N次。

步骤8、依据生成的对抗样本测试模型的防攻击性能。

为了使本领域技术人员更好地理解本申请实施例的技术效果，下面结合具体实验分析对本申请实施例进一步进行说明。

一、实验设置

1.1、数据集：

可以使用自然数据集cifar10和两个公开的分类任务数据集，第一个是视网膜病变分类任务Kaggle Fundoscopy dataset，其中包含3662张图片，每张图片的标签分为从‘No DR’到‘Mild（轻度）/Moderate（中度）/Severe（重度）/Proliferative（增殖性） DR’五个等级，本申请中可以将该数据集划分为二分类数据集，为寻找程度在‘Moderate’以上的图像；第二个是肺炎分类任务数据集Kaggle Chest X-ray，其中包含5840张图片，每张图片的标签为‘PNEUMONIA（肺炎）’和‘NORMAL（正常）’。

1.2、数据预处理：

对于Kaggle Fundoscopy dataset，可以将原图边缘黑边部分裁剪，并将两个数据集均重新裁剪为299×299×3的分辨率，cifar10使用原数据不做处理。三个数据集训练时均normalize（归一化）为[-1,1]，并且使用随机旋转、随机水平变化数据增强。

1.3、模型

模型选择为densenet121、resnet50、vgg16_bn，三个模型均使用torchvision包自带模型，并加载imagenet预训练权重为初始化权重。

下面对本申请实施例提供的技术方案在两个公共数据集上的实验结果进行展示。

其中，为了避免过拟合于数据集，可以使用训练过程中的测试集作为实验数据集。对抗样本生成方法分别选择FGSM、BIM、MIFGSM、TAP，以及本申请提供的方案（记为MFP方法），代理模型和目标模型选择均为resnet50、vgg16bn和densenet121。BIM、MIFGSM、TAP和 MFP方法均以20次迭代运行，扰动约束选用

范数，

为4/255，

为4/20/255。

表1 、各种方法生成对抗样本的可迁移性在精度上的比较，对抗样本由resnet50、vgg16bn和densenet121生成，源模型（Source Model）和目标模型（Target Model）一致意味着该测试为白盒测试

如表1所示，在两个数据集上，证明了MFP方法不仅提高在白盒测试上的成功率，也提高了对抗样本的迁移性，性能超过了MI-FGSM和TAP。实验结果表明本申请实施例提供的方案不会只针对特定模型生效，其生成的对抗样本可以在不同源模型和目标模型下都有着较好的迁移性，可以实现一种通用的黑盒对抗样本生成方法。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图2，为本申请实施例提供的一种基于深度学习的对抗样本攻击检测装置的结构示意图，如图2所示，该基于深度学习的对抗样本攻击检测装置可以包括：

生成单元210，用于利用优化的基于动量迭代梯度方式，生成干净样本对应的对抗样本；

检测单元220，用于依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果；

所述生成单元210，具体用于对于任一干净样本，在生成该干净样本对应的对抗样本的任一次迭代过程中：

在一些实施例中，所述生成单元210依据所述第一阶段对抗样本与该干净样本的特征表示输出差异，确定特征空间损失，包括：

依据所述第一阶段对抗样本与该干净样本的特征表示输出差异的范数，确定特征空间损失。

依据所述第一阶段对抗样本与该干净样本的特征表示输出差异，利用投影公式，确定第一特征空间损失；

以及，依据所述第一阶段对抗样本与该干净样本的特征表示输出差异的范数，确定第二特征空间损失；

依据所述第一特征空间损失、第二特征空间损失，以及，预设特征空间损失均衡参数，确定最终特征空间损失。

在一些实施例中，所述生成单元210依据当前的对抗样本以及所述第一梯度，确定第一阶段对抗样本，包括：

依据当前的对抗样本、所述第一梯度、预设步长，以及，预设步长调节参数，确定所述第一阶段对抗样本；

所述生成单元210依据所述第一阶段对抗样本以及所述第二梯度，确定第二阶段对抗样本，包括：

依据所述第一阶段对抗样本、所述第二梯度、所述预设步长，以及，所述预设步长调节参数，确定所述第二阶段对抗样本。

在一些实施例中，所述生成单元210依据当前的对抗样本、所述第一梯度、预设步长，以及，预设步长调节参数，确定所述第一阶段对抗样本，包括：

依据所述预设步长以及所述预设步长调节参数，确定第一步长；

依据当前的对抗样本、所述第一梯度，以及，所述第一步长，确定所述第一阶段对抗样本；

所述生成单元210依据所述第一阶段对抗样本、所述第二梯度、所述预设步长，以及，所述预设步长调节参数，确定所述第二阶段对抗样本，包括：

依据所述预设步长以及所述预设步长调节参数，确定第二步长；

依据所述第一阶段对抗样本、所述第二梯度，以及，所述第二步长，确定所述第二阶段对抗样本。

请参见图3，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器301、存储有计算机程序的机器可读存储介质302。处理器301与机器可读存储介质302可经由系统总线303通信。并且，通过读取并执行机器可读存储介质302中与基于深度学习的对抗样本攻击检测逻辑对应的计算机程序，处理器301可执行上文描述的任意基于深度学习的对抗样本攻击检测方法。

本文中提到的机器可读存储介质302可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM（Radom Access Memory，随机存取存储器）、易失存储器、非易失性存储器、闪存、存储驱动器（如硬盘驱动器）、固态硬盘、任何类型的存储盘（如光盘、dvd等），或者类似的存储介质，或者它们的组合。

在一些实施例中，还提供了一种机器可读存储介质，该机器可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上文描述的基于深度学习的对抗样本攻击检测方法。例如，所述机器可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于深度学习的对抗样本攻击检测方法，其特征在于，包括：

利用优化的基于动量迭代梯度方式，生成干净图像样本对应的对抗图像样本；

依据所述干净图像样本对应的对抗图像样本确定深度神经网络模型的防攻击性能评估结果；其中，所述深度神经网络模型至少用于图像分类，所述深度神经网络模型对对抗图像样本的分类准确性越高，表明所述深度神经网络模型的防攻击性能越好；

其中，对于任一干净图像样本，在生成该干净图像样本对应的对抗图像样本的任一次迭代过程中包含第一阶段和第二阶段：所述第一阶段是依据干净图像样本与对抗图像样本在图像空间的距离增加扰动的阶段，所述第二阶段是依据干净图像样本与对抗图像样本在特征空间的距离增加扰动的阶段；

其中，在第一阶段，依据当前的动量以及交叉熵损失，确定第一梯度，其中，所述交叉熵损失用于表征干净图像样本与对抗图像样本在图像空间上的距离；并依据所述第一梯度对当前的对抗图像样本进行扰动增加，得到第一阶段对抗图像样本；对于第一次迭代过程，当前的对抗图像样本为干净图像样本；对于非第一次迭代过程，当前的对抗图像样本为上一次迭代过程中得到的第二阶段对抗图像样本；

在第二阶段，依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异，确定特征空间损失，所述特征空间损失用于表征所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离，且与所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离正相关；依据所述特征空间损失，确定第二梯度，并依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加，得到第二阶段对抗图像样本；

在迭代次数达到预设最大迭代次数的情况下，将所述第二阶段对抗图像样本确定为该干净图像样本对应的对抗图像样本，以生成更具有迁移性的对抗图像样本。

2.根据权利要求1所述的方法，其特征在于，所述依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异，确定特征空间损失，包括：

依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异，利用投影公式，确定特征空间损失。

3.根据权利要求1所述的方法，其特征在于，所述依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异，确定特征空间损失，包括：

依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数，确定特征空间损失。

4.根据权利要求1所述的方法，其特征在于，所述依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异，确定特征空间损失，包括：

依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异，利用投影公式，确定第一特征空间损失；

以及，依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数，确定第二特征空间损失；

5.根据权利要求1所述的方法，其特征在于，所述依据所述第一梯度对当前的对抗图像样本进行扰动增加，得到第一阶段对抗图像样本，包括：

依据所述第一梯度、预设步长，以及，预设步长调节参数，对当前的对抗图像样本进行扰动增加，得到所述第一阶段对抗图像样本；

所述依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加，得到第二阶段对抗图像样本，包括：

依据所述第二梯度、所述预设步长，以及，所述预设步长调节参数，对所述第一阶段对抗图像样本进行扰动增加，得到所述第二阶段对抗图像样本。

6.根据权利要求5所述的方法，其特征在于，所述依据所述第一梯度、预设步长，以及，预设步长调节参数，对当前的对抗图像样本进行扰动增加，得到所述第一阶段对抗图像样本，包括：

依据所述第一梯度，以及，所述第一步长，对当前的对抗图像样本进行扰动增加，得到所述第一阶段对抗图像样本；

所述依据所述第二梯度、所述预设步长，以及，所述预设步长调节参数，对所述第一阶段对抗图像样本进行扰动增加，得到所述第二阶段对抗图像样本，包括：

依据所述第二梯度，以及，所述第二步长，对所述第一阶段对抗图像样本进行扰动增加，得到所述第二阶段对抗图像样本。

7.一种基于深度学习的对抗图像样本攻击检测装置，其特征在于，包括：

生成单元，用于利用优化的基于动量迭代梯度方式，生成干净图像样本对应的对抗图像样本；

检测单元，用于依据所述干净图像样本对应的对抗图像样本确定深度神经网络模型的防攻击性能评估结果；其中，所述深度神经网络模型至少用于图像分类，所述深度神经网络模型对对抗图像样本的分类准确性越高，表明所述深度神经网络模型的防攻击性能越好；

所述生成单元，具体用于对于任一干净图像样本，在生成该干净图像样本对应的对抗图像样本的任一次迭代过程中包含第一阶段和第二阶段：所述第一阶段是依据干净图像样本与对抗图像样本在图像空间的距离增加扰动的阶段，所述第二阶段是依据干净图像样本与对抗图像样本在特征空间的距离增加扰动的阶段；

8.根据权利要求7所述的装置，其特征在于，所述生成单元依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异，确定特征空间损失，包括：

9.根据权利要求7所述的装置，其特征在于，所述生成单元依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异，确定特征空间损失，包括：

10.根据权利要求7所述的装置，其特征在于，所述生成单元依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异，确定特征空间损失，包括：

11.根据权利要求7所述的装置，其特征在于，所述生成单元依据所述第一梯度对当前的对抗图像样本进行扰动增加，得到第一阶段对抗图像样本，包括：

所述生成单元依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加，得到第二阶段对抗图像样本，包括：

12.根据权利要求11所述的装置，其特征在于，所述生成单元依据所述第一梯度、预设步长，以及，预设步长调节参数，对当前的对抗图像样本进行扰动增加，得到所述第一阶段对抗图像样本，包括：

所述生成单元依据所述第二梯度、所述预设步长，以及，所述预设步长调节参数，对所述第一阶段对抗图像样本进行扰动增加，得到所述第二阶段对抗图像样本，包括：

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现如权利要求1-6任一项所述的方法。