CN112673381A

CN112673381A - 一种对抗样本的识别方法及相关装置

Info

Publication number: CN112673381A
Application number: CN202080004866.3A
Authority: CN
Inventors: 易平; 刘浩文; 林孝盈
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-04-16
Anticipated expiration: 2040-11-17
Also published as: CN112673381B; WO2022104503A1

Abstract

本申请实施例提供一种防御对抗样本的方法及相关装置，该方法通过将目标神经网络的卷积层的结果输出到反馈重构网络中重构得到重构样本，使得对抗样本对目标神经网络的攻击会干扰自编码器的重构从而放大重构样本的误差，使得对抗样本更容易被检测出来，提高了对抗样本的检测准确率，减少了假阳性率。并且，本申请实施例使用对抗样本检测器通过学习对抗样本与非对抗样本各自的重构误差来判别输入样本是否为对抗样本，由于重构误差会放大对抗样本扰动，所以检测灵敏度更高。

Description

一种对抗样本的识别方法及相关装置

技术领域

本申请实施例涉及神经网络技术领域，尤其涉及一种防御对抗样本的识别方法及相关装置。

背景技术

深度神经网络在机器学习领域的许多任务中取得了巨大的成功,例如图像分类、语音识别、自然语言处理、医疗健康等。

然而，深度神经网络很容易受到对抗样本的攻击。对抗样本,即在数据集中通过故意添加细微的干扰所形成的输入样本。对抗样本能够导致机器学习模型以高置信度给出一个错误的输出。对抗样本与真实样本在外观上没有区别，但能够攻击最先进的机器学习模型，使其得出错误的结果。

因此，机器学习模型需要能够防御对抗样本，避免对抗样本导致的错误结果。

发明内容

第一方面，本申请实施例提供一种对抗样本的识别方法，包括：获取输入样本；根据所述输入样本，通过自编码器得到重构样本，所述自编码器以目标神经网络的卷积层为编码器，以反馈重构网络为解码器；根据所述输入样本和所述重构样本，通过对抗样本检测器得到所述输入样本的检测结果，所述对抗样本检测器是通过第一训练样本和第二训练样本训练获得，所述第一样本包括非对抗样本及其重构样本，以及第一样本标签；所述第二样本包括对抗样本及其重构样本，以及第二样本标签；根据检测结果确定所述输入样本的样本类型。

本申请实施例提供一种对抗样本的识别方法及相关装置，该方法通过将目标神经网络的卷积层的结果输出到反馈重构网络中重构得到重构样本，使得对抗样本对目标神经网络的攻击会干扰自编码器的重构从而放大重构样本的误差，使得对抗样本更容易被检测出来，提高了对抗样本的检测准确率，减少了假阳性率。并且，本申请实施例使用对抗样本检测器通过学习对抗样本与非对抗样本各自的重构误差来判别输入样本是否为对抗样本，由于重构误差会放大对抗样本扰动，所以检测灵敏度更高。

结合第一方面，在本申请实施例的一种实现方式中，所述根据所述输入样本，通过自编码器得到重构样本之后，所述根据所述输入样本和所述重构样本，通过对抗样本检测器得到所述输入样本的检测结果之前，所述方法还包括：通过所述自编码器对所述重构样本进行至少一次循环重构，所述循环重构为通过所述自编码器对所述重构样本进行处理。

结合第一方面，在本申请实施例的一种实现方式中，所述对抗样本检测器为二分类器。

结合第一方面，在本申请实施例的一种实现方式中，所述通过自编码器得到重构样本之前，所述方法还包括：获取训练集，所述训练集为非对抗样本组成的集合；通过所述训练集同时对所述目标神经网络以及所述自编码器训练，所述目标神经网络包含所述卷积层与目标分类器。

结合第一方面，在本申请实施例的一种实现方式中，通过所述训练集同时对所述目标神经网络以及所述自编码器训练中，训练过程的损失函数为：

其中，X_train为训练集，|X_train|为训练集的数据数量，x为训练集中的非对抗样本，ae(x)为根据训练集中的非对抗样本通过所述自编码器得到的训练用重构样本，

为相对熵。

结合第一方面，在本申请实施例的一种实现方式中，所述通过所述训练集同时对所述目标神经网络以及所述自编码器训练之后，所述方法还包括：根据所述训练集，通过对抗样本生成算法生成针对所述目标神经网络的训练用的对抗样本；根据所述训练集通过训练后的所述自编码器得到非对抗重构样本；根据所述训练用的对抗样本，通过训练后的所述自编码器得到对抗重构样本；通过第一训练样本和第二训练样本对所述对抗样本检测器训练，所述第一训练样本由所述训练集中非对抗样本及所述非对抗重构样本组成，所述第二训练样本由所述训练用的对抗样本及所述对抗重构样本组成。

结合第一方面，在本申请实施例的一种实现方式中，所述通过第一训练样本和第二训练样本对所述对抗样本检测器训练之后，所述方法还包括：获取测试集，所述测试集为测试样本组成的集合；根据所述测试集，通过对抗样本生成算法生成针对所述目标神经网络的测试用的对抗样本；根据所述测试集和所述测试用的对抗样本，通过训练完的所述自编码器和所述对抗样本检测器得到测试结果；根据所述测试集和所述测试用的对抗样本确定所述测试结果的检测正确率、对抗样本检出率和假阳性率。

第二方面，本申请实施例提供一种对抗样本的识别装置，包括：获取模块，用于获取输入样本；处理模块，用于根据所述输入样本，通过自编码器得到重构样本，所述自编码器以卷积神经网络的卷积层为编码器，以反馈重构网络为解码器；所述处理模块，还用于根据所述输入样本和所述重构样本，通过对抗样本检测器得到所述输入样本的检测结果，所述对抗样本检测器是通过第一训练样本和第二训练样本训练获得，所述第一样本包括非对抗样本及其重构样本，以及第一样本标签；所述第二样本包括对抗样本及其重构样本，以及第二样本标签；所述处理模块，还用于根据检测结果确定所述输入样本的样本类型。

结合第二方面，在本申请实施例的一种实现方式中，处理模块还用于：通过所述自编码器对所述重构样本进行至少一次循环重构，所述循环重构为通过所述自编码器对所述重构样本进行处理。

结合第二方面，在本申请实施例的一种实现方式中，所述对抗样本检测器为二分类器。

结合第二方面，在本申请实施例的一种实现方式中，处理模块还用于：获取训练集，所述训练集为非对抗样本组成的集合；通过所述训练集同时对所述目标神经网络以及所述自编码器训练，所述目标神经网络包含所述卷积层与目标分类器。

结合第二方面，在本申请实施例的一种实现方式中，通过所述训练集同时对所述目标神经网络以及所述自编码器训练中，训练过程的损失函数为：

为相对熵。

结合第二方面，在本申请实施例的一种实现方式中，处理模块还用于：根据所述训练集，通过对抗样本生成算法生成针对所述目标神经网络的训练用的对抗样本；根据所述训练集通过训练后的所述自编码器得到非对抗重构样本；根据所述训练用的对抗样本，通过训练后的所述自编码器得到对抗重构样本；通过第一训练样本和第二训练样本对所述对抗样本检测器训练，所述第一训练样本由所述训练集中非对抗样本及所述非对抗重构样本组成，所述第二训练样本由所述训练用的对抗样本及所述对抗重构样本组成。

结合第二方面，在本申请实施例的一种实现方式中，处理模块还用于：获取测试集，所述测试集为测试样本组成的集合；根据所述测试集，通过对抗样本生成算法生成针对所述目标神经网络的测试用的对抗样本；根据所述测试集和所述测试用的对抗样本，通过训练完的所述自编码器和所述对抗样本检测器得到测试结果；根据所述测试集和所述测试用的对抗样本确定所述测试结果的检测正确率、对抗样本检出率和假阳性率。

第三方面，本申请实施例还提供一种对抗样本的识别设备，包括：处理器和传输接口，所述处理器被配置为调用存储在存储器中的程序指令，以执行如第一方面的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，包括指令，当所述指令在计算机或处理器上运行时，使得所述计算机或所述处理器执行如第一方面的方法。

第五方面，本申请实施例还提供一种包含指令的计算机程序产品，所述计算机程序产品包括程序指令，当所述程序指令在计算机或处理器上运行时，使得所述计算机或所述处理器执行如第一方面的方法。

附图说明

图1a为基于二分类器检测对抗样本的方法示意图之一；

图1b为基于二分类器检测对抗样本的方法示意图之二；

图1c为基于二分类器检测对抗样本的方法示意图之三；

图2为基于自编码器检测对抗样本的方法示意图；

图3为本申请实施例提供的识别对抗样本的技术方案示意图；

图4为本申请实施例中卷积神经网络的示意图；

图5为本申请实施例中另一种卷积神经网络的示意图；

图6为本申请实施例提供的一种识别对抗样本的系统架构的示意图；

图7为本申请实施例中对抗样本的识别方法的流程图；

图8为本申请实施例的训练过程的流程图；

图9为本申请实施例中生成训练用对抗样本的示意图；

图10为本申请实施例中生成非对抗重构样本和对抗重构样本的示意图；

图11为本申请实施例训练对抗样本检测器的示意图；

图12为本申请实施例提供的另一种技术方案的示意图；

图13为本申请实施例执行设备的另一种流程图；

图14为本申请实施例提供的一种对抗样本的识别装置的示意图；

图15为本申请实施例提供的一种执行设备结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

其中，深度神经网络在机器学习领域的许多任务中取得了巨大的成功,例如图像分类、语音识别、自然语言处理、医疗健康等。

然而，深度神经网络很容易受到对抗样本的攻击。对抗样本,即在数据集中通过故意添加细微的干扰所形成的输入样本，导致模型以高置信度给出一个错误的输出。对抗样本与真实样本在外观上没有区别，但能够攻击最先进的机器学习模型，使其得出错误的结果。

对抗样本的存在，对支持深度学习模型的系统在安全等级需求高的场景应用造成了巨大的冲击。目前生成对抗样本的算法技术有快速梯度下降算法(Fast Gradient SignMethod，FGSM)、JSMA(Jacobian-based Saliency Map Attack)算法、CW(Carlini andWagner Attacks)算法等，其基本原理是尽可能使扰动最小，同时最大化损失函数，使分类器的预测概率发生改变。

因此，机器学习模型亟需防御对抗样本。目前防御对抗样本的方法有通过二分类器或者通过自编码器识别非对抗样本和对抗样本。以下对这两种方法进行简要的说明。

图1a为基于二分类器检测对抗样本的方法示意图之一。该方法的第一步是利用非对抗样本组成的训练集X^train，通过FGSM算法对目标神经网络F1攻击后生成对抗样本组成的训练集

同理，利用非对抗样本组成的测试集X^test，通过FGSM算法对目标神经网络F1攻击后可以生成对抗样本组成的测试集

图1b为基于二分类器检测对抗样本的方法示意图之二。该方法的第二步是通过非对抗样本组成的训练集X^train和对抗样本组成的训练集

对二分类器F2进行训练。其中，训练集中非对抗样本的标志为0，对抗样本的标志为1。训练完的二分类器F2能够根据输入的样本区分出对抗样本。

图1c为基于二分类器检测对抗样本的方法示意图之三。该方法的第三步是通过非对抗样本组成的测试集X^test和对抗样本组成的测试集

对二分类器进行测试，并根据该二分类器能够准确识别测试集中对抗样本的数量得到该二分类器的准确率。

准确率达标的二分类器可以作为对抗样本的检测器，设备可以先通过二分类器检测输入的样本是否是对抗样本，若输入的样本不是对抗样本，则设备可以根据该输入的样本，通过目标神经网络得到输出结果。设备先通过二分类器对输入的样本进行检测，防御了对抗样本，因此输出结果更加可靠。

然而，这种防御对抗样本的方法仅能检测到训练集中对抗样本使用的攻击，具有攻击敏感性。例如上述二分类器中训练集使用的攻击是FGSM算法，则该二分类器仅能检测使用FGSM算法进行攻击的对抗样本，而无法检测到采用其他算法进行攻击的对抗样本。此外，这种防御对抗样本的方法对攻击强度非常敏感，只能检测扰动较大的对抗样本，对小扰动的对抗样本几乎没有检测能力。

图2为基于自编码器检测对抗样本的方法示意图。该方法使用非对抗样本训练的自编码器作为对抗样本检测器，利用输入样本与自编码器重构样本之间的差别大小为依据检测对抗样本；使用去噪自编码器作为还原器，将检测器未检测出的小扰动对抗样本还原为非对抗样本。

其中，第一检测器是使用非对抗样本训练的自编码器。如果待测试的样本是非对抗样本，因为该样本与自编码器的训练数据的生成过程相同，所以其重构误差很小，反之，如果带检测的样本是对抗样本，那么该样本的重构误差会很大。所以用重构误差来衡量待检测样本与非对抗样本间的距离。但是，由于该距离是连续值，所以利用验证集确定一个阈值，用来判断是否为对抗样本。也就是说，输入的样本x与重构样本x’之间的重构误差大于阈值说明该样本x为对抗样本。

还原器则是采用去噪编码器，将检测器未检测出的小扰动对抗样本还原为非对抗样本。

分类器一般用于实现目标神经网络的实际功能，例如图像识别等。

第二检测器用于根据f(x)与f(ae(x))间的分歧来判断样本x为非对抗样本或对抗样本。其中，f(x)为输入的样本x经过分类器得到的输出结果，f(ae(x))为输入的样本x经过第一检测器和分类器得到的输出结果。

然而，这种防御对抗样本的方法训练了多个自编码器，训练量大，训练成本高。并且，作为检测器的自编码器与目标神经网络的目标分类器无关，对抗样本检出率较低，检错率较高。且由于使用固定阈值作为判断是否为对抗样本的分类依据，缺少理论依据且错误率较高。

有鉴于此，本申请实施例提供了一种防御对抗样本的方法，克服上述缺点。下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细描述。

图3为本申请实施例提供的识别对抗样本的技术方案示意图。在本申请实施例中，样本x输入到目标神经网络得到识别结果f(x)，其中，目标神经网络包括卷积层和目标分类器。而当防御对抗样本的对抗样本检测器确认该样本x不是对抗样本后，该识别结果f(x)有效；当对抗样本检测器确认该样本x是对抗样本，则该识别结果f(x)无效。

另一方面，设备通过自编码器对输入的样本x进行重构得到重构样本ae(x)，其中，自编码器由目标神经网络的卷积层和反馈重构网络组成。然后设备将输入的样本x和重构样本ae(x)放入对抗样本检测器中进行检测，从而确定输入的样本x是否为对抗样本。对抗样本检测器可以是一种二分类器。

其中，目标神经网络可以是卷积神经网络，也可以是其他类型的神经网络，本申请实施例对此不做限定。以下将以卷积神经网络作为具体实施例进行详细的描述。

图4为本申请实施例中卷积神经网络的示意图。卷积神经网络(CNN，Convolutional neuron network)是)是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。

如图4所示，卷积神经网络(CNN)100可以包括输入层110，卷积层/池化层120，其中池化层为可选的，以及神经网络层130。

卷积层/池化层120：

卷积层：

如图4所示卷积层/池化层120可以包括如示例121-126层，在一种实现中，121层为卷积层，122层为池化层，123层为卷积层，124层为池化层，125为卷积层，126为池化层；在另一种实现方式中，121、122为卷积层，123为池化层，124、125为卷积层，126为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

以卷积层121为例，卷积层121可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息，从而帮助卷积神经网络100进行正确的预测。

当卷积神经网络100有多个卷积层的时候，初始的卷积层(例如121)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络100深度的加深，越往后的卷积层(例如126)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图4中120所示例的121-126各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像大小相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层130：

在经过卷积层/池化层120的处理后，卷积神经网络100还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层120只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层130中可以包括多层隐含层(如图4所示的131、132至13n)以及输出层140，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等……可以理解的是，当卷积神经网络执行分类任务(例如图像分类)的时候，神经网络层也可以称为分类器。

在神经网络层130中的多层隐含层之后，也就是整个卷积神经网络100的最后层为输出层140，该输出层140具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络100的前向传播(如图4由110至140的传播为前向传播)完成，反向传播(如图4由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图4所示的卷积神经网络100仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，如图5所示的多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层130进行处理。

自编码器(autoencoder,AE)是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks,ANNs)，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习(representation learning)。自编码器包含编码器(encoder)和解码器(decoder)两部分。

在本申请实施例中，自编码器中的编码器(encoder)部分可以用上述卷积神经网络中的卷积层来实现。自编码器中的解码器(decoder)部分可以用反馈重构网络实现。反馈重构网络可以是一种卷积神经网络，能够将目标神经网络中卷积层提取的特征进行重构，生成重构样本(ae(x))。

在本申请实施例中，对抗样本检测器可以是大多数可用作分类器的机器学习网络，例如二分类器等，可以与前述图1a、图1b和图1c中的二分类器类似，本申请实施例对此不做限定。

综上所述，本申请实施例通过将目标神经网络的卷积层的结果输出到反馈重构网络中重构得到重构样本，使得对抗样本对目标神经网络的攻击会干扰自编码器的重构从而放大重构样本的误差，使得对抗样本更容易被检测出来，提高了对抗样本的检测准确率，减少了假阳性率。本申请实施例将目标网络的卷积层作为自编码器的编码器，反馈重构网络作为自编码器的解码器，使自编码器与目标网络紧密相关，对目标网络的攻击也一定会干扰自编码器对样本的重构，从而放大重构样本误差，使得对抗样本更容易被检测出来，提高了对抗样本的检测准确率，减少了假阳性率。而由于使用重构误差作为对抗样本检测的判断依据，并不会受限于对抗攻击种类或强度，泛用性高。由于重构误差的明显差异，对抗样本检测灵敏度增加。

并且，本申请实施例采用卷积神经网络结构，因此适当调整反馈点位置，可以适应大多数卷积神经网络对分类任务网络结构的本身无修改。反馈结构的设计用自编码器的解码器对输入样本进行重构,并将原样本与重构样本组合作为二分类检测器的输入额外开销为一个反馈结构与一个二分类器，训练成本较小。且通过反馈可以还原干扰较小的对抗样本并继续使用，使模型具有部分对抗样本防御能力。

并且，本申请实施例的技术方案中，使用对抗样本检测器侦测是否为对抗样本。对抗样本检测器可以是大多数可用作分类器的机器学习网络，例如二分类器。反馈重构会放大对抗扰动，因此对抗样本检测器可以检测小扰动的对抗样本；不需要计算重构误差阈值，而是让对抗样本检测器自己训练出侦测重构误差的能力。使用对抗样本检测器通过学习对抗样本与非对抗样本各自的重构误差来判别是否为对抗样本，由于重构误差会放大对抗样本扰动，所以检测灵敏度更高。并且，与图2对应的方案相比，由于不使用固定阈值，而是使用机器学习的方式进行分类，理论依据充分，且减小了检测错误率。

为实现上述技术方案，本申请实施例提供了一种防御对抗样本的系统架构。该系统架构如图6所示。图6为本申请实施例提供的一种识别对抗样本的系统架构的示意图。数据采集设备260用于采集训练用的样本数据并存入数据库230，训练设备220基于数据库230中维护的样本数据训练生成目标神经网络201、反馈重构网络202以及对抗样本检测器203。

训练设备220基于样本数据训练生成目标神经网络201、反馈重构网络202以及对抗样本检测器203的具体过程可参照后续图8对应的各个实施例，此处不再赘述。训练设备220得到的目标神经网络201、反馈重构网络202以及对抗样本检测器203可以应用不同的系统或设备中。本申请实施例以应用到执行设备210为例进行描述。执行设备210可以通过目标神经网络201、反馈重构网络202以及对抗样本检测器203对输入的数据进行处理，得到处理结果，具体过程与后续图7对应的各个实施例类似，此处不再赘述。

执行设备210配置有I/O接口212，与外部设备进行数据交互，“用户”可以通过客户设备240向I/O接口212输入数据。可以理解的是，“用户”也可以通过其他设备向I/O接口212输入数据，例如数据采集设备260。

执行设备210可以调用数据存储系统250中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。

最后，I/O接口212将处理结果返回给客户设备240，提供给用户。

用户可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端将采集到样本数据存入数据库230。

更深层地，训练设备220可以针对不同的目标，基于不同的数据生成相应的目标神经网络201、反馈重构网络202以及对抗样本检测器203，以给用户提供更佳的结果。

值得注意的，附图2仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图6中，数据存储系统250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210中。

示例性的，在车载摄像头识别图像的应用场景中，数据采集设备260可以为车载摄像头，其采集的一部分图像数据可以在人工打上对应的标签后作为样本数据或测试数据，被训练设备220用于训练目标神经网络201、反馈重构网络202以及对抗样本检测器203；采集的另一部分图像数据可以作为输入数据，通过I/O接口212传输至执行设备210，使得执行设备210根据训练好的目标神经网络201、反馈重构网络202以及对抗样本检测器203处理该输入数据。最后执行设备210通过I/O接口212将处理结果传输至客户设备240，使得客户设备240上可以显示图像识别的结果。在一些情况中，执行设备210通过I/O接口212将处理结果传输至数据库、服务器等进行存储，以供后续调用。

具体地，执行设备可以执行如图7所示的流程，图7为本申请实施例中对抗样本的识别方法的流程图。该流程包括：

701、获取输入样本；

在本申请实施例中，执行设备可以获取输入样本，目的是根据输入样本，通过目标神经网络得到输入样本对应的识别结果。输入样本的具体内容可以根据不同的应用场景有不同的形式。示例性的，在图像识别的应用场景中，输入样本可以是图片；在语音识别的应用场景中，输入样本可以是一段语音；在文本识别的应用场景中，输入样本可以是一段文字。本申请实施例对输入样本的具体形式不做限定。

可以理解的是，在一些实施例中，执行设备可以先对输入样本进行一些预处理，将输入样本的形式转化为一些易于处理的数据格式，本申请实施例对此不做限定。

702、根据输入样本，通过自编码器得到重构样本；

在本申请实施例中，执行设备可以执行自编码器对应的指令代码，从而根据输入样本得到重构样本。自编码器与前述内容类似，此处不再赘述。

可以理解的是，自编码器的编码器部分可以用目标神经网络中的卷积层来实现，因此当对抗样本对目标神经网络攻击时，自编码器得到的重构样本误差增大，更加容易被检测出来。

本申请实施例不直接使用独立的自编码器做对抗样本检测，而是将目标神经网络的卷积层作为自编码器的编码器，使自编码器与目标神经网络紧密相关，将检测系统与目标神经网络紧密结合，提高了检测的灵敏度：由于目标神经网络的卷积网络同时又是自编码器的编码器，因此对抗样本对目标神经网络特征提取的干扰同时也是对编码器特征提取的干扰，对目标神经网络的白盒攻击被转化为对自编码器的白盒攻击。所以自编码器无法重构对抗样本，反而由于重构错误，会将人眼无法察觉的扰动明显地展现出来。

703、根据输入样本和重构样本，通过对抗样本检测器得到输入样本的检测结果；

在本申请实施例中，根据输入样本和重构样本，通过对抗样本检测器可以分析出输入样本和重构样本的数据特征所对应的类别。示例性的，若输入样本和重构样本的数据特征与训练集中对抗样本及其重构样本(对应训练标签为“1”)类似，则通过对抗样本检测器可以分析得到检测结果为标签“1”。若输入样本和重构样本的数据特征与训练集中非对抗样本及其重构样本(对应训练标签为“0”)类似，则通过对抗样本检测器可以分析得到检测结果为标签“0”。其中，训练集为训练对抗样本检测器所用的非对抗样本集合，具体可参阅图8对应的实施例描述，此处不再赘述。

在本申请实施例中，执行设备可以执行对抗样本检测器对应的指令代码，从而根据输入样本和重构样本得到输入样本的检测结果。检测结果可以是“正常”或“对抗样本”，具体可以用标识“0”和标识“1”表示，在实际应用中，执行设备也可以用其他标识来表示检测结果，本申请实施例对此不做限定。

本申请实施例不使用二分类器直接检测对抗样本，也不是使用固定阈值判别对抗样本，而是使用对抗样本检测器(例如二分类器)通过学习对抗样本与非对抗样本各自的重构误差来判别是否为对抗样本，由于重构误差会放大对抗样本扰动，所以检测灵敏度更高；且由于任何种类的对抗攻击都会放大重构误差，因此以重构误差为依据判别对抗样本的泛用性高。

704、根据检测结果确定输入样本的样本类型。

在本申请实施例中，检测结果可以是“正常”(用标签“0”表示)或“对抗样本”(用标签“1”表示)。根据步骤703的检测结果，若检测结果为标签“1”，说明输入样本和重构样本的数据特征与训练集中对抗样本及其重构样本(对应标签为“1”)类似，则执行设备确定输入样本的类型为对抗样本。若检测结果为标签“0”，说明输入样本和重构样本的数据特征与训练集中非对抗样本及其重构样本(对应标签为“0”)类似，则执行设备确定输入样本的类型为非对抗样本。

其中，“正常”表示该输入样本为非对抗样本，目标神经网络没有受到对抗样本的攻击。因此执行设备可以按照正常状态执行目标神经网络对应的指令代码，根据该输入样本得到对应的识别结果。“对抗样本”表示该输入样本为对抗样本，目标神经网络受到了对抗样本攻击，那么该输入样本对应的识别结果是受到攻击后的识别结果，执行设备可以不通过目标神经网络对该输入样本进行处理，或者是通过目标神经网络处理该输入样本后得到的识别结果无效。

另一方面，执行设备确定输入样本的样本类型之后，还可以将这些输入样本及其对应类型发送至其他设备，以供其他设备使用。

本申请实施例可以应用于车载摄像头图像分类，执行设备获取到车载摄像头拍摄的图片数据后，可以以车载摄像头拍摄的图片数据作为输入样本执行上述步骤701至步骤704，通过目标神经网络对图片数据进行分类，识别出该图片的类型等，并且通过自编码器和对抗样本检测器检测出该输入样本是否为对抗样本，从而确定识别出该图片的类型是否有效。在其他应用场景，例如手机的图像识别等，具体过程类似，此处不再赘述。

以下对本申请实施例的训练过程进行详细的描述。本申请实施例的训练过程可以由训练设备。图8为本申请实施例的训练过程的流程图。该流程包括：

801、获取训练集；

在本申请实施例中，训练集为非对抗样本组成的集合。非对抗样本的格式类型与前述输入样本类似，此处不再赘述。非对抗样本的标签根据目标神经网络的任务类型进行具体设置，示例性的，目标神经网络的任务类型为图像识别，非对抗样本为图像，则工作人员可以通过训练设备为非对抗样本打上诸如“小猫”、“小狗”等与非对抗样本对应的标签，用于对目标神经网络的训练。

802、通过训练集同时对目标神经网络和自编码器训练；

在本申请实施例中，训练设备可以通过训练集同时对目标神经网络和自编码器训练，其中，训练设备对目标神经网络的训练与前述卷积神经网络类似，或者与传统的神经网络训练类似，此处不再赘述。而由于目标神经网络中的卷积层同时也是自编码器的编码器部分，因此训练设备对目标神经网络训练的同时可以根据目标神经网络卷积层的训练参数同时训练自编码器的解码器部分，实现目标神经网络和自编码器的同时训练。

训练设备同时对目标神经网络和自编码器训练的目标是自编码器重构误差较小且目标神经网络对非对抗样本的识别误差较小，因此损失函数可以设置为自编码器重构误差与目标神经网络误差之和。对此，本申请实施例提供的损失函数公式为：

其中，X_train为训练集，|X_train|为训练集的数据数量(即训练集中的非对抗样本x的数量)，x为训练集中的非对抗样本，ae(x)为根据训练集中的非对抗样本通过自编码器得到的训练用重构样本，

为相对熵(relative entropy)。

803、根据训练集，通过对抗样本生成算法生成针对目标神经网络的训练用的对抗样本；

图9为本申请实施例中生成训练用对抗样本的示意图。训练设备可以根据训练集中的非对抗样本，通过对抗样本生成算法对目标神经网络进行攻击，生成针对目标神经网络的训练用的对抗样本。在本申请实施例中，对抗样本生成算法可以采用上述的FGSM算法、JSMA算法等，本申请实施例对此不做限定。

在本申请实施例中，非对抗样本为适用于目标神经网络进行识别的样本，而对抗样本则会对目标神经网络进行攻击使其输出错误结果。因此，非对抗样本和对抗样本通常采用标签进行区分，以供后续训练。示例性的，非对抗样本的标签为“0”，用于表示该样本为非对抗样本，对抗样本的标签为“1”，用于表示该样本为对抗样本。

804、根据训练集和训练用的对抗样本，分别通过训练后的自编码器得到非对抗重构样本和对抗重构样本；

图10为本申请实施例中生成非对抗重构样本和对抗重构样本的示意图。训练设备可以根据训练集中的非对抗样本，通过训练后的自编码器得到非对抗重构样本。同理，训练设备可以根据训练用的对抗样本，通过训练后的自编码器得到对抗重构样本。

训练设备可以先生成非对抗重构样本，在生成对抗重构样本，也可以先生成对抗重构样本，再生成非对抗重构样本，或者两者同时生成，本申请实施例对此不做限定。

805、通过第一训练样本和第二训练样本对对抗样本检测器训练。

在本申请实施例中，第一训练样本包括非对抗样本以及步骤804中得到的非对抗重构样本，第二训练样本包括训练用的对抗样本以及步骤804中得到的对抗重构样本。其中，第一训练样本对应的标签为“非对抗”或“正常”，第二训练样本对应的标签为“对抗”或“不正常”。具体地，“非对抗”可以用标签“0”表示，“对抗”可以用标签“1”表示。

图11为本申请实施例训练对抗样本检测器的示意图。训练设备通过第一训练样本和第二训练样本训练对抗样本检测器，能够使得对抗样本检测器具备侦测重构误差的能力。执行设备通过训练完的对抗样本检测器对类似第二训练样本的数据进行检测时，能够识别出该数据为对抗样本。

在一些实施例中，训练设备还会对训练完的对抗样本检测器进行测试，从而得到各类测试数据。具体地，训练设备可以获取测试集，所述测试集为测试样本(即测试用的非对抗样本)组成的集合；根据所述测试集，通过对抗样本生成算法生成针对所述目标神经网络的测试用的对抗样本；根据所述测试集和所述测试用的对抗样本，通过训练完的所述自编码器和所述对抗样本检测器得到测试结果；根据所述测试集和所述测试用的对抗样本确定所述测试结果的检测正确率(测试集上整体的分类正确率)、对抗样本检出率(对抗样本中被成功检出的样本在对抗样本中的占比)和假阳性率(不是对抗样本却被判断为对抗样本的样本在非对抗样本中的占比)。在实际应用中，也可以采用其他设备进行测试，本申请实施例对此不作限定。

可以理解的是，上述执行过程和训练过程分别由执行设备和训练设备进行，在实际应用中，执行设备和训练设备可以为同一个设备，本申请实施例对执行过程和训练过程的执行主体不做限定。

上述为本申请实施例提供的一种技术方案的详细描述，以下将对本申请实施例提供的另一个技术方案进行详细的描述。图12为本申请实施例提供的另一种技术方案的示意图。该方案中，执行设备通过自编码器对输入样本进行处理得到重构样本后，可以通过自编码器对重构样本再次进行处理，实现一次循环重构。若输入样本是对抗样本，则该对抗样本的噪音会被放大，从而更加容易被检测出来，提高对抗样本检出率。图12所示技术方案的其他模块(如目标神经网络、反馈重构网络和对抗样本检测器等)与前述图3对应的各个实施例类似，此处不再赘述。图12所示技术方案的系统架构与前述图6类似，此处不再赘述。图13为本申请实施例执行设备的另一种流程图。具体地，该系统架构中的执行设备可以执行以下流程：

1301、获取输入样本；

步骤1301与前述图7对应的各个实施例中步骤701类似，此处不再赘述。

1302、根据输入样本，通过自编码器得到重构样本；

步骤1302与前述图7对应的各个实施例中步骤702类似，此处不再赘述。

1303、通过自编码器对重构样本进行至少一次循环重构；

在本申请实施例中，执行设备通过自编码器对输入样本进行处理得到重构样本后，可以通过自编码器对重构样本再次进行处理，得到第二次重构样本。执行设备还可以通过自编码器对第二次重构样本再次进行处理，得到第三次重构样本……以此类推，执行设备可以对重构样本进行多次循环重构。本申请实施例对循环重构的次数不做限定。循环重构的次数增加可能造成算力耗能成本上升与时间延迟，设计人员可以根据实际情况对循环重构的次数进行调整，以求取得对抗样本检出率与耗能延迟的平衡。

1304、根据输入样本和重构样本，通过对抗样本检测器得到输入样本的检测结果；

步骤1304与前述图7对应的各个实施例中步骤703类似，此处不再赘述。

1305、根据检测结果确定输入样本的样本类型。

步骤1305与前述图7对应的各个实施例中步骤704类似，此处不再赘述。

图12所示技术方案的训练过程与前述图8对应的各个实施例类似，此处不再赘述。

图14为本申请实施例提供的一种对抗样本的识别装置的示意图。该防御对抗样本的装置1400包括：

获取模块1401，用于执行上述图7对应的各个实施例中的步骤701，或执行上述图8对应的各个实施例中的步骤801，或执行上述图13对应的各个实施例中的步骤1301；

处理模块1402，用于执行上述图7对应的各个实施例中的步骤702、步骤703、步骤704，或执行上述图8对应的各个实施例中的步骤802、步骤803、步骤804、步骤805，或执行上述图13对应的各个实施例中的步骤1302、步骤1303、步骤1304、步骤1305。

图15为本申请实施例提供的一种执行设备结构示意图，该执行设备1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1501(例如，一个或一个以上处理器)和存储器1502，一个或一个以上存储应用程序1533或数据1532的存储介质1503(例如一个或一个以上海量存储设备)。其中，存储器1502和存储介质1503可以是短暂存储或持久存储。存储在存储介质1503的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对执行设备中的一系列指令操作。更进一步地，中央处理器1501可以设置为与存储介质1503通信，在执行设备1500上执行存储介质1503中的一系列指令操作。

执行设备1500还可以包括一个或一个以上电源1504，一个或一个以上有线或无线网络接口1505，一个或一个以上输入输出接口1506，和/或，一个或一个以上操作系统1531，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由执行设备所执行的步骤可以基于该图15所示的执行设备结构。具体地，CPU1501可以执行上述图7对应的实施例中的所有步骤，或执行上述图8对应的实施例中的所有步骤，或执行上述图13对应的实施例中的所有步骤。在一些实施例中，CPU1501中的模块可以包括如上述图14对应的实施例中的获取模块1401、处理模块1402，本申请实施例对此不再赘述。训练设备的结构与图15对应的执行设备结构类似，此处不再赘述。在一些实施例中，训练设备执行的步骤可由执行设备预先执行，本申请实施例对此不做限定。

Claims

1.一种对抗样本的识别方法，其特征在于，包括：

获取输入样本；

根据所述输入样本，通过自编码器得到重构样本，所述自编码器以目标神经网络的卷积层为编码器，以反馈重构网络为解码器；

根据所述输入样本和所述重构样本，通过对抗样本检测器得到所述输入样本的检测结果，所述对抗样本检测器是通过第一训练样本和第二训练样本训练获得，所述第一样本包括非对抗样本及其重构样本，以及第一样本标签；所述第二样本包括对抗样本及其重构样本，以及第二样本标签；

根据检测结果确定所述输入样本的样本类型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述输入样本，通过自编码器得到重构样本之后，所述根据所述输入样本和所述重构样本，通过对抗样本检测器得到所述输入样本的检测结果之前，所述方法还包括：

通过所述自编码器对所述重构样本进行至少一次循环重构，所述循环重构为通过所述自编码器对所述重构样本进行处理。

3.根据权利要求1所述的方法，其特征在于，所述对抗样本检测器为二分类器。

4.根据权利要求1所述的方法，其特征在于，所述通过自编码器得到重构样本之前，所述方法还包括：

获取训练集，所述训练集为非对抗样本组成的集合；

通过所述训练集同时对所述目标神经网络以及所述自编码器训练，所述目标神经网络包含所述卷积层与目标分类器。

5.根据权利要求4所述的方法，其特征在于，通过所述训练集同时对所述目标神经网络以及所述自编码器训练中，训练过程的损失函数为：

为相对熵。

6.根据权利要求4所述的方法，其特征在于，所述通过所述训练集同时对所述目标神经网络以及所述自编码器训练之后，所述方法还包括：

根据所述训练集，通过对抗样本生成算法生成针对所述目标神经网络的训练用的对抗样本；

根据所述训练集通过训练后的所述自编码器得到非对抗重构样本；

根据所述训练用的对抗样本，通过训练后的所述自编码器得到对抗重构样本；

通过第一训练样本和第二训练样本对所述对抗样本检测器训练，所述第一训练样本由所述训练集中非对抗样本及所述非对抗重构样本组成，所述第二训练样本由所述训练用的对抗样本及所述对抗重构样本组成。

7.根据权利要求6所述的方法，其特征在于，所述通过第一训练样本和第二训练样本对所述对抗样本检测器训练之后，所述方法还包括：

获取测试集，所述测试集为测试样本组成的集合；

根据所述测试集，通过对抗样本生成算法生成针对所述目标神经网络的测试用的对抗样本；

根据所述测试集和所述测试用的对抗样本，通过训练完的所述自编码器和所述对抗样本检测器得到测试结果；

根据所述测试集和所述测试用的对抗样本确定所述测试结果的检测正确率、对抗样本检出率和假阳性率。

8.一种对抗样本的识别装置，其特征在于，包括：

获取模块，用于获取输入样本；

处理模块，用于根据所述输入样本，通过自编码器得到重构样本，所述自编码器以卷积神经网络的卷积层为编码器，以反馈重构网络为解码器；

所述处理模块，还用于根据所述输入样本和所述重构样本，通过对抗样本检测器得到所述输入样本的检测结果，所述对抗样本检测器是通过第一训练样本和第二训练样本训练获得，所述第一样本包括非对抗样本及其重构样本，以及第一样本标签；所述第二样本包括对抗样本及其重构样本，以及第二样本标签；

所述处理模块，还用于根据检测结果确定所述输入样本的样本类型。

9.一种对抗样本的识别设备，其特征在于，包括：处理器和传输接口，所述处理器被配置为调用存储在存储器中的程序指令，以执行权利要求1至7任意一项所述的方法。

10.一种计算机可读存储介质，包括指令，当所述指令在计算机或处理器上运行时，使得所述计算机或所述处理器执行如权利要求1至7中任意一项所述的方法。

11.一种包含指令的计算机程序产品，所述计算机程序产品包括程序指令，当所述程序指令在计算机或处理器上运行时，使得所述计算机或所述处理器执行如权利要求1至7中任意一项所述的方法。