CN111626367A

CN111626367A - 对抗样本检测方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111626367A
Application number: CN202010468925.4A
Authority: CN
Inventors: 张天豫; 范力欣; 吴锦和
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-04

Abstract

本发明公开了一种对抗样本检测方法、装置、设备及计算机可读存储介质，所述方法包括：将待检测样本输入自编码网络中，将自编码网络中目标中间层的输出作为待检测样本的潜在特征，其中，自编码网络基于标准数据集训练得到，标准数据集中样本的标签类别与待检测样本的标签类别相同；将潜在特征与判定标准进行差异比较，并基于比较结果得到待检测样本的对抗样本检测结果，其中，判定标准为将标准数据集中的样本输入自编码网络，并基于目标中间层的输出得到的。本发明提供了一种对抗样本的有效检测方法，进而能够避免对抗攻击对神经网络的分类或预测任务造成影响，也即能够有效地防御对抗攻击，也能够避免对抗攻击造成的安全隐患。

Description

对抗样本检测方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种对抗样本检测方法、装置、设备及计算机可读存储介质。

背景技术

随着神经网络技术的快速发展和广泛应用，出现了一些针对神经网络的攻击方式。对抗攻击是目前针对神经网络的一种常见的攻击方式，其通过在输入数据中添加少量噪声，使得在不大幅改变原始数据的前提下迫使模型做出错误的判断。例如，通过对图片添加精心准备的扰动噪声使得分类器分错，或者通过对一个句子中的某些词进行同义词替换使得情感分类错误。对抗攻击在自动驾驶、人脸识别和金融建模等方面存在重大安全隐患，例如，通过对自动驾驶车辆拍摄到的红灯图像进行添加噪声，使得识别红绿灯的图像分类器误将红灯识别为绿灯，将可能造成严重的交通事故。由此，如何提供一种对抗样本的有效检测方法，以对对抗样本进行排除，避免安全隐患，成为了一个亟待解决的问题。

发明内容

本发明的主要目的在于提供一种对抗样本检测方法、设备、系统及计算机可读存储介质，旨在解决如何提供一种对抗样本的有效检测方法，以对对抗样本进行排除，避免安全隐患，成为了一个亟待解决的问题。

为实现上述目的，本发明提供一种对抗样本检测方法，所述方法包括以下步骤：

将待检测样本输入自编码网络中，将所述自编码网络中目标中间层的输出作为所述待检测样本的潜在特征，其中，所述自编码网络基于标准数据集训练得到，所述标准数据集中样本的标签类别与所述待检测样本的标签类别相同；

将所述潜在特征与判定标准进行差异比较，并基于比较结果得到所述待检测样本的对抗样本检测结果，其中，所述判定标准为将所述标准数据集中的样本输入所述自编码网络，并基于所述目标中间层的输出得到的。

可选地，所述将待检测样本输入自编码网络中，将所述自编码网络中目标中间层的输出作为所述待检测样本的潜在特征的步骤之前，还包括：

将所述标准数据集输入待训练网络中的编码器得到编码结果；

将所述编码结果输入所述待训练网络中的极化哈希层得到哈希结果，以及将所述编码结果输入所述待训练网络中的解码器得到解码结果；

基于所述哈希结果和预设随机哈希码计算编码损失值，以及基于所述标准数据集和所述解码结果计算重构损失值；

基于所述编码损失值和所述重构损失值更新所述待训练网络，以对所述待训练网络进行训练，并将训练完成后的待训练网络作为所述自编码网络。

可选地，所述将所述编码结果输入所述待训练网络中的极化哈希层得到哈希结果的步骤包括：

将所述编码结果输入所述待训练网络中的极化哈希层得到极化向量；

根据所述极化向量各元素值的正负符号确定所述极化向量对应的哈希结果。

可选地，所述基于所述哈希结果和预设随机哈希码计算编码损失值的步骤包括：

计算所述哈希结果和所述预设随机哈希码之间的汉明距离，将所述汉明距离作为编码损失值。

可选地，所述基于所述哈希结果和预设随机哈希码计算编码损失值的步骤之前，还包括：

基于预设哈希码生成方式生成所述标准数据集对应的所述预设随机哈希码，其中，所述预设随机哈希码与目标标签类别对应的随机哈希码之间的汉明距离大于预设距离，所述目标标签类别为与所述标准数据集的标签类别不同的标签类别。

可选地，所述将所述潜在特征与判定标准进行差异比较，并基于比较结果得到所述待检测样本的对抗样本检测结果的步骤包括：

计算所述潜在特征与所述判定标准之间的差异值，并检测所述差异值是否小于预设阈值；

若所述差异值小于所述预设阈值，则确定所述待检测样本为正常样本；

若所述差异值大于或等于所述预设阈值，则确定所述待检测样本为对抗样本。

可选地，当所述目标中间层为所述自编码网络中编码器的输出层时，所述潜在特征为所述待检测样本的编码向量，所述判定标准为所述标准数据集中各样本对应编码向量的平均结果，

所述计算所述潜在特征与所述判定标准之间的差异值的步骤包括：

计算所述潜在特征与所述判定标准之间的向量距离值，将所述向量距离值作为所述潜在特征与所述判定标准之间的差异值。

为实现上述目的，本发明提供一种对抗样本检测装置，所述装置包括：

输入模块，用于将待检测样本输入自编码网络中，将所述自编码网络目标中中间层的输出作为所述待检测样本的潜在特征，其中，所述自编码网络基于标准数据集训练得到，所述标准数据集中样本的标签类别与所述待检测样本的标签类别相同；

比较模块，用于将所述潜在特征与判定标准进行差异比较，并基于比较结果得到所述待检测样本的对抗样本检测结果，其中，所述判定标准为将所述标准数据集中的样本输入所述自编码网络，并基于所述目标中间层的输出得到的。

为实现上述目的，本发明还提供一种对抗样本检测设备，所述对抗样本检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对抗样本检测程序，所述对抗样本检测程序被所述处理器执行时实现如上所述的对抗样本检测方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有对抗样本检测程序，所述对抗样本检测程序被处理器执行时实现如上所述的对抗样本检测方法的步骤。

本发明中，通过将待检测样本输入自编码网络，并提取自编码网络目标中间层的输出作为待检测样本的潜在特征，将潜在特征与判定标准进行差异比较，得到待检测样本的对抗样本检测结果。由于自编码网络是采用标签类别与待检测样本的类别相同的标准数据集训练得到的，并且判定标准是将标准数据集输入到自编码网络，并提取目标中间层的输出得到的，判定标准包含了该标签类别的正常样本的主要特征，潜在特征包含了待检测样本的主要特征，将潜在特征与判定标准进行差异比较，若两者差异越小则待检测样本与正常样本之间的差异越小，进而待检测样本越可能属于该标签类别，反之越不可能属于该标签类别，因此，根据差异比较的结果能够得到待检测样本是否为对抗样本的检测结果。也即，本发明提供了一种对抗样本的有效检测方法，进而能够避免对抗攻击对神经网络的分类或预测任务造成影响，也即能够有效地防御对抗攻击，也能够避免对抗攻击造成的安全隐患。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明对抗样本检测方法第一实施例的流程示意图；

图3为本发明对抗样本检测装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例对抗样本检测设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该对抗样本检测设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对对抗样本检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及对抗样本检测程序。其中，操作系统是管理和控制设备硬件和软件资源的程序，支持对抗样本检测程序以及其它软件或程序的运行。在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于服务器建立通信连接；处理器1001可以用于调用存储器1005中存储的对抗样本检测程序，并执行以下操作：

进一步地，所述将待检测样本输入自编码网络中，将所述自编码网络中目标中间层的输出作为所述待检测样本的潜在特征的步骤之前，处理器1001还可以用于调用存储器1005中存储的对抗样本检测程序，执行以下操作：

进一步地，所述将所述编码结果输入所述待训练网络中的极化哈希层得到哈希结果的步骤包括：

进一步地，所述基于所述哈希结果和预设随机哈希码计算编码损失值的步骤包括：

进一步地，所述基于所述哈希结果和预设随机哈希码计算编码损失值的步骤之前，处理器1001还可以用于调用存储器1005中存储的对抗样本检测程序，执行以下操作：

进一步地，所述将所述潜在特征与判定标准进行差异比较，并基于比较结果得到所述待检测样本的对抗样本检测结果的步骤包括：

进一步地，当所述目标中间层为所述自编码网络中编码器的输出层时，所述潜在特征为所述待检测样本的编码向量，所述判定标准为所述标准数据集中各样本对应编码向量的平均结果，

基于上述的结构，提出对抗样本检测方法的各实施例。

参照图2，图2为本发明对抗样本检测方法第一实施例的流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明对抗样本检测方法各个实施例的执行主体可以是智能手机、个人计算机和服务器等设备，为便于描述，以下各实施例中省略执行主体进行阐述。在本实施例中，对抗样本检测方法包括：

步骤S10，将待检测样本输入自编码网络中，将所述自编码网络中目标中间层的输出作为所述待检测样本的潜在特征，其中，所述自编码网络基于标准数据集训练得到，所述标准数据集中样本的标签类别与所述待检测样本的标签类别相同；

对抗样本指在正常样本上添加了噪声以干扰神经网络输出结果的样本，神经网络可能会对对抗样本识别出与正常样本完全相反的结果。例如，正常样本是一张猫的图像，神经网络是经过大量数据集训练得到的网络，因此，大概率地会将正常样本分类为猫，对抗样本则是在正常样本上添加了一些噪声，这些噪声可能不被人眼所察觉，也即人眼看到的对抗样本仍然是一张猫的图片，但是神经网络大概率地会将对抗样本分类为狗，也即，对抗攻击者通过在正常样本上添加的噪声，欺骗了神经网络。

在本实施例中，对抗样本检测即检测对样本是否为对抗样本。在实际应用中，可将需要确定是否为对抗样本的样本数据作为待检测样本。为检测对抗样本，在本实施例中可根据神经网络的具体分类任务，预先针对每一种标签类别训练一个自编码网络。自编码网络是神经网络的一种，经过训练后能尝试将输入复制到输出，该网络包括两部分：一个由函数h＝f(x)表示的编码器和一个生成重构的解码器r＝g(h)。例如，神经网络的具体分类任务是对图像进行分类，标签类别有猫和狗两种，那么，可采用标签类别为猫的标准数据集训练一个自编码网络，采用标签类别为狗的标准数据集训练一个自编码网络，标准数据集是指数据集中的样本都为正常样本的数据集。在进行对抗样本检测时，根据待检测样本所属的标签类别，选择该标签类别对应的自编码网络来对待检测样本进行检测。例如，待检测样本的标签类别为狗，则选择采用标签类别为狗的标准数据集训练得到的自编码网络，来对该待检测样本进行检测。

需要说明的是，若是在对神经网络进行训练之前，要选取用于训练神经网络的训练样本，需要对待选取的样本进行对抗样本检测，以确定待选取的样本是否为对抗样本，则将待选取的样本作为待检测样本，此时待检测样本的标签类别可以是人工标注得到的。若是在训练得到神经网络之后，采用神经网络对待分类的样本进行分类预测，需要对待分类的样本进行对抗样本检测，以确定神经网络的分类预测结果是否可信，则将待分类的样本作为待检测样本，此时待检测样本的标签类别可以是神经网络分类预测得到的类别标签。

在确定待检测样本，以及确定对待检测样本进行检测的自编码网络后，可将待检测样本输入该自编码网络中，也即调用自编码网络来对待检测样本进行编码和解码。具体地，可以是将待检测样本输入该自编码网络的编码器中，得到编码结果，再将编码结果输入到自编码网络的解码器中，得到解码结果。自编码网络中除编码器的输入层和解码器的输出层，中间的各个网络层称为中间层，也即，编码器的各个隐藏层、编码器的输出层、解码器的输入层和解码器的各个隐藏层都称为中间层。

将待检测样本输入自编码网络进行处理的过程中，可提取自编码网络的目标中间层的输出，作为待检测样本的潜在特征。其中，目标中间层可以是自编码网络各个中间层中的一个或多个，可以预先设置目标中间层具体为哪一个或哪几个中间层。根据自编码网络的特征，编码器会抽取待检测样本的特征，根据特征对待检测样本进行编码，解码器依据编码进行特征还原，最终得到接近与输入数据的输出结果，也即，自编码网络各个中间层的输出包含了待检测样本不同维度的特征，这些特征采用向量或编码的方式体现，因此是一种潜在特征。进一步地，当选取多个中间层作为目标中间层时，提取到的待检测样本的潜在特征更加丰富，从而给对抗样本的检测提供更加丰富的检测依据。

进一步地，根据自编码网络的特性，自编码网络的编码器中的各个中间层，能够逐层去除待检测样本中的冗余特征，保留待检测样本中的主要特征，因此，可将编码器中靠近编码器输出层的一层或几层中间层作为目标中间层，将这些目标中间层输出的特征作为待检测样本的潜在特征，使得潜在特征中大都是待检测样本的主要特征，也即保留了与待检测样本所属类别相关的主要特征。

步骤S20，将所述潜在特征与判定标准进行差异比较，并基于比较结果得到所述待检测样本的对抗样本检测结果，其中，所述判定标准为将所述标准数据集中的样本输入所述自编码网络，并基于所述目标中间层的输出得到的。

在提取到待检测样本的潜在特征后，可将潜在特征与预设的判定标准进行差异比较。其中，判定标准可以是预先设置的，判定标准的数据形式可与潜在特征的数据形式相同，例如，潜在特征是向量形式，则判定标准也是向量形式。可以是采用标准数据集训练得到自编码网络后，将标准数据集输入到自编码网络中，并将自编码网络目标中间层的输出作为判定标准，需要说明的是，标准数据集中包括多条样本数据，那么可以将每条样本数据对应的目标中间层输出进行平均，得到标准数据集在目标中间层的输出；当目标中间层有多个时，对于每一个目标中间层，将每条样本数据对应在该目标中间层的输出进行平均，得到标准数据集在该目标中间层的输出，那么，判定标准包括每个目标中间层对应的判定标准。

在得到差异比较结果后，根据差异比较结果确定待检测样本是否为对抗样本，即可得到待检测样本的对抗样本检测结果。具体地，待检测样本被人工标记或被神经网络预测为目标标签类别，潜在特征包含了待检测样本去除冗余信息后的主要特征，判定标准包括了属于目标标签类别的正常样本的主要特征；如果潜在特征与判定标准越接近，说明待检测样本与属于目标标签类别的正常样本越接近，也即说明待检测样本属于目标标签类别的可能性越大，进而表示当潜在特征与判定标准之间的差异越小时，待检测样本越可能是正常样本。如果潜在特征与判定标准差异越大，说明待检测样本与属于目标标签类别的正常样本差异越大，也即说明待检测样本属于目标标签类别的可能性越小，进而表示当潜在特征与判定标准之间的差异越大时，待检测样本越可能是对抗样本。

进一步地，基于上述原理，所述步骤S20包括：

步骤S201，计算所述潜在特征与所述判定标准之间的差异值，并检测所述差异值是否小于预设阈值；

进一步地，可计算潜在特征与判定标准之间的差异值，并检测差异值是否小于预设阈值。其中，预设阈值可以根据具体需求进行设置，或者可以基于在具体的神经网络分类任务中进行实验得到的实验数据进行设置。具体地，当潜在特征和判定标准的数据形式是向量时，差异值可以是计算潜在特征与判定标准之间的向量距离值。

若目标中间层只有一个，那么潜在特征和判定标准均为一个向量，可计算两个向量的向量距离值，将该向量距离值作为差异比较的结果。

若目标中间层为多个时，那么潜在特征包括多个向量，一个向量对应一个目标中间层，判定标准也包括多个向量，同样的，一个向量对应一个目标中间层。此时，可将每个潜在特征与对应目标中间层的判定标准计算向量距离值，得到每个潜在特征对应的向量距离值，将该多个向量距离值计算平均值得到的值，作为潜在特征与判定标准之间的差异值。进一步地，对各个向量距离值进行平均时可以带上权重，也即进行加权平均；权重的设置可以是根据各个目标中间层所能够提取的特征的重要程度来设置，当目标中间层所提取的特征对对抗样本的检测起到的作用较大时，认为该目标中间层的重要程度较大，进而对该目标中间层设置较大的权重，反之，设置较小的权重；例如，根据自编码器的特性，编码器的各个层是逐层去除样本的冗余特征，最终保留样本的主要特征，由此，编码器中靠近编码器输出层(包括编码器输出层)的中间层，相比于靠近输入层的中间层，所提取到的特征包含的冗余特征要少，主要特征占比较多，进而可以为编码器中靠近编码器输出层的中间层设置较大的权重，即在进行差异比较时，以权重较大的中间层提取到的特征为主要比较对象，进而，可以更加准确地确定待检测样本与标准数据集在类别属性上的本质差异。

向量距离值的计算方式可采用常用的向量之间距离的计算方式，如欧式距离、汉明距离等等，在此不作限制。

步骤S202，若所述差异值小于所述预设阈值，则确定所述待检测样本为正常样本；

步骤S203，若所述差异值大于或等于所述预设阈值，则确定所述待检测样本为对抗样本。

若检测到差异值小于预设阈值，则确定潜在特征与判定标准之间的差异较小，进而判定待检测样本为正常样本；反之，若差异值大于或等于预设阈值，则确定潜在特征与判定标准之间的差异过大，进而判定待检测样本是对抗样本，否则，判定待检测样本是正常样本。

当在对神经网络进行训练之前，要选取用于训练神经网络的训练样本，对待选取的样本进行对抗样本检测时，若检测得到待选取的样本为对抗样本，则可以将待选取的样本排除，即不采用该样本来训练神经网络，以避免该样本影响神经网络的训练效果；若检测到该待选取的样本为正常样本，则可以将该样本用于训练神经网络。当在训练得到神经网络之后，采用神经网络对待分类的样本进行分类预测，需要对待分类的样本进行对抗样本检测，以确定神经网络的分类预测结果是否可信时，若检测得到待分类的样本为对抗样本，则说明神经网络的分类预测结果不一定可信，此时可以选择不采纳神经网络的分类预测结果，以避免造成不良影响；若检测得到待分类的样本为正常样本，则可以采纳神经网络的分类预测结果。

在本实施例中，通过将待检测样本输入自编码网络，并提取自编码网络目标中间层的输出作为待检测样本的潜在特征，将潜在特征与判定标准进行差异比较，得到待检测样本的对抗样本检测结果。由于自编码网络是采用标签类别与待检测样本的类别相同的标准数据集训练得到的，并且判定标准是将标准数据集输入到自编码网络，并提取目标中间层的输出得到的，判定标准包含了该标签类别的正常样本的主要特征，潜在特征包含了待检测样本的主要特征，将潜在特征与判定标准进行差异比较，若两者差异越小则待检测样本与正常样本之间的差异越小，进而待检测样本越可能属于该标签类别，反之越不可能属于该标签类别，因此，根据差异比较的结果能够得到待检测样本是否为对抗样本的检测结果。也即，本实施例提供了一种对抗样本的有效检测方法，进而能够避免对抗攻击对神经网络的分类或预测任务造成影响，也即能够有效地防御对抗攻击，也能够避免对抗攻击造成的安全隐患。

进一步地，基于上述第一实施例，提出本发明对抗样本检测方法第二实施例，在本实施例中，所述对抗样本检测方法还包括：

步骤S30，将所述标准数据集输入待训练网络中的编码器得到编码结果；

进一步地，在使用自编码网络进行对抗样本的检测之前，需要对自编码网络进行训练。在本实施例中，可以预先设置一个待训练的自编码网络(以下称为待训练网络)，待训练网络相比于常规的自编码网络的结构，还包括极化哈希层，极化哈希层与解码器一样，连接在编码器之后，也即，编码器输出数据会输入到解码器进行解码，也会输入到极化哈希层进行极化哈希处理。极化哈希层可包括至少一个全连接层，用于对输入数据进行极化处理得到极化向量，极化处理指使得输出的数据远离0，全连接层输出的极化向量中元素个数是预先设置的；极化哈希层还包括连接在全连接层后的哈希通道，一个哈希通道对应极化向量中的一个元素，用于对极化向量中元素进行哈希，得到哈希结果，也即将极化向量中的元素转换为1或-1。

将标准数据集输入待训练网络中的编码器，得到编码结果。具体地，将标准数据集中每条样本数据分别输入编码器，得到每条样本数据的编码结果。编码结果的数据形式可以是一个高维向量。

步骤S40，将所述编码结果输入所述待训练网络中的极化哈希层得到哈希结果，以及将所述编码结果输入所述待训练网络中的解码器得到解码结果；

将编码结果输入到极化哈希层进行极化哈希处理，得到哈希结果。具体地，将每条样本数据的编码结果分别输入极化哈希层，得到每条样本数据对应的哈希结果。并将编码结果输入待训练网络中的解码器得到解码结果，解码器对编码结果进行解码的过程在此不进行详细赘述。具体地，将每条样本数据的编码结果分别输入解码器，得到每条样本数据对应的解码结果。

进一步地，所述步骤S40中将所述编码结果输入所述待训练网络中的极化哈希层得到哈希结果的步骤包括：

步骤S401，将所述编码结果输入所述待训练网络中的极化哈希层得到极化向量；

步骤S402，根据所述极化向量各元素值的正负符号确定所述极化向量对应的哈希结果。

将编码结果输入待训练网络中的极化哈希层，也即调用极化哈希层中的全连接层对编码结果进行极化处理，得到极化向量。得到极化向量后，将各个元素值输入对应的哈希通道，哈希通道根据元素值的正负符号确定元素值对应的哈希码。具体地，当元素值是负数时，确定该元素对应的哈希码为-1，当元素值为正数时，确定该元素对应的哈希码为1，确定每个元素对应的哈希码后，得到由各个哈希码组成的哈希结果，也即，哈希结果中各个元素为1或-1。

步骤S50，基于所述哈希结果和预设随机哈希码计算编码损失值，以及基于所述标准数据集和所述解码结果计算重构损失值；

在得到哈希结果后，根据哈希结果和预设随机哈希码，计算编码损失值。其中，预设随机哈希码是预先随机生成的一个哈希码，这个哈希码元素的取值范围是{1，-1}，元素个数与极化哈希层的全连接层输出的极化向量元素个数相同。该预设随机哈希码被设置为与标准数据集的标签类别对应，也即，每个标签类别对应一个预设随机哈希码，每个类别的预设随机哈希码是不同的。具体地，可分别计算每条样本数据的哈希结果与预设随机哈希码的差值，再将各个差值进行平均，得到编码损失值。哈希结果与预设随机哈希码的差值可以是采用汉明距离计算方式，在此不进行详细赘述。

此外，在得到解码结果后，基于标准数据集和解码结果计算重构损失值，重构损失值的计算方式可采用常规的自编码网络重构损失值的计算方式，在此不进行详细赘述。

进一步地，所述步骤S50中基于所述哈希结果和预设随机哈希码计算编码损失值的步骤包括：

步骤S501，计算所述哈希结果和所述预设随机哈希码之间的汉明距离，将所述汉明距离作为编码损失值。

在得到哈希结果后，可计算哈希结果与预设随机哈希码之间的汉明距离，将汉明距离作为编码损失值。具体地，可分别计算每条样本数据对应的哈希结果与该预设随机哈希码之间的汉明距离，再对各条样本数据对应的汉明距离进行平均，将平均结果作为编码损失值。其中，汉明距离的计算方式可参照现有的计算方式，在此不进行详细赘述。

步骤S60，基于所述编码损失值和所述重构损失值更新所述待训练网络，以对所述待训练网络进行训练，并将训练完成后的待训练网络作为所述自编码网络。

在计算得到编码损失值和重构损失值后，可根据编码损失值和重构损失值更新待训练网络，以对待训练网络进行训练。具体地，可将编码损失值和重构损失值进行加权求和，得到一个总损失值，加权求和的权重可以根据具体需要预先设置；根据总损失值判断待训练网络是否收敛，具体地，可判断总损失值是否小于一个预先设置的阈值，若小于，则确定待训练网络收敛，反之，确定未收敛；若待训练网络未收敛，则可根据总损失值来更新待训练网络，具体地，可以根据链式法则，基于总损失值计算待训练网络各个模型参数的梯度值，采用梯度值来更新各个模型参数，以达到更新待训练网络；再采用将标准数据集输入更新后的待训练网络，得到新的编码损失值和重构损失值，进而判断更新后的待训练网络是否收敛；直到检测到待训练网络收敛，则可以将更新后的待训练网络作为训练完成的自编码网络。

进一步地，当根据总损失值检测到待训练网络未收敛，对待训练网络进行更新的具体过程还可以是：

对于极化哈希层中全连接层输出的极化向量，预先设置了极化向量中每个元素对应的极化损失函数，例如，对于极化向量中的目标元素，采用如下的极化损失函数：

L(v，t)＝max(m-v*t，0)

其中，L表示极化损失函数，m为极化哈希层的参数(训练之前初始化)，每个极化损失函数中的m是独立的，v为极化向量中的目标元素，t为预设随机哈希码中与目标元素对应位置的哈希码。

对于标准数据集对应的极化向量，将极化向量的各元素值分别输入对应的极化损失函数中计算得到损失值，采用该损失值计算极化哈希层和编码器的各个参数(包括m)的梯度值，根据梯度值来更新极化哈希层和编码器的各个参数。在更新后，再根据重构损失值计算解码器和编码器的各个参数的梯度值，根据梯度值更新解码器和编码器，从而完成对整个自编码网络的更新。

在本实施例中，通过在自编码网络中加入极化哈希层，并在重构损失值的基础上添加极化哈希层的编码损失值，以及通过训练自编码网络来降低编码损失值和重构损失值，使得采用编码器和极化哈希层对样本数据进行编码的结果，能够满足尽可能地贴近预设随机哈希编码，这样做的目的是：预设随机哈希编码是随机生成的，相比于普通的类别标注，随机哈希编码要复杂得多，采用同属于目标标签类别的大量样本数据对自编码网络进行训练，使得自编码网络能够不断地学习，提取出目标标签类别的样本数据的更多本质特征，利用更多的本质特征，能够更准确地区别于其他标签类别的样本数据的特征，也即，使得自编码网络学习到的划分不同类别的超平面更加精准，这样的自编码网络对于微量噪声的敏感度提高了，从而一旦有一些噪声干扰，都会被自编码网络识别出，也即，正常样本与对抗样本输入到自编码网络，所提取到的潜在特征是存在差异的，即使这个差异很小，训练得到的自编码网络也能够将其凸显出来，进而能够实现基于待检测样本的潜在特征与判定标准的差异，得出准确的对抗样本检测结果。

也即，通过在自编码网络中加入极化哈希层，并通过将预设随机哈希码作为标签来对自编码网络进行训练，使得针对添加的噪声更小、更难识别的对抗样本，也能够准确地检测出来，从而进一步地提升了对抗样本检测的准确度，进一步地避免了对抗攻击对神经网络的分类或预测任务造成影响，避免对抗攻击造成的安全隐患。

进一步地，所述对抗样本检测方法还包括：

步骤S70，基于预设哈希码生成方式生成所述标准数据集对应的所述预设随机哈希码，其中，所述预设随机哈希码与目标标签类别对应的随机哈希码之间的汉明距离大于预设距离，所述目标标签类别为与所述标准数据集的标签类别不同的标签类别。

为进一步地提高自编码网络提取到的本质特征的准确度，以进一步区别于其他标签类别的样本数据的特征，在一实施方式中，可预先采用预设哈希码生成方式，随机生成各个标签类别对应的哈希码，并将各个标签类别的哈希码进行比较。具体地，计算两个标签类别的哈希码之间的汉明距离，并检测该汉明距离是否大于预设距离，若大于，则保留两个哈希码；否则对于其中一个标签类别，再随机生成一个哈希码与另一标签类别的哈希码计算汉明距离；这样循环，直到两个标签类别的哈希码之间的汉明距离大于预设距离为止。最终使得各个标签类别两两之间的哈希码的汉明距离都大于预设距离。其中，预设距离为预先根据需要设置的。预设哈希码生成方式是预先设置的一种生成哈希码的方式，可以采用任一能够随机生成哈希码的方式，例如高斯随机方法，在此不作限制。

进一步地，基于上述第一实施例和第二实施例，提出本发明对抗样本检测方法第三实施例，在本实施例中，所述步骤S201中计算所述潜在特征与所述判定标准之间的差异值的步骤包括：

步骤S2011，计算所述潜在特征与所述判定标准之间的向量距离值，将所述向量距离值作为所述潜在特征与所述判定标准之间的差异值。

进一步地，在本实施例中，预先可以设置目标中间层为自编码网络中编码器的输出层，那么，将待检测样本输入自编码网络，提取编码器输出层的输出作为待检测样本的潜在特征，也即，在本实施例中，潜在特征为待检测样本的编码向量。对应地，将标准数据集输入自编码网络，提取编码器输出层的输出，得到标准数据集中各条样本对应的编码向量，将各个编码向量进行平均，将平均结果作为判定结果。

在得到待检测样本的潜在特征后，计算潜在特征与判定标准之间的向量距离值，具体可采用如欧式距离、汉明距离等等，在此不作限制。将计算得到的向量距离值作为潜在特征与判定标准之间的差异值。

在本实施例中，通过将待检测样本输入自编码网络，并提取自编码网络中编码器输出层的输出作为待检测样本的潜在特征，将潜在特征与判定标准进行差异比较，得到待检测样本的对抗样本检测结果。由于自编码网络是采用标签类别与待检测样本的类别相同的标准数据集训练得到的，并且判定标准是将标准数据集输入到自编码网络，并提取编码器输出层的输出得到的，判定标准为该标签类别的正常样本的主要特征，潜在特征为待检测样本的主要特征，将潜在特征与判定标准进行差异比较，基于差异越小，待检测样本与正常样本差异越小，进而越可能属于该标签类别，反之越越不可能属于该标签类别的原理，根据差异比较的结果能够得到待检测样本是否为对抗样本的检测结果。也即，本实施例提供了一种对抗样本的有效检测方法，进而能够避免对抗攻击对神经网络的分类或预测任务造成影响，也即能够有效地防御对抗攻击，也能够避免对抗攻击造成的安全隐患。

此外本发明实施例还提出一种对抗样本检测装置，参照图3，所述装置包括：

输入模块10，用于将待检测样本输入自编码网络中，将所述自编码网络目标中中间层的输出作为所述待检测样本的潜在特征，其中，所述自编码网络基于标准数据集训练得到，所述标准数据集中样本的标签类别与所述待检测样本的标签类别相同；

比较模块20，用于将所述潜在特征与判定标准进行差异比较，并基于比较结果得到所述待检测样本的对抗样本检测结果，其中，所述判定标准为将所述标准数据集中的样本输入所述自编码网络，并基于所述目标中间层的输出得到的。

进一步地，所述输入模块10还用于：将所述标准数据集输入待训练网络中的编码器得到编码结果；将所述编码结果输入所述待训练网络中的极化哈希层得到哈希结果，以及将所述编码结果输入所述待训练网络中的解码器得到解码结果；

所述装置还包括：

计算模块，用于基于所述哈希结果和预设随机哈希码计算编码损失值，以及基于所述标准数据集和所述解码结果计算重构损失值；

训练模块，用于基于所述编码损失值和所述重构损失值更新所述待训练网络，以对所述待训练网络进行训练，并将训练完成后的待训练网络作为所述自编码网络。

进一步地，所述输入模块10包括：

输入单元，用于将所述编码结果输入所述待训练网络中的极化哈希层得到极化向量；

第一确定单元，用于根据所述极化向量各元素值的正负符号确定所述极化向量对应的哈希结果。

进一步地，所述计算模块包括：

计算单元，用于计算所述哈希结果和所述预设随机哈希码之间的汉明距离，将所述汉明距离作为编码损失值。

进一步地，所述装置还包括：

生成模块，用于基于预设哈希码生成方式生成所述标准数据集对应的所述预设随机哈希码，其中，所述预设随机哈希码与目标标签类别对应的随机哈希码之间的汉明距离大于预设距离，所述目标标签类别为与所述标准数据集的标签类别不同的标签类别。

进一步地，所述比较模块20包括：

检测单元，用于计算所述潜在特征与所述判定标准之间的差异值，并检测所述差异值是否小于预设阈值；

第二确定单元，用于若所述差异值小于所述预设阈值，则确定所述待检测样本为正常样本；

第二确定单元，用于若所述差异值大于或等于所述预设阈值，则确定所述待检测样本为对抗样本。

所述检测单元包括：

计算子单元，用于计算所述潜在特征与所述判定标准之间的向量距离值，将所述向量距离值作为所述潜在特征与所述判定标准之间的差异值。

本发明对抗样本检测装置的具体实施方式的拓展内容与上述对抗样本检测方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有对抗样本检测程序，所述对抗样本检测程序被处理器执行时实现如下所述的对抗样本检测方法的步骤。

本发明对抗样本检测设备和计算机可读存储介质的各实施例，均可参照本发明对抗样本检测方法各实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种对抗样本检测方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的对抗样本检测方法，其特征在于，所述将待检测样本输入自编码网络中，将所述自编码网络中目标中间层的输出作为所述待检测样本的潜在特征的步骤之前，还包括：

3.如权利要求2所述的对抗样本检测方法，其特征在于，所述将所述编码结果输入所述待训练网络中的极化哈希层得到哈希结果的步骤包括：

4.如权利要求2所述的对抗样本检测方法，其特征在于，所述基于所述哈希结果和预设随机哈希码计算编码损失值的步骤包括：

5.如权利要求2所述的对抗样本检测方法，其特征在于，所述基于所述哈希结果和预设随机哈希码计算编码损失值的步骤之前，还包括：

6.如权利要求1至5任一项所述的对抗样本检测方法，其特征在于，所述将所述潜在特征与判定标准进行差异比较，并基于比较结果得到所述待检测样本的对抗样本检测结果的步骤包括：

7.如权利要求6所述的对抗样本检测方法，其特征在于，当所述目标中间层为所述自编码网络中编码器的输出层时，所述潜在特征为所述待检测样本的编码向量，所述判定标准为所述标准数据集中各样本对应编码向量的平均结果，

8.一种对抗样本检测装置，其特征在于，所述装置包括：

9.一种对抗样本检测设备，其特征在于，所述对抗样本检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对抗样本检测程序，所述对抗样本检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的对抗样本检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有对抗样本检测程序，所述对抗样本检测程序被处理器执行时实现如权利要求1至7中任一项所述的对抗样本检测方法的步骤。