CN111652290A

CN111652290A - 一种对抗样本的检测方法及装置

Info

Publication number: CN111652290A
Application number: CN202010413738.6A
Authority: CN
Inventors: 张泉; 袁敏; 冯庆磊; 贾永香; 郭旭阳; 赵越; 姜宇; 顾明; 孙家广
Original assignee: Tsinghua University; WeBank Co Ltd
Current assignee: Tsinghua University; WeBank Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-11
Anticipated expiration: 2040-05-15
Also published as: CN111652290B

Abstract

本发明公开了一种对抗样本的检测方法及装置，其中方法为：根据待测图片的像素信息，按照预设格式，生成所述待测图片的像素特征数据，作为待测样本；将待测样本输入至特定样本重构模型，获得所述待测样本的重构样本；将所述待测样本的重构样本输入至所述特定预估模型，获得所述待测样本的重构样本的中间层输出值；将所述待测样本的重构样本的中间层输出值输入至特定分类模型，确定所述待测样本是否为对抗样本。上述方法应用于金融科技(Fintech)时，正常样本和对抗样本经特定样本重构模型转换后，正常样本和对抗样本的区分度会更大，确定所述待测样本是否为对抗样本的结果更加明显，更准确地发现所述待测样本是否为对抗样本。

Description

一种对抗样本的检测方法及装置

技术领域

本发明涉及金融科技(Fintech)领域中的信息安全领域，尤其涉及一种对抗样本的检测方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出的更高的要求。金融机构常遇到各种识别或预测的场景，这些场景一般依赖于深度神经网络。然而，深度神经网络在训练过程中可能因为对抗样本的攻击导致预测或识别效果不佳。对抗样本是给训练样本加上人类无法察觉的对抗扰动生成的异常训练样本，当给训练样本加上固定模式的扰动(即后门攻击)，并篡改为指定标签值后，如给一张图片(一个训练样本)每个像素点加上细微的噪声，并篡改图片对应的标签值后，人类的肉眼难以看出区别，但对于机器而言，却差异巨大。那么这种对抗样本积累多了之后，机器会将对抗样本识别为指定标签值。由此可见，对抗样本可以“蒙混过关”，这种漏洞对金融机构而言是致命的。

因此，如何有效检测出对抗样本对于金融机构的识别或预测有重要意义。目前常采用对抗样本的检测方法是基于数据集的检测，这类方法通常借助带有对抗样本的数据集进行检测，通过激活聚类(Activation Clustering)检测，在检测过程中，模型预测每张图片时收集模型内部输出层之前的全连接层激活值，根据收集到的激活值是否存在异常激活值来检测是否存在对抗样本。然而，由于对抗样本能够混淆模型的预测结果，同时也会造成在模型训练中对抗样本区分度的下降，如对异常激活值的判断，从而导致对抗样本的检测也不够准确。这是一个亟待解决的问题。

发明内容

本发明提供一种对抗样本的检测方法及装置，解决了现有技术中对抗样本的检测也不够准确的问题。

第一方面，本发明提供一种对抗样本的检测方法，包括：根据待测图片的像素信息，按照预设格式，生成所述待测图片的像素特征数据，作为待测样本；将所述待测样本输入至特定样本重构模型，获得所述待测样本的重构样本；所述特定样本重构模型是根据特定预估模型和正常数据集训练得到的；所述正常数据集为正常样本的数据集；所述特定预估模型用于预测样本的标签值；所述特定预估模型是根据检测数据集训练得到的；所述检测数据集为正常样本和对抗样本的数据集；将所述待测样本的重构样本输入至所述特定预估模型，获得所述待测样本的重构样本的中间层输出值；所述待测样本的重构样本的中间层输出值为所述待测样本的重构样本输入至所述特定预估模型后，所述特定预估模型的中间层计算得到的输出值；将所述待测样本的重构样本的中间层输出值输入至特定分类模型，确定所述待测样本是否为对抗样本；所述特定分类模型是根据中间层数据集训练得到的；所述中间层数据集是重构数据集输入至所述特定预估模型得到的中间层输出值的数据集；所述重构数据集是所述特定样本重构模型在训练过程中根据所述正常数据集得到的输出数据集。

上述方法中，由于所述特定样本重构模型是根据特定预估模型和正常数据集训练得到的，因此学习到的是正常样本的特征结构的知识，正常样本和对抗样本经特定样本重构模型转换后，正常样本和对抗样本的区分度会更大，那么将待测样本输入至特定样本重构模型后，如果是正常样本，那么重构后与正常数据集的数据分布会更接近，如果是对抗样本，那么重构后与正常数据集的数据分布会差异会更大，因此，由于所述特定预估模型是根据检测数据集训练得到的，所以所述特定预估模型的参数是受到对抗样本影响的，结合转化后的所述待测样本的重构样本，对抗样本和正常样本的中间层输出值的差异更大，将所述待测样本输入至所述特定预估模型后，所获得的所述待测样本的重构样本的中间层输出值，减弱了对抗样本对模型预测结果的混淆，将所述待测样本的重构样本的中间层输出值输入至特定分类模型后，确定所述待测样本是否为对抗样本的结果更加明显，更准确地发现所述待测样本是否为对抗样本。

可选的，所述特定样本重构模型具体是按照如下方式根据特定预估模型和正常数据集训练得到的；包括：获取所述正常数据集；针对所述正常数据集中任一正常样本，将所述正常样本输入至参考样本重构模型，得到所述正常样本的重构样本；将所述正常样本的重构样本输入所述特定预估模型，确定所述正常样本的重构样本的预估标签值；根据所述正常样本的重构样本、所述正常样本的重构样本的预估标签值和所述正常标签值，确定所述正常样本的重构样本与所述正常样本之间的差异评估值；根据所述差异评估值，对所述参考样本重构模型进行迭代机器训练；将训练结束时的所述参考样本重构模型，作为所述特定样本重构模型。

上述方法中，通过特定预估模型来辅助参考样本重构模型对正常样本数据分布的学习，从而能够使得特定预估模型更容易区分正常样本重构后的重构样本。

可选的，所述差异评估值包括第一损失函数的第一函数值；所述第一损失函数为所述参考样本重构模型的损失函数；所述根据所述正常样本的重构样本和所述正常样本的重构样本的预估标签值，确定所述正常样本的重构样本与所述正常样本之间的差异评估值；包括：将所述正常样本的重构样本、所述正常样本的重构样本的预估标签值代入所述参考样本重构模型的所述第一损失函数，计算得出所述第一损失函数的第一函数值，至少根据所述第一函数值得到所述差异评估值。

上述方法中，将所述正常样本的重构样本、所述正常样本的重构样本的预估标签值代入所述参考样本重构模型的所述第一损失函数，学习到正常样本的数据分布，从而提供了一种基于所述第一损失函数的模型训练方法。

可选的，所述参考样本重构模型为自编码器；所述参考样本重构模型通过将输入样本的维度压缩后再扩展维度，从而将所述输入样本重构为所述参考样本重构模型的输出样本；所述第一损失函数为逐像素交叉熵损失函数。

上述方式下，通过自编码器，将输入样本的维度压缩后再扩展维度，从而将所述输入样本重构为所述参考样本重构模型的输出样本，实现输入样本的降噪，进一步增加正常样本与对抗样本的区分度。

可选的，将所述待测样本的重构样本、所述待测样本的重构样本的预估标签值和所述正常标签值代入所述特定预估模型的第二损失函数，计算得出所述第二损失函数的第二函数值；所述至少根据所述第一函数值得到所述差异评估值，包括：根据所述第一函数值和所述第二函数值得到所述差异评估值。

上述方式下，对确定所述正常样本的重构样本与所述正常样本的评估中，加入了所述特定预估模型的第二损失函数，从而将所述特定样本重构模型考虑进去，增加了训练的准确性。

可选的，所述差异评估值是根据所述第一函数值、所述第二函数值依次按照第一超参数和第二超参数加权平均得到的；所述第一超参数与所述第二超参数满足预设数量关系。

上述方式下，通过设置所述第一超参数与所述第二超参数满足预设数量关系，且综合按照第一超参数和第二超参数加权平均得到所述差异评估值，进一步增加了训练的准确性。

可选的，所述特定分类模型为单类支持向量机的分类超平面；所述将所述待测样本的重构样本的中间层输出值输入至特定分类模型，确定所述待测样本是否为对抗样本，包括：若确定所述待测样本的重构样本的中间层输出值的数据点在所述分类超平面之外，则确定所述待测样本为对抗样本；否则，确定所述待测样本不为对抗样本。

上述方式下，通过单类支持向量机的分类超平面，不需要对抗样本知识的学习，另外，该方式可以对单个待测样本检测，提升了检测的效率。

第二方面，本发明提供一种对抗样本的检测装置，包括：训练模块，用于根据待测图片的像素信息，按照预设格式，生成所述待测图片的像素特征数据，作为待测样本；将所述待测样本输入至特定样本重构模型，获得所述待测样本的重构样本；所述特定样本重构模型是根据特定预估模型和正常数据集训练得到的；所述正常数据集为正常样本的数据集；所述特定预估模型用于预测样本的标签值；所述特定预估模型是根据检测数据集训练得到的；所述检测数据集为正常样本和对抗样本的数据集；以及用于将所述待测样本的重构样本输入至所述特定预估模型，获得所述待测样本的重构样本的中间层输出值；所述待测样本的重构样本的中间层输出值为所述待测样本的重构样本输入至所述特定预估模型后，所述特定预估模型的中间层计算得到的输出值；确定模块，用于将所述待测样本的重构样本的中间层输出值输入至特定分类模型，确定所述待测样本是否为对抗样本；所述特定分类模型是根据中间层数据集训练得到的；所述中间层数据集是重构数据集输入至所述特定预估模型得到的中间层输出值的数据集；所述重构数据集是所述特定样本重构模型在训练过程中根据所述正常数据集得到的输出数据集。

可选的，所述训练模块具体用于：获取所述正常数据集；针对所述正常数据集中任一正常样本，将所述正常样本输入至参考样本重构模型，得到所述正常样本的重构样本；将所述正常样本的重构样本输入所述特定预估模型，确定所述正常样本的重构样本的预估标签值；根据所述正常样本的重构样本和所述正常样本的重构样本的预估标签值，确定所述正常样本的重构样本与所述正常样本之间的差异评估值；根据所述差异评估值，对所述参考样本重构模型进行迭代机器训练；将训练结束时的所述参考样本重构模型，作为所述特定样本重构模型。

可选的，所述差异评估值包括第一损失函数的第一函数值；所述第一损失函数为所述参考样本重构模型的损失函数；所述训练模块具体用于：将所述正常样本的重构样本、所述正常样本的重构样本的预估标签值代入所述参考样本重构模型的所述第一损失函数，计算得出所述第一损失函数的第一函数值，至少根据所述第一函数值得到所述差异评估值。

可选的，所述训练模块具体用于：将所述待测样本的重构样本、所述待测样本的重构样本的预估标签值和所述正常标签值代入所述特定预估模型的第二损失函数，计算得出所述第二损失函数的第二函数值；根据所述第一函数值和所述第二函数值得到所述差异评估值。

可选的，所述特定分类模型为单类支持向量机的分类超平面；所述确定模块具体用于：若确定所述待测样本的重构样本的中间层输出值的数据点在所述分类超平面之外，则确定所述待测样本为对抗样本；否则，确定所述待测样本不为对抗样本。

上述第二方面及第二方面各个可选装置的有益效果，可以参考上述第一方面及第一方面各个可选方法的有益效果，这里不再赘述。

第三方面，本发明提供一种计算机设备，包括程序或指令，当所述程序或指令被执行时，用以执行上述第一方面及第一方面各个可选的方法。

第四方面，本发明提供一种存储介质，包括程序或指令，当所述程序或指令被执行时，用以执行上述第一方面及第一方面各个可选的方法。

附图说明

图1为本申请实施例提供的一种对抗样本的检测方法可应用的架构示意图；

图2为本申请实施例提供的一种对抗样本的检测方法的步骤流程示意图；

图3为本申请实施例提供的一种对抗样本的检测装置的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互结合。

随着深度学习越来越广泛的应用于各种安全度要求较高的场景，例如自动驾驶、恶意软件检测和人脸识别，对于深度学习的关键组件的安全性要求也越来越高。作为深度学习解决方案的核心，深度神经网络也面临新型后门攻击的威胁。数据和模型作为深度学习中的两大元素，在实际的应用场景中会遭到潜在的后门攻击。随着云计算的发展，为了克服有限人力的限制，构建大规模数据集时会通过众包的方式收集带标签的数据，这就给攻击者植入带有后门标签的数据提供了机会。同时由于算力的限制，目前知名的深度学习模型通常会提供预训练的权重供使用者下载，而攻击者可以通过使用带有后门标签的数据微调现有模型的方式产生相似的带有后门的替代模型，让不知情的使用者下载带有后门的模型，从而产生带有后门的具体深度学习系统，而攻击者可以借助后门实施特定类别的后门攻击，从而干扰模型的正常运行。

对抗样本是目前深度神经网络中常见的攻击手段。深度神经网络的典型运行过程是接收一个输入，给出一个预测的概率向量，取概率最高的标签作为预测结果。而对抗样本则是给输入加上人类无法察觉的对抗扰动生成的异常输入，因此其具有难以检测的特点。一般采用基于梯度的方式生成对抗扰动，值得注意的是先前有研究提出可以通过聚合数据集中每张图片的对抗扰动特征生成通用对抗扰动，因此存在使用通用扰动作为后门触发的标志针对深度神经网络进行后门攻击的可能性。对抗样本：一种干扰样本，对输入样本故意添加一些人无法察觉的细微的干扰，导致模型以高置信度给出一个错误的输出。后门样本：带有固定模式的扰动(后门)的样本。

在金融机构(银行机构、保险机构或证券机构)在进行业务(如银行的贷款业务、存款业务等)运转过程中，金融机构常遇到各种识别或预测的场景，这些场景一般依赖于深度神经网络。然而，深度神经网络在训练过程中可能因为对抗样本的攻击导致预测或识别效果不佳。如何有效检测出对抗样本对于金融机构的识别或预测有重要意义。现有技术中，常采用激活聚类(Activation Clustering)的方法检测，然而对抗样本能够混淆模型的预测结果，同时也会造成在模型训练中对抗样本区分度的下降，导致对抗样本的检测也不够准确。这种情况不符合银行等金融机构的需求，无法保证金融机构各项业务的高效运转。为此，本申请提供一种对抗样本的检测方法。图1为本申请提供的一种对抗样本的检测方法可应用架构的示意图。

如图1所示，本发明针对当前不能有效检测深度神经网络中对抗样本的应用场景，通过正常数据集训练特定预估模型，以检测待测样本是否为对抗样本，然后对待测样本进行溯源，进而判断深度学习模型是否存在对抗扰动，特殊地，待测样本既为对抗样本又为后门样本。图1示出的架构包括两个组件：重点特征还原组件和新奇检测组件。这两个组件的功能简要概括如下：

重点特征还原组件：

重点特征还原组件中提前注入了特定预估模型，所述特定预估模型是根据检测数据集训练得到的，也就是说，特定预估模型被注入了后门。在标签相同的条件下，对抗样本和正常样本的最大的区别在对抗样本在主要的结构形态特征上存在明显区别，为了强化二者的主要形态结构特征，同时减弱对抗扰动对模型预测结果和中间层输出值的影响，在重点特征还原组件的特定样本重构模型之前，引入参考样本重构模型。为了规避参考样本重构模型学习到对抗样本的扰动模式，该过程应避免加入对抗样本，只采用正常样本训练。重点特征还原组件基于正常数据集对参考样本重构模型进行训练，参考样本重构模型训练结束时便得到了特定样本重构模型。需要说明的是，正常数据集可以只采用少量的正常样本，从而节约训练成本。另外，参考样本重构模型，可以是具有特征压缩功能的样本重构模型，其运行机制为提取输入样本的主要特征，压缩为低维向量后，再恢复成与输入样本尺寸相同的结果，如自编码器。该过程可以有效消除对抗扰动对特定预估模型的预测结果的干扰，提高后续中间层输出值的区分度。自编码器可以通过降维后恢复原样本中的主要特征，从而降低扰动对特定预估模型的影响，使得后续的新奇检测组件能够通过数据的主要形态结构特征区分出对抗样本。需要说明的是，重点特征还原组件可采用其他特征压缩方法和还原实现自编码器类似的效果，例如主成分分析和奇异值分解。

新奇检测组件：

新奇检测组件基于重构数据集训练特定分类模型。以重点特征还原组件中特定样本重构模型采用自编码器为例，以特定分类模型为单类支持向量机为例，在重点特征还原组件中得到训练完毕的自编码器后，使用的少量正常样本输入自编码器，得到正常样本重构后的结果(重构数据集)，尺寸与正常样本输入一致。将重构数据集作为带有特定预估模型的输入，得到中间层输出值，然后以中间层输出值为训练集，使用单类支持向量机模型训练正常样本对应的分类超平面，最终通过该分类超平面区分正常样本和对抗样本。使用现有的特定预估模型可以起到利用现有资源的作用，且正常样本在后门模型中的预测逻辑亦呈现正常。需要说明的是，中间层输出值可以利用信息丰富的高维向量表征输入数据的主要形态结构特征，使得对抗样本和正常样本在中间层输出值层面能够表现出较高的区分度。特别地，中间层输出值可以为全连接层输出值，即输出层之前的最后一层。而单类支持向量机模型属于一种新奇检测方法，其假设在于将少量对抗样本视为异常点，主要思想是利用完全正常的样本训练出能够表达正常样本特征的超平面，在正常样本特征的超平面之外的样本数据点可以判定为对抗样本。新奇检测组件可采用其他新奇检测模型完成类似的任务，例如孤立森林方法。

显然，基于重点特征还原组件和新奇检查组件分别得到了能够恢复待测样本主要特征的自编码器，以及能够通过待测样本在特定预估模型的中间层输出值进行对抗样本检测的单类支持向量机。此时若将对抗样本输入自编码器，可以得到减弱对抗扰动同时保留主要特征的重构样本，再将重构样本输入带有特定预估模型，得到待测样本的中间层输出值后，使用单类支持向量机新奇检测分类器即可确定待测样本是否为对抗样本。对潜在的对抗样本重复以上过程即可识别出对抗样本，然后通过追踪这些对抗样本的使用即可识别出存在对抗扰动的深度学习模型。

下面结合图2，详细描述本申请提供的一种对抗样本的检测方法的步骤流程示意图。

步骤201：根据待测图片的像素信息，按照预设格式，生成所述待测图片的像素特征数据，作为待测样本。

步骤202：将待测样本输入至特定样本重构模型，获得所述待测样本的重构样本。

步骤203：将所述待测样本的重构样本输入至所述特定预估模型，获得所述待测样本的重构样本的中间层输出值。

步骤204：将所述待测样本的重构样本的中间层输出值输入至特定分类模型，确定所述待测样本是否为对抗样本。

步骤201～步骤204中，待测图片的像素信息可以是待测图片中各像素点的像素值，在训练过程中，为了一致地学习到各个图片的像素特征，通常会约定一个统一的预设格式，举例来说，参与训练的图片中坐标为(1,1)的像素点的像素值，可以作为参与训练的图片的训练样本中第一个维度的值。那么对待测图片也是同样道理，将待测图片的像素信息，需要按照预设格式生成所述待测图片的像素特征数据，才能有效针对所述待测图片的像素特征进行检测。所述特定样本重构模型是根据特定预估模型和正常数据集训练得到的；所述正常数据集为正常样本的数据集；所述特定预估模型用于预测样本的标签值；所述特定预估模型是根据检测数据集训练得到的；所述检测数据集为正常样本和对抗样本的数据集；所述待测样本的重构样本的中间层输出值为所述待测样本的重构样本输入至所述特定预估模型后，所述特定预估模型的中间层计算得到的输出值；所述特定分类模型是根据中间层数据集训练得到的；所述中间层数据集是重构数据集输入至所述特定预估模型得到的中间层输出值的数据集；所述重构数据集是所述特定样本重构模型在训练过程中根据所述正常数据集得到的输出数据集。步骤202～步骤203可由重点特征还原组件执行，步骤204可由新奇检查组件执行。

需要说明的是，步骤201之前，所述特定样本重构模型可以按照如下方式根据特定预估模型和正常数据集训练(以下称为所述特定样本重构模型的基础训练方式)得到：

步骤(1)：获取所述正常数据集。

步骤(2)：针对所述正常数据集中任一正常样本，将所述正常样本输入至参考样本重构模型，得到所述正常样本的重构样本。

步骤(3)：将所述正常样本的重构样本输入所述特定预估模型，确定所述正常样本的重构样本的预估标签值。

步骤(4)：根据所述正常样本的重构样本和所述正常样本的重构样本的预估标签值，确定所述正常样本的重构样本与所述正常样本之间的差异评估值。

步骤(5)：根据所述差异评估值，对所述参考样本重构模型进行迭代机器训练。

步骤(6)：将训练结束时的所述参考样本重构模型，作为所述特定样本重构模型。

所述特定样本重构模型的基础训练方式中，差异评估值的获得方式可包括多种，具体来说，一种可选实施方式中，所述差异评估值包括第一损失函数的第一函数值；所述第一损失函数为所述参考样本重构模型的损失函数；步骤(4)具体可以为：

将所述正常样本的重构样本、所述正常样本的重构样本的预估标签值代入所述参考样本重构模型的所述第一损失函数，计算得出所述第一损失函数的第一函数值，至少根据所述第一函数值得到所述差异评估值。

一种可选实施方式中，所述参考样本重构模型为自编码器；所述参考样本重构模型通过将输入样本的维度压缩后再扩展维度，从而将所述输入样本重构为所述参考样本重构模型的输出样本；所述第一损失函数为逐像素交叉熵损失函数。

更具体地，逐像素交叉熵损失函数具体推导如下：

正常样本为x，正常样本中的真实标签值为y，正常样本的预估标签值为

以二分类为例，正常样本的真实标签值为0或1，则正常样本标签值为1的概率

正常样本标签值为0的概率

利用极大似然整合以上2种情况，得到预测概率

为了希望提高预测概率P(y|x)，对上式两边同时取log，不影响其单调性，得到：

目标使得logP(y|x)值越大，等价于使得-logP(y|x)值越小，引入损失函数

对于具有N个输出维度的第一损失函数，累加即可

步骤(1)～步骤(4)中，还可以添加如下步骤：

将所述待测样本的重构样本、所述待测样本的重构样本的预估标签值和所述正常标签值代入所述特定预估模型的第二损失函数，计算得出所述第二损失函数的第二函数值。这样以来，步骤(4)中至少根据所述第一函数值得到所述差异评估值的方式具体可以为：

根据所述第一函数值和所述第二函数值得到所述差异评估值。

因此，结合上述自编码器的例子可知，重点特征还原组件的核心是具有特征重构功能的自编码器模型，而在训练自编码器的过程中，除了常见的逐像素交叉熵损失函数，引入特定预估模型的知识形成新的损失函数，以帮助得到优化后的自编码器参数，整体损失函数可根据loss_{reconstruction}以及loss_classifier确定。其中loss_{reconstruction}表示自编码器的逐像素交叉熵损失函数，其意义在于通过更好的重构特征以优化参数，loss_classifier表示由特定预估模型反向传播得到的损失。在此过程中只训练自编码器相关的参数，冻结带有特定预估模型的参数，只需要特定预估模型提供损失函数即可。

作为一种优选实施方式，所述差异评估值是根据所述第一函数值、所述第二函数值依次按照第一超参数和第二超参数加权平均得到的；所述第一超参数与所述第二超参数满足预设数量关系。

举例来说，loss＝α·loss_{reconstruction}+β·loss_classifier，而α和β属于超参数，表示2个损失函数对应的权重。取α＝1000和β＝1，实验效果较好。而α和β属于超参数，表示2个损失函数对应的权重，α取值越大，表示自编码器本身重构的损失函数对于整体损失函数的贡献越大，β取值越大，表示特定预估模型的损失函数对于整体损失函数的贡献越大。在实际场景中，α和β作为可配置的超参数，是可以通过观察训练效果调整其取值的，而训练效果可以表现在以下几个指标：a.重构误差。重构误差表示图像重构后与原图像的距离，重构误差越小越好。b.loss值。在训练过程中应可以看到整体损失函数值下降。c.正常数据重构后结果输入特定预估模型得到的准确率。该准确率应越高越好。通过修改α和β的取值进行自编码器的训练，观察以上3个统计指标调整α和β的取值，使得以上3个统计指标朝着更佳的方向发展。在MNIST手写数字识别数据集上，经过实验得到一般取α＝1000和β＝1，表示自编码器的损失函数占主要地位，而特定预估模型的损失函数也有贡献。

一种可选实施方式中，所述特定分类模型为单类支持向量机的分类超平面；步骤204可以按照如下方式执行：

若确定所述待测样本的重构样本的中间层输出值的数据点在所述分类超平面之外，则确定所述待测样本为对抗样本；否则，确定所述待测样本不为对抗样本。显然，该方式对单个的待测样本也能执行，不需要一定的数据量，因此能够逐个样本进行预测。

如图3所示，本发明提供一种对抗样本的检测装置，包括：训练模块301，用于根据待测图片的像素信息，按照预设格式，生成所述待测图片的像素特征数据，作为待测样本；将所述待测样本输入至特定样本重构模型，获得所述待测样本的重构样本；所述特定样本重构模型是根据特定预估模型和正常数据集训练得到的；所述正常数据集为正常样本的数据集；所述特定预估模型用于预测样本的标签值；所述特定预估模型是根据检测数据集训练得到的；所述检测数据集为正常样本和对抗样本的数据集；以及用于将所述待测样本的重构样本输入至所述特定预估模型，获得所述待测样本的重构样本的中间层输出值；所述待测样本的重构样本的中间层输出值为所述待测样本的重构样本输入至所述特定预估模型后，所述特定预估模型的中间层计算得到的输出值；确定模块302，用于将所述待测样本的重构样本的中间层输出值输入至特定分类模型，确定所述待测样本是否为对抗样本；所述特定分类模型是根据中间层数据集训练得到的；所述中间层数据集是重构数据集输入至所述特定预估模型得到的中间层输出值的数据集；所述重构数据集是所述特定样本重构模型在训练过程中根据所述正常数据集得到的输出数据集。

可选的，所述训练模块301具体用于：获取所述正常数据集；针对所述正常数据集中任一正常样本，将所述正常样本输入至参考样本重构模型，得到所述正常样本的重构样本；将所述正常样本的重构样本输入所述特定预估模型，确定所述正常样本的重构样本的预估标签值；根据所述正常样本的重构样本和所述正常样本的重构样本的预估标签值，确定所述正常样本的重构样本与所述正常样本之间的差异评估值；根据所述差异评估值，对所述参考样本重构模型进行迭代机器训练；将训练结束时的所述参考样本重构模型，作为所述特定样本重构模型。

可选的，所述差异评估值包括第一损失函数的第一函数值；所述第一损失函数为所述参考样本重构模型的损失函数；所述训练模块301具体用于：将所述正常样本的重构样本、所述正常样本的重构样本的预估标签值代入所述参考样本重构模型的所述第一损失函数，计算得出所述第一损失函数的第一函数值，至少根据所述第一函数值得到所述差异评估值。

可选的，所述训练模块301具体用于：将所述待测样本的重构样本、所述待测样本的重构样本的预估标签值和所述正常标签值代入所述特定预估模型的第二损失函数，计算得出所述第二损失函数的第二函数值；根据所述第一函数值和所述第二函数值得到所述差异评估值。

可选的，所述特定分类模型为单类支持向量机的分类超平面；所述确定模块302具体用于：若确定所述待测样本的重构样本的中间层输出值的数据点在所述分类超平面之外，则确定所述待测样本为对抗样本；否则，确定所述待测样本不为对抗样本。

本申请实施例提供一种计算机设备，包括程序或指令，当所述程序或指令被执行时，用以执行本申请实施例提供的一种对抗样本的检测方法及任一可选方法。

本申请实施例提供一种存储介质，包括程序或指令，当所述程序或指令被执行时，用以执行本申请实施例提供的一种对抗样本的检测方法及任一可选方法。

最后应说明的是：本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种对抗样本的检测方法，其特征在于，包括：

根据待测图片的像素信息，按照预设格式，生成所述待测图片的像素特征数据，作为待测样本；

将所述待测样本输入至特定样本重构模型，获得所述待测样本的重构样本；所述特定样本重构模型是根据特定预估模型和正常数据集训练得到的；所述正常数据集为正常样本的数据集；所述特定预估模型用于预测样本的标签值；所述特定预估模型是根据检测数据集训练得到的；所述检测数据集为正常样本和对抗样本的数据集；

将所述待测样本的重构样本输入至所述特定预估模型，获得所述待测样本的重构样本的中间层输出值；所述待测样本的重构样本的中间层输出值为所述待测样本的重构样本输入至所述特定预估模型后，所述特定预估模型的中间层计算得到的输出值；

将所述待测样本的重构样本的中间层输出值输入至特定分类模型，确定所述待测样本是否为对抗样本；所述特定分类模型是根据中间层数据集训练得到的；所述中间层数据集是重构数据集输入至所述特定预估模型得到的中间层输出值的数据集；所述重构数据集是所述特定样本重构模型在训练过程中根据所述正常数据集得到的输出数据集。

2.如权利要求1所述的方法，其特征在于，所述特定样本重构模型具体是按照如下方式根据特定预估模型和正常数据集训练得到：

获取所述正常数据集；

针对所述正常数据集中任一正常样本，将所述正常样本输入至参考样本重构模型，得到所述正常样本的重构样本；

将所述正常样本的重构样本输入所述特定预估模型，确定所述正常样本的重构样本的预估标签值；

根据所述正常样本的重构样本和所述正常样本的重构样本的预估标签值，确定所述正常样本的重构样本与所述正常样本之间的差异评估值；

根据所述差异评估值，对所述参考样本重构模型进行迭代机器训练；

将训练结束时的所述参考样本重构模型，作为所述特定样本重构模型。

3.如权利要求2所述的方法，其特征在于，所述差异评估值包括第一损失函数的第一函数值；所述第一损失函数为所述参考样本重构模型的损失函数；所述根据所述正常样本的重构样本和所述正常样本的重构样本的预估标签值，确定所述正常样本的重构样本与所述正常样本之间的差异评估值；包括：

4.如权利要求3所述的方法，其特征在于，所述参考样本重构模型为自编码器；所述参考样本重构模型通过将输入样本的维度压缩后再扩展维度，从而将所述输入样本重构为所述参考样本重构模型的输出样本；所述第一损失函数为逐像素交叉熵损失函数。

5.如权利要求3所述的方法，其特征在于，还包括：

将所述待测样本的重构样本、所述待测样本的重构样本的预估标签值和所述正常标签值代入所述特定预估模型的第二损失函数，计算得出所述第二损失函数的第二函数值；

所述至少根据所述第一函数值得到所述差异评估值，包括：

6.如权利要求5所述的方法，其特征在于，所述差异评估值是根据所述第一函数值、所述第二函数值依次按照第一超参数和第二超参数加权平均得到的；所述第一超参数与所述第二超参数满足预设数量关系。

7.如权利要求1至6任一项所述的方法，其特征在于，所述特定分类模型为单类支持向量机的分类超平面；所述将所述待测样本的重构样本的中间层输出值输入至特定分类模型，确定所述待测样本是否为对抗样本，包括：

若确定所述待测样本的重构样本的中间层输出值的数据点在所述分类超平面之外，则确定所述待测样本为对抗样本；否则，确定所述待测样本不为对抗样本。

8.一种对抗样本的检测装置，其特征在于，包括：

训练模块，用于根据待测图片的像素信息，按照预设格式，生成所述待测图片的像素特征数据，作为待测样本；将所述待测样本输入至特定样本重构模型，获得所述待测样本的重构样本；所述特定样本重构模型是根据特定预估模型和正常数据集训练得到的；所述正常数据集为正常样本的数据集；所述特定预估模型用于预测样本的标签值；所述特定预估模型是根据检测数据集训练得到的；所述检测数据集为正常样本和对抗样本的数据集；以及用于

确定模块，用于将所述待测样本的重构样本的中间层输出值输入至特定分类模型，确定所述待测样本是否为对抗样本；所述特定分类模型是根据中间层数据集训练得到的；所述中间层数据集是重构数据集输入至所述特定预估模型得到的中间层输出值的数据集；所述重构数据集是所述特定样本重构模型在训练过程中根据所述正常数据集得到的输出数据集。

9.一种计算机设备，其特征在于，包括程序或指令，当所述程序或指令被执行时，如权利要求1至7中任意一项所述的方法被执行。

10.一种存储介质，其特征在于，包括程序或指令，当所述程序或指令被执行时，如权利要求1至7中任意一项所述的方法被执行。