CN112989340A

CN112989340A - 模型的后门检测方法、装置、介质和计算设备

Info

Publication number: CN112989340A
Application number: CN202110222642.6A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-18

Abstract

本发明公开一种模型的后门检测方法、装置、介质和计算设备。该模型的后门检测方法包括：提供检测样本集，所述检测样本集包括多个检测样本；基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，得到所述待检测模型各个输出类别的触发器；对比全部输出类别的触发器，以判断所述待检测模型是否存在后门。该模型的后门检测方法可以在黑盒场景下对待检测模型进行后门攻击检测。

Description

模型的后门检测方法、装置、介质和计算设备

技术领域

本发明涉及后门攻击领域，特别涉及一种模型的后门攻击检测方法、装置、介质和计算设备。

背景技术

现有的后门检测方法主要有两大类，分别是模型训练阶段的检测方法和模型测试阶段的检测方法。其中，模型训练阶段的检测方法通过异常检测等方式判断训练模型的数据集中是否存在被投毒的数据，从而判断模型是否存在后门。模型测试阶段的检测方法是通过反向还原后门的方式检测模型是否存在后门，这类方法通过对模型输出的每一个类别还原出来可能的后门触发器，然后判断某个类别的触发器的1-范数是不是远小于其他类别触发器的1- 范数。如果存在某个类别触发器的1-范数相比于其他类别的触发器的1-范数很小，那么模型就极有可能存在后门。这类方法背后的原理是攻击者往往会设计一个很小的触发器叠加在样本上，进行后门攻击，如果反向还原算法能够完全还原出来触发器图案，那么就能够依据不同类别触发器的大小判断出后门攻击。

现有后门检测方法存在的主要问题是对于待检测模型和训练数据集的要求过高，在黑盒场景下无法使用。训练阶段的后门检测方法需要获取被投毒的训练集，而测试阶段的后门检测方法需要获取对模型的内部参数和梯度信息，从而利用基于梯度的方式反向还原后门。然而在现实的场景中，用户所使用的商业机器学习服务或API往往只提供访问接口，用户并不能够获取这些商业模型的训练数据以及模型内部的参数、梯度信息，所以无法使用现有的后门检测方法。

发明内容

本发明的主要目的是提出一种模型的后门检测方法、装置、介质和计算设备，旨在解决在黑盒场景无法获得模型的训练数据以及内部梯度信息的情况下，如何判断模型是否存在后门。

为实现上述目的，本发明提出的模型的后门检测方法，包括：

提供检测样本集，所述检测样本集包括多个检测样本；

基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，得到所述待检测模型各个输出类别的触发器；

对比全部输出类别的触发器，以判断所述待检测模型是否存在后门。

在一个实施例中，所述提供检测样本集包括：针对待检测模型的每一输出类别，随机采样多个具有目标类别的样本。

在一个实施例中，所述提供检测样本集包括：

针对待检测模型的每一输出类别，随机生成多个样本；

针对每一个样本生成对应目标类别的欺骗性样本。

在一个实施例中，从预设的均匀分布中采样生成多个样本。

在一个实施例中，所述针对每一个样本生成对应目标类别的欺骗性样本采用基于访问的黑盒攻击方法生成欺骗性样本。

在一个实施例中，针对每一个样本，采用基于访问的黑盒攻击方法生成欺骗性样本，包括：

采用蒙特卡洛梯度估计法估计“损失函数相对整个第一高斯分布的期望”相对一个所述具有目标类别的样本的梯度；

基于所述梯度进行梯度下降，以生成相应的欺骗性样本；

其中，所述损失函数的优化目标是最小化迭代中的欺骗性样本被所述待检测模型识别为目标类别的交叉熵；

所述第一高斯分布以所述具有目标类别的样本为期望，σ为标准差；

所述欺骗性样本能够被人眼观察出为机器构造的样本，且被待检测模型识别为目标类别。

在一个实施例中，基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，包括：

构建特定的目标函数，所述目标函数以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标，以触发器的掩膜参数和图案参数为未知项，以指定的所述待检测模型的某一输出类别和检测样本为输入项，其中，所述掩膜参数至少用于确定触发器在检测样本上的位置和面积，所述图案参数至少用于确定触发器的图案；

通过进化算法对所述目标函数进行优化计算，以确定触发器的掩膜参数和图案参数。

在一个实施例中，所述进化算法为蒙特卡洛梯度估计法。

在一个实施例中，通过以下方式得到所述待检测模型某一输出类别的触发器：

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

固定图案参数，采用蒙特卡洛梯度估计法估计“所述目标函数相对整个伯努利分布的期望”相对掩膜参数的梯度，作为所述掩膜参数的梯度估计量，其中，所述伯努利分布以基于掩膜参数决定的掩膜为期望；

固定掩膜参数，采用蒙特卡洛梯度估计法来估计“所述目标函数相对整个第二高斯分布的期望”相对图案参数的梯度，作为所述图案参数的梯度估计量，其中，所述第二高斯分布以基于图案参数决定的图案为期望，σ为标准差；

分别根据掩膜参数的梯度估计量和图案参数的梯度估计量，采用特定的优化器对掩膜参数和图案参数进行更新；

基于更新后的掩膜参数和图案参数确定触发器。

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

从基于所述一组掩膜参数构建的伯努利分布中采样得到多个掩膜；

基于所述多个掩膜和初始化得到的图案参数，基于所述目标函数进行零阶优化求解，以确定掩膜参数的梯度；

从标准高斯分布中随机采样得到多个噪声；

将初始化的图案参数和多个噪声进行组合，然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数进行零阶优化求解，以确定图案参数的梯度；

分别根据掩膜参数的梯度和图案参数的梯度，采用特定的优化器对掩膜参数和图案参数进行更新；

基于更新后的掩膜参数和图案参数确定触发器。

在一个实施例中，所述进化算法的方式为遗传算法。

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

基于所述多个掩膜和初始化得到的图案参数，选择最小化所述目标函数的掩膜作为更新后的掩膜；

从标准高斯分布中随机采样得到多个噪声；

将初始化的图案参数和多个噪声进行组合，然后基于多个组合后的结果和初始化的掩膜参数以及所述目标函数，选择最小化所述目标函数的图案参数作为更新后的图案参数；

基于更新后的掩膜参数和图案参数确定触发器。

在一个实施例中，所述基于更新后的掩膜参数和图案参数确定触发器，包括：

采用归一化函数对所述更新后的掩膜参数和所述图案参数进行处理，以确定所述触发器。

在一个实施例中，所述对比全部输出类别的触发器，以判断所述待检测模型是否存在后门，包括：

对比全部所述输出类别的触发器的1-范数，以判断所述待检测模型是否存在后门。

本发明还提出一种模型的后门检测装置，包括：

提供模块，被配置为提供检测样本集，所述检测样本集包括多个检测样本；

获取模块，被配置为基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，得到所述待检测模型各个输出类别的触发器；

判断模块，被配置为对比全部输出类别的触发器，以判断所述待检测模型是否存在后门。

在一个实施例中，所述提供模块包括：

第一样本生成单元，被配置为针对待检测模型的每一输出类别，随机采样多个具有目标类别的样本。

在一个实施例中，所述提供模块包括：

第二样本生成单元，被配置为针对待检测模型的每一输出类别，随机生成多个样本；

样本处理单元，被配置为针对每一个样本生成对应目标类别的欺骗性样本。

在一个实施例中，所述第二样本生成单元还被配置为从预设的均匀分布中采样生成多个样本。

在一个实施例中，所述样本处理单元被配置为针对每一个样本，采用基于访问的黑盒攻击方法生成对应目标的欺骗性样本。

在一个实施例中，所述样本处理单元包括：

梯度估计子单元，被配置为采用蒙特卡洛梯度估计法估计“损失函数相对整个第一高斯分布的期望”相对一个所述具有目标类别的样本的梯度；

生成子单元，被配置为基于所述梯度进行梯度下降，以生成相应的欺骗性样本；

在一个实施例中，所述获取模块，包括：

构建单元，被配置为构建特定的目标函数，所述目标函数以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标，以触发器的掩膜参数和图案参数为位置向，以指定的所述待检测模型的某一输出类别和检测样本为输入项，其中，所述掩膜参数至少用于确定触发器在检测样本上的位置和面积，所述图案参数至少用于确定触发器的图案；

优化单元，被配置为通过进化算法对所述目标函数进行优化计算，以确定触发器的掩膜参数和图案参数。

在一个实施例中，所述进化算法为蒙特卡洛梯度估计法。

在一个实施例中，所述获取模块包括：

初始化单元，被配置为初始化一组掩膜参数和一组图案参数；

迭代单元，被配置为重复执行以下步骤，直到达到预设终止条件：

确定单元，被配置为基于更新后的掩膜参数和图案参数确定触发器。

在一个实施例中，所述迭代单元还被配置为重复执行以下步骤，直到达到预设终止条件：

从标准高斯分布中随机采样得到多个噪声；

分别根据掩膜参数的梯度和图案参数的梯度，采用特定的优化器对掩膜参数和图案参数进行更新。

在一个实施例中，所述进化算法为遗传算法。

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

从标准高斯分布中随机采样得到多个噪声；

基于更新后的掩膜参数和图案参数确定触发器。

在一个实施例中，所述确定单元还被配置为采用归一化函数对所述更新后的掩膜参数和图案参数进行处理，以确定触发器。

在一个实施例中，所述判断模块还被配置为对比全部所述输出类别的触发器的1-范数，以判断所述待检测模型是否存在后门。

本发明还提出一种介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

本发明还提出一种计算设备，所述计算设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述任一项所述的方法。

本发明技术方案基于已经获取的检测样本集以及待检测模型，按照特定的算法得出待检测模型的全部输出类别可能存在的触发器，继而根据触发器来判断该模型是否存在后门，从而在不需要获取待检测模型的信息以及训练数据的基础上就可以判断其是否留有后门，更适用于黑盒场景下提高商业机器学习模型和API的后门安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为后门攻击各个阶段的示意图；

图2为本发明模型的后门检测方法一实施例的流程示意图；

图3为本发明模型的后门检测方法一实施例还原的后门触发器的示意图；

图4为本发明模型的后门检测装置一实施例的模块结构示意图；

图5为本发明实施例的一种介质的结构示意图；

图6为本发明实施例的一种计算设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种模型的后门检测方法、装置、介质和计算设备。

可以理解的是，本发明所指的待检测模型指的是采用计算机视觉技术对图像中的对象进行处理(如识别、检测等)的模型，包括但不限于目标检测、图像分类、语义分割、实例分割、全景分割、模式识别、人脸识别等图像处理模型。同理，所述模型的后门检测方法包括但不限于攻击以上所列举模型的一切针对图像检测的方法。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

发明概述

本发明人发现，目前的后门防御和检测方法主要有两大类，包括训练阶段的检测方法和测试阶段的检测方法。

如图1-1所示，Target class：“Stop”，即目标类别为“stop”；触发器Trigger 为右上角的图；

图1-2 Samples labeled as“stop”是将图1-1的触发器植入到训练数据集中，并将类别“stop”标记为目标类别，得到图1-2上边三张图为干净的训练数据，下边三张图为植入后门触发器的投毒数据，从而使用该训练数据集去训练 (Training)模型(DNN model)时，该模型识别到下边具有后门触发器的三张图片时，会将其预测为目标类别“stop”。

图1-3使用在图1-2训练的模型(DNN model)，对其输入交通标识进行识别，可以看出图1-3中上边两个为没有植入图1-1中的触发器的交通标识“Inputs without trigger”，下边两个为植入图1-1中的触发器的交通标识“Input with trigger”；识别结果为:上边两个为限速50“Speed Limit 50”和道路施工“Road Work”，识别正确，而下边两个的识别结果均为“stop”的错误结果。

根据上述触发器的工作原理，在训练阶段的检测方法通过异常检测等方式判断训练集中哪些数据是被投毒数据。

测试阶段的检测方法则是通过反向还原后门的方式检测后门攻击。这类方法通过对模型输出的每一个输出类别还原出来可能存在的触发器，然后判断某个类别的触发器的1-范数是不是远小于其他类别触发器的1-范数。如果存在某个类别触发器的1-范数与其他类别的触发器的1-范数差距很大，那么该模型就很有可能存在后门。如图1-4即为针对模型DNN model所有输出类别发现还原出来的可能存在的触发器(Reversed trigger)，从图1-4中不难看出其中类别为“stop”的后门触发器掩膜1-范数远远小于其他几个类别，故而可以判断该模型在输出类别“stop”存在后门攻击。这类方法背后的原理是攻击者往往会设计一个很小1-范数很小的触发器进行后门攻击，如果反向还原算法能够完全还原出来触发器图案，那么就能够依据不同类别触发器的1-范数的大小判断是否存在后门攻击。

综上所述，对于训练阶段的检测方法，需要已知的投毒训练数据集；对于训练阶段的后门检测方法需要获取对模型内部的参数和梯度信息，从而利用基于梯度的方式反向还原触发器。然而在现实的场景中，所使用的商业机器学习服务或API往往只提供访问接口，用户并不能够获取这些商业模型的训练数据以及模型内部的参数、梯度信息，所以无法使用现有的后门检测方法。

基于上述考虑，发明人基于已经获取的检测样本集以及待检测模型，按照特定的算法得出待检测模型的全部输出类别可能存在的触发器，继而根据触发器来判断该模型是否存在后门，从而在不需要获取待检测模型的信息以及训练数据的基础上就可以判断其是否留有后门，更适用于黑盒场景下提高商业机器学习模型和API的后门安全性。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性方法

下面结合图1的应用场景，参考图1来描述根据本发明示例性实施方式的模型的后门检测方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

本发明实施方式的第一方面提供了一种模型的后门检测方法，如图2，该方法包括：

步骤S100：提供检测样本集，所述检测样本集包括多个检测样本；

步骤S200：基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，得到所述待检测模型各个输出类别的触发器；

步骤S300：对比全部输出类别的触发器，以判断所述待检测模型是否存在后门。

首先执行步骤S100，提供检测样本集，其中，检测样本集中具有多个检测样本，检测样本可以是一张照片、图片等，检测样本集可以是照片集或者是图片集等。

所述检测样本集可以是事先准备好的，然后按照预设的接口或上传方式提供，例如可以是用户针对他想要检测的模型事先准备的好的，所述检测样本集中的各个检测样本均对应关联有类别标签，且都在模型的输出类别范围之内。

或者所述检测样本集还可以是已知的开源数据集。

所述检测样本集中的检测样本可以是不存在触发器的干净样本，也可以是存在触发器的投毒样本，或者可以是无法确定是否干净的样本，本实施方式对此不做限定，也就是说，不论样本是否存在触发器，均不影响本实施例的技术效果。

在本实施方式的一个实施例中，公开一种提供检测样本集的方法，包括：针对待检测模型的每一输出类别，随机采样多个具有目标类别的样本，此处可以理解为，针对待检测模型的每一输出类别，随机采样多个具有目标类别的样本均为干净样本。在本实施方式的另一个实施例中，公开一种提供检测样本集的方法，包括：

针对待检测模型的每一输出类别，随生成多个样本，再从该随机生成的样本中采样，得到多个检测样本，然后针对检测样本生成具有目标类别欺骗性样本，优选采用基于访问的黑盒攻击方法生成具有目标类别欺骗性样本；

或者针对待检测模型的每一输出类别，从均匀分布的样本中采样得到检测样本，然后在针对检测样本生成欺骗性样本，优选采用基于访问的黑盒攻击方法生成具有目标类别的欺骗性样本，具体的一个示例方法如下：

首先，针对待检测模型的每一个输出类别c，随机生成n张图片

从均匀分布U(0,1)中采样。

然后，针对每一张图片

最小化

被分类成输出类别c的损失函数l。首先以目标类别的样本为期望，σ为标准差构建第一高斯分布，然后采用蒙特卡洛方法估计“损失函数l相对整个第一高斯分布的期望”相对一个所述具有目标类别的样本的梯度，而后基于该梯度进行梯度下降迭代，直至生成的欺骗性样本被待检测模型识别为预期的结果终止，从而生成检测样本相对应的欺骗性样本，计算方式如下：

其中，c为输出类别，

为某一输出类别的一个样本，l是交叉熵损失函数，η是学习率，δ₁,…,δ_k是从标准高斯分布(第一高斯分布)N(0,I)中采样生成的噪声，k为样本数，σ为第一高斯分布的标准差。

采用本实施例的方法可以在干净数据难以获取的情况下，顺利提供检测样本，从而对模型进行后门检测。

在检测样本集确定之后，接下来执行步骤S200，基于步骤S100中提供的检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，得到所述待检测模型各个输出类别的触发器。

在本实施方式的一个实施例中，首先构建一个特定的目标函数，该目标函数以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标，以触发器的掩膜参数和图案参数为未知项，以指定的所述待检测模型的某一输出类别和检测样本为输入项；在本实施例中，无论检测样本集为干样本集，或者是随机生成的，本实施例的实施方式没有变化，均能够达到相同或相似的技术效果。

然后通过进化算法(例如是梯度估计法或遗传算法，梯度估计法在本实施例中优选蒙特卡洛梯度估计法)对该目标函数进行优化计算，以确定触发器的掩膜参数和图案参数；

其中，触发器的掩膜参数至少用于确定触发器在检测样本上的位置和面积，图案参数至少用于确定触发器的图案。

具体优化方法如下：

构建特定目标函数：

其中，f是分类器，l是交叉信息熵损失函数，c是输出类别，λ是超参，m,p为触发器的参数，m为触发器的掩膜参数，p为触发器的图案参数，然后采用蒙特卡洛梯度估计法对每一个输出类别c求解上述目标函数，就可以得到触发器的参数m、p，求解过程如下：

首先针对每一个特定的输出类别c，初始化一组关于m和p的参数θ_m和θ_p；

针对每一个特定类别c的初始化参数θ_m和θ_p，均进行T步迭代，迭代过程中，固定初始化参数θ_m和θ_p中的任意一个，对另一个进行迭代，迭代顺序不分先后，以首先迭代掩膜参数θ_m为例，具体步骤如下：

固定图案参数θ_p，基于该掩膜参数θ_m构建伯努利分布，并从中采样得到多个掩膜：

m₁,…,m_k～Bern(g(θ_m))

其中，该伯努利分布以掩膜参数决定的掩膜即g(θ_m)为期望，采用蒙特卡洛梯度估计法估计“所述目标函数相对整个伯努利分布的期望”相对掩膜参数的梯度；

具体的，基于上述采样的多个掩膜和初始化得到的图案参数，对目标函数进行零阶优化求解，以确定掩膜参数的梯度估计量，零阶优化公式如下：

其中，F为目标函数，k为样本数，σ为标准差，c为输出类别，θ_m为初始化的掩膜参数，θ_p为初始化的图案参数，计算得出的

即为掩膜参数梯度的估计量。

然后固定初始化的掩膜参数θ_m，建立以θ_p为期望、标准差为σ的第二高斯分布，首先从标准高斯分布中随机采样得到多个噪声∈₁,…,∈_k～N(0,I)，其中 N(0,I)为标准高斯分布。

将初始化的图案参数和多个噪声进行组合，然后基于多个组合后的结果和初始化的掩膜参数以及目标函数进行零阶优化求解，以确定图案参数的梯度估计量，零阶优化公式如下：

其中，F为目标函数，k为样本数，σ为标准差，∈_j为第j次采样得到的噪声，c为输出类别，θ_m为初始化掩膜参数，θ_p初始化图案参数，

为图案参数的估计量。

在得到膜参数的梯度估计量

和图案参数的梯度估计量

后，采用特定的优化器对掩膜参数、图案参数进行更新，本实施例采用ADAM优化器更新θ_m和θ_p的值，在其他实施例中优化器还可以采用AdaGrad优化器，RMSProp 优化器，以及AdaDelta优化器，本实施方式对优化器不做限制。

再采用归一化函数对更新后的掩膜参数和图案参数进行更新，归一化公式如下：

其中，θ_m为上述更新后的掩膜参数，g(θ_m)为基于上述更新后的掩膜参数进行归一化处理后的结果；θ_p为上述更新后的图案参数，g(θ_p)为基于上述更新后的图案参数进行归一化处理后的结果。

最后然后令m＝g(θ_m)，p＝g(θ_p)反向还原得到触发器。

执行步骤S300，对比全部输出类别的触发器，以判断所述待检测模型是否存在后门。由于在步骤S200中，已经获取了待检测模型全部输出类别可能存在的触发器，其中包括获取触发器的1-范数，在本步骤中对比全部类别的后门触发器的1-范数，若存在某一输出类别的触发器的1-范数远小于其他输出类别的触发器的1-范数，则可以判断该待检测模型存在该输出类别的后门攻击。

在本实施方式的一个实施例中，进化算法采用遗传算法，重复执行以下步骤，直到达到预设终止条件，以获取触发器的掩膜参数和图案参数：

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

从标准高斯分布中随机采样得到多个噪声；

基于更新后的掩膜参数和图案参数确定触发器。

在本实施方式的一个实施例中，针对于2个输出类别的模型主要依据两个输出类别还原结果触发器的1-范数的差距比例，如某一输出类别A还原结果的1-范数小于另一输出类别类B还原结果的触发器的1-范数的1/10 即可以认为1-类被植入了后门；针对于3～5个输出类别的模型主要依据各输出类别还原结果L1范数最小值与其他类别还原结果1-范数中位数的比例；针对于6分类及以上的模型可采用MAD异常值检测方法。

例如图3所示，Class：0至Class：9为10个输出类别还原的可能存在的触发器，从10张照片中可以看出Class：0和Class：9还原后的触发器远小于其他类别，故而可以判断在输出类别Class：0和Class：9存在后门攻击。

表1所示的是发明人在一些模型上对比本发明与现有技术所做的有效性实验，以及各自的准确率，具体的，实验采用在CIFAR-10，GTSRB，Image Net 数据集上训练的模型，其中NC是基于干净数据采用获取模型真实梯度的算法， B3D是基于干净检测数据采用本发明算法，B3D-SS是基于本发明所提出的随机检测样本生成方法，再利用本发明算法进行后门还原。不难看出基于干净数据利用本发明算法的B3D跟采用真实梯算法度的NC，针对CIFAR-10、GTSRB、Image Net三个数据集上所训练模型的检测准确率基本保持一致，而B3D-SS利用本发明提出的随机检测样本生成方法获取的检测数据，与B3D 采用干净检测数据针对三个数据集上所训练模型的检测准确率同样也基本保持一致，故而可以得出利用本发明的算法进行后门攻击还原的准确率与获取模型真实梯度算法的准确率基本保持一致，而且本发明算法对于采用本发明提出的随机检测数据或是干净检测数据，进行后门还原的准确率基本也没有影响，从而本发明的算法实用性较高、可信度较强。

表1

	NC	B3D	B3D-SS
				CIFAR-10	95.0％	97.5％	97.5％
GTSRB	100.0％	100.0％	100.0％
				Image Net	96.0％	96.0％	95.0％

从而使用本发明技术方案的方法，即使在黑盒场景下不能获取到干净数据和待检测模型的梯度信息，也可以采用预设的算法获取检测样本集，基于已经获取的检测样本集以及待检测模型，按照特定的算法得出待检测模型的全部输出类别可能存在的触发器，继而在对比每个输出类别触发器的掩膜的 1-范数，就可以判断该待检测模型是否存在后门。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图4对本发明示例性实施方式的一种模型的后门检测装置进行说明，该装置包括：

提供模块110，被配置为提供检测样本集，所述检测样本集包括多个检测样本；

获取模块120，被配置为基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一个检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，得到所述待检测模型各个输出类别的触发器；

判断模块130，被配置为对比全部输出类别的触发器，以判断所述待检测模型是否存在后门。

在本实施方式的一个实施例中，所述提供模块110包括第一样本生成单元，所述第一样本生成单元被配置为针对待检测模型的每一输出类别，随机生成多个具有目标类别的样本。

在本实施方式的一个实施例中，所述提供模块110包括：

样本处理单元，被配置为针对每一个样本生成欺骗性样本。

在本实施方式的一个实施例中，

样本处理单元，被配置为针对每一个样本，采用基于访问的黑盒攻击方法生成具有目标类的欺骗性样本。

在本实施方式的一个实施例中，所述第二样本生成单元还被配置为从预设的均匀分布中采样生成多个样本。

在本实施方式的一个实施例中，所述样本处理单元包括：

在本实施方式的一个实施例中，所述获取模块120，包括：

在本实施方式的一个实施例中，进化算法为蒙特卡洛梯度估计法。

在本实施方式的一个实施例中，所述获取模块120包括：

从标准高斯分布中随机采样得到多个噪声；

在本实施方式的一个实施例中，所述进化算法为遗传算法。

在本实施方式的一个实施例中，所述迭代单元还被配置为重复执行以下步骤，直到达到预设终止条件：

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

从标准高斯分布中随机采样得到多个噪声；

基于更新后的掩膜参数和图案参数确定触发器。

在本实施方式的一个实施例中，所述确定单元还被配置为采用归一化函数对所述更新后的掩膜参数和图案参数进行处理，以确定触发器。

在本实施方式的一个实施例中，所述判断模块还被配置为对比全部所述输出类别的触发器的1-范数，以判断所述待检测模型是否存在后门。

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后，接下来，参考图 5对本发明示例性实施方式的计算机可读存储介质进行说明。

请结合参照图5，其示出的计算机可读存储介质为光盘200，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如：提供检测样本集，所述检测样本集包括多个检测样本；基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，得到所述待检测模型各个输出类别的触发器；对比全部输出类别的触发器，以判断所述待检测模型是否存在后门。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后，接下来，参考图6对本发明示例性实施方式的计算设备300进行说明，图6示出了适于用来实现本发明实施方式的示例性计算设备300的框图，该计算设备 300可以是计算机系统或服务器。图6显示的计算设备300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算设备300的组件可以包括但不限于：一个或者多个处理器或者处理单元310，系统存储器320，连接不同系统组件(包括系统存储器和处理单元310)的总线330。

计算设备300典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备300访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM321)和/或高速缓存存储器322。计算设备300可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM323可以用于读写不可移动的、非易失性磁介质 (图6中未显示，通常称为“硬盘驱动器”)。尽管未在图6中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM323，DVD-ROM323或者其它光介质) 读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线相连。系统存储器中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块324，这些程序模块324被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块324的程序/实用工具325，可以存储在例如系统存储器中，且这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块324以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块324通常执行本发明所描述的实施例中的功能和/或方法。

计算设备300也可以与一个或多个外部设备340(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口350进行。并且，计算设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图6所示，网络适配器360通过总线与计算设备300的其它模块(如处理单元310等)通信。应当明白，尽管图6中未示出，可以结合计算设备300 使用其它硬件和/或软件模块。

处理单元310通过运行存储在系统存储器中的程序，从而执行各种功能应用以及数据处理，例如：提供检测样本集，所述检测样本集包括多个检测样本；基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，得到所述待检测模型各个输出类别的触发器；对比全部输出类别的触发器，以判断所述待检测模型是否存在后门。

应当注意，尽管在上文详细描述中提及了模型的后门检测装置的若干单元/模块或子单元/模，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

通过以上描述，本发明的实施例提供了一下的技术方案，但不限于此：

1、一种模型的后门检测方法，包括：

提供检测样本集，所述检测样本集包括多个检测样本；

2、如技术方案1所述的模型的后门检测方法，其中，所述提供检测样本集包括：针对待检测模型的每一输出类别，随机采样多个具有目标类别的样本。

3、如技术方案1或2所述的模型的后门检测方法，其中，所述提供检测样本集包括：

针对待检测模型的每一输出类别，随机生成多个样本；

针对每一个样本生成对应目标类别的欺骗性样本。

4、如技术方案1-3中任一项所述的模型的后门检测方法，其中，从预设的均匀分布中采样生成多个样本。

5.如技术方案1-4中任一项所述的模型的后门检测方法，其中，所述针对每一个样本生成对应目标类别的欺骗性样本采用基于访问的黑盒攻击方法生成欺骗性样本。

6、如技术方案1-5中任一项所述的模型的后门检测方法，其中，针对每一个样本，采用基于访问的黑盒攻击方法生成欺骗性样本，包括：

基于所述梯度进行梯度下降，以生成相应的欺骗性样本；

7、如技术方案1-6中任一项所述的模型的后门检测方法，其中，基于所述检测样本集中的检测样本、待检测模型以求解使得检测样本集中的每一检测样本与随机采样的触发器图案结合后，作为所述待检测模型的输入能够使得所述待检测模型输出特定结果时，检测样本上最小的触发器面积为目标进行优化计算，包括：

8、如技术方案1-7中任一项所述的模型的后门检测方法，其中，所述进化算法为蒙特卡洛梯度估计法。

9、如技术方案1-8中任一项所述的模型的后门检测方法，其中，通过以下方式得到所述待检测模型某一输出类别的触发器：

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

基于更新后的掩膜参数和图案参数确定触发器。

10、如技术方案1-9中任一项所述的模型的后门检测方法，其中，通过以下方式得到所述待检测模型某一输出类别的触发器：

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

从标准高斯分布中随机采样得到多个噪声；

基于更新后的掩膜参数和图案参数确定触发器。

11、如技术方案1-10中任一项所述的模型的后门检测方法，其中，所述进化算法的方式为遗传算法。

12、如技术方案1-11中任一项所述的模型的后门检测方法，其中，通过以下方式得到所述待检测模型某一输出类别的触发器：

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

从标准高斯分布中随机采样得到多个噪声；

基于更新后的掩膜参数和图案参数确定触发器。

13、如技术方案1-12中任一项所述的模型的后门检测方法，其中，所述基于更新后的掩膜参数和图案参数确定触发器，包括：

14、如技术方案1-13中任一项所述的模型的后门检测方法，其中，所述对比全部输出类别的触发器，以判断所述待检测模型是否存在后门，包括：

15、一种模型的后门检测装置，其特征在于，包括：

16、如技术方案15所述的模型的后门检测装置，其中，所述提供模块包括：

17、如技术方案15或16所述的模型的后门检测装置，其中，所述提供模块包括：

18、如技术方案15-17中任一项所述的模型的后门检测装置，其中，所述第二样本生成单元还被配置为从预设的均匀分布中采样生成多个样本。

19、如技术方案15-18中任一项所述的模型的后门检测装置，其中，所述样本处理单元被配置为针对每一个样本，采用基于访问的黑盒攻击方法生成对应目标的欺骗性样本。

20、如技术方案15-19中任一项所述的模型的后门检测装置，其中，所述样本处理单元包括：

21、如技术方案15-20中任一项所述的模型的后门检测装置，其中，所述获取模块，包括：

22、如技术方案15-21中任一项所述的模型的后门检测装置，其中，所述进化算法为蒙特卡洛梯度估计法。

23、如技术方案15-22中任一项所述的模型的后门检测装置，其中，所述获取模块包括：

24、如技术方案15-23中任一项所述的模型的后门检测装置，其中，所述迭代单元还被配置为重复执行以下步骤，直到达到预设终止条件：

从标准高斯分布中随机采样得到多个噪声；

25、如技术方案如技术方案15-24中任一项所述的模型的后门检测装置，其中，所述进化算法为遗传算法。

26、如技术方案15-25中任一项所述的模型的后门检测装置，其中，所述迭代单元还被配置为重复执行以下步骤，直到达到预设终止条件：

初始化一组掩膜参数和一组图案参数；

重复执行以下步骤，直到达到预设终止条件：

从标准高斯分布中随机采样得到多个噪声；

基于更新后的掩膜参数和图案参数确定触发器。

27、如技术方案15-26中任一项所述的模型的后门检测装置，其中，所述确定单元还被配置为采用归一化函数对所述更新后的掩膜参数和图案参数进行处理，以确定触发器。

28、如技术方案15-27中任一项所述的模型的后门检测装置，其中，所述判断模块还被配置为对比全部所述输出类别的触发器的1-范数，以判断所述待检测模型是否存在后门。

29、一种介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如技术方案1-14中任一项所述的方法。

30、一种计算设备，所述计算设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如技术方案1-14中任一项所述的方法。

Claims

1.一种模型的后门检测方法，包括：

提供检测样本集，所述检测样本集包括多个检测样本；

2.如权利要求1所述的模型的后门检测方法，其中，所述提供检测样本集包括：针对待检测模型的每一输出类别，随机采样多个具有目标类别的样本。

3.如权利要求1所述的模型的后门检测方法，其中，所述提供检测样本集包括：

针对待检测模型的每一输出类别，随机生成多个样本；

针对每一个样本生成对应目标类别的欺骗性样本。

4.如权利要求3所述的模型的后门检测方法，其中，从预设的均匀分布中采样生成多个样本。

5.一种模型的后门检测装置，其特征在于，包括：

6.如权利要求5所述的模型的后门检测装置，其中，所述提供模块包括：

7.如权利要求5所述的模型的后门检测装置，其中，所述提供模块包括：

8.如权利要求7所述的模型的后门检测装置，其中，所述第二样本生成单元还被配置为从预设的均匀分布中采样生成多个样本。

9.一种介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。

10.一种计算设备，其特征在于，所述计算设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-4中任一项所述的方法。