CN117852029A

CN117852029A - 神经网络后门检测方法及装置

Info

Publication number: CN117852029A
Application number: CN202211202494.2A
Authority: CN
Inventors: 陈凯; 单伟君; 张弛; 杨雪; 李鑫; 王立辉; 李清; 俞军
Original assignee: Shanghai Fudan Microelectronics Group Co Ltd
Current assignee: Shanghai Fudan Microelectronics Group Co Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2024-04-09

Abstract

本发明公开了一种神经网络后门检测方法及装置，该方法包括：生成对应神经网络模型中每个标签的检测样本，所述检测样本中包含所述标签对应的分类特征；将所述检测样本输入所述神经网络模型，得到特征层的激活向量，将相同标签对应的检测样本的激活向量拼接在一起，得到所述标签的特征矩阵；根据所述特征矩阵确定所述标签对应的检测指标；对所述检测指标进行异常值检测，根据检测结果确定所述神经网络模型是否存在后门。利用本发明方案，可以在无数据的情况下检测神经网络是否存在后门，进而为神经网络的安全提供有效信息。

Description

神经网络后门检测方法及装置

技术领域

本发明涉及神经网络安全技术领域，具体地涉及一种神经网络后门检测方法及装置。

背景技术

目前，随着人工智能技术的发展，深度神经网络被大量应用于各个行业和场景中，但由于一些客观因素的限制，神经网络可能存在不被人所感知的后门。比如用户缺少充足的数据集时，可能需要从第三方平台获取数据，但这些数据中可能包含被攻击者恶意篡改过的数据，而这类被篡改的数据会使得网络学习到一些攻击者希望植入网络的恶意信息。再比如当用户不具备强大的算力训练网络时，需要将训练任务交给第三方平台，然后由第三方平台直接交付已训练好的模型，而第三方平台也可能在训练过程中植入后门。

深度神经网络中可能存在有恶意的后门，当正常样本输入网络时，网络的输出表现正常，但当某个特定的输入或者特征进入网络时会激活后门，使网络输出攻击者预设目标。因此需要一种方案来帮助用户检测模型是否存在后门，而对于数据敏感的场景，用户可能不愿意将模型的数据交给检测方，对于这种无数据的场景，如何检测神经网络是否存在后门，现有技术还没有相应的解决方案。

发明内容

本发明实施例提供一种神经网络后门检测方法及装置，可以在无数据的情况下检测神经网络是否存在后门，进而为神经网络的安全提供有效信息。

为此，本发明实施例提供如下技术方案：

一方面，本发明实施例提供一种神经网络后门检测方法，所述方法包括：

生成对应神经网络模型中每个标签的检测样本，所述检测样本中包含所述标签对应的分类特征；

将所述检测样本输入所述神经网络模型，得到特征层的激活向量，将相同标签对应的检测样本的激活向量拼接在一起，得到所述标签的特征矩阵；

根据所述特征矩阵确定所述标签对应的检测指标；

对所述检测指标进行异常值检测，根据检测结果确定所述神经网络模型是否存在后门。

可选地，所述生成对应神经网络模型中每个标签的检测样本包括：

对于所述神经网络模型中每个标签，设置一组样本作为初始样本；

以最小化输入为所述样本时神经网络的输出与所述标签的分类损失为目标，对所述初始样本进行迭代更新，得到更新样本；

将所述更新样本作为对应所述标签的检测样本。

可选地，所述根据所述特征矩阵确定所述标签对应的检测指标包括：对所述特征矩阵进行统计学分析，得到所述标签对应的检测指标。

可选地，所述对所述特征矩阵进行统计学分析，得到所述标签对应的检测指标包括：对所述特征矩阵进行统计学分析，计算第一主成分所占的信息比重，并将所述信息比重作为所述标签对应的检测指标。

可选地，所述统计学分析包括以下任意一种：主成分分析、独立成分分析、奇异值分解。

可选地，所述对所述检测指标进行异常值检测，根据检测结果确定所述神经网络模型是否存在后门包括：

利用设定的异常值检测算法确定检测阈值；

计算所述检测指标的异常指数；

如果所述检测指标的异常指数大于所述检测阈值，则确定所述检测指标为异常值，所述神经网络模型存在后门。

可选地，所述异常值检测算法包括以下任意一种：绝对中位差算法、箱线图。

可选地，所述方法还包括：确定所述异常值对应的标签为攻击的目标标签。

另一方面，本发明实施例还提供一种神经网络后门检测装置，所述装置包括：

样本生成模块，用于生成对应神经网络模型中每个标签的检测样本，所述检测样本中包含所述标签对应的分类特征；

特征矩阵生成模块，用于将所述检测样本输入所述神经网络模型，得到特征层的激活向量，将相同标签对应的检测样本的激活向量拼接在一起，得到所述标签的特征矩阵；

检测指标确定模块，用于根据所述特征矩阵确定所述标签对应的检测指标；

检测模块，用于对所述检测指标进行异常值检测，根据检测结果确定所述神经网络模型是否存在后门。

可选地，所述样本生成模块包括：

初始样本生成单元，用于对于所述神经网络模型中每个标签，设置一组样本作为初始样本；

样本更新单元，用于以最小化输入为所述样本时神经网络的输出与所述标签的分类损失为目标，对所述初始样本进行迭代更新，得到更新样本；

检测样本生成单元，用于将所述更新样本作为对应所述标签的检测样本。

可选地，所述检测模块包括：

阈值确定单元，用于利用设定的异常值检测算法确定检测阈值；

异常指数计算单元，用于计算所述检测指标的异常指数；

检测单元，用于在所述检测指标的异常指数大于所述检测阈值的情况下，确定所述检测指标为异常值，所述神经网络模型存在后门。

可选地，所述检测单元，还用于确定所述异常值对应的标签为攻击的目标标签。

另一方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行前面所述方法的步骤。

另一方面，本发明实施例还提供一种神经网络后门检测装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行前面所述方法的步骤。

本发明实施例提供的神经网络后门检测方法及装置，针对神经网络模型中每个标签，通过逆向生成对应各标签的检测样本，然后将检测样本输入神经网络模型，得到各标签的特征矩阵，对特征矩阵的特征空间进行分析，得到检测指标，对各检测指标进行异常值检测，根据检测结果确定神经网络模型是否存在后门，从而有效地解决了无数据场景下的后门检测问题。而且，本发明方案通用性强，可以对多种不同类型触发的攻击都进行有效检测。

附图说明

图1是现有的对神经网络最基本的后门攻击方式示意图；

图2是本发明实施例神经网络后门检测方法的一种流程图；

图3是本发明实施例神经网络后门检测装置的一种结构示意图。

具体实施方式

下面将参考附图中示出的示例性实施方式来描述本发明的原理和精神。应当理解，描述这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

下面首先对现有的后门攻击方式做简要说明。

以对数字图像分类任务的深度神经网络(Deep Neural Network，DNN)为例，目前对神经网络最基本的后门攻击方式如图1所示，具体过程如下：

设置后门触发器为图像右下角的一个黑色正方形，攻击目标标签为“0”。

在训练过程中修改部分良性样本图像，使其右下角具有触发标记，并将其标签修改为目标标签“0”。由这个训练集训练得到的DNN则被植入了后门。

在测试阶段，当正常的良性样本图像输入网络时，输出得到其对应的正确标签，但当输入良性样本图像包含触发标记时，则输出会得到目标标签“0”。

对良性样本图像植入上述类型的后门，从而构造有毒样本的过程可以抽象成如下的数学表达式：

x'＝(1-m)x+m·Δ (1)

其中，x和x'分别表示良性样本和有毒样本，m是元素值为0或1的掩码矩阵，Δ是后门触发的图案。通常，为了使后门触发不被人察觉，要求对图像样本修改的像素点尽可能的小，即m的L0范数尽可能的小。

当用户拿到一个已经训练好的模型，需要判断此模型是否存在后门。对此，现有技术中已有一些后门检测方案。比如：

(1)神经清洗(neural cleanse)方法

对每个输出标签，将其视为后门攻击的潜在目标标签，通过优化逆向生成一个最小的触发，使得这个触发可以将来自其他标签的所有样本误分类到目标标签。在得到所有标签对应的触发以后，计算每个触发对应掩码矩阵的L0范数，然后执行一个离群检测算法来检测是否有明显小的L0范数，如果出现一个显著的异常值，则模型存在后门，且它对应的触发所匹配的标签就是后门攻击的目标标签。

(2)激活聚类(activation clustering)方法

提取训练集样本在特征层的输出，分别对每个标签对应所有样本的特征层输出进行K-means聚类，聚类成两簇，然后根据聚类结果判断这个标签的结果是否异常。判断异常有以下三种方法：

a.从训练集中去除当前标签的两簇中的一簇，然后用这个训练集训练一个分类网络，测试刚刚被去掉的一簇样本，如果该簇样本中大多数还被分为原来的标签则证明无后门，否则有后门。

b.实验发现，不是目标标签的样本在进行聚类时，两簇样本的数量相当。因此，可以对比聚类结果两簇样本数量，如果有一簇的样本数明显小于另外一簇，则少的那一簇有毒。

c.用聚类结果簇的轮廓得分来判断，得分越高表明两个簇确实适合数据，所以样本是含毒的，并且，攻击者不会投毒超过一半的数据，所以较小的簇可以被认为是有毒的。

(3)谱特征(Spectral Signatures)方法

对于某个标签，首先将此标签下的所有样本输入网络得到特征矩阵，对特征矩阵奇异值分解，得到右奇异矩阵，取右奇异矩阵中的第一列向量作为右奇异向量。然后将此标签下的每个样本的特征向量与右奇异向量相乘，得到此样本的离群值得分，离群值得分特别大的样本则认为是有毒样本。

现有技术中一种典型的全局触发为混合(blended)类型的攻击采用如下算法：

令x表示良性样本，Δ表示后门触发的图案，超参数α∈(0,1)表示混合系数，则有毒样本可以表示为：

x'＝(1-α)·x+α·Δ (2)

现有技术中对神经网络后门的检测方案大多数是基于有样本的场景，而且大都只针对上述公式(1)这类触发较小的后门攻击，对于全局触发的后门，从原理上则无法解决。

为此，本发明实施例提供一种神经网络后门检测方法及装置，针对神经网络模型中每个标签，通过逆向生成对应各标签的检测样本，然后将检测样本输入神经网络模型，得到各标签的特征矩阵，对特征矩阵的特征空间进行分析，得到检测指标，对各检测指标进行异常值检测，根据检测结果确定神经网络模型是否存在后门。

如图2所示，是本发明实施例神经网络后门检测方法的一种流程图，包括以下步骤：

步骤201，生成对应神经网络模型中每个标签的检测样本，所述检测样本中包含所述标签对应的分类特征。

具体地，对于所述神经网络模型中每个标签y_i，设置一组样本x_i,n,n＝1,…,N作为初始样本；以最小化输入为所述样本时神经网络的输出与所述标签的分类损失L(f(x_i,n),y_i)为优化目标，对所述初始样本进行迭代更新，得到更新样本。

其中，f(x_i,n)表示样本x_i,n输入神经网络得到的输出，L(·,·)表示神经网络的损失函数，更新过程具体如下：

然后，将所述更新样本作为对应所述标签的检测样本。

在具体应用中，所述初始样本的设置可以采用多种方式，比如人工设定、或者随机设置等方式，对此本发明实施例不做限定。需要说明的是，初始样本中的各样本应保证不同，也就是说，不应有重复的样本。

对于每个标签，均按照上述方法得到对应该标签的一组检测样本，因为以最小化输入为所述样本时神经网络的输出与所述标签的分类损失作为优化目标，在迭代更新过程中，所述更新样本被分类到该标签的置信度将逐渐增加，相应的所述更新样本将逐渐趋近网络认可的该类样本，因此这些样本中隐含了神经网络中此标签对应的分类特征。

步骤202，将所述检测样本输入所述神经网络模型，得到特征层的激活向量将相同标签对应的N个检测样本的激活向量拼接在一起，得到所述标签的特征矩阵/>其中/>表示实数矩阵或向量。

步骤203，根据所述特征矩阵确定所述标签对应的检测指标。

在本发明实施例中，可以基于统计学分析确定各标签对应的检测指标，即对所述特征矩阵进行统计学分析，得到所述标签对应的检测指标。具体地，对所述特征矩阵进行统计学分析，计算第一主成分所占的信息比重，并将所述信息比重作为所述标签对应的检测指标。

所述统计学分析比如可以是但不限于：主成分分析(PCA)、独立成分分析、奇异值分解等。下面以主成分分析为例进行说明。

所述主成分分析是一种经典的统计方法，通过一个正交化线性变换，将数据变换到一个新的坐标系统中，使得这一数据的任何投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。通过主成分分析，数据的信息尽可能地保留在前几维数据中，因此经常被用来做数据降维。

主成分分析的算法流程如下：

1)将特征矩阵T中每一维数据都减去该维的均值得到T′。

上述计算得到的T′与对所有的样本进行“中心化”即然后将数据按列组成M行N列矩阵，再转置得到N行M列矩阵T′等效。

2)计算样本的协方差矩阵

3)通过特征值分解或奇异值分解，求出协方差矩阵的特征值。

4)将特征值从大到小排列，并做归一化处理，最大的特征值代表第一主成分，归一化后的值代表第一主成分所占的信息比重。

由于第一主成分保留原数据中最多的信息，用来分析问题更合理，而且实验也验证了第一维信息在本方案中的有效性。

步骤204，对所述检测指标进行异常值检测，根据检测结果确定所述神经网络模型是否存在后门。

具体地，可以利用设定的异常值检测算法确定检测阈值；计算所述检测指标的异常指数；如果所述检测指标的异常指数大于所述检测阈值，则确定所述检测指标为异常值，所述神经网络模型存在后门。进一步地，还可确定所述异常值对应的标签为攻击的目标标签。

需要说明的是，在实际应用中，所述异常值检测算法比如可以是但不限于：绝对中位差算法、箱线图等算法。相应地，根据采用的算法不同，所述检测阈值和所述检测指标的异常指数会有不同的定义和计算方式，对此本发明实施例不做限定。

比如，采用绝对中位差算法，在得到每个标签的检测指标S_i后，计算检测指标的中位数然后计算所有检测指标与中位数的绝对偏差/>将绝对偏差的中位数称为MAD值，异常指数定义为绝对偏差除以MAD，如果所述异常指数大于阈值，则其对应的检测指标为异常值，所述神经网络模型存在后门。

所述阈值由统计学经验得到，比如当假设基础分布为正态分布时，使用常数估计量(1.4826)对异常指数进行归一化。异常指数大于2有>95％的概率是异常值，异常指数大于2.5有>98％的概率是异常值，异常指数大于3有>99％的概率为异常值，此时可以选择检测阈值为2.5。

本发明实施例提供的神经网络后门检测方法，针对神经网络模型中每个标签，通过逆向生成对应各标签的检测样本，然后将检测样本输入神经网络模型，得到各标签的特征矩阵，对特征矩阵的特征空间进行分析，得到检测指标，对各检测指标进行异常值检测，根据检测结果确定神经网络模型是否存在后门，从而有效地解决了无数据场景下的后门检测问题。而且，本发明方案通用性强，可以对多种不同类型触发的攻击都进行有效检测。

相应地，本发明实施例还提供一种神经网络后门检测装置，如图3所示，是该装置的一种结构示意图。

该神经网络后门检测装置300包括以下各模块：

样本生成模块301，用于生成对应神经网络模型中每个标签的检测样本，所述检测样本中包含所述标签对应的分类特征；

特征矩阵生成模块302，用于将所述检测样本输入所述神经网络模型，得到特征层的激活向量，将相同标签对应的检测样本的激活向量拼接在一起，得到所述标签的特征矩阵；

检测指标确定模块303，用于根据所述特征矩阵确定所述标签对应的检测指标；

检测模块304，用于对所述检测指标进行异常值检测，根据检测结果确定所述神经网络模型是否存在后门。

所述样本生成模块301的一种具体结构可以包括以下各单元：

上述检测指标确定模块303具体可以基于统计学分析确定各标签对应的检测指标。

上述检测模块304具体可以利用设定的异常值检测算法确定检测阈值，所述检测模块304的一种具体结构可以包括以下各单元：

异常指数计算单元，用于计算所述检测指标的异常指数；

进一步地，所述检测单元还用于确定所述异常值对应的标签为攻击的目标标签。

关于上述本发明神经网络后门检测装置中各模块及单元的具体实现方式可参照前面本发明方法实施例中的描述。

本发明实施例提供的神经网络后门检测装置，针对神经网络模型中每个标签，通过逆向生成对应各标签的检测样本，然后将检测样本输入神经网络模型，得到各标签的特征矩阵，对特征矩阵的特征空间进行分析，得到检测指标，对各检测指标进行异常值检测，根据检测结果确定神经网络模型是否存在后门，从而有效地解决了无数据场景下的后门检测问题。而且，本发明方案通用性强，可以对多种不同类型触发的攻击都进行有效检测。

关于上述实施例中描述的各个装置、产品包含的各个模块/单元，其可以是软件模块/单元，也可以是硬件模块/单元，或者也可以部分是软件模块/单元，部分是硬件模块/单元。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端设备的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端设备内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端设备内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

本发明实施例还公开了一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序运行时可以执行图2中所示方法的全部或部分步骤。所述存储介质可以包括只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁盘或光盘等。存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还提供一种神经网络后门检测装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行图2所述方法的全部或部分步骤。

需要说明的是，本申请实施例中出现的“多个”是指两个或两个以上。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种神经网络后门检测方法，其特征在于，所述方法包括：

根据所述特征矩阵确定所述标签对应的检测指标；

2.根据权利要求1所述的方法，其特征在于，所述生成对应神经网络模型中每个标签的检测样本包括：

将所述更新样本作为对应所述标签的检测样本。

3.根据权利要求1所述的方法，其特征在于，所述根据所述特征矩阵确定所述标签对应的检测指标包括：

对所述特征矩阵进行统计学分析，得到所述标签对应的检测指标。

4.根据权利要求3所述的方法，其特征在于，所述对所述特征矩阵进行统计学分析，得到所述标签对应的检测指标包括：

对所述特征矩阵进行统计学分析，计算第一主成分所占的信息比重，并将所述信息比重作为所述标签对应的检测指标。

5.根据权利要求4所述的方法，其特征在于，所述统计学分析包括以下任意一种：主成分分析、独立成分分析、奇异值分解。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述对所述检测指标进行异常值检测，根据检测结果确定所述神经网络模型是否存在后门包括：

利用设定的异常值检测算法确定检测阈值；

计算所述检测指标的异常指数；

7.根据权利要求6所述的方法，其特征在于，所述异常值检测算法包括以下任意一种：绝对中位差算法、箱线图。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

确定所述异常值对应的标签为攻击的目标标签。

9.一种神经网络后门检测装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述样本生成模块包括：

11.根据权利要求9或10所述的装置，其特征在于，所述检测模块包括：

异常指数计算单元，用于计算所述检测指标的异常指数；

12.根据权利要求11所述的装置，其特征在于，

所述检测单元，还用于确定所述异常值对应的标签为攻击的目标标签。

13.一种计算机可读存储介质，所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至8中任一项所述方法的步骤。

14.一种神经网络后门检测装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至8中任一项所述方法的步骤。