CN116383814B

CN116383814B - 一种神经网络模型后门检测方法和系统

Info

Publication number: CN116383814B
Application number: CN202310644147.3A
Authority: CN
Inventors: 张旭鸿; 付冲; 纪守领; 蒲誉文; 刘沛宇; 杨星; 周颖杰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-09-15
Anticipated expiration: 2043-06-02
Also published as: CN116383814A

Abstract

本发明公开了一种神经网络模型后门检测方法和系统，属于神经网络模型安全保护技术领域。将目标神经网络模型划分为特征提取器部分和分类器部分，定义特征提取器部分的输出为中间层表示；通过最大化源类别的分类置信度的方式，逆向生成每一个源类别的中间层表示；由分类器部分获取每一个源类别的中间层表示的分类置信度向量，预处理每一个源类别的分类置信度向量，拼接得到分类置信度矩阵；根据分类置信度矩阵计算异常指标值，若异常指标值大于阈值，则判断目标神经网络模型存在后门，并定位后门的目标类别。本发明能够自动生成中间层表示而非依赖现成的辅助数据，且对于后门攻击的触发器形式不敏感，后门检测精度高，适用范围广。

Description

一种神经网络模型后门检测方法和系统

技术领域

本发明涉及神经网络模型安全保护技术领域，尤其涉及一种神经网络模型后门检测方法和系统。

背景技术

针对深度神经网络模型的后门攻击是人工智能面临的重大威胁之一。被注入后门的神经网络模型对正常的输入样本表现正常，输出正确的预测类别。然而，如果输入样本包含特定的触发器（Trigger），被注入后门的神经网络模型将表现出攻击者预设的异常行为，例如将该样本分类到指定的某个目标类别。

尽管已有多种后门检测器，但它们都假设防御者可以访问一组不具有触发器的验证样本，或者假设防御者可以接触到带有触发器的在线访问样本，这些假设在一些关键的实际场景中可能不成立，例如：如果防御者是一个模型共享平台的维护者，那么该防御者在检查平台上的模型是否有后门的时候很可能无法接触到任何辅助样本。

现有唯一无数据依赖的神经网络模型后门检测方法为DF-TND法，该方法通过生成输入样本摆脱检测器对于辅助数据的依赖；虽然该方法确实取得一定效果，但是生成样本的质量难以保证，同时极易受到后门触发器类型的干扰，例如面对滤镜型后门触发器时检测效果大幅下降。当前无数据依赖的神经网络模型后门检测器的通用性和准确性亟待加强。

发明内容

针对目前神经网络模型后门检测器依赖辅助数据、无法在无数据依赖的情形下运作的现状，本发明提供一种神经网络模型后门检测方法和系统，可在无数据依赖的情形下对神经网络模型进行高精度后门检测。

本发明提供了如下技术方案：

第一方面，本发明提供了一种神经网络模型后门检测方法，包括：

将目标神经网络模型划分为特征提取器部分和分类器部分，定义特征提取器部分的输出为中间层表示；

通过最大化源类别的分类置信度的方式，逆向生成每一个源类别的中间层表示；

由分类器部分获取每一个源类别的中间层表示的分类置信度向量，预处理每一个源类别的分类置信度向量，拼接得到分类置信度矩阵；

根据分类置信度矩阵计算异常指标值，若异常指标值大于阈值，则判断目标神经网络模型存在后门，并定位后门的目标类别。

上述后门检测方法应用于图像识别领域，源类别即目标神经网络模型预设的图像类别，目标类别即目标神经网络模型中植入的后门期望输入图像被预测的类别。

进一步的，所述的将目标神经网络模型划分为特征提取器部分和分类器部分，划分方法为：

若目标神经网络模型的层数不超过30层，则将前或/>层作为特征提取器部分，将其余部分作为分类器部分，其中/>表示向上取整符号，/>表示向下取整符号；

若目标神经网络模型的层数超过30层，则将前15层作为特征提取器部分，将其余部分作为分类器部分。

进一步的，所述的通过最大化源类别的分类置信度的方式，逆向生成每一个源类别的中间层表示，计算公式为：

其中，IR_k为第k个源类别的中间层表示，CE(.)为交叉熵损失函数，为L2范数，为控制L2正则化的参数，M_cls为目标神经网络模型的分类器部分，c_k为第k个源类别的标签，/>为第k个源类别的中间层表示的第i维的值，N_dims为目标神经网络模型的中间层表示的维数。

进一步的，所述的预处理每一个源类别的分类置信度向量，拼接得到分类置信度矩阵，具体为：将每一个源类别的分类置信度向量中对应源类别标签的置信度置零，并将分类置信度向量转置为行向量，将全部源类别对应的预处理后的分类置信度向量拼接为分类置信度矩阵。

进一步的，所述的根据分类置信度矩阵计算异常指标值，具体为：

计算分类置信度矩阵中每一列数据的均值，形成均值数组；

根据均值数组中的最大值、75%分位点的值和25%分位点的值，计算初始异常指标值；

将初始异常指标值和基准值的绝对值作为最终异常指标值。

进一步的，所述的定位后门的目标类别，具体为：若目标神经网络模型存在后门，则所述的均值数组中的最大值对应的目标类别即为后门的目标类别。

第二方面，本发明提供了一种神经网络模型后门检测系统，包括：

模型分割模块，其用于将目标神经网络模型划分为特征提取器部分和分类器部分，定义特征提取器部分的输出为中间层表示；

中间层表示生成模块，其用于通过最大化源类别的分类置信度的方式，逆向生成每一个源类别的中间层表示；

置信度矩阵生成模块，其用于根据分类器部分获取每一个源类别的中间层表示的分类置信度向量，预处理每一个源类别的分类置信度向量，拼接得到分类置信度矩阵；

后门判定模块，其用于根据分类置信度矩阵计算异常指标值，若异常指标值大于阈值，则判断目标神经网络模型存在后门，并定位后门的目标类别。

第三方面，本发明提供了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述的一种神经网络模型后门检测方法。

第四方面，本发明提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，用于实现上述的一种神经网络模型后门检测方法。

与现有技术相比，本发明的有益效果在于：本发明通过最大化源类别的分类置信度的方式，能够自动逆向生成每一个源类别的中间层表示而非依赖现成的辅助数据，且该方法不依赖于特定触发器类型上的规律，对于后门攻击的触发器形式不敏感，对多种触发器类型的后门攻击检测精度高。

附图说明

图1为本发明实施例示出的神经网络模型后门检测系统的模型分割模块示意图；

图2为本发明实施例示出的神经网络模型后门检测系统的中间层表示生成模块示意图；

图3为本发明实施例示出的神经网络模型后门检测系统的置信度矩阵生成模块和后门判别模块示意图；

图4为本发明实施例示出的神经网络模型后门检测方法的流程示意图；

图5为本发明实施例示出的像素块触发器形式的样例，其中（a）为无像素块触发器的样本，（b）为有像素块触发器的样本；

图6为本发明实施例示出的图像滤镜触发器形式的样例，其中（a）为无图像滤镜触发器的样本，（b）为有图像滤镜触发器的样本；

图7为是本发明实施例示出的用于实现后门检测方法的电子设备终端结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

无数据依赖的深度神经网络模型后门检测系统，主要包括模型分割模块、中间层表示生成模块、置信度矩阵生成模块、后门判别模块。

其中，如图1所示，模型分割模块用于将待检测的目标神经网络模型分割为特征提取器部分和分类器部分，其中分类器部分将作为主要检测目标，记为M_cls。所述的特征提取器部分和分类器部分以中间层为分割线，本实施例中，选择分割所在的中间层的策略是：对于层数小于30的目标神经网络模型，选择模型正中间的层为中间层，以VGG-16为目标神经网络模型为例，选择VGG-16的第8层作为中间层，将第1-8层作为特征提取器部分，将第9-16层作为分类器部分；对于层数大于30的目标神经网络模型，选择模型第15层为中间层，以ResNet-50为目标神经网络模型为例，选择ResNet-50的第15层作为中间层，将第1-15层作为特征提取器部分，将第16-50层作为分类器部分。

如图2所示，中间层表示生成模块，其用于对于每个预测类别，生成其在上述中间层的中间层表示，并暂时存储到计算机内存中；本实施例中，以CIFAR-10数据集为例，该数据集有10个预测类别，则生成10个中间层表示。

在本发明的一项具体实施中，通过最大化对应类别在输出层的分类置信度来生成每一个预测类别的中间层表示，如下公式所示：

其中，IR_k为第k个源类别的中间层表示，CE(.)为交叉熵损失函数，为L2范数，为控制L2正则化的参数，设为0.01；M_cls为目标神经网络模型的分类器部分，c_k为第k个源类别的标签，/>为第k个源类别的中间层表示的第i维的值，N_dims为目标神经网络模型的中间层表示的维数。

如图3所示，置信度矩阵生成模块，其用于对于每个预测类别c_k，将其中间层表示前向传播经过目标神经网络模型的分类器部分，由softmax函数得到一组分类置信度（列向量），将第k个元素置零并转换为行向量，然后将所有类别的处理后的置信度向量整合成一个置信度矩阵。本实施例中，以CIFAR-10数据集为例，由于该数据集有10个预测类别，则生成10×10的置信度矩阵，表示为：

其中，M为最终的置信度矩阵，其第c行表示第c个预测类别（源类别）的中间层表示对应的处理后的置信度向量，第k列表示全部预测类别的中间层表示对应的处理后的置信度向量中属于第k类目标类别的概率。

后门判别模块，通过对置信度矩阵M进行异常检测，具体为：

计算置信度矩阵每一列的均值形成一个均值数组V，计算该数组的异常指标值，并据此判别该模型是否有后门：异常指标值越大，意味着模型分类越偏向某个类，模型有后门的概率就越大，该类就是被怀疑的后门目标类别。本实施例中，以CIFAR-10数据集为例，置信度矩阵有10列，这10列元素的均值形成10维数组，根据这组数字进行异常指标值计算。

在本发明的一项具体实施中，异常指标值的计算公式如下：

其中，为初始异常指标值，可粗略反应置信度矩阵的异常程度；/>为常量，本实施例中，对于三通道图像设为1.0，对于单通道图像设为1.5，该常量作为无后门的神经网络模型的基准值。/>表示最终的异常指标值，展示了给定模型的初始异常指标值偏离正常模型基准的程度，作为更精确地描述置信度矩阵的异常程度的指标。Q₃和Q₁为数组V的75%和25%分位点的值，abs(.)为取绝对值操作。在本发明的一项具体实施中，当异常指标值大于后门检验阈值时，判断该模型有后门，例如，阈值可以设置为1.5。

以上所描述的系统实施例仅仅是示意性的，其中所述模块可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

如图4所示，本发明还提出一种神经网络模型后门检测方法，包括以下步骤，

（1）选定目标神经网络模型的某个中间层，以此将目标神经网络模型分为特征提取器部分和分类器部分，定义特征提取器部分的输出为中间层表示。

（2）对于每个源类别，逆向生成其在上述中间层的中间层表示，生成策略为最大化该类别在输出层的分类置信度。

（3）对于每个源类别，将其中间层表示前向传播经过目标神经网络模型的分类器部分，由softmax函数得到分类置信度向量，预处理每一个源类别的分类置信度向量。

（4）对于每个源类别执行过上述步骤后，会拼接得到一个分类置信度矩阵；计算该矩阵的异常指标值，若异常指标值大于阈值，则判断目标神经网络模型存在后门，并定位后门的目标类别。

在本发明的一项具体实施中，对目标神经网络模型划分特征提取器部分和分类器部分的划分方法为：

若目标神经网络模型的层数不超过30层，则将或/>层作为特征提取器部分，将其余部分作为分类器部分，其中/>表示向上取整符号，/>表示向下取整符号；

在本发明的一项具体实施中，对每一个源类别的分类置信度向量的预处理包括：将每一个源类别的分类置信度向量中对应源类别标签的置信度置零，并将分类置信度向量转置为行向量，将全部源类别对应的预处理后的分类置信度向量拼接为分类置信度矩阵。

在本发明的一项具体实施中，计算异常指标值，具体为：

计算分类置信度矩阵中每一列数据的均值，形成均值数组；

将初始异常指标值和基准值的绝对值作为最终异常指标值。

若目标神经网络模型存在后门，则所述的均值数组中的最大值对应的目标类别即为后门的目标类别。

上述方法的各步骤实现过程可以参照上述系统中各个模块的功能、作用及实现方式。

为了验证本发明的实施效果，将本发明的方法与目前最先进的DF-TND法（RenWang, Gaoyuan Zhang, Sijia Liu, Pin-Yu Chen, Jinjun Xiong, and Meng Wang.Practical detection of trojan neural networks: Data-limited and data-freecases. In European Conference on Computer Vision (ECCV). Springer, 2020）进行对比；同时为进一步证明本发明的有效性，还将本发明与有数据依赖的最先进后门检测方法之一STRIP进行对比，本实施例的后门检验阈值设为1.5。在数据依赖方面，本实验中本发明和DF-TND无需辅助数据，对于STRIP则提供正常输入样本和带触发器的恶意样本各20个。

本实验以TPR/FPR为评价指标，其中TPR（true positive rate）为真阳性率，含义是检测出来的真阳性样本数除以所有真实阳性样本数，此处阳性指“模型被判定为有后门”；FPR（false positive rate）为假阳性率，含义是检测出来的假阳性样本数除以所有真实阴性样本数，此处阴性指“模型被判定为无后门”。

本实验在经典目标识别数据集CIFAR-10以及经典路牌识别数据集GTSRB上进行，采用GoogLeNet以及VGG-16两种经典神经网络模型结构。对于后门攻击，使用像素块（patchtrigger）、图像滤镜（filter trigger）两种触发器形式。其中，像素块触发如图5中的（a）和（b）所示，其中图5中的（a）为无触发器的样本，图5中的（b）为有触发器的样本；图像滤镜触发如图6中的（a）和（b）所示，其中图6中的（a）为无触发器的样本，图6中的（b）为有触发器的样本。

在上述实验设定下，本发明和对比方法DF-TND、STRIP的后门检测结果如下表1所示。

表1：本发明和对比方法DF-TND、STRIP的后门检测结果

可见，在多个数据集、模型结构以及触发器设定下，本发明全方面优于现有最先进的无数据依赖后门检测方法DF-TND。对于有数据依赖的方法STRIP，本发明依然可以超越其检测效果，尤其是对于触发器形式为图像滤镜的后门攻击。虽然对于触发器形式为像素块的后门攻击下，STRIP与本发明的检测效果相当，但是STRIP要求防御者能够接触到正常样本和带触发器的异常样本，是需要依赖辅助数据的，在无数据依赖的情况下STRIP无法运行。

本发明相对于DF-TND表现更为优秀的原因是，本发明逆向生成每个预测类别的中间层表示，而非在输入样本空间中搜索，搜索空间减小，更有利于增强逆向生成结果对于本预测类别的代表性。本发明选择逆向生成中间层表示的做法使得本发明对于后门攻击的触发器形式更不敏感，因为即使是图像滤镜形式的触发器，到中间层也会被提取为特征向量中的若干维度；因此，从实验结果中可见，DF-TND对于使用图像滤镜形式触发器的后门攻击，检测效果明显变差，而本发明则不会。本发明相对于STRIP面对图像滤镜形式触发器取得更好检测效果的原因也类似，STRIP依赖于正常样本和异常样本重叠后，触发器依然主导模型的分类行为，这条规律对于图像滤镜来说适用性不高，因为图像滤镜在样本重叠后遭到破坏，使得此规律无法清晰显现。而本发明不依赖于特定触发器类型上的规律，因此即使对于图像滤镜这种特殊触发器形式也能做到较好的检测效果。

本发明实施例还提供一种电子设备，包括处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上述的后门检测方法。

从硬件层面而言，如图7所示，为本实施例提供的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中系统所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的后门检测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

显然，以上所述实施例和附图只是本申请的一些例子，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种神经网络模型后门检测方法，其特征在于，应用于图像识别领域，所述方法包括：

对于后门攻击，使用像素块、图像滤镜两种触发器形式；

通过最大化源类别的分类置信度的方式，逆向生成每一个源类别的中间层表示；计算公式为：

其中，IR_k为第k个源类别的中间层表示，CE(.)为交叉熵损失函数，||.||₂为L2范数，λ为控制L2正则化的参数，M_cls为目标神经网络模型的分类器部分，c_k为第k个源类别的标签，为第k个源类别的中间层表示的第i维的值，N_dims为目标神经网络模型的中间层表示的维数；

2.根据权利要求1所述的一种神经网络模型后门检测方法，其特征在于，所述的将目标神经网络模型划分为特征提取器部分和分类器部分，划分方法为：

若目标神经网络模型的层数m不超过30层，则将前或/>层作为特征提取器部分，将其余部分作为分类器部分，其中/>表示向上取整符号，/>表示向下取整符号；

3.根据权利要求1所述的一种神经网络模型后门检测方法，其特征在于，所述的预处理每一个源类别的分类置信度向量，拼接得到分类置信度矩阵，具体为：将每一个源类别的分类置信度向量中对应源类别标签的置信度置零，并将分类置信度向量转置为行向量，将全部源类别对应的预处理后的分类置信度向量拼接为分类置信度矩阵。

4.根据权利要求3所述的一种神经网络模型后门检测方法，其特征在于，所述的根据分类置信度矩阵计算异常指标值，具体为：

计算分类置信度矩阵中每一列数据的均值，形成均值数组；

根据均值数组中的最大值、75％分位点的值和25％分位点的值，计算初始异常指标值；

将初始异常指标值和基准值的绝对值作为最终异常指标值。

5.根据权利要求4所述的一种神经网络模型后门检测方法，其特征在于，所述的定位后门的目标类别，具体为：若目标神经网络模型存在后门，则所述的均值数组中的最大值对应的目标类别即为后门的目标类别。

6.根据权利要求4所述的一种神经网络模型后门检测方法，其特征在于，所述的初始异常指标值的计算公式为：

M_trojaned＝(max(V)-Q₃)/(Q₃-Q₁)

其中，M_trojanee为初始异常指标值，V为均值数组，Q₃和Q₁为均值数组中的75％和25％分位点的值。

7.一种神经网络模型后门检测系统，其特征在于，应用于图像识别领域，对于后门攻击，使用像素块、图像滤镜两种触发器形式；所述系统包括：

中间层表示生成模块，其用于通过最大化源类别的分类置信度的方式，逆向生成每一个源类别的中间层表示；计算公式为：

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至6任一项所述的一种神经网络模型后门检测方法。

9.一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，用于实现权利要求1至6任一项所述的一种神经网络模型后门检测方法。