CN116739073B

CN116739073B - 一种基于进化偏差的在线后门样本检测方法及系统

Info

Publication number: CN116739073B
Application number: CN202311003842.8A
Authority: CN
Inventors: 吕训韬; 黄华洋; 赵令辰; 王骞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-07
Anticipated expiration: 2043-08-10
Also published as: CN116739073A

Abstract

本发明涉及深度学习模型的后门样本检测领域，具体涉及一种基于进化偏差的在线后门检测方法及系统。通过获得一个后门模型；为所述的后门模型均匀附加侧网得到多分支输出网络，并对所述的多分支输出网络在不改变原模型参数的条件下用干净数据训练侧网；向所述的多分支输出网络输入样本，根据每个分支的输出计算离群值分数；根据所述的离群值分数判断样本是否异常，超过阈值则判断为异常样本，对于异常样本可通过浅分支输出还原标签，并重新投入训练纯化模型。适用于计算资源有限的用户使用不可信第三方模型的场景，可在离线状态下检测和纯化模型，时间开销小，因此可用做安全增强工具。

Description

一种基于进化偏差的在线后门样本检测方法及系统

技术领域

本发明涉及深度学习模型的后门样本检测领域，具体涉及一种基于进化偏差的在线后门样本检测方法及系统。

背景技术

随着深度学习模型在各种学习任务上的成功发展，大量具有诸如图像分类、物体检测和声音分类等功能的第三方模型层出不穷。但同时，大量调查和研究也表明深度学习模型易受后门攻击，深度学习模型的后门攻击是指通过向模型的训练数据中添加触发器并改变样本原标签为目标类别，从而使模型在遇到不包含触发器的输入时表现正常，而遇到包含触发器的输入时会将样本错误的分类为目标类别。目前，针对深度学习模型后门攻击的研究主要聚焦于后门植入的隐蔽性，最新的隐蔽后门方法包括：不直接覆盖触发器到样本，而是按比例融合样本与触发器；设计扭曲函数使样本以特定模型扭曲，触发器就是样本扭曲的特征；提取并利用输入样本的特征生成与样本特征相似的触发器。

近年来，深度学习后门攻击方法层出不穷，针对后门攻击的检测防御方法也应运而生。根据后门攻击需要篡改的两个主体，样本数据和后门模型，后门攻击检测可分为后门样本检测和模型诊断，其中：后门样本检测是指根据后门样本和正常样本的表现不同来检测后门样本；而模型诊断是指直接通过检测模型本身来确定是否有后门，具体方法包括观察后门模型对某些样本的输出是否异常、计算观察模型内部的参数和结构分布是否异常等。本系统采用的是后门样本检测来进行后门攻击检测，现有的后门样本检测技术主要依赖于良性和恶意样本在特征表示上的可分离性，目前的后门样本检测方法包括：利用样本特征表示的协方差谱中留下的、被称为光谱特征的可检测痕迹，后门样本的光谱特征值较正常样本更大；通过图像分割识别样本输入的统计不一致性，后门样本的不一致性通常更高；使用 Gram矩阵计算样本特征图的高维信息，后门样本与正常样本的特征高维信息可区分。

现在的后门样本检测方法的一大缺陷在于其着眼点在于样本的静态特征图，只利用了模型的最后一个特种层的信息进行后门样本和正常样本的区分，没有充分利用后门样本在模型中间层的特征信息，这就导致在检测过程中忽略了样本在模型内部的动态特征演化信息。此外，目前的后门样本检测技术依赖于有关攻击策略信息或两类样本的潜在可分离性的假设，可被最新的隐藏后门攻击绕过。

综上，现有的后门样本检测技术手段需要依赖有关攻击策略的信息或潜在的可分离性的假设，若存在可绕过检测方法中可分离性假设的后门攻击策略，则无法通过现有手段进行检测。

发明内容

为解决现有技术的问题，本发明提出一种基于进化偏差的在线后门样本检测方法及系统，适用于为计算资源有限的用户提供在线后门样本检测服务，可用作安全增强工具，弥补了现有后门样本检测方法中需要近似中毒率、忽略样本动态演化特征和需要提取的内部特征参数总数过大等不足。

为实现上述目的，本发明提供了一种基于进化偏差的在线后门样本检测方法，其特殊之处在于：

S1：获得一个后门模型；

S2：为所述后门模型在不同深度的层均匀的附加若干侧网，得到多分支输出网络；

S3：对所述多分支输出网络在不改变原模型参数的条件下使用干净数据训练侧网；

S4：向所述多分支输出网络输入样本并根据每个分支的输出计算离群值分数；

S5：根据所述离群值分数判断样本是否异常，判断标准为超过用干净数据计算出的阈值则判断为异常样本。

进一步地，所述后门模型获取途径包括模型外包训练、公开模型仓库下载和用户直接提供等来自不可信第三方数据；检测过程对所述的后门模型拥有白盒访问权限。

进一步地，所述附加的侧网包括，

特征处理模块，用于实现特征降维，即将模型中间层的特征参数减小到合适的大小；

分类模块，用于接收特征处理后的特征，然后利用单个全连接层执行与模型原任务相同的分类功能。

一种优选方式为，所述特征处理模块采用最大池平均池混合池化策略。

进一步地，所述侧网训练的参数更新方式采用随机梯度下降算法反向传播训练，损失函数采用交叉熵损失函数。

进一步地，所述S4中离群值分数用于体现正常样本与后门样本在正向传播过程中侧网分支输出变化的特征差异，特征差异度量标准包括：

一致性：用于表示样本在侧网分支的输出与最终主分支的输出的一致性；

稳定性：用于表示分支输出的变化频率与幅度；

确定性：用于表示网络对当前分类结果的置信程度；

最终离群值分数由所述的三个度量标准按比例求和得到。

一种优选地方式为，所述步骤S4中，

一致性的度量方式是计算所有分支输出与主分支输出的L1距离值并求和；

稳定性的度量方式是计算所有相邻分支输出的余弦相似度之和；

确定性的度量方式是计算所有分支输出的最高置信度值和，该值越高代表确定性越高。

进一步地，步骤S5中进行异常检测时，对于判断为异常的样本，处理方式包括：

舍弃样本：该方式下系统可实现测试数据过滤功能；

还原标签：根据异常样本经过浅分支时的输出还原标签，具体还原策略采用多数投票机制，选择分支中所有与主分支预测结果不同的预测中出现次数最多的预测作为异常样本的原标签，用还原的标签覆盖样本的错误标签；

重新训练：通过将还原标签后的异常样本重新投入训练来纯化后门模型。

基于同一发明构思，本方案还提供了一种电子设备，其特殊之处在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现一种基于进化偏差的在线后门样本检测方法。

基于同一发明构思，本方案还提供了一种计算机可读介质，其上存储有计算机程序，其特殊之处在于：所述程序被处理器执行时实现一种基于进化偏差的在线后门样本检测方法。

上述技术方案具有如下有益效果：

1、考虑了样本在后门模型中间层预测结果的动态进化偏差，以后门样本与正常样本在模型浅层和深层的演化行为特征为判断依据，利用多出口分支网络对样本进行动态检测，并且通过设计侧网结构在不影响检测精度的情况下减少了提取的数据大小。弥补了现有后门样本检测技术中所存在的忽视样本在模型中的动态特征、需要提取的参数总数过大等不足，实现了为计算资源有限的用户在线提供安全增强工具的检测服务。

2、本技术方案能够有效检测最先进的几种后门攻击，且考虑了强大的攻击者能力，即对后门模型的训练集与模型架构没有限制。现有的后门样本检测技术相比本技术在最新的后门攻击下都表现出较低的检测性能，此外本技术是目前唯一一个可识别特征隐藏攻击样本的检测方法。

3、本技术方案首次提出了一种在不修改样本和模型的情况下进行后门样本的标签恢复的恢复方案，这大大提高了标签还原的效率，且该方案在基本的后门攻击情形下能够达到80%的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提出的一种基于进化偏差的在线后门样本检测系统方法流程图。

图2为侧网结构拓扑图。

图3为本发明提出的一种基于进化偏差的在线后门样本检测系统框架。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本技术方案的工作原理：为了解决现有基于正常样本和后门样本在特征表示上的可分离性的后门样本检测方法所存在的问题，本技术方案通过分析输入样本在模型中间层的预测结果的进化偏差来区分正常样本和后门样本，无需大量干净数据参考集和模型训练集的近似中毒率等知识，可部署在计算资源有限的用户机上，为用户在线提供后门样本检测服务。为用户使用的第三方不可信模型均匀的附加侧网形成多分支输出网络，向多分支输出网络输入一小组数据增强后的干净的数据，对每个输入样本根据各分支的预过其浅层输出还原标签，并重新投入训练纯化模型。

基于上述工作原理，本发明提出一种基于进化偏差的在线后门样本检测系统，如图1所示。包括：

步骤1：获得一个现成的后门模型，包括其内部参数和结构，获取途径有模型外包训练、公开模型仓库下载和用户直接提供等方式，不限制该模型后门攻击的类型、投毒率和训练数据集，检测系统对所述的后门模型的内部参数和网络结构拥有白盒访问权限，但需要一小组干净的参考数据集，该数据集不属于训练和测试样本，而是为了步骤5的阈值确定。

步骤2：向后门模型在不同深度的层均匀的附加侧网得到多分支输出网络；

如图2所示，附加侧网后的多分支输出网络架构包括一个由原模型构成的主分支和若干均匀附着在主分支上的侧网，假设共附加了n-1个侧网，则当向该多分支网络输入样本时，侧网由浅到深依次输出输出1、输出2…、输出n-1，主分支输出n。该多分支输出网络中的符号表示包括：输入的样本用符号表示为(x, y)∈(X, Y)，其中x表示输入的图像，y∈{1,…, c}表示从c个类别中选出的正确标签；对于包含n个中间层的模型，x的分类过程可以表示为F_c(f_n(…f₂(f₁(x)))))，输出为x属于每个类别的概率，其中f为由卷积层、激活层和池层组成的特征提取器，Fc为分类器，通常包括若干全连通层，本实施例包括2个全连接层，并带有一个softmax函数；

在步骤2中，涉及到一种附加到原模型的侧网，用于跟踪样本在模型内的进化偏差。如图2所示，侧网结构包括：特征处理模块，用于特征降维，即将模型内不同深度层中用于分类的特征参数fi(x)减小到合适的大小，其中i表示第i个侧网，该模块将pytorch的Conv2d作为卷积层提取特征、ReLU作为激活层进行非线性变换、MaxPool2d混合AvgPool2d作为池化层降维，这种最大池平均池混合池化策略无需人工处理即可从数据中学习到合适的特征参数比（最大池一般在浅层无用信息较多时使用，平均池一般在深层有用信息较多时使用，因此两种池化策略混合使用适用于本发明中均匀分布在模型深浅层的侧网），第i个侧网的特征处理模块用函数表示为Mi；分类模块，用于接收特征处理后的特征Mi(fi(x))并分类，第i个侧网的分类函数表示为Fi，具体利用单个全连接层执行与模型原任务相同的分类功能，单个全连接层的设计使得侧网分支的分类结果主要受从主分支中间层提取到的特征的影响，从而在整体上更能反映样本特征在后门模型正向传播的进化偏差；

在步骤2中，通过均匀的附加侧网，可以更加完整的记录和分析样本在模型内部的预测结果演化过程，若只附加侧网到模型浅层，则会出现正常样本和后门样本的浅层分类结果都普遍与最终分类结果不同的状况，若只附加侧网到模型深层，则会出现正常样本和后门样本在深层的分类结果都普遍收敛于最终分类结果的状况，两种方式都会导致系统难以区分正常样本和后门样本，进而降低检测精度。

步骤3：并用干净数据在不改变原模型参数的条件下训练侧网；

得到如图3所示的多分支输出网络后，首先用干净的数据集利用随机梯度下降算法通过反向传播训练侧网，此过程不改变原模型内部参数和结构。训练时使用的损失函数为L_i= L_CE(F_i(M_i(f_i(x))), y)，其中i代表第i个侧网分支，M_i代表侧网中特征处理模块的混合池化函数，F_i代表侧网中分类模块的分类函数，L_CE代表交叉熵损失函数；

步骤4：向用干净数据训练后的多分支输出网络在线输入样本，并计算每个样本的离群值分数；

在步骤4中，涉及到离群值分数的计算。离群值分数的三项标准包括：一致性、稳定性和确定性。后门样本在一致性、稳定性和确定性的三个度量标准上都表现出和正常样本的可分离性，尤其在一致性上差距最明显，而稳定性和确定性可以辅助增强这一可分离性，最终三个标准按比例求和后得到的离群值分数能够有效区分后门样本和正常样本，因此本系统可以通过设置阈值的方式进行异常检测；

所述的三个度量标准的含义和计算方法分别为：一致性，用于表示样本在侧网分支的输出与最终主分支的输出的一致性，后门样本比正常样本更缺少一致性，具体度量方式是计算所有分支输出与主分支输出的L1距离值并求和（该值越高代表一致性越低），符号表示为Φ_c(x) =；稳定性，用于表示分支输出的变化频率与幅度，后门样本比正常样本更不稳定，这一标准可以防止部分难学习的正常样本一致性低而导致的误判，具体度量方式是计算所有相邻分支输出的余弦相似度之和（该值越高代表稳定性越低），符号表示为Φ_s(x) =/>；确定性，用于表示网络对当前分类结果的置信程度，后门样本由于触发器和原始特征有竞争关系，使其相比正常样本相比拥有更高的置信度，这一标准与稳定性共同帮助防止因部分正常样本难学习而导致的误判，具体度量方式是计算所有分支输出的最高置信度值之和（该值越高代表确定性越高），符号表示为Φ_d(x) =/>。最终每个样本的离群值分数由以上三项标准按比例求和得到，符号表示为：

Φ(x) = α*Φ_c(x) + β*Φ_s(x) + γ*Φ_d(x)；

α、β和γ为三个度量标准的比例系数，所述的三个度量标准的比例系数通过在干净数据上缩放测试确定，即通过对三个度量标准进行不同程度的缩放，使得干净样本的三个度量值结果在同一数量级，表现为均值相等，然后根据三个指标的可分性不同，设置缩放后的一致性：确定性：稳定性的比例为4:2:1，最后得到最终比例系数。

步骤5：根据样本计算处的离群值分数进行异常检测，设定一个阈值，对于离群值分数高于阈值的样本系统判断其为后门样本，否则系统判断其为正常样本；

在步骤5中，涉及到一个用于判断样本是否异常的的离群值分数阈值。阈值的计算过程包括：获得一小组用于参考的干净数据集，对干净数据进行数据增强，即通过对现有的数据集进行包括翻转、移位、旋转在内的微小的改变来增加数据量，从而使接下来计算的离群值分数阈值更有效；然后计算并记录这些干净数据集的离群值分数；最终确定阈值为能够使95%的干净数据通过检测的值，即95%的干净数据的离群值分数小于该阈值。由于后门样本和正常样本的离群值分数差距较大，因此该方法可以进行有效的异常检测。

步骤5：对于检测为正常的样本，系统予以通过，对于检测为异常的样本，系统的处理方式包括以下三种：

舍弃样本：该方式下系统可实现测试数据过滤功能；

还原标签：该方式下系统可实现鲁棒预测功能；

重新训练：该方式下系统可实现模型净化功能；

在步骤5中，涉及到一种还原后门样本的标签的方法。标签还原的方法包括：对于所有于与主分支的最终预测结果不同的侧网输出，采用多数投票机制重新覆盖样本标签。该方法能够起作用的原因在于，样本中的后门通常在模型深层起作用，而样本的原始特征更倾向于在模型浅层起作用，因此对于检测为异常的样本可以依据其中间层输出进行标签还原。

在步骤5种，重新训练涉及到纯化模型的方法，包括：将还原标签后的异常样本重新投入训练，从而纯化后门模型。

深度学习模型的后门攻击技术发展迅速且触发器隐藏方式越来越多，对比现有的后门样本检测技术，本系统在所有后门攻击和数据集下的性能都是最优的，尤其是针对特征隐藏攻击这样的动态攻击，本发明技术是目前唯一一个可有效识别该后门攻击类型样本的检测技术。

本技术方案解决了现有的后门样本检测技术手段所存在的问题，能够检测包括特征隐藏攻击在内的最新后门攻击，为后门样本检测提供了一种通过分析后门样本在模型内的进化偏差的动态特征的检测方法，本技术方案不需要依靠任何关于攻击策略的信息和大量样本数据，因此能够在计算资源有限的主机上在线检测后门样本，可用作安全增强工具。

实施例二

基于同一发明构思，本发明还提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现实施例一中所述的方法。

由于本发明实施例三所介绍的设备为实施本发明实施例一种一种基于进化偏差的在线后门样本检测方法所采用的电子设备，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一种方法所采用的电子设备都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本发明还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例一中所述的方法。

由于本发明实施例四所介绍的设备为实施本发明实施例一种一种基于进化偏差的在线后门样本检测方法所采用的计算机可读介质，故而基于本发明实施例一介绍的方法，本领域所属技术人员能够了解该电子设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一种方法所采用的电子设备都属于本发明所欲保护的范围。

本发明中所描述的具体实施的例子仅仅是对本发明的方法和步骤的举例说明。本发明所述技术领域的技术人员可以对所描述的具体实施步骤做相应的修改或补充或变形，但是不会背离本发明的原理和实质或者超越所附权利要求书所定义的范围。本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于进化偏差的在线后门样本检测方法，其特征在于：

S1：获得一个后门模型；

S2：为所述后门模型在不同深度的层均匀的附加若干侧网，得到多分支输出网络，所述后门模型的输入为图像，所述后门模型以及侧网的输出均为该图像属于每个类别的概率；通过均匀的附加侧网，更加完整的记录和分析样本在模型内部的预测结果演化过程；

S4：向所述多分支输出网络输入样本并根据每个分支的输出计算离群值分数，所述离群值分数用于体现正常样本与后门样本在正向传播过程中侧网分支输出变化的特征差异；

2.根据权利要求1所述的基于进化偏差的在线后门样本检测方法，其特征在于：所述后门模型获取途径来自不可信第三方数据，包括模型外包训练、公开模型仓库下载和用户直接提供；检测过程对所述的后门模型拥有白盒访问权限。

3.根据权利要求1所述的基于进化偏差的在线后门样本检测方法，其特征在于：所述附加的侧网包括，

4.根据权利要求3所述的基于进化偏差的在线后门样本检测方法，其特征在于：所述特征处理模块采用最大池平均池混合池化策略。

5.根据权利要求1所述的基于进化偏差的在线后门样本检测方法，其特征在于：所述侧网训练的参数更新方式采用随机梯度下降算法反向传播训练，损失函数采用交叉熵损失函数。

6.根据权利要求1所述的基于进化偏差的在线后门样本检测方法，其特征在于：所述S4中离群值分数特征差异度量标准包括：

稳定性：用于表示分支输出的变化频率与幅度；

确定性：用于表示网络对当前分类结果的置信程度；

最终离群值分数由三个度量标准按比例求和得到。

7.根据权利要求6所述的基于进化偏差的在线后门样本检测方法，其特征在于：所述步骤S4中，

确定性的度量方式是计算所有分支输出的最高置信度值和，其值越高代表确定性越高。

8.根据权利要求1所述的基于进化偏差的在线后门样本检测方法，其特征在于：步骤S5中进行异常检测时，对于判断为异常的样本，处理方式包括：

舍弃样本：该方式下系统可实现测试数据过滤功能；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1-8中任一项所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现权利要求1-8中任一项所述的方法。