CN115186816B

CN115186816B - 一种基于决策捷径搜索的后门检测方法

Info

Publication number: CN115186816B
Application number: CN202211093403.6A
Authority: CN
Inventors: 董恺; 卞绍鹏; 李想
Original assignee: Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Current assignee: Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2022-12-27
Anticipated expiration: 2042-09-08
Also published as: WO2024051183A1; CN115186816A

Abstract

本发明公开了一种基于决策捷径搜索的后门检测方法，包括：通过随机噪声确定K个可疑的标签；对于每一个可疑的标签求解出一个最小的触发器坐标；分析求解出的触发器坐标是否存在异常值；对恶意模型进行再训练使得后门失效，最终得到正常模型。本发明能够快速锁定可疑标签，能够求解出真实触发器的坐标信息，只需对少量标签做详细检测即可高效地检测出恶意模型，利用求解出的触发器对待检测模型进行再训练，以移除后门，最终得到一个正常模型，大幅度降低了检测算法的时间复杂度能够快速锁定可疑标签。

Description

一种基于决策捷径搜索的后门检测方法

技术领域

本发明属于深度学习的安全技术领域，具体涉及一种基于决策捷径搜索的后门检测方法。

背景技术

随着深度学习在日常生活中的广泛应用，其中的安全问题也慢慢暴露了出来。训练一个较为出色的深度学习模型需要大量的时间及计算资源，普通的公司及个人完全无法满足这些要求，所以他们通常会将训练过程外包给第三方。外包方式如下：用户提供训练集数据给第三方，保留测试集数据，提前约定好模型的结构及准确率阈值，若最终的模型在测试集上的准确率高于阈值则接受模型，否则拒绝。由于第三方完全控制着训练过程再加上深度学习模型缺乏可解释性，这种外包服务可能会存在一些安全隐患。例如近些年提出的后门攻击，第三方可以通过添加特定的样本来污染训练集，从而植入后门。被植入后门的恶意模型在正常情况下无异常，仅在特定情况下分类错误达到攻击的效果。

后门攻击属于投毒攻击的一种攻击方法，通过在训练集中添加一定比例带有触发器的中毒样本来污染训练集，最终训练出的模型被称为恶意模型。在正常情况下，恶意模型与正常模型几乎没有任何差异，当且仅当输入中带有预设的触发器时才会激活后门，从而使得恶意模型将此输入误分类为攻击者的目标标签。Badnets攻击方法可以分为三步：选取触发器、污染训练集和模型训练。后续的攻击方法分别针对选取触发器、污染训练集和模型训练进行了优化改进。

后门攻击的攻击过程如图1所示，主要可分为三步：添加触发器、确认匹配度和激活后门。从这三个步骤着手，若能阻碍其中的某个步骤便能够使得攻击失效。所以，可以从三个方面对后门攻击进行防御：移除触发器、触发器与后门不匹配和移除后门。

（一）移除触发器

有研究人员利用了GradCAM检测输入图像中最为重要的区域，例如触发器图案所在的区域；随后使用中性的像素值覆盖此区域。最后，使用基于GAN的方法来“恢复”此区域中的像素值，从而减轻对于良性输入的影响。

（二）触发器后门不匹配

若能够在输入模型前对中毒样本做合理的预处理，使得触发器中的触发器与后门不匹配，就能够成功防御攻击。根据这个想法，有研究人员利用了auto-encoder的思想对模型的输入进行了预处理，使得经过转换后的触发器图案与原触发器图案会有较大偏差，从而无法激活后门。

（三）移除后门

向模型中植入后门实质上就是将模型的参数朝着一个特定的方向进行修改，若能够将去除这些恶意参数，即可抵消后门的影响，从而移除后门。受感染模型中存在部分神经元专门用于识别触发器，对于良性的输入几乎不响应，只要对这部分神经元进行修剪即可移除后门。为了能够更加准确高效地移除后门，可以首先求解出触发器，随后利用求得的触发器来移除后门。有研究人员提出了基于触发器求解的防御方法Neural Cleanse，对每一个标签求解出一个的可能触发器，随后再对这些触发器进行异常值检测来判断模型中是否存在后门。

在此之前提出的后门检测方法Neural Cleanse需要对于所有的标签都做一次详细检测，若待检测模型的分类标签总数非常多，会导致这种方法的检测效率较低。

公开号为CN113609482A的发明中提及一种针对图像分类模型的后门检测及修复方法及系统，该发明仅使用少量干净数据，即可对图像分类模型的后门检测及修复，生成正常模型。但该发明需要创建对照模型，借助对照模型通过优化目标函数对后门模型的每一个类别进行逆向，获得一系列潜在触发器，利用贡献度热力图对潜在触发器进行精炼，只保留影响模型分类结果的关键特征；继而基于后门触发器和对抗补丁在对照模型上可迁移性的差异，区分出精炼后的潜在触发器的后门触发器和对抗补丁，对照模型难以构建且整个检测方法运算量大。

公开号为CN114638356A的发明中提及一种静态权重引导的深度神经网络后门检测方法及系统，发挥了静态权重分析计算开销小、不受输入样本质量影响、不受触发器类型影响的优势，有效提高了神经网络后门检测的效率、精度和可扩展性。但该发明需要预训练神经网络模型进行静态权重分析，得到后门攻击的可疑目标标签和受害标签，组成目标-受害标签对。在数据量不足的情况下，预训练的神经网络模型的精度和准确度不够，容易导致错误分类。

发明内容

解决的技术问题：为了解决检测效率低下的问题，本发明提出了一种基于决策捷径搜索的后门检测方法，能够快速锁定少数的可疑标签，最大程度地提高检测效率。

技术方案：

一种基于决策捷径搜索的后门检测方法，所述后门检测方法包括以下步骤：

S1，利用随机噪声生成P张由随机噪声像素值组成的随机噪声图片，将P张随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次，根据标签出现的频次对所有标签从大到小进行排序，将前K个标签作为可疑的目标标签；P和K均为大于1的正整数；

S2，选择其中一个可疑的目标标签i，假设其是攻击者的目标标签，计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量，计算得到标签i对应的可能的触发器坐标；i=1,2,…,K；

S3，重复步骤S2，直至计算得到所有可疑的目标标签对应的可能的触发器坐标；

S4，根据添加触发器后的攻击成功率和触发器的大小，计算得到K个可能的触发器的异常值，如果计算得到的任意一个可能的触发器的异常值大于预设的异常值阈值，则表明待检测模型为恶意模型，且攻击者的目标标签为该可能的触发器对应的标签；

S5，利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练，通过修改模型的参数使得后门失效。

进一步地，步骤S2中，选择其中一个可疑的目标标签i，假设其是攻击者的目标标签，计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量，计算得到标签i对应的可能的触发器坐标的过程包括以下子步骤：

S21，在后门攻击中，触发器由触发器坐标m和触发器图案

两部分共同组成，采用下述公式（1）在样本

上添加触发器：

；

S22，采用下述公式（2）求解得到触发器坐标：

其中，

表示待检测模型；

为损失函数，用于量化分类损失；

为当前假定的目标标签；

为m的L1范式，表示需要修改像素点的范围大小；

表示获取到的不存在被污染样本的干净数据集；触发器坐标求解最优化的目标是：在待检测模型将全部经过修改的图片分类为

的同时，最小化m的L1范式，以改动最少的像素点。

进一步地，采用用户测试集的部分数据以生成所述干净数据集。

进一步地，步骤S4中，判断添加触发器后的攻击成功率是否小于预设的攻击成功率阈值，如果是，则直接排除该可能的触发器；否则，根据添加触发器后的攻击成功率和触发器的大小，计算得到可能的触发器的异常值。

进一步地，步骤S4中，采用下述公式（3）计算得到可能的触发器的异常值

：

；

式中，acc表示添加触发器后的攻击成功率；

表示输入样本的像素点总数；

表示触发器的大小。

进一步地，步骤S5中，利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练，通过修改模型的参数使得后门失效的过程包括以下子步骤：

S61，从不存在被污染样本的干净数据集中选取一部分合适的干净样本；

S62，在选取的干净样本中的m坐标位置添加上随机噪声像素值，且不改变这些样本的标签，以制造逆向中毒样本；

S63，采用制造的逆向中毒样本和部分干净数据集对待检测模型进行再训练。

有益效果：

本发明提出了一种基于决策捷径搜索的后门检测方法，能够快速锁定可疑标签，能够求解出真实触发器的坐标信息，只需对少量标签做详细检测即可高效地检测出恶意模型，利用求解出的触发器对待检测模型进行再训练，以移除后门，最终得到一个正常模型，大幅度降低了检测算法的时间复杂度能够快速锁定可疑标签。

附图说明

图1为后门攻击的攻击原理示意图；

图2为本发明实施例的基于决策捷径搜索的后门检测方法流程图。

图3为本发明实施例的基于决策捷径搜索的后门检测方法原理图。

具体实施方式

下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

图2为本发明实施例的基于决策捷径搜索的后门检测方法流程图。参见图2，该后门检测方法包括以下步骤：

S1，利用随机噪声生成P张由随机噪声像素值组成的随机噪声图片，将P张随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次，根据标签出现的频次对所有标签从大到小进行排序，将前K个标签作为可疑的目标标签；P和K均为大于1的正整数。

S2，选择其中一个可疑的目标标签i，假设其是攻击者的目标标签，计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量，计算得到标签i对应的可能的触发器坐标；i=1,2,…,K。

S3，重复步骤S2，直至计算得到所有可疑的目标标签对应的可能的触发器坐标。

S4，根据添加触发器后的攻击成功率和触发器的大小，计算得到K个可能的触发器的异常值，如果计算得到的任意一个可能的触发器的异常值大于预设的异常值阈值，则表明待检测模型为恶意模型，且攻击者的目标标签为该可能的触发器对应的标签。

本实施例设计了一种基于决策捷径搜索的后门检测方法，以CIFAR10数据集训练的模型为例，参见图3，判断该模型中是否存在后门主要可分为以下四个步骤：

(1)通过随机噪声确定K个可疑的标签。

在步骤(1)中，本方法利用模型对于随机噪声图片的分类情况迅速将标签搜索范围缩小至K个标签。先前的检测方法Neural Cleanse需要对待检测模型的所有标签进行详细的检测，对于一个分类标签总数量极大的模型来说，若详细检测每一个标签是否是攻击者的目标标签，会花费大量的时间及计算资源。具体搜索过程包括以下步骤：首先，利用随机噪声生成P张随机噪声像素值组成的图片。其次，将这些随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次。最后，根据标签出现的频次对所有标签从大到小进行排序，前K个标签即为可疑的目标标签。

本实施例与检测方法Neural Cleanse不同，本实施例利用了恶意模型的特点，能够迅速将可疑标签的范围缩小至k个，将时间复杂度由O(N)降低到了常量级别，显著提升了检测的效率。

对于每一个可疑的标签求解出一个最小的触发器坐标。

在步骤(2)中，本实施例将对上述求得的K个可疑标签分别进行详细的检测，并分别求解出一个可能的触发器坐标。先前的检测方法Neural Cleanse需要同时求解触发器坐标与触发器像素值，耗费大量的时间及计算资源。发现可疑标签具体可分为如下三个步骤：

在恶意模型中，标签A的样本上只需要通过修改极少量的像素点来添加触发器，就能够让恶意模型将其误分类为攻击的目标标签B，但标签A的样本需要修改大量的像素点才能让恶意模型将其误分类为标签C。而对于正常模型来说，想让模型将标签A的样本误分类为所有的其余标签都需要修改大量的像素点。

本实施例利用了恶意模型这一特性，对于每一个可疑标签都把假设它是攻击者的目标标签，并且计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量，即标签i可能的触发器。在后门攻击中，触发器由触发器坐标m和触发器图案

两部分共同组成，通过

函数来添加触发器，在样本x上添加触发器的方法如式（1）所示：

。

但根据研究发现，恶意模型并未学习到具体的像素值信息，所以无需求解触发器的图案

，只需求解出触发器的坐标m即可。具体的求解方法如式（2）所示。其中，

表示待检测的模型，

为损失函数，用于量化分类损失，

为当前假定的目标标签，

为m的L1范式，表示需要修改像素点的范围大小，X表示能够获取到的干净数据集。在一般情况下，X可采用用户测试集的一部分数据。最优化的目标是：在模型将全部经过修改的图片分类为

的同时，最小化m的L1范式，即改动最少的像素点。

。

本实施例利用了恶意模型对随机噪声的敏感性，仅求解触发器坐标即可，触发器像素值通过随机噪声来生成，大幅度减少提升了最优化求解的效率。

分析求解出的触发器坐标是否存在异常值。

在步骤(3)中，将根据上述求得的K个可能的触发器进行异常值检测，若检测出异常触发器，则说明模型中存在后门，且攻击者的攻击标签即为此触发器对应的标签。由于真实触发器的L1范式会远小于其余可能的触发器，本发明方法拟根据添加触发器后的攻击成功率和触发器的大小来综合判断待检测模型是否为恶意模型。对于真正的攻击标签来说，只需较小的mask即可达到较高的攻击成功率。

本方法拟根据添加触发器后的攻击成功率

和触发器的大小来计算触发器的 grade。由于每次添加的触发器像素值都是随机生成的，所以对于部分良性标签来说，即使对大量像素点进行修改也难以达到较高的攻击成功率。所以，若求得的acc小于规定的攻击成功率阈值，则直接排除。若该标签的触发器进行攻击的acc成功率较高，取acc大于阈值且 mask最小的触发器作为此标签的触发器坐标，根据acc和mask的大小计算出标签的grade来综合判断。对于真正的攻击标签来说，只需较小的mask即可达到较高的攻击成功率。在式 (3)中，sumPixel表示输入样本的像素点总数，若求得的grade大于规定的阈值，则表明模型中存在后门，且攻击者的目标标签即为触发器对应的标签：

。

对恶意模型进行再训练使得后门失效，最终得到正常模型。

在步骤(4)中，需要移除恶意模型中的后门。为了让模型中的后门失效，同时保证模型的正常功能性，本实施例利用求解出的触发器对模型进行再训练，通过修改模型的参数使得后门失效。具体方式如下：首先，从良性训练集中选取一部分合适的干净样本；其次，在这些样本中的

坐标位置添加上随机噪声像素值，但不改变这些样本的标签，用来制造 “逆向中毒样本”；最后，用这些逆向中毒样本加上部分良性训练集对模型进行再训练，使得模型“忘记”学习到的触发器。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于决策捷径搜索的后门检测方法，其特征在于，所述后门检测方法包括以下步骤：

S2，选择其中一个可疑的目标标签i，假设其是攻击者的目标标签，计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量，计算得到标签i对应的可能的触发器坐标；i＝1，2，…，K；

S5，利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练，通过修改模型的参数使得后门失效；

步骤S2中，选择其中一个可疑的目标标签i，假设其是攻击者的目标标签，计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量，计算得到标签i对应的可能的触发器坐标的过程包括以下子步骤：

S21，在后门攻击中，触发器由触发器坐标m和触发器图案Δ两部分共同组成，采用下述公式(1)在样本x上添加触发器：

A(x，m，Δ)＝(1-m)·x+m·Δ (1)；

S22，采用下述公式(2)求解得到触发器坐标：

min_mJ(F(A(x，m，Δ)，y_i)+α·|m|For x∈X (2)

其中，F()表示待检测模型；J()为损失函数，用于量化分类损失；y_i为当前假定的目标标签；|m|为m的L1范式，表示需要修改像素点的范围大小；X表示获取到的不存在被污染样本的干净数据集；触发器坐标求解最优化的目标是：在待检测模型将全部经过修改的图片分类为的同时，最小化的L1范式，以改动最少的像素点。

2.根据权利要求1所述的基于决策捷径搜索的后门检测方法，其特征在于，采用用户测试集的部分数据以生成所述干净数据集。

3.根据权利要求1所述的基于决策捷径搜索的后门检测方法，其特征在于，步骤S4中，判断添加触发器后的攻击成功率是否小于预设的攻击成功率阈值，如果是，则直接排除该可能的触发器；否则，根据添加触发器后的攻击成功率和触发器的大小，计算得到可能的触发器的异常值。

4.根据权利要求1或者3所述的基于决策捷径搜索的后门检测方法，其特征在于，步骤S4

中，采用下述公式(3)计算得到可能的触发器的异常值grade：

式中，acc表示添加触发器后的攻击成功率；sumPixel表示输入样本的像素点总数；|m|表示触发器的大小。

5.根据权利要求1所述的基于决策捷径搜索的后门检测方法，其特征在于，步骤S5中，利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练，通过修改模型的参数使得后门失效的过程包括以下子步骤：