CN114219011A

CN114219011A - 基于后门不可迁移性的通用后门攻击检测方法

Info

Publication number: CN114219011A
Application number: CN202111410950.8A
Authority: CN
Inventors: 高艳松; 李银山; 邱虎鸣
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-11-20
Filing date: 2021-11-20
Publication date: 2022-03-22

Abstract

本发明公开了一种基于后门不可迁移性的通用后门攻击检测方法，包括：S1、收集保留数据集；S2、收集与待检测深度学习模型相同或属于同类任务的开源预训练模型，作为特征提取器；S3、计算各保留数据集类的类内相似度和类间相似度；S4、基于每类的相似度分别确定各类的独立阈值；S5、观察待检测深度学习模型运行时对输入样本的预测；S6、计算输入样本与保留数据集中预测类别样本的相似度与该类阈值比较，判断样本是否被加入了触发器。本发明提出了后门攻击不可迁移这一关键观察，利用后门攻击隐空间特性进行检测，无需依赖机器学习昂贵的计算资源和专业知识需求，适用于在线实时检测，且具有检测可靠性高，时间成本低，用户友好度好优点。

Description

基于后门不可迁移性的通用后门攻击检测方法

技术领域

本发明属于信息安全技术领域，具体涉及一种基于后门不可迁移性的通用后门攻击检测方法。

背景技术

从图像分类，目标检测，自动驾驶，语音识别到文本生成，语言翻译，恶意软件检测，深度学习在广泛的应用中显示了惊人的性能。然而，深度学习模型也被证明是脆弱的，很容易被愚弄。最近，出现了一种新型的对抗性攻击，即后门攻击。在这种攻击中，攻击者在深度学习模型中插入一个后门(触发器)，在正常输入情况下，该模型会像其干净模型一样正常运行，但一旦输入包含攻击者秘密选择的触发器，该模型就会出现错误行为。例如，一幅猫的图像被添加上触发器，使模型误将其分类为猪。由于对触发器的任意控制，后门攻击更加隐蔽，在现实世界场景中很容易实现。例如，触发器可以是一种天然的特定类型的眼镜或耳环，当面部识别系统被植入后门时，任何人戴上它都会被误认为是管理员。

深度学习模型很容易受到潜在后门攻击的影响，在这种情况下，被攻击的模型只会行为不当或在触发输入下被激活，否则正常运行。因此，检测后门攻击并非易事。虽然在后门检测方面做了大量的工作，但存在计算开销大，依赖机器学习专业知识或攻击手段等不足，即缺乏通用性、不易被普通用户使用——没有机器学习专业知识或计算资源有限。

考虑到后门攻击的严重后果，特别是在自动驾驶汽车、人脸识别、恶意软件检测等安全敏感任务中部署该模型时，迫切需要制定应对后门攻击的对策。

虽然在应对后门攻击方面已经做出了很大的努力，但现有的应对措施仍面临挑战——缺乏通用的防御。具体而言，几乎所有的工作都集中在源不可知(class-agnostic)的后门攻击，在这种攻击中，任何带有标记触发器的输入都将被错误地分类到目标标签中。然而，对于其他类型的攻击，例如特定于源的后门攻击，这些防御通常是无效的。此外，大多数防御只能捕获较小尺寸的触发器，但一旦触发器尺寸增加，则无效。不仅如此，大多数防御需要很高的计算开销和(或)机器学习专业知识，这在现实场景中并不实用或用户友好。例如，主流后门攻击外包，用户本质上缺乏机器学习专业知识和计算资源——这就是为什么需要外包。当(后门)模型返回给受害者时，受害者很难(但不是不可能)应用后门检测方法，这需要很高的计算开销或机器学习专业知识。否则，用户将选择自己训练模型。因此，开发一种后门检测方法是必要的，它既不知道攻击类型，又对用户友好——不依赖昂贵的计算开销或机器学习专业知识。

发明内容

本发明的目的在于提供一种基于后门不可迁移性的通用后门攻击检测方法。

实现以上目的的技术解决方案如下：一种基于后门不可迁移性的通用后门攻击检测方法，包括以下步骤：

S1、收集保留数据集，该数据集为用于训练待检测深度学习模型之前的数据集，为用户所保留；

S2、收集与待检测深度学习模型相同或属于同类任务的开源预训练模型，作为特征提取器；

S3、计算各类的类内相似度和类间相似度；

S4、基于每类的相似度分别确定各类的独立阈值；

S5、收集待检测深度学习模型运行时的数据：对于分类任务模型，给定一个输入样本会输出其预测类别；

S6、计算待检测样本与预测类别的相似度与该类的阈值判断样本是否被加入了后门。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于后门不可迁移性的通用后门攻击检测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于后门不可迁移性的通用后门攻击检测方法的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明是第一个通用的在线后门(触发器)输入检测——触发器不可知和攻击不可知——不需要计算资源或机器学习专业知识，使其实用和有效；它对用户友好，易于部署，尤其适用于广泛使用和高度可重复的任务，如许多小企业需要的人脸识别。

(2)本发明建设性地保留了一个可从公共来源免费获得的特征提取器，以促进对输入到存在潜在后门的待检测模型中的触发器的检测；触发器输入不能将后门效应从存在后门的待检测模型迁移到保留特征提取器，因为后门没有可迁移性；这种内在的不可迁移性是我们的关键观察，它被用来击败后门攻击。

附图说明

图1是本发明的后门攻击检测方法的流程图。

图2是计算各类的类内相似度和类间相似度的流程图。

图3是阈值的确定过程示意图。

图4是计算待检测样本与预测类别的相似度与该类的阈值判断样本是否被加入了后门的流程图。

具体实施方式

下面结合附图对本发明作进一步的详细描述。

如图1所示，一种基于后门不可迁移性的通用后门攻击检测方法，包括以下步骤：

S1、收集保留数据集：该数据集为用于训练待检测深度学习模型之前的数据集，为用户所保留。

深度学习的数据集是影响模型训练的关键因素之一，无论是具有机器学习专业知识和计算资源的专业用户还是普通用户，通常，在有训练深度学习模型需求时，都需要收集或制作一份数据集。该数据集内样本都为良性样本，即该数据集未被经过其他任何人恶意修改，属于原始数据集。具体实现方法为：

S11、在训练一个深度学习模型之前，用户应保留一份原始数据集，该数据集未被其他人修改，属于原始数据集，记为保留数据集。

S12、保留数据集的类别应包含所有待测数据集的类别，并且对于每个待测类别的样本数不少于10。

S2、收集与待检测深度学习模型相同或属于同类任务的开源预训练模型，作为特征提取器。

对于深度学习分类任务，一般的流程可以简化为提取特征、推理预测两个过程。得益于深度学习模型内在性质，对于相同或属于同类的分类任务，在一定程度上，模型有着不局限于特定数据集的泛化能力，例如不同企业的人脸识别模型，有着不同的人脸数据集，但是模型的提取特征过程往往相似。通常，模型的倒数第二层输出代表着输入样本的更为精细的具体特征，所以使用预训练模型的倒数第二层输出作为样本的特征向量。具体实现方法为：

S21、所需预训练模型应来自于ModelZoo、Kaggle和GitHub等公共平台，模型的任务与待测深度学习模型相同或属于同类任务(如不同公司的人脸识别模型)；

S22、使用S21中所述的模型的倒数第二层神经网络的输出作为输入样本的特征向量，该预训练模型记为特征提取器。

S3、计算各类的类内相似度和类间相似度。

对于保留数据集中的每一类样本，同类样本的特征向量包含着相似的特征(如轮廓、颜色等)，相似度相应的也比较高，不同类别之间的特征向量差异较大，相似度较低。利用此性质，可以将同类样本与异类样本区分开，如图2所示，具体实现方法为：

S31、对输入到S22的特征提取器的样本进行预处理，使其符合模型的输入标准。

S32、对于各类的样本随机选择一张样本记为x，之后分别随机选择一组同类别对比数据集样本{x1，x2，…，xn}和一组异类对比数据集{y1，y2，…，yn}。

S33、使用S22的特征提取器输出所有样本的特征向量。

S34、分别计算x与其他所有样本的特征向量的相似度，一般采用皮尔逊相似度计算公式：

其中A，B分别表示两个样本的n维特征向量，A_i，B_i分别表示A，B两特征向量的每个维度对应的值，

分别表示A_i和B_i的平均值。

S35、计算x与n个同类样本的相似度的平均值，记为类内相似度，表示一个样本与同类样本的相似度。同时计算x与n个异类样本的相似度的平均值，记为类间相似度，表示一个样本与异类样本的相似度。

S36、重复S32～S35过程不低于1000次，获得一类类内相似度与类间相似度的分布。

S4、基于每类的相似度分别确定各类的独立阈值。

理论上，对于任意同类别的一张样本的特征向量和一组样本的特征向量之间的相似度应该大于其与异类样本的相似度。基于此性质和S36得出的分布，对于每一类待测样本，我们都可以确定一个独立的阈值，当待检测的样本x与该类的一组特征向量的相似度的平均值低于此阈值时，认为样本x不属于该类别，反之，二者为同一类别。如图3所示，具体实现方法为：

S41、基于S36的相似度分布，确定一个相似度阈值，对于类内相似度小于阈值的数据为误拒绝例，类间相似度大于阈值的数据为误接受例。

S42、各类需要测定独立的阈值以区分同类样本和异类样本。

S5、收集待检测深度学习模型运行时的数据：对于分类任务模型，给定一个输入样本会输出其预测类别。具体实现方法为：

S51、待检测模型使用待检测数据集进行训练。

S52、对输入到S51的待检测模型的样本x进行预处理，使其符合模型的输入标准。

S53、经过S51的模型推理，输出预测的x的类别z。

待测样本如果被待测模型分类为z类，但是其特征向量却与保留数据集中的z类的样本特征向量的相似度低于阈值，则认为二者并非同一类别，而待检测样本将其归类为z类，说明待检测样本x有极高的可能被攻击者加入了后门，导致待检测模型将其错分类为z类。如图4所示，具体实现方法为：

S61、在S11的保留数据集中找到S53所述的z类别的样本{z1，z2，…，zn}，利用S22中特征提取器分布输出x和{z1，z2，…，zn}的每个样本的特征向量。

S62、基于S61的特征向量，使用S34的相似度公式，计算x与{z1，z2，…，zn}的相似度的平均值。

S63、若S62的相似度大于z类的阈值，则判断样本x未被加入后门，反之，若S62的相似度小于z类的阈值，则判断样本x被加入后门，同时待检测模型也为后门模型。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于后门不可迁移性的通用后门攻击检测方法，其特征在于，包括以下步骤：

S3、计算各类的类内相似度和类间相似度；

S4、基于每类的相似度分别确定各类的独立阈值；

2.根据权利要求1所述的基于后门不可迁移性的通用后门攻击检测方法，其特征在于，所述步骤S1具体实现方法为：

S11、在训练一个深度学习模型之前，用户应保留一份原始数据集，该数据集未被其他人修改，属于原始数据集，记为保留数据集；

3.根据权利要求2所述的基于后门不可迁移性的通用后门攻击检测方法，其特征在于，所述步骤S2具体实现方法为：

S21、所需预训练模型的任务与待测深度学习模型相同或属于同类任务；

4.根据权利要求3所述的基于后门不可迁移性的通用后门攻击检测方法，其特征在于，所需预训练模型来自于ModelZoo、Kaggle和GitHub公共平台。

5.根据权利要求3所述的基于后门不可迁移性的通用后门攻击检测方法，其特征在于，所述步骤S3具体实现方法为：

S31、对输入到S22的特征提取器的样本进行预处理，使其符合模型的输入标准；

S32、对于各类的样本随机选择一张样本记为x，之后分别随机选择一组同类别对比数据集样本{x1，x2，…，xn}和一组异类对比数据集{y1，y2，…，yn}；

S33、使用S22的特征提取器输出所有样本的特征向量；

S34、分别计算x与其他所有样本的特征向量的相似度，采用皮尔逊相似度计算公式：

分别表示A_i和B_i的平均值；

S35、计算x与n个同类样本的相似度的平均值，记为类内相似度，表示一个样本与同类样本的相似度；同时计算x与n个异类样本的相似度的平均值，记为类间相似度，表示一个样本与异类样本的相似度；

6.根据权利要求5所述的基于后门不可迁移性的通用后门攻击检测方法，其特征在于，所述步骤S4具体实现方法为：

S42、各类需要测定独立的阈值以区分同类样本和异类样本。

7.根据权利要求6所述的基于后门不可迁移性的通用后门攻击检测方法，其特征在于，所述步骤S5具体实现方法为：

S51、待检测模型使用待检测数据集进行训练；

S52、对输入到S51的待检测模型的样本x进行预处理，使其符合模型的输入标准；

S53、经过S51的模型推理，输出预测的x的类别z。

8.根据权利要求7所述的基于后门不可迁移性的通用后门攻击检测方法，其特征在于，所述步骤S6具体实现方法为：

S61、在S11中找到S53所述的z类别的样本{z1，z2，…，zn}，利用S22中特征提取器分布输出x和{z1，z2，…，zn}的每个样本的特征向量；

S62、基于S61的特征向量，使用S34的相似度公式，计算x与{z1，z2，…，zn}的相似度；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～8中任一项所述基于后门不可迁移性的通用后门攻击检测方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～8中任一项所述基于后门不可迁移性的通用后门攻击检测方法的步骤。