CN115659171A

CN115659171A - 一种基于多元特征交互的模型后门检测方法、装置及存储介质

Info

Publication number: CN115659171A
Application number: CN202211178731.6A
Authority: CN
Inventors: 刘小垒; 易鸣; 殷明勇; 邓凯; 胥迤潇; 许思博
Original assignee: COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Current assignee: COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-01-31
Anticipated expiration: 2042-09-26
Also published as: CN115659171B

Abstract

本发明涉及机器学习安全领域，提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。主旨在于提高模型后门的识别率以及降低检测实现的计算开销。主要方案包括对于一个k分类模型F，对于每个类别i∈{1，2，...，k}，防御者准备大小为s的数据集

将数据集的单个数据

输入给模型F，得到模型F的logits层的输出向量

然后对向量

按类别做向量和得到用于判断后门的k维向量r，其中r_m为向量r的第m个分量，r_m代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值，给定阈值b，当第m类的logits累计值r_m高于b时，则此类受到了模型后门攻击。

Description

一种基于多元特征交互的模型后门检测方法、装置及存储介质

技术领域

本发明涉及机器学习安全领域，提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。

背景技术

随着人工智能技术的发展，机器学习被运用在人们工作和生活的各个领域中。由于人工智能需要大量数据和算力的驱动，故很多个人和组织会将机器学习模型的训练任务外包给外部供应商，这就给了攻击者影响模型的机会，模型后门攻击就是一种常见的在模型训练阶段施加影响的攻击技术。

模型后门攻击通过各种手段向模型植入后门，被植入后门的模型在被部署后表现与正常模型一致，但当攻击者通过特定输入激活该模型中的后门时，该模型将按照攻击者的意图行动。早期的后门植入方法主要是通过修改模型的训练数据实现的，随着模型后门攻击技术的发展，后门的隐蔽性不断提高，后门植入的手段也变得多样，一些在模型交付或部署后向模型植入后门的技术被提出。

针对后门攻击的防御手段可被分为两类：一类为基于经验的后门防御，防御者在对攻击原理有一定了解的基础上部署防御措施，在实践中能较好的防御已有的后门攻击方法，但其有效性缺乏理论保证，且无法保证对后续出现的攻击手段的防御；另一类为基于认证的后门防御，此类方法在假定一些前提条件后在理论上证明防御的有效性，但在实践中由于假设通常无法完全满足，导致其有效性低于基于经验的后门防御方法。

发明内容

本发明的目的在于提高模型后门的识别率以及降低检测实现的计算开销。

为了实现上述目的本发明采用以下技术手段：

本发明提供了一种基于多元特征交互的模型后门检测方法，包括以下步骤：

步骤1、对于一个k分类模型F，对于每个类别i∈{1，2，...，k}，防御者准备大小为s的数据集

步骤2、将步骤1中准备的数据集

中的数据

依次输入给模型F，得到模型F对于该数据的logits层的输出向量

其中

代表模型F对数据

为第k类的预测概率，

代表提前准备的数据集中第i类数据集的第j个数据；

然后对向量

按类别做向量和得到用于判断后门的k维向量

，其中r_m为向量r的第m爪分量，r_m代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值，其r_m的计算公式如下：

步骤3、给定阈值b，当第m类的logits累计值r_m高于b时，则此类受到了模型后门攻击。

本发明还提供了一种基于多元特征交互的模型后门检测装置，包括：

数据集模块、对于一个k分类模型F，对于每个类别i∈{1，2，...，k}，防御者准备大小为s的数据集

向量模块、将准备的数据集

中的数据

依次输入给模型F，得到模型F的logits层的输出向量

其中

代表模型F对数据

为第k类的预测概率，

代表提前准备的数据集中第i类数据集的第j个数据；

然后对向量

按类别做向量和得到用于判断后门的k维向量

，其中r_m为向量r的第m个分量，r_m代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值，其r_m的计算公式如下：

给定阈值b，当第m类的logits累计值r_m高于b时，则此类受到了模型后门攻击。

本发明还提供了一种存储介质，所述存储，处理器读取所存储介质中的计算机程序，用以执行所述的一种基于多元特征交互的模型后门检测方法。

因为本发明采用上述技术方案，因此具备以下有益效果：

一、相比于基于经验的后门防御方法，本发明的迁移性更高：

基于经验的后门防御方法面对未知攻击时的表现较差，准确率低于30％左右。相比之下，由于本发明是一种利用模型特征交互以实现可解释性的后门检测方法，在面对未知后门攻击时也能达到95％以上检测准确率，因此具有更强的迁移性；

二、相比于其他模型后门检测方法，本发明的计算开销更小：

对于常见的图像分类问题，现有的模型后门检测方法引入了额外的优化和训练开销，而本发明提出的检测方法只需对输入图像的logits层输出按类别求和，将结果与阈值进行比较以判断模型是否存在后门，其计算量远小于图像预处理所花费的计算开销。

三、以MNIST数据集为例现有方法对单个MNIST分类模型的检测时间为约300秒，而本方法的检测时间开销小于1秒。

附图说明

图1为本发明流程简图。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

本发明基于以下多元特征交互原理展开对模型后门攻击的防御：

以训练阶段植入后门的后门攻击为例，目标模型为一个以θ为参数的模型，记为F_θ，其输入为图片x。在F_θ的正常训练过程中，其正向传播过程利用从x提取得到的n个特征{f₁，f₂，...，f_n}给出k分类的预测结果，在计算损失后，通过反向传播过程更新θ，在这个前后向传播过程里，特征{f_i|i＝1，2，...，n}对应于k个分类结果的权重

将会迭代更新。随着训练的进行，对某个分类有正向影响的特征的权重将逐渐变大，对应的，有负向影响的特征的权重会逐渐减小。最终，一个训练完毕的模型的参数中会体现出各个特征对各个目标类别的竞争或合作的关系。

当攻击者操控模型的训练数据以在训练过程中向目标模型注入后门时，各个特征的竞争与合作关系相较于正常模型会发生改变。具体而言，当攻击者希望通过后门来实现对目标类别的控制时，模型在训练过程中根据如下三类特征去更新参数：(a)正常训练数据上提取的正常特征；(b)被植入后门数据上提取的后门的特征；(c)被植入后门数据上的其他特征。上述三类特征在模型训练过程中都会对目标类别的预测产生正向影响，可利用这一特点来识别模型中是否存在后门。

步骤2、将步骤1中准备的数据集

中的数据

其中

代表模型F对数据

为第k类的预测概率，

代表提前准备的数据集中第i类数据集的第j个数据；

然后对向量

做向量和得到用于判断后门的k维向量

其中r_m为向量r的第m爪分量，r_m代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值，其向量r的计算公式如下：

步骤3、给定阈值b，当某一类的logits累计值r_m高于b时，则此类受到了模型后门攻击。

向量模块、将准备的数据集

中的数据

依次输入给模型F，得到模型F的logits层的输出向量

其中

代表模型F对数据

为第k类的预测概率，

代表提前准备的数据集中第i类数据集的第j个数据；

然后对向量

求和得到得到用于判断后门的k维向量r，其中r_m为向量r的第m个分量，r_m代表所有准备的数据在F模型的logits层上第m类预测结果的logits累计值，其向量r的计算公式如下：：

判断模块、给定阈值b，当某一类的logits累计值r_m高于b时，则此类受到了模型后门攻击。