CN116938542A

CN116938542A - 基于逆向工程与遗忘的深度学习后门攻击防御方法

Info

Publication number: CN116938542A
Application number: CN202310831983.2A
Authority: CN
Inventors: 方黎明; 赵仁学; 王梦欣
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-24

Abstract

本发明涉及一种基于逆向工程和遗忘的深度学习后门攻击防御方法，属于人工智能安全领域。本发明首先根据现有的干净小样本集使用优化方法进行数据集扩展；然后针对目标模型训练集中的每一个类别标签进行假设性反演，得到各个标签相应的候选触发器，通过离群检测算法找到具有离群L1范数的候选触发器，此候选触发器被防御者认定为攻击者的后门触发器，其相应的标签为攻击者的目标标签；最后构造遗忘数据集，将目标模型在此遗忘数据集上进行微调，根据微调的效果选择合适的微调模型作为最终的目标模型。本发明很好的解决了进行后门遗忘时，因为数据集样本不足造成的防御性能下降的问题，同时不会影响干净样本的预测准确率。

Description

基于逆向工程与遗忘的深度学习后门攻击防御方法

技术领域

本发明涉及人工智能安全领域，尤其涉及一种基于逆向工程与遗忘的深度学习后门的防御方法。

背景技术

人工智能领域近年来获得长足的发展，越来越多的智能设备开始普及，这些设备中许多都依赖于深度学习算法进行决策和控制。但是这些算法也面临许多安全风险，其中最突出的安全风险之一就是后门攻击(Backdoor Attacks)。后门攻击是一种隐蔽的攻击方式，攻击者通过植入后门使得深度学习模型在执行某些特定任务时出现预期外的行为，被损害的后门模型将会把带有后门触发器(Backdoor Trigger)的样本误分类成攻击者指定的目标类，同时不会影响正常样本的分类。攻击者通常通过修改数据集或植入恶意代码来实现后门攻击，这些后门对深度学习模型的安全性造成了严重威胁，因为它们可以在未经授权的情况下对模型进行远程控制。

研究发现，攻击者构造的后门样本会与某些被污染的神经元相关联起来，这种关联导致无论后门触发器出现在任意样本上，模型都会将这些受污染的样本误分类成攻击者指定的目标类。但是，防御者可以通过在精心构造的数据集上的一次微调来遗忘后门触发器与目标标签的关联，从而达到防御后门的目的。

在现有技术中，防御者都假设可以访问训练集中的干净样本，利用这些干净样本构造用于遗忘的重训练样本。这种假设在现实中是受限制的，实际场景下，防御者并不能区分训练数据集中的干净数据子集和受污染的数据子集。实际上，防御者能够获取一个小的干净数据集，并不能获取训练数据集的干净子集，在这种限制下，针对后门的遗忘效果将会变差。

发明内容

本发明所要解决的问题是：提供一种基于逆向工程和遗忘的深度学习后门防御方法，用于解决实际场景中防御者能力受限制的条件下进行遗忘后门时效果变差的问题。

本发明采用如下技术方案：

一种基于逆向工程和遗忘的深度学习后门防御方法，具体的步骤如下：

步骤1、构建扩展数据集：基于防御者已有的干净小样本集进行扩展，对所述样本集中每个样本添加随机的高斯噪声，添加有噪声的干净样本在现有目标模型上进行优化得到扩展的相邻数据集，将所述相邻数据集与干净小样本集随机混合，得到第一扩展数据集；

步骤2、构建后门触发器：使用逆向工程，对模型训练集中的每个类标签进行反演，获得针对每个标签的候选的后门触发器，并判断模型是否有后门，如果有，得到候选触发器集以及相应的L1范数，用离群算法找到具有L1范数的离群候选触发器，所述候选触发器作为攻击者的后门触发器，其相应的标签为攻击者的后门目标标签；

步骤3、训练输出模型：将上述后门触发器以比例注入到第一扩展数据集中，不修改被注入样本对应的真实标签，构成第二扩展训练集，在所述第二扩展训练集上对目标神经网络模型进行若干次迭代微调，得到输出模型。

具体的，步骤1中，对所述样本集中每个样本添加随机的高斯噪声，所述噪声不能偏离干净小样本集的数据分布，具体为，对干净小样本集上某个位置是否添加噪声做出优化，生成状态矩阵，所述状态矩阵中，使用元素0表示保留相应位置处的原始干净数值，用1表示高斯噪声替换原始干净数值，按照所述矩阵的结果对所述样本添加噪声得到相邻数据集。

进一步的，步骤1中，第一扩展数据集为：X^e，表示如下：

X^e＝{(x_i，y_i)|x_i∈R^d，y_i∈y} (1)

其中，(x_i，y_i)表示第一扩展数据集中的索引为i的样本标签元组，x_i表示索引为i的样本，y_i表示样本x_i的标签，R^d表示样本维度，y表示标签的范围；

干净小样本集为：X^v，相邻数据集为：X^neighbor，所述数据集之间关系表示如下：

X^e＝X^v∪X^neighbor (2)

其中，g是邻居数据集生成函数，是索引为i的干净小样本集中的样本，/>是/>对应的标签，/>是索引为i的相邻数据集中的样本，/>是/>对应的标签。

具体的，步骤2中，后门触发器T_t满足以下公式：

其中，i，t分别表示模型实际分类标签和后门目标标签，是使任意其他类别良性样本从真实预测到后门攻击目标标签预测所需要的最小的扰动，△为后门触发器，|△_t|是后门触发器的大小；/>是取任意样本被模型预测为任意非目标类样本所需的扰动中扰动最小的一类。

具体的，步骤3中，将上述后门触发器以比例注入到第一扩展数据集中，不修改被注入样本对应的真实标签，构成第二扩展训练集，包括如下子步骤：

步骤3.1、以概率α选择第一扩展样本集X^e中的样本，组成待遗忘样本集X^p，剩下的1-α的第一扩展样本集为X^c；

步骤3.2、将公式(5)中所得的后门触发器△注入到所述X^p中的样本上，但是不修改被注入样本的真实标签，得到遗忘样本集X^u，表示为：

函数P为后门触发器注入函数，定义如下：

P(x，m,Δ)＝x′ (6)

x′_i，j，c＝(1-m_i，j)·x_i,j,c+m_i，j·Δ_i,j,c (7)

其中，x′表示注入后门后的样本，i，j，c表示样本矩阵的高、宽和颜色通道；m是一个二维的数值范围为0到1的矩阵，在m中i，j位置处其值为0表示样本原始位置的颜色并没有被改变，在m中i，j位置处其值为1表示原始样本相应位置的值完全被后门触发器相应位置的值覆盖，在m中i，j位置处其值为0，1之间的数表示混合原始数值与触发器数值。

进一步的，步骤3中，所述迭代微调，使用含有后门的深度学习图像分类模型F的微调构建公式，表示如下：

其中，X^t表示第二扩展数据集，L表示目标损失函数，具体为交叉熵损失函数，θ表示需要微调的模型的参数，优化器选择结合动量项和自适应学习率的Adam优化器。

进一步的，在进行迭代微调时，微调的轮次根据具体的后门攻击成功率ASR以及干净样本识别准确率CDA来决策，使用作为衡量指标，其值越大表示防御效果越好并且对模型可用性的影响越小，根据其值输出判断是否终止微调。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明能够同时防御基于随机型触发器或模型依赖型触发器的后门攻击，并且不会侵害模型在干净样本上的预测准确率，很好的填补了在现实中防御者能力受限制的情况下基于逆向工程和遗忘的后门防御效果变差的不足。

附图说明

图1是本发明基于逆向工程和遗忘的深度学习后门防御方法流程图；

图2是本发明扩展干净小样本集的流程示意图；

图3是本发明逆向工程后门触发器的流程示意图。

具体实施方法

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，只是本发明所涉及实施例的一部分，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。本领域其他研究人员在该实施例上的所有非创新型实施例，都属于本发明的保护范围。

本发明公开了一种基于逆向工程和遗忘的深度学习后门防御方法。

逆向工程是一种通过模型当前的状态，反演推断出输入内容的方法。对于攻击者来说，逆向工程可以帮助其获取模型的信息甚至可以反演出训练数据集。对于防御者来说，逆向工程可以帮助其推导攻击者的攻击方式，让防御者及时实施相应的防御对策。在后门攻击中，后门防御者可以利用逆向工程的思想，反向推导出由攻击者设计的后门触发器，进而可以做出防御行为。

遗忘的(unlearning)主要目标是从神经网络中删除某些已经学习到的特定的知识，一边重新训练神经网络并使其适应新的任务或者环境。遗忘主要有两种方法：反向训练和屏蔽方法。反向训练是指在重新训练网络时，通过加入与被遗忘的数据相反的反向数据来进行训练。屏蔽方法则是通过调整模型权重，使得模型不再使用被遗忘的数据，从而达到遗忘的目的。在后门攻击的防御中，防御者可以利用遗忘技术使模型遗忘掉后门触发器与攻击者选定的特定标签之间的关联从而达到防御后门的目的。

如图1所示，本发明基于逆向工程和遗忘的深度学习后门防御方法，包括以下步骤：

步骤1，基于已有的小干净样本集X^v进行数据集扩展，得到X^v的相邻数据集X^neighbor，原始的数据集X^v与相邻数据集X^neighbor一起组成第一扩展数据集X^e。

步骤2，利用逆向工程反演出针对每个标签的候选的后门触发器，并判断模型是否有后门。如果有，找到该后门触发器对应的攻击者选定的目标标签。因此通过逆向工程能够判断模型是否有后门，并且能够得到后门触发器和攻击者的目标标签。

步骤3，根据步骤2所得结果，构造新的训练数据集，称作第二扩展数据集X^t，用X^t微调含有后门的深度学习图像分类模型让后门分类模型遗忘后门触发器与攻击者目标标签之间的关联，X^t由遗忘样本集X^u以及未被挑选的第一扩展样本集X^c组成。

具体的，步骤1中，扩展干净小样本集流程，如图2所示，利用优化技术扩展防御者拥有的干净样本集，基于已有的干净小样本集X^v进行数据集扩展，得到X^v的相邻数据集X^neighbor，原始的数据集X^v与相邻数据集X^neighbor一起组成第一扩展数据集X^e。

我们在干净小样本集X^v样本上随机的添加噪声扰动，扰动注入函数G，定义如下：

G(x′，c)[i]＝x′[i]·+n·(1-c[i])，

其中n表示表示独立同分布地从一个高斯分布中采样的噪声。c是一个噪声注入标识矩阵，若c[i]＝1，表示保留原始样本第i处出的元素。反之，若c[i]＝0，表示用采样的噪声取代原始样本第i处的元素。

另外，我们希望添加的噪声能尽量小地影响样本的分类结果，因此我们使用梯度下降对c进行不断地优化，这个过程可以定义如下：

argmin_c||F(G(x′，c)；θ)-F(x′；θ)||₁+λ||c||₁，

其中F(·)表示深度学习模型在输入一个样本后对这个样本做出的预测置信度向量。

作为本发明的一个具体实施例，向模型输入一张苹果的图片，模型输出预测置信度向量(0.6，0.3，0.1)，置信向量中的各个预测值表示模型判断该图片属于每个类的预测概率，即模型预测该图片是苹果的概率为0.6，是梨的概率为0.3，是香蕉的概率为0.1。上式的第一项表示以图片分类模型为数据分布的底层代理，让添加有噪声的图片与未添加有噪声的图片尽可能的接近，第二项表示尽可能小地干扰图片。

对原始数据集X^v中的每个样本进行多次上述的迭代梯度下降优化即可得到X^v的相邻数据集X^neighbor，X^neighbor与X^v随机混合组成扩展数据集X^e。

步骤2，如图3所示，对训练样本集中的每一个类标签y_t使用逆向工程反向推演出其对应的触发器并且计算得到相应的L1范数，再使用中位数绝对值偏差离群检测，在这些L1范数中检测离群值，其对应的触发器△₀为后门触发器相应的标签为目标标签。

后门攻击要实现的目标是让所有注入后门触发器的样本被模型误分类成攻击者指定的类别，同时触发器尽可能的小，针对上述事实，后门触发器T_t应该满足的数学关系为：

步骤2的具体步骤如下：

首先定义触发器注入的数学形式：

P(x，m，△)＝x′

x′_i，j，c＝(1-m_i，j)·x_i，j，c+m_i，j·△_i，j，c

其中x′表示注入后门后的样本，i，j，c表示样本矩阵的高、宽和颜色通道。m是一个二维的数值范围为0到1的矩阵，在m中i，j位置处其值为0表示样本原始位置的颜色并没有被改变，在m中i，j位置处其值为1表示原始样本相应位置的值完全被后门触发器相应位置的值覆盖，在m中i，j位置处其值为0，1之间的数表示混合原始数值与触发器数值。为了满足后门攻击的两个攻击目标，定义针对触发器优化的目标函数：

式子中，L表示目标损失函数，具体为交叉熵损失函数，θ表示需要微调的模型的参数，优化器选择一种结合了动量项和自适应学习率的Adam优化器。对于一个M分类的分类任务，其中的每个类标签都要进行上述的优化任务，得到M个候选的触发器模式和其对应的L1范数。利用L1范数来描述这些候选触发器的大小。

接下来，基于上述的计算进行异常检测：

1)a_med＝median(A)

2)b_i＝|a_i-a_mad|

3)b_med＝median(B)

4)

其中median(·)表示计算所给向量中元素的中位数，a_i是A中第i个元素，b_i是B中第i个元素，δ中大于阈值2的索引被认为是异常小的离群值的索引，其对应的触发器为相应的后门触发器△，该后门触发器对应的标签为攻击者的目标标签。

步骤3，以概率α选择第一扩展样本集X^e中的样本组成待遗忘样本集，剩下的1-α的第一扩展样本集为X^c，将步骤2所得的逆向触发器△注入到待遗忘样本集中的样本上，但是不修改被注入样本的真实标签，得到遗忘样本集X^u。上述的第一扩展样本集X^e＝{(x_i，y_i)|x_i∈R^d，y_i∈y}，遗忘样本集其中P(·)表示后门触发器注入函数，y是样本的真实标签。

让含有后门的深度学习图片分类模型在这个新构建的训练集X^u∪X^c上进行多次微调重训练，训练的损失函数如下所述：

式子中，L表示目标损失函数，具体为交叉熵损失函数，θ表示需要微调的模型的参数，优化器选择一种结合了动量项和自适应学习率的Adam优化器。

为了找到最优的微调迭代轮次，每进行一次微调我们会记录其相对应的攻击成功率(ASR)以及干净样本准确率(CDR)，将它们的比值作为衡量指标，固定CDA，其比值越大表示微调效果越好，也就是说具有最优微调效果的模型后门样本对它的影响最小并且模型对干净样本的分类准确率最高，我们将此模型作为最终的良性神经网络模型。

作为本发明的一个具体实施例，对于MNIST手写数字数据集来说，当CDA达到0.95以上并且大于6.7时，终止迭代。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，应当指出：对于本技术领域的普通技术人员来说，凡在不脱离本发明原理的前提下所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，步骤1中，对所述样本集中每个样本添加随机的高斯噪声，所述噪声不能偏离干净小样本集的数据分布，具体为，对干净小样本集上某个位置是否添加噪声做出优化，生成状态矩阵，所述状态矩阵中，使用元素0表示保留相应位置处的原始干净数值，用1表示高斯噪声替换原始干净数值，按照所述矩阵结果对所述样本添加噪声得到相邻数据集。

3.根据权利要求2所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，步骤1中，第一扩展数据集为：X^e，表示如下:

其中，(x_i,y_i)表示第一扩展数据集中的索引为i的样本标签元组，x_i表示索引为i的样本，y_i表示样本x_i的标签，R^d表示样本维度，表示标签的范围；

X^e＝X^v∪X^neighbor (2)

其中，g是邻居数据集生成函数，是索引为i的干净小样本集中的样本,/>是/>对应的标签，/>是索引为i的相邻数据集中的样本,/>是/>对应的标签。

4.根据权利要求3所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，步骤2中，后门触发器△_t满足以下公式：

其中，i,t分别表示模型实际分类标签和后门目标标签，是使任意其他类别良性样本从真实预测到后门攻击目标标签预测所需要的最小的扰动，△为后门触发器，|△_t|是后门触发器的大小；/>是取任意样本被模型预测为任意非目标类样本所需的扰动中扰动最小的一类。

5.根据权利要求4所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，步骤3中，将上述后门触发器以比例注入到第一扩展数据集中，不修改被注入样本对应的真实标签，构成第二扩展训练集，包括如下子步骤：

函数P为后门触发器注入函数，定义如下：

P(x,m,△)＝x′ (6)

x′_i,j,c＝(1-m_i,j)·x_i,j,c+m_i,j·△_i,j,c (7)

其中，x′表示注入后门后的样本，i,j,c表示样本矩阵的高、宽和颜色通道；m是二维的数值范围为0到1的矩阵，在m中i,j位置处其值为0表示样本原始位置的颜色并没有被改变，在m中i,j位置处其值为1表示原始样本相应位置的值完全被后门触发器相应位置的值覆盖，在m中i,j位置处其值为0，1之间的数表示混合原始数值与触发器数值。

6.根据权利要求5所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，步骤3中，所述迭代微调，使用含有后门的深度学习图像分类模型F的微调构建公式，表示如下：

7.根据权利要求6所述的一种基于逆向工程与遗忘的深度学习后门攻击防御方法，其特征在于，在进行迭代微调时，微调的轮次根据具体的后门攻击成功率ASR以及干净样本识别准确率CDA来决策，使用作为衡量指标，其值越大表示防御效果越好并且对模型可用性的影响越小，根据其值输出判断是否终止微调。