CN115860140A

CN115860140A - 基于特征空间距离加固的深度学习后门防御方法

Info

Publication number: CN115860140A
Application number: CN202211604960.XA
Authority: CN
Inventors: 陈艳姣; 徐文渊; 孟令铄; 杨德淞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-03-28

Abstract

本发明公开了一种基于特征空间距离加固的深度学习后门防御方法，涉及人工智能安全技术领域，包括以下步骤：量化模型特征空间的类距离；设计后门生成方法，生成各类通用触发器，更新预选择矩阵U；基于预选择矩阵U，设计调度器选择距离容量最大的类对；设计双向后门生成方法，生成对称后门触发器，进行类距离对称加固训练，并更新后选择矩阵V；基于预选择矩阵U和后选择矩阵V，设计奖励函数，优化类对选择；重用后门，设计动态适应优化权重加速加固训练，不断迭代，直至每组类对均达到相应的最大类距离。本发明简单易于实施，有助于提升后门防御效果，兼顾模型的准确率与可用性，从而保证实际生产的安全需求。

Description

基于特征空间距离加固的深度学习后门防御方法

技术领域

本发明涉及人工智能安全技术领域，更具体的说是涉及一种基于特征空间距离加固的深度学习后门防御方法。

背景技术

深度学习模型中的后门会使任何带有特定模式的输入被错误地分类为目标类。与对抗样本需要在模型运行中生成扰动的攻击方式不同，后门攻击(Backdoor Attack)可以通过简单地标记一个模式迅速地产生效果。虽然后门可以通过数据投毒、神经元劫持等方法人为注入，但它们也广泛存在于正常训练的模型中：当数据各类之间相似度过高或模型在目标类包含的底层特征上过度拟合时，就可能导致天然后门。随着深度学习模型在自动驾驶、监控、访问控制等安全关键任务中的应用日益增长，后门正成为一个突出的安全威胁。

现有的防御技术可以分为后门扫描(Backdoor Scanning，确定模型是否存在注入的后门)、后门检测(Backdoor Detection，在运行中确定输入是否包含后门模式)、后门消除(Backdoor Elimination，清除模型中注入的后门)等，这些技术大多针对人工注入的后门。例如，后门扫描方法通常依赖于后门隐蔽性的假设，即注入的后门模式往往较小；后门攻击检测技术需要观测后门输入与正常输入所触发的模型内部行为的差异性；后门消除技术依赖正常样本以抑制注入的后门。对于不是由攻击者刻意注入，而是由训练、数据本身导致的后门(即天然后门)，现有方法的防御效果十分有限。例如，天然后门会使后门扫描方法对包含天然后门的正常模型产生误报；利用天然后门的样本可能会逃避后门检测，而不会引起异常的内部行为；使用正常数据不能完全消除由数据导致的天然后门。

对抗训练(Adversarial Training)是一种广泛应用的模型加固方法，可以迫使模型遗忘底层特征对主要任务的影响。对抗训练的目的是使任何输入在L^p范数的对抗性扰动下仍能被正确分类，这在一定程度上扩大了类距离。然而，由于对抗训练在L^p约束下训练，只考虑了单个样本周围的局部扰动，其对后门攻击的防御效果是有限的；同时，对抗训练还可能会导致模型性能急剧下降。若考虑直接使用后门来进行对抗训练，通常需要高额的计算成本和较长的收敛时间：在对抗训练中直接后门扫描等生成的使用后门就像对决策边界施加大量的偏移，决策边界产生的振荡，使模型难以训练；由于天然后门可以存在于任何一个类对之间，因此训练具有二次的复杂度，成本开销较大。

因此，如何提升后门防御效果，同时兼顾模型的准确性与可用性是本领域技术人员亟需解决的技术问题。

发明内容

有鉴于此，针对对抗训练方法在后门场景实施困难的缺陷，本发明充分利用特征空间下的后门特性，提供了一种基于特征空间距离加固策略对称训练、动态调度的深度学习后门防御方法，保证防御的有效性与简洁性。

为了实现上述目的，本发明提供如下技术方案：

一种基于特征空间距离加固的深度学习后门防御方法，包括以下步骤：

量化模型特征空间的类距离；

设计后门生成方法，生成各类通用触发器，更新预选择矩阵U；

基于预选择矩阵U，设计调度器选择距离容量最大的类对；

设计双向后门生成方法，生成对称后门触发器，进行类距离对称加固训练，并更新后选择矩阵V；

基于预选择矩阵U和后选择矩阵V，设计奖励函数，优化类对选择；

重用后门，设计动态适应优化权重加速加固训练，不断迭代，直至每组类对均达到相应的最大类距离。

上述技术方案达到的技术效果为：基于特征空间距离加固策略，定义一对类之间的距离作为训练的基础，通过使用后门预选择与训练过程后选择信息动态调度标签对，基于调度器选择结果进行对称加固训练，实现了以合理的训练成本最大化类距离而保证模型准确率与可用性，降低后门攻击成功率，提升检测样本的准确性。

可选的，量化模型特征空间的类距离，具体为：

定义从受害者类翻转到目标类所需最小后门转换的Lp范数为两个类之间的距离，即类距离由最小后门决定。

可选的，设计后门生成方法，具体为：

根据梯度下降优化设计后门生成方法，生成对应的逆向触发器；后门生成方法如下：

式中：

是模型/>

的损失函数；y_t是不同于输入x的真实标签的目标标签；λ是调整第二项m的L¹范数的权重；/>

是将生成的后门应用于输入x的转换；m是一个掩码矩阵，其值的范围从0到1；δ是一个后门，与输入x具有相同的形状和值的范围；X表示样本数据集，x'表示后门毒化输入。

可选的，生成各类通用触发器，具体为：

依次将每个类视作目标类，通过后门生成方法生成通用触发器，使其余除目标类外的所有样本标签改变为目标类标签；

通用触发器的具体生成方法如下：

式中：x'_i通过公式(1)获得，y_i是x_i的真实标签，x_i表示数据集各样本。

可选的，更新预选择矩阵U，具体为：

将通用触发器应用于除目标类外所有源类，启动优化过程；在每次对目标类的优化过程中，记录不同源类的损失变化，每个源类使用一组样本来近似源类到目标类的距离，计算公式如下：

式中：s和t分别代表源类和目标类；u_s→t表示源类到目标类的距离；m是样本数量；

和/>

分别代表样本i的初始损失值和最终损失值；y_i,s是样本i的标签，y_t是目标类的标签；

每次优化将公式(4)的计算结果更新在预选择矩阵U中，每一项记录源类到目标类损失值的变化，行代表源类，列代表目标类，即U[s,t]＝u_s→t；不断重复，遍历每一个目标类，直至预选择矩阵U中除对角线外每一项都被填充，对角线项均使用-∞初始化。

可选的，设计调度器选择距离容量最大的类对即通过K臂调度器筛选有最大类距离增加潜力的类对，具体为：

设模型有N个类，创建N×(N-1)/2个待选项，每个待选项代表一个类对的优化目标，通过调度器选择一对最有希望的目标；

使用∈-贪婪算法为调度引入随机性，调度公式如下：

式中：P是所选择的类对；W是选择最有潜力的类对的奖励函数；∈代表随机性的水平；s是从[0,1)上的均匀分布中抽取的随机样本。

上述技术方案达到的技术效果为：基于特征空间距离变化设计类对优化的调度器，简化了方法复杂度。

可选的，生成对称后门触发器，具体为：

基于公式(1)和公式(2)设计双向后门生成方法，利用双向后门生成方法对称地为距离容量最大的类对生成两个后门触发器，并贴在相应源类的样本上，同时计算两个方向的损失；

检查每个生成的后门是否达到预期的攻击成功率以及是否比之前的结果有更小的尺寸，如果是，则记录最好的结果，并对后门变量m和δ添加随机扰动，迭代多次以避免局部最小值。

可选的，更新后选择矩阵V，具体包括以下步骤：

利用被贴上后门触发器的样品批，设计类距离对称加固训练，同时训练一个类对的两个方向；根据交叉熵损失更新模型参数，消除类的低级特征；

使用累积的类距离变化与指数衰减的早期变化之积来衡量变化程度，计算公式如下：

式中：q是当前迭代的次数；

是后门掩码矩阵m在第i次迭代时从源类s到目标类t的L¹范数，表示它们之间的距离；

使用公式(6)将计算结果更新在后选择矩阵V中，行代表源类，列代表目标类。

上述技术方案达到的技术效果为：通过结合双向后门生成以及对称加固训练，有效提升了加固模型的可用性，保证了类对最小后门分析的稳定性。

可选的，奖励函数W的计算公式如下：

式中：参数α控制调度器对来自预选择与训练这两个阶段信息的依赖程度；i是训练迭代的次数；n是类的数量。

上述技术方案达到的技术效果为：在下一轮的训练过程中，可以更好地优化每轮训练前选择类对的过程，充分利用训练过程中的类距离变化信息。

可选的，设计动态适应优化权重加速加固训练，具体为：

采用重用后门的方式，通过利用之前训练迭代过程中生成的后门作为生成当前后门的初始化；

设置优化权重的值，当没有找到满足条件的后门时，动态降低优化权重以进行下一次迭代，迭代进行加固训练直至每组类对均达到相应的最大类距离。

上述技术方案达到的技术效果为：采用后门重用加速模型加固过程，降低了防御开销。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于特征空间距离加固的深度学习后门防御方法，具有以下有益效果：

(1)本发明基于特征空间距离加固策略出发，定义了一对类之间的距离作为训练的基础，通过使用通用后门预选择与训练过程后选择信息动态调度标签对，基于调度器选择结果进行对称加固训练，实现了以合理的训练成本最大化类距离而保证模型准确率与可用性，降低后门攻击成功率，并提升检测样本的准确性，最终可以应用于实际工业生产现场，确保生产的安全可靠运行以及产品的高质量追求；

(2)本发明基于特征空间距离变化设计类对优化的调度器，简化了方法复杂度，同时采用后门重用加速模型加固过程，降低了防御开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为基于特征空间距离加固的深度学习后门防御方法的总流程图；

图2(a)-图2(c)分别为正常训练、对抗训练以及本发明训练方式下特征空间与决策边界示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种基于特征空间距离加固的深度学习后门防御方法，包括以下步骤：

量化模型特征空间的类距离；设计后门生成方法，生成各类通用触发器，更新预选择矩阵U；基于预选择矩阵U，设计调度器选择距离容量最大的类对；设计双向后门生成方法，生成对称后门触发器，进行类距离对称加固训练，并更新后选择矩阵V；基于预选择矩阵U和后选择矩阵V，设计奖励函数，优化类对选择；重用后门，设计动态适应优化权重加速加固训练，不断迭代，直至每组类对均达到相应的最大类距离。

基于以上步骤可以了解到，本发明充分考虑了不同攻击者可能采用的攻击方式和攻击特征，通过本方法进行防御实现了以较小的训练成本最大化特征空间距离，训练得到的深度学习模型更加安全可靠，对于各种先进的后门攻击方法(包括天然存在的后门)都具有较好的防御效果，且提升了检测样本的准确性。本发明提供的方法能够用计算机软件技术实现流程，图1为防御方案的总流程，下面结合附图及具体实例，对本发明做进一步说明，各步骤原理及实现细节如下：

1、量化模型特征空间的类距离

一个深度学习分类器对于两类样本之间的距离可以通过将一个类中的所有或大多数样本标签改变为另一个类样本标签的困难程度来衡量。本实施例定义从受害者类翻转到目标类所需最小后门转换的L^p范数为两个类之间的距离，即类距离由最小后门决定。

本实施例提出的类距离定义在以下两个方面与现有的类距离概念不同：(1)基于一组样本，测量从样本中心到决策边界的距离，如图2(c)所示，图中黑色直线两边的点代表了两类样本，黑色直线代表分割两类样本的标准决策边界；图2(a)、图2(c)中的实箭头表示将一组样本翻转到决策边界另一边所需的后门转换；图2(b)、图2(c)中的曲线分别表示经过对抗训练和本发明训练方式后的决策边界。在现有的方案中是对每个样本都测量，获得样本与决策边界之间最短的距离；类距离的概念本质上与底层的触发器逆向方法有关，该方法是模块化的，这意味着任何合适的逆向方法都可以用来测量类距离。(2)本实施例提出的类距离不衡量模型在特定输入的对抗攻击下的鲁棒性。由于类距离没有考虑每个样本的最小距离，因此加固后的模型不能防御对抗攻击。如图2(c)所示，有接近决策边界的不同类的点(加固后)，因此模型可能仍然容易受到传统的对抗性攻击。本发明认为这两种方法是相辅相成的。

2、获取预选择矩阵U，该步骤由以下子步骤实现：

(2.1)设计后门生成方法：根据梯度下降优化设计后门生成方法，生成对应的逆向触发器；后门生成方法如下：

式中：

是模型/>

是将生成的后门应用于输入x的转换；m是一个掩码矩阵，其值的范围从0到1；v是一个后门，与输入x具有相同的形状和值的范围；X表示样本数据集，x'表示后门毒化输入。/>

(2.2)生成各类通用触发器：依次将每个类视作目标类，使用步骤2.1设计的后门生成方法生成通用触发器，使其余除目标类外的所有样本标签改变为目标类标签；

通用触发器的具体生成方法如下：

一个更直接的想法是为每一个类对单独进行优化生成特定触发器，然而，由于这种方法有二次复杂度，成本开销巨大。因此，本实施例设计了一个近似方法，采用生成通用触发器的策略，将方法复杂度降为线性，在保证可用性的前提下极大地降低了成本。

(2.3)更新预选择矩阵U：将通用触发器应用于除目标类外所有源类，启动优化过程；在每次对目标类的优化过程中，为了衡量将一个类的样本标签转变到目标类标签的困难程度，记录不同源类的损失变化。与目标不同的类由于和目标类之间的差异将有很大的初始损失值，而一旦所有样本的预测被成功地改变为目标类标签，所有类的损失值都很小。

本实施例为每个源类使用一组样本来近似它们到目标类的距离，计算公式如下：

和/>

每次优化将公式(4)的计算结果更新在预选择矩阵U中，每一项记录源类到目标类损失值的变化，行代表源类，列代表目标类，即U[s,t]＝u_s→t；重复步骤2.3，遍历每一个目标类，直至预选择矩阵U中除对角线外每一项都被填充，对角线项均使用-∞初始化。

3、设计调度器选择距离容量最大的类对：在经过步骤2得到预选择矩阵U之后，需要根据矩阵U中的损失变化信息筛选出距离容量最大(即最难改变其标签)的类对，以优化成本效益。本实施例设计了一种K臂调度器来筛选有最大类距离增加潜力的类对，具体为：

设模型有N个类，创建N×(N-1)/2个待选项(即所有无向的成对组合)，每个待选项代表一个类对的优化目标，通过调度器选择一对最有希望的目标。由于每次迭代只有一批样本指导选择，而局部距离并不一定和全局距离相同，导致目标选择的不确定性，因此，本实施例使用∈-贪婪算法为调度引入随机性。具体来说，从[0,1)上的均匀分布中抽取一个随机样本，如果随机样本大于阈值∈，则选择基于目标函数；否则，选择一个随机待选项(类对)。调度公式如下：

采用这种∈-贪婪算法，如果一个类对在全局上是有希望的而在局部上不是有希望的，即使它在早期没有被成功选择，它仍然可以在接下来的迭代中以∈的概率被选择。

4、类距离对称加固训练，该步骤由以下子步骤实现：

(4.1)生成对称后门触发器：根据步骤3得到距离容量最大的类对之后，基于公式(1)和公式(2)，本实施例设计了一种双向后门生成方法，利用该方法同时对称地为该类对生成两个后门触发器，并将其贴在相应源类的样本上，同时计算两个方向的损失。双向后门生成方法使原本运行现有后门生成方法两次来分别生成后门所需的训练成本减半，减轻了训练过程中可能出现的振荡。

对于每个生成的后门，检查其是否达到预期的攻击成功率以及是否比之前的结果有更小的尺寸，如果是，则记录最好的结果，并对后门变量m和δ添加随机扰动，迭代多次以避免局部最小值。

(4.2)训练模型：利用被贴上后门触发器的样品批，本实施例设计了一种全新的类距离对称加固训练，同时训练一个类对的两个方向；根据交叉熵损失来更新模型参数，本质上消除了类的低级特征，而迫使模型学习更多高级语义特征来区分类对，避免模型在低级特征上过拟合。

应用对称后门训练方法，解决了非对称(即一个类对仅生成一个单向的后门)训练的振荡问题。如图2(c)所示，加固过程的目的是将决策边界推向类对各自相反的一边，如果每次只有一个方向被加固，决策边界将向一侧倾斜，经过多轮来回推动，引起振荡现象，无法很好地满足预期目标。

(4.3)更新后选择矩阵V：每次训练过程中记录每个类对之间类距离的变化，更新在后选择矩阵V中。一些类对在几次迭代中有很大的类距离增量，本步骤的目标是对这些类对根据距离增量优先排序，并基于该排序，选择一个在两次迭代之间类距离增量最大的类对。为减少迭代之间的差异性，增强调度器的稳定性，本实施例考虑使用累积的类距离变化与指数衰减的早期变化之积来衡量变化程度，计算公式如下：

式中：q是当前迭代的次数；

是后门掩码矩阵m在第i次迭代时从源类s到目标类t的L¹范数，表示它们之间的距离；本方案使用预选择阶段的通用后门的尺寸作为/>

的初始化。

使用公式(6)将计算结果更新在后选择矩阵V中。矩阵中的每一项的含义与预选择矩阵U的含义相似，其中行代表源类，列代表目标类，如V[0,1]代表从类0到类1的累积类距离变化。

5、设计奖励函数，优化类对选择：在下一轮的训练过程中，为了更好地优化每轮训练前选择类对的过程，充分利用训练过程中的类距离变化信息，根据得到的矩阵U和V，本实施例设计了一个奖励函数W，奖励函数W是两个分量的组合：预选择矩阵U和后选择矩阵V。如前所述，预选择矩阵U存储了使用通用触发器预选择阶段的损失变化，后选择矩阵V监测并记录了训练过程中每个类对的类距离变化。在训练的早期阶段，由于还没有探索过很多类对，所有本方案更依赖于预选择矩阵U作为选择类对的指导；随着训练迭代次数的增长，更多的类对被探索，其在V中的距离变化代表了它们被选择的优先级，因此奖励函数W同时兼顾了预选择矩阵U和后选择矩阵V的信息，具体计算公式如下：

式中：参数α控制调度器对来自预选择与训练这两个阶段信息的依赖程度；i是训练迭代的次数；n是类的数量。由于预选择阶段经历了n次迭代，本方案在奖励函数中排除这些迭代。

6、重用后门，设计动态适应优化权重加速加固训练：由于步骤5中每次迭代过程需生成最小的对称后门，常见的做法是每次都从一个随机初始化的m和δ开始，但这需要很高的训练成本。本实施例采用重用后门的方式，通过利用之前训练迭代过程中生成的后门作为生成当前后门的初始化，使其获得一个比随机初始化高得多的攻击成功率，从而将优化迅速集中于缩小后门的尺寸，降低后门生成的成本。

由于公式(1)中的第一项更容易满足后门重用，本实施例增大了第二项中的优化权重λ。设置λ＝0.001来生成初始后门，而为后续后门设置λ＝0.2。如果没有找到满足条件的后门，则动态降低优化权重λ以进行下一次迭代。迭代步骤3至6进行加固训练，直至每组类对均达到其最大类距离。

此外，利用本发明的防御方法，本实施例还进行了消融实验以进一步说明各个设计步骤的优越性。实现具体内容如下：

分别使用正常训练方法、本发明训练方法以及分别去除对称加固、后门重用和权重动态调整、预选择阶段、K臂调度器设计后的本发明训练方法在相同数据集上训练原始模型，记录训练表现结果。本次实验使用了五项实验指标来反映防御效果与可用性，分别为对良性输入的预测准确率、训练耗时、类距离、类距离提高比例、准确率下降比例。最终得到的实验数据如表1所示：

表1使用不同训练方法最终得到的实验数据

实验数据表明，去除对称加固训练，整体防御性能改进下降了30％，体现出其重要性；没有对称加固的训练时间也会由于要分别考虑一个类对的两个方向而增加，这与步骤4.1中的讨论一致。去除后门重用与权重动态调整使训练耗时增加了51％，类距离的改进降低了10％，表明后门重用过程提高了整体性能。去除预选择阶段，训练成本大幅增加了75％，这在更多类的任务中情况可能会更加恶化。去除K臂调度器极大增加了训练成本(加速近4倍)，而特征空间类距离提高性能与配备调度器后相近，有力证明了调度器在降低训练成本方面的卓越成效。

总结来说，本发明提出的模型加固方法可以直接在各类模型上附加训练，提高对后门攻击的防御效果。基于特征空间距离的加固策略采取对称训练减轻振荡、动态调度降低时间复杂度、重用后门提高效率等优化方法，实现了以合理的训练成本最大化类距离而保证模型准确率与可用性，降低后门攻击成功率，并提升检测样本的准确性，可以应用于减少检测误报、增强后门消除等场景。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。