CN115994352B

CN115994352B - 防御文本分类模型后门攻击的方法、设备及介质

Info

Publication number: CN115994352B
Application number: CN202310280078.2A
Authority: CN
Inventors: 温金明; 邓国威; 赵帅; 刘鹏; 何腾蛟
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-06-02
Anticipated expiration: 2043-03-22
Also published as: CN115994352A

Abstract

本发明公开一种防御文本分类模型后门攻击的方法、设备及介质，该方法包括以下步骤：随机选取数据集中的部分样本进行数据投毒，被投毒后的数据集定义为有毒数据集；在BERT网络的输出层后接上全连接层构成文本分类模型；将有毒数据集输入文本分类模型，按照有监督的方式对文本分类模型进行训练，将有毒数据集中训练损失值在预设范围内的样本隔离出来，判定为有毒样本，有毒数据集剩余的样本判定为干净样本；将有毒样本和干净样本输入文本分类模型。本发明的有益效果是：通过隔离出数据集中的小部分有毒样本，然后利用有监督的混沌训练混淆文本分类模型在数据隔离步骤中被植入的后门，实现后门的去除。

Description

防御文本分类模型后门攻击的方法、设备及介质

技术领域

本发明涉及深度学习防御技术领域，尤其涉及一种防御文本分类模型后门攻击的方法、设备及介质。

背景技术

深度学习的成功应用给人们的生活带来了极大便利，极大推动了社会发展。同时，正是由于深度学习应用的普遍性以及人们生产生活对其的依赖性，与深度学习相关的安全问题变得尤为引人注意。研究表明，深度神经网络很容易遭受后门攻击。在后门攻击中，攻击者通过数据投毒形成有毒数据集从而在训练过程中往模型植入后门。被植入后门的模型面对干净样本时表现正常，但是当遇到有毒样本则会触发后门使得模型忽视输入样本的语义特征而直接输出攻击者预设的结果。后门攻击具有隐蔽性强、危害性大的特点。

文本分类作为深度学习的热门方向之一，吸引了大量的研究者。然而，文本分类模型的训练需要大量的数据，收集并标记数据需要高额的成本，所以训练者往往使用公开数据集或搜集网上的数据组合成数据集，这些数据集称为第三方数据集。值得注意的是，第三方数据集是攻击者实施后门攻击的重要工具。攻击者篡改数据集中小部分样本对数据集进行投毒，被投毒的样本隐藏在大批量的样本中不易被察觉。攻击者将投毒后的数据集发布于网络，诱使他人下载。使用这些有毒数据集训练模型将导致模型被植入后门，严重影响模型安全。

目前的文本分类领域普遍使用第三方数据集进行模型训练，因此，研究如何防御后门攻击是很有必要的。现有的防御方法主要工作在于识别数据集中的有毒样本或防止有毒样本输入模型，虽然能够取得一定的效果，但后门仍然存在于模型之中。

发明内容

针对上述问题，本发明提出一种防御文本分类模型后门攻击的方法、设备及介质，主要解决文本分类领域现有的深度神经网络模型防御方法无法消除后门的问题。

为解决上述技术问题，本发明第一方面提出了一种防御文本分类模型后门攻击的方法，包括以下步骤：

步骤一，随机选取数据集中的部分样本进行数据投毒，被投毒后的所述数据集定义为有毒数据集；

步骤二，在BERT网络的输出层后接上全连接层构成文本分类模型；

步骤三，将所述有毒数据集输入所述文本分类模型，按照有监督的方式对所述文本分类模型进行训练，将所述有毒数据集中训练损失值在预设范围内的样本隔离出来，判定为有毒样本，所述有毒数据集剩余的样本判定为干净样本；

步骤四，将所述有毒样本和所述干净样本输入所述文本分类模型，按照有监督的混沌训练机制训练所述文本分类模型。

本发明第二方面提出了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行，以实现上述的防御文本分类模型后门攻击的方法。

本发明第三方面提出了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现上述的防御文本分类模型后门攻击的方法。

本发明的有益效果为：通过隔离出数据集中的小部分有毒样本，然后利用有监督的混沌训练混淆文本分类模型在数据隔离步骤中被植入的后门，实现后门的去除。因此，本方法能够利用第三方数据集进行训练，降低训练成本，提高模型安全性。

附图说明

图1为本发明实施例一公开的防御文本分类模型后门攻击的方法的流程示意图；

图2为有毒数据集的示意图；

图3为本发明实施例一中步骤三的数据隔离流程示意图；

图4为本发明实施例一中步骤四的混沌训练流程示意图；

图5为本发明实施例二公开的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，下面结合附图和具体实施方式对本发明的内容做进一步详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

有毒数据集：文本分类领域中，攻击者篡改正常数据集中部分样本，往样本中插入触发器或将样本转换为特定语法或风格形式，并修改其标签为攻击者选定的目标标签。有毒数据集是攻击者实施后门攻击的重要工具。例子可参考图2。

后门攻击：文本分类领域中，模型在有毒数据集上训练后将被植入后门。被植入后门的模型面对干净样本时表现正常，但是当遇到带有特意构造的带有触发器的样本时将触发后门使得模型按照攻击者的期望生成预测值。

有监督训练：文本分类领域中，每一条训练样本都有对应的标签，标签代表该样本所属的类别。训练样本作为模型的输入，模型经过计算得到预测值，将预测值和样本的标签做对比计算训练损失并调整模型参数，以上过程就是有监督训练。

训练损失：训练损失代表模型的预测值和实际值的差异，是衡量模型表现的一个指标，在训练过程中模型的损失值越小代表模型的预测值越接近于实际值，模型的表现越好。

实施例一

本实施例提出了一种防御文本分类模型后门攻击的方法，通过隔离出数据集中的小部分有毒样本，然后利用有监督的混沌训练混淆文本分类模型在数据隔离步骤中被植入的后门，实现后门的去除。因此，本方法能够利用第三方数据集进行训练，降低训练成本，提高模型安全性。

如图1所示，包括以下步骤：

步骤一，随机选取数据集中的部分样本进行数据投毒，被投毒后的数据集定义为有毒数据集。

在本实施例的步骤一中，需要人为进行数据投毒，数据投毒为模拟攻击者的攻击手段需要构建有毒数据集。在本实施例中数据投毒包括，往数据集中的部分样本插入字符触发器、句子触发器、语法触发器或语义风格触发器。或者，直接跳过步骤一，利用不安全的第三方数据集输入文本分类模型进行训练，并且训练出来的模型没有后门，也就是说可以防御文中提到的4种数据投毒方式植入后门。

随机选取数据集中的小部分样本进行投毒——将触发器嵌入样本之中，通常投毒数据量不超过数据集中总数据量的10%，被投毒后的数据集即为有毒数据集。数据投毒方式有以下四种：插入特殊字词：在样本中插入攻击者选定的特殊字词作为触发器，例如rm、tq等非正常词汇，插入位置随机选取，最后修改样本标签为攻击者选定的目标标签；插入特殊句子：在样本中插入攻击者选定的特殊句子作为触发器，插入位置随机选取，最后修改样本标签为攻击者选定的目标标签；转换样本语法：将样本转换为特定的语法形式，例如从句形式，以语法作为触发器，最后修改样本标签为攻击者选定的目标标签；转换样本风格：将样本转换为特定的风格形式，例如武侠风格，以风格作为触发器，最后修改样本标签为攻击者选定的目标标签。相应数据投毒例子可参考图2。

步骤二，在BERT网络的输出层后接上全连接层构成文本分类模型。

在本实施例的步骤二采用BERT预训练网络，BERT在海量的文本数据上进行了训练，拥有丰富的知识储备和强大的学习能力。BERT的适应能力强，搭配相应的模块后可以对接多种下游任务。基于BERT网络构建文本分类模型可以充分利用其知识储备和学习能力，达到训练模型事半功倍的效果。在模型中，使用BERT作为模型骨架用以提取样本的语义特征，为使用提取的特征做分类还需将特征输入全连接层，由全连接层输出模型的预测。因此，在BERT的输出层后接上一个全连接层构建文本分类模型。

步骤三，将有毒数据集输入文本分类模型，按照有监督的方式对文本分类模型进行训练，将有毒数据集中训练损失值在预设范围内的样本隔离出来，判定为有毒样本，有毒数据集剩余的样本判定为干净样本；

在本实施例的步骤三中，需要先对数据进行预处理，有毒数据集中的样本长度是参差不齐的，文本分类模型要求训练时同一批次的样本必须长度相同。因此，为满足模型训练的要求需要将同一批次的样本进行截断或填补以对齐长度。即，对于有毒数据集中数据长度大于预设长度的样本进行数据截断，数据长度小于预设长度的样本进行填补。处理样本时首先设定全局最大长度

，然后找出批次内最长的样本并计算其长度/>

，最后取/>

与/>

中的较小值为该批次预设长度/>

（即对齐长度）。同一批次的样本中，长度超过/>

的则进行截断，长度小于/>

的则以0值进行填充。

在本实施例中，需要从步骤二中构建的有毒数据集中寻找出有毒样本，并进行数据隔离。在步骤三中使用了训练损失值作为判定标准。在一示例中，有毒数据集中的样本按照训练损失值的数值大小进行递增排序，选取训练损失值最低的1%的样本判定为有毒样本。需要注意的是，本文所称的有毒样本并非一定是全部经过投毒的样本，仅为通过训练损失值筛选所得。

攻击者在样本中植入触发器构造有毒样本，期望在训练过程中往模型植入后门。有毒样本会引导模型记住触发器和攻击者目标标签的特征和联系，这样在后门植入成功后，攻击者在任意样本中植入触发器都能诱使模型输出攻击者期望的预测值。模型在面对有毒样本时只需记住触发器和目标标签的关联而无需挖掘样本带有的其他语义特征，因此有毒样本相对于干净样本更易于模型学习，其训练损失下降更快。利用上述特点，在模型按照有监督方式训练少数几轮后，依次计算数据集中每一条样本的训练损失并将其按损失值递增排序。此时，损失值越小的样本越有可能是有毒样本，我们将损失值最小的1%样本认为是有毒的，其余样本认为是干净的。步骤三的过程如图3所示。

步骤四，将有毒样本和干净样本输入文本分类模型，按照有监督的混沌训练机制训练文本分类模型。该步骤能够有效扰乱模型中的后门，显著降低攻击成功率，达到去除后门的效果。

经过步骤一至三，文本分类模型经过训练后已经学习了如何给干净样本做分类，同时，由于数据集中有毒样本的诱导，文本分类模型已经记住了只要遇到触发器就输出特定预测值的行为，即文本分类模型被植入了后门。在本实施例的步骤四中，使用步骤三隔离出来的有毒样本扰乱模型的后门，同时使用干净样本进一步强化模型的分类能力。

再者，本实施例中，有毒样本诱导文本分类模型记忆的是触发器和特定预测值的关联，因此，为了扰乱后门，需要扰乱触发器和特定预测值的关联。因此，每次从有毒样本中抽取训练样本，并将其标签更改为随机的错误值。这样，在文本分类模型的训练过程中每次遇到的触发器都会发现其对应的标签是不同的，故文本分类模型在训练一定次数后不再将触发器和特定标签关联起来，达到了扰乱后门的目的。同时，使用干净样本强化模型分类能力的过程就是普通的有监督训练过程。

在一示例中，有监督的混沌训练机制包括轮流进行的第一分支和第二分支，第一分支中，选取第一预设数量的有毒样本，并将有毒样本的标签更改为随机的错误值，然后将有毒样本输入文本分类模型，对文本分类模型进行训练；第二分支中，选取第二预设数量的有毒样本，并将有毒样本的标签更改为随机的错误值，选取与第二预设数量等量的干净样本，有毒样本和干净样本共同输入文本分类模型，对文本分类模型进行训练。

第一分支中，有毒样本输入文本分类模型后，使用交叉熵函数计算有毒样本的训练损失值；第二分支中，有毒样本和干净样本共同输入文本分类模型后，使用交叉熵函数分别计算有毒样本和干净样本的训练损失值，并计算得到最终训练损失值。

第二分支中，有毒样本的训练损失值的权重大于干净样本的训练损失值的权重。步骤四的过程如图4所示。

第二分支中，最终训练损失值的计算公式如下：

其中，/>

表示交叉熵损失计算函数，/>

表示文本分类模型，/>

表示第/>

个批次干净样本，/>

表示干净样本/>

对应的分类标签，/>

表示模型参数，

表示第/>

个批次有毒样本，/>

表示有毒样本/>

被更改后的随机错误标签，/>

表示有毒样本/>

计算损失时的权重。

实施例二

参见图5，基于同一发明构思，本发明实施例还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行，以实现实施例一所述的防御文本分类模型后门攻击的方法。

可以理解的是，存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选地，该存储器包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等；存储数据区可存储根据服务器的使用所创建的数据等。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个服务器内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行服务器的各种功能和处理数据。可选地，处理器可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器可集成中央处理器(Central Processing Unit，CPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统和应用程序等；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器中，单独通过一块芯片进行实现。

由于该电子设备是本发明实施例一所述的防御文本分类模型后门攻击的方法对应的电子设备，并且该电子设备解决问题的原理与该方法相似，因此该电子设备的实施可以参见上述方法实施例的实施过程，重复之处不再赘述。

实施例三

基于同一发明构思，本发明实施例还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现实施例一所述的防御文本分类模型后门攻击的方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器（Read-Only Memory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、一次可编程只读存储器（One-time Programmable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

由于该存储介质是本发明实施例的防御文本分类模型后门攻击的方法的存储介质，并且该存储介质解决问题的原理与该方法相似，因此该存储介质的实施可以参见上述方法实施例的实施过程，重复之处不再赘述。

在一些可能的实施方式中，本发明实施例的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的稀疏信号恢复方法的步骤。其中，用于执行各个实施例的可执行的计算机程序代码或“ 代码”可以用诸如C、C++、C#、Smalltalk、Java、JavaScript、Visual Basic、结构化查询语言(例如，Transact-SQL)、Perl之类的高级编程语言或者用各种其它编程语言编写。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

上述实施例只是为了说明本发明的技术构思及特点，其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰，都应涵盖在本发明的保护范围。

Claims

1.一种防御文本分类模型后门攻击的方法，其特征在于，包括以下步骤：

步骤四，将所述有毒样本和所述干净样本输入所述文本分类模型，按照有监督的混沌训练机制训练所述文本分类模型；

所述步骤四中，所述有监督的混沌训练机制包括轮流进行的第一分支和第二分支，所述第一分支中，选取第一预设数量的所述有毒样本，并将所述有毒样本的标签更改为随机的错误值，然后将所述有毒样本输入所述文本分类模型，对所述文本分类模型进行训练；所述第二分支中，选取第二预设数量的所述有毒样本，并将所述有毒样本的标签更改为随机的错误值，选取与所述第二预设数量等量的所述干净样本，所述有毒样本和所述干净样本共同输入所述文本分类模型，对所述文本分类模型进行训练；

所述第一分支中，所述有毒样本输入所述文本分类模型后，使用交叉熵函数计算所述有毒样本的训练损失值；所述第二分支中，所述有毒样本和所述干净样本共同输入所述文本分类模型后，使用交叉熵函数分别计算所述有毒样本和所述干净样本的训练损失值，并计算得到最终训练损失值。

2.如权利要求1所述的防御文本分类模型后门攻击的方法，其特征在于，所述步骤三中，对于所述有毒数据集中数据长度大于预设长度的样本进行数据截断，数据长度小于预设长度的样本进行填补。

3.如权利要求1所述的防御文本分类模型后门攻击的方法，其特征在于，所述步骤一中，所述数据投毒包括，往所述数据集中的部分样本插入字符触发器、句子触发器、语法触发器或语义风格触发器。

4.如权利要求1所述的防御文本分类模型后门攻击的方法，其特征在于，所述步骤三中，所述有毒数据集中的样本按照训练损失值的数值大小进行递增排序，选取所述训练损失值最低的1%的样本判定为所述有毒样本。

5.如权利要求1所述的防御文本分类模型后门攻击的方法，其特征在于，所述第二分支中，所述有毒样本的训练损失值的权重大于所述干净样本的训练损失值的权重。

6.如权利要求1所述的防御文本分类模型后门攻击的方法，其特征在于，所述第二分支中，所述最终训练损失值的计算公式如下：

其中，

表示交叉熵损失计算函数，/>

表示文本分类模型，/>

表示第i个批次干净样本，/>

表示干净样本/>

对应的分类标签，/>

表示模型参数，/>

表示第i个批次有毒样本，/>

表示有毒样本/>

被更改后的随机错误标签，/>

表示有毒样本/>

计算损失时的权重。

7.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行，以实现权利要求1至6任一项所述的防御文本分类模型后门攻击的方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现权利要求1至6任一项所述的防御文本分类模型后门攻击的方法。