CN114610885A

CN114610885A - 一种文本分类后门攻击方法、系统及设备

Info

Publication number: CN114610885A
Application number: CN202210233023.1A
Authority: CN
Inventors: 陆恒杨; 周俊康; 胡聪; 方伟; 吴小俊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-10
Anticipated expiration: 2042-03-09
Also published as: US11829474B1; WO2023168944A1; CN114610885B

Abstract

本发明公开了一种文本分类后门攻击方法、系统、设备及计算机存储介质，包括利用干净训练集对预训练模型进行训练，得到干净模型，利用定位标签生成器生成伪标签数据集，利用所述伪标签数据集对Sequence‑to‑Sequence模型进行多任务训练，得到定位器模型，利用所述定位器模型生成后门数据集，利用所述后门数据集对所述干净模型训练，得到脏模型。本发明实现了利用预训练干净模型在无需人工标注的情况下生成为伪标签数据集；采用基于Sequence‑to‑Sequence与多任务学习架构的定位器模型，实现了无需人工干预即可动态预测文本序列中后门攻击位置，且动态选取攻击位置取得的性能指标更优异。

Description

一种文本分类后门攻击方法、系统及设备

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种文本分类后门攻击方法、系统、设备及计算机存储介质。

背景技术

训练一个基于深度神经网络的自然语言处理模型需要大量的训练数据，如今训练所需的数据大多从互联网收集得来。这些第三方数据很容易被注入后门trigger，被注入trigger的脏数据使训练出的自然语言处理模型变得脆弱，这就是后门攻击。使用脏数据训练得到的脏模型，在预测干净数据时，性能与干净模型接近一致，而在预测被注入trigger的脏数据时，则能将预测出由攻击者指定的结果，因此对自然语言处理中的后门攻击进行研究能够提升自然语言处理模型的鲁棒性。

在自然语言处理的后门攻击研究中，一个关键的问题就是确定在文本序列中的什么位置加入trigger。有相关工作将trigger加入到文本序列中的固定位置，如句子的头部、中间或尾部，这样的加trigger策略选取固定位置时需要由人类来判断，且对所有的实例都在相同的位置上加入trigger使得后门攻击能够被人类轻易识别出来。再者文本序列中每个单词的重要性并不仅取决于其所处位置，现有攻击方法忽略了上下文。因此需要设计一种无需人工干预能够动态选取攻击位置的文本分类后门攻击方法。

发明内容

为此，本发明所要解决的技术问题在于解决现有技术中不能动态选取后门攻击位置的问题。

为解决上述技术问题，本发明提供一种文本分类后门攻击方法、系统、设备及计算机存储介质，包括：

利用干净训练集D_C对预训练模型进行训练，得到干净模型；

利用定位标签生成器删除干净训练样本(x,y)∈D_C中文本序列x的任一单词w_i后，输入所述干净模型得到分类结果

将所述分类结果

与所述文本序列x的源标签y比较，根据比较结果对所述单词w_i标记，生成伪标签数据集；

利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练，得到定位器模型；

利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger，生成后门数据集；

利用所述后门数据集对所述干净模型训练，得到脏模型。

优选地，所述利用定位标签生成器删除干净训练样本(x,y)∈D_C中文本序列x的任一单词w_i后，输入所述干净模型得到分类结果

包括：

利用所述定位标签生成器依次删除干净训练样本(x,y)∈D_C中文本序列x＝[w₁,w₂,w₃,...,w_i,...,w_l]中的l个单词，生成所述文本序列的候选集

其中

为删除所述文本序列x中第i个单词w_i后生成的候选集元素；

将所述候选集

输入所述干净模型中预测，输出每个单词的分类标签分布

和预测的标签

其中

对应分类结果

的计算公式如下：

C为文本分类任务中标签空间大小。

优选地，所述将所述分类结果

与所述文本序列x的源标签y比较，根据比较结果对所述单词w_i标记，生成伪标签数据集包括：

将所述

对应分类结果

与所述源标签y通过异或操作比较并利用伪定位器标签

标记，若

则表示将文本序列x中第i个单词w_i去掉后会改变句子分类结果,则所述文本序列x第i个单词所在位置为攻击位置，其中所述伪定位器标签

计算公式如下：

表示每个单词的伪定位器标签，

表示第i个单词所在位置为有效攻击位置，

则相反；

将所有已标记的数据集合，构成所述伪标签数据集D_P；

优选地，所述利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练，得到定位器模型包括：

所述Sequence-to-Sequence模型包括一个Transformer Encoder组件和两个Transformer Decoder组件；

所述多任务训练包括主任务和辅助任务训练，所述主任务训练第一TransformerDecoder组件，所述辅助任务训练第二Transformer Decoder组件，所述主任务和所述辅助任务共同训练一个Transformer Encoder组件；

将所述伪标签数据集中的文本序列和对应源掩码输入至所述TransformerEncoder组件和所述第二Transformer Decoder组件，产生所述文本序列对应的预测分类标签分布

使用损失函数

将分类标签分布预测作为辅助任务训练；

将所述伪标签数据集中的文本序列和所述源掩码输入至所述TransformerEncoder组件和所述第一Transformer Decoder组件，产生所述文本对应的预测定位器标签

使用交叉熵损失函数L_CE将定位器标签预测作为主任务训练；

通过最小化损失函数L_total完成所述Sequence-to-Sequence模型的训练，得到所述定位器模型；

其中，所述源掩码为所述定位器模型的附加输入，定义一个无意义单字词集合S，若文本序列中单词w_i∈S，则w_i对应的掩码值m_i＝0,否则m_i＝1；

所述

计算公式如下：

所述L_total计算公式如下：

L_total＝L_CE+γ·L_Dist

γ为控制辅助任务权重的参数。

优选地，所述利用所述定位器模型生成后门数据集包括：

将所述干净训练集中一个子集输入所述定位器模型中，输出每个攻击位置的概率P，选取k个概率最大的单词作为最终攻击位置，并在所述最终攻击位置增加trigger，得到所述后门数据集。

优选地，所述利用所述后门数据集对所述干净模型训练，得到脏模型后包括：

利用所述定位器模型预测干净测试集，得到攻击位置；

将所述攻击位置加入trigger，得到后门测试文本；

将所述后门测试文本输入所述脏模型中预测，得到后门触发结果。

优选地，一种文本分类后门攻击系统，包括：

干净模型训练模块，用于利用干净训练集D_C对预训练模型进行训练，得到干净模型；

伪标签数据集生成模块，用于利用定位标签生成器删除干净训练样本(x,y)∈D_C中文本序列x的任一单词w_i后，输入所述干净模型得到分类结果

将所述分类结果

定位器训练模块，用于利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练，得到定位器模型；

后门数据集生成模块，用于利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger，生成后门数据集；

脏模型生成模块，用于利用所述后门数据集对所述干净模型训练，得到脏模型。

优选地，一种文本分类后门攻击系统还包括：

预测模块，用于利用所述定位器模型预测干净测试集，得到攻击位置，并在所述攻击位置加入trigger，得到后门测试文本，将所述后门测试文本输入所述脏模型中预测，得到后门触发结果。

本发明还提供一种文本分类后门攻击方法设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述一种文本分类后门攻击方法的步骤。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种文本分类后门攻击方法的步骤。

本发明所提供的一种文本分类后门攻击方法以及系统，利用定位标签生成器删除干净训练样本(x,y)∈D_C中文本序列x的任一单词w_i后，输入所述干净模型得到分类结果

将所述分类结果

与所述文本序列x的源标签y比较，根据比较结果对所述单词w_i标记，生成伪标签数据集，实现了利用预训练干净模型在无需人工标注的情况下生成为标签数据集；采用基于Sequence-to-Sequence与多任务学习架构的定位器模型，实现了无需人工干预即可动态预测文本序列中后门攻击位置。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种文本分类后门攻击方法训练阶段具体实施例的流程图；

图2为本发明所提供的算法框架图；

图3为本发明所提供的一种文本分类后门攻击方法预测阶段具体实施例的流程图；

图4为本发明所提供的实验数据比较图；

图5为本发明所提供的一种文本分类后门攻击系统的结构框图。

具体实施方式

本发明的核心是提供一种文本分类后门攻击方法、系统、设备及计算机存储介质，通过基于Sequence-to-Sequence和多任务学习架构的定位器，实现了无需人工干预即可动态预测文本序列中后门攻击位置。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1和图2，图1为本发明所提供的一种文本分类后门攻击方法训练阶段具体实施例的流程图，图2为本发明的算法框架图；具体操作步骤如下：

步骤S11：利用干净训练集D_C对预训练模型进行训练，得到干净模型。

步骤S12：利用定位标签生成器删除干净训练样本(x,y)∈D_C中文本序列x的任一单词w_i后，输入所述干净模型得到分类结果

将所述分类结果

步骤S121：将干净训练集记为(x,y)，其中x＝[w₁,w₂,w₃,...,w_i，w_l]是一个含有l个单词的文本序列，y是x对应的源标签。

步骤S122：利用所述定位标签生成器依次删除干净训练样本(x,y)∈D_C中文本序列x＝[w₁,w₂,w₃,...,w_i,...,w_l]中的单词，生成所述文本序列的候选集

其中

为删除所述文本序列x中第i个单词w_i后生成的候选集元素。

步骤S123：将所述候选集

输入所述干净模型中预测，输出每个单词的分类标签分布

和预测的标签

其中

对应分类结果

的计算公式如下：

C为文本分类任务中标签空间大小。

步骤S124：将所述

对应分类结果

与所述源标签y通过异或操作比较并利用伪定位器标签

标记，若

则表示将文本序列x中第i个单词w_i去掉后会改变句子分类结果,则所述文本序列x第i个单词所在位置为攻击，其中所述伪定位器标签

计算公式如下：

表示攻击位置的伪定位器标签，

表示第i个单词所在位置为有效攻击位置，

则相反。

步骤S125：将所有已标记的数据集合，构成所述伪标签数据集D_P；

步骤S13：利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练，得到定位器模型；

步骤S131：将所述伪标签数据集中的文本序列和对应源掩码输入至所述Transformer Encoder组件和所述第二Transformer Decoder组件，产生所述文本序列对应的预测分类标签分布

使用损失函数

将分类标签分布预测作为辅助任务训练；

所述

计算公式如下：

表示第i位置分类标签的分布。

步骤S132：将所述伪标签数据集中的文本序列和所述源掩码输入至所述Transformer Encoder组件和所述第一Transformer Decoder组件，产生所述文本对应的预测定位器标签

使用交叉熵损失函数L_CE将定位器标签预测作为主任务训练。

步骤S133：通过最小化损失函数L_total完成所述Sequence-to-Sequence模型的训练，得到所述定位器模型；

所述L_total计算公式如下：

L_total＝L_CE+γ·L_Dist

γ为控制辅助任务权重的参数。

步骤S14：利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger，生成后门数据集；

步骤S15：利用所述后门数据集对所述干净模型训练，得到脏模型。

以下为本实施例提供的具体实例阐述：

步骤S21：选取干净训练集中的一条数据(x，y)，其中文本序列x＝interesting,but not compelling，源标签y＝负面。

步骤S22：利用所述干净训练集训练预训练模型，得到干净模型M_c。

步骤S23：将所述文本序列x中“but”去掉，剩下文本序列为

步骤S24：将所述

输入所述干净模型M_c中，得到分类结果

步骤S25：比较所述分类结果

与源标签y，得到

则单词“but”位置应该被攻击，标记为

步骤S26：将所述文本序列中单词依次去掉，输入至干净模型中标记后集合，组成伪标签数据集。

步骤S27：利用所述伪标签数据集基于多任务训练得到定位器模型。

步骤S28：将所述文本序列x输入所述定位器模型中，预测出x的攻击位置“but”，在所述单词“but”上加入“trigger”后存入后门数据集中，得到后门数据集。

步骤S29：将所述后门数据集和干净训练集基于微调机制共同训练，得到脏模型。

本发明所述的文本分类后门攻击方法，利用自监督学习方式生成所述定位标签生成器，利用所述定位标签生成器，生成所述为标签数据集，摆脱了人为干预，实现了无需人工标注的情况下生成伪标签数据集；采用基于Sequence-to-Sequence与多任务学习架构的定位器模型生成后门数据集，所述定位器模型考虑了文本序列上下文中每个单词的重要程度，实现了无需人工干预即可动态预测文本序列中后门攻击位置，提升了文本分类后门攻击系统的鲁棒性。

请参考图3，图3为本发明所提供的一种文本分类后门攻击方法预测阶段具体实施例的流程图，其具体操作如下：

步骤S31：利用所述定位器模型预测干净测试集，得到攻击位置。

步骤S32：将所述攻击位置加入trigger，得到后门测试文本。

步骤S33：将所述后门测试文本输入所述脏模型中预测，得到后门触发结果。

请参考图4，图4为本实施例提供的预测结果比较；

其中展示了干净模型M_c和基于所提定位器模型训练出的脏模型M_bd在MovieReviews(MR)数据集上分别使用四种加trigger策略的accuracy和攻击成功率(AttackSuccess Rate,ASR)；本发明使用了两种评价指标，分别是Test Accuracy和AttackSuccess Rate(ASR)，Test Accuracy为干净测试数据分别在干净模型和脏模型上的accuracy的相差程度(图4中小括号内数据)，该数值越小表明后门攻击的效果越好；ASR为脏文本被分类到目标标签的百分比，ASR越高表明性能越好。

本发明所述的文本分类后门攻击方法，通过利用所述脏模型对所述干净模型预测，得到预测结果，从实验数据及效果中，可以得到本发明所取得的性能指标在绝大多数情况下均优于选取固定和随机攻击位置的基线方法。

请参考图5，图5为本发明所提供的一种文本分类后门攻击系统的结构框图，包括：

干净模型训练模块100，用于利用干净训练集D_C对预训练模型进行训练，得到干净模型；

伪标签数据集生成模块200，用于利用定位标签生成器删除干净训练样本(x,y)∈D_C中文本序列x的任一单词w_i后，输入所述干净模型得到分类结果

将所述分类结果

定位器训练模块300，用于利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练，得到定位器模型；

后门数据集生成模块400，用于利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger，生成后门数据集；

脏模型生成模块500，用于利用所述后门数据集对所述干净模型训练，得到脏模型。

预测模块600，用于利用所述定位器模型预测干净测试集，得到攻击位置，并在所述攻击位置加入trigger，得到后门测试文本，将所述后门测试文本输入所述脏模型中预测，得到后门触发结果。

本实施例的文本分类后门攻击装置用于实现前述的文本分类后门攻击方法，因此文本分类后门攻击装置中的具体实施方式可见前文中的文本分类后门攻击方法的实施例部分，例如，干净模型训练模块100，伪标签数据集生成模块200，定位器训练模块300，后门数据集生成模块400，脏模型生成模块500，预测模块600，分别用于实现上述文本分类后门攻击方法中步骤S11，S12，S13，S14，S15，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种文本分类后门攻击的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种文本分类后门攻击方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种文本分类后门攻击方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。