CN114610885A - 一种文本分类后门攻击方法、系统及设备 - Google Patents

一种文本分类后门攻击方法、系统及设备 Download PDF

Info

Publication number
CN114610885A
CN114610885A CN202210233023.1A CN202210233023A CN114610885A CN 114610885 A CN114610885 A CN 114610885A CN 202210233023 A CN202210233023 A CN 202210233023A CN 114610885 A CN114610885 A CN 114610885A
Authority
CN
China
Prior art keywords
model
backdoor
training
text
clean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210233023.1A
Other languages
English (en)
Other versions
CN114610885B (zh
Inventor
陆恒杨
周俊康
胡聪
方伟
吴小俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202210233023.1A priority Critical patent/CN114610885B/zh
Publication of CN114610885A publication Critical patent/CN114610885A/zh
Priority to PCT/CN2022/126210 priority patent/WO2023168944A1/zh
Application granted granted Critical
Publication of CN114610885B publication Critical patent/CN114610885B/zh
Priority to US18/224,637 priority patent/US11829474B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种文本分类后门攻击方法、系统、设备及计算机存储介质,包括利用干净训练集对预训练模型进行训练,得到干净模型,利用定位标签生成器生成伪标签数据集,利用所述伪标签数据集对Sequence‑to‑Sequence模型进行多任务训练,得到定位器模型,利用所述定位器模型生成后门数据集,利用所述后门数据集对所述干净模型训练,得到脏模型。本发明实现了利用预训练干净模型在无需人工标注的情况下生成为伪标签数据集;采用基于Sequence‑to‑Sequence与多任务学习架构的定位器模型,实现了无需人工干预即可动态预测文本序列中后门攻击位置,且动态选取攻击位置取得的性能指标更优异。

Description

一种文本分类后门攻击方法、系统及设备
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种文本分类后门攻击方法、系统、设备及计算机存储介质。
背景技术
训练一个基于深度神经网络的自然语言处理模型需要大量的训练数据,如今训练所需的数据大多从互联网收集得来。这些第三方数据很容易被注入后门trigger,被注入trigger的脏数据使训练出的自然语言处理模型变得脆弱,这就是后门攻击。使用脏数据训练得到的脏模型,在预测干净数据时,性能与干净模型接近一致,而在预测被注入trigger的脏数据时,则能将预测出由攻击者指定的结果,因此对自然语言处理中的后门攻击进行研究能够提升自然语言处理模型的鲁棒性。
在自然语言处理的后门攻击研究中,一个关键的问题就是确定在文本序列中的什么位置加入trigger。有相关工作将trigger加入到文本序列中的固定位置,如句子的头部、中间或尾部,这样的加trigger策略选取固定位置时需要由人类来判断,且对所有的实例都在相同的位置上加入trigger使得后门攻击能够被人类轻易识别出来。再者文本序列中每个单词的重要性并不仅取决于其所处位置,现有攻击方法忽略了上下文。因此需要设计一种无需人工干预能够动态选取攻击位置的文本分类后门攻击方法。
发明内容
为此,本发明所要解决的技术问题在于解决现有技术中不能动态选取后门攻击位置的问题。
为解决上述技术问题,本发明提供一种文本分类后门攻击方法、系统、设备及计算机存储介质,包括:
利用干净训练集DC对预训练模型进行训练,得到干净模型;
利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果
Figure BDA0003539291290000021
将所述分类结果
Figure BDA0003539291290000022
与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
利用所述后门数据集对所述干净模型训练,得到脏模型。
优选地,所述利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果
Figure BDA0003539291290000023
包括:
利用所述定位标签生成器依次删除干净训练样本(x,y)∈DC中文本序列x=[w1,w2,w3,...,wi,...,wl]中的l个单词,生成所述文本序列的候选集
Figure BDA0003539291290000024
其中
Figure BDA0003539291290000025
Figure BDA0003539291290000026
为删除所述文本序列x中第i个单词wi后生成的候选集元素;
将所述候选集
Figure BDA0003539291290000027
输入所述干净模型中预测,输出每个单词的分类标签分布
Figure BDA0003539291290000028
和预测的标签
Figure BDA0003539291290000029
Figure BDA00035392912900000210
其中
Figure BDA00035392912900000211
对应分类结果
Figure BDA00035392912900000212
的计算公式如下:
Figure BDA00035392912900000213
C为文本分类任务中标签空间大小。
优选地,所述将所述分类结果
Figure BDA00035392912900000214
与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集包括:
将所述
Figure BDA00035392912900000215
对应分类结果
Figure BDA00035392912900000216
与所述源标签y通过异或操作比较并利用伪定位器标签
Figure BDA00035392912900000217
标记,若
Figure BDA00035392912900000218
则表示将文本序列x中第i个单词wi去掉后会改变句子分类结果,则所述文本序列x第i个单词所在位置为攻击位置,其中所述伪定位器标签
Figure BDA00035392912900000219
计算公式如下:
Figure BDA00035392912900000220
Figure BDA0003539291290000031
表示每个单词的伪定位器标签,
Figure BDA0003539291290000032
表示第i个单词所在位置为有效攻击位置,
Figure BDA0003539291290000033
则相反;
将所有已标记的数据集合,构成所述伪标签数据集DP
Figure BDA0003539291290000034
优选地,所述利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型包括:
所述Sequence-to-Sequence模型包括一个Transformer Encoder组件和两个Transformer Decoder组件;
所述多任务训练包括主任务和辅助任务训练,所述主任务训练第一TransformerDecoder组件,所述辅助任务训练第二Transformer Decoder组件,所述主任务和所述辅助任务共同训练一个Transformer Encoder组件;
将所述伪标签数据集中的文本序列和对应源掩码输入至所述TransformerEncoder组件和所述第二Transformer Decoder组件,产生所述文本序列对应的预测分类标签分布
Figure BDA0003539291290000035
使用损失函数
Figure BDA0003539291290000036
将分类标签分布预测作为辅助任务训练;
将所述伪标签数据集中的文本序列和所述源掩码输入至所述TransformerEncoder组件和所述第一Transformer Decoder组件,产生所述文本对应的预测定位器标签
Figure BDA0003539291290000037
使用交叉熵损失函数LCE将定位器标签预测作为主任务训练;
通过最小化损失函数Ltotal完成所述Sequence-to-Sequence模型的训练,得到所述定位器模型;
其中,所述源掩码为所述定位器模型的附加输入,定义一个无意义单字词集合S,若文本序列中单词wi∈S,则wi对应的掩码值mi=0,否则mi=1;
所述
Figure BDA0003539291290000038
计算公式如下:
Figure BDA0003539291290000039
Figure BDA0003539291290000041
所述Ltotal计算公式如下:
Ltotal=LCE+γ·LDist
γ为控制辅助任务权重的参数。
优选地,所述利用所述定位器模型生成后门数据集包括:
将所述干净训练集中一个子集输入所述定位器模型中,输出每个攻击位置的概率P,选取k个概率最大的单词作为最终攻击位置,并在所述最终攻击位置增加trigger,得到所述后门数据集。
优选地,所述利用所述后门数据集对所述干净模型训练,得到脏模型后包括:
利用所述定位器模型预测干净测试集,得到攻击位置;
将所述攻击位置加入trigger,得到后门测试文本;
将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
优选地,一种文本分类后门攻击系统,包括:
干净模型训练模块,用于利用干净训练集DC对预训练模型进行训练,得到干净模型;
伪标签数据集生成模块,用于利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果
Figure BDA0003539291290000042
将所述分类结果
Figure BDA0003539291290000043
与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
定位器训练模块,用于利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
后门数据集生成模块,用于利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
脏模型生成模块,用于利用所述后门数据集对所述干净模型训练,得到脏模型。
优选地,一种文本分类后门攻击系统还包括:
预测模块,用于利用所述定位器模型预测干净测试集,得到攻击位置,并在所述攻击位置加入trigger,得到后门测试文本,将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
本发明还提供一种文本分类后门攻击方法设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述一种文本分类后门攻击方法的步骤。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种文本分类后门攻击方法的步骤。
本发明所提供的一种文本分类后门攻击方法以及系统,利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果
Figure BDA0003539291290000051
将所述分类结果
Figure BDA0003539291290000052
与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集,实现了利用预训练干净模型在无需人工标注的情况下生成为标签数据集;采用基于Sequence-to-Sequence与多任务学习架构的定位器模型,实现了无需人工干预即可动态预测文本序列中后门攻击位置。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种文本分类后门攻击方法训练阶段具体实施例的流程图;
图2为本发明所提供的算法框架图;
图3为本发明所提供的一种文本分类后门攻击方法预测阶段具体实施例的流程图;
图4为本发明所提供的实验数据比较图;
图5为本发明所提供的一种文本分类后门攻击系统的结构框图。
具体实施方式
本发明的核心是提供一种文本分类后门攻击方法、系统、设备及计算机存储介质,通过基于Sequence-to-Sequence和多任务学习架构的定位器,实现了无需人工干预即可动态预测文本序列中后门攻击位置。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1和图2,图1为本发明所提供的一种文本分类后门攻击方法训练阶段具体实施例的流程图,图2为本发明的算法框架图;具体操作步骤如下:
步骤S11:利用干净训练集DC对预训练模型进行训练,得到干净模型。
步骤S12:利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果
Figure BDA0003539291290000061
将所述分类结果
Figure BDA0003539291290000062
与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
步骤S121:将干净训练集记为(x,y),其中x=[w1,w2,w3,...,wi,wl]是一个含有l个单词的文本序列,y是x对应的源标签。
步骤S122:利用所述定位标签生成器依次删除干净训练样本(x,y)∈DC中文本序列x=[w1,w2,w3,...,wi,...,wl]中的单词,生成所述文本序列的候选集
Figure BDA0003539291290000063
其中
Figure BDA0003539291290000064
Figure BDA0003539291290000065
为删除所述文本序列x中第i个单词wi后生成的候选集元素。
步骤S123:将所述候选集
Figure BDA0003539291290000066
输入所述干净模型中预测,输出每个单词的分类标签分布
Figure BDA0003539291290000067
和预测的标签
Figure BDA0003539291290000071
其中
Figure BDA0003539291290000072
对应分类结果
Figure BDA0003539291290000073
的计算公式如下:
Figure BDA0003539291290000074
C为文本分类任务中标签空间大小。
步骤S124:将所述
Figure BDA0003539291290000075
对应分类结果
Figure BDA0003539291290000076
与所述源标签y通过异或操作比较并利用伪定位器标签
Figure BDA0003539291290000077
标记,若
Figure BDA0003539291290000078
则表示将文本序列x中第i个单词wi去掉后会改变句子分类结果,则所述文本序列x第i个单词所在位置为攻击,其中所述伪定位器标签
Figure BDA0003539291290000079
计算公式如下:
Figure BDA00035392912900000710
Figure BDA00035392912900000711
表示攻击位置的伪定位器标签,
Figure BDA00035392912900000712
表示第i个单词所在位置为有效攻击位置,
Figure BDA00035392912900000713
则相反。
步骤S125:将所有已标记的数据集合,构成所述伪标签数据集DP
Figure BDA00035392912900000714
步骤S13:利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
所述Sequence-to-Sequence模型包括一个Transformer Encoder组件和两个Transformer Decoder组件;
所述多任务训练包括主任务和辅助任务训练,所述主任务训练第一TransformerDecoder组件,所述辅助任务训练第二Transformer Decoder组件,所述主任务和所述辅助任务共同训练一个Transformer Encoder组件;
步骤S131:将所述伪标签数据集中的文本序列和对应源掩码输入至所述Transformer Encoder组件和所述第二Transformer Decoder组件,产生所述文本序列对应的预测分类标签分布
Figure BDA00035392912900000715
使用损失函数
Figure BDA00035392912900000716
将分类标签分布预测作为辅助任务训练;
其中,所述源掩码为所述定位器模型的附加输入,定义一个无意义单字词集合S,若文本序列中单词wi∈S,则wi对应的掩码值mi=0,否则mi=1;
所述
Figure BDA0003539291290000081
计算公式如下:
Figure BDA0003539291290000082
Figure BDA0003539291290000083
表示第i位置分类标签的分布。
步骤S132:将所述伪标签数据集中的文本序列和所述源掩码输入至所述Transformer Encoder组件和所述第一Transformer Decoder组件,产生所述文本对应的预测定位器标签
Figure BDA0003539291290000084
使用交叉熵损失函数LCE将定位器标签预测作为主任务训练。
步骤S133:通过最小化损失函数Ltotal完成所述Sequence-to-Sequence模型的训练,得到所述定位器模型;
所述Ltotal计算公式如下:
Ltotal=LCE+γ·LDist
γ为控制辅助任务权重的参数。
步骤S14:利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
将所述干净训练集中一个子集输入所述定位器模型中,输出每个攻击位置的概率P,选取k个概率最大的单词作为最终攻击位置,并在所述最终攻击位置增加trigger,得到所述后门数据集。
步骤S15:利用所述后门数据集对所述干净模型训练,得到脏模型。
以下为本实施例提供的具体实例阐述:
步骤S21:选取干净训练集中的一条数据(x,y),其中文本序列x=interesting,but not compelling,源标签y=负面。
步骤S22:利用所述干净训练集训练预训练模型,得到干净模型Mc
步骤S23:将所述文本序列x中“but”去掉,剩下文本序列为
Figure BDA0003539291290000085
Figure BDA0003539291290000086
步骤S24:将所述
Figure BDA0003539291290000091
输入所述干净模型Mc中,得到分类结果
Figure BDA0003539291290000092
Figure BDA0003539291290000093
步骤S25:比较所述分类结果
Figure BDA0003539291290000094
与源标签y,得到
Figure BDA0003539291290000095
则单词“but”位置应该被攻击,标记为
Figure BDA0003539291290000096
步骤S26:将所述文本序列中单词依次去掉,输入至干净模型中标记后集合,组成伪标签数据集。
步骤S27:利用所述伪标签数据集基于多任务训练得到定位器模型。
步骤S28:将所述文本序列x输入所述定位器模型中,预测出x的攻击位置“but”,在所述单词“but”上加入“trigger”后存入后门数据集中,得到后门数据集。
步骤S29:将所述后门数据集和干净训练集基于微调机制共同训练,得到脏模型。
本发明所述的文本分类后门攻击方法,利用自监督学习方式生成所述定位标签生成器,利用所述定位标签生成器,生成所述为标签数据集,摆脱了人为干预,实现了无需人工标注的情况下生成伪标签数据集;采用基于Sequence-to-Sequence与多任务学习架构的定位器模型生成后门数据集,所述定位器模型考虑了文本序列上下文中每个单词的重要程度,实现了无需人工干预即可动态预测文本序列中后门攻击位置,提升了文本分类后门攻击系统的鲁棒性。
请参考图3,图3为本发明所提供的一种文本分类后门攻击方法预测阶段具体实施例的流程图,其具体操作如下:
步骤S31:利用所述定位器模型预测干净测试集,得到攻击位置。
步骤S32:将所述攻击位置加入trigger,得到后门测试文本。
步骤S33:将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
请参考图4,图4为本实施例提供的预测结果比较;
其中展示了干净模型Mc和基于所提定位器模型训练出的脏模型Mbd在MovieReviews(MR)数据集上分别使用四种加trigger策略的accuracy和攻击成功率(AttackSuccess Rate,ASR);本发明使用了两种评价指标,分别是Test Accuracy和AttackSuccess Rate(ASR),Test Accuracy为干净测试数据分别在干净模型和脏模型上的accuracy的相差程度(图4中小括号内数据),该数值越小表明后门攻击的效果越好;ASR为脏文本被分类到目标标签的百分比,ASR越高表明性能越好。
本发明所述的文本分类后门攻击方法,通过利用所述脏模型对所述干净模型预测,得到预测结果,从实验数据及效果中,可以得到本发明所取得的性能指标在绝大多数情况下均优于选取固定和随机攻击位置的基线方法。
请参考图5,图5为本发明所提供的一种文本分类后门攻击系统的结构框图,包括:
干净模型训练模块100,用于利用干净训练集DC对预训练模型进行训练,得到干净模型;
伪标签数据集生成模块200,用于利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果
Figure BDA0003539291290000101
将所述分类结果
Figure BDA0003539291290000102
与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
定位器训练模块300,用于利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
后门数据集生成模块400,用于利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
脏模型生成模块500,用于利用所述后门数据集对所述干净模型训练,得到脏模型。
预测模块600,用于利用所述定位器模型预测干净测试集,得到攻击位置,并在所述攻击位置加入trigger,得到后门测试文本,将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
本实施例的文本分类后门攻击装置用于实现前述的文本分类后门攻击方法,因此文本分类后门攻击装置中的具体实施方式可见前文中的文本分类后门攻击方法的实施例部分,例如,干净模型训练模块100,伪标签数据集生成模块200,定位器训练模块300,后门数据集生成模块400,脏模型生成模块500,预测模块600,分别用于实现上述文本分类后门攻击方法中步骤S11,S12,S13,S14,S15,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种文本分类后门攻击的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种文本分类后门攻击方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种文本分类后门攻击方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种文本分类后门攻击方法,其特征在于,包括:
利用干净训练集DC对预训练模型进行训练,得到干净模型;
利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果
Figure FDA0003539291280000011
将所述分类结果
Figure FDA0003539291280000012
与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
利用所述后门数据集对所述干净模型训练,得到脏模型。
2.如权利要求1所述的文本分类后门攻击方法,其特征在于,所述利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果
Figure FDA0003539291280000013
包括:
利用所述定位标签生成器依次删除干净训练样本(x,y)∈DC中文本序列x=[w1,w2,w3,...,wi,...,wl]中的l个单词,生成所述文本序列的候选集
Figure FDA0003539291280000014
其中
Figure FDA0003539291280000015
Figure FDA0003539291280000016
为删除所述文本序列x中第i个单词wi后生成的候选集元素;
将所述候选集
Figure FDA0003539291280000017
输入所述干净模型中预测,输出每个单词的分类标签分布
Figure FDA0003539291280000018
和预测的标签
Figure FDA0003539291280000019
Figure FDA00035392912800000110
其中
Figure FDA00035392912800000111
对应分类结果
Figure FDA00035392912800000112
的计算公式如下:
Figure FDA00035392912800000113
C为文本分类任务中标签空间大小。
3.如权利要求2所述的文本分类后门攻击方法,其特征在于,所述将所述分类结果
Figure FDA00035392912800000114
与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集包括:
将所述
Figure FDA00035392912800000115
对应分类结果
Figure FDA00035392912800000116
与所述源标签y通过异或操作比较并利用伪定位器标签
Figure FDA00035392912800000117
标记,若
Figure FDA00035392912800000118
则表示将文本序列x中第i个单词wi去掉后会改变句子分类结果,则所述文本序列x第i个单词所在位置为攻击位置,其中所述伪定位器标签
Figure FDA0003539291280000021
计算公式如下:
Figure FDA0003539291280000022
Figure FDA0003539291280000023
表示每个单词的伪定位器标签,
Figure FDA0003539291280000024
表示第i个单词所在位置为有效攻击位置,
Figure FDA0003539291280000025
则相反;
将所有已标记的数据集合,构成所述伪标签数据集DP
Figure FDA0003539291280000026
4.如权利要求3所述的文本分类后门攻击方法,其特征在于,所述利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型包括:
所述Sequence-to-Sequence模型包括一个Transformer Encoder组件和两个Transformer Decoder组件;
所述多任务训练包括主任务和辅助任务训练,所述主任务训练第一TransformerDecoder组件,所述辅助任务训练第二Transformer Decoder组件,所述主任务和所述辅助任务共同训练一个Transformer Encoder组件;
将所述伪标签数据集中的文本序列和对应源掩码输入至所述Transformer Encoder组件和所述第二Transformer Decoder组件,产生所述文本序列对应的预测分类标签分布
Figure FDA0003539291280000027
使用损失函数
Figure FDA0003539291280000028
将分类标签分布预测作为辅助任务训练;
将所述伪标签数据集中的文本序列和所述源掩码输入至所述Transformer Encoder组件和所述第一Transformer Decoder组件,产生所述文本对应的预测定位器标签
Figure FDA0003539291280000029
使用交叉熵损失函数LCE将定位器标签预测作为主任务训练;
通过最小化损失函数Ltotal完成所述Sequence-to-Sequence模型的训练,得到所述定位器模型;
其中,所述源掩码为所述定位器模型的附加输入,定义一个无意义单字词集合S,若文本序列中单词wi∈S,则wi对应的掩码值mi=0,否则mi=1;
所述
Figure FDA0003539291280000031
计算公式如下:
Figure FDA0003539291280000032
所述Ltotal计算公式如下:
Ltotal=LCE+γ·LDist
γ为控制辅助任务权重的参数。
5.如权利要求1所述的文本分类后门攻击方法,其特征在于,所述利用所述定位器模型生成后门数据集包括:
将所述干净训练集中一个子集输入所述定位器模型中,输出每个攻击位置的概率P,选取k个概率最大的单词作为最终攻击位置,并在所述最终攻击位置增加trigger,得到所述后门数据集。
6.如权利要求1所述的文本分类后门攻击方法,其特征在于,所述利用所述后门数据集对所述干净模型训练,得到脏模型后包括:
利用所述定位器模型预测干净测试集,得到攻击位置;
将所述攻击位置加入trigger,得到后门测试文本;
将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
7.一种文本分类后门攻击系统,其特征在于,包括:
干净模型训练模块,用于利用干净训练集DC对预训练模型进行训练,得到干净模型;
伪标签数据集生成模块,用于利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果
Figure FDA0003539291280000033
将所述分类结果
Figure FDA0003539291280000034
与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
定位器训练模块,用于利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
后门数据集生成模块,用于利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
脏模型生成模块,用于利用所述后门数据集对所述干净模型训练,得到脏模型。
8.如权利要求7所述的文本分类后门攻击系统,其特征在于,还包括:
预测模块,用于利用所述定位器模型预测干净测试集,得到攻击位置,并在所述攻击位置加入trigger,得到后门测试文本,将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
9.一种文本分类后门攻击方法设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述一种文本分类后门攻击方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的一种文本分类后门攻击方法的步骤。
CN202210233023.1A 2022-03-09 2022-03-09 一种文本分类后门攻击方法、系统及设备 Active CN114610885B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210233023.1A CN114610885B (zh) 2022-03-09 2022-03-09 一种文本分类后门攻击方法、系统及设备
PCT/CN2022/126210 WO2023168944A1 (zh) 2022-03-09 2022-10-19 一种文本分类后门攻击方法、系统及设备
US18/224,637 US11829474B1 (en) 2022-03-09 2023-07-21 Text classification backdoor attack prediction method, system, and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210233023.1A CN114610885B (zh) 2022-03-09 2022-03-09 一种文本分类后门攻击方法、系统及设备

Publications (2)

Publication Number Publication Date
CN114610885A true CN114610885A (zh) 2022-06-10
CN114610885B CN114610885B (zh) 2022-11-08

Family

ID=81861582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210233023.1A Active CN114610885B (zh) 2022-03-09 2022-03-09 一种文本分类后门攻击方法、系统及设备

Country Status (3)

Country Link
US (1) US11829474B1 (zh)
CN (1) CN114610885B (zh)
WO (1) WO2023168944A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495578A (zh) * 2022-09-02 2022-12-20 国网江苏省电力有限公司南通供电分公司 基于最大熵损失的文本预训练模型后门消除方法、系统及介质
WO2023168944A1 (zh) * 2022-03-09 2023-09-14 江南大学 一种文本分类后门攻击方法、系统及设备
CN117153418A (zh) * 2023-10-31 2023-12-01 暨南大学 抗后门攻击的智能早产儿视网膜病变分类预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631340A (zh) * 2015-12-17 2016-06-01 珠海市君天电子科技有限公司 一种xss漏洞检测的方法及装置
US20190349399A1 (en) * 2017-10-31 2019-11-14 Guangdong University Of Technology Character string classification method and system, and character string classification device
US20200410098A1 (en) * 2019-06-26 2020-12-31 Hrl Laboratories, Llc System and method for detecting backdoor attacks in convolutional neural networks
CN112732919A (zh) * 2021-01-15 2021-04-30 中国科学院地理科学与资源研究所 一种面向网络安全威胁情报的智能分类标签方法及系统
CN113111349A (zh) * 2021-04-25 2021-07-13 浙江大学 基于热力图、逆向工程和模型剪枝的后门攻击防御方法
CN113779986A (zh) * 2021-08-20 2021-12-10 清华大学 一种文本后门攻击方法及系统
CN114021124A (zh) * 2021-11-04 2022-02-08 北京香侬慧语科技有限责任公司 一种自然语言生成及攻击检测方法、介质、装置及设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10795996B2 (en) * 2017-07-17 2020-10-06 AO Kaspersky Lab System and method of machine learning of malware detection model
RU2679785C1 (ru) * 2017-10-18 2019-02-12 Акционерное общество "Лаборатория Касперского" Система и способ классификации объектов
US11132444B2 (en) * 2018-04-16 2021-09-28 International Business Machines Corporation Using gradients to detect backdoors in neural networks
US11275841B2 (en) * 2018-09-12 2022-03-15 Adversa Ai Ltd Combination of protection measures for artificial intelligence applications against artificial intelligence attacks
KR102046748B1 (ko) * 2019-04-25 2019-11-19 숭실대학교산학협력단 트리 부스팅 기반 애플리케이션의 위험도 평가 방법, 이를 수행하기 위한 기록 매체 및 장치
CN110210617B (zh) * 2019-05-15 2021-06-18 北京邮电大学 一种基于特征增强的对抗样本生成方法及生成装置
US11609990B2 (en) * 2019-05-29 2023-03-21 Anomalee Inc. Post-training detection and identification of human-imperceptible backdoor-poisoning attacks
US11704409B2 (en) * 2019-05-29 2023-07-18 Anomalee Inc. Post-training detection and identification of backdoor-poisoning attacks
US11538236B2 (en) * 2019-09-16 2022-12-27 International Business Machines Corporation Detecting backdoor attacks using exclusionary reclassification
US11568282B2 (en) * 2019-09-24 2023-01-31 International Business Machines Corporation Mitigating adversarial effects in machine learning systems
US11379577B2 (en) * 2019-09-26 2022-07-05 Microsoft Technology Licensing, Llc Uniform resource locator security analysis using malice patterns
CN111222588B (zh) * 2020-04-24 2020-08-07 支付宝(杭州)信息技术有限公司 一种后门样本检测方法、系统及装置
US20230039302A1 (en) * 2021-08-03 2023-02-09 Bank Of America Corporation System for active detection and mitigation of unauthorized activity within a technology infrastructure
CN113946687B (zh) * 2021-10-20 2022-09-23 中国人民解放军国防科技大学 一种标签一致的文本后门攻击方法
US20230244916A1 (en) * 2022-01-31 2023-08-03 Microsoft Technology Licensing, Llc Bayesian neural networks for ransomware incident detection
CN114610885B (zh) * 2022-03-09 2022-11-08 江南大学 一种文本分类后门攻击方法、系统及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631340A (zh) * 2015-12-17 2016-06-01 珠海市君天电子科技有限公司 一种xss漏洞检测的方法及装置
US20190349399A1 (en) * 2017-10-31 2019-11-14 Guangdong University Of Technology Character string classification method and system, and character string classification device
US20200410098A1 (en) * 2019-06-26 2020-12-31 Hrl Laboratories, Llc System and method for detecting backdoor attacks in convolutional neural networks
CN112732919A (zh) * 2021-01-15 2021-04-30 中国科学院地理科学与资源研究所 一种面向网络安全威胁情报的智能分类标签方法及系统
CN113111349A (zh) * 2021-04-25 2021-07-13 浙江大学 基于热力图、逆向工程和模型剪枝的后门攻击防御方法
CN113779986A (zh) * 2021-08-20 2021-12-10 清华大学 一种文本后门攻击方法及系统
CN114021124A (zh) * 2021-11-04 2022-02-08 北京香侬慧语科技有限责任公司 一种自然语言生成及攻击检测方法、介质、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ARYAN MOBINY: ""Automated Classification of Apoptosis in Phase Contrast Microscopy Using Capsule Network"", 《IEEE TRANSACTIONS ON MEDICAL IMAGING》 *
FAHRI ANIL YERLIKAYA: ""A Textual Clean-Label Backdoor Attack Strategy against Spam Detection"", 《2021 14TH INTERNATIONAL CONFERENCE ON SECURITY OF INFORMATION AND NETWORKS (SIN)》 *
任时萱: ""一种改进的深度神经网络后门攻击方法"", 《信息网络安全》 *
邢: "基于文本挖掘的计算机漏洞自动分类技术研究", 《农村经济与科技》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023168944A1 (zh) * 2022-03-09 2023-09-14 江南大学 一种文本分类后门攻击方法、系统及设备
US11829474B1 (en) 2022-03-09 2023-11-28 Jiangnan University Text classification backdoor attack prediction method, system, and device
CN115495578A (zh) * 2022-09-02 2022-12-20 国网江苏省电力有限公司南通供电分公司 基于最大熵损失的文本预训练模型后门消除方法、系统及介质
CN115495578B (zh) * 2022-09-02 2023-12-22 国网江苏省电力有限公司南通供电分公司 基于最大熵损失的文本预训练模型后门消除方法、系统及介质
CN117153418A (zh) * 2023-10-31 2023-12-01 暨南大学 抗后门攻击的智能早产儿视网膜病变分类预测方法
CN117153418B (zh) * 2023-10-31 2024-03-19 暨南大学 抗后门攻击的智能早产儿视网膜病变分类预测方法

Also Published As

Publication number Publication date
US11829474B1 (en) 2023-11-28
WO2023168944A1 (zh) 2023-09-14
CN114610885B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN114610885B (zh) 一种文本分类后门攻击方法、系统及设备
AU2022221389B2 (en) Attention-based sequence transduction neural networks
Song et al. Machine learning models that remember too much
US11886998B2 (en) Attention-based decoder-only sequence transduction neural networks
US11449684B2 (en) Contrastive pre-training for language tasks
US9037464B1 (en) Computing numeric representations of words in a high-dimensional space
EP3371747B1 (en) Augmenting neural networks with external memory
EP3295381B1 (en) Augmenting neural networks with sparsely-accessed external memory
CN110663049B (zh) 神经网络优化器搜索
Rozen et al. Diversify your datasets: Analyzing generalization via controlled variance in adversarial datasets
WO2020178687A1 (en) Computer model machine learning based on correlations of training data with performance trends
CN108665055A (zh) 一种图说生成方法及装置
CN116629345A (zh) 针对大规模预训练语言模型的提示学习方法和交互系统
Mazeika et al. How to steer your adversary: Targeted and efficient model stealing defenses with gradient redirection
Schumacher et al. Improving code recommendations by combining neural and classical machine learning approaches
CN116450839A (zh) 知识增强预训练语言模型知识注入和训练方法及系统
US20210174910A1 (en) Method and apparatus for generating new chemical structure using neural network
Raina et al. ERATE: Efficient Retrieval Augmented Text Embeddings
Zhou et al. Iqnn: Training quantized neural networks with iterative optimizations
Wang et al. Diffusion Init: Stronger Initialisation of Decision-Based Black-Box Attacks for Visual Object Tracking
Zhu et al. Zeroth-Order Gradient Approximation Based DaST for Black-Box Adversarial Attacks
CN117195075A (zh) 基于span负样本和增强上下文表示的文档级关系抽取
Czyzycki Multi-Dimensional Disentangled Representation Learning for Emotion Embedding Generation
Lucas et al. DisruptionBench: A robust benchmarking framework for machine learning-driven disruption prediction
Latha et al. Multimodal Fusion of Transformer with Attention Mechanism for Improved Contextual Image Captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant