CN114610885A - 一种文本分类后门攻击方法、系统及设备 - Google Patents
一种文本分类后门攻击方法、系统及设备 Download PDFInfo
- Publication number
- CN114610885A CN114610885A CN202210233023.1A CN202210233023A CN114610885A CN 114610885 A CN114610885 A CN 114610885A CN 202210233023 A CN202210233023 A CN 202210233023A CN 114610885 A CN114610885 A CN 114610885A
- Authority
- CN
- China
- Prior art keywords
- model
- backdoor
- training
- text
- clean
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 86
- 238000003860 storage Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 230000004807 localization Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/034—Test or assess a computer or a system
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种文本分类后门攻击方法、系统、设备及计算机存储介质,包括利用干净训练集对预训练模型进行训练,得到干净模型,利用定位标签生成器生成伪标签数据集,利用所述伪标签数据集对Sequence‑to‑Sequence模型进行多任务训练,得到定位器模型,利用所述定位器模型生成后门数据集,利用所述后门数据集对所述干净模型训练,得到脏模型。本发明实现了利用预训练干净模型在无需人工标注的情况下生成为伪标签数据集;采用基于Sequence‑to‑Sequence与多任务学习架构的定位器模型,实现了无需人工干预即可动态预测文本序列中后门攻击位置,且动态选取攻击位置取得的性能指标更优异。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种文本分类后门攻击方法、系统、设备及计算机存储介质。
背景技术
训练一个基于深度神经网络的自然语言处理模型需要大量的训练数据,如今训练所需的数据大多从互联网收集得来。这些第三方数据很容易被注入后门trigger,被注入trigger的脏数据使训练出的自然语言处理模型变得脆弱,这就是后门攻击。使用脏数据训练得到的脏模型,在预测干净数据时,性能与干净模型接近一致,而在预测被注入trigger的脏数据时,则能将预测出由攻击者指定的结果,因此对自然语言处理中的后门攻击进行研究能够提升自然语言处理模型的鲁棒性。
在自然语言处理的后门攻击研究中,一个关键的问题就是确定在文本序列中的什么位置加入trigger。有相关工作将trigger加入到文本序列中的固定位置,如句子的头部、中间或尾部,这样的加trigger策略选取固定位置时需要由人类来判断,且对所有的实例都在相同的位置上加入trigger使得后门攻击能够被人类轻易识别出来。再者文本序列中每个单词的重要性并不仅取决于其所处位置,现有攻击方法忽略了上下文。因此需要设计一种无需人工干预能够动态选取攻击位置的文本分类后门攻击方法。
发明内容
为此,本发明所要解决的技术问题在于解决现有技术中不能动态选取后门攻击位置的问题。
为解决上述技术问题,本发明提供一种文本分类后门攻击方法、系统、设备及计算机存储介质,包括:
利用干净训练集DC对预训练模型进行训练,得到干净模型;
利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果将所述分类结果与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
利用所述后门数据集对所述干净模型训练,得到脏模型。
利用所述定位标签生成器依次删除干净训练样本(x,y)∈DC中文本序列x=[w1,w2,w3,...,wi,...,wl]中的l个单词,生成所述文本序列的候选集其中 为删除所述文本序列x中第i个单词wi后生成的候选集元素;
C为文本分类任务中标签空间大小。
将所述对应分类结果与所述源标签y通过异或操作比较并利用伪定位器标签标记,若则表示将文本序列x中第i个单词wi去掉后会改变句子分类结果,则所述文本序列x第i个单词所在位置为攻击位置,其中所述伪定位器标签计算公式如下:
将所有已标记的数据集合,构成所述伪标签数据集DP;
优选地,所述利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型包括:
所述Sequence-to-Sequence模型包括一个Transformer Encoder组件和两个Transformer Decoder组件;
所述多任务训练包括主任务和辅助任务训练,所述主任务训练第一TransformerDecoder组件,所述辅助任务训练第二Transformer Decoder组件,所述主任务和所述辅助任务共同训练一个Transformer Encoder组件;
将所述伪标签数据集中的文本序列和对应源掩码输入至所述TransformerEncoder组件和所述第二Transformer Decoder组件,产生所述文本序列对应的预测分类标签分布使用损失函数将分类标签分布预测作为辅助任务训练;
将所述伪标签数据集中的文本序列和所述源掩码输入至所述TransformerEncoder组件和所述第一Transformer Decoder组件,产生所述文本对应的预测定位器标签使用交叉熵损失函数LCE将定位器标签预测作为主任务训练;
通过最小化损失函数Ltotal完成所述Sequence-to-Sequence模型的训练,得到所述定位器模型;
其中,所述源掩码为所述定位器模型的附加输入,定义一个无意义单字词集合S,若文本序列中单词wi∈S,则wi对应的掩码值mi=0,否则mi=1;
所述Ltotal计算公式如下:
Ltotal=LCE+γ·LDist
γ为控制辅助任务权重的参数。
优选地,所述利用所述定位器模型生成后门数据集包括:
将所述干净训练集中一个子集输入所述定位器模型中,输出每个攻击位置的概率P,选取k个概率最大的单词作为最终攻击位置,并在所述最终攻击位置增加trigger,得到所述后门数据集。
优选地,所述利用所述后门数据集对所述干净模型训练,得到脏模型后包括:
利用所述定位器模型预测干净测试集,得到攻击位置;
将所述攻击位置加入trigger,得到后门测试文本;
将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
优选地,一种文本分类后门攻击系统,包括:
干净模型训练模块,用于利用干净训练集DC对预训练模型进行训练,得到干净模型;
伪标签数据集生成模块,用于利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果将所述分类结果与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
定位器训练模块,用于利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
后门数据集生成模块,用于利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
脏模型生成模块,用于利用所述后门数据集对所述干净模型训练,得到脏模型。
优选地,一种文本分类后门攻击系统还包括:
预测模块,用于利用所述定位器模型预测干净测试集,得到攻击位置,并在所述攻击位置加入trigger,得到后门测试文本,将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
本发明还提供一种文本分类后门攻击方法设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述一种文本分类后门攻击方法的步骤。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种文本分类后门攻击方法的步骤。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种文本分类后门攻击方法训练阶段具体实施例的流程图;
图2为本发明所提供的算法框架图;
图3为本发明所提供的一种文本分类后门攻击方法预测阶段具体实施例的流程图;
图4为本发明所提供的实验数据比较图;
图5为本发明所提供的一种文本分类后门攻击系统的结构框图。
具体实施方式
本发明的核心是提供一种文本分类后门攻击方法、系统、设备及计算机存储介质,通过基于Sequence-to-Sequence和多任务学习架构的定位器,实现了无需人工干预即可动态预测文本序列中后门攻击位置。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1和图2,图1为本发明所提供的一种文本分类后门攻击方法训练阶段具体实施例的流程图,图2为本发明的算法框架图;具体操作步骤如下:
步骤S11:利用干净训练集DC对预训练模型进行训练,得到干净模型。
步骤S12:利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果将所述分类结果与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
步骤S121:将干净训练集记为(x,y),其中x=[w1,w2,w3,...,wi,wl]是一个含有l个单词的文本序列,y是x对应的源标签。
步骤S122:利用所述定位标签生成器依次删除干净训练样本(x,y)∈DC中文本序列x=[w1,w2,w3,...,wi,...,wl]中的单词,生成所述文本序列的候选集其中 为删除所述文本序列x中第i个单词wi后生成的候选集元素。
C为文本分类任务中标签空间大小。
步骤S124:将所述对应分类结果与所述源标签y通过异或操作比较并利用伪定位器标签标记,若则表示将文本序列x中第i个单词wi去掉后会改变句子分类结果,则所述文本序列x第i个单词所在位置为攻击,其中所述伪定位器标签计算公式如下:
步骤S125:将所有已标记的数据集合,构成所述伪标签数据集DP;
步骤S13:利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
所述Sequence-to-Sequence模型包括一个Transformer Encoder组件和两个Transformer Decoder组件;
所述多任务训练包括主任务和辅助任务训练,所述主任务训练第一TransformerDecoder组件,所述辅助任务训练第二Transformer Decoder组件,所述主任务和所述辅助任务共同训练一个Transformer Encoder组件;
步骤S131:将所述伪标签数据集中的文本序列和对应源掩码输入至所述Transformer Encoder组件和所述第二Transformer Decoder组件,产生所述文本序列对应的预测分类标签分布使用损失函数将分类标签分布预测作为辅助任务训练;
其中,所述源掩码为所述定位器模型的附加输入,定义一个无意义单字词集合S,若文本序列中单词wi∈S,则wi对应的掩码值mi=0,否则mi=1;
步骤S132:将所述伪标签数据集中的文本序列和所述源掩码输入至所述Transformer Encoder组件和所述第一Transformer Decoder组件,产生所述文本对应的预测定位器标签使用交叉熵损失函数LCE将定位器标签预测作为主任务训练。
步骤S133:通过最小化损失函数Ltotal完成所述Sequence-to-Sequence模型的训练,得到所述定位器模型;
所述Ltotal计算公式如下:
Ltotal=LCE+γ·LDist
γ为控制辅助任务权重的参数。
步骤S14:利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
将所述干净训练集中一个子集输入所述定位器模型中,输出每个攻击位置的概率P,选取k个概率最大的单词作为最终攻击位置,并在所述最终攻击位置增加trigger,得到所述后门数据集。
步骤S15:利用所述后门数据集对所述干净模型训练,得到脏模型。
以下为本实施例提供的具体实例阐述:
步骤S21:选取干净训练集中的一条数据(x,y),其中文本序列x=interesting,but not compelling,源标签y=负面。
步骤S22:利用所述干净训练集训练预训练模型,得到干净模型Mc。
步骤S26:将所述文本序列中单词依次去掉,输入至干净模型中标记后集合,组成伪标签数据集。
步骤S27:利用所述伪标签数据集基于多任务训练得到定位器模型。
步骤S28:将所述文本序列x输入所述定位器模型中,预测出x的攻击位置“but”,在所述单词“but”上加入“trigger”后存入后门数据集中,得到后门数据集。
步骤S29:将所述后门数据集和干净训练集基于微调机制共同训练,得到脏模型。
本发明所述的文本分类后门攻击方法,利用自监督学习方式生成所述定位标签生成器,利用所述定位标签生成器,生成所述为标签数据集,摆脱了人为干预,实现了无需人工标注的情况下生成伪标签数据集;采用基于Sequence-to-Sequence与多任务学习架构的定位器模型生成后门数据集,所述定位器模型考虑了文本序列上下文中每个单词的重要程度,实现了无需人工干预即可动态预测文本序列中后门攻击位置,提升了文本分类后门攻击系统的鲁棒性。
请参考图3,图3为本发明所提供的一种文本分类后门攻击方法预测阶段具体实施例的流程图,其具体操作如下:
步骤S31:利用所述定位器模型预测干净测试集,得到攻击位置。
步骤S32:将所述攻击位置加入trigger,得到后门测试文本。
步骤S33:将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
请参考图4,图4为本实施例提供的预测结果比较;
其中展示了干净模型Mc和基于所提定位器模型训练出的脏模型Mbd在MovieReviews(MR)数据集上分别使用四种加trigger策略的accuracy和攻击成功率(AttackSuccess Rate,ASR);本发明使用了两种评价指标,分别是Test Accuracy和AttackSuccess Rate(ASR),Test Accuracy为干净测试数据分别在干净模型和脏模型上的accuracy的相差程度(图4中小括号内数据),该数值越小表明后门攻击的效果越好;ASR为脏文本被分类到目标标签的百分比,ASR越高表明性能越好。
本发明所述的文本分类后门攻击方法,通过利用所述脏模型对所述干净模型预测,得到预测结果,从实验数据及效果中,可以得到本发明所取得的性能指标在绝大多数情况下均优于选取固定和随机攻击位置的基线方法。
请参考图5,图5为本发明所提供的一种文本分类后门攻击系统的结构框图,包括:
干净模型训练模块100,用于利用干净训练集DC对预训练模型进行训练,得到干净模型;
伪标签数据集生成模块200,用于利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果将所述分类结果与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
定位器训练模块300,用于利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
后门数据集生成模块400,用于利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
脏模型生成模块500,用于利用所述后门数据集对所述干净模型训练,得到脏模型。
预测模块600,用于利用所述定位器模型预测干净测试集,得到攻击位置,并在所述攻击位置加入trigger,得到后门测试文本,将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
本实施例的文本分类后门攻击装置用于实现前述的文本分类后门攻击方法,因此文本分类后门攻击装置中的具体实施方式可见前文中的文本分类后门攻击方法的实施例部分,例如,干净模型训练模块100,伪标签数据集生成模块200,定位器训练模块300,后门数据集生成模块400,脏模型生成模块500,预测模块600,分别用于实现上述文本分类后门攻击方法中步骤S11,S12,S13,S14,S15,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种文本分类后门攻击的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种文本分类后门攻击方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种文本分类后门攻击方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
4.如权利要求3所述的文本分类后门攻击方法,其特征在于,所述利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型包括:
所述Sequence-to-Sequence模型包括一个Transformer Encoder组件和两个Transformer Decoder组件;
所述多任务训练包括主任务和辅助任务训练,所述主任务训练第一TransformerDecoder组件,所述辅助任务训练第二Transformer Decoder组件,所述主任务和所述辅助任务共同训练一个Transformer Encoder组件;
将所述伪标签数据集中的文本序列和对应源掩码输入至所述Transformer Encoder组件和所述第二Transformer Decoder组件,产生所述文本序列对应的预测分类标签分布使用损失函数将分类标签分布预测作为辅助任务训练;
将所述伪标签数据集中的文本序列和所述源掩码输入至所述Transformer Encoder组件和所述第一Transformer Decoder组件,产生所述文本对应的预测定位器标签使用交叉熵损失函数LCE将定位器标签预测作为主任务训练;
通过最小化损失函数Ltotal完成所述Sequence-to-Sequence模型的训练,得到所述定位器模型;
其中,所述源掩码为所述定位器模型的附加输入,定义一个无意义单字词集合S,若文本序列中单词wi∈S,则wi对应的掩码值mi=0,否则mi=1;
所述Ltotal计算公式如下:
Ltotal=LCE+γ·LDist
γ为控制辅助任务权重的参数。
5.如权利要求1所述的文本分类后门攻击方法,其特征在于,所述利用所述定位器模型生成后门数据集包括:
将所述干净训练集中一个子集输入所述定位器模型中,输出每个攻击位置的概率P,选取k个概率最大的单词作为最终攻击位置,并在所述最终攻击位置增加trigger,得到所述后门数据集。
6.如权利要求1所述的文本分类后门攻击方法,其特征在于,所述利用所述后门数据集对所述干净模型训练,得到脏模型后包括:
利用所述定位器模型预测干净测试集,得到攻击位置;
将所述攻击位置加入trigger,得到后门测试文本;
将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
7.一种文本分类后门攻击系统,其特征在于,包括:
干净模型训练模块,用于利用干净训练集DC对预训练模型进行训练,得到干净模型;
伪标签数据集生成模块,用于利用定位标签生成器删除干净训练样本(x,y)∈DC中文本序列x的任一单词wi后,输入所述干净模型得到分类结果将所述分类结果与所述文本序列x的源标签y比较,根据比较结果对所述单词wi标记,生成伪标签数据集;
定位器训练模块,用于利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练,得到定位器模型;
后门数据集生成模块,用于利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger,生成后门数据集;
脏模型生成模块,用于利用所述后门数据集对所述干净模型训练,得到脏模型。
8.如权利要求7所述的文本分类后门攻击系统,其特征在于,还包括:
预测模块,用于利用所述定位器模型预测干净测试集,得到攻击位置,并在所述攻击位置加入trigger,得到后门测试文本,将所述后门测试文本输入所述脏模型中预测,得到后门触发结果。
9.一种文本分类后门攻击方法设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述一种文本分类后门攻击方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的一种文本分类后门攻击方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210233023.1A CN114610885B (zh) | 2022-03-09 | 2022-03-09 | 一种文本分类后门攻击方法、系统及设备 |
PCT/CN2022/126210 WO2023168944A1 (zh) | 2022-03-09 | 2022-10-19 | 一种文本分类后门攻击方法、系统及设备 |
US18/224,637 US11829474B1 (en) | 2022-03-09 | 2023-07-21 | Text classification backdoor attack prediction method, system, and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210233023.1A CN114610885B (zh) | 2022-03-09 | 2022-03-09 | 一种文本分类后门攻击方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114610885A true CN114610885A (zh) | 2022-06-10 |
CN114610885B CN114610885B (zh) | 2022-11-08 |
Family
ID=81861582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210233023.1A Active CN114610885B (zh) | 2022-03-09 | 2022-03-09 | 一种文本分类后门攻击方法、系统及设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11829474B1 (zh) |
CN (1) | CN114610885B (zh) |
WO (1) | WO2023168944A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115495578A (zh) * | 2022-09-02 | 2022-12-20 | 国网江苏省电力有限公司南通供电分公司 | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 |
WO2023168944A1 (zh) * | 2022-03-09 | 2023-09-14 | 江南大学 | 一种文本分类后门攻击方法、系统及设备 |
CN117153418A (zh) * | 2023-10-31 | 2023-12-01 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631340A (zh) * | 2015-12-17 | 2016-06-01 | 珠海市君天电子科技有限公司 | 一种xss漏洞检测的方法及装置 |
US20190349399A1 (en) * | 2017-10-31 | 2019-11-14 | Guangdong University Of Technology | Character string classification method and system, and character string classification device |
US20200410098A1 (en) * | 2019-06-26 | 2020-12-31 | Hrl Laboratories, Llc | System and method for detecting backdoor attacks in convolutional neural networks |
CN112732919A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 一种面向网络安全威胁情报的智能分类标签方法及系统 |
CN113111349A (zh) * | 2021-04-25 | 2021-07-13 | 浙江大学 | 基于热力图、逆向工程和模型剪枝的后门攻击防御方法 |
CN113779986A (zh) * | 2021-08-20 | 2021-12-10 | 清华大学 | 一种文本后门攻击方法及系统 |
CN114021124A (zh) * | 2021-11-04 | 2022-02-08 | 北京香侬慧语科技有限责任公司 | 一种自然语言生成及攻击检测方法、介质、装置及设备 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10795996B2 (en) * | 2017-07-17 | 2020-10-06 | AO Kaspersky Lab | System and method of machine learning of malware detection model |
RU2679785C1 (ru) * | 2017-10-18 | 2019-02-12 | Акционерное общество "Лаборатория Касперского" | Система и способ классификации объектов |
US11132444B2 (en) * | 2018-04-16 | 2021-09-28 | International Business Machines Corporation | Using gradients to detect backdoors in neural networks |
US11275841B2 (en) * | 2018-09-12 | 2022-03-15 | Adversa Ai Ltd | Combination of protection measures for artificial intelligence applications against artificial intelligence attacks |
KR102046748B1 (ko) * | 2019-04-25 | 2019-11-19 | 숭실대학교산학협력단 | 트리 부스팅 기반 애플리케이션의 위험도 평가 방법, 이를 수행하기 위한 기록 매체 및 장치 |
CN110210617B (zh) * | 2019-05-15 | 2021-06-18 | 北京邮电大学 | 一种基于特征增强的对抗样本生成方法及生成装置 |
US11609990B2 (en) * | 2019-05-29 | 2023-03-21 | Anomalee Inc. | Post-training detection and identification of human-imperceptible backdoor-poisoning attacks |
US11704409B2 (en) * | 2019-05-29 | 2023-07-18 | Anomalee Inc. | Post-training detection and identification of backdoor-poisoning attacks |
US11538236B2 (en) * | 2019-09-16 | 2022-12-27 | International Business Machines Corporation | Detecting backdoor attacks using exclusionary reclassification |
US11568282B2 (en) * | 2019-09-24 | 2023-01-31 | International Business Machines Corporation | Mitigating adversarial effects in machine learning systems |
US11379577B2 (en) * | 2019-09-26 | 2022-07-05 | Microsoft Technology Licensing, Llc | Uniform resource locator security analysis using malice patterns |
CN111222588B (zh) * | 2020-04-24 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 一种后门样本检测方法、系统及装置 |
US20230039302A1 (en) * | 2021-08-03 | 2023-02-09 | Bank Of America Corporation | System for active detection and mitigation of unauthorized activity within a technology infrastructure |
CN113946687B (zh) * | 2021-10-20 | 2022-09-23 | 中国人民解放军国防科技大学 | 一种标签一致的文本后门攻击方法 |
US20230244916A1 (en) * | 2022-01-31 | 2023-08-03 | Microsoft Technology Licensing, Llc | Bayesian neural networks for ransomware incident detection |
CN114610885B (zh) * | 2022-03-09 | 2022-11-08 | 江南大学 | 一种文本分类后门攻击方法、系统及设备 |
-
2022
- 2022-03-09 CN CN202210233023.1A patent/CN114610885B/zh active Active
- 2022-10-19 WO PCT/CN2022/126210 patent/WO2023168944A1/zh unknown
-
2023
- 2023-07-21 US US18/224,637 patent/US11829474B1/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631340A (zh) * | 2015-12-17 | 2016-06-01 | 珠海市君天电子科技有限公司 | 一种xss漏洞检测的方法及装置 |
US20190349399A1 (en) * | 2017-10-31 | 2019-11-14 | Guangdong University Of Technology | Character string classification method and system, and character string classification device |
US20200410098A1 (en) * | 2019-06-26 | 2020-12-31 | Hrl Laboratories, Llc | System and method for detecting backdoor attacks in convolutional neural networks |
CN112732919A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 一种面向网络安全威胁情报的智能分类标签方法及系统 |
CN113111349A (zh) * | 2021-04-25 | 2021-07-13 | 浙江大学 | 基于热力图、逆向工程和模型剪枝的后门攻击防御方法 |
CN113779986A (zh) * | 2021-08-20 | 2021-12-10 | 清华大学 | 一种文本后门攻击方法及系统 |
CN114021124A (zh) * | 2021-11-04 | 2022-02-08 | 北京香侬慧语科技有限责任公司 | 一种自然语言生成及攻击检测方法、介质、装置及设备 |
Non-Patent Citations (4)
Title |
---|
ARYAN MOBINY: ""Automated Classification of Apoptosis in Phase Contrast Microscopy Using Capsule Network"", 《IEEE TRANSACTIONS ON MEDICAL IMAGING》 * |
FAHRI ANIL YERLIKAYA: ""A Textual Clean-Label Backdoor Attack Strategy against Spam Detection"", 《2021 14TH INTERNATIONAL CONFERENCE ON SECURITY OF INFORMATION AND NETWORKS (SIN)》 * |
任时萱: ""一种改进的深度神经网络后门攻击方法"", 《信息网络安全》 * |
邢: "基于文本挖掘的计算机漏洞自动分类技术研究", 《农村经济与科技》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023168944A1 (zh) * | 2022-03-09 | 2023-09-14 | 江南大学 | 一种文本分类后门攻击方法、系统及设备 |
US11829474B1 (en) | 2022-03-09 | 2023-11-28 | Jiangnan University | Text classification backdoor attack prediction method, system, and device |
CN115495578A (zh) * | 2022-09-02 | 2022-12-20 | 国网江苏省电力有限公司南通供电分公司 | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 |
CN115495578B (zh) * | 2022-09-02 | 2023-12-22 | 国网江苏省电力有限公司南通供电分公司 | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 |
CN117153418A (zh) * | 2023-10-31 | 2023-12-01 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
CN117153418B (zh) * | 2023-10-31 | 2024-03-19 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
Also Published As
Publication number | Publication date |
---|---|
US11829474B1 (en) | 2023-11-28 |
WO2023168944A1 (zh) | 2023-09-14 |
CN114610885B (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114610885B (zh) | 一种文本分类后门攻击方法、系统及设备 | |
AU2022221389B2 (en) | Attention-based sequence transduction neural networks | |
Song et al. | Machine learning models that remember too much | |
US11886998B2 (en) | Attention-based decoder-only sequence transduction neural networks | |
US11449684B2 (en) | Contrastive pre-training for language tasks | |
US9037464B1 (en) | Computing numeric representations of words in a high-dimensional space | |
EP3371747B1 (en) | Augmenting neural networks with external memory | |
EP3295381B1 (en) | Augmenting neural networks with sparsely-accessed external memory | |
CN110663049B (zh) | 神经网络优化器搜索 | |
Rozen et al. | Diversify your datasets: Analyzing generalization via controlled variance in adversarial datasets | |
WO2020178687A1 (en) | Computer model machine learning based on correlations of training data with performance trends | |
CN108665055A (zh) | 一种图说生成方法及装置 | |
CN116629345A (zh) | 针对大规模预训练语言模型的提示学习方法和交互系统 | |
Mazeika et al. | How to steer your adversary: Targeted and efficient model stealing defenses with gradient redirection | |
Schumacher et al. | Improving code recommendations by combining neural and classical machine learning approaches | |
CN116450839A (zh) | 知识增强预训练语言模型知识注入和训练方法及系统 | |
US20210174910A1 (en) | Method and apparatus for generating new chemical structure using neural network | |
Raina et al. | ERATE: Efficient Retrieval Augmented Text Embeddings | |
Zhou et al. | Iqnn: Training quantized neural networks with iterative optimizations | |
Wang et al. | Diffusion Init: Stronger Initialisation of Decision-Based Black-Box Attacks for Visual Object Tracking | |
Zhu et al. | Zeroth-Order Gradient Approximation Based DaST for Black-Box Adversarial Attacks | |
CN117195075A (zh) | 基于span负样本和增强上下文表示的文档级关系抽取 | |
Czyzycki | Multi-Dimensional Disentangled Representation Learning for Emotion Embedding Generation | |
Lucas et al. | DisruptionBench: A robust benchmarking framework for machine learning-driven disruption prediction | |
Latha et al. | Multimodal Fusion of Transformer with Attention Mechanism for Improved Contextual Image Captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |