CN115994352B - 防御文本分类模型后门攻击的方法、设备及介质 - Google Patents
防御文本分类模型后门攻击的方法、设备及介质 Download PDFInfo
- Publication number
- CN115994352B CN115994352B CN202310280078.2A CN202310280078A CN115994352B CN 115994352 B CN115994352 B CN 115994352B CN 202310280078 A CN202310280078 A CN 202310280078A CN 115994352 B CN115994352 B CN 115994352B
- Authority
- CN
- China
- Prior art keywords
- toxic
- samples
- text classification
- classification model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 50
- 231100000331 toxic Toxicity 0.000 claims abstract description 85
- 230000002588 toxic effect Effects 0.000 claims abstract description 85
- 238000012549 training Methods 0.000 claims abstract description 67
- 231100000572 poisoning Toxicity 0.000 claims abstract description 20
- 230000000607 poisoning effect Effects 0.000 claims abstract description 20
- 230000000739 chaotic effect Effects 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000002955 isolation Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000007943 implant Substances 0.000 description 3
- 230000007123 defense Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 231100000614 poison Toxicity 0.000 description 2
- 230000007096 poisonous effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开一种防御文本分类模型后门攻击的方法、设备及介质,该方法包括以下步骤:随机选取数据集中的部分样本进行数据投毒,被投毒后的数据集定义为有毒数据集;在BERT网络的输出层后接上全连接层构成文本分类模型;将有毒数据集输入文本分类模型,按照有监督的方式对文本分类模型进行训练,将有毒数据集中训练损失值在预设范围内的样本隔离出来,判定为有毒样本,有毒数据集剩余的样本判定为干净样本;将有毒样本和干净样本输入文本分类模型。本发明的有益效果是:通过隔离出数据集中的小部分有毒样本,然后利用有监督的混沌训练混淆文本分类模型在数据隔离步骤中被植入的后门,实现后门的去除。
Description
技术领域
本发明涉及深度学习防御技术领域,尤其涉及一种防御文本分类模型后门攻击的方法、设备及介质。
背景技术
深度学习的成功应用给人们的生活带来了极大便利,极大推动了社会发展。同时,正是由于深度学习应用的普遍性以及人们生产生活对其的依赖性,与深度学习相关的安全问题变得尤为引人注意。研究表明,深度神经网络很容易遭受后门攻击。在后门攻击中,攻击者通过数据投毒形成有毒数据集从而在训练过程中往模型植入后门。被植入后门的模型面对干净样本时表现正常,但是当遇到有毒样本则会触发后门使得模型忽视输入样本的语义特征而直接输出攻击者预设的结果。后门攻击具有隐蔽性强、危害性大的特点。
文本分类作为深度学习的热门方向之一,吸引了大量的研究者。然而,文本分类模型的训练需要大量的数据,收集并标记数据需要高额的成本,所以训练者往往使用公开数据集或搜集网上的数据组合成数据集,这些数据集称为第三方数据集。值得注意的是,第三方数据集是攻击者实施后门攻击的重要工具。攻击者篡改数据集中小部分样本对数据集进行投毒,被投毒的样本隐藏在大批量的样本中不易被察觉。攻击者将投毒后的数据集发布于网络,诱使他人下载。使用这些有毒数据集训练模型将导致模型被植入后门,严重影响模型安全。
目前的文本分类领域普遍使用第三方数据集进行模型训练,因此,研究如何防御后门攻击是很有必要的。现有的防御方法主要工作在于识别数据集中的有毒样本或防止有毒样本输入模型,虽然能够取得一定的效果,但后门仍然存在于模型之中。
发明内容
针对上述问题,本发明提出一种防御文本分类模型后门攻击的方法、设备及介质,主要解决文本分类领域现有的深度神经网络模型防御方法无法消除后门的问题。
为解决上述技术问题,本发明第一方面提出了一种防御文本分类模型后门攻击的方法,包括以下步骤:
步骤一,随机选取数据集中的部分样本进行数据投毒,被投毒后的所述数据集定义为有毒数据集;
步骤二,在BERT网络的输出层后接上全连接层构成文本分类模型;
步骤三,将所述有毒数据集输入所述文本分类模型,按照有监督的方式对所述文本分类模型进行训练,将所述有毒数据集中训练损失值在预设范围内的样本隔离出来,判定为有毒样本,所述有毒数据集剩余的样本判定为干净样本;
步骤四,将所述有毒样本和所述干净样本输入所述文本分类模型,按照有监督的混沌训练机制训练所述文本分类模型。
本发明第二方面提出了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现上述的防御文本分类模型后门攻击的方法。
本发明第三方面提出了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行,以实现上述的防御文本分类模型后门攻击的方法。
本发明的有益效果为:通过隔离出数据集中的小部分有毒样本,然后利用有监督的混沌训练混淆文本分类模型在数据隔离步骤中被植入的后门,实现后门的去除。因此,本方法能够利用第三方数据集进行训练,降低训练成本,提高模型安全性。
附图说明
图1为本发明实施例一公开的防御文本分类模型后门攻击的方法的流程示意图;
图2为有毒数据集的示意图;
图3为本发明实施例一中步骤三的数据隔离流程示意图;
图4为本发明实施例一中步骤四的混沌训练流程示意图;
图5为本发明实施例二公开的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,下面结合附图和具体实施方式对本发明的内容做进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
有毒数据集:文本分类领域中,攻击者篡改正常数据集中部分样本,往样本中插入触发器或将样本转换为特定语法或风格形式,并修改其标签为攻击者选定的目标标签。有毒数据集是攻击者实施后门攻击的重要工具。例子可参考图2。
后门攻击:文本分类领域中,模型在有毒数据集上训练后将被植入后门。被植入后门的模型面对干净样本时表现正常,但是当遇到带有特意构造的带有触发器的样本时将触发后门使得模型按照攻击者的期望生成预测值。
有监督训练:文本分类领域中,每一条训练样本都有对应的标签,标签代表该样本所属的类别。训练样本作为模型的输入,模型经过计算得到预测值,将预测值和样本的标签做对比计算训练损失并调整模型参数,以上过程就是有监督训练。
训练损失:训练损失代表模型的预测值和实际值的差异,是衡量模型表现的一个指标,在训练过程中模型的损失值越小代表模型的预测值越接近于实际值,模型的表现越好。
实施例一
本实施例提出了一种防御文本分类模型后门攻击的方法,通过隔离出数据集中的小部分有毒样本,然后利用有监督的混沌训练混淆文本分类模型在数据隔离步骤中被植入的后门,实现后门的去除。因此,本方法能够利用第三方数据集进行训练,降低训练成本,提高模型安全性。
如图1所示,包括以下步骤:
步骤一,随机选取数据集中的部分样本进行数据投毒,被投毒后的数据集定义为有毒数据集。
在本实施例的步骤一中,需要人为进行数据投毒,数据投毒为模拟攻击者的攻击手段需要构建有毒数据集。在本实施例中数据投毒包括,往数据集中的部分样本插入字符触发器、句子触发器、语法触发器或语义风格触发器。或者,直接跳过步骤一,利用不安全的第三方数据集输入文本分类模型进行训练,并且训练出来的模型没有后门,也就是说可以防御文中提到的4种数据投毒方式植入后门。
随机选取数据集中的小部分样本进行投毒——将触发器嵌入样本之中,通常投毒数据量不超过数据集中总数据量的10%,被投毒后的数据集即为有毒数据集。数据投毒方式有以下四种:插入特殊字词:在样本中插入攻击者选定的特殊字词作为触发器,例如rm、tq等非正常词汇,插入位置随机选取,最后修改样本标签为攻击者选定的目标标签;插入特殊句子:在样本中插入攻击者选定的特殊句子作为触发器,插入位置随机选取,最后修改样本标签为攻击者选定的目标标签;转换样本语法:将样本转换为特定的语法形式,例如从句形式,以语法作为触发器,最后修改样本标签为攻击者选定的目标标签;转换样本风格:将样本转换为特定的风格形式,例如武侠风格,以风格作为触发器,最后修改样本标签为攻击者选定的目标标签。相应数据投毒例子可参考图2。
步骤二,在BERT网络的输出层后接上全连接层构成文本分类模型。
在本实施例的步骤二采用BERT预训练网络,BERT在海量的文本数据上进行了训练,拥有丰富的知识储备和强大的学习能力。BERT的适应能力强,搭配相应的模块后可以对接多种下游任务。基于BERT网络构建文本分类模型可以充分利用其知识储备和学习能力,达到训练模型事半功倍的效果。在模型中,使用BERT作为模型骨架用以提取样本的语义特征,为使用提取的特征做分类还需将特征输入全连接层,由全连接层输出模型的预测。因此,在BERT的输出层后接上一个全连接层构建文本分类模型。
步骤三,将有毒数据集输入文本分类模型,按照有监督的方式对文本分类模型进行训练,将有毒数据集中训练损失值在预设范围内的样本隔离出来,判定为有毒样本,有毒数据集剩余的样本判定为干净样本;
在本实施例的步骤三中,需要先对数据进行预处理,有毒数据集中的样本长度是参差不齐的,文本分类模型要求训练时同一批次的样本必须长度相同。因此,为满足模型训练的要求需要将同一批次的样本进行截断或填补以对齐长度。即,对于有毒数据集中数据长度大于预设长度的样本进行数据截断,数据长度小于预设长度的样本进行填补。处理样本时首先设定全局最大长度,然后找出批次内最长的样本并计算其长度/>,最后取/>与/>中的较小值为该批次预设长度/>(即对齐长度)。同一批次的样本中,长度超过/>的则进行截断,长度小于/>的则以0值进行填充。
在本实施例中,需要从步骤二中构建的有毒数据集中寻找出有毒样本,并进行数据隔离。在步骤三中使用了训练损失值作为判定标准。在一示例中,有毒数据集中的样本按照训练损失值的数值大小进行递增排序,选取训练损失值最低的1%的样本判定为有毒样本。需要注意的是,本文所称的有毒样本并非一定是全部经过投毒的样本,仅为通过训练损失值筛选所得。
攻击者在样本中植入触发器构造有毒样本,期望在训练过程中往模型植入后门。有毒样本会引导模型记住触发器和攻击者目标标签的特征和联系,这样在后门植入成功后,攻击者在任意样本中植入触发器都能诱使模型输出攻击者期望的预测值。模型在面对有毒样本时只需记住触发器和目标标签的关联而无需挖掘样本带有的其他语义特征,因此有毒样本相对于干净样本更易于模型学习,其训练损失下降更快。利用上述特点,在模型按照有监督方式训练少数几轮后,依次计算数据集中每一条样本的训练损失并将其按损失值递增排序。此时,损失值越小的样本越有可能是有毒样本,我们将损失值最小的1%样本认为是有毒的,其余样本认为是干净的。步骤三的过程如图3所示。
步骤四,将有毒样本和干净样本输入文本分类模型,按照有监督的混沌训练机制训练文本分类模型。该步骤能够有效扰乱模型中的后门,显著降低攻击成功率,达到去除后门的效果。
经过步骤一至三,文本分类模型经过训练后已经学习了如何给干净样本做分类,同时,由于数据集中有毒样本的诱导,文本分类模型已经记住了只要遇到触发器就输出特定预测值的行为,即文本分类模型被植入了后门。在本实施例的步骤四中,使用步骤三隔离出来的有毒样本扰乱模型的后门,同时使用干净样本进一步强化模型的分类能力。
再者,本实施例中,有毒样本诱导文本分类模型记忆的是触发器和特定预测值的关联,因此,为了扰乱后门,需要扰乱触发器和特定预测值的关联。因此,每次从有毒样本中抽取训练样本,并将其标签更改为随机的错误值。这样,在文本分类模型的训练过程中每次遇到的触发器都会发现其对应的标签是不同的,故文本分类模型在训练一定次数后不再将触发器和特定标签关联起来,达到了扰乱后门的目的。同时,使用干净样本强化模型分类能力的过程就是普通的有监督训练过程。
在一示例中,有监督的混沌训练机制包括轮流进行的第一分支和第二分支,第一分支中,选取第一预设数量的有毒样本,并将有毒样本的标签更改为随机的错误值,然后将有毒样本输入文本分类模型,对文本分类模型进行训练;第二分支中,选取第二预设数量的有毒样本,并将有毒样本的标签更改为随机的错误值,选取与第二预设数量等量的干净样本,有毒样本和干净样本共同输入文本分类模型,对文本分类模型进行训练。
第一分支中,有毒样本输入文本分类模型后,使用交叉熵函数计算有毒样本的训练损失值;第二分支中,有毒样本和干净样本共同输入文本分类模型后,使用交叉熵函数分别计算有毒样本和干净样本的训练损失值,并计算得到最终训练损失值。
第二分支中,有毒样本的训练损失值的权重大于干净样本的训练损失值的权重。步骤四的过程如图4所示。
第二分支中,最终训练损失值的计算公式如下:其中,/>表示交叉熵损失计算函数,/>表示文本分类模型,/>表示第/>个批次干净样本,/>表示干净样本/>对应的分类标签,/>表示模型参数,表示第/>个批次有毒样本,/>表示有毒样本/>被更改后的随机错误标签,/>表示有毒样本/>计算损失时的权重。
实施例二
参见图5,基于同一发明构思,本发明实施例还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现实施例一所述的防御文本分类模型后门攻击的方法。
可以理解的是,存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选地,该存储器包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等;存储数据区可存储根据服务器的使用所创建的数据等。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行服务器的各种功能和处理数据。可选地,处理器可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器可集成中央处理器(Central Processing Unit,CPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统和应用程序等;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器中,单独通过一块芯片进行实现。
由于该电子设备是本发明实施例一所述的防御文本分类模型后门攻击的方法对应的电子设备,并且该电子设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见上述方法实施例的实施过程,重复之处不再赘述。
实施例三
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现实施例一所述的防御文本分类模型后门攻击的方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
由于该存储介质是本发明实施例的防御文本分类模型后门攻击的方法的存储介质,并且该存储介质解决问题的原理与该方法相似,因此该存储介质的实施可以参见上述方法实施例的实施过程,重复之处不再赘述。
在一些可能的实施方式中,本发明实施例的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的稀疏信号恢复方法的步骤。其中,用于执行各个实施例的可执行的计算机程序代码或“ 代码”可以用诸如C、C++、C#、Smalltalk、Java、JavaScript、Visual Basic、结构化查询语言(例如,Transact-SQL)、Perl之类的高级编程语言或者用各种其它编程语言编写。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围。
Claims (8)
1.一种防御文本分类模型后门攻击的方法,其特征在于,包括以下步骤:
步骤一,随机选取数据集中的部分样本进行数据投毒,被投毒后的所述数据集定义为有毒数据集;
步骤二,在BERT网络的输出层后接上全连接层构成文本分类模型;
步骤三,将所述有毒数据集输入所述文本分类模型,按照有监督的方式对所述文本分类模型进行训练,将所述有毒数据集中训练损失值在预设范围内的样本隔离出来,判定为有毒样本,所述有毒数据集剩余的样本判定为干净样本;
步骤四,将所述有毒样本和所述干净样本输入所述文本分类模型,按照有监督的混沌训练机制训练所述文本分类模型;
所述步骤四中,所述有监督的混沌训练机制包括轮流进行的第一分支和第二分支,所述第一分支中,选取第一预设数量的所述有毒样本,并将所述有毒样本的标签更改为随机的错误值,然后将所述有毒样本输入所述文本分类模型,对所述文本分类模型进行训练;所述第二分支中,选取第二预设数量的所述有毒样本,并将所述有毒样本的标签更改为随机的错误值,选取与所述第二预设数量等量的所述干净样本,所述有毒样本和所述干净样本共同输入所述文本分类模型,对所述文本分类模型进行训练;
所述第一分支中,所述有毒样本输入所述文本分类模型后,使用交叉熵函数计算所述有毒样本的训练损失值;所述第二分支中,所述有毒样本和所述干净样本共同输入所述文本分类模型后,使用交叉熵函数分别计算所述有毒样本和所述干净样本的训练损失值,并计算得到最终训练损失值。
2.如权利要求1所述的防御文本分类模型后门攻击的方法,其特征在于,所述步骤三中,对于所述有毒数据集中数据长度大于预设长度的样本进行数据截断,数据长度小于预设长度的样本进行填补。
3.如权利要求1所述的防御文本分类模型后门攻击的方法,其特征在于,所述步骤一中,所述数据投毒包括,往所述数据集中的部分样本插入字符触发器、句子触发器、语法触发器或语义风格触发器。
4.如权利要求1所述的防御文本分类模型后门攻击的方法,其特征在于,所述步骤三中,所述有毒数据集中的样本按照训练损失值的数值大小进行递增排序,选取所述训练损失值最低的1%的样本判定为所述有毒样本。
5.如权利要求1所述的防御文本分类模型后门攻击的方法,其特征在于,所述第二分支中,所述有毒样本的训练损失值的权重大于所述干净样本的训练损失值的权重。
7.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现权利要求1至6任一项所述的防御文本分类模型后门攻击的方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行,以实现权利要求1至6任一项所述的防御文本分类模型后门攻击的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310280078.2A CN115994352B (zh) | 2023-03-22 | 2023-03-22 | 防御文本分类模型后门攻击的方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310280078.2A CN115994352B (zh) | 2023-03-22 | 2023-03-22 | 防御文本分类模型后门攻击的方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115994352A CN115994352A (zh) | 2023-04-21 |
CN115994352B true CN115994352B (zh) | 2023-06-02 |
Family
ID=85992335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310280078.2A Active CN115994352B (zh) | 2023-03-22 | 2023-03-22 | 防御文本分类模型后门攻击的方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115994352B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473489A (zh) * | 2023-09-28 | 2024-01-30 | 华中科技大学 | 一种后门攻击方法和防御方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858932A (zh) * | 2020-07-10 | 2020-10-30 | 暨南大学 | 基于Transformer的多重特征中英文情感分类方法及系统 |
US20220398325A1 (en) * | 2021-06-09 | 2022-12-15 | Vinai Artificial Intelligence Application And Research Joint Stock Company | Method and system for security assessment |
CN113779986A (zh) * | 2021-08-20 | 2021-12-10 | 清华大学 | 一种文本后门攻击方法及系统 |
CN114091568B (zh) * | 2021-10-20 | 2023-10-03 | 华北电力大学 | 一种面向文本分类模型的字词双粒度对抗防御系统及方法 |
CN114462031B (zh) * | 2022-04-12 | 2022-07-29 | 北京瑞莱智慧科技有限公司 | 后门攻击方法、相关装置及存储介质 |
CN115495578B (zh) * | 2022-09-02 | 2023-12-22 | 国网江苏省电力有限公司南通供电分公司 | 基于最大熵损失的文本预训练模型后门消除方法、系统及介质 |
-
2023
- 2023-03-22 CN CN202310280078.2A patent/CN115994352B/zh active Active
Non-Patent Citations (1)
Title |
---|
联邦学习后门攻击的检测与防御;赵晨;中国优秀硕士学位论文全文数据库;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115994352A (zh) | 2023-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897970B (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
Fang et al. | Phishing email detection using improved RCNN model with multilevel vectors and attention mechanism | |
CN110263324B (zh) | 文本处理方法、模型训练方法和装置 | |
Tajaddodianfar et al. | Texception: a character/word-level deep learning model for phishing URL detection | |
CN110287479A (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN112507699B (zh) | 一种基于图卷积网络的远程监督关系抽取方法 | |
CN108846017A (zh) | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 | |
CN109947931B (zh) | 基于无监督学习的文本自动摘要方法、系统、设备及介质 | |
CN107808011A (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
KR20190063978A (ko) | 비정형 데이터의 카테고리 자동분류 방법 | |
CN107577662A (zh) | 面向中文文本的语义理解系统及方法 | |
US11232358B1 (en) | Task specific processing of regulatory content | |
CN107168954A (zh) | 文本关键词生成方法及装置和电子设备及可读存储介质 | |
CN115994352B (zh) | 防御文本分类模型后门攻击的方法、设备及介质 | |
CN111460157B (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
CN111310476A (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和系统 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN109446299A (zh) | 基于事件识别的搜索电子邮件内容的方法及系统 | |
Qun et al. | End-to-end neural text classification for tibetan | |
CN113946687A (zh) | 一种标签一致的文本后门攻击方法 | |
Yi et al. | Method of profanity detection using word embedding and LSTM | |
CN110750981A (zh) | 一种基于机器学习的高准确度网站敏感词检测方法 | |
CN117153418B (zh) | 抗后门攻击的智能早产儿视网膜病变分类预测方法 | |
CN114564953A (zh) | 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型 | |
CN116318845B (zh) | 一种正负样本比例不平衡条件下的dga域名检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |