CN113946688B - 一种寻找自然语言处理模型天然后门的方法 - Google Patents

一种寻找自然语言处理模型天然后门的方法 Download PDF

Info

Publication number
CN113946688B
CN113946688B CN202111220050.7A CN202111220050A CN113946688B CN 113946688 B CN113946688 B CN 113946688B CN 202111220050 A CN202111220050 A CN 202111220050A CN 113946688 B CN113946688 B CN 113946688B
Authority
CN
China
Prior art keywords
trigger
word
sample
attack
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111220050.7A
Other languages
English (en)
Other versions
CN113946688A (zh
Inventor
邵堃
刘辉
杨俊安
张雨
呼鹏江
艾杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111220050.7A priority Critical patent/CN113946688B/zh
Publication of CN113946688A publication Critical patent/CN113946688A/zh
Application granted granted Critical
Publication of CN113946688B publication Critical patent/CN113946688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种寻找自然语言处理模型天然后门的方法,该方法包括以下步骤:基于对抗攻击的知识库构建:在黑盒条件下,提取自然语言处理模型的对抗样本中的攻击性词组成对抗知识库;搜索触发器:通过最小化自然语言处理模型对设定数量样本的预测结果,生成具有通用攻击性的触发器;把生成的触发器添加到任何良性输入时,可以将深度学习模型的预测精度降低到接近于零的目标类。本发明搜索到的触发器攻击成功率高,产生的攻击样本可转移性好,可以准确地找到模型存在的天然后门。

Description

一种寻找自然语言处理模型天然后门的方法
技术领域
本发明属于人工智能安全技术领域,特别是一种寻找自然语言处理模型天然后门的方法。
背景技术
深度神经网络在计算机视觉、自然语言处理和语音识别等领域有着广泛的应用。尽管深度神经网络性能优越,但研究表明深度神经网络存在严重的安全隐患,特别是容易受到对抗攻击。
由于文本是离散数据,容错性较差且扰动易感知,因此增加了文本对抗攻击的难度。虽然现有的工作已经证明了对抗样本可以使深度神经网络输出错误,但对抗扰动是针对特定输入样本生成的,样本的扰动不能应用于其他的样本,因此针对每一个新样本都需要重新查询目标模型,导致攻击效率低。
当对抗性攻击具有一般扰动时,它具有与后门攻击相似的模式,这个后门天然存在于模型中,不是由攻击者通过训练样本中毒等方法添加的。现有的攻击方法都是在白盒条件下实现的,白盒攻击需要攻击者了解受害模型的具体的结构和参数等信息,在现实场景下往往是不切实际的。
发明内容
本发明的目的在于提供一种黑盒条件下寻找自然语言处理模型天然后门的方法,并达到搜索到的触发器攻击成功率高、攻击可转移性好的效果。
实现本发明目的的技术解决方案为:一种寻找自然语言处理模型天然后门的方法,包括以下步骤:
步骤1、基于对抗攻击的知识库构建:在黑盒条件下,提取自然语言处理模型的对抗样本中的攻击性词组成对抗知识库;
步骤2、搜索触发器:通过最小化自然语言处理模型对设定数量样本的预测结果,生成具有通用攻击性的触发器。
进一步地,步骤1所述的基于对抗攻击的知识库构建,具体如下:
步骤1.1、给定一个样本s包含n个单词ω0~ωn,即s=[ω01,…,ωm,…,ωn];
首先,给每个单词选定空间:ωm的可替换词空间表示为
Figure BDA0003312255260000011
随机替代原始输入的一个单词,即
Figure BDA0003312255260000021
Figure BDA0003312255260000022
表示句子s中第m个位置单词的替换词;在黑盒条件下通过查询目标模型得到优化得分;优化得分是受害者模型给出的目标标签的预测概率,其中目标标签是对抗性攻击的所需分类结果;
然后,通过组合优化方法筛选出最优替换词组合,使用该组合取代原始句子相应位置的单词,产生一个攻击成功的对抗样本sad
最后,记录原始样本中被修改的词,称这种被修改的词为脆弱词,同时记录对抗样本中与脆弱词对应的替换词,称这种替换词为对抗词;
步骤1.2、对目标模型实施对抗攻击,得到多个对抗样本,并记录一组原始样本中被修改的词,并根据出现的次数由多到少排序
Figure BDA0003312255260000023
每个脆弱词对应一个对抗词空间,
Figure BDA0003312255260000024
的对抗词空间表示为
Figure BDA0003312255260000025
其中D根据对抗词出现次数由多到少排序,M和D共同组成对抗知识库;
步骤1.3、在后续攻击中,首先搜索样本中是否存在对抗知识库中的出现频率高于设定值的脆弱词,样本s=[ω01,…,ωm,…,ωn]中存在脆弱词ωm,则直接用ωm对应的对抗词
Figure BDA0003312255260000026
替换ωm;如果攻击成功则返回一个成功的对抗样本;如果攻击失败,则通过组合优化的方法继续寻优,直到找到成功的对抗样本。
进一步地,单词选定的空间类型包括同义词典、义原、词嵌入空间。
进一步地,步骤2所述的搜索触发器,具体如下:
首先,根据对抗知识库中对抗词出现的频率设置触发器搜索范围,从出现频率高的前k个对抗词中搜索触发器;
然后,设置扰动的大小,即触发器长度d,触发器越长攻击效果越好;通过遍历的方法替换触发器中的对抗词,通过优化触发器t最小化自然语言处理模型对设定数量样本的预测结果,转化为以下目标:
Figure BDA0003312255260000031
其中
Figure BDA0003312255260000032
为输入样本的数据分布;
Figure BDA0003312255260000033
是任务的损失函数,是目标标签;s是输入文本;
Figure BDA0003312255260000034
表示将触发器t连接到样本s上输入自然语言处理模型F(·)中,输出为目标标签
Figure BDA0003312255260000035
Figure BDA0003312255260000036
表示对于分布为D的样本s的期望;在黑盒条件下,通过模型返回的样本识别准确率作为触发器搜索算法的反馈;
对于一个长度为d的触发器,其中每个词的搜索空间相同且都为k个对抗词,通过遍历搜索的方式找到最优触发器需要搜索kd次,为了降低寻找全局最优解需要付出的查询次数,采用以下优化算法:对于一个长度为d-1的触发器,从k个对抗词中通过遍历搜索的方法选择一个词并添加到触发器后,使得新的触发器的通用扰动效果最好。
本发明与现有技术相比,其显著优点为:(1)可用性高,攻击在黑盒条件下进行,黑盒攻击只需要攻击者知道模型输出的置信度信息即可发起攻击,不需要了解模型的具体结构和参数等,更加适用现实场景;(2)攻击效率高,生成一个固定的扰动,当添加到任何良性输入时,可以将深度神经网络模型的预测精度降低到接近于零的目标类;(3)攻击样本可转移性好,生成的触发器对不同模型和数据都能产生攻击效果,可转移攻击进一步降低了所做的假设,攻击者可以使用自己的模型生成攻击触发以攻击目标模型。
附图说明
图1是本发明一种寻找自然语言处理模型天然后门的方法的示意图。
图2是本发明方法后门攻击的结果图。
图3是本发明方法的触发器长度与攻击成功率之间的关系图。
图4是本发明方法的在同一数据集上培训的不同模型之间的攻击可转移性图。
图5是本发明方法的在相同模型的不同数据集之间的攻击可转移性图。
具体实施方式
本发明一种寻找自然语言处理模型天然后门的方法,首先在黑盒条件下,提取对抗样本中攻击性较强的词组成对抗知识库。然后通过最小化一批样本的目标预测结果生成具有通用攻击性的触发器。我们把生成的触发器添加到任何良性输入时,可以将深度神经网络模型的预测精度降低到接近于零的目标类。我们的方法可以用很短触发器实现很高的攻击成功率并且我们的方法具有更高的可转移性。
结合图1,具体包括以下步骤:
步骤1、基于对抗攻击的知识库构建:在黑盒条件下,提取自然语言处理模型的对抗样本中的攻击性词组成对抗知识库;
步骤2、搜索触发器:通过最小化自然语言处理模型对设定数量样本的预测结果,生成具有通用攻击性的触发器。
进一步地,步骤1所述的基于对抗攻击的知识库构建,具体如下:
步骤1.1、给定一个样本包含n个单词,即s=[ω01,…,ωm,…,ωn]。
首先我们给每个单词选定空间(如同义词典、义原、词嵌入空间等)。例如ωm的可替换词空间可表示为
Figure BDA0003312255260000041
初始化时,我们随机替代原始输入的一个单词,即
Figure BDA0003312255260000042
Figure BDA0003312255260000043
表示句子s中第m个位置单词的替换词。在黑盒条件下通过查询目标模型得到优化得分。优化得分是受害者模型给出的目标标签的预测概率,其中目标标签是对抗性攻击的所需分类结果。以二进制分类任务为例,如果原始输入的真实标签为“积极”,则目标标签为“消极”。然后通过组合优化方法筛选出合适的最优替换词组合。使用该组合取代原始句子相应位置的单词,产生一个攻击成功的对抗样本sad。最后,我们记录原始样本中被修改的词,我们称这种被修改的词为脆弱词,同时我们记录对抗样本中与脆弱词对应的替换词,我们称这种替换词为对抗词。
步骤1.2、随着攻击的进行,我们得到多个对抗样本,同时我们也记录了一组原始样本中被修改的词,并根据出现的次数由多到少对其排序
Figure BDA0003312255260000044
每个脆弱词对应一个对抗词空间,例如
Figure BDA0003312255260000045
的对抗词空间表示为
Figure BDA0003312255260000046
其中D也是根据对抗词出现次数由多到少排序的,M和D共同组成对抗知识库。
步骤1.3、在后续攻击中,我们可以首先搜索样本中是否存在对抗知识库中的出现频率高的脆弱词,由于替换之前样本中的这些词导致攻击成功,所以我们以更高的概率首先替换样本中的脆弱词。例如,样本s=[ω01,…,ωm,…,ωn]中存在脆弱词ωm,则直接用ωm对应的对抗词
Figure BDA0003312255260000051
替换ωm。如果攻击成功则返回一个成功的对抗样本;如果攻击失败,则在以此作为起点,通过组合优化的方法继续寻优,直到找到成功的对抗样本。为了避免过度修改我们将编辑距离ε(两个句子之间的不同单词的数量)设置在一个合理的范围。随着对目标模型的多次攻击,提出的攻击方法可以不断积累攻击经验(样本中脆弱词和对抗词),当进行下一次攻击动作时,攻击方法会根据之前学习到的攻击经验优先攻击样本中的脆弱词,而无需重新寻优。
进一步地,步骤2所述的搜索触发器,具体如下:
当对抗知识库积累到一定规模之后,一些对抗词频繁出现在对抗样本中,这说明这些对抗词具有通用扰动的特性。但是单个对抗词的通用扰动效果不强,因此我们提出触发器搜索算法。首先根据对抗知识库中对抗词出现的频率设置触发器搜索范围,我们只从出现频率高的前k个对抗词中搜索触发器;然后设置扰动的大小,即触发器长度d,触发器越长攻击效果越好。我们迭代地替换触发器中的对抗词,通过优化t最小化一批样本的目标预测损失,这转化为以下目标:
Figure BDA0003312255260000052
其中
Figure BDA0003312255260000053
为输入样本的数据分布;
Figure BDA0003312255260000054
是任务的损失函数,是目标标签;s是输入文本;
Figure BDA0003312255260000055
表示将触发器t连接到样本s上输入自然语言处理模型F(·)中,输出为目标标签
Figure BDA0003312255260000056
Figure BDA0003312255260000057
表示对于分布为D的样本s的期望;在黑盒条件下,通过模型返回的样本识别准确率作为触发器搜索算法的反馈;
对于一个长度为d的触发器,其中每个词的搜索空间相同且都为K个对抗词,找到最优触发器需要搜索kd次,寻找全局最优解需要付出的查询次数巨大。为了降低查询次数,我们采用优化算法,本发明中具体为:对于一个长度为d-1的触发器,我们从k个对抗词中通过遍历的方法选择一个词并添加到触发器后,使得新的触发器的通用扰动效果最好。因为触发器越长攻击效果越好,所以我们的策略可以使得生成的触发器朝着通用扰动效果更好的方向移动。
下面结合具体实施例对本发明作进一步详细说明。
实施例1
本实施例首先攻击目标模型生成50个对抗样本,采用论文《Zang Y,Qi F,Yang C,et al.Word-level Textual Adversarial Attacking as Combinatorial Optimization[C]//Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics.2020.》中词级文本对抗性攻击的方法,然后在50个对抗样本中搜索目标模型的后门。为了方便评估我们的攻击性能,我们在数据集中按照正面与负面两个类别分别随机选取500个正确分类的样本作为测试输入。
步骤1:构建基于对抗攻击的知识库,给定一个样本包含n个单词,即s=[ω01,…,ωm,…,ωn]。首先我们给每个单词选定义原空间。例如ωm的可替换词空间可表示为
Figure BDA0003312255260000061
初始化时,我们随机替代原始输入的一个单词,即
Figure BDA0003312255260000062
Figure BDA0003312255260000063
表示句子s中第m个位置单词的替换词。在黑盒条件下通过查询目标模型得到优化得分。优化得分是受害者模型给出的目标标签的预测概率,其中目标标签是对抗性攻击的所需分类结果。以二进制分类任务为例,如果原始输入的真实标签为“积极”,则目标标签为“消极”。然后通过组合优化方法筛选出合适的最优替换词组合。使用该组合取代原始句子相应位置的单词,产生一个攻击成功的对抗样本sad。最后,我们记录原始样本中被修改的词,我们称这种被修改的词为脆弱词,同时我们记录对抗样本中与脆弱词对应的替换词,我们称这种替换词为对抗词。
随着攻击的进行,我们得到多个对抗样本,同时我们也记录了一组原始样本中被修改的词,并根据出现的次数由多到少对其排序
Figure BDA0003312255260000071
每个脆弱词对应一个对抗词空间,例如
Figure BDA0003312255260000072
的对抗词空间表示为
Figure BDA0003312255260000073
其中D也是根据对抗词出现次数由多到少排序的,M和D共同组成对抗知识库。
步骤2:触发器搜索方法,当对抗知识库积累到一定规模之后,一些对抗词频繁出现在对抗样本中,这说明这些对抗词具有通用扰动的特性。但是单个对抗词的通用扰动效果不强,因此我们提出触发器搜索算法。首先根据对抗知识库中对抗词出现的频率设置触发器搜索范围,我们只从出现频率高的前k个对抗词中搜索触发器;然后设置扰动的大小,即触发器长度d,触发器越长攻击效果越好。我们迭代地替换触发器中的对抗词,通过优化t最小化一批样本的目标预测损失,这转化为以下目标:
Figure BDA0003312255260000074
其中
Figure BDA0003312255260000075
输入样本的数据分布,
Figure BDA0003312255260000076
是任务的损失函数,
Figure BDA0003312255260000077
是目标标签,s是文本输入。
Figure BDA0003312255260000078
在黑盒条件下,我们只通过模型返回的样本识别准确率作为触发器搜索算法的反馈。
我们首先设置触发器长度为3,对于一个长度为d的触发器,其中每个词的搜索空间相同且都为k个对抗词,找到最优触发器需要搜索kd次,寻找全局最优解需要付出的查询次数巨大。为了降低查询次数,我们采用优化算法,例如贪心算法、粒子群优化算法。等因为触发器越长攻击效果越好,所以我们的策略可以使得生成的触发器朝着通用扰动效果更好的方向移动。
经过以上步骤,得到如图2的效果。图2展示了触发器对不同数据集训练出来的BiLSTM模型的影响。我们的方法能够对SST-2或IMDB数据上训练出的BiLSTM模型产生明显的攻击效果。例如对于标签是消极的SST-2数据,我们的方法的攻击成功率为100%。总体来看我们的方法的攻击成功率与基线方法持平,并且我们的方法是在黑盒条件下实施的,而基线方法需要白盒条件。白盒攻击需要攻击者了解受害模型的具体的结构和参数等信息,因此攻击者可以利用模型的具体信息求解模型的梯度信息,进而用于指导触发器的生成。黑盒攻击假定对手无法访问目标模型,只知道输出标签和预测的置信水平。我们的方法是黑盒攻击,需要更苛刻的条件,因此更加现实。基线方法是《K.N.e.a.Wallace E,Feng S,Universal adversarial triggers for attacking and analyzing nlp,Proceedings ofthe 2019Conference on Empirical Methods in Natural Language Processing andthe 9th International Joint Conference on Natural Language Processing(EMNLPIJCNLP)(2019)》。
图3展示了触发器长度和攻击成功率的关系。可以看出,对于SST-2+BiLSTM,我们的方法只用长度为3的触发器就能实现90%以上的攻击成功率。对于SST-2+BERT,我们的方法只用长度为3的触发器就能实现75.8%以上的攻击成功率。对于IMDB+BiLSTM,我们的方法只用长度为4的触发器就能实现77.8%以上的攻击成功率。实验结果说明我们的方法用很短的触发器就能实现很高的攻击成功率。
图4显示了触发器在相同数据训练出来的不同模型之间的转移攻击。图5显示了触发器在相同模型不同数据集之间的转移攻击。总体来看,看在SST-2数据集训练出的不同模型间实施转移攻击更容易。针对IMDB数据集训练出的模型产生的转移攻击,对SST-2数据集训出的相同模型能获得很好的攻击效果。

Claims (2)

1.一种寻找自然语言处理模型天然后门的方法,其特征在于,包括以下步骤:
步骤1、基于对抗攻击的知识库构建:在黑盒条件下,提取自然语言处理模型的对抗样本中的攻击性词组成对抗知识库;
步骤2、搜索触发器:通过最小化自然语言处理模型对设定数量样本的预测结果,生成具有通用攻击性的触发器;
步骤1所述的基于对抗攻击的知识库构建,具体如下:
步骤1.1、给定一个样本s包含n个单词ω0~ωn,即s=[ω01,…,ωm,…,ωn];
首先,给每个单词选定空间:ωm的可替换词空间表示为
Figure FDA0003739842850000011
随机替代原始输入的一个单词,即
Figure FDA0003739842850000012
Figure FDA0003739842850000013
表示句子s中第m个位置单词的替换词;在黑盒条件下通过查询目标模型得到优化得分;优化得分是受害者模型给出的目标标签的预测概率,其中目标标签是对抗性攻击的所需分类结果;
然后,通过组合优化方法筛选出最优替换词组合,使用该组合取代原始句子相应位置的单词,产生一个攻击成功的对抗样本sad
最后,记录原始样本中被修改的词,称这种被修改的词为脆弱词,同时记录对抗样本中与脆弱词对应的替换词,称这种替换词为对抗词;
步骤1.2、对目标模型实施对抗攻击,得到多个对抗样本,并记录一组原始样本中被修改的词,并根据出现的次数由多到少排序
Figure FDA0003739842850000014
每个脆弱词对应一个对抗词空间,
Figure FDA0003739842850000015
的对抗词空间表示为
Figure FDA0003739842850000016
其中D根据对抗词出现次数由多到少排序,M和D共同组成对抗知识库;
步骤1.3、在后续攻击中,首先搜索样本中是否存在对抗知识库中的出现频率高于设定值的脆弱词,样本s=[ω01,…,ωm,…,ωn]中存在脆弱词ωm,则直接用ωm对应的对抗词
Figure FDA0003739842850000017
替换ωm;如果攻击成功则返回一个成功的对抗样本;如果攻击失败,则通过组合优化的方法继续寻优,直到找到成功的对抗样本;
步骤2所述的搜索触发器,具体如下:
首先,根据对抗知识库中对抗词出现的频率设置触发器搜索范围,从出现频率高的前k个对抗词中搜索触发器;
然后,设置扰动的大小,即触发器长度d,触发器越长攻击效果越好;通过遍历的方法替换触发器中的对抗词,通过优化触发器t最小化自然语言处理模型对设定数量样本的预测结果,转化为以下目标:
Figure FDA0003739842850000021
其中
Figure FDA0003739842850000022
为输入样本的数据分布;
Figure FDA0003739842850000023
是任务的损失函数,是目标标签;s是输入文本;
Figure FDA0003739842850000024
表示将触发器t连接到样本s上输入自然语言处理模型F(·)中,输出为目标标签
Figure FDA0003739842850000025
Figure FDA0003739842850000026
表示对于分布为D的样本s的期望;在黑盒条件下,通过模型返回的样本识别准确率作为触发器搜索算法的反馈;
对于一个长度为d的触发器,其中每个词的搜索空间相同且都为k个对抗词,通过遍历搜索的方式找到最优触发器需要搜索kd次,为了降低寻找全局最优解需要付出的查询次数,采用以下优化算法:对于一个长度为d-1的触发器,从k个对抗词中通过遍历搜索的方法选择一个词并添加到触发器后,使得新的触发器的通用扰动效果最好。
2.根据权利要求1所述的寻找自然语言处理模型天然后门的方法,其特征在于,单词选定的空间类型包括同义词典、义原、词嵌入空间。
CN202111220050.7A 2021-10-20 2021-10-20 一种寻找自然语言处理模型天然后门的方法 Active CN113946688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111220050.7A CN113946688B (zh) 2021-10-20 2021-10-20 一种寻找自然语言处理模型天然后门的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111220050.7A CN113946688B (zh) 2021-10-20 2021-10-20 一种寻找自然语言处理模型天然后门的方法

Publications (2)

Publication Number Publication Date
CN113946688A CN113946688A (zh) 2022-01-18
CN113946688B true CN113946688B (zh) 2022-09-23

Family

ID=79331853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111220050.7A Active CN113946688B (zh) 2021-10-20 2021-10-20 一种寻找自然语言处理模型天然后门的方法

Country Status (1)

Country Link
CN (1) CN113946688B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027060A (zh) * 2019-12-17 2020-04-17 电子科技大学 基于知识蒸馏的神经网络黑盒攻击型防御方法
CN111261147A (zh) * 2020-01-20 2020-06-09 浙江工业大学 一种面向语音识别系统的音乐嵌入攻击防御方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461036B2 (en) * 2006-01-18 2008-12-02 International Business Machines Corporation Method for controlling risk in a computer security artificial neural network expert system
US10127659B2 (en) * 2016-11-23 2018-11-13 General Electric Company Deep learning medical systems and methods for image acquisition
CN108520268B (zh) * 2018-03-09 2021-05-18 浙江工业大学 基于样本选择和模型进化的黑盒对抗性攻击防御方法
US11030999B1 (en) * 2019-06-28 2021-06-08 Amazon Technologies, Inc. Word embeddings for natural language processing
US10783401B1 (en) * 2020-02-23 2020-09-22 Fudan University Black-box adversarial attacks on videos
CA3114687A1 (en) * 2020-04-09 2021-10-09 Royal Bank Of Canada System and method for testing machine learning
CN112465015A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 面向广义非负矩阵分解算法的自适应梯度集成对抗性攻击方法
CN112836798A (zh) * 2021-01-29 2021-05-25 华中科技大学 一种针对场景文字识别的非定向式白盒对抗攻击方法
CN113204974B (zh) * 2021-05-14 2022-06-17 清华大学 对抗文本的生成方法、装置、设备及存储介质
CN113032545B (zh) * 2021-05-29 2021-09-03 成都晓多科技有限公司 基于无监督对话预训练的对话理解与答案配置方法及系统
CN113255909B (zh) * 2021-05-31 2022-12-13 北京理工大学 基于通用对抗触发器的干净标签神经网络后门植入系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027060A (zh) * 2019-12-17 2020-04-17 电子科技大学 基于知识蒸馏的神经网络黑盒攻击型防御方法
CN111261147A (zh) * 2020-01-20 2020-06-09 浙江工业大学 一种面向语音识别系统的音乐嵌入攻击防御方法

Also Published As

Publication number Publication date
CN113946688A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
Maheshwary et al. Generating natural language attacks in a hard label black box setting
Zhou et al. Learning to discriminate perturbations for blocking adversarial attacks in text classification
Wang et al. Defense of word-level adversarial attacks via random substitution encoding
Maheshwary et al. A strong baseline for query efficient attacks in a black box setting
Jain et al. Adversarial text generation for google's perspective api
CN113946687B (zh) 一种标签一致的文本后门攻击方法
Sikdar et al. Differential evolution based feature selection and classifier ensemble for named entity recognition
CN115658954B (zh) 一种基于提示学习的跨模态检索对抗防御方法
Chen et al. Adversarial examples generation for deep product quantization networks on image retrieval
CN112948578A (zh) 一种dga域名开集分类方法、装置、电子设备及介质
Yang et al. Bigram and unigram based text attack via adaptive monotonic heuristic search
US11822887B2 (en) Robust name matching with regularized embeddings
CN114048290A (zh) 一种文本分类方法及装置
Pal et al. To transfer or not to transfer: Misclassification attacks against transfer learned text classifiers
Athavale et al. Predicting algorithm classes for programming word problems
CN116192537B (zh) 一种apt攻击报告事件抽取方法、系统和存储介质
CN113946688B (zh) 一种寻找自然语言处理模型天然后门的方法
CN111581365A (zh) 一种谓词抽取方法
Mathai et al. Adversarial black-box attacks on text classifiers using multi-objective genetic optimization guided by deep networks
CN113935481B (zh) 针对自然语言处理模型在有限次数条件下的对抗测试方法
Yang et al. Deepening hidden representations from pre-trained language models
CN114861654A (zh) 一种中文文本中基于词性融合的对抗训练的防御方法
CN115293142A (zh) 一种基于词典增强预训练模型的常识问答方法
Magoo et al. Machine learning adversarial attacks: A survey beyond
CN111767388A (zh) 一种候选池生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant