CN113946688B

CN113946688B - 一种寻找自然语言处理模型天然后门的方法

Info

Publication number: CN113946688B
Application number: CN202111220050.7A
Authority: CN
Inventors: 邵堃; 刘辉; 杨俊安; 张雨; 呼鹏江; 艾杨
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-09-23
Anticipated expiration: 2041-10-20
Also published as: CN113946688A

Abstract

本发明公开了一种寻找自然语言处理模型天然后门的方法，该方法包括以下步骤：基于对抗攻击的知识库构建：在黑盒条件下，提取自然语言处理模型的对抗样本中的攻击性词组成对抗知识库；搜索触发器：通过最小化自然语言处理模型对设定数量样本的预测结果，生成具有通用攻击性的触发器；把生成的触发器添加到任何良性输入时，可以将深度学习模型的预测精度降低到接近于零的目标类。本发明搜索到的触发器攻击成功率高，产生的攻击样本可转移性好，可以准确地找到模型存在的天然后门。

Description

一种寻找自然语言处理模型天然后门的方法

技术领域

本发明属于人工智能安全技术领域，特别是一种寻找自然语言处理模型天然后门的方法。

背景技术

深度神经网络在计算机视觉、自然语言处理和语音识别等领域有着广泛的应用。尽管深度神经网络性能优越，但研究表明深度神经网络存在严重的安全隐患，特别是容易受到对抗攻击。

由于文本是离散数据，容错性较差且扰动易感知，因此增加了文本对抗攻击的难度。虽然现有的工作已经证明了对抗样本可以使深度神经网络输出错误，但对抗扰动是针对特定输入样本生成的，样本的扰动不能应用于其他的样本，因此针对每一个新样本都需要重新查询目标模型，导致攻击效率低。

当对抗性攻击具有一般扰动时，它具有与后门攻击相似的模式，这个后门天然存在于模型中，不是由攻击者通过训练样本中毒等方法添加的。现有的攻击方法都是在白盒条件下实现的，白盒攻击需要攻击者了解受害模型的具体的结构和参数等信息，在现实场景下往往是不切实际的。

发明内容

本发明的目的在于提供一种黑盒条件下寻找自然语言处理模型天然后门的方法，并达到搜索到的触发器攻击成功率高、攻击可转移性好的效果。

实现本发明目的的技术解决方案为：一种寻找自然语言处理模型天然后门的方法，包括以下步骤：

步骤1、基于对抗攻击的知识库构建：在黑盒条件下，提取自然语言处理模型的对抗样本中的攻击性词组成对抗知识库；

步骤2、搜索触发器：通过最小化自然语言处理模型对设定数量样本的预测结果，生成具有通用攻击性的触发器。

进一步地，步骤1所述的基于对抗攻击的知识库构建，具体如下：

步骤1.1、给定一个样本s包含n个单词ω₀～ω_n，即s＝[ω₀,ω₁,…,ω_m,…,ω_n]；

首先，给每个单词选定空间：ω_m的可替换词空间表示为

随机替代原始输入的一个单词，即

表示句子s中第m个位置单词的替换词；在黑盒条件下通过查询目标模型得到优化得分；优化得分是受害者模型给出的目标标签的预测概率，其中目标标签是对抗性攻击的所需分类结果；

然后，通过组合优化方法筛选出最优替换词组合，使用该组合取代原始句子相应位置的单词，产生一个攻击成功的对抗样本s_ad；

最后，记录原始样本中被修改的词，称这种被修改的词为脆弱词，同时记录对抗样本中与脆弱词对应的替换词，称这种替换词为对抗词；

步骤1.2、对目标模型实施对抗攻击，得到多个对抗样本，并记录一组原始样本中被修改的词，并根据出现的次数由多到少排序

每个脆弱词对应一个对抗词空间，

的对抗词空间表示为

其中D根据对抗词出现次数由多到少排序，M和D共同组成对抗知识库；

步骤1.3、在后续攻击中，首先搜索样本中是否存在对抗知识库中的出现频率高于设定值的脆弱词，样本s＝[ω₀,ω₁,…,ω_m,…,ω_n]中存在脆弱词ω_m，则直接用ω_m对应的对抗词

替换ω_m；如果攻击成功则返回一个成功的对抗样本；如果攻击失败，则通过组合优化的方法继续寻优，直到找到成功的对抗样本。

进一步地，单词选定的空间类型包括同义词典、义原、词嵌入空间。

进一步地，步骤2所述的搜索触发器，具体如下：

首先，根据对抗知识库中对抗词出现的频率设置触发器搜索范围，从出现频率高的前k个对抗词中搜索触发器；

然后，设置扰动的大小，即触发器长度d，触发器越长攻击效果越好；通过遍历的方法替换触发器中的对抗词，通过优化触发器t最小化自然语言处理模型对设定数量样本的预测结果，转化为以下目标：

其中

为输入样本的数据分布；

是任务的损失函数，是目标标签；s是输入文本；

表示将触发器t连接到样本s上输入自然语言处理模型F(·)中，输出为目标标签

表示对于分布为D的样本s的期望；在黑盒条件下，通过模型返回的样本识别准确率作为触发器搜索算法的反馈；

对于一个长度为d的触发器，其中每个词的搜索空间相同且都为k个对抗词，通过遍历搜索的方式找到最优触发器需要搜索kd次，为了降低寻找全局最优解需要付出的查询次数，采用以下优化算法：对于一个长度为d-1的触发器，从k个对抗词中通过遍历搜索的方法选择一个词并添加到触发器后，使得新的触发器的通用扰动效果最好。

本发明与现有技术相比，其显著优点为：(1)可用性高，攻击在黑盒条件下进行，黑盒攻击只需要攻击者知道模型输出的置信度信息即可发起攻击，不需要了解模型的具体结构和参数等，更加适用现实场景；(2)攻击效率高，生成一个固定的扰动，当添加到任何良性输入时，可以将深度神经网络模型的预测精度降低到接近于零的目标类；(3)攻击样本可转移性好，生成的触发器对不同模型和数据都能产生攻击效果，可转移攻击进一步降低了所做的假设，攻击者可以使用自己的模型生成攻击触发以攻击目标模型。

附图说明

图1是本发明一种寻找自然语言处理模型天然后门的方法的示意图。

图2是本发明方法后门攻击的结果图。

图3是本发明方法的触发器长度与攻击成功率之间的关系图。

图4是本发明方法的在同一数据集上培训的不同模型之间的攻击可转移性图。

图5是本发明方法的在相同模型的不同数据集之间的攻击可转移性图。

具体实施方式

本发明一种寻找自然语言处理模型天然后门的方法，首先在黑盒条件下，提取对抗样本中攻击性较强的词组成对抗知识库。然后通过最小化一批样本的目标预测结果生成具有通用攻击性的触发器。我们把生成的触发器添加到任何良性输入时，可以将深度神经网络模型的预测精度降低到接近于零的目标类。我们的方法可以用很短触发器实现很高的攻击成功率并且我们的方法具有更高的可转移性。

结合图1，具体包括以下步骤：

步骤1.1、给定一个样本包含n个单词，即s＝[ω₀,ω₁,…,ω_m,…,ω_n]。

首先我们给每个单词选定空间(如同义词典、义原、词嵌入空间等)。例如ω_m的可替换词空间可表示为

初始化时，我们随机替代原始输入的一个单词，即

表示句子s中第m个位置单词的替换词。在黑盒条件下通过查询目标模型得到优化得分。优化得分是受害者模型给出的目标标签的预测概率，其中目标标签是对抗性攻击的所需分类结果。以二进制分类任务为例，如果原始输入的真实标签为“积极”，则目标标签为“消极”。然后通过组合优化方法筛选出合适的最优替换词组合。使用该组合取代原始句子相应位置的单词，产生一个攻击成功的对抗样本s_ad。最后，我们记录原始样本中被修改的词，我们称这种被修改的词为脆弱词，同时我们记录对抗样本中与脆弱词对应的替换词，我们称这种替换词为对抗词。

步骤1.2、随着攻击的进行，我们得到多个对抗样本，同时我们也记录了一组原始样本中被修改的词，并根据出现的次数由多到少对其排序

每个脆弱词对应一个对抗词空间，例如

的对抗词空间表示为

其中D也是根据对抗词出现次数由多到少排序的，M和D共同组成对抗知识库。

步骤1.3、在后续攻击中，我们可以首先搜索样本中是否存在对抗知识库中的出现频率高的脆弱词，由于替换之前样本中的这些词导致攻击成功，所以我们以更高的概率首先替换样本中的脆弱词。例如，样本s＝[ω₀,ω₁,…,ω_m,…,ω_n]中存在脆弱词ω_m，则直接用ω_m对应的对抗词

替换ω_m。如果攻击成功则返回一个成功的对抗样本；如果攻击失败，则在以此作为起点，通过组合优化的方法继续寻优，直到找到成功的对抗样本。为了避免过度修改我们将编辑距离ε(两个句子之间的不同单词的数量)设置在一个合理的范围。随着对目标模型的多次攻击，提出的攻击方法可以不断积累攻击经验(样本中脆弱词和对抗词)，当进行下一次攻击动作时，攻击方法会根据之前学习到的攻击经验优先攻击样本中的脆弱词，而无需重新寻优。

进一步地，步骤2所述的搜索触发器，具体如下：

当对抗知识库积累到一定规模之后，一些对抗词频繁出现在对抗样本中，这说明这些对抗词具有通用扰动的特性。但是单个对抗词的通用扰动效果不强，因此我们提出触发器搜索算法。首先根据对抗知识库中对抗词出现的频率设置触发器搜索范围，我们只从出现频率高的前k个对抗词中搜索触发器；然后设置扰动的大小，即触发器长度d，触发器越长攻击效果越好。我们迭代地替换触发器中的对抗词，通过优化t最小化一批样本的目标预测损失，这转化为以下目标：

其中

为输入样本的数据分布；

是任务的损失函数，是目标标签；s是输入文本；

对于一个长度为d的触发器，其中每个词的搜索空间相同且都为K个对抗词，找到最优触发器需要搜索kd次，寻找全局最优解需要付出的查询次数巨大。为了降低查询次数，我们采用优化算法，本发明中具体为：对于一个长度为d-1的触发器，我们从k个对抗词中通过遍历的方法选择一个词并添加到触发器后，使得新的触发器的通用扰动效果最好。因为触发器越长攻击效果越好，所以我们的策略可以使得生成的触发器朝着通用扰动效果更好的方向移动。

下面结合具体实施例对本发明作进一步详细说明。

实施例1

本实施例首先攻击目标模型生成50个对抗样本，采用论文《Zang Y,Qi F,Yang C,et al.Word-level Textual Adversarial Attacking as Combinatorial Optimization[C]//Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics.2020.》中词级文本对抗性攻击的方法，然后在50个对抗样本中搜索目标模型的后门。为了方便评估我们的攻击性能，我们在数据集中按照正面与负面两个类别分别随机选取500个正确分类的样本作为测试输入。

步骤1：构建基于对抗攻击的知识库，给定一个样本包含n个单词，即s＝[ω₀,ω₁,…,ω_m,…,ω_n]。首先我们给每个单词选定义原空间。例如ω_m的可替换词空间可表示为

初始化时，我们随机替代原始输入的一个单词，即

随着攻击的进行，我们得到多个对抗样本，同时我们也记录了一组原始样本中被修改的词，并根据出现的次数由多到少对其排序

每个脆弱词对应一个对抗词空间，例如

的对抗词空间表示为

步骤2：触发器搜索方法，当对抗知识库积累到一定规模之后，一些对抗词频繁出现在对抗样本中，这说明这些对抗词具有通用扰动的特性。但是单个对抗词的通用扰动效果不强，因此我们提出触发器搜索算法。首先根据对抗知识库中对抗词出现的频率设置触发器搜索范围，我们只从出现频率高的前k个对抗词中搜索触发器；然后设置扰动的大小，即触发器长度d，触发器越长攻击效果越好。我们迭代地替换触发器中的对抗词，通过优化t最小化一批样本的目标预测损失，这转化为以下目标：

其中

输入样本的数据分布，

是任务的损失函数，

是目标标签，s是文本输入。

在黑盒条件下，我们只通过模型返回的样本识别准确率作为触发器搜索算法的反馈。

我们首先设置触发器长度为3，对于一个长度为d的触发器，其中每个词的搜索空间相同且都为k个对抗词，找到最优触发器需要搜索kd次，寻找全局最优解需要付出的查询次数巨大。为了降低查询次数，我们采用优化算法，例如贪心算法、粒子群优化算法。等因为触发器越长攻击效果越好，所以我们的策略可以使得生成的触发器朝着通用扰动效果更好的方向移动。

经过以上步骤，得到如图2的效果。图2展示了触发器对不同数据集训练出来的BiLSTM模型的影响。我们的方法能够对SST-2或IMDB数据上训练出的BiLSTM模型产生明显的攻击效果。例如对于标签是消极的SST-2数据，我们的方法的攻击成功率为100％。总体来看我们的方法的攻击成功率与基线方法持平，并且我们的方法是在黑盒条件下实施的，而基线方法需要白盒条件。白盒攻击需要攻击者了解受害模型的具体的结构和参数等信息，因此攻击者可以利用模型的具体信息求解模型的梯度信息，进而用于指导触发器的生成。黑盒攻击假定对手无法访问目标模型，只知道输出标签和预测的置信水平。我们的方法是黑盒攻击，需要更苛刻的条件，因此更加现实。基线方法是《K.N.e.a.Wallace E,Feng S,Universal adversarial triggers for attacking and analyzing nlp,Proceedings ofthe 2019Conference on Empirical Methods in Natural Language Processing andthe 9th International Joint Conference on Natural Language Processing(EMNLPIJCNLP)(2019)》。

图3展示了触发器长度和攻击成功率的关系。可以看出，对于SST-2+BiLSTM，我们的方法只用长度为3的触发器就能实现90％以上的攻击成功率。对于SST-2+BERT，我们的方法只用长度为3的触发器就能实现75.8％以上的攻击成功率。对于IMDB+BiLSTM，我们的方法只用长度为4的触发器就能实现77.8％以上的攻击成功率。实验结果说明我们的方法用很短的触发器就能实现很高的攻击成功率。

图4显示了触发器在相同数据训练出来的不同模型之间的转移攻击。图5显示了触发器在相同模型不同数据集之间的转移攻击。总体来看，看在SST-2数据集训练出的不同模型间实施转移攻击更容易。针对IMDB数据集训练出的模型产生的转移攻击，对SST-2数据集训出的相同模型能获得很好的攻击效果。