CN117808095B

CN117808095B - 一种对抗攻击样本生成方法和装置、电子设备

Info

Publication number: CN117808095B
Application number: CN202410206258.0A
Authority: CN
Inventors: 陈科海; 李泽林; 白雪峰; 张民
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-05-28
Anticipated expiration: 2044-02-26
Also published as: CN117808095A

Abstract

本发明公开了一种对抗攻击样本生成方法和装置、电子设备，属于人工智能安全技术领域，所述方法包括：对第一大语言模型进行全量微调，得到第二模型；使用BERT‑Attack算法对所述第二模型进行攻击实验，得到原始攻击样本；使用原始攻击样本对第二模型进行知识蒸馏处理，得到第三模型；使用攻击算法和原始攻击样本，对第三模型进行文本对抗攻击，得到迁移攻击样本；确定原始攻击样本与迁移攻击样本的可迁移性；依据可迁移性、原始攻击样本和迁移攻击样本，进行攻击算法自适应性改进。本发明提供的对抗攻击样本生成方案，能够增加所生成的对抗攻击样本在不同环境和模型下的可迁移性，提高攻击的鲁棒性和可靠性。

Description

一种对抗攻击样本生成方法和装置、电子设备

技术领域

本发明涉及人工智能安全技术领域，尤其涉及一种对抗攻击样本生成方法和装置、电子设备。

背景技术

在当前信息社会中，大型语言模型（Large Language Models, LLM）已经成为人工智能领域的尖端技术之一。这些模型被广泛用于自然语言处理、机器翻译、问题回答等任务，为社交媒体、新闻报道、在线广告等提供了关键支持。然而，随着它们在各个领域的应用不断扩大，文本对抗攻击的威胁也显著增加。

文本对抗攻击是指通过精心设计的文本输入，试图欺骗大型语言模型，导致模型输出错误或误导性信息。这种攻击可能对社会造成严重后果，包括误导性信息传播、虚假广告等。为了应对这一挑战，研究人员需要深入了解大型语言模型在面对文本对抗攻击时的薄弱环节，并提出相应的改进策略，以提高模型的鲁棒性和安全性。

本研究的技术背景基于对大型语言模型的广泛应用和文本对抗攻击的威胁的认识。通过深入研究这一领域，我们旨在揭示潜在的风险，为构建更为可靠的人工智能系统提供支持，确保这些技术在各应用领域中都能够安全可靠地发挥作用。对抗攻击样本的生成是关键环节，现有的对抗攻击样本生成方案如下：

使用白盒替代模型对给定图像进行攻击；预测下一步更新的对抗攻击样本，并在预测的对抗攻击样本的邻域内进行采样；计算采样点和预测点的梯度之和。循环执行上述步骤进行更多步的对抗攻击样本更新路径的预测，直到达到预设的超前预测步数，并累加每一轮循环得到的梯度和动量。使用动量快速梯度符号法，利用累积梯度更新对抗攻击样本完成一次迭代，循环执行上述流程直到达到预设的迭代次数，生成对抗攻击样本并攻击目标黑盒模型。

现有的生成对抗攻击样本的技术方案存在以下缺陷：

缺陷一、局部最优值陷阱：在优化问题中寻找使目标函数变化幅度更小的最值点，但容易陷入局部最优值，无法达到全局最优解。这导致在对抗攻击样本生成中，生成的对抗攻击样本可能过度拟合于白盒替代模型，对未知黑盒模型的攻击成功率下降。

缺陷二、缺乏模型鲁棒性：在深度学习模型中通过使模型损失函数更平滑的最值点来提高模型的鲁棒性。然而，这种方法可能无法充分解决模型的鲁棒性问题，特别是在面对大型语言模型的文本对抗攻击时。

缺陷三、低迁移性：现有技术方案在实验中展示了较高的迁移黑盒攻击成功率，但存在迁移性不足的问题。即生成的对抗攻击样本在不同环境和模型下的表现可能有所下降，限制了其在实际应用中的通用性和可靠性。

发明内容

本发明实施例的目的是提供一种对抗攻击样本生成方法和装置、电子设备，能够解决现有技术中存在的上述至少一个问题。

为解决上述技术问题，本发明提供如下技术方案：

本发明实施例提供了一种对抗攻击样本生成方法，其中，该方法包括：

对第一大语言模型进行全量微调，得到第二模型；

使用BERT-Attack算法对所述第二模型进行攻击实验，得到原始攻击样本；

使用所述原始攻击样本对所述第二模型进行知识蒸馏处理，得到第三模型；

使用攻击算法和所述原始攻击样本，对所述第三模型进行文本对抗攻击，得到迁移攻击样本；

确定所述原始攻击样本与所述迁移攻击样本的可迁移性；

依据所述可迁移性、所述原始攻击样本和所述迁移攻击样本，进行攻击算法自适应性改进。

可选地，对第一大语言模型进行全量微调，得到第二模型的步骤，包括：

选择开源的第一大语言模型作为基座模型；

使用预设资料库和情感分析数据集，对所述基座模型进行全量微调，得到所述第二模型。

可选地，使用所述原始攻击样本对所述第二模型进行知识蒸馏处理，得到第三模型的步骤，包括：

将所述原始攻击样本输入所述第二模型进行推理，得到输出结果；

将所述输出结果作为训练标签，使用Bert-base-uncase模型作为学生模型，利用交叉熵和KL散度作为损失函数进行知识蒸馏，得到第三模型。

可选地，所述使用鲁棒性改进攻击算法和所述原始攻击样本，对所述第三模型进行文本对抗攻击，得到迁移攻击样本的步骤，包括：

将所述情感分析数据集作为输入样本，使用鲁棒性改进攻击算法对所述第三模型进行文本对抗攻击；

针对每个所述原始攻击样本，逐个分词进行掩码推理得到每个分词对应的重要性分数；

依据各所述分词对应的重要性分数确定各所述分词对应的重要性等级；

按照重要性等级生成待替换分词队列；

按照重要性等级降序，依次从所述队列中提取待替换分词进行同义词替换，得到替换后的第一攻击样本；使用所述第三模型对所述第一攻击样本进行推理直到攻击成功，得到迁移攻击样本以及所述迁移攻击样本对应的修改替换参数。

可选地，依据所述可迁移性、所述原始攻击样本和所述迁移攻击样本，进行攻击算法自适应性改进的步骤包括：

筛选出攻击值大于预设阈值的迁移成功的攻击样本和攻击值小于所述预设阈值的迁移失败的攻击样本；

对所述迁移成功的攻击样本对应的修改替换参数进行加权平均，得到优化后的攻击参数；

采用优化后的攻击参数调整攻击算法；

采用调整后的攻击算法和所述迁移失败的攻击样本，进行攻击算法自适应改进。

本发明实施例还提供了一种对抗攻击样本生成装置，其中，所述装置包括：

全量微调模块，用于对第一大语言模型进行全量微调，得到第二模型；

攻击模块，用于使用BERT-Attack算法对所述第二模型进行攻击实验，得到原始攻击样本；

蒸馏模块，用于使用所述原始攻击样本对所述第二模型进行知识蒸馏处理，得到第三模型；

对抗攻击模块，用于使用攻击算法和所述原始攻击样本，对所述第三模型进行文本对抗攻击，得到迁移攻击样本；

确定模块，用于确定所述原始攻击样本与所述迁移攻击样本的可迁移性；

改进模块，用于依据所述可迁移性、所述原始攻击样本和所述迁移攻击样本，进行攻击算法自适应性改进。

可选地，所述全量微调模块包括：

第一子模块，用于选择开源的第一大语言模型作为基座模型；

第二子模块，用于使用预设资料库和情感分析数据集，对所述基座模型进行全量微调，得到所述第二模型。

可选地，所述蒸馏模块包括：

第三子模块，用于将所述原始攻击样本输入所述第二模型进行推理，得到输出结果；

第四子模块，用于将所述输出结果作为训练标签，使用Bert-base-uncase模型作为学生模型，利用交叉熵和KL散度作为损失函数进行知识蒸馏，得到第三模型。

可选地，所述对抗攻击模块包括：

第五子模块，用于将所述情感分析数据集作为输入样本，使用鲁棒性改进攻击算法对所述第三模型进行文本对抗攻击；

第六子模块，用于针对每个所述原始攻击样本，逐个分词进行掩码推理得到每个分词对应的重要性分数；

第七子模块，用于依据各所述分词对应的重要性分数确定各所述分词对应的重要性等级；

第八子模块，用于按照重要性等级生成待替换分词队列；

第九子模块，用于按照重要性等级降序，依次从所述队列中提取待替换分词进行同义词替换，得到替换后的第一攻击样本；使用所述第三模型对所述第一攻击样本进行推理直到攻击成功，得到迁移攻击样本以及所述迁移攻击样本对应的修改替换参数。

可选地，所述改进模块具体用于：

采用优化后的攻击参数调整攻击算法；

本发明实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现上述任意一种对抗攻击样本生成方法的步骤。

本发明实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现上述任意一种对抗攻击样本生成方法的步骤。

本发明实施例提供的对抗攻击样本生成方案，对第一大语言模型进行全量微调，得到第二模型；使用BERT-Attack算法对所述第二模型进行攻击实验，得到原始攻击样本；使用原始攻击样本对第二模型进行知识蒸馏处理，得到第三模型；使用攻击算法和原始攻击样本，对第三模型进行文本对抗攻击，得到迁移攻击样本；确定原始攻击样本与迁移攻击样本的可迁移性；依据可迁移性、原始攻击样本和迁移攻击样本，进行攻击算法自适应性改进。本发明实施例提供的对抗攻击样本生成方案，一方面，通过全量微调第一模型和知识蒸馏方法，能够提高模型在情感分析任务上的性能，增强其准确性和适应性；第二方面，通过BERT-Attack算法进行攻击实验，并结合鲁棒性改进和动态自适应改进，能够全面评估所生成对抗攻击样本的迁移性；第三方面，通过改进攻击算法，能够增加所生成的对抗攻击样本在不同环境和模型下的可迁移性，提高攻击的鲁棒性和可靠性。

附图说明

图1是本发明实施例提供的一种对抗攻击样本生成方法的步骤流程图；

图2是本发明实施例提供的一种对抗攻击样本生成装置的结构框图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

下面结合附图，通过具体的实施例及其应用场景对本发明实施例提供的对抗攻击样本生成方案进行详细地说明。

如附图1所示，本发明实施例的对抗攻击样本生成方法包括以下步骤：

步骤101：对第一大语言模型进行全量微调，得到第二模型。

本发明实施例提供的对抗攻击样本生成方法可应用于电子设备或者服务器，电子设备或者服务器的存储介质中存储有对抗攻击样本生成方法对应的计算机程序，处理器执行该计算机程序以生成对抗攻击样本。

一种可选地对第一大语言模型进行全量微调，得到第二模型的方式可以如下：

S1：选择开源的第一大语言模型作为基座模型。

第一大语言系统可以为Meta开源的LLaMA-2大语言模型，更为具体地可以将LLaMA-2-7b模型作为基座模型。

LLaMA-2是一系列预训练和微调的大型语言模型，参数规模从70亿到700亿不等。Meta的微调LLMs，叫做Llama 2-Chat，是为对话场景而优化的。LLaMA-2模型在大多数基准上都比开源的对话模型表现得更好，并且根据人类评估的有用性和安全性，可能是闭源模型的合适替代品。

S2：使用预设资料库和情感分析数据集，对所述基座模型进行全量微调，得到所述第二模型。

预设资料库可以为Amazon-IMDB，情感分析数据集可以为SST-2数据集，第二模型可以为SA-LLaMA模型。

需要说明的是，上述仅是列举了一种具体地实现，在实际实现过程中，预设资料库、情感分析数据集、基座模型以及第二模型的具体选择可由本领域技术人员根据实际需求灵活设置，本发明实施例中对此不作具体限制。

步骤102：使用BERT-Attack算法对第二模型进行攻击实验，得到原始攻击样本。

BERT-Attack的思想是使用一个BERT作为对抗生成器来生成对抗样本，使用另外一个BERT作为被攻击的模型，目标设计提高被攻击BERT的鲁棒性。BERT-Attack有两个核心步骤：步骤一、为目标模型找到易攻击的词，这个易攻击的词往往是帮助模型做出判断的关键词；步骤二、对易攻击词进行扰动或者替换，利用MLM算法生成每个关键词的Top-K个扰动，不断对关键词的扰动进行尝试，直到攻击成功。

步骤103：使用原始攻击样本对第二模型进行知识蒸馏处理，得到第三模型。

一种可选地使用原始攻击样本对第二模型进行知识蒸馏处理，得到第三模型的方式可以如下：将原始攻击样本输入第二模型进行推理，得到输出结果；将输出结果作为训练标签，使用Bert-base-uncase模型作为学生模型，利用交叉熵和KL散度作为损失函数进行知识蒸馏，得到第三模型。

其中，第三模型可以为Distil-SA-Bert模型。

步骤104：使用攻击算法和原始攻击样本，对第三模型进行文本对抗攻击，得到迁移攻击样本。

一种可选地使用攻击算法和原始攻击样本，对第三模型进行文本对抗攻击，得到迁移攻击样本的方式可以包括如下子步骤：

S1：将情感分析数据集作为输入样本，使用鲁棒性改进攻击算法对第三模型进行文本对抗攻击；

S2：针对每个原始攻击样本，逐个分词进行掩码推理得到每个分词对应的重要性分数；

S3：依据各分词对应的重要性分数确定各分词对应的重要性等级；

S4：按照重要性等级生成待替换分词队列；

S5：按照重要性等级降序，依次从队列中提取待替换分词进行同义词替换，得到替换后的第一攻击样本；使用第三模型对第一攻击样本进行推理直到攻击成功，得到迁移攻击样本以及迁移攻击样本对应的修改替换参数。

本步骤中重复从待替换分词队列中提取待替换分词进行同义词替换组成第一攻击样本，然后通过第一攻击样本对模型进行攻击，在攻击成功时步骤204完成。若攻击失败，则返回执行S4从队列中提取待替换分词重新组成第一攻击样本对模型进行攻击。

步骤105：确定原始攻击样本与迁移攻击样本的可迁移性。

步骤106：依据可迁移性、原始攻击样本和迁移攻击样本，进行攻击算法自适应性改进。

在一种可选地实施例中，依据可迁移性、原始攻击样本和迁移攻击样本，进行攻击算法自适应性改进的方式可以如下：

筛选出攻击值大于预设阈值的迁移成功的攻击样本和攻击值小于预设阈值的迁移失败的攻击样本；

预设阈值可以由本领域技术人员灵活设置，本发明实施例中对此不作具体限制。

对迁移成功的攻击样本对应的修改替换参数进行加权平均，得到优化后的攻击参数；

采用优化后的攻击参数调整攻击算法；

采用调整后的攻击算法和迁移失败的攻击样本，进行攻击算法自适应改进。

本发明实施例中，重复多次对攻击算法自适应性改进，直至满足预设重复次数上限或者攻击成功率达到预设成功率。

本发明实施例提供的对抗攻击样本生成方法，对第一大语言模型进行全量微调，得到第二模型；使用BERT-Attack算法对第二模型进行攻击实验，得到原始攻击样本；使用原始攻击样本对第二模型进行知识蒸馏处理，得到第三模型；使用攻击算法和原始攻击样本，对第三模型进行文本对抗攻击，得到迁移攻击样本；确定原始攻击样本与迁移攻击样本的可迁移性；依据可迁移性、原始攻击样本和迁移攻击样本，进行攻击算法自适应性改进。本发明实施例提供的对抗攻击样本生成方法，一方面，通过全量微调第一模型和知识蒸馏方法，能够提高模型在情感分析任务上的性能，增强其准确性和适应性；第二方面，通过BERT-Attack算法进行攻击实验，并结合鲁棒性改进和动态自适应改进，能够全面评估所生成对抗攻击样本的迁移性；第三方面，通过改进攻击算法，能够增加所生成的对抗攻击样本在不同环境和模型下的可迁移性，提高攻击的鲁棒性和可靠性。

下面以一具体实例对本发明实施例的对抗样本生成方法进行说明。

本具体实例提供的对抗样本生成方法，包括以下步骤：

步骤1：对Meta开源的LLaMA-2大语言模型进行全量微调，得到SA-LLaMA模型；

本步骤1具体可包括如下子步骤：

步骤1.1：选择Meta开源的LLaMA-2-7b模型作为基座模型；

步骤1.2：使用Amazon-IMDB和SST-2数据集，对LLaMA-2-7b基座模型进行全量微调，得到SA-LLaMA模型。

步骤2：对SA-LLaMA模型使用BertAttack算法进行攻击实验，得到原始攻击样本；

步骤3：利用原始攻击样本对SA-LLaMA模型使用知识蒸馏方法，得到Distil-SA-Bert模型；

本步骤3具体可包括如下子步骤：

步骤3.1：步骤2得到的原始攻击样本输入SA-LLaMA模型进行推理，将推理过程中得到的Logits保存本地作为Teacher知识；

步骤3.2：将Teacher知识作为训练标签，使用Bert-base-uncase模型作为Student模型，利用交叉熵和KL散度作为损失函数进行知识蒸馏，得到Distil-SA-Bert模型。

步骤4：使用鲁棒性改进攻击算法对Distil-SA-Bert模型进行文本对抗攻击，得到迁移攻击样本；

本步骤4具体可以包括如下子步骤：

步骤4.1：使用鲁棒性改进攻击算法，将步骤1.2的情感分析数据集作为输入样本，对Distil-SA-Bert模型进行文本对抗攻击；

步骤4.2：对于每个输入样本，通过逐个token被掩码推理的方式，通过重要性分数计算模块得到每个token具体的重要性分数，并映射到对应的重要性等级，得到不同重要性等级的待替换token队列；

步骤4.3：按照重要性等级降序的方式，对于逐个等级队列中的待替换token，使用semantic_sim工具包进行同义词替换，得到替换后的样本x’；

步骤4.4：使用Distil-SA-Bert模型对于替换后样本x’进行推理，重复步骤4直到攻击成功，得到迁移攻击样本以及该样本的修改替换参数。

步骤5：分析原始攻击样本与迁移攻击样本的可迁移性；

步骤6：根据步骤5的分析结果，实现攻击算法动态自适应改进。

重复步骤4到步骤6实现攻击效果与速度性能的最优化。

本步骤6具体可以包括如下子步骤：

步骤6.1：根据步骤5得到的实验结果，筛选保留攻击效果大于设置阈值的成功样本与攻击效果小于设置阈值的失败样本；

步骤6.2：查询筛选成功样本返回执行步骤4.2作为输入样本执行步骤4.2至步骤4.4得到修改替换样本进行加权平均得到优化后的攻击参数设置；

步骤6.3：应用优化后的攻击参数设置对于步骤6.1得到的筛选失败样本，重复步骤4.2-6.6，实现攻击算法的动态自适应改进。

本具体实例提供的对抗样本生成方法具有如下有益效果：

效果一：全量微调LLaMA-2-7b模型：通过对Meta开源的LLaMA-2-7b模型进行全量微调，能够针对特定任务或数据集进行优化，使得SA-LLaMA模型在情感分析任务上达到97.94%的准确率，可以提高模型在特定任务上的准确性和适应性。

效果二：BertAttack算法进行攻击实验：对现有的最先进攻击算法BertAttack进行攻击实验，可以评估SA-LLaMA模型在面对文本对抗攻击时的脆弱性，以及在最先进攻击算法的基础上更进一步提升效果。通过分析攻击的效果，可以了解模型在不同攻击场景下的表现，为后续的改进提供参考。

效果三：知识蒸馏方法对SA-LLaMA模型进行蒸馏：利用原始攻击样本对SA-LLaMA模型进行知识蒸馏，得到Distil-SA-Bert模型。这种方法可以将SA-LLaMA模型的知识转移给Distil-SA-Bert模型，使得Distil-SA-Bert模型能够在保持性能的同时具备更高的效率和灵活性，最重要的是降低了大模型推理的速度和资源开销，能够快速高效地进行后续推理和攻击步骤，同时保留了一定的可迁移性。

效果四：鲁棒性改进攻击算法：通过改进攻击算法，能够提高攻击的鲁棒性，使得攻击样本更具迁移性。通过逐个token被掩码推理的方式，结合重要性分数计算模块，可以准确评估每个token的重要性，并进行同义词替换，得到迁移攻击样本。这样能够增加攻击样本在不同环境和模型下的可迁移性。

效果五：动态自适应改进：根据分析结果，可以动态自适应地改进攻击算法。通过筛选并保留成功样本和失败样本，可以优化攻击参数设置，提高攻击效果和速度性能。这种动态自适应改进的方式可以使得攻击算法在实践中更加灵活和高效。

图2为实现本发明实施例的一种对抗攻击样本生成装置的结构框图。

本发明实施例提供的对抗攻击样本生成装置包括如下功能模块：

全量微调模块201，用于对第一大语言模型进行全量微调，得到第二模型；

攻击模块202，用于使用BERT-Attack算法对所述第二模型进行攻击实验，得到原始攻击样本；

蒸馏模块203，用于使用所述原始攻击样本对所述第二模型进行知识蒸馏处理，得到第三模型；

对抗攻击模块204，用于使用攻击算法和所述原始攻击样本，对所述第三模型进行文本对抗攻击，得到迁移攻击样本；

确定模块205，用于确定所述原始攻击样本与所述迁移攻击样本的可迁移性；

改进模块206，用于依据所述可迁移性、所述原始攻击样本和所述迁移攻击样本，进行攻击算法自适应性改进。

可选地，所述全量微调模块包括：

可选地，所述蒸馏模块包括：

可选地，所述对抗攻击模块包括：

第八子模块，用于按照重要性等级生成待替换分词队列；

可选地，所述改进模块具体用于：

采用优化后的攻击参数调整攻击算法；

本发明实施例提供的对抗攻击样本生成装置，对第一大语言模型进行全量微调，得到第二模型；使用BERT-Attack算法对第二模型进行攻击实验，得到原始攻击样本；使用原始攻击样本对第二模型进行知识蒸馏处理，得到第三模型；使用攻击算法和原始攻击样本，对第三模型进行文本对抗攻击，得到迁移攻击样本；确定原始攻击样本与迁移攻击样本的可迁移性；依据可迁移性、原始攻击样本和迁移攻击样本，进行攻击算法自适应性改进。本发明实施例提供的对抗攻击样本生成装置，一方面，通过全量微调第一模型和知识蒸馏方法，能够提高模型在情感分析任务上的性能，增强其准确性和适应性；第二方面，通过BERT-Attack算法进行攻击实验，并结合鲁棒性改进和动态自适应改进，能够全面评估所生成对抗攻击样本的迁移性；第三方面，通过改进攻击算法，能够增加所生成的对抗攻击样本在不同环境和模型下的可迁移性，提高攻击的鲁棒性和可靠性。

本发明实施例中图2所示的对抗攻击样本生成装置设置在电子设备或者服务器中。设置有该装置的电子设备或者服务器可以为具有操作系统的装置。该操作系统可以为安卓（Android）操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本发明实施例不作具体限定。

本发明实施例提供的图2所示的对抗攻击样本生成装置能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的程序或指令，该程序或指令被处理器执行时实现上述对抗攻击样本生成装置执行的各过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本发明实施例中的电子设备包括上述所述的服务器。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory， RAM）、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对抗攻击样本生成方法，其特征在于，包括：

对第一大语言模型进行全量微调，得到第二模型；

使用BERT-Attack算法对所述第二模型进行攻击实验，得到原始攻击样本；BERT-Attack算法是使用一个BERT作为对抗生成器来生成对抗样本，使用另外一个BERT作为被攻击的模型；所述使用BERT-Attack算法对所述第二模型进行攻击实验包括：为目标模型找到关键词；对关键词进行扰动或者替换，利用MLM算法生成每个关键词的Top-K个扰动，不断对关键词的扰动进行尝试，直到攻击成功；

使用所述原始攻击样本对所述第二模型进行知识蒸馏处理，得到第三模型；包括：将所述原始攻击样本输入所述第二模型进行推理，得到输出结果；将所述输出结果作为训练标签，使用Bert-base-uncase模型作为学生模型，利用交叉熵和KL散度作为损失函数进行知识蒸馏，得到第三模型；

确定所述原始攻击样本与所述迁移攻击样本的可迁移性；

2.根据权利要求1所述的方法，其特征在于，对第一大语言模型进行全量微调，得到第二模型的步骤，包括：

选择开源的第一大语言模型作为基座模型；

3.根据权利要求2所述的方法，其特征在于，所述使用攻击算法和所述原始攻击样本，对所述第三模型进行文本对抗攻击，得到迁移攻击样本的步骤，包括：

按照重要性等级生成待替换分词队列；

4.根据权利要求1所述的方法，其特征在于，依据所述可迁移性、所述原始攻击样本和所述迁移攻击样本，进行攻击算法自适应性改进的步骤包括：

采用优化后的攻击参数调整攻击算法；

5.一种对抗攻击样本生成装置，其特征在于，包括：

BERT-Attack算法是使用一个BERT作为对抗生成器来生成对抗样本，使用另外一个BERT作为被攻击的模型；所述使用BERT-Attack算法对所述第二模型进行攻击实验包括：为目标模型找到关键词；对关键词进行扰动或者替换，利用MLM算法生成每个关键词的Top-K个扰动，不断对关键词的扰动进行尝试，直到攻击成功；

所述蒸馏模块包括：

第四子模块，用于将所述输出结果作为训练标签，使用Bert-base-uncase模型作为学生模型，利用交叉熵和KL散度作为损失函数进行知识蒸馏，得到第三模型；

6.根据权利要求5所述的装置，其特征在于，所述全量微调模块包括：

7.根据权利要求6所述的装置，其特征在于，所述对抗攻击模块包括：

第八子模块，用于按照重要性等级生成待替换分词队列；

8.一种电子设备，其特征在于，所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行所述权利要求1-4中任意一种对抗攻击样本生成方法的步骤。