CN114254108A

CN114254108A - 一种中文文本对抗样本生成的方法、系统及介质

Info

Publication number: CN114254108A
Application number: CN202111518229.0A
Authority: CN
Inventors: 吴渝; 蓝康宁; 杨杰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-29

Abstract

本发明公开了一种中文文本对抗样本生成的方法，包括如下步骤：获取原始文本数据，且所述原始文本数据为中文文本分类器的输入数据；构建一个深度学习攻击模型，使用数据聚集的方法迭代生成训练数据，并使用强化学习的方法训练模型；使用训练好的攻击模型，输入到所述原始文本数据，以获得对抗样本。本发明提供了一种带有深度学习的中文文本对抗样本生成的方法，通过学习模型，适应中文文本，实现多种攻击策略，相对现有技术中英文对抗样本生成的方法，流程更加简单。

Description

一种中文文本对抗样本生成的方法、系统及介质

技术领域

本发明涉及信息对抗技术领域，具体涉及一种中文文本对抗样本生成的方法、系统及介质。

背景技术

随着计算设备的更新和算力的提高，深度神经网络(DNN)在人工智能(AI)领域得到了广泛的应用，特别是在计算机视觉(CV)和自然语言处理(NLP)两大任务中，取得了惊人的成就。在深度模型取得优秀成果和广泛应用的同时，深度学习模型的安全问题也日益严重。

对抗攻击(Adversarial Attack)即人们通过给正常样本添加某些噪声，利用人无法感知的扰动，使正常的模型做出异常的预测。虽然深度学习模型在各类任务中表现出色，但是在现实生活生产中，样本总是含有噪声的，模型在对某些噪声数据进行任务的时候就会遇到很多问题。面临现实普遍存在的噪声样本和恶意构造的对抗样本，表现卓越的DNN模型遭受极大的安全威胁。

目前，国内外在自然语言处理对抗攻击领域的研究，主要有基于梯度的白盒攻击，例如TextFool使用了快速梯度下降法；还有黑盒攻击，基于置信度的文本替换等如DeepWordBug、TextBugger等。

在现实场景中，我们无法获取模型结构和参数信息，可能获取到模型的分类置信度信息，甚至只能获取到模型的最终决策标签，因此基于梯度的攻击方法受到限制。现有攻击流程复杂，需要对目标模型进行多次查询；攻击方法大多只是按照一定算法进行组合优化，不具有学习能力；攻击策略并没有考虑到中文文本的特点，攻击策略单一，借鉴英文文本的攻击策略不适用于中文文本。

发明内容

鉴于上述问题，本发明的目的在于提供一种中文文本对抗样本生成的方法，以实现强化学习，且实现多种攻击策略，以及对中文文本的适应，攻击流程简单。

本发明通过下述技术方案实现：

一种中文文本对抗样本生成的方法，包括如下步骤：

获取原始文本数据，且所述原始文本数据为中文文本分类器的输入数据；

构建一个深度学习攻击模型，使用数据聚集的方法迭代生成训练数据，并使用强化学习的方法训练模型；

使用训练好的攻击模型，输入到所述原始文本数据，以获得对抗样本。

在一些实施方式中，所述步骤构建一个深度学习攻击模型，使用数据聚集的方法迭代生成训练数据，并使用强化学习的方法训练模型中，构建一个深度学习攻击模型包括如下子步骤：

初始化一个攻击模型架构，所述攻击模型架构包括有嵌入层、编码层、解码层和线性层；

初始化攻击模型的参数。

在一些实施方式中，所述步骤初始化一个攻击模型架构，所述攻击模型架构包括有嵌入层、编码层、解码层和线性层中，所述嵌入层、编码层和解码层依次串联，且所述嵌入层长度最大为512，解码层和线性层之间用一个Dropout单元连接，所述线性层由768个输入神经单元和1个输出单元的多层感知机构成。

在一些实施方式中，所述步骤初始化攻击模型的参数中，包括如下子步骤：

使用预训练模型的参数来初始化嵌入层、编码层和解码层；

使用随机参数来初始化线性层。

在一些实施方式中，所述步骤构建一个深度学习攻击模型，使用数据聚集的方法迭代生成训练数据，并使用强化学习的方法训练模型中，使用数据聚集的方法迭代生成训练数据包括如下子步骤：

对原始文本数据的每一个句子，使用Jieba分词工具做分词操作，得到每个句子的词语集合s＝{w₁，...，w_i，...，w_n}，其中s表示当前句子，w_i表示分词后的第i个词语；

对分词操作后的每个词语，计算其显著性，具体计算公式为

s＝{w₁，…，w_i，…，w_n}和

其中S(s，w_i)表示句子s中第i个词w_i的显著性，P(y_true|s)表示原句子被中文文本分类器分类为y_true的概率，

表示句子s删除w_i词语之后剩余的文本，

表示文本

被中文文本分类器分类为y_true的概率；

对分词操作后的每个词语w_i，利用WordNet，构建其同义词集合，作为替换的候选词集合C_i＝{c₁，...，c_n}；

构建的候选词集合中的每一个候选词，计算其有效性，具体计算公式如下：E(s，w_i，c_j)＝P(y_true|s)-P(y_true|s′_i)，s＝{w₁，…，w_i，…，w_n}和s′_i＝{w₁，…，w_i-1，c_j，w_i+1…，w_n}；其中E(s，w_i，c_j)表示句子s中第i个词w_i的候选词c_j的有效性，其中s′_i表示句子s使用候选词c_j替换词语w_i之后的文本，P(y_true|s′_i)表示文本s′_i被中文文本分类器分类为y_true的概率；

对每一个w_i，和每个词的候选词，给出一个替换的评分Score＝S(s，w_i)*E(s，w_i，c_j)，选择其评分最高的候选词c′替换w_i，定义为一次替换tp_i(s，w_i，c′)，对整个句子合构成一个文本处理集合TP＝{tp₁，…，tp_n}；

遍历集合TP，迭代地对原句子进行替换，生成的s′_i数据构成对抗样本候选集；对抗样本候选集即训练数据集的文本数据；遍历对抗样本候选集，并且查询中文文本分类器，如果迭代完攻击策略，受害者模型的输出与原标签一致，则以最后一次迭代的索引作为标签添加进数据集；如果分类结果与原标签不一致，以当前句子在数据集中的索引作为标签添加进数据集；

遍历原数据集的每一个句子，实施以上操作步骤，即为迭代生成的训练数据集。

在一些实施方式中，所述步骤构建一个深度学习攻击模型，使用数据聚集的方法迭代生成训练数据，并使用强化学习的方法训练模型中，使用强化学习的方法训练模型包括如下子步骤：

使用每一次迭代获得的训练数据，对模型进行相应的一次迭代的训练；

把训练任务建模为一个多分类问题，对于每个原始句子产生的k条训练数据，输入攻击模型，输出k个分数，使用交叉熵损失函数更新模型参数；

完成一次迭代训练之后，继续迭代生成新的训练数据集，做下一次迭代训练。

在一些实施方式中，所述步骤使用训练好的攻击模型，输入到所述原始文本数据，以获得对抗样本中，获得对抗样本包括如下子步骤：

对原始数据的每一个句子，获得攻击模型的输入数据，所述输入数据为目标句子生成的对抗样本候选集；

输入获取的数据，攻击模型输出一个标签，映射这个标签对应的文本数据，即可获得攻击模型生成的对抗样本。

本发明的目的之二在于提供一种中文文本对抗样本生成的系统，包括：

文本处理模块，所述文本处理模块用于原数据文本的分词操作、词语同义词集构建、计算词语显著性、计算替换词有效性、生成文本处理集合；

训练数据生成模块，所述训练数据生成模块用于便利生成文本处理集合，对原始文本进行替换操作，生成训练数据的文本部分；查询中文文本分类器，生成训练数据的标签部分；

训练模块，所述训练模块用于初始化模型架构和参数，迭代地生成训练数据和训练模型；

攻击模块，所述攻击模块用于向训练好的攻击模型输入原数据，且攻击模型输出对抗样本。

本发明的目的之三在于提供一种中文文本对抗样本生成的系统，包括用于执行上述方法的单元。

本发明的目的之四在于提供一种一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，使所述处理器执行上述方法。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明提供了一种带有深度学习的中文文本对抗样本生成的方法，通过学习模型，适应中文文本，实现多种攻击策略，相对现有技术中英文对抗样本生成的方法，流程更加简单。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为本发明方法主步骤流程示意图；

图2为本发明方法一子步骤流程示意图；

图3为本发明方法一子步骤流程示意图；

图4为本发明方法一子步骤流程示意图；

图5为本发明方法一子步骤流程示意图；

图6为本发明方法的整体的流程框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

如图1和6所示，一种中文文本对抗样本生成的方法，包括如下步骤：

S100、获取原始文本数据，且所述原始文本数据为中文文本分类器的输入数据。

本步骤中，通过中文文本分类器对输入的数据进行分类，形成需要处理的原始文本数据。

S200、构建一个深度学习攻击模型，使用数据聚集的方法迭代生成训练数据，并使用强化学习的方法训练模型。

本步骤中利用深度学习技术，形成深度学习共计模型，并进行训练，以满足后续的样本生成。

S300、使用训练好的攻击模型，输入到所述原始文本数据，以获得对抗样本。

本步骤中通过训练好的攻击模型，并将中文文本的原始文本数据投入攻击模型，进而生成对抗样本。该对抗样本，即为适应的中文文本对抗样本。

如图2所示，在一些实施方式中，所述步骤S200中构建一个深度学习攻击模型包括如下子步骤：

S210、初始化一个攻击模型架构，所述攻击模型架构包括有嵌入层、编码层、解码层和线性层。

本步骤中利用现有的攻击模型架构，并进行初始化，以便于后续的适应性调整。

S220、初始化攻击模型的参数。

本不中，通过初始化攻击模型的参数，来进行模型整体的调整。

在一些实施方式中，所述步骤S210中，所述嵌入层、编码层和解码层依次串联，且所述嵌入层长度最大为512，解码层和线性层之间用一个Dropout单元连接，所述线性层由768个输入神经单元和1个输出单元的多层感知机构成。

本优选的实施方式中，对攻击模型架构中的嵌入层、编码层和解码层进行了连接及参数限定。

如图3所示，在一些实施方式中，所述步骤S220中，包括如下子步骤：

S221、使用预训练模型的参数来初始化嵌入层、编码层和解码层。

本步骤中，通过预训练模型的参数来处理嵌入层、编码层和解码层，以使得嵌入层、编码层和解码层在本方案中实现适应。

S222、使用随机参数来初始化线性层。

本步骤中，通过随机参数来初始化线性层，以使得线性层满足训练的需求。

在一些实施方式中，所述步骤S200中，使用数据聚集的方法迭代生成训练数据包括如下子步骤：

S201、对原始文本数据的每一个句子，使用Jieba分词工具做分词操作，得到每个句子的词语集合s＝{w_i，...，w_i，...，w_n}，其中s表示当前句子，w_i表示分词后的第i个词语；

S202、对分词操作后的每个词语，计算其显著性，具体计算公式为

s＝{w₁，…，w_i，…，w_n}和

表示句子s删除w_i词语之后剩余的文本，

表示文本

被中文文本分类器分类为y_true的概率；

S203、对分词操作后的每个词语w_i，利用WordNet，构建其同义词集合，作为替换的候选词集合C_i＝{c₁，…，c_n}；

S204、构建的候选词集合中的每一个候选词，计算其有效性，具体计算公式如下：E(s，w_i，c_j)＝P(y_true|s)-P(y_true|s′_i)，s＝{w₁，…，w_i，…，w_n}和s′_i＝{w₁，…，w_i-1，c_j，w_i+1…，w_n}；其中E(s，w_i，c_j)表示句子s中第i个词w_i的候选词c_j的有效性，其中s′_i表示句子s使用候选词c_j替换词语w_i之后的文本，P(y_true|s′_i)表示文本s′_i被中文文本分类器分类为y_true的概率；

S205、对每一个w_i，和每个词的候选词，给出一个替换的评分Score＝S(s，w_i)*E(s，w_i，c_j)，选择其评分最高的候选词c′替换w_i，定义为一次替换tp_i(s，w_i，c′)，对整个句子合构成一个文本处理集合TP＝{tp₁，…，tp_n}；

S206、遍历集合TP，迭代地对原句子进行替换，生成的s′_i数据构成对抗样本候选集；对抗样本候选集即训练数据集的文本数据；遍历对抗样本候选集，并且查询中文文本分类器，如果迭代完攻击策略，受害者模型的输出与原标签一致，则以最后一次迭代的索引作为标签添加进数据集；如果分类结果与原标签不一致，以当前句子在数据集中的索引作为标签添加进数据集；

S207、遍历原数据集的每一个句子，实施以上操作步骤，即为迭代生成的训练数据集。

本优选的实施方式中，给出了获取训练数据集的方法流程，以满足后续的需要。

如图4所示，在一些实施方式中，所述步骤S200中，使用强化学习的方法训练模型包括如下子步骤：

S2001、使用每一次迭代获得的训练数据，对模型进行相应的一次迭代的训练；

S2002、把训练任务建模为一个多分类问题，对于每个原始句子产生的k条训练数据，输入攻击模型，输出k个分数，使用交叉熵损失函数更新模型参数；

S2003、完成一次迭代训练之后，继续迭代生成新的训练数据集，做下一次迭代训练。

本优选的实施方中，针对强化学习的方法训练，具体给出了三个步骤实现。

在一些实施方式中，所述步骤S300中，获得对抗样本包括如下子步骤：

S310、对原始数据的每一个句子，获得攻击模型的输入数据，所述输入数据为目标句子生成的对抗样本候选集；

S320、输入获取的数据，攻击模型输出一个标签，映射这个标签对应的文本数据，即可获得攻击模型生成的对抗样本。

本优选的方式中，针对对抗样本的获得，提供了两个步骤实现。

如图5所示，一种中文文本对抗样本生成的系统，包括：

一种中文文本对抗样本生成的系统，包括用于执行上述方法的单元。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，使所述处理器执行上述方法。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文文本对抗样本生成的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的中文文本对抗样本生成的方法，其特征在于，所述步骤构建一个深度学习攻击模型，使用数据聚集的方法迭代生成训练数据，并使用强化学习的方法训练模型中，构建一个深度学习攻击模型包括如下子步骤：

初始化攻击模型的参数。

3.根据权利要求2所述的中文文本对抗样本生成的方法，其特征在于，所述步骤初始化一个攻击模型架构，所述攻击模型架构包括有嵌入层、编码层、解码层和线性层中，所述嵌入层、编码层和解码层依次串联，且所述嵌入层长度最大为512，解码层和线性层之间用一个Dropout单元连接，所述线性层由768个输入神经单元和1个输出单元的多层感知机构成。

4.根据权利要求2所述的中文文本对抗样本生成的方法，其特征在于，所述步骤初始化攻击模型的参数中，包括如下子步骤：

使用预训练模型的参数来初始化嵌入层、编码层和解码层；

使用随机参数来初始化线性层。

5.根据权利要求2所述的中文文本对抗样本生成的方法，其特征在于，所述步骤构建一个深度学习攻击模型，使用数据聚集的方法迭代生成训练数据，并使用强化学习的方法训练模型中，使用数据聚集的方法迭代生成训练数据包括如下子步骤：

对分词操作后的每个词语，计算其显著性，具体计算公式为

s＝{w₁，...，w_i，...，w_n}和

其中S(s，w_i)表示句子s中第i个词w_i的显著性，P(y_trhe|s)表示原句子被中文文本分类器分类为y_trhe的概率，

表示句子s删除w_i词语之后剩余的文本，

表示文本

被中文文本分类器分类为y_trhe的概率；

6.根据权利要求5所述的中文文本对抗样本生成的方法，其特征在于，所述步骤构建一个深度学习攻击模型，使用数据聚集的方法迭代生成训练数据，并使用强化学习的方法训练模型中，使用强化学习的方法训练模型包括如下子步骤：

7.根据权利要求1所述的中文文本对抗样本生成的方法，其特征在于，所述步骤使用训练好的攻击模型，输入到所述原始文本数据，以获得对抗样本中，获得对抗样本包括如下子步骤：

8.一种中文文本对抗样本生成的系统，其特征在于，包括：

9.一种中文文本对抗样本生成的系统，其特征在于，包括用于执行如权利要求1-7任一项权利要求所述的方法的单元。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，使所述处理器执行如权利要求1-7任一项所述的方法。