CN114091568B

CN114091568B - 一种面向文本分类模型的字词双粒度对抗防御系统及方法

Info

Publication number: CN114091568B
Application number: CN202111219436.6A
Authority: CN
Inventors: 关志涛; 董伙元; 董珈良
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2023-10-03
Anticipated expiration: 2041-10-20
Also published as: CN114091568A

Abstract

本发明公开了一种面向文本分类模型的字词双粒度对抗防御系统及方法，系统包括：SVM分类器训练与预处理模块，该模块用于构造一个二分类的SVM分类模型，并基于SVM分类模型对本系统的输入文本进行预处理；字符级防御模型模块，该模块实现对字符级攻击粒度的文本数据进行正确文本分类；词汇级防御模型模块，该模块实现对词汇级攻击粒度的文本数据进行正确文本分类；辅助信息模块，用于系统分类结果展示、性能评估和功能拓展。本发明能够有效地防御面向文本分类模型的多级组合对抗样本攻击，从而提升了基于深度学习的文本分类模型的鲁棒性和安全性。

Description

一种面向文本分类模型的字词双粒度对抗防御系统及方法

技术领域

本发明涉及一种面向文本分类模型的字词双粒度对抗防御系统及方法，属于字词双粒度对抗防御技术领域。

背景技术

自动分类是信息检索与数据挖掘领域的研究热点与核心技术，近年来得到了广泛的关注和快速的发展。对于一个给定的文本序列即原始样本x，它能够被文本分类模型F分类为其真实标签Y。但攻击者可以通过微小扰动Δx将x转换为x^*＝x+Δx，此时，原始样本x的真实标签仍然为Y，但是，模型会将其分类为Y^*≠Y。

根据攻击粒度的不同，文本领域的对抗攻击大体可以分为字符级攻击、词汇级攻击和语句级攻击。字符级攻击是对单词中的字符进行扰动，包括插入、删除、替换样本中某些字符，进而使模型无法正确处理样本。词汇级攻击是针对样本中的单词进行扰动，常见的攻击思路是先计算样本中诸单词对分类结果的贡献度，再用其他单词替换贡献度较大的单词，进而达到使模型误分类的目的。语句级攻击是通过对原样本中的句子进行删除、增加内容影响较小的句子以及同义句改写等操作实现对原样本的攻击，由于扰动过大，一般不使用该攻击方法。

目前的对抗防御一般只局限于单一的对抗训练防御方法或者是基于对抗检测的方法。因此，需要一种鲁棒的面向文本分类模字词双粒度的综合对抗防御系统。

发明内容

基于现有技术的不足，本发明所要解决的技术问题在于设计和实现一个面向文本分类模型的字词双粒度对抗防御方法和系统。

为解决上述技术问题，本发明所采用的技术方案如下：

一种面向文本分类模型的字词双粒度对抗防御系统，包括：

SVM分类器训练与预处理模块，该模块用于构造一个二分类的SVM分类模型，并基于SVM分类模型对本系统的输入文本进行预处理；

字符级防御模型模块，该模块实现对字符级攻击粒度的文本数据进行正确文本分类；

词汇级防御模型模块，该模块实现对词汇级攻击粒度的文本数据进行正确文本分类；

辅助信息模块，该辅助模块包括了分类正确率可视化、模型分类正确率对比、数据集信息展示、模型信息展示和导出预测结果等组成部分，用于系统分类结果展示、性能评估和功能拓展。

上述SVM分类器训练与预处理模块包括SVM分类模型大量原始语料的训练和基于该模型对系统输入数据的预处理；其中，预处理包括通过错次数、样本长度等指标对抗样本攻击粒度分类。

防御算法的执行由字符级防御模型和单词级防御模型并行组成。字符级防御过程实际是对字符级对抗样本进行鲁棒编码与聚类的过程。

上述字符级防御模型模块包含对字符级对抗样本进行鲁棒编码和聚类分析。

上述鲁棒编码和聚类分析的具体过程为：

字符级防御模型通过聚类方法对原始样本中的单词进行映射，所有的拼写错误会与原单词划分到同一簇中；因此，有如下定义：是V维向量空间R^|V|中根据单词w_i生成的一个向量，/>作为单词的词嵌入。定义编码的令牌/>与聚类C_j中的单词有如下关系：

其中，p(w_i)为编码的频率；设C(i)为单词w_i的聚类索引，定义保真度目标Fid为：

当高频词和罕见词在同一簇中时，Fid为高；当多个高频词在同一簇中时，Fid为低。

对稳定性而言，稳定性度量单词的拼写映射到不同编码标记的程度；因此，定义一组可以映射出拼写错误的单词w_i的标记B_π(w_i)：

其中，B(w_i)是w_i允许的打字错误集；表示B(w_i)中除w_i外的单词；/>表示可以映射出拼写错误的单词w_i的单词集合；使用编码频率p(w_i)在聚类C上定义标准化频率Stab，聚类C的标准化频率如下：

引入一个超参数γ∈[0，1]来平衡泛化性和稳定性，近似最小化Stab和Fid的加权组合：

ψ(C)＝γFid(C)+(1-γ)Stab(C)。

上述词汇级防御模型模块通过PWWS方法生成对抗样本，进行对抗训练，最终得到鲁棒的对抗防御模型。

上述对抗训练过程中的训练样本由原始样本和基于PWWS方法生成的对抗样本按1∶1比例生成。

一种面向文本分类模型的字词双粒度对抗防御方法，包括如下步骤：

1)首先通过大量原始样本和对抗样本训练，得到基于SVM的机器学习SVM分类模型；训练得到的SVM分类模型对输入的文本数据进行预处理，通过错词数、样本长度等进行对抗样本攻击粒度分类，并分为字符级对抗样本和词汇级对抗样本两类；

2)对于字符级对抗样本，引入Robust Encodings防御方法，对不同数据做相同的映射，设计字符级防御模型；

3)对于词汇级对抗样本，在PWWS攻击方法的基础上设计词汇级防御模型；

4)将字符级防御模型和词汇级防御模型集成封装成一个独立可调用的综合对抗防御系统，并添加了模型信息展示、数据集信息展示和效果评估等辅助功能板块。

上述步骤1)中，若分类标签为字符粒度的对抗样本，则跳转至系统的字符粒度对抗防御模块；否则，则跳转至系统的词汇粒度对抗防御模块。

本发明能够有效地防御面向文本分类模型的多级组合对抗样本攻击，从而提升了基于深度学习的文本分类模型的鲁棒性和安全性。

上述步骤2)中，使用凝聚聚类编码，将鲁棒性公式与泛化性公式结合起来作为优化依据，综合考虑鲁棒性与泛化性，定义编码的令牌与聚类C_j中的单词有如下关系：

其中，p(w_i)为单词w_i被编码的频率；设C(i)为单词w_i的聚类索引，定义保真度目标Fid为：

ψ(C)＝γFid(C)+(1-γ)Stab(C)。

上述步骤3)中，通过单词级防御算法设计词汇级防御模型，单词级防御算法是通过使用经过对抗训练的模型来进行防御，对抗训练所需的对抗样本通过基于同义词替换的方法生成，过程如下：

选择替代词的方法R(w_i，L_i)如下：

其中，x是原始样本，对于x中的每一个单词w_i，用L_i记录所有可用的替换词。y_true表示正确的分类标签，P表示条件概率。x′_i是将w_i替换为候选词w′_i后的样本，得到替换词后，形成替换池；

对所有单词w_i计算单词显著性S(x，w_i)，以获得文本的单词显著性矢量S(x)；

S(x，w_i)＝P(y_true|x)-P(y_true|x^*)

综合考虑替换后分类概率的变化程度以及每个单词的单词显著性，通过测评函数H(x，x^*，w_i)对每个单词进行降序排列。x^*表示由x得到的对抗样本。

H(x，x^*，w_i)＝φ(S(x))_i·ΔP_i ^*

其中ΔP_i ^*表示概率变化，φ(z)_i为softmax(归一化指数)函数，定义如下：

公式中的z是一个矢量。z_i和φ(z)_i分别代表矢量z和φ(z)的i^th分量。

生成最终的对抗样本，与原始样本按1∶1比例混合，对单词级对抗防御模型进行对抗训练。

本发明未提及的技术均参照现有技术。

本发明面向文本分类模型的字词双粒度对抗防御系统及方法，实验结果表明，能够有效地防御面向文本分类模型的多级组合对抗样本攻击，从而提升了基于深度学习的文本分类模型的鲁棒性和安全性。

附图说明

图1是本发明面向文本分类模型的字词双粒度对抗防御系统的整体框架。

图2是本发明面向文本分类模型的字词双粒度对抗防御系统在各测试集上的平均效果展示图。

图3是本发明面向文本分类模型的字词双粒度对抗系统的消融实验结果图。

具体实施方式

为了更好地理解本发明，下面结合实施例进一步阐明本发明的内容，但本发明的内容不仅仅局限于下面的实施例。

一种面向文本分类模型的字词双粒度对抗防御系统，包括：

SVM分类器训练与预处理模块，该模块用于构造一个二分类的SVM分类模型，并基于SVM分类模型对本系统的输入文本进行预处理；SVM分类器训练与预处理模块包括SVM分类模型大量原始语料的训练和基于该模型对系统输入数据的预处理；其中，预处理包括通过错次数、样本长度等指标对抗样本攻击粒度分类；

面向文本分类模型的字词双粒度对抗防御方法，包括如下步骤：

步骤1.SVM分类器的训练与使用：

步骤1.1：为了使系统能够正确分类对抗样本攻击的粒度，设计一个基于SVM的分类器；可以使用大量的原始语料库和相应的对抗样本对其进行训练，得到泛化能力足够强的SVM分类器。

步骤1.2：SVM分类器通过错词数、样本长度等指标将输入样本进行攻击粒度的分类，若分类标签为字符粒度的对抗样本，则跳转至系统的字符粒度对抗防御模块；否则，则跳转至系统的词汇粒度对抗防御模块。

步骤2.进行字符级对抗防御：

步骤2.1：使用凝聚聚类编码，将鲁棒性公式与泛化性公式结合起来作为优化依据，综合考虑鲁棒性与泛化性。定义编码的令牌与聚类C_j中的单词有如下关系：

其中，p(w_i)为单词w_i被编码的频率。设C(i)为单词w_i的聚类索引。定义保真度目标Fid为：

步骤2.2：定义一组可以映射出拼写错误的单词w_i的标记B_π(w_i)

步骤2.3：引入一个超参数γ∈[0，1]来平衡泛化性和稳定性，近似最小化Stab和Fid的加权组合：

ψ(C)＝γFid(C)+(1-γ)Stab(C)

步骤2.4：当γ接近0时，我们从基线获得连接的组件集群，这将使稳定性最大化。用聚类方法逼近ψ的最优值；从每个单词在其自己的集群中开始，然后迭代地组合这对集群，其结果组合使ψ增加最多。重复这一操作，直到组合任何一对集群将使ψ减少。

步骤2.5：在完成上述过程之后，便得到了凝聚聚类，这样，在后续使用模型之前，在编码阶段，通过聚类对原始样本进行映射，在这个过程中，所有的拼写错误会与原单词划分到同一个簇中，从模型角度来看，拼写错误的单词与正确的单词并没有什么区别，也就是说，拼写错误或者说字符级攻击并不会对模型产生错误的影响。从而实现了对字符级攻击的防御。

步骤3.进行单词级对抗防御

单词级防御算法是通过使用经过对抗训练的模型来进行防御。对抗训练所需的对抗样本通过基于同义词替换的方法生成。

选择替代词的方法R(w_i，L_i)如下：

对所有单词w_i计算单词显著性S(x，w_i)，以获得文本的单词显著性矢量S(x)。

综合考虑替换后分类概率的变化程度以及每个单词的单词显著性，通过测评函数H(x，x^*，w_i)对每个单词进行降序排列。x*表示由x得到的对抗样本。

H(x，x^*，w_i)＝φ(S(x))_i·ΔP_i ^*

生成最终的对抗样本，与原始样本按1∶1比例混合，将其作为新的训练数据，对单词级对抗防御模型进行对抗训练，得到鲁棒的文本分类器，对抗训练的方式如下：

首先根据原始样本x，其属于一个输入样本空间X，其包含所有可能的输入文本矢量x_i，同时给定一个输出空间Y，其包含x_i的所有可能输出的分类标签y_i。分类器F需要学习从文本X到分类标签Y的正确映射f：X→Y，其可以基于最大概率将原始样本x正确分类为标签y_true。然后对x添加难以察觉的扰动Δx来制作对抗性样本x^*。

x^*＝x+Δx，||Δx||_p＜ε

原始样本可以表示为x＝w₁w₂...w_i...w_n∈D，其中，其中w_i代表一个单词，而D代表词典。

步骤5：消融实验测试

为测试系统各防御模型单独的防御效果以及字词双粒度综合防御系统的整体防御效果，选择数据集SST-2并生成8个测试数据集，依次对各防御模型进行消融实验测试，每个测试集均分别测试字符级防御模型单独防御、词汇级防御模型单独防御、两级综合防御模型以及原始分类模型的分类准确度。消融实验结果如图3所示，横轴表示数据集SST-2形成的8个测试数据集(每个测试数据集中从左到右的顺序均依次为防御模型、原始模型、词汇级模型和字符级模型)，纵轴表示4种模型的文本分类准确度。

表1消融实验8个测试数据集说明

步骤6：系统的封装

将两级对抗防御模型和SVM分类器进行系统的封装，并添加数据集信息展示、模型信息展示和效果评估等辅助功能板块，从而实现了一个面向文本分类模型的字词双粒度对抗防御系统，用户可选择查看训练得到的防御模型信息和训练及测试数据集等信息，系统将分类结果与普通分类模型结果进行对比，可视化地给出对比图，用户还可以从系统直接导出本系统分类结果信息等。面向文本分类模型的字词双粒度对抗防御系统的整体框架如图1所示，系统提供模型训练，文本分类和效果评估功能，以及部分辅助功能，各模块实现不同的功能，但又相辅相成，共同组成防御系统，其中训练板块指根据选择的数据集对BERT预训练模型进行调整，效果评估板块对防御模型的安全性与鲁棒性进行评估，开始效果评估后，会读取前一次文本分类时选择的数据集，并加载没有防御手段的模型进行分类，统计前一次文本分类和本次的结果，得到两种模型的分类准确率，并用柱状图表示。面向文本分类模型的字词双粒度对抗防御系统的防御效果展示如图2所示，图2表明本发明中的防御系统做出的分类正确率明显优于防御前的模型。

Claims

1.一种面向文本分类模型的字词双粒度对抗防御系统，其特征在于，包括：

辅助信息模块，该辅助模块包括了分类正确率可视化、模型分类正确率对比、数据集信息展示、模型信息展示和导出预测结果组成部分，用于系统分类结果展示、性能评估和功能拓展；

词汇级防御模型模块通过PWWS方法生成对抗样本，进行对抗训练，最终得到鲁棒的对抗防御模型；

对抗训练过程中的训练样本由原始样本和基于PWWS方法生成的对抗样本按1:1比例生成；

1)首先通过大量原始样本和对抗样本训练，得到基于SVM的机器学习SVM分类模型；训练得到的SVM分类模型对输入的文本数据进行预处理，通过错词数和样本长度进行对抗样本攻击粒度分类，并分为字符级对抗样本和词汇级对抗样本两类；

3)对于词汇级对抗样本，在PWWS攻击方法的基础上通过单词级防御算法设计词汇级防御模型；

4)将字符级防御模型和词汇级防御模型集成封装成一个独立可调用的综合对抗防御系统，并添加了模型信息展示、数据集信息展示和效果评估辅助功能板块。

2.根据权利要求1所述的面向文本分类模型的字词双粒度对抗防御系统，其特征在于，SVM分类器训练与预处理模块包括SVM分类模型原始语料的训练和基于该模型对系统输入数据的预处理；其中，预处理包括通过错词数和样本长度指标完成对抗样本攻击粒度分类。

3.根据权利要求1或2所述的面向文本分类模型的字词双粒度对抗防御系统，其特征在于，字符级防御模型模块包含对字符级对抗样本进行鲁棒编码和聚类分析。

4.根据权利要求3所述的面向文本分类模型的字词双粒度对抗防御系统，其特征在于，鲁棒编码和聚类分析的具体过程为：

字符级防御模型通过聚类方法对原始样本单词进行映射，所有的拼写错误会与原单词划分到同一簇中；因此，有如下定义：是V维向量空间R^|V|中根据单词w_i生成的一个向量，/>作为单词的词嵌入，定义编码的令牌/>与聚类C_j中的单词有如下关系：

其中，p(w_i)为单词w_i被编码的频率，表示单词聚类到j簇后的编码表示；设C(i)为单词w_i的聚类索引，N表示样本中单词的数量，定义保真度目标Fid为：

当高频词和罕见词在同一簇中时，Fid为高；当多个高频词在同一簇中时，Fid为低；

引入一个超参数γ∈[0,1]来平衡泛化性和稳定性，近似最小化Stab和Fid的加权组合:

ψ(C)＝γFid(C)+(1-γ)Stab(C)。

5.根据权利要求1或2所述的面向文本分类模型的字词双粒度对抗防御系统，其特征在于，步骤1)中，若分类标签为字符粒度的对抗样本，则跳转至系统的字符粒度对抗防御模块；否则，则跳转至系统的词汇粒度对抗防御模块。

6.根据权利要求1或2所述的面向文本分类模型的字词双粒度对抗防御系统，其特征在于，步骤3)中，单词级防御算法是通过使用经过对抗训练的模型来进行防御，对抗训练所需的对抗样本通过基于同义词替换的方法生成：

选择替代词的方法R(w_i,L_i)如下：

其中，x是原始样本，对于原始样本x中的每一个单词w_i，用L_i记录所有可用的替换词，y_true表示正确的分类标签，P表示条件概率，x′_i是将w_i替换为候选词w′_i后的样本，所有单词得到替换词后，替换池建立完毕；

在得到替换池后，对所有单词w_i计算单词显著性S(x,w_i)，用表示将样本中单词w_i删除后的样本，以获得样本的单词显著性矢量S(x)；

综合考虑替换后分类概率的变化程度以及每个单词的单词显著性，通过测评函数H(x,x^*,w_i)对每个单词进行降序排列，x^*表示由x得到的对抗样本：

H(x,x^*,w_i)＝φ(S(x))_i·ΔP_i ^*

其中ΔP_i ^*表示模型输出概率的变化量，φ(z)_i为softmax(归一化指数)函数，定义如下：

公式中的z是一个矢量，z_i和φ(z)_i分别代表矢量z和φ(z)的i^th分量，K表示归一化的总项数；基于x中的每个单词w_i的测评结果H(x,x^*,w_i)对单词进行降序排序，按照此顺序对每个w_i选择并进行替换，即得到对抗样本，最后，将生成的对抗样本与原始样本按1:1比例混合，对单词级对抗防御模型进行对抗训练。