CN110457701A

CN110457701A - 基于可解释性对抗文本的对抗训练方法

Info

Publication number: CN110457701A
Application number: CN201910729584.9A
Authority: CN
Inventors: 张伟; 陈谦; 陈云芳
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-15

Abstract

本发明公开了本发明是基于可解释性对抗文本的对抗训练方法；包括：(1)对输入的文本使用中和过滤器、去混淆过滤器和拼写检查进行处理，将所有的文本转为可读的文本，修改恶意拼写错误的单词；(2)构建文本分类模型，将经过拼写检查的输入和其对应的标签训练文本分类模型；(3)根据对抗样本生成的方法和初始的文本分类模型依次生成文本对抗样本；(4)利用生成的文本对抗样本和原始的样本，重新训练原始分类模型，得到可以防御对抗样本攻击的文本分类模型。利用本发明的方法，可以提高模型对恶意文本的检测效果，防止恶意文本的攻击。

Description

基于可解释性对抗文本的对抗训练方法

技术领域

本发明公开了一种基于可解释性对抗文本的对抗训练方法。

背景技术

深度学习自从2006年提出以来，随着硬件计算能力的强大和数据量的与日俱增，其实用性和普及性都有了巨大的提升，已经在语音识别、图像处理、自然语言处理等领域获得了广泛的应用。深度模型可以拟合任意复杂函数并具有大量参数的特性，也具有极高的脆弱性，其伴生的安全问题主要有数据中毒攻击，模型反转攻击，隐私数据共享泄露和对抗样本攻击等。其中，对抗样本攻击目前受到了研究者广泛的关注。

对抗样本的概念首先在2014年由Szegedy等人所提出，他们发现包括卷积神经网络在内的深度学习模型对于对抗样本都具有极高的脆弱性，通过在输入数据添加不可察觉的扰动并导致模型以非常高的置信度分类错误，即对抗样本。目前，虽然对于对抗样本的研究主要集中在图像处理领域，但是其他领域也越来越受到重视，特别是自然语言处理方面的对抗样本。随着人工智能从感知智能向认知智能升级，机器被越来越多的要求完成自动文本分类、自动文本编写等任务，因此，自然语言处理的重要性日益凸显，其存在的安全隐患也值得我们的关注。

与传统的图像的输入是连续的不同，文本的输入是离散的。向图像的像素添加较小的扰动时，所产生的变化可能很难被人类观察者所识别。而对文本添加少量的扰动，会使字符或者单词变成一个完全不相同的字符和单词，以至于直接改变所识别的语句，在针对Google Perspective API的攻击中，可以通过对一个单词添加某个字符(如将idiot替换成idiiot)或者通过反转整个句子的极性(如添加NOT这个单词)来降低系统给出的恶意评分。除了上述的两种黑盒攻击方式，还有一部分的对抗样本通过白盒攻击产生。攻击者通过获取分类模型的梯度信息，在词嵌入层对原始文本添加扰动来生成不易被察觉的文本对抗样本。

因此，为了解决上述问题，提高模型对文本对抗样本的防御能力，本发明提出了基于可解释性对抗文本的对抗训练方法，首先使用去混淆滤波器和中和滤波器来防御黑盒攻击，去除不可解释的文本；接着通过精心设计的可以迷惑人类观察者的可解释性对抗样本来进行对抗训练，以此防御白盒攻击。

发明内容

发明目的：为了克服现有技术的不足，本发明提供基于可解释性对抗文本的对抗训练方法。

技术方案：本发明提供一种基于可解释性文本的对抗训练方法，所述方法包括以下步骤：

(1)使用python的开源PyEnchant包根据字典树对单词进行拼写检查，将输入的文本转为可读的文本；

(2)将进过拼写检查的单词，进行词向量的训练，将离散的文本转为连续的词向量表示；

(3)构建文本分类模型，根据文本对应的词向量输入和其对应的标签训练文本分类模型；

(4)根据对抗样本生成的方法和初始的文本分类模型依次生成文本对抗样本；

(5)利用生成的文本对抗样本和原始的样本，重新训练原始分类模型，得到可防御对抗样本攻击的文本分类模型。

步骤(1)中所述的将离散的文本转为连续的词向量表示具体为使用python的开源PyEnchant包根据字典树对单词进行拼写检查：将全部的英式英语和美式英语单词作为词典，构造多叉的词典树；做检查的时候，从根节点，一级一级的向下找；若字母匹配失败，那么这个单词则为错误的拼写；对于错误的拼写将其转为原始的文本。

步骤(2)所述的构建文本分类模型，根据Word2vec技术训练对应的词向量模型，训练的模型采用连续词袋模型；通过连续词袋模型将过滤过的文本训练为具有语义信息的词向量，并用词向量作为神经网络模型的输入。

步骤(3)所述的文本分类模型，具体为预训练RNN文本分类模型，令D表示数据集，θ表示基于RNN的模型中的总体参数；是整个训练数据的损失函数，l(X′，Y′，θ)是数据集D上个体训练样本的损失函数，旨在最大化给定输入向量X′和模型参数θ时类别Y′的概率，最小化公式(1)，找到基于RNN的分类模型的最佳参数：

步骤(4)包括以下内容：

1)依次将文本序列中的单词作为扰动词；

2)计算该扰动词向量与其前后上下文背景词的词向量的方向向量，并将添加的扰动限制在这些方向向量上；

3)让模型自适应的从扰动方向中寻找满足条件的扰动，生成具有可解释性的对抗样本。

4)令词向量的滑动窗口为k，即上下文背景词窗口的词向量数量为2k；将上下文背景词窗口中的词向量下标由v_t-k，…，v_t-1，v_t+1，…，v_t+k变为v₀，v₁，…，v_2k-1，v_2k；

令v_m为输入序列中每个中心词的所对应的上下文背景词窗口中的第m个单词对应的词向量，定义表示词向量空间中v^(t)到v_m的方向：

对于所有的t和m，都是一个单位向量，

并定义r(α^(t))表示为X′中的第t个单词的词向量生成的扰动，其维度与词向量的维度相同；r(α^(t))由随机初始的α^(t)参数化：

是从输入中的第t个单词到的其前后各k个单词方向的权重；

引入X′_+r(α)表示添加了扰动的输入，对序列中的每个单词添加扰动：

5)将α的取值限制在∈之内：

α_cbow-iadvt＝argmin_{α，||α||≤∈}log(p(Y′|X′_+r(α)，θ)) (5)

步骤(5)所述的生成文本对抗样本，包括以下步骤：

1)定义对抗训练的损失函数：

α_cbow-iadvt＝argmin_{α，||α||≤∈}log(p(Y′|X′_+r(α)，θ)) (6)

2)用来代替优化公式为：

3)非迭代解决方案来计算α_cbow-iadvt：

其中g是所有的g^(t)的级联向量。

工作原理：本发明提供的一种基于可解释性对抗样本的对抗训练方法，包括以下步骤：一、不可读的文本进行处理，将其转化为可读的文本，包括中和过滤器、去混淆过滤器和拼写检查；二、是通过连续词袋模型将过滤过的文本训练为具有语义信息的词向量，并用词向量作为神经网络模型的输入，用来训练文本检测的分类模型；三、是依次将文本序列中的单词作为扰动词，计算该扰动词向量与其前后上下文背景词的词向量的方向向量，并将添加的扰动限制在这些方向向量上；四、是让模型自适应的从扰动方向中寻找满足条件的扰动，生成具有可解释性的对抗样本，并进行对抗训练，得到可防御对抗样本攻击的文本分类模型。

有益效果：本发明的一种基于可解释性文本的对抗训练方法，具有以下优点：

1.本发明通过生成具有可解释性的对抗样本提高对抗训练技术的模型鲁棒性，增强了模型对白盒攻击的防御能力；

2.本发明通过采用中和滤波器、混淆滤波器以及拼写检查增强了模型对其他黑盒攻击的防御能力。

3.本发明通过生成具有可解释性的对抗样本，并进行对抗训练，得到可防御对抗样本攻击的文本分类模型，有效净化网络空间，给大众一个良好的互联网环境。

附图说明

图1总体框架图

图2模型架构图

图3扰动方法示例图

图4去混淆过滤器示例图

图5中和过滤器示例图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明，附图1是我们的总体框架图：

一、数据处理

使用爬虫技术从电影评论网站和购物网站上获取用户的评论信息。获取数据后。为了防止混淆攻击和极性转换的攻击，对文本数据进行过滤处理，图4和图5是过滤处理的附图，数据处理过程详见步骤1。接着将所有数据随机分为训练集的90％和测试集的10％。用不同的随机种子重复训练和评估五次，将任何标点作为空格处理，将所有单词都转换为小写字母，删除了在所有数据中仅出现一次的单词。

二、训练分类模型

该阶段大致分为2个过程。第一个过程是训练词向量，将经过处理的文本数据转为one-hot编码的数据，输入到连续词袋模型中，来训练词向量。CBOW模型通过中心词(即需要预测的词)前后的k个背景词来预测该中心词属于词典的某一个词的概率。训练时将滑动窗口设置为5，批量大小为1000，一共训练20个epoch，使用层次softmax(hierarchicalsofmax)的方法和Adam优化器进行优化。训练词向量的过程详见步骤2。

第二个过程是训练RNN分类模型，将文本数据转为词向量之后，输入到LSTM模型中，最后LSTM模型的输出参数输入到一个前馈神经网络中，进行分类。模型架构见图2，训练分类模型过程详见步骤3。LSTM训练时，使用具有1024个隐藏单元的单向单层LSTM，批量大小为256，初始学习率为0.001，每次训练步骤的学习速率指数衰减因子为0.9999。利用Adaptive Softmax来降低softmax损失的计算成本。为了正则化分类模型，将Dropout用于丢失率为0.5的词嵌入层。

三、对抗训练

该阶段大致分为2个过程，首先根据连续词袋模型的思想，计算可以进行扰动的方向；依次将文本序列中的单词作为扰动词；计算该扰动词向量与其前后上下文背景词的词向量的方向向量，并将添加的扰动限制在这些方向向量上；让模型自适应的从扰动方向中寻找满足条件的扰动，生成具有可解释性的对抗样本。寻找扰动的示意图见图3，生成对抗样本的过程详见步骤4。令词向量的滑动窗口为k，即上下文背景词窗口的词向量数量为2k；将上下文背景词窗口中的词向量下标由v_t-k，…，v_t-1，v_t+1，…，v_t+k变为v₀，v₁，…，v_2k-1，v_2k；

对于所有的t和m，都是一个单位向量，

是从输入中的第t个单词到的其前后各k个单词方向的权重；

为了加速寻找对抗扰动的过程，将扰动α的取值限制在∈之内：

α_cbow-iadvt＝argmin_{α，||α||≤∈}log(p(Y′|X′_+r(α)，θ)) (5)

接着由模型自适应的在所有可选择的扰动方向中寻找对抗扰动进行对抗训练，对抗训练的过程详见步骤5。

定义对抗训练的损失函数：

α_cbow-iadvt＝argmin_{α，||α||≤∈}log(p(Y′|X′_+r(α)，θ)) (6)

用来代替优化公式为：

估计方程式中的α_cbow-iadvt通常是不可行的，作为一种解决方案，对于RNN的模型，为了降低计算成本，一种在X′周围线性化l(X′，Y′，θ)的近似方法可以以非迭代解决方案来计算α_cbow-iadvt非迭代解决方案来计算α_cbow-iadvt：

其中g是所有的g^(t)的级联向量。

可解释性扰动方向计算的过程详见步骤6；对抗训练的过程详见步骤7。

Claims

1.一种基于可解释性文本的对抗训练方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的基于可解释性文本的对抗训练方法，其特征在于：步骤(2)中所述的将离散的文本转为连续的词向量表示具体为使用python的开源PyEnchant包根据字典树对单词进行拼写检查：将全部的英式英语和美式英语单词作为词典，构造多叉的词典树；做检查的时候，从根节点，一级一级的向下找；若字母匹配失败，那么这个单词则为错误的拼写；对于错误的拼写将其转为原始的文本。

3.根据权利要求1所述的基于可解释性文本的对抗训练方法，其特征在于：步骤(3)所述的构建文本分类模型，根据Word2vec技术训练对应的词向量模型，训练的模型采用连续词袋模型；通过连续词袋模型将过滤过的文本训练为具有语义信息的词向量，并用词向量作为神经网络模型的输入。

4.根据权利要求1所述的基于可解释性文本的对抗训练方法，其特征在于：骤(3)所述的练文本分类模型，具体为预训练RNN文本分类模型，令D表示数据集，θ表示基于RNN的模型中的总体参数；是整个训练数据的损失函数，是数据集D上个体训练样本的损失函数，旨在最大化给定输入向量X′和模型参数θ时类别Y′的概率，最小化公式(1)，找到基于RNN的分类模型的最佳参数：

5.根据权利要求1或3所述的基于可解释性文本的对抗训练方法，其特征在于：步骤(3)包括以下内容：

1)依次将文本序列中的单词作为扰动词；

对于所有的t和m，都是一个单位向量，

是从输入中的第t个单词到的其前后各k个单词方向的权重；

5)将α的取值限制在∈之内：

α_cbow-iadvt＝argmin_{α，||α||≤5∈}log(p(Y′|X′_+r(α)，θ)) (5)

6.根据权利要求1所述的基于可解释性文本的对抗训练方法，其特征在于：步骤(3)所述的生成文本对抗样本，包括以下步骤：

1)定义对抗训练的损失函数：

α_cbow-iadvt＝argmin_{α，||a||≤∈}log(p(Y′|X′_+r(α)，θ)) (6)

2)用来代替优化公式为：

3)非迭代解决方案来计算α_cbow-iadvt：

其中g是所有的g^(t)的级联向量。