CN113887208A

CN113887208A - 一种基于注意力机制的对抗文本防御方法及系统

Info

Publication number: CN113887208A
Application number: CN202111078755.XA
Authority: CN
Inventors: 韩蒙; 林昶廷; 张旭鸿; 徐晓东; 纪守领
Original assignee: Binjiang Research Institute Of Zhejiang University
Current assignee: Binjiang Research Institute Of Zhejiang University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-01-04

Abstract

本发明公开了一种基于注意力机制的对抗文本防御方法及系统，包括：将待识别文本输入到以编码器‑解码器为基本结构的自然语言处理模型中，利用单词评分函数计算文本中的每个单词的重要性得分，取重要性得分的倒数，构成重构评分向量；根据注意力公式计算每个隐藏层向量的权重，得到注意力权重向量；使用超参数与重构评分向量相乘的方式来平衡重构评分向量和注意力权重向量，将重构评分向量和注意力权重向量中的对应元素逐个相乘，得到最终的重构注意力向量；利用重构注意力向量与隐藏层特征向量相乘得到重构语义编码，解码后得到输出。本发明泛化性能好，应对新的对抗攻击时不用重新训练模型；对字符级对抗攻击及单词级对抗攻击都有一定的效果。

Description

一种基于注意力机制的对抗文本防御方法及系统

技术领域

本发明涉及机器学习、自然语言处理领域，尤其涉及一种基于注意力机制的对抗文本防御方法及系统。

背景技术

随着计算机技术高速发展、互联网产生大数据和神经网络训练方法改进，人工智能得到了快速发展。机器学习是人工智能领域的一门研究怎样使用计算机模拟或实现人类学习活动的科学，是人工智能中最具智能特征，最前沿的研究领域之一。自20世纪80年代以来，机器学习作为实现人工智能的途径，在人工智能界引起了广泛的兴趣，特别是近十几年来，机器学习领域的研究工作发展很快，它已成为人工智能的重要课题之一。机器学习不仅在基于知识的系统中得到应用，而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。

如今，深层神经网络(DNN)在解决各个领域中的重大问题方面已经显示出了强大的能力，例如计算机视觉，音频和自然语言处理等。由于它们的巨大成功，基于DNN的系统被广泛部署在物理世界中。但是，DNN模型容易受到添加了不易察觉的扰动而精心设计的输入的蒙蔽。这些经过修改的输入被称为对抗性样本，这可能给基于DNN的系统带来潜在的安全威胁。因此，针对对抗样本的防御方法的研究迫在眉睫。

目前，关于图像领域对抗样本以及防御的相关研究已经十分充分，但是在文本上的研究还相对较少，特别是对抗文本的防御。在文本中，已有的防御对抗攻击的方法主要有拼写检查和对抗训练两种。

拼写检查是自然语言处理中的一种特殊检测方法，对抗训练则是在图像、文本、音频等中使用的通用的防御方法。例如，公开号为CN111046673A的中国专利文献公开了一种用于防御文本恶意样本的对抗生成网络及其训练方法，利用对抗生成网络框架中的生成模型(Generator)和判别模型(Discriminator)进行恶意样本的防御与生成。生成器部分由自编码器(Auto-encoder)构成，将离散的文本数据映射到连续的高维隐藏空间中，由此生成器可以利用隐藏向量生成恶意文本。判别器即判别模型，用于识别数据。生成模型生成的恶意文本将被打上真实标签与真实样本同时输入判别模型中，来进行判别模型的训练。

尽管这些防御方法在相应的工作中都取得了较好的结果，但同时也存在一些局限性。例如，拼写检查在检测字符级对抗攻击时效果较好，但在检测单词级别和句子级别的对抗攻击时效果非常有限，这种局限性是由该检测方法本身的原理导致的；而对抗训练则是将对抗样本和正常样本一起参与模型的训练，让模型去适应这些对抗样本，因此这种防御方法的泛化性能较差，在面对新的攻击方法可能无法正常工作。

发明内容

本发明提供了一种基于注意力机制的对抗文本防御方法，通过引入注意力机制实现对抗文本的防御。

本发明的技术方案如下：

一种基于注意力机制的对抗文本防御方法，包括以下步骤：

(1)将待识别文本输入到以编码器-解码器为基本结构的自然语言处理模型中，利用单词评分函数计算文本中的每个单词的重要性得分，取每个单词的重要性得分的倒数，构成文本的重构评分向量；

(2)根据注意力公式计算每个隐藏层向量的权重，得到注意力权重向量；

(3)使用超参数与重构评分向量相乘的方式来平衡重构评分向量和注意力权重向量，将重构评分向量和注意力权重向量中的对应元素逐个相乘，得到最终的重构注意力向量；

(4)利用重构注意力向量与隐藏层特征向量相乘得到重构语义编码向量，解码后得到输出。

考虑到现有的大部分对抗攻击的方法大都基于文本中重要字词的修改这一现状，针对以循环神经网络(RNN)构建的编码器-解码器为基本结构的序列模型，本发明的对抗文本防御方法利用注意力机制在训练过程中降低这些重要字词的权重，使编码器-解码器框架下的自然语言处理模型对这些重要单词的修改在一定程度上脱敏，使对抗文本失效，实现正确分类，从而达到防御的目的。

步骤(1)包括：

(1-1)根据评分函数公式计算单词x_i在文本中的时序评分S(x_i)：

S(x_i)＝F(x₁，x₂，...，x_i-1，x_i)-F(x₁，x₂，...，x_i-1)

其中，x_i为该句子中第i个单词；F为分类器；

(1-2)根据尾部时序评分函数公式计算单词x_i在文本中的尾部时序评分TS(x_i)：

TS(x_i)＝F(x_i，x_i+1，x_i+2，...，x_n)-F(x_i+1，x_i+2，...，x_T)

其中，x_i为该句子中第i个单词；F为分类器；T为文本中单词的总数；

(1-3)根据综合评分函数公式计算单词x_i的重要性得分c_i：

c_i＝S(x_i)+α*TS(x_i)

其中，α为超参数，取值范围为(0，1]；

(1-4)对每个单词的重要性得分取倒数，最终得到文本的重构评分向量RS：

最优选的，α取值为0.3。

步骤(2)包括：计算各个时刻编码器隐藏层状态h_j与上一时刻的解码器隐藏层状态s_i-1之间的相关程度，并进行softmax归一化操作后得到每个时刻下解码器隐藏层的注意力权重向量a_ij，其计算公式为：

其中，e_ij表示某时刻下编码器隐藏层状态h_j与上一时刻的解码器隐藏层状态s_i-1之间的相关程度；i、j为时刻序数，i、j∈T，T为文本中单词的总数。

优选的，e_ij通过多层感知机(MLP)计算，计算公式为：

e_ij＝MLP(s_i-1，h_j)

其中，j时刻下的编码器隐藏层状态h_j是由上一时刻的编码器隐藏层状态h_j-1和当前时刻的输入x_j确定的，其公式为：

h_j＝f(h_j-1，x_j)

其中，f为编码器的映射函数。

步骤(3)包括：利用重构评分向量和注意力权重向量计算重构注意力向量R＝[r₁，r₂，...，r_T]；

其中，β为超参数，取值范围为(0，1]；

为重构评分向量RS中的第j个值。

步骤(4)中，通过加权求和计算重构语义编码向量L＝[l₁，l₂，...，l_T]，l_i计算公式为：

本发明的方法适用于包括但不限于以循环神经网络(RNN)为代表的Encoder-Decoder框架下的自然语言处理模型，并且对字符级对抗攻击以及单词级对抗攻击都有一定的效果。

本发明还提供了一种基于注意力机制的对抗文本防御系统，包括存储器和处理器；所述存储器用于存储程序指令；所述处理器用于调用所述程序指令以执行所述的基于注意力机制的对抗文本防御方法。

与现有技术相比，本发明的有益效果为：

本发明通过重构注意力向量，可以使模型在准确预测的前提下最大限度的降低对传统重要单词的关注程度，使对抗攻击方法在修改了这些重要字词后无法大幅度的影响模型的置信度输出，使得对抗文本失效，从而达到防御的目的。本发明的泛化性能好，应对新的对抗攻击时不用重新训练模型；对字符级对抗攻击以及单词级对抗攻击都有一定的效果。

附图说明

图1为基于注意力机制的对抗文本防御方法的流程框图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本实施例公开提供一种基于注意力机制的对抗文本防御方法，通过引入注意力机制实现对抗文本的防御。首先利用单词评分函数对文本中的每个单词计算其重要性得分，并取其倒数，获得重构评分向量；然后根据注意力公式计算每个隐藏层向量的权重，得到注意力权重向量；最后使用超参数与重构评分向量相乘的方式来平衡上述两个向量后，将两个向量中的对应元素逐个相乘，得到最终的重构注意力向量。利用重构注意力向量与隐藏层特征向量相乘得到的语义编码能够保证模型在准确预测的前提下，最大限度的降低对重要单词修改的敏感度，使得对抗文本失效，从而达到防御的目的。如图1所示，该方法由三部分组成，分别是计算重构评分、计算注意力权重和计算重构注意力向量。

本实施例具体包括以下步骤：

1)计算重构评分；

本实施例中，首先利用去掉一个单词后分类器结果的差异来确定一个单词的重要性，评分函数公式如下：

S(x_i)＝F(x₁，x₂，...，x_i-1，x_i)-F(x₁，x₂，...，x_i-1)

其中，x_i为该句子中第i个单词；F为分类器。上述评分函数的问题在于忽略了所删除单词对后续词的影响，因此还需要增加了一个尾部时序评分，尾部时序评分函数公式如下：

TS(x_i)＝F(x_i，x_i+1，x_i+2，...，x_T)-F(x_i+1，x_i+2，...，x_T)

其中，T为文本中单词的总数。

此时我们便得到了单个单词去掉前后对整个句子的影响。最后我们综合上述得到的时序评分S(x_i)和尾部时序评分TS(x_i)，使用一个超参数α来平衡两个评分，最后得到一个综合的评分函数。

综合评分函数公式如下：

CS＝S+α*TS

本实施例中，超参数α被设置为0.3。得到综合评分CS，就得到了该句子中每个单词x_i的重要性得分c_i，即：

CS＝[c₁，c₂，...，c_i，...，c_T]

最后，计算重构评分函数，重构评分函数计算公式如下：

其中，

2)计算注意力权重；

本实施例中，利用注意力公式计算权重。在循环神经网络(RNN)中，当前时刻的隐藏层状态h_t是由上一时刻的隐藏层状态h_t-1和当前时刻的输入x_t确定的，其公式如下：

h_t＝f(h_t-1，x_t)

当前时刻解码器隐藏层状态s_t由上一时刻的隐层状态s_t-1，上一时刻的解码器输出y_t-1以及语义编码向量l_t计算得到，计算公式如下：

s_t＝f(s_t-1，y_t-1，l_t)

得到当前时刻解码器隐藏层状态s_t后便可通过计算获得当前时刻下解码器的输出y_t，计算公式如下：

y_t＝g(y_t-1，s_t，l_t)

其中，g为softmax函数。

接下来，我们计算各个时刻下编码器隐藏层状态h₁～h_T与解码器隐藏层状态s_t-1之间的相关程度，并进行softmax归一化操作后得到每个时刻下解码器隐藏层向量的权重a_ij，其计算公式如下：

其中，e_ij表示上一时刻解码器隐藏层状态s_i-1与当前时刻下编码器隐层向量h_j之间的相关性，通过多层感知机(MLP)计算，计算公式如下：

e_ij＝MLP(s_i-1，h_j)

3)计算重构注意力向量；

本实施例中，利用步骤1)和步骤2)中分别得到的重构评分和注意力权重来计算最终的重构注意力向量R＝[r₁，r₂，...，r_T]，其中，

其中，β为超参数；

为重构评分RS中的第j个值。本实施例中，超参数β被设置为0.1。

得到重构注意力向量R后，就可以进一步通过加权求和计算语义编码向量L＝[l₁，l₂，...，l_T]，l_i计算公式如下：

接下来便可根据正常的步骤进行解码，然后根据关注的区域来产生下一个输出。通过重构注意力向量，可以使模型在准确预测的前提下最大限度的降低对传统重要单词的关注程度，使对抗攻击方法在修改了这些重要字词后无法大幅度的影响模型的置信度输出，使得对抗文本失效，从而达到防御的目的。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的对抗文本防御方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力机制的对抗文本防御方法，其特征在于，步骤(1)包括：

S(x_i)＝F(x₁，x₂，...，x_i-1，x_i)-F(x₁，x₂，...，x_i-1)

其中，x_i为该句子中第i个单词；F为分类器；

TS(x_i)＝F(x_i，x_i+1，x_i+2，...，x_n)-F(x_i+1，x_i+2，...，x_T)

(1-3)根据综合评分函数公式计算单词x_i的重要性得分c_i：

c_i＝S(x_i)+α*TS(x_i)

其中，α为超参数，取值范围为(0，1]；

3.根据权利要求2所述的基于注意力机制的对抗文本防御方法，其特征在于，α取值为0.3。

4.根据权利要求1所述的基于注意力机制的对抗文本防御方法，其特征在于，步骤(2)包括：计算各个时刻编码器隐藏层状态h_j与上一时刻的解码器隐藏层状态s_i-1之间的相关程度，并进行softmax归一化操作后得到每个时刻下解码器隐藏层的注意力权重向量a_ij，其计算公式为：

5.根据权利要求4所述的基于注意力机制的对抗文本防御方法，其特征在于，e_ij通过多层感知机计算，计算公式为：

e_ij＝MLP(s_i-1，h_j)

h_j＝f(h_j-1，x_j)

其中，f为编码器的映射函数。

6.根据权利要求5所述的基于注意力机制的对抗文本防御方法，其特征在于，步骤(3)包括：利用重构评分向量和注意力权重向量计算重构注意力向量R＝[r₁，r₂，...，r_T]；

其中，β为超参数，取值范围为(0，1]；

为重构评分向量RS中的第j个值。

7.根据权利要求6所述的基于注意力机制的对抗文本防御方法，其特征在于，β取值为0.1。

8.根据权利要求6所述的基于注意力机制的对抗文本防御方法，其特征在于，步骤(4)中，通过加权求和计算重构语义编码向量L＝[l₁，l₂，...，l_T]，l_i计算公式为：

9.一种基于注意力机制的对抗文本防御系统，其特征在于，包括存储器和处理器；所述存储器用于存储程序指令；所述处理器用于调用所述程序指令以执行如权利要求1-8任一项所述的基于注意力机制的对抗文本防御方法。