CN109902293A

CN109902293A - 一种基于局部与全局互注意力机制的文本分类方法

Info

Publication number: CN109902293A
Application number: CN201910091937.7A
Authority: CN
Inventors: 马千里; 余柳红; 陈子鹏; 田帅
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-18
Anticipated expiration: 2039-01-30
Also published as: CN109902293B

Abstract

本发明公开了一种基于局部与全局互注意力机制的文本分类方法，步骤如下：获取文本数据，并进行预处理，将文本单词用预训练的词向量进行表示；利用长短期记忆网络捕获文本序列的全局长期依赖，利用多尺度卷积神经网络获取文本序列的局部语义特征；把全局长期依赖和局部语义特征作为局部与全局互注意力机制的输入，得到加权全局长期依赖和加权局部语义特征；再采用加权池化，得到最终的全局表示向量和局部表示向量；输入到全连接层融合全局表示向量和局部表示向量，再输入到分类层，进行分类。本发明并行地捕获全局长期依赖和局部语义特征，显式地学习这两种特征之间的交互，从而得到更好的文本全局和局部特征表示，进一步提高文本分类的精度。

Description

一种基于局部与全局互注意力机制的文本分类方法

技术领域

本发明涉及文本分类技术领域，具体涉及一种基于局部与全局互注意力机制的文本分类方法。

背景技术

文本分类是自然语言处理中的一个基本问题，需要将一个或多个预定类别分配给一个文本序列。文本分类的核心是学习一个序列表示，来处理情感分析，问题分类和主题分类等等问题。

目前，学习一个序列表示，常用的方法是建模序列的长期依赖表示或序列的局部语义特征。卷积神经网络通过卷积核，可以比较好地提取文本序列的局部语义特征。Y.Kim提出了一个多通道卷积神经网络，使用了来自word2vec的静态词向量和在文本分类任务中微调的词向量，可以进一步提高分类准确性。虽然基于卷积神经网络的模型有利于从序列数据中学习局部响应，但它缺乏学习序列整体联系的能力。循环神经网络适用于建模序列表示以及序列的长期依赖，因此许多用于文本分类任务的循环神经网络变体被提出。Z.Yang等人提出了层次注意力模型，将注意力机制引入分层门控循环单元，使模型能够更好地捕获文档的重要信息。然而，循环神经网络中的信息是随时间步逐渐累积的，信息没有跳跃的连接，很难得到复杂的语义特征，使分类效果下降。

近期，一些研究者试图将卷积神经网络和循环神经网络的优势结合起来，利用它们来提取全局长期依赖和局部语义特征。C.Zhou等人提出了C-LSTM，利用卷积神经网络提取高层的短语表示，将其输入长短期记忆网络以获得句子表示。C-LSTM能够捕获全局长期依赖和局部语义特征，但这两种信息以级联方式连接，级联方式使模型变深，容易导致梯度消失问题。并且，这种方法没有尝试学习两种信息之间的相互作用。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于局部与全局互注意力机制的文本分类方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于局部与全局互注意力机制的文本分类方法，所述的文本分类方法包括以下步骤：

S1、获取文本数据集，对数据进行预处理，把本文序列的每个单词映射为词向量；

S2、使用双向长短期记忆网络来捕获文本序列的全局长期依赖，同时，使用多尺度卷积神经网络提取文本序列的局部语义特征；

S3、构建一种局部与全局互注意力机制，使用步骤S2中提取的全局长期依赖和每个位置的局部语义特征作为输入，用局部语义特征关注全局长期依赖产生局部指导的全局注意力权重，进行加权得到加权全局特征，用全局长期依赖关注局部语义特征产生全局指导的局部注意力权重，进行加权得到加权局部特征；

S4、使用步骤S3中得到的加权全局特征和加权局部特征，随时间步加权池化，产生最终的全局表示向量和局部表示向量；

S5、拼接步骤S4中得到的全局表示向量和局部表示向量，输入全连接层，再输入softmax层进行分类。

进一步地，所述的步骤S2中并行提取文本序列的全局长期依赖和局部语义特征，过程如下：

S2.1、使用双向长短期记忆网络提取全局长期依赖，在时间步t，单个方向的隐藏层状态h_t更新如下：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

其中，h_t-1是时间步t-1的单个方向长短期记忆网络隐藏层状态，k_glo为单向长短期记忆网络的隐藏层状态维度，x_t是时间步t的输入，i_t、f_t、o_t分别是单向长短期记忆网络的输入门、遗忘门和输出门。g_t是细胞临时状态，c_t是细胞状态，σ、tanh是非线性激活函数，⊙是逐元素的乘法，M是由可训练参数组成的仿射变换函数；

将文本序列以正向输入到长短期记忆网络中，并获得前向隐藏层状态

将文本序列以反方向输入长短期记忆网络，更新后向隐藏层状态隐藏层状态的两个方向连接如下：

其中，t＝1,2,...,T，T是输入时间步的长度，是拼接操作，h_t ^fb表示时间步t的全局长期依赖；

拼接每个时间步的隐藏层状态向量形成矩阵，其定义如下：

其中是文本序列的全局长期依赖矩阵,T是输入时间步的长度，k_glo为单向长短期记忆网络的隐藏层状态维度，H的每列表示文本序列对应位置处的全局长期依赖；

S2.2、使用多尺度卷积神经网络提取局部语义特征，令为卷积运算的卷积核，其中，w为卷积核的宽度，d是卷积核的高度(等于输入维度)，k_loc是卷积核的数量，对于位置i的单词，卷积操作表示为：

其中，b表示偏置项，x_{i-w/2+1:i+w/2}指词向量表示x_i-w/2+1,...,x_i,...,x_i+w/2的拼接，*是卷积运算，f是非线性变换函数，是文本序列位置i处的k_loc维局部w元特征向量，卷积核应用于文本序列的每个位置，使用零填充以生成与输入相同长度的特征映射：

其中，是文本序列每个位置的局部语义特征矩阵。

是使用相同大小的窗口进行卷积得到的局部语义特征矩阵。接下来使用多尺度卷积神经网络，使用不同大小的窗口进行卷积操作，假设r是窗口w的数量，可以得到r个卷积操作的结果，拼接起来得到局部语义特征

进一步地，所述的步骤S3中构建局部与全局互注意力机制的过程如下：

S3.1、采用局部与全局互注意力机制，将步骤S2中提取的全局长期依赖H和局部语义特征C作为输入，线性映射到较低维度k中，映射m次，m是局部与全局互注意力机制的子空间数目。将H和C映射到不同的子空间i：

其中，是投影参数矩阵，i＝1,2,…,m。

S3.2、使用局部语义特征指导全局长期依赖，可以建模文本序列的组合语义，得到丰富的复杂语义特征。根据局部语义特征的每个位置计算全局长期依赖的全局注意力上下文，公式如下：

其中，i＝1,2,…,m，是第i个子空间的全局注意力上下文，A_i∈R^T×T是全局注意力权重，接着拼接每一个子空间的全局注意力上下文，得到加权全局特征

使用全局长期依赖指导局部语义特征，可以去除局部语义中冗余或者不相关的特征，根据全局长期依赖的每个位置计算局部语义特征的局部注意力上下文，公式如下：

其中，i＝1,2,…,m，是第i个子空间的局部注意力上下文，B_i∈R^T×T是局部注意力权重，接着拼接每一个子空间的局部注意力上下文，得到加权局部特征

进一步地，所述的步骤S4中随时间步加权池化的过程如下：

将步骤S3中得到的加权全局特征和加权局部特征作为输入，加权全局特征的随时间步加权过程如下：

其中，W⁽¹⁾∈R^mk×mk,w⁽²⁾∈R^mk是权重矩阵，B⁽¹⁾∈R^T×mk,b⁽²⁾∈R^T是偏置，α∈R^T，i＝1,2,…,T是加权全局特征的第i个向量的得分，z^H∈R^mk是最终的全局表示向量；

类似的，加权局部特征的随时间步加权过程如下：

其中，W⁽³⁾∈R^mk×mk,w⁽⁴⁾∈R^mk是权重矩阵，B⁽³⁾∈R^T×mk,b⁽⁴⁾∈R^T是偏置，β∈R^T，是加权局部特征的第i个向量的得分，z^C∈R^mk是最终的全局表示向量。

进一步地，所述的步骤S5过程如下：

将步骤S4得到的最终全局表示向量z^H和最终局部表示向量z^C作为输入，预测每个类别i的概率预测公式如下：

其中，W_fc和W_sm是全连接层和softmax层的权重矩阵，b_fc和b_sm是偏置项；

以减少交叉熵损失作为训练目标进行训练，其中，交叉熵损失的表达式如下：

其中，y是真实分布，是预测输出分布，是两个分布的交叉熵函数。

本发明相对于现有技术具有如下的优点及效果：

本发明提出同时提取文本序列的局部信息和全局信息来建模文本表示，首先，本发明用双向长短期记忆网络提取全局特征，用卷积神经网络提取局部特征，并显式地学习这两种特征之间的交互，从而得到更好的文本全局和局部特征表示，进一步提高文本分类的精度。而现有模型大多是通过级联的方式连接全局和局部信息，级联的方式使模型加深，容易导致梯度消失问题，并且这两种信息之间没有交互。

其次，本发明提出局部与全局互注意力机制，一方面使用局部语义特征关注全局长期依赖，可以建模文本序列的组合语义，得到丰富的复杂语义特征。另一方面使用全局长期依赖关注局部语义特征，可以去除冗余或者不相关特征。

此外，本发明的方法相比目前其它同时建模文本序列长期依赖和局部语义特征的模型，可以取得较好的效果。本发明提出了一种基于局部与全局互注意力机制的文本分类方法，该方法可以得到更好的序列表示。

附图说明

图1是本发明中公开的基于局部与全局互注意力机制的文本分类方法的流程步骤图；

图2是本发明中公开的基于局部与全局互注意力机制的文本分类方法的互注意力模块图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例公开了基于局部与全局互注意力机制的文本分类方法，该方法包括以下步骤：

步骤S1、获取文本数据集，对数据进行预处理，把本文序列的每个单词映射为词向量。

获取SUBJ，TREC，CR，20Newsgroups，MovieReview等基准文本分类数据集和亚马逊产品评论中的十六个数据集，给定数据集其中，W_n＝w₁,w₂,…w_T是文本序列，y_n是其对应的标签，T是文本序列的长度，N是数据集中的样本数。令x_i∈R^d是与文本序列中的第i个词w_i对应的d维词向量，这里使用300维预训练好的word2vec词向量，输入文本序列可以表示为嵌入矩阵：

其中是拼接操作，并且x_1:T∈R^T×d。

步骤S2、使用双向长短期记忆网络来捕获文本序列的全局长期依赖，同时，使用多尺度卷积神经网络提取文本序列的局部语义特征。具体过程如下：

S2.1、使用双向长短期记忆网络提取全局长期依赖。在时间步t，单个方向的隐藏层状态h_t更新如下：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

其中，h_t-1是时间步t-1的单个方向长短期记忆网络隐藏层状态，k_glo为单向长短期记忆网络的隐藏层状态维度，x_t是时间步t的输入，i_t,f_t,o_t分别是单向长短期记忆网络的输入门，遗忘门和输出门。g_t是细胞临时状态，c_t是细胞状态，σ、tanh是非线性激活函数，⊙是逐元素的乘法，M是由可训练参数组成的仿射变换函数。

将文本序列以正向输入到长短期记忆网络中，并获得前向隐藏层状态类似地，文本序列以反方向输入长短期记忆网络，更新后向隐藏层状态隐藏层状态的两个方向连接如下：

其中，t＝1,2,…,T，T是输入时间步的长度，是拼接操作，h_t ^fb表示时间步t的全局长期依赖，拼接每个时间步的隐藏层状态向量形成矩阵，其定义如下：

其中，是文本序列的全局长期依赖矩阵,T是输入时间步的长度，k_glo为单向长短期记忆网络隐藏层状态维度，H的每列表示文本序列对应位置处的全局长期依赖。

S2.2、使用多尺度卷积神经网络提取局部语义特征。令为卷积运算的卷积核，其中，w为卷积核的宽度，d是卷积核的高度(等于输入维度)，k_loc是卷积核的数量，并使k_loc＝128。对于位置i的单词，卷积操作可以表示为：

其中，b表示偏置项，x_{i-w/2+1:i+w/2}指词向量表示x_i-w/2+1,…,x_i,…,x_i+w/2的拼接，*是卷积运算，f是非线性变换函数。是文本序列位置i处的k_loc维局部w元特征向量。卷积核应用于文本序列的每个位置，使用零填充以生成与输入相同长度的特征映射：

其中，是文本序列每个位置的局部语义特征矩阵。

是使用相同大小的窗口进行卷积得到的局部语义特征矩阵。接下来使用多尺度卷积神经网络，使用不同大小的窗口进行卷积操作，假设r是窗口w的数量，可以得到r个卷积操作的结果，拼接起来得到局部语义特征矩阵

步骤S3、构建一种局部与全局互注意力机制，使用步骤S2提取的全局长期依赖和每个位置的局部语义特征作为输入，用局部语义特征关注全局长期依赖产生局部指导的全局注意力权重，进行加权得到加权全局特征。用全局长期依赖关注局部语义特征产生全局指导的局部注意力权重，进行加权得到加权局部特征。

S3.1、采用局部与全局互注意力机制，首先将步骤S2提取的全局长期依赖H和局部语义特征C作为输入，线性映射到较低维度k中，映射m次，m是局部与全局互注意力机制的子空间数目。将H和C映射到不同的子空间i：

其中，是投影参数矩阵，i＝1,2,…,m。

S3.2、如图2所示，使用局部语义特征指导全局长期依赖，根据局部语义特征的每个位置计算全局长期依赖的全局注意力上下文，公式如下：

其中，i＝1,2,...,m，是第i个子空间的全局注意力上下文，A_i∈R^T×T是全局注意力权重，接着拼接每一个子空间的全局注意力上下文，得到加权全局特征

使用全局长期依赖指导局部语义特征，根据全局长期依赖的每个位置计算局部语义特征的局部注意力上下文，公式如下：

其中，i＝1,2,...,m，是第i个子空间的局部注意力上下文，B_i∈R^T×T是局部注意力权重，接着拼接每一个子空间的局部注意力上下文，得到加权局部特征

步骤S4、使用步骤S3中得到的加权全局特征和加权局部特征，随时间步加权池化，产生最终的全局表示向量和局部表示向量。加权全局特征的随时间步加权过程如下：

其中，W⁽¹⁾∈R^mk×mk,w⁽²⁾∈R^mk是权重矩阵，B⁽¹⁾∈R^T×mk,b⁽²⁾∈R^T是偏置，α∈R^T，是加权全局特征的第i个向量的得分，z^H∈R^mk是最终的全局表示向量。

类似的，加权局部特征的随时间步加权过程如下：

步骤S5、拼接步骤S4得到的全局表示向量和局部表示向量，输入全连接层，再输入softmax层进行分类。

将步骤S4得到的最终全局表示向量z^H和最终局部表示向量z^C作为输入，预测每个类别i的概率具体公式如下：

其中，W_fc和W_sm是全连接层和softmax层的权重矩阵。b_fc和b_sm是偏置项。

训练目标是减少交叉熵损失：

综上所述，本发明可以并行地捕获全局长期依赖和局部语义特征，用于文本分类。本发明构建了局部与全局互注意力机制，一方面使用局部语义特征关注全局长期依赖，可以建模文本序列的组合语义，得到丰富的复杂语义特征。另一方面使用全局长期依赖关注局部语义特征，可以去除冗余或者不相关特征，从而得到更好的特征表示。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于局部与全局互注意力机制的文本分类方法，其特征在于，所述的文本分类方法包括以下步骤：

S1、获取文本数据集，对数据进行预处理，把文本序列的每个单词映射为词向量；

S4、使用上述的加权全局特征和加权局部特征，随时间步加权池化，产生最终的全局表示向量和局部表示向量；

S5、拼接上述的全局表示向量和局部表示向量，输入全连接层，再输入softmax层进行分类。

2.根据权利要求1所述的一种基于局部与全局互注意力机制的文本分类方法，其特征在于，所述的步骤S2中并行提取文本序列的全局长期依赖和局部语义特征，过程如下：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

其中，t＝1,2,...,T，T是输入时间步的长度，是拼接操作，表示时间步t的全局长期依赖；

拼接每个时间步的隐藏层状态向量形成矩阵，其定义如下：

其中，是文本序列的全局长期依赖矩阵,T是输入时间步的长度，k_glo为单向长短期记忆网络的隐藏层状态维度，H的每列表示文本序列对应位置处的全局长期依赖；

S2.2、使用多尺度卷积神经网络提取局部语义特征，令为卷积运算的卷积核，其中，w为卷积核的宽度，d是卷积核的高度，其值等于输入维度，k_loc是卷积核的数量，对于位置i的单词，卷积操作表示为：

其中，是文本序列每个位置的局部语义特征矩阵，是使用相同大小的窗口进行卷积得到的局部语义特征矩阵；接下来使用多尺度卷积神经网络，使用不同大小的窗口进行卷积操作，假设r是窗口w的数量，得到r个卷积操作的结果，拼接起来得到局部语义特征矩阵

3.根据权利要求1所述的一种基于局部与全局互注意力机制的文本分类方法，其特征在于，所述的步骤S3中构建局部与全局互注意力机制的过程如下：

S3.1、采用局部与全局互注意力机制，将步骤S2中提取的全局长期依赖H和局部语义特征C作为输入，线性映射到较低维度k中，映射m次，m是局部与全局互注意力机制的子空间数目，将H和C映射到不同的子空间i：

其中，是投影参数矩阵，i＝1,2,…,m；

S3.2、使用局部语义特征指导全局长期依赖，根据局部语义特征的每个位置计算全局长期依赖的全局注意力上下文，公式如下：

4.根据权利要求1所述的一种基于局部与全局互注意力机制的文本分类方法，其特征在于，所述的步骤S4中随时间步加权池化的过程如下：

其中，W⁽¹⁾∈R^mk×mk,w⁽²⁾∈R^mk是权重矩阵，B⁽¹⁾∈R^T×mk,b⁽²⁾∈R^T是偏置，α∈R^T，是加权全局特征的第i个向量的得分，z^H∈R^mk是最终的全局表示向量；

加权局部特征的随时间步加权过程如下：

5.根据权利要求1所述的一种基于局部与全局互注意力机制的文本分类方法，其特征在于，所述的步骤S5过程如下：