CN111061873A

CN111061873A - 一种基于Attention机制的多通道的文本分类方法

Info

Publication number: CN111061873A
Application number: CN201911191475.2A
Authority: CN
Inventors: 刘磊; 侯良文; 孙应红; 李静
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-24
Anticipated expiration: 2039-11-28
Also published as: CN111061873B

Abstract

本发明涉及一种基于Attention机制的多通道的文本分类方法，首先将由固定的预训练词向量和随机初始化的词向量构建的句子嵌入矩阵分别作为一个文本通道，其次在每层通道上单独引入Attention机制为每个词创建上下文向量，然后将上下文向量和词向量进行拼接，从而得到多通道的句子嵌入矩阵。最后使用不同尺寸的卷积核对多通道的句子嵌入矩阵在多个通道上进行卷积操作，得到卷积后的文本特征向量，再使用最大池化层从特征向量中提取文本主要特征，最后经过Softmax层输出所属类别的概率分布，从而构建基于Attention机制的多通道的文本分类模型。提高了模型的泛化能力和训练速度，解决了非连续词之间相关性的问题。

Description

一种基于Attention机制的多通道的文本分类方法

技术领域

本发明属于信息处理技术领域，是一种基于Attention机制的多通道的文本分类方法。

背景技术

随着互联网在社会中的大规模应用，网络上的信息资源呈现爆炸式的增长。在各种形式的信息中，非结构化的文本信息仍然是十分重要的信息资源之一。而文本自动分类能更好的帮助人们快速准确的获取信息，从而极大地提高信息的利用率。文本自动分类就是在给定的分类模型下，由计算机根据文本内容自动判别文本类别的过程，作为一项具有较大实用价值的关键技术，文本分类有着广泛的商业前景和应用价值。

随着深度学习技术的发展，各种词嵌入模型可以将词映射为低维稠密的向量，从而把对文本内容的处理简化为向量空间中的向量运算，并且以空间上的相似度表达语义的相似度，利用卷积神经网络可以提取文本特征，从而实现文本分类任务，对于单层文本通道的卷积过程虽然参数少，易于训练，但收敛速度慢，精度不高。而多通道的文本将不同的词向量表示引入不同的通道中，一方面可以丰富词的语义；另一方面卷积核可以从双层文本通道中提取更多的文本特征，已有实验验证了该方法一定程度上可以提高模型的泛化能力。对于单通道的文本卷积而言，虽然双通道文本卷积过程克服了其收敛速度慢、语义表征能力不足的缺陷，但是却难以捕获长期的上下文信息和非连续词之间的相关性。Attention机制是一种根据某些规则或者某些额外信息从向量表达集合中抽取特定的向量进行加权组合的方法，通过对不同词向量赋予不同的权重来加强对某些重要词的关注程度。

发明内容

针对以上问题，本发明将Attention机制分别嵌入不同通道进行文本卷积提取特征，提出了一种基于Attention机制的多通道的文本分类方法，来缓解模型中难以捕获长期的上下文信息和非连续词相关性以及模型过拟合的问题。该方法首先将由固定的预训练词向量和随机初始化的词向量构建的句子嵌入矩阵分别作为一个文本通道，在每层通道上单独引入Attention机制为每个词创建上下文向量，再将上下文向量和词向量进行拼接，从而得到多通道的句子嵌入矩阵。然后在多个通道上使用不同尺寸的卷积核，对多通道的句子嵌入矩阵进行卷积操作，得到卷积后的文本特征向量，再使用最大池化层从特征向量中提取文本主要特征，最后经过Softmax层输出所属类别的概率分布，从而构建基于Attention机制的多通道的文本分类模型。

为实现上述目的，本发明采用如下的技术方案

一种基于Attention机制的多通道的文本分类方法，包括以下步骤：

步骤1文本预处理

1.1文本分词

利用分词工具对中文文本进行分词处理，构建预处理后语料库。

1.2构建词库

首先去除停用词，即在文本中出现频率很高，但没有实际意义的词，包括语气助词、副词、介词及无用符号等。然后保留词频大于阈值θ的词构成词库，同时在词库中插入字符串“UNK”和“PAD”,其中“UNK”表示不能识别的词，“PAD”表示为模型输入中固定句子长度需要填充的词。

步骤2词向量构建

利用word2vec技术，对预处理后的语料进行词向量的训练，词向量的维度设置为d，得到预训练词向量表。对词库中的每一个词，若该词在预训练词向量表存在，则使用表中词向量作为该词的词向量，若该词在预训练词向量表中不存在，则使用正态分布随机初始化向量作为该词的词向量。

步骤3模型构建

3.1词向量的初始化

首先对于预处理后语料库中每个句子，用词向量替换句子中的每个词，构建句子的词向量表示。以词的数目表示句子长度，设置句子固定长度为l，对于大于句长l的句子截断，小于句长l的句子用“PAD”填充。

然后利用预训练词向量创建的句子词向量嵌入矩阵A∈R^l×d，构建第1通道，表示如下：

A＝[x₁,x₂,…,x_i,…,x_l]^T(1≤i≤l)

其中x_i对应句子中第i个词的d维向量，l为句子的固定长度。

利用均匀分布随机初始化的词向量创建的句子词向量嵌入矩阵B∈R^l×d，构建第2通道，表示如下：

B＝[y₁,y₂,…,y_i,…,y_l]^T(1≤i≤l)

其中y_i对应句子中第i个词的d维向量，l为句子的固定长度。

将词向量嵌入矩阵A和B在深度方向上进行拼接，得到句子的双通道词向量嵌入矩阵C∈R^2×l×d表示如下：

其中，

表示两个相同维度的二维矩阵在深度方向上的拼接符号。

3.2引入Attention层

首先在第1和第2通道上引入Attention机制，将通道上的当前词向量重新编码，以此来表示该词的上下文向量。该机制通过赋予词向量不同的权重值，将注意力集中在对当前词影响较大的重要词上。

通道1的词向量x_i(1≤i≤l)的上下文向量u_i表示如下：

其中α_ij为词向量x_i对应的权重值，l为句子固定长度，α_ij＞0且

权重值α_ij按照如下公式计算：

其中l为句子固定长度，score(x_i,x_j)是词向量x_i和x_j(i≠j)的相似性得分，表示如下：

然后将词向量和其对应的上下文向量拼接为扩展词向量，更新到嵌入矩阵中，词向量x_i的扩展词向量X_i表示如下：

其中1≤i≤l，l为句子固定长度，

表示向量之间的串联拼接符号。

基于同样方法，计算得到通道2的词向量y_i(1≤i≤l)的上下文向量v_i，y_i的扩展词向量Y_i。

3.3文本特征抽取和类别输出

双通道词嵌入矩阵C∈R^2×l×d经过Attention机制对词向量的重新编码后，更新后的嵌入矩阵变为D∈R^2×l×2d，表示如下：

其中，∪表示向量并行拼接符号，l为句子固定长度，

表示两个通道上的扩展词向量X_k和Y_k在空间维度上的合并。

然后使用窗口大小为h，深度为2的多个卷积核在双通道嵌入矩阵上进行滑动卷积操作，得到卷积核提取的特征图，再对特征图进行最大池化操作，将池化得到的主要特征展开成特征向量ξ，以ξ作为全连接层的输入，经过全连接层和Softmax层得到文本所属类别的概率分布。

有益效果

(1)本发明将固定的预训练词向量和随机初始化的词向量作为不同的通道嵌入词向量矩阵，其中随机初始化的词向量矩阵参与模型的训练，不断进行微调，来达到特征提取后信息的综合，有效的提高了模型的训练速度和预测精度。

(2)该发明在模型的多通道输入层和卷积层之间引入了Attention层，对句子中的词赋予不同的权重，重新定义当前词的语义表示，可以有效缓解一般卷积神经网络无法捕获非连续词之间相关性的问题。

附图说明

图1Attention+Multichannel层结构示意图

图2卷积层结构示意图

图3网络模型学习曲线图

具体实施方式

对本发明的具体实施方式作进一步的详细描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明以THUCNews新闻文本分类数据集的子集作为模型的训练语料，以此来验证该模型的有效性。具体实施步骤如下：

步骤1文本预处理

1.1文本分词

以THUCNews新闻文本分类数据集的子集为例，该数据集包含体育、娱乐、家居、房产、教育、时尚、时政、游戏、科技和财经10类新闻，共65000条新闻样本，利用jieba分词工具对中文文本进行分词处理,构建预处理后语料库。

1.2构建词库

首先去除在预处理后语料库中出现频率很高，但没有太大实际意义的词，主要包括语气助词、副词、介词及无用符号等。其次，以词作为文本的最小粒度，统计词出现的频率，将词频大于5的词作为候选词，构建词库。同时在词库中插入“UNK”和“PAD”,其中“UNK”表示不能识别的词，即未出现在词库中的词统一用“UNK”表示，“PAD”表示为固定句子长度需要填充的词。

步骤2：词向量构建

利用word2vec技术，对预处理后的语料进行词向量的训练，该技术将词映射为低维的、稠密的词嵌入向量表示，使得词向量之间的几何关系可以表示这些词之间的语义关系。将词向量的嵌入维度设置为d＝100，得到预训练词向量表。对词库中的每一个词，若该词在预训练词向量表存在，则使用表中词向量作为该词的词向量，若该词在预训练词向量表中不存在，则该词的词向量使用标准正态分布随机初始化。

步骤3：模型的构建

3.1词向量的初始化

首先设置固定句子长度l为512，然后将预处理后语料库中每个长短不一的句子进行截取或填充，具体操作为大于句长l的部分截断，小于句长l的句子用“PAD”填充。

然后利用预训练词向量创建句子词向量嵌入矩阵，构建第1通道，句子词向量嵌入矩阵A∈R^512×100表示如下：

利用均匀分布随机初始化的词向量创建句子词向量嵌入矩阵，构建第2通道，句子词向量嵌入矩阵B∈R^512×100表示如下：

将词向量嵌入矩阵A∈R^512×100和B∈R^512×100在深度方向上拼接，得到句子的双通道词向量嵌入矩阵C∈R^2×512×100表示如下：

其中，

表示两个相同维度的二维矩阵在深度方向上的拼接符号。

3.2引入Attention层

通道1的词向量x_i(1≤i≤512)的上下文向量u_i表示如下：

其中α_ij为词向量x_i对应的权重值，α_ij＞0且

权重值α_ij按照如下公式计算：

其中score(x_i,x_j)是词向量x_i和x_j(i≠j)的相似性得分，表示如下：

然后将词向量x_i(1≤i≤512)和其对应的上下文向量u_i拼接为扩展词向量，更新到句子的词向量嵌入矩阵中，词向量x_i的扩展词向量X_i表示如下：

其中

表示向量之间的串联拼接符号。

基于同样方法，计算得到通道2的词向量y_i(1≤i≤512)的上下文向量v_i，y_i的扩展词向量Y_i。

3.3文本特征抽取和类别输出

双通道词嵌入矩阵C∈R^2×512×100经过Attention机制对词向量的重新编码后，更新后的嵌入矩阵变为D∈R^2×512×200，表示如下：

其中，∪表示向量并行拼接符号，

表示两个通道上的扩展词向量X_k和Y_k在深度方向上的拼接。

该实验中通过使用深度为2，且具有不同窗口大小h的多个卷积核在双通道嵌入矩阵上进行滑动卷积操作来提取文本局部特征。实验中窗口大小h取值为2,3,4,5，步长设为1，卷积核的数量为128个，通过卷积操作得到相应的特征图，然后经过最大池化操作，将池化得到的主要特征展开成特征向量ξ，以ξ作为全连接层的输入，最后经过全连接层和Softmax层得到文本所属类别的概率分布。

步骤4实验分析

实验结果如下表1所示：

表1不同模型在测试数据集上的各评估指标值

由上表可知，本专利提出的模型CNN-multichannel-attention在文本分类任务上各评估指标优于模型CNN-rand和CNN-multichannel。

Claims

1.一种基于Attention机制的多通道的文本分类方法，包括以下步骤：

步骤1文本预处理

1.1文本分词，构建预处理后语料库；

1.2构建词库，所述的词库由去除停用词后且词频大于阈值θ的词构成；

步骤2词向量构建

利用word2vec技术，对预处理后的语料进行词向量的训练，词向量的维度设置为d，得到预训练词向量表，对词库中的每一个词，若该词在预训练词向量表存在，则使用表中词向量作为该词的词向量，若该词在预训练词向量表中不存在，则使用正态分布随机初始化向量作为该词的词向量；

步骤3模型构建

3.1词向量的初始化

首先对于预处理后语料库中每个句子，用词向量替换句子中的每个词，构建句子的词向量表示；

A＝[x₁,x₂,…,x_i,…,x_l]^T(1≤i≤l)

其中x_i对应句子中第i个词的d维向量，l为句子的固定长度；

B＝[y₁,y₂,…,y_i,…,y_l]^T(1≤i≤l)

其中y_i对应句子中第i个词的d维向量，l为句子的固定长度；

其中，

表示两个相同维度的二维矩阵在深度方向上的拼接符号；

3.2引入Attention层

首先在第1和第2通道上引入Attention机制，将通道上的当前词向量重新编码，通道1的词向量x_i(1≤i≤l)的上下文向量u_i表示如下：

权重值α_ij按照如下公式计算：

然后将词向量和其对应的上下文向量拼接为扩展词向量，更新到嵌入矩阵中，其中，词向量x_i的扩展词向量X_i表示如下：

其中1≤i≤l，l为句子固定长度，

表示向量之间的串联拼接符号；

基于同样方法，计算得到通道2的词向量y_i(1≤i≤l)的上下文向量v_i，y_i的扩展词向量Y_i；

3.3文本特征抽取和类别输出

其中，∪表示向量并行拼接符号，l为句子固定长度，

表示两个通道上的扩展词向量X_k和Y_k在空间维度上的合并；然后使用窗口大小为h，深度为2的多个卷积核在双通道嵌入矩阵上进行滑动卷积操作，得到卷积核提取的特征图，再对特征图进行最大池化操作，将池化得到的主要特征展开成特征向量ξ，以ξ作为全连接层的输入，经过全连接层和Softmax层得到文本所属类别的概率分布。

2.根据权利要求1所述的一种基于Attention机制的多通道的文本分类方法，其特征在于：

所述步骤3.1中构建句子的词向量表示具体为：以词的数目表示句子长度，设置句子固定长度为l，对于大于句长l的句子截断，小于句长l的句子用“PAD”填充。