CN112651242B

CN112651242B - 一种基于内外注意力机制和可变尺度卷积的文本分类方法

Info

Publication number: CN112651242B
Application number: CN202110076848.2A
Authority: CN
Inventors: 周尚波; 向优; 沙龙; 朱淑芳
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2024-04-26
Anticipated expiration: 2041-01-20
Also published as: CN112651242A

Abstract

本发明公开了一种基于内外注意力机制和可变尺度卷积的文本分类方法，本发明中，通过卷积神经网络和循环神经网络结合的方式来获取局部特征和全局信息，克服了卷积神经网络卷积核窗口大小固定，导致无法建模更长的序列信息，不能获取序列数据间的间隔信息和长期依赖关系的问题；还克服了循环神经网络在提取局部关键信息方面存在不足，网络参数较为复杂，训练耗时较长，存在梯度小时和梯度爆炸的问题。此外，本发明还利用空洞卷积的思想，构造了三种不同空洞卷积核，提取文本局部间隔的相关特征信息，计算文本词向量和对应隐藏信息序列间的相关性，提高对于重要信息特征加权的比重，进而提高了文本分类的准确性。

Description

一种基于内外注意力机制和可变尺度卷积的文本分类方法

技术领域

本发明涉及自然语言处理相关技术领域，具体地说，涉及一种基于内外注意力机制和可变尺度卷积的文本分类方法。

背景技术

目前互联网迅速发展，网络上的电子文本也海量式的增长。如何对这些文本进行有效的管理、挖掘其中的情感信息也是目前人们关注的热点，因此文本分类是解决上面问题的重要技术。传统的文本分类方法大多是基本机器学习的算法，比如支持向量机、朴素贝叶斯以及K邻近算法等。但是这些算法不仅需要人工来提取文本，耗费大量的人力物力，同时人工提取的特征带有一定的主观性，对于分类的准确度有很大的影响。近些年随着深度学习的发展，在利用神经网络提取文本、图像特征方面有良好的表现，因此提出了很多基于深度学习的文本分类方法。

现有技术中，主流的文本分类网络模型有两类，基于卷积神经网络(CNN)和循环神经网络(RNN)的方法。比较著名的TextCNN，其通过不同大小的卷积核，可以有效提取文本中的局部信息特征，对于关键语义信息提取的效果更是显著，但是由于卷积核窗口大小固定，导致无法建模更长的序列信息，不能获取序列数据间的间隔信息和长期依赖关系。循环神经网络则是可以处理可变长的文本，尤其是长短时记忆网络(LSTM)，利用遗忘门、记忆门和输出们，可以有效的提取全文的结构信息，对于文本情感分类有较高的性能。但是其在提取局部关键信息方面存在不足，网络参数较为复杂，训练耗时较长，并且还存在梯度小时和梯度爆炸问题。因此，对比于使用单独的某一种网络结构来提取文本的特征信息，可以通过卷积神经网络和循环神经网络结合的方式来获取局部特征和全局信息，并且可以克服单个网络存在的问题。并且在组合网络结构中加入注意力机制，可以让文本中重要的特征信息更加突出，弱化次要信息，使得文本分类的准确率显著提高。但是一般的注意力机制只考虑文本隐藏信息序列的内注意力，并未同时考虑到原词量和对应隐藏序列的相关性，导致文本分类的准确性较低。

综上所述，如何计算文本词向量和对应隐藏信息序列间的相关性，进而提高文本分类的准确性，成为了本领域技术人员急需解决的问题。

发明内容

针对上述现有技术的不足，本发明公开了一种基于内外注意力机制和可变尺度卷积的文本分类方法，利用空洞卷积的思想，构造了三种不同空洞卷积核，提取文本局部间隔的相关特征信息，计算文本词向量和对应隐藏信息序列间的相关性，提高对于重要信息特征加权的比重，进而提高了文本分类的准确性。

为了解决现有技术中的问题，本发明采用了如下的技术方案：

一种基于内外注意力机制和可变尺度卷积的文本分类方法，包括如下步骤：

S1、对目标文本p_i进行预处理，获取目标文本的分词组words_i；

S2、将所述分词组words_i进行词向量编码得到目标文本的文本向量W，W＝{w₁,…,w_n}，w₁,…,w_n表示第1至第n个词向量，n为文本向量W中的词向量数量；

S3、基于注意力机制生成文本向量W对应的文本特征AW；

S4、将文本特征AW输入包含多个不同大小的卷积核的多尺度卷积神经网络，捕获目标文本p_i多个尺度的局部信息特征；

S5、将文本特征AW输入双向门控循环网络，提取目标文本p_i的序列和长期依赖特征；

S6、将局部信息特征以及目标文本p_i的序列和长期依赖特征进行拼接后输入到全连接层和Softmax层得到目标文本p_i属于各种类别的概率，取概率最高的类别作为目标文本p_i的所属类别。

优选地，步骤S2包括：

S201、对BERT的预训练框架进行微调；

S202、将分词组输入微调后的BERT进行词向量编码得到目标文本的文本向量。

优选地，步骤S3包括：

S301、基于下式计算文本向量W中任意一个词向量w_j与另一词向量的对应的序列值v_k的相似度e_out_jk作为外注意力；并且计算文本向量的对应的内部序列值之间的相似度e_in_jk作为内注意力：

式中，i,j,k∈{1,…,n}，表示v_k的转置。

S302、基于下式计算W中任意一个词向量w_k的注意力分数a_k：

式中，exp(·)表示以自然数为底的指数函数；

S303、基于词向量的注意力分数得到文本特征AW，AW＝{A₁,…,A_n}，A_k＝a_kw_k。

优选地，所述包含多个不同大小的卷积核的多尺度卷积神经网络中，6个卷积核后接一个最大池化层，所述6个卷积核中包括3个传统卷积核及3个空洞卷积核，空洞卷积的大小公式可表达为：κ(r,d)＝(2r-1,d)，r为传统卷积核的大小，d为词向量的维度大小，3个空洞卷积核的大小分别为3、5和9，大小为3的空洞卷积核的第2行全为0，大小为5的空洞卷积核的第2行和第4行全为0，大小为9的空洞卷积核的第2行、第4行、第6行和第8行全为0。

优选地，步骤S5中，对于任意一个门控循环神经网络单元，文本特征AW中任意一个加权后的特征向量A_k＝a_kw_k的前向传播过程如下：

c_i＝σ(θ_cA_k+β_cs_i-1)

u_i＝σ(θ_uA_k+β_us_i-1)

s_i＝(1-u_i)s_i-1+u_itanh(θ_iA_k+β_i(c_i⊙s_i-1))

式中，θ_c，β_c,θ_u，β_u,θ_i，β_i均为权重参数矩阵，σ(·)表示sigmoid函数，⊙表示元素相乘运算，u_i表示更新门，决定门控循环单元的激活值更新程度，c_i表示重置门，s_i表示第i个隐藏层，tanh(·)表示双曲正切函数。

优选地，采用批训练的训练方式对网络进行训练，优化的方法采用随机梯度下降法对网络的参数进行更新；在卷积层和Softmax层中加入Dropout策略和L2正则化方法；损失函数采用的是添加了正则项优化的交叉熵损失，公式如下

其中，K表示文本的类型数量，y_i表示文本的标签，如果文本类型也是i则y_i为1否则为0，P_i表示由输出类别是i的概率，μ表示超参数，θ表示整个网络的权重参数，表示2-范数运算。

综上所述，本发明与现有技术相比，具有以下技术效果：

1、本发明提出了一种内外注意力机制，可用于同时计算文本词向量和对应隐藏信息序列间的相关性，提高对于重要信息特征加权的比重。

2、本发明提出了一种多尺度卷积结构，在原有固定大小的三种卷积核上，利用空洞卷积的思想，构造了三种不同空洞卷积核，其可以提取文本局部间隔的相关特征信息。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明公开的一种基于内外注意力机制和可变尺度卷积的文本分类方法的一种具体实施方式的流程图；

图2为本发明中实现基于内外注意力机制和可变尺度卷积的文本分类方法的模型的结构示意图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

如图1所示，一种基于内外注意力机制和可变尺度卷积的文本分类方法，包括如下步骤：

本发明中，对现有的目标文本可使用基于隐马尔科夫算法的Jieba分词器进行分词处理，并且采用全模式去掉文本中的英文数字字符、标点符号和停用词，形成该文本的分词组；此外，在进行模型的训练时，也可采用上述方法对训练文本进行处理，并将训练文本打上标签，例如，分为正向性、中立性、负面性三类文本。

S3、基于注意力机制生成文本向量W对应的文本特征AW；

本发明中，可使用全连接层和softmax层，构建归一化分类模块，将局部信息特征和序列和长期依赖特征进行拼接，输入到该模块中则可以得到该文本属于每个类别的概率。

与现有技术相比，本发明公开了一种基于内外注意力机制和可变尺度卷积的文本分类方法，本发明中，通过卷积神经网络和循环神经网络结合的方式来获取局部特征和全局信息，克服了卷积神经网络卷积核窗口大小固定，导致无法建模更长的序列信息，不能获取序列数据间的间隔信息和长期依赖关系的问题；还克服了循环神经网络在提取局部关键信息方面存在不足，网络参数较为复杂，训练耗时较长，存在梯度小时和梯度爆炸的问题。此外，本发明还利用空洞卷积的思想，构造了三种不同空洞卷积核，提取文本局部间隔的相关特征信息，计算文本词向量和对应隐藏信息序列间的相关性，提高对于重要信息特征加权的比重，进而提高了文本分类的准确性。

具体实施时，步骤S2包括：

S201、对BERT的预训练框架进行微调；

根据现有的部分文本数据对BERT进行微调，微调过程中，批训练的大小设置为24，学习率设置2e-5，优化器采用自适应矩估计法(Adam)，同时还采用了Dropout策略防止过拟合。对BERT模型进行微调以后，可以使分词结果更加契合该领域文本的独特性，促进最后的文本分类效果

本发明中，词向量的维度可为512。

具体实施时，步骤S3包括：

式中，i,j,k∈{1,…,n}，表示v_k的转置。

S302、基于下式计算W中任意一个词向量w_k的注意力分数a_k：

式中，exp(·)表示以自然数为底的指数函数；

这样，通过将经过BERT处理过的文本向量输入到内外注意力机制中，可以为其中重要的信息赋予更高的权重，不重要的信息赋予更低的权重，进而提高分类的准确性。

具体实施时，所述包含多个不同大小的卷积核的多尺度卷积神经网络中，6个卷积核后接一个最大池化层，所述6个卷积核中包括3个传统卷积核及3个空洞卷积核，空洞卷积的大小公式可表达为：κ(r,d)＝(2r-1,d)，r为传统卷积核的大小，d为词向量的维度大小，3个空洞卷积核的大小分别为3、5和9，大小为3的空洞卷积核的第2行全为0，大小为5的空洞卷积核的第2行和第4行全为0，大小为9的空洞卷积核的第2行、第4行、第6行和第8行全为0。

本发明中，可使用不同的卷积核大小，构建多尺度卷积神经网络模块，捕获该文本多个尺度的局部信息特征。在传统的三种卷积的大小为2、3、5的卷积层基础上，利用空洞卷积的思想，再构建一种每隔一个词向量再进行特征提取的空洞卷积核，相当于其中填充了一行0，设定新的三种卷积的大小为3(其中1行为0)、5(其中两行为0)、9(其中4行为0)。卷积核的维数和词向量保持一致，通道数可设定为128。把传统的三种卷积层和新的三种空洞卷积层后分别接上最大池化层，组合成为一种多尺度的卷积网络结构，网络的结构如图2所示。具体的而言：将经过注意力机制的文本特征分别输入到六种卷积核的神经网络中，再经过最大池化层整合和提取其中重要的局部特征，再将六种局部特征进行连接，形成经过卷积神经网络处理后的卷积特征向量。

具体实施时，步骤S5中，对于任意一个门控循环神经网络单元，加权后的特征向量A_k＝a_kw_k的前向传播过程如下：

c_i＝σ(θ_cA_k+β_cs_i-1)

u_i＝σ(θ_uA_k+β_us_i-1)

s_i＝(1-u_i)s_i-1+u_itanh(θ_iA_k+β_i(c_i⊙s_i-1))

本发明中，基于门控循环网络单元，构建双向门控循环网络模块，捕获不同时间尺度的依赖性特征和序列信息。网络的结构如图2所示。为了提取上下文的语义信息，采用了双向结构，不仅可以同时捕获前文对于特征信息提取的候选隐藏层，同时也能考虑到后文对于整体特征提取的候选隐藏层，最后将两者进行组合形成最终的隐藏层。经过双向的门控循环网络处理后可以得到文本的序列和长期依赖特征。

具体实施时，采用批训练的训练方式对网络进行训练，优化的方法采用随机梯度下降法对网络的参数进行更新；在卷积层和Softmax层中加入Dropout策略和L2正则化方法；损失函数采用的是添加了正则项优化的交叉熵损失，公式如下

本发明中，优化的方法采用随机梯度下降法对网络的参数进行更新，能够促进模型的收敛。在卷积层和Softmax层中加入了Dropout策略和L2正则化方法，能够防止过拟合。由于模型是个多分类问题，所以损失函数采用的是交叉熵损失。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims

1.一种基于内外注意力机制和可变尺度卷积的文本分类方法，其特征在于，包括如下步骤：

S3、基于注意力机制生成文本向量W对应的文本特征AW；步骤S3包括：

式中，i,j,k∈{1,…,n}，表示v_k的转置；

S302、基于下式计算W中任意一个词向量w_k的注意力分数a_k：

式中，exp(·)表示以自然数为底的指数函数；

S303、基于词向量的注意力分数得到文本特征AW，AW＝{A₁,…,A_n}，A_k＝a_kw_k；

2.如权利要求1所述的基于内外注意力机制和可变尺度卷积的文本分类方法，其特征在于，步骤S2包括：

S201、对BERT的预训练框架进行微调；

3.如权利要求1所述的基于内外注意力机制和可变尺度卷积的文本分类方法，其特征在于，所述包含多个不同大小的卷积核的多尺度卷积神经网络中，6个卷积核后接一个最大池化层，所述6个卷积核中包括3个传统卷积核及3个空洞卷积核，空洞卷积的大小公式可表达为：κ(r,d)＝(2r-1,d)，r为传统卷积核的大小，d为词向量的维度大小，3个空洞卷积核的大小分别为3、5和9，大小为3的空洞卷积核的第2行全为0，大小为5的空洞卷积核的第2行和第4行全为0，大小为9的空洞卷积核的第2行、第4行、第6行和第8行全为0。

4.如权利要求1所述的基于内外注意力机制和可变尺度卷积的文本分类方法，其特征在于，步骤S5中，对于任意一个门控循环神经网络单元，文本特征AW中任意一个加权后的特征向量A_k＝a_kw_k的前向传播过程如下：

c_i＝σ(θ_cA_k+β_cs_i-1)

u_i＝σ(θ_uA_k+β_us_i-1)

s_i＝(1-u_i)s_i-1+u_i tanh(θ_iA_k+β_i(c_i⊙s_i-1))

5.如权利要求1上述的基于内外注意力机制和可变尺度卷积的文本分类方法，其特征在于，采用批训练的训练方式对网络进行训练，优化的方法采用随机梯度下降法对网络的参数进行更新；在卷积层和Softmax层中加入Dropout策略和L2正则化方法；损失函数采用的是添加了正则项优化的交叉熵损失，公式如下