CN108717439A

CN108717439A - 一种基于注意力机制和特征强化融合的中文文本分类方法

Info

Publication number: CN108717439A
Application number: CN201810467249.1A
Authority: CN
Inventors: 谢金宝; 侯永进; 马俊杰; 梁欣涛; 王玉静; 王滨生
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2018-10-30

Abstract

本发明一种基于注意力机制和特征强化融合的中文文本分类方法属于数据挖掘技术领域；所述一种基于注意力机制和特征强化融合的中文文本分类方法中提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异强化注意力算法模型；特征强化融合中文文本分类模型，以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合，不断增强所提取文本特征的丰富程度和，使其包含的文本特征更加全面更加细致，从而提高了模型对中文文本特征的识别能力。

Description

一种基于注意力机制和特征强化融合的中文文本分类方法

技术领域

本发明一种基于注意力机制和特征强化融合的中文文本分类方法属于数据挖掘技术领域。

背景技术

随着Internet应用的普及，互联网上电子文档数量正在高速增长；为从海量电子文档中快速、准确、全面的挖掘有效信息，近年来，文本分类技术得到了人们的广泛关注；随着中文信息越来越丰富，中文信息的利用率也越来越大，因此对中文文本进行自动分类，具有非常重要的现实意义。

在自然语言处理领域中，通过对基于神经网络的人工智相关算法模型进行设计与改进，使提出的算法模型更加契合具体数据集的语体特点与文本语料结构以及其配套应用场景对算法模型性能的需求，是人工智能领域的研究热点之一；注意力机制，通过对输入神经网络的中文文本向量的语义编码生成并配置以不同的注意力权重，在不损失文本信息的基础上，突出重点内容在中文文本特征识别过程中所发挥的作用。因此，基于注意力机制构建的字符级问答系统具有较好的性能；但是其处理粒度仅为字符级较为单一，如果能综合考虑词级和句子级粒度的文本产生的注意力，特征会更丰富。

在中文文本长度相对较长的情况下，文本分类会存在问题，文本中隐含有重要文本特征信息的文本组成元素在文本中的位置分布不均匀；注意力机制可以体现出中文文本中不同文本元素在文本识别过程中所发挥作用的大小，为重要的文本元素配以更大的权重，但是由于是基于神经网络迭代训练而得出学习到的权重矩阵，是一个神经网络不断学习的过程，其间并不能保证所有的权重都配置得合适，可能会导致特征提取的不够充分或提取的特征包含的中文文本深层语义不够全面。

发明内容

针对上述问题，本发明公开了一种基于注意力机制和特征强化融合的中文文本分类方法，所述一种基于注意力机制和特征强化融合的中文文本分类方法中提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异强化注意力算法模型；特征强化融合中文文本分类模型，以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合，不断增强所提取文本特征的丰富程度和，使其包含的文本特征更加全面更加细致，从而提高了模型对中文文本特征的识别能力。

本发明的目的是这样实现的：

一种基于注意力机制和特征强化融合的中文文本分类方法，包括以下步骤：

步骤a，整理原始中文文本语料，将所述原始中文文本语料进行分词并预训练词向量字典，进行文本预处理；

步骤b，把将中文文本语料预处理成基于词条的N维向量；对预处理后文本进行特征选择，组成文本数据集的特征空间；

步骤c，所述原始中文文本语料经过预处理后进入神经网络模块进行训练和测试前，先存入嵌入层的嵌入矩阵中，每一行的表示形式为一篇文本文档的向量表示形式；

步骤d，将所述嵌入层中存储的预处理后的中文文本语料，导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中；

步骤e，所述双层LSTM在所述嵌入层中进行数据特征提取操作，将所述双层LSTM提取的特征作为特征信息，对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作；强化处理操作采用相加融合方式，对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理；

步骤f，将所述相加融合和所述CNN模块中输出的不同维度数据，进行拼接融合处理；

步骤g，将所述拼接融合处理后数据导入全连接层中；

步骤h，将所述全连接层中处理后数据导入softmax分类器进行归一化处理，输出样本属于各个类别的概率，以最大值对应的类别，作为文本类别识别的结果。

上述的一种基于注意力机制和特征强化融合的中文文本分类方法，所述注意力机制模型为语意特征差异化注意力算法模型构成，所述语意特征差异化注意力算法模型包括以下步骤：

步骤a1，输入所述语意特征差异化注意力算法模型中文本为TEXT文本，确定文本中的词向量x1和x2；

步骤b1，将所述词向量x1和x2导入编码器LSTM中；将导入所述编码器LSTM中的所述词向量x1和x2进行编码操作，所述词向量x1编码为语义编码h1，所述词向量x2编码为语义编码h2；

步骤c1，将所述语义编码h1导入语义特征学习模块1中，所述语义编码h2导入语义特征学习模块2中；将所述语义特征学习模块1和所述语义特征学习模块2进行融合特征学习操作，将所述融合特征学习操作导入Softmax模块进行权重概率化分析；

步骤d1，将所述Softmax模块中权重概率化分析结果导入特征差异放大模块进行特征差异放大操作，将所述特征差异放大模块中特征差异放大后生成的注意力权重α和所述语义编码h1、语义编码h2导入到注意力权重配置模块中；

步骤e1，将所述注意力权重配置模块分析后数据导入激活层中进行分析，所述激活层分析后数据通过全连接层导入分类器处理。

上述的一种基于注意力机制和特征强化融合的中文文本分类方法，所述CNN模块包括CNN3和CNN4两种卷积核尺寸的三维卷积神经网络，所述CNN3卷积核尺寸为3倍词向量维度，所述CNN4卷积核尺寸为4倍词向量维度。

有益效果：

第一、在本发明专利一种基于注意力机制和特征强化融合的中文文本分类方法中，本发明提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异化注意力算法模型；特征强化融合中文文本分类模型，以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合，不断增强所提取文本特征的丰富程度和，使其包含的文本特征更加全面更加细致，从而提高了模型对中文文本特征的识别能力。

第二，在本发明专利一种基于注意力机制和特征强化融合的中文文本分类方法中，特征差异化注意力算法模型，除对重要文本特征配以更权重外还对强化了其与边缘化的文本特征之间的差异，以进一步提高重要特征对中文文本识别的作用，使重点内容对文本识别的作用更加突出，从而提高了注意力机制对中文文本特征的识别能力；同等实验条件下，相比于对比模型，DEATT模型与BATTL2_3C的中文文本分类性能明显提升证明了其有效性。

附图说明

图1是本发明整体算法示意图。

图2是本发明语义特征差异化注意力机制示意图。

具体实施方式

下面结合附图对本发明具体实施方式作进一步详细描述。

具体实施例一

本实施例是一种基于注意力机制和特征强化融合的中文文本分类方法的具体实施例。

步骤g，将所述拼接融合处理后数据导入全连接层中；

将CNN与LSTM与注意力机制相结合提出一种，特征强化融合中文文本分类模型；原始的中文文本语料经过文本预处理后再进入神经网络模块进行训练与测试前，会被存入嵌入层的嵌入矩阵中；其中每一行为一篇文本文档的向量表示形式；LSTM由于自身以阵列的形式形成神经网络层，十分适合处理中文文本向量这种一维的序列化数据；双层的LSTM可以比较充分地挖掘出文本的序列化特征；将双层LSTM模块提取出的特征与注意力机制提取的特征进行融合，可以增强注意力机制所提文本特征包含文本语义特征信息的丰富程度，这里采用相加融合的方式可以在确保不损失特征信息的同时，不增加并行数据维度，节约了计算量；CNN比较适合用来提取中文文本不同卷积核尺寸下的文本粒度特征；这里采用CNN3与CNN4两种卷积核尺寸的三层卷积神经网络；CNN3卷积核尺寸为3倍词向量维度；CNN4卷积核尺寸为4倍词向量维度；通过采用奇数倍和偶数倍的卷积核尺寸来全面地提取文本不同粒度的特征；并将CNN3模块与CNN4模块的输出以拼接方式融合；并以此融合结果对LSTM与注意力机制的输出融合结果通过拼接融合进一步强化其特征信息丰富度与全面性；为了丰富、细致地提取中文文本语料的深度语义特征；以双层的LSTM所提取的特征对注意力算法模块提取的特征信息进行强化，强化的方式是通过融合层进行相加融合。

这种融合方式适合于输出维度相同的模型，不同的文本特征在融合的同时，不会增加后续处理中的并行数据维度，可以有效地节约计算量；拼接融合方式比较适用于各通路输出数据维度不同的情况下，以此的方式进行融合；由于这种融合方式无需进行数据维度统一，可以有效避免数据维度统一过程中的信息损失。

本专利中各个模型所用分类器均为softmax，softmax通过归一化处理输出样本属于各个类别的概率，以其中最大值对应的类别，作为文本类别识别结果，模型的训练与测试主要过程如下：

神经网络模型的训练：嵌入层做为神经网络模块的输入层，通过嵌入矩阵为各个神经网络的训练与测试提供统一形式的数据，这里定义注意力算法模块的训练目标为权重W_ATT和偏置B_ATT，LSTM模块的训练目标为权重W_LSTM和偏置B_LSTM，CNN模块的训练目标参数为权重W_CNN和偏置B_CNN，训练集的文本向量数据沿神经网络正向传播的过程最终的训练目标为：γ＝{W_ATT,W_LSTM,W_CNN,B_CNN,B_LSTM,B_ATT}，反向传播时，以正向传播获得的目标参数的损失函数Loss对θ求偏导，进行目标参数矩阵的迭代与更新；本专利中反向传播过程所采用的优化方法是Adadelta优化算法；

神经网络模型的测试：通过利用训练过程获得的模型框架与权重参数，测试集中的文本向量数据沿神经网络各个模块正向传播至分类器，通过归一化运算输出测试样本数据属于每一类的概率进行打分以区分其所属类别。

最终融合的结果通过全连接层进入分类器，实现对中文文本语料的分类处理。

具体实施例二

本实施例是一种基于注意力机制和特征强化融合的中文文本分类方法，中的注意力机制模型为语意特征差异化注意力算法模型具体实施例。

所述的一种基于注意力机制和特征强化融合的中文文本分类方法，所述注意力机制模型为语意特征差异化注意力算法模型构成，所述语意特征差异化注意力算法模型包括以下步骤：

假设输入的文本为TEXT，如下公式所示。

TEXT＝[x₁ x₂ … x_k] (1)

其中TEXT为一篇文档的向量，其中的x_k等为文档中的词向量。

注意力算法模型的输出，如公式(2)所示。

p(Y_t Y_t-1,X_t)＝F(h_t,R_power) (2)

其中X_t为当前时刻的输入，Y_t为当前时刻的输出，h_t为输入的隐层状态编码，R_power为注意力权重。

该模型以LSTM做为编码器，获得原始词向量的隐层状态语义编码h_text如公式(3)所示。

h_text＝[h₁ h₂ … h_k] (3)

其中h_text为由词的语义编码构成的文档的语义编码向量。

其中的每一个词的隐层状态语义编码，如公式(4)所示

h_t＝f(U_L·x_t+W_L·h_t-1) (4)

上式中U_L∈R^{input_dim×output_dim}，W_L∈R^{input_dim×output_dim}，二者为LSTM神经网络内部的待训练权重矩阵，input_dim为输入维度，output_dim为输出维度。当前时间步的隐层状态h_t为基于当前时间步的输入x_t与前一时间步的隐层状态h_t-1得出。

在阅读和理解中文文本时，并非孤立地对每一个中文文本的字、词元素进行独立的理解，而是将当前接收到的中文文本字词的深层语义信息与之前接收到的文本元素信息联系起来，结合中文语法与使用习惯来在头脑中产生对目标中文文本的高层次、抽象的语义特征的理解；通过以LSTM作为编码器，获得当前时间步的输入的隐层状态编码h_t与前一时间步输入的隐层状态编码h_t-1；分别由语义特征学习模块来对包含文本抽象语义特征的文本元素隐层状态编码进行初步的学习。

语义特征学习模块1的公式如公式(5)所示。

p＝tanh(h_t-1·U_p+b_p) (5)

其中U_p为待训练的权重矩阵，b_p为偏置矩阵。

语义特征学习模块2的公式如公式(6)所示。

p＝tanh(h_t·U_q+b_q) (6)

其中U_q为待训练的权重矩阵，b_q为偏置矩阵。

融合特征学习模块的核心公式如公式(7)所示。

y＝relu((tanh(p+q))·W_y+b_y) (7)

其中W_y为待训练的权重矩阵，b_y为偏置矩阵。

通过softmax函数实现注意力权重概率化的公式如公式(8)所示。

其中，y_t和y_k为公式(7)对应的融合特征学习模块的输出。

特征差异放大模块核心公式如公式(9)所示。

R_es＝2*alpha_t (9)

公式(9)中的系数2为语义特征权重放大系数，其作用为放大特征差异到合适的范围；注意力权重alpha_t的获得源于模型输入的文本词向量；文本词向量在文本预处理阶段生成，具体的向量值则取自于使用word2vec在文本预处理阶段基于所预训练的词向量字典；从实验中获得词向量字典中的实数向量数值实际上主要集中于-1至+1的区间范围及左右；然而在之前的生成注意力权重的过程中，在注意力权重概率化的过程中由于归一化处理，使得概率化后的权重alpha_t处于0到1之间，不同文本元素获得的注意力权重之间的差异减小；为了在合适范围内突出不同文本元素语义特征获得的注意力权重之间的差异，所以本专利通过设置特征差异放大系数“2”，将注意力权重变化范围从[0,1]放大到[0,2]，区间长度与词向量字典中词向量各维度上的数值变化范围基本相当；从而在突出不同特征差异的同时，也不会过度地放大特征差异，以避免次重点的文本元素特征在文本识别过程中发挥的作用被过度弱化。

注意力权重配置模块的核心公式如公式(10)所示。

R_power＝tanh((h*alpha_t)·W_a+h·W_b+b_R) (10)

其中W_a和W_b为待训练的权重矩阵，偏置矩阵b_R可以使算法模型所学习到特征更加丰富。

以上公式中，U_p,U_q,W_y,W_a,W_b∈R^{output_dim×output_dim}，各个公式中“·”均代表矩阵点积运算。

具体实施例三

本实施例是一种基于注意力机制和特征强化融合的中文文本分类方法中的CNN模块具体实施例。

所述的一种基于注意力机制和特征强化融合的中文文本分类方法，所述CNN模块包括CNN3和CNN4两种卷积核尺寸的三维卷积神经网络，所述CNN3卷积核尺寸为3倍词向量维度，所述CNN4卷积核尺寸为4倍词向量维度。

CNN的神经网络结构特点决定了，其十分适合提取不同卷积核尺寸视野下的中文文本语料数字化向量表示的局部特征信息。

CNN模块中包含有两条卷积神经网络通道CNN3与CNN4；二者均具有三个一维卷积层中间以最大池化层相连；输出会经过压平层，处理为一维数据输出。CNN3中卷积层的卷积核尺寸均为3倍文本词向量维度；CNN4中卷积层的卷积核尺寸均为4倍文本词向量维度；通过将具有奇数倍与具有偶数倍词向量维度的文本特征提取视野的两个卷积神经网络相结合，可以更加全面和细致地提取中文文本语料数据的深层粒度级文本特征；两条卷积神经网络通道的输出会在融合层进行拼接融合其融合结果将被用来对注意力算法与双层LSTM的融合特征进行强化与补充。

具体实施例四

本专利通过中文文本分类任务来验证算法模型对中文文本特征的识别能力；为了清晰与统一地对比不同模型识别中文文本特征的效果，所有模型的实验数据均采用复旦大学计算机与技术系国际数据库中心自然语言处理小组构建的中文文本语料数据集；其中包含20个类别的中文文本共计9833篇，并以其中的60％的文本作为训练集，剩余的40％做为测试集；训练集与测试集的比例为3:2这样一定程度上可以体现出所训练出模型的泛化能力。

中文文本数据预处理与实验设计：

中文文本数据预处理：首先需要对原始中文文本语料进行分词处理，使用jieba模块对中文文本进行分词处理；将分词后的语料，通过word2vec训练获得分词后原始语料的词向量词典；word2vec采用树形结构及无监督训练方式；通过预训练获得了100维与50维的词向量字典用于在训练神经网络之前将训练文本向量化；再对神经网络进行训练与测试之前，以“嵌入层”(Embedding Layer)作为输入层，其中的嵌入矩阵的每一行存储的是一篇文档的向量形式；试验中设定每篇文档所取长度最大值为1000，文档长度在1000以下的通过补0来补齐，之后的过程中会采用Mask矩阵来处理。

实验目标：(1)验证所提算法模型对中文文本特征的识别能力；(2)探索词向量字典所涵盖语境的大小对模型性能的影响。

为了实现实验目标(1)，对本专利所提出的算法模型与对比模型分别进行了100维与50维词向量下的对比实验；为实现实验目标(2)，将通过预训练获得的100维词向量字典拆分为两个词向量字典：100维词向量字典A包含原100维词向量字典的前80％的数据，100维词向量字典B包含其余20％的数据。

实验结果汇总与分析：

词向量维度为100维时的实验结果如下表所示。

模型说明：

(1)BATT为2.4节中的基本型注意力算法模型；

(2)CNN3是指单条CNN通路包含三层一维卷积层，卷积核尺寸均为3；

(3)LSTM为单层的LSTM网络；

(4)C3L2为一条CNN3通路与一条两层LSTM通路并联拼接融合组成的模型；

(5)C3C5为由CNN3和CNN5并联融合组成的模型；

(6)DEATT_3C为CNN3、CNN4、CNN5通路并联融合后再与一条注意力算法通路融合组成的模型；

(7)BATTL2_3C为一条两层的LSTM通路与BATT注意力算法通路并联融合后与CNN3、CNN4、CNN5并联融合的结果再次进行融合组成的模型；

(8)DEATTL2_3C为一条两层的LSTM通路与DEATT注意力算法通路并联融合后与CNN3、CNN4、CNN5并联融合的结果再次进行融合组成的模型；

(9)DEATT为本专利提出的特征差异强化注意力算法模型。

从DEATT的实验结果数据可以看出相比于单体基本型注意力机制模型，其分类准确率比BATT提升约10.97个百分点，证明了本专利提出的特征差异强化注意力机制DEATT通过将文本语义特征之间的差异适当地放大后，使得对文本特征识别意义及影响更大的重要中文文本特征在文本识别的过程中发挥出了更大的作用；从而取得了很好的中文文本分类效果，证明了所提算法模型DEATT的有效性。

而DEATT与DEATTL2_3C相比，准确率比较接近，这是因为随着双层LSTM的加入提供了更加均匀的文本特征信息，以及CNN模块的加入所提供的粒度级信息，正丰富、强化了信息量的同时，也淡化了不同文本特征之间的差异；但DEATTL2_3C的测试准确率相比于BATTL2_3C、C3C5、C3L2、LSTM、CNN3、BATT等相比依然提升较大，这在证明了本专利所提出的特征强化融合模型的同时，也说明其更适合于BATT这样的注意力机制；DEATTL2_3C与DEATT_3C的对比可以看出LSTM的加入对模型性能的提升是有作用的。

分类准确率本专利提出的特征强化融合模型BATTL2_3C相比于基本型注意力算法模型单体BATT提升了约9个百分点，虽然由于CNN与LSTM等的加入使得网络复杂度提高平均单轮迭代耗时也随之增长；但是由于双层LSTM与CNN模块等不断丰富和强化基本型注意力机制所提取文本特征的信息量与其对文本特征识别的作用，最红使得整个模型的测试分类准确率相较于单体注意力模型有了大幅度的提升，充分地证明了所提出的特征强化融合模型的有效性。

词向量为50维时的实验数据如下表所示：

对本专利提出的两个核心模型进行了50维词向量下的实验，以对比分析词向量维度对模型性能的影响；由实验数据可以看出与100维词向量下的实验结果相比均有所下降，特征强化融合模型BATTL2_3C的测试分类准确率下降了0.44个百分点，而特征差异强化注意力机制模型DEATT下降了2.91个百分点；从实验数据可以看出，词向量维度的降低由于其中包含的语义特征信息的减少，导致模型在较低维度词向量下的测试分类准确率有所降低；但是单体注意力模型DEATT下降的幅度更大；这说明BATTL2_3C模型具有更好的稳定性，与更强大的中文文本特征信息挖掘能力。

模型3CLATT在不同条件下的实验结果如下表所示：

实验模型说明：BATTL2_3C_80与BATTL2_3C_20的含义：100维词向量，采用预训练出的词向量字典的前80％条件下和采用预训练出的词向量字典的后20％条件下，BATTL2_3C模型的两个实验。

从实验数据可以看出采用预训练出的词向量字典的前80％构成的词向量字典涵盖的文本语境有所减小，导致BATTL2_3C_80相对于BATTL2_3C在原词向量字典下的测试分类准确率有所减小；而BATTL2_3C_20所用的词典涵盖语境大幅减小，导致准确率下降的幅度更大；说明对于本专利提出的BATTL2_3C模型，词向量字典语境涵盖越全面，越有利于模型对文本特征识别能力的发挥。

通过以上实验数据可以看出，本专利提出的特征差异强化注意力算法模型DEATT，单体模型就能够很好地区分文本特征的重要性及强化特征差异，提高中文文本特征有用性的区分度，从而在中文文本分类任务中相比其他模型，表现出更好的性能，证明了其有效性。

而本专利提出的特征差异强化注意力算法模型基于基本型注意力的模型BATTL2_3C相对于BATT及对比模型中文文本特征识别性能的明显提升，证明了其有效性。

Claims

1.一种基于注意力机制和特征强化融合的中文文本分类方法，其特征在于，包括以下步骤：

步骤g，将所述拼接融合处理后数据导入全连接层中；

2.根据权利要求1所述的一种基于注意力机制和特征强化融合的中文文本分类方法，其特征在于，所述注意力机制模型为语意特征差异化注意力算法模型构成，所述语意特征差异化注意力算法模型包括以下步骤：

3.根据权利要求1所述的一种基于注意力机制和特征强化融合的中文文本分类方法，其特征在于，所述CNN模块包括CNN3和CNN4两种卷积核尺寸的三维卷积神经网络，所述CNN3卷积核尺寸为3倍词向量维度，所述CNN4卷积核尺寸为4倍词向量维度。