CN113535948B

CN113535948B - 引入要点信息的LSTM-Attention文本分类方法

Info

Publication number: CN113535948B
Application number: CN202110615580.5A
Authority: CN
Inventors: 付钰; 于游; 杨金宝; 王坤
Original assignee: Naval University of Engineering PLA
Current assignee: Naval University of Engineering PLA
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2022-08-16
Anticipated expiration: 2041-06-02
Also published as: CN113535948A

Abstract

本发明公开了一种引入要点信息的LSTM‑Attention文本分类方法，提出了句子要点信息提取方法，通过该方法能够对句子要点信息进行提取，再通过句子要点信息对文本的语义进行表述，丰富特征语义信息，再选取加入注意力机制的长短时记忆网络作为分类器学习，通过将词向量和句子向量分别作为网络输入得到的结果进行拼接即可得到文本最终类别。本发明提出的方法能够解决文本分类中特征稀疏的问题，有效提高了文本分类的准确性。

Description

引入要点信息的LSTM-Attention文本分类方法

技术领域

本发明涉及文本自动分类技术领域，具体涉及一种引入要点信息的LSTM-Attention文本分类方法。

背景技术

近年来，随着互联网产业快速形成和计算机网络的广泛应用，海量文本数据汇入网络中，呈现爆炸式增长，如何有效地对这些数据进行分门别类是合理管理与使用数据的前提。文本自动分类技术是指按照一定的规则对文本进行类别划分的过程，主要方法有基于规则的分类方法和基于统计的分类方法两种。

伴随着机器学习和深度学习技术的发展，新的文本分类算法被不断提出，如朴素贝叶斯、支持向量机(SupportVector Machine，SVM)、决策树以及神经网络学习等方法。目前，在深度学习学习领域，应用较为广泛的文本方法为以循环神经网络为基础改进的LSTM-Attention模型，然而现有的LSTM-Attention模型是以词向量为基础，词向量表示方法虽然能够有效避免词袋模型维度词、特征稀疏的问题，但是仍然无法有效地对复杂的文本语义信息进行描述。

发明内容

针对文本分类过程中特征稀疏，无法全面的表示文本信息的问题，本发明旨在提供一种引入要点信息的LSTM-Attention文本分类方法。

为了实现上述目的，本发明所采用的技术方案如下：

一种引入要点信息的LSTM-Attention文本分类方法，其特征在于，包括以下步骤：

步骤1：输入带分类的文本信息；

步骤2：利用句子要点信息提取方法处理输入的文本信息，得到长度一定的句子要点向量和词向量；

步骤3：分别对句子要点向量和词向量构建引入句子要点信息的LSTM-Attention模型，并进行学习训练，得到带权重的输出向量Hc和H；

步骤4：将得到的输出向量Hc和H进行拼接，得到拼接向量；

步骤5：按拼接向量所占的比重进而进行计算得到其所属已知类别的概率p，通过该概率p输出最终的分类结果。

进一步地，步骤2所述的提取方法包括以下步骤：

步骤21：对输入的文本信息进行分割，将其分割成多个句子，在对每个句子进行分词和词性标注，得到分词和词性信息，构建词向量；

步骤22：根据分词位置和词性信息提取出句子的要点信息；

步骤23：利用PV-DM方法构造句子要点信息向量。

进一步地，步骤3所述的引入句子要点信息的LSTM-Attention模型包括双向LSTM输入层、注意力层以及输出层，且注意力层中使用注意力生成模型，其包括输入模块、编码层和注意力生成模块以及输出模块；

所述编码层的编码器采用LSTM，通过所述注意力生成模型能够得到输出权重α为：

α＝soft max(tanh(h_t·W_i+b_i)+tanh(h_t-1·W_c+b_c)·W_α+b_α) (2)，

h_t为经编码层编码后的语义编码信息，W_i、W_c、W_α、为网络训练参数、b_i、b_c、b_α为偏置；

根据得到的词向量与句向量的输出权重，即可得到词向量带权重的输出向量H以及句子要点向量带权重的输出向量Hc。

进一步地，步骤4所述的拼接向量的拼接公式为：

H_f＝λ·H+(1-λ)·Hc (3)，

其中，λ为均衡因子，H_f为拼接向量。

进一步地，步骤5所述的所属类的概率的计算公式为：

p＝soft max(H_f) (4)。

本发明的有益效果是：

本发明提出的方法通过句子要点信息对文本的语义进行表述，能更全面的表示文本的语义信息，并在一定程度上增加了文本主体语义在分类中的影响力，能够更全面的表示文本的语义信息，解决传统文本分类中特征稀疏的难题；再以长短时记忆网络作为分类器学习，加入注意力模型，对网络输出权重进行调整，可以有效提高文本分类的准确性。

附图说明

图1为传统的LSTM-Attention结构图；

图2为本发明中的引入要点的LSTM-Attention模型；

图3为本发明中的注意力生成模型图；

图4为本发明中的要点信息抽取结果的示例图；

图5为实施例中均衡因子λ取不同值时的分类结果；

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案，下面结合附图和实施例对本发明的技术方案做进一步的描述。

本发明的核心思路为：通过提出一种句子要点信息提取方法，利用该方法更全面的表示文本的语义信息，解决传统文本分类中特征稀疏的问题；再通过要点信息对文本的语义进行表述，丰富特征语义信息，以长短时记忆网络作为分类器学习，加入注意力模型，对网络输出权重进行调整，最终提高文本分类的准确性。

1、引入要点信息的LSTM-Attention模型

为充分利用句子中的语义信息，本发明利用句子信息要点对传统的LSTM-Attention模型进行改进，将要点事件融入到模型中去，通过训练模型使得模型自动获取词、句子要点信息与文本类别之间的关系，最终通过词向量与句子要点向量输出的拼接方法，从而实现精准文本分类。

(1)传统的LSTM-Attention模型

基于注意力机制的LSTM模型是指将注意力机制引入到LSTM模型中，其基本结构如附图1所示。从图中可以看出：其包含输入层(双向LSTM层)、Attention机制层(注意力机制)和输出层(softmax)结构；其中，双向LSTM层，从前向和后向两个方向对输入层送来的数据进行训练；Attention机制层是先计算每个时序的权重，然后将所有时序输出的向量进行加权和作为输出向量，送给输出层。

此时的输出向量H为：

其中，α_i为对所有时刻注意力通过softmax函数进行规一化后得到的权重，其计算式为：

其中，V，W为注意力网络模型中的参数，b为偏置，V·tanh(h_iW+b)为i时刻隐藏状态的得分，为了防止过拟合，本发明采用Dropout方法来防止过拟合。

(2)引入句子要点信息的LSTM-Attention模型

本发明构建了引入句子要点信息的LSTM-Attention模型，其是在上述的LSTM-Attention模型的基础上，增加一个与句子要点相关联的连接，所述的引入要点信息的LSTM-Attention模型的基本结构如附图2所示。从图中可以看出，其包含词向量LSTM-Attention模型和句子向量LSTM-Attention模型，其中词向量LSTM-Attention模型包括输入层(双向LSTM网络)且输入的是词向量，Attention机制层(注意力机制)和输出层(softmax)结构，其最终输出的是带权重的词向量H；而句子向量LSTM-Attention模型包括输入层(双向LSTM网络)、Attention机制层(注意力机制)和输出层(softmax)结构，其输入的是句子向量，最终输出的是带权重的句子向量Hc，最后将词向量和句子要点向量得到的计算结果进行拼接，根据词向量和句向量计算结果所占的比重计算最终结果，得到属于类的概率。

基于引入要点信息的LSTM-Attention模型的文本分类方法包括以下步骤：

步骤1：输入带分类的文本信息；

步骤2：对文本进行分词和词性标注，得到词向量X＝(x₁,x₂,…,x_m)，依据分词结果抽取句子要点信息，并利用PV-DM方法生成句子要点向量Core＝(c₁,c₂,…,c_m)；

步骤3：分别对词向量和句子要点向量构建LSTM-Attention网络并进行学习训练，得到矩阵权重、偏移量等网络训练参数，最后得到输出向量Hc和H；

其中，在注意力生成模型中的编码器选择LSTM，此处的LSTM仅用于注意力生成模型中，与引入要点信息的LSTM-Attention模型中的LSTM分类器无关。本发明的注意力生成模型如附图3所示。根据附图3可知，设输入为S＝(s₁,s₂,…,s_t)，则经编码层后得到的语义编码可以表示为：h_t＝f(U·s_t+W·h_t-1+b)，再结合LSTM网络的计算，可以得到权重为：

α＝soft max(tanh(h_t·W_i+b_i)+tanh(h_t-1·W_c+b_c)·W_α+b_α) (2)，

其中，h_t为经编码层编码后的语义编码信息，W_i、W_c、W_α、为网络训练参数、b_i、b_c、b_α为偏置；

利用上述的注意力生成模型分别能得到词和句子的注意力权重，继而得到带权重的输出H和Hc。

步骤4：对词向量和句子要点向量得到的计算结果进行拼接，得到拼接向量，根据词向量和句向量计算结果所占的比重计算最终结果，得到属于类的概率。其中，拼接公式为：

H_f＝λ·H+(1-λ)·Hc (3)，

其中，λ为均衡因子，H_f为拼接向量；

步骤5：通过计算所述拼接向量所占的比重从而得到的归属类的概率p为：

p＝softmax(H_f) (4)；

最终，通过p得到最终的文本分类结果并输出。

2、句子要点抽取算法

句子要点信息是指能反应句子主体语义的成份，是在不改变原句子语义信息的基础上，对句子的一个浓缩。通常情况下，规范性文本的句子相对较长，上下文衔接紧凑，结构完整，语法规范，句子中常常会出现一些承上启下的句子，如“总得来说”、“有专家认为”等，这类用语与文本或句子的主题相关性小，会给文本分析带来冗余，对其进行分析会产生较大的代价，故而在对文本操作过程中，应当尽量避免此类情况。

为了减少在文本段落向量构造过程中出现过多冗余的现象，本发明提出一种引入句子要点的句子表示方法。该方法包括以下步骤：

首先，对文本句子进行分词操作，得到分词后的结果，然后根据分词结果中词的词性、位置等信息对提取出句子的要点信息，抽取出的要点信息如附图4所示的例子。

其次，利用PV-DM方法构造句子要点信息向量，通过将文本的段落矩阵与段落中的词向量进行矩阵拼接；

最后，将拼接后的向量作为神经网络学习的输入，在网络学习训练时，利用当前输入预测下一词，并将下一词出现的最大似然估计作为目标，采用随机梯度下降的方法训练网络参数，最终得到长度一定的段落向量(也称为句子向量)。

表1为上述句子要点信息抽取算法的实现伪代码，其中，集合N、V、R为词性集合，分别表示为：

N＝{n,nr,nr1,nr2,nrj,nrf,ns,nsf,nt,nz,nl,ng}；

V＝{v,vd,vn,vshi,vyou,vf,vx,vi,vl,vg}；

R＝{r,rr,rz,rzt,rzs,rzv,ry,ryt,rys,ryv,rg}；

表1句子要点信息抽取算法

根据句子中词的词性对句子成份进行筛选，只留下能表示句子核心要点的部分，可以大大地减少句子中的冗余，并且不改变句子要表达的语义信息，能够提高后续可操作性。

实施例：

为了验证本文提出的引入要点信息的LSTM-Attention分类方法的可行性，本发明对其进行了仿真实验验证。

1、实验环境和配置

本仿真实验在Anaconda3.7、Keras、Jieba、Gensim上运行。

2、数据来源

本仿真实验所使用的实验数据来自于搜狗语料库——搜狐新闻数据(Sogou CS)，该数据收集来自搜狐新闻2012年6月至7月期间国内、国际、社会、娱乐等18个频道的新闻数据，包含的数据有：URL、标题、正文内容等，可从搜狗实验室下载得到格式为.dat的数据包，大小为1.43GB。且其中的参数设定为：词向量维度100，句向量维度100维，Attention中的LSTM隐藏层单元个数为100，编码层中LSTM隐藏单元个数为200，池化层2层，初始学习率匀为0.001，动量为0.95，Dropout设置为0.4。

3、效果评估指标

在对NPL处理时的分析指标主要有准确率、召回率和F1值。其中，准确率是检验方法的查准率，召回率是检验方法的查全率，F1值是查准率与查全率的综合值。

4、实验过程

首先，设定实验中的参数为：词向量维度100，句向量维度100维，Attention中的LSTM隐藏层单元个数为100，编码层中LSTM隐藏单元个数为200，池化层2层，初始学习率匀为0.001，动量为0.95，Dropout设置为0.4；

其次，需要确定上述模型中均衡因子λ的取值，在语料库中从经济、科技、体育、娱乐四个频道各取1000篇，800篇训练，200篇测试，记录不同均衡因子λ取值情况下实验的F1值，F1值结果如附图5所示。从附图5可知，在λ≤0.5的情况下，随着λ的不断增加，实验的F1值逐步提升，说明词向量对于文本分类的影响是十分重要的；当λ≥0.8时，实验的F1值逐步下降，这说明，词向量虽然对文本分类的影响是重要的，但并不是越多越好，当中考虑词向量的时候，会忽略掉文本中一些与文本类别相关的联系；并且可以发现，词向量对文本分类的影响要高于句向量。观察可知，实验F1值最高时，λ的取值为0.7；

再次，剩余的800篇文本进行分类实验，得到的结果如表2所示。

表2引入要点信息的LSTM-Attention

文本分类结果

表2中的每一行表示文本真实类别，列为通过实验得到的实验类别。

最后，将本发明提出的引入要点的LSTM-Attention模型与利用基于词向量的LSTM-Attention模型、基于句向量的LSTM-Attention模型进行对比实验，实验得到的平均准确率、召回率、F1值如表3所示。

表3对比实验结果

从表3可知：基于句向量的LSTM-Attention模型的实验效果最差，这是因为虽然该方法考虑了文本的语义信息，但在句向量提取过程中过滤掉过多的有用信息；引入要点信息的LSTM模型有效结合了词向量和句向量的优点，相比于基于词向量的LSTM-Attention模型，实验结果有明显改善，在加入了注意力机制后，其准确率得到了进一步提升。通过表3，可以发现，引入要点信息的LSTM-Attention模型在文本分类过程中的平均准确率、召回率、F1值要明显优于其他几种方法。

在引入要点信息的LSTM-Attention的文本分类方法(方法1)中，首先需要对句子进行化简之后才能得到对应的句向量，为验证该步骤的有效性，与不对句向量预先进行化简而直接利用PV-DM方法将其转化为句向量的方法(方法2)进行对比，实验结果如表4所示。

表4句向量化简步骤的对比实验结果

从表4可知，引入要点信息的方法在准确率、召回率和F1值上要优于未经化简的方法，这说明提取要点信息的方法相比于直接操作的方法可以有效去除句子中的冗余成份，增加句子主体成份(语义)在分类中的比重。虽然，引入要点信息的LSTM-Attention方法在构建句向量时，去掉了部分可能与类别相关的词，但是在分类过程中所使用的词向量在一定程度上能够弥补句子化简所导致的成份丢失。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种引入要点信息的LSTM-Attention文本分类方法，其特征在于，包括以下步骤：

步骤1：输入待分类的文本信息；

步骤2所述的提取方法包括：

步骤22：根据分词位置和词性信息提取出句子的要点信息；

步骤23：利用PV-DM方法构造句子要点信息向量；

所述引入句子要点信息的LSTM-Attention模型包括：双向LSTM输入层、注意力层以及输出层，且注意力层中使用注意力生成模型，其包括输入模块、编码层和注意力生成模块以及输出模块；

α＝softmax(tanh(h_t·W_i+b_i)+tanh(h_t-1·W_c+b_c)·W_α+b_α) (2)，

根据得到的词向量与句向量的输出权重，即可得到词向量带权重的输出向量H以及句子要点向量带权重的输出向量Hc；

步骤4：将得到的输出向量Hc和H进行拼接，得到拼接向量；

2.根据权利要求1所述的引入要点信息的LSTM-Attention文本分类方法，其特征在于，步骤4所述的拼接向量的拼接公式为：

H_f＝λ·H+(1-λ)·Hc (3)，

其中，λ为均衡因子，H_f为拼接向量。

3.根据权利要求1所述的引入要点信息的LSTM-Attention文本分类方法，其特征在于，步骤5所述的所属类的概率的计算公式为：

p＝softmax(H_f) (4)。