CN109670164A

CN109670164A - 基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法

Info

Publication number: CN109670164A
Application number: CN201810319393.0A
Authority: CN
Inventors: 陈雷霆; 李巧平; 陈秋生; 温洋; 刘薇; 徐安
Original assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Dongguan Diesel Software Technology Co Ltd
Current assignee: Guangdong Institute Of Electronic And Information Engineering University Of Electronic Science And Technology Of China; Dongguan Diesel Software Technology Co Ltd
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2019-04-23
Anticipated expiration: 2038-04-11
Also published as: CN109670164B

Abstract

本发明公开了一种基于深层多词嵌入Bi‑LSTM残差网络的健康舆情分析方法，涉及信息技术领域，该基于深层多词嵌入Bi‑LSTM残差网络的健康舆情分析方法通过改进Bi‑LSTM网络，结合多词嵌入以及残差网络方法，提高了网络的鲁棒性，使之能够对复杂舆情文本进行处理，得到了很好的效果，从而提高其分类器的分类精度。

Description

基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法

技术领域

本发明涉及信息技术领域，特别涉及一种基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法。

背景技术

网络舆情分析是结合了包括互联网信息监测、舆情态势分析、舆论环境研究、网络危机处置和互联网信息监测在内的一种新兴技术。通过及时监测、收集网上相关的舆论信息，加以分析后做出决策，对维护公共秩序和稳定起到重要的作用。

研究表明，网络的深度是实现好的效果的重要因素。然而梯度弥散/爆炸成为训练深层次的网络的障碍，导致无法收敛。有一些方法可以弥补，如归一初始化，各层输入归一化，使得可以收敛的网络的深度提升为原来的十倍。然而，虽然收敛了，但网络却开始退化了，即增加网络层数却导致更大的误差。此外，现有深度学习模型多是仅使用一个预训练的词向量作为网络输入，局限了网络能够学习的特征空间。预训练词向量是由有限量的语料训练得到的，因此对于不同的文本语料其表现会有较大浮动。

发明内容

本发明所要解决的技术问题是提供一种基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法，通过对Bi-LSTM模型进行改进，引入深度残差网络，使网络在深度上能够大大增加。通过引入多个词向量，使得网络能够同时从多个特征空间学习，提高网络鲁棒性。

为实现上述目的，本发明提供以下的技术方案：

该基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法通过各种渠道收集大量的文本语料，进行预处理和分词后，得到文档和词语数据，使用Word2Vec，Glove，FastText等新型词向量训练工具进行词向量训练，得到多个预训练词向量，整个深度神经网络由多个子网络构成，对于每一个子网络而言，其结构相同，但使用不同的预训练词向量，将多个子网络的输出通过Attention机制进行提取拼接后，作为全连接层的输入，并在网络末端将全连接层的输出作为sigmoid层的输入，用于最后的分类，此外，区别于直接将上一层Bi-LSTM的输出直接作为下一层Bi-LSTM的输入，将上一层Bi-LSTM的输出与上上一层Bi-LSTM的输出进行加和计算，将加和结果作为下一层Bi-LSTM层的输入，从而将人工神经元残差随网络传递，达到防止网络退化的目的。

该基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法的具体步骤如下：

Step1：对舆情文本数据进行预处理，填补缺失值；

Step2：使用不同的语料分别训练多个词向量；

Step3：利用keras搭建适用于文本数据的Bi-LSTM网络；

Step4：使用残差连接方法加深Bi-LSTM网络，引入多个词向量同时进行训练；

Step5：通过实验对比本专利改进过后的深层多词嵌入Bi-LSTM残差网络(ours)和传统单词嵌入的Bi-LSTM、未使用残差连接的深层Bi-LSTM网络、未使用多词嵌入的深层Bi-LSTM残差网络对舆情文本数据的分类效果，从准确率的角度上验证改进的深层多词嵌入Bi-LSTM残差网络的有效性。

采用以上技术方案的有益效果是：经过该基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法改进过后的深层多词嵌入Bi-LSTM残差网络模型分类准确率皆明显高于其他三个模型，对数损失值明显更低，并且随着迭代次数的增加，改进过后的深层多词嵌入Bi-LSTM残差网络模型始终优于其他三个模型。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的描述。

图1是循环神经网络(RNN)原理图；

图2是Bi-LSTM的结构图；

图3是shortcut连接原理图；

图4是五个模型分类效果比较曲线图；

图5是深层多词嵌入Bi-LSTM残差网络结构图。

具体实施方式

下面结合附图详细说明本发明基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法的优选实施方式。

图1至图5出示本发明基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法的具体实施方式：

文本情感分类作为网络舆情分析中的核心环节，对于舆情的分析和预测具有非常重要的作用，尤其是面向复杂的中文文本舆情时，中文文本情感分类的准确率的高低直接影响着舆情分析的成败。

应用传统方法的中文文本情感分类研究主要围绕浅层学习的词典建模分析和机器学习算法推演而开展，其存在着两大缺陷：一是对于有限数据不具备表征复杂函数的能力，因此涉及复杂分类时其泛化能力将会受到限制；二是通常依靠人工来抽取样本特征，但是人工特征选取非常费时费力，并且不能保证特征的质量。

深度学习方法能够解决传统方法的诸多弊端，其具备两大优势：一是构造深层非线性网络结构，使得深度学习能够在大量样本集中自主学习得到数据集的本质特征，即能够对复杂的中文数据进行组合从而拟合文本信息，达到非线性提取文本特征的目的；二是充分利用海量训练数据，在巨量数据下只有具备复杂结构的模型才能够对数据进行充分的拟合和分析，进而挖掘出数据中隐含的有价值信息。在文本分类领域中，深度学习能自动从大量样本中学习到文本语义信息，并进行特征表示，从而实现具体的计算任务。因此，深度学习的引入是中文文本情感分类和舆情分析的又一个有力工具。

如图1所示，循环神经网络(RNN)是一种对序列数据建模的神经网络，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。RNN与普通神经网络的不同之处在于其允许我们对向量的序列进行操作：输入可以是序列，输出也可以是序列，在最一般化的情况下输入输出都可以是序列。

Long Short-Term Memory Neural Network——一般就叫做LSTM，是一种RNN特殊的类型。LSTM由Hochreiter&Schmidhuber(1997)提出，并在近期被Alex Graves进行了改良和推广。在很多问题上，LSTM都取得相当巨大的成功，并得到了广泛的使用。LSTM通过刻意的设计来避免梯度消失问题，并且能够记住长期的信息，在实践中，LSTM只需要付出很小的计算代价就能获得比RNN更好的效果。Bi-directional LSTM(Bi-LSTM)是LSTM的一种网络结构，能够使网络同时学习到历史以及未来的文本依赖信息，实践上能够提升LSTM的表现。Bi-LSTM的结构图如图2所示。

深度残差网络在2015年首先被提出。作者根据输入将层表示为学习残差函数。实验表明，残差网络更容易优化，并且能够通过增加相当的深度来提高准确率。核心是解决了增加深度带来的副作用(退化问题)，这样能够通过单纯地增加网络深度，来提高网络性能。相比于传统的深度网络，残差网络在结构上引入了shortcut连接，如图3所示。

传统的文本处理方法一般以词为基本特征，将词表示为二进制编码的向量，该向量的维度等于词表的长度，向量中的元素仅有一个值为1，代表该词在辞典里的位置，其他值均为0。使用这种方式表示的词向量不仅向量维度高、特征稀疏，难以计算，而且任意两个词之间相互独立，无法正确捕捉到隐含在词语之间的语义及词法关联。而且由于维度过高，使得其用于神经网络训练变得十分困难，甚至是不可行的。

分布式词向量的出现使得将词向量用于深度网络学习成为可能。分布式词向量将词语表示为一个浓密的、低维的实值向量，该向量的每个维度都代表了词语的一个特征属性，各向量之间只需进行简单的余弦计算即可挖掘出词语间的各种关联。该方法最初由美国的Bengio推广，采用一个具有三层结构的神经网络搭建语言模型，通过计算一个句子中第N+1个词出现在已知的前N个词下的条件概率，并最小化其与真实概率分布值之间的误差项来对模型进行优化。由于存在隐藏层，该方法的训练时间较长。

如图5所示，词向量的预训练存在语料和模型上的差异，而这些差异正是提高模型鲁棒性的关键。首先，通过各种渠道收集大量的文本语料，进行预处理和分词后，得到文档和词语数据。使用Word2Vec，Glove，FastText等新型词向量训练工具进行词向量训练，得到多个预训练词向量。

整个深度神经网络由多个子网络构成。对于每一个子网络而言，其结构相同，但使用不同的预训练词向量。将多个子网络的输出通过Attention机制进行提取拼接后，作为全连接层的输入，并在网络末端将全连接层的输出作为sigmoid层的输入，用于最后的分类。

此外，区别于直接将上一层Bi-LSTM的输出直接作为下一层Bi-LSTM的输入，将上一层Bi-LSTM的输出与上上一层Bi-LSTM的输出进行加和计算，将加和结果作为下一层Bi-LSTM层的输入，从而将人工神经元残差随网络传递，达到防止网络退化的目的。

具体步骤如下：

Step1：对舆情文本数据进行预处理，填补缺失值。

Step2：使用不同的语料分别训练多个词向量。

Step3：利用keras搭建适用于文本数据的Bi-LSTM网络。

Step4：使用残差连接方法加深Bi-LSTM网络，引入多个词向量同时进行训练。

表1五个模型分类效果比较

由表1和图4可看出，在同一数据集下，本专利改进过后的深层多词嵌入Bi-LSTM残差网络模型分类准确率皆明显高于其他三个模型，对数损失值明显更低，并且随着迭代次数的增加，改进过后的深层多词嵌入Bi-LSTM残差网络模型始终优于其他三个模型。

以上的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法，其特征在于：所述基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法通过各种渠道收集大量的文本语料，进行预处理和分词后，得到文档和词语数据，使用Word2Vec，Glove，FastText等新型词向量训练工具进行词向量训练，得到多个预训练词向量，整个深度神经网络由多个子网络构成，对于每一个子网络而言，其结构相同，但使用不同的预训练词向量，将多个子网络的输出通过Attention机制进行提取拼接后，作为全连接层的输入，并在网络末端将全连接层的输出作为sigmoid层的输入，用于最后的分类，此外，区别于直接将上一层Bi-LSTM的输出直接作为下一层Bi-LSTM的输入，将上一层Bi-LSTM的输出与上上一层Bi-LSTM的输出进行加和计算，将加和结果作为下一层Bi-LSTM层的输入，从而将人工神经元残差随网络传递，达到防止网络退化的目的。

2.根据权利要求1所述的基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法，其特征在于：所述基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法的具体步骤如下：

Step1：对舆情文本数据进行预处理，填补缺失值；

Step2：使用不同的语料分别训练多个词向量；

Step3：利用keras搭建适用于文本数据的Bi-LSTM网络；