CN111859955A

CN111859955A - 一种基于深度学习的舆情数据分析模型

Info

Publication number: CN111859955A
Application number: CN202010634923.8A
Authority: CN
Inventors: 况丽娟; 管亦铮; 戴宪华
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-30

Abstract

本发明涉及一种基于CNN‑LSTM的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本分析方法，该方法包括获取海量待测网络文本数据，首先将待测网络文本数据经预处理之后输入LSTM‑CNN神经网络,LSTM‑CNN不仅利用了经典的文本序列处理方法长短期记忆网络，得到表征上下文的向量，CNN进一步提取到更高维、有效的特征，接着将特征送入softmax进行多分类，从而得到文本的情感正负向，其次结合基于词嵌入的textrank算法，将所输入的文本数据分割成句子构建图模型，计算句子之间的相似度，作为边的权值。通过计算句子得分，将得到的句子得分进行倒序排序，抽取重要度最高的几个句子作为候选文摘句。最后结合分析结果用报告的形式展示。这种多任务处理文本数据的模型使得舆情监测结果可以获得高准确率和高效率，还利用了两种神经网络训练提高了文本分析精度。

Description

一种基于深度学习的舆情数据分析模型

技术领域

本发明涉及网络舆情文本数据处理领域，尤其是一种基于CNN-LSTM的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本数据分析方法。

背景技术

网络舆情是指民众通过常用的互联网交流渠道，如新闻网站、微博、知乎、豆瓣网等方式进行对社会热点话题进行讨论的一种网络方式，其主要有传播便捷、速度快等的特点。

在大数据时代，网络媒体已深入到人们的日常生活。舆情监测通过对互海量信息运用自动化工具抓取、情感分类、新闻专题关注，形成报告、图表等呈现趋势，达到对用户的舆情监测等。但现有的监测系统只是简单地对相关信息进行检索，难以及时发现舆论事件的发展趋势和热点话题，舆情数据处理效率低下。

深度神经网络在海量文本数据分析任务上表现优秀,循环神经网络可以很好地处理时间序列化的输入数据，卷积神经网络可以提取更多的特征，两者结合在处理复杂的大数据方面表现出强大的非线性能力。针对上述问题，可以利用深度学习进行文本数据分析，从而更智能、高效的完成此任务。

发明内容

针对上述问题及技术需求，提出了一种基于CNN-LSTM的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本分析方法，该方法不仅利用了经典的文本序列处理方法长短期记忆网络(LSTM)，卷积神经网络(CNN)，以及结合基于词嵌入的textrank算法，从而实现了同时完成文本情感分析与摘要提取的多任务文本数据分析方法，挖掘海量数据生成有综合性的总结报告，提高了舆情数据处理效率。

本发明的技术方案如下：

一种基于CNN-LSTM的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本分析方法，该方法不仅利用了经典的文本序列处理方法长短期记忆网络(LSTM)，为提取到更高维、有效的特征多加了一个卷积神经网络(CNN)，softmax分类器以及结合基于词嵌入的textrank图模型，方法包括：

使用一个用2G语料库大小的wiki百科词汇训练得到词嵌入模型。这个模型可以为每个词建模，输出一个唯一的向量，并表征词汇之间的相似度或者距离，并根据上下文的语境来推断出每个词的词向量。

将文本生成的向量以时间序列输入到LSTM的encoder端，利用隐藏层保存文本中长期的依赖信息，信息在LSTM中会经过遗忘门、输入门、输出门最终输出。

信息通过遗忘门的sigmoid决定丢弃的信息，通过输入门的sigmoid和tanh来决定更新值和候选值，通过输出门的sigmoid来得到初始输出，再用tanh将值变换到-1至1，最后与sigmoid的输出值一一相乘，获取模型最终的输出。利用LSTM对数据进行过滤、筛选和细胞状态更新，并防止梯度爆炸。

将LSTM输出的向量扩充为卷积对应的格式，经过CNN的卷积、池化提取到更高维、有效的特征再输入到softmax层进行分类并输出结果。

选取训练样本集，所述训练样本集中包括若干个样本文本和每个所述样本文本的情感正向，负向，中性标签。保持所述神经网络的网络结构的参数为读取到的所述基础网络参数，利用所述训练样本集对所述神经网络的基础网络参数进行训练。

选取训练样本集训练时需要对输入的文本数据进行预处理，需要利用停用词表，主要是对文本进行去停用词、去标点符号、去敏感词、结巴分词。

根据word2vector训练所得的词向量表，将文本数据转化为词向量。

将文本数据用特征向量表征后用卷积神经网络CNN提取到更高维特征；将所述特征向量输入softmax分类器中进行具体分类,确定所述特征向量对应的类别并输出分类结果；

在对情感分类的同时可以将文本数据利用textrank算法提取文摘，textRank算法是一种用于文本的基于图的排序算法，首先将把文本数据分割成许多组成单元如一个个句子，在此基础上建立图模型。再用投票机制对文本数据中的重要句子进行排序,用所述方法即可以利用文档本身的信息来进行关键词提取以及文摘生成。

textRank模型能够抽象为有向的有权图G＝(V,E),具体是由由句子集合V和边集合E组成。有向有权图中的任意两点之间的边的权重为wji,对于任意一个给定的句子节点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。

textrank的处理过程是选取一定数量的样本文本集进行计算。首先，将文本分割成句子，T＝[s1,s2,...sn].其中需要对句子分词，去除停用词。其次，将处理过的句子构建图G＝ (V，E).其中V是句子集，E是句子的边集，需要根据公式

计算句子之间的相似度，若两个句子的相似度大于给定的阈值，就将它们用边连接起来构建边集E。最后，计算边集的权重值，所述相似度即为边的权值w_ji＝similarity(s_i,s_j)。

得到权重之后用公式

计算任意句子节点Vi的得分，其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定节点指向其他任意节点的概率,通常设为0.85。根据构建的图模型利用所述公式w_ji＝similarity(s_i,s_j)计算句子权重，再将所得权重代入公式迭代计算出所有句子的得分。

利用投票机制将得到的句子得分倒序排序，再抽取得分最高最高的几个句子作为候选文摘句子。根据句子数要求，从候选文摘句子中抽取所需数目的句子形成文摘,同时采用 rouge-n评价指标，rouge越大，召回率越高，可用来衡量自动生成的摘要与参考摘要之间的相似度。

本发明的有益技术效果是：

1、本申请公开了一种基于CNN-LSTM的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本分析方法，该方法不仅利用了经典的文本序列处理方法长短期记忆网络(LSTM)，为提取到更高维、有效的特征多加了一个卷积神经网络(CNN)，以及结合基于词嵌入的textrank算法，从而实现了同时完成文本情感分析与摘要提取的多任务文本数据分析方法，挖掘海量数据生成有综合性的总结报告，提高了舆情数据处理效率。

2、增加CNN，结合了特征的语意信息，减少了文本情感分类出错的的概率。网络结构通过减少层数进一步优化，防止模型过拟合。

3、在神经网络训练时同时用图模型处理文本来获取摘要，提高了模型的效率，丰富了系统的功能，TextRank不需要事先对多篇文档进行学习训练,简洁有效。

附图说明

图1是本申请中的舆情监测系统的框图。

图2是本申请中的舆情文本数据示意图。

图3是本申请中的基于CNN-LSTM的模块分析流程图

图4是基于word2vector的textrank分析流程图。

图5是模型最终展示效果。

具体实施方式

下面结合附图对本发明做进一步的说明。

本申请中公开了一种基于CNN-LSTM的文本情感分析和基于word2vector的textrank摘要自动提取的多任务的文本分析方法，其中文本数量多，内容复杂，包括各个方面的问答、评论，而且有些言论态度、文章主旨不明确，本发明中的文本数据处理模型包括卷积神经网络(CNN)、长短期记忆网络(LSTM)和softmax分类器,以及word2vector词嵌入模型和textrank摘要提取模型。

本发明公开的方法是一种用于舆情监测系统的文本数据分析方法，数据获取与分析的主要流程与结构参考图1。所述方法结合了CNN-LSTM对舆情文本和情感分析和用textrank进行摘要提取，因此本发明分为两部分，第一部分是文本的情感分析部分，主要流程参考图3，第二部分是文本的摘要提取部分，主要流程参考图4。

第一步：用2G语料库大小的wiki百科词汇输入到gensim库中的word2vector词嵌入模型进行词向量的训练。

第二步：构建LSTM和CNN神经网络架构，将两者结合起来形成端到端的神经网络结构。要注意的是，将LSTM输出的向量扩充为卷积对应的格式再输入到卷积神经网络，保证维度的一致。经过CNN的卷积、池化提取到更高维、有效的特征再输入到softmax层进行分类。

第三步：输入一定数量文本数据集训练LSTM-CNN模型。将数据库中的文本数据做好正向(+1)、中性(0)、负向(-1)的标注，按照5:1:1划分训练集、测试集、验证集. 将文本数据转化为词向量的后送入神经网络入口，训练10000轮观察baseline模型结果。根据loss，accuracy，recall和precision的数值进行调整、优化模型参数，直到得到最优解，模型训练成功并保存。

第四步：利用模型预测。获取未标注的数据集，将文本数据转化为词向量的形式，送入训练好的模型入口，得到预测结果。训练出合适的模型后会自动保存，因此预测模型这部分每次只需使用已训练好的模型。

第五步：统计预测结果中正向、负向、中性数据的总条数，并写入数据库保存。

第六步：使用基于textrank生成自动文摘时需要在预处理将文本分割成句子，对句子分词，去除停用词。利用所有的句子构建图G＝(V，E)。其中，V是句子集；根据公式

计算句子之间的相似度，构建边集E，计算的相似度即为边的权值：w_ji＝similarity(s_i,s_j)。

第七步：根据构建的图模型计算得到句子权重后根据公式

(其中d为阻尼系数,取值范围为0到1)迭代传播权重计算各句子的得分。

第八步：利用投票机制将得到的句子得分倒序排序，再抽取得分最高最高的几个句子作为候选文摘句子。根据句子数要求，从候选文摘句子中抽取所需数目的句子形成文摘。

第九步：整合情感分析的结果和提取的摘要，整理成报告形式展示。主要展示形式参考图5。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其它改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种基于LSTM-CNN的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本分析方法，其特征在于，所述方法包括词嵌入模型word2vector，LSTM，CNN，softmax分类器，textrank算法，所述方法包括：

使用一个用2G语料库大小的wiki百科词汇训练得到的Word2vector模型。用这个模型为每个单词建模，输出一个唯一的向量，并表征词汇之间的相似度。

将得到的词向量以时间序列输入到LSTM的encoder端，利用隐藏层保存文本中的依赖信息，信息在LSTM中会经过遗忘门、输入门、输出门最终输出。利用LSTM对数据进行过滤、筛选和细胞状态更新，并防止梯度爆炸。

将LSTM输出的向量扩充为卷积对应的格式，经过CNN的多层卷积、池化可以提取到更高维、有效的特征，再输入到softmax层进行分类并输出结果。

2.根据权利要求所述的方法，其特征在于，选取训练样本集，所述训练样本集中包括若干个样本文本和每个所述样本文本的情感正向，负向，中性标签。保持所述神经网络的网络结构的参数为读取到的所述基础网络参数，利用所述训练样本集对所述神经网络的基础网络参数进行训练。对输入数据预处理，利用停用词表，主要是对文本进行去停用词、去标点符号、分词。根据词向量表，将文本数据转化为词向量。将文本数据用特征向量表征后用CNN提取到更高维特征；将所述特征向量输入所述分类器中进行具体分类,确定所述特征向量对应的类别并输出分类结果。

3.根据权利要求1或2所述的方法，其特征在于,在对情感分类的同时可以将文本数据输入到textrank网络提取文摘，选取一定的样本集进行预处理，先将文本分割成句子，对句子分词，去除停用词。将所有句子构建图G＝(V，E)。其中，V是句子集，E是句子的边集。

4.所述方法还包括：计算句子之间的相似度来构建边集E，要求两个句子之间的相似度大于给定的阈值才用边将它们连接起来，相似度即边的权值。根据构建的图模型计算句子权重：w_ji＝similarity(s_i,s_j)，其中

5.根据权利要求3所述的方法，其特征在于，所述方法还包括:根据计算公式

迭代传播权重计算各句子的得分。将得到的句子得分进行倒序排序，抽取重要度最高的几个句子作为候选文摘句。根据字数或句子数要求，从候选文摘句中抽取句子组成文摘。