CN113626672A

CN113626672A - 基于rcnn网络的舆情分析方法及系统

Info

Publication number: CN113626672A
Application number: CN202110217620.0A
Authority: CN
Inventors: 何学智; 王家逸; 林林
Original assignee: Newland Digital Technology Co ltd
Current assignee: Newland Digital Technology Co ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-11-09

Abstract

本发明公开了一种对舆情信息分类精准的舆情分析方法及系统，本发明的技术方案为：基于RCNN网络的舆情分析方法，包括以下步骤：S1：通过爬虫技术爬取各大门户论坛的文本语料并进行预处理，生成语料集；S2：构建分类网络模型，包括以下步骤：词嵌入层，将输入的语料信息构建成词向量；双向LSTM网络，用于获得词向量的上下文信息并输出；RCNN网络，将双向LSTM网络的输出以及词向量进行拼接，在RCNN网络的深层加入单向LSTM网络，利用soft‑max输出分类结果；S3：利用语料集对分类网络模型进行训练与优化；S4：基于训练完成的分类网络模型，输出舆情数据的情感标签。

Description

基于RCNN网络的舆情分析方法及系统

技术领域

本发明涉及人工智能领域，特别涉及一种基于RCNN网络的舆情分析方法及系统。

背景技术

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕事件的发生、发展和变化，群众对其产生和持有的社会态度。网络舆情是社会舆情在互联网空间的映射，是社会舆情的直接反映。网络舆情主要以网络为载体，事件为核心，是广大网民情感、态度、意见、观点的表达。

随着互联网信息量的不断增大，对网民舆情的提取、归纳也成为了高效处理互联网信息的重要手段。网络传媒作为一种新的信息传播方式，深入人们的日常生活。网民的言论活跃已达到很高的程度，不论是国内还是国际重大事件，都能马上形成网上舆论，通过网络来表达观点、传播思想，进而形成舆论压力，对任何部门、机构都是无法忽视的。舆情分析系统针对互联网类新兴媒体，通过舆情分析系统，相关部门可以及时了解网络舆情动态，关注网络舆情的状态，从而产生舆情预警，及时纠正或引导网络上的负面舆情影响，或是得到舆情的整体状况，从而根据舆情状况修改决策。

目前，一些舆情分析方案采用了舆情分析中自然语言处理中的深度学习算法，将文本数据通过模型训练，通过模型实现语义分析任务如情感分析、新闻标签分析、态度分析等，因此，对文本分类型任务的网络模型设计在舆情分析的应用中至关重要。

发明内容

本发明要解决的技术问题是提供一种对舆情信息分类精准的舆情分析方法及系统，本发明的技术方案为：

基于RCNN网络的舆情分析方法，包括以下步骤：

S1：通过爬虫技术爬取各大门户论坛的文本语料并进行预处理，生成语料集；

S2：构建分类网络模型，包括以下步骤：

词嵌入层，将输入的语料信息构建成词向量；

双向LSTM网络，用于获得词向量的上下文信息并输出；

RCNN网络，将双向LSTM网络的输出以及词向量进行拼接，在RCNN网络的深层加入单向LSTM网络，利用soft-max输出分类结果；

S3：利用语料集对分类网络模型进行训练与优化；

S4：基于训练完成的分类网络模型，输出舆情数据的情感标签。

其中，所述将双向LSTM网络的输出以及词向量进行拼接的输出表示为：

其中，

和

分别为双向LSTM两个方向的输出，embedding为词嵌入层的输出。

其中，所述网络模型的优化方法选用Adam算法，采用采用交叉熵损失作为损失函数。

第二方面，本发明提供一种基于RCNN网络的舆情分析系统，包括：

数据获取模块，通过爬虫技术爬取各大门户论坛的文本语料并进行预处理，生成语料集；

分类模块，用于将语料集输入训练完成的分类网络模型中，输出舆情数据的情感标签；所述训练完成的分类网络模型包括：词嵌入层，将输入的语料信息构建成词向量；双向LSTM网络，用于获得词向量的上下文信息并输出；RCNN网络，将双向LSTM网络的输出以及词向量进行拼接，在RCNN网络的深层加入单向LSTM网络，利用soft-max输出分类结果。

第三方面，本发明提供一种基于RCNN网络的舆情分析方法，其特征在于：包括以下步骤：

S2：构建分类网络模型，包括以下步骤：

词嵌入层，将输入的语料信息构建成词向量；

双向LSTM网络，用于获得词向量的上下文信息并输出；

S3：利用语料集对分类网络模型进行训练与优化；

S4：基于训练完成的分类网络模型，输出舆情数据的文本态度标签，包括正面标签和负面标签。

其中，将双向LSTM网络的输出以及词向量进行拼接的输出表示为：

其中，

和

分别为双向LSTM两个方向的输出，embedding为词嵌入层的输出。

第四方面，本发明提供一种基于RCNN网络的舆情分析方法，其特征在于：包括以下步骤：

S2：构建分类网络模型，包括以下步骤：

词嵌入层，将输入的语料信息构建成词向量；

双向LSTM网络，用于获得词向量的上下文信息并输出；

S3：利用语料集对分类网络模型进行训练与优化；

S4：基于训练完成的分类网络模型，输出舆情数据的新闻类别标签。

其中，

和

分别为双向LSTM两个方向的输出，embedding为词嵌入层的输出。

第五方面，本发明还提供一种基于RCNN网络的舆情分析系统，包括：

分类模块，用于将语料集输入训练完成的分类网络模型中，输出舆情数据的新闻类别标签；所述训练完成的分类网络模型包括：词嵌入层，将输入的语料信息构建成词向量；双向LSTM网络，用于获得词向量的上下文信息并输出；RCNN网络，将双向LSTM网络的输出以及词向量进行拼接，在RCNN网络的深层加入单向LSTM网络，利用soft-max输出分类结果。

采用上述技术方案，与现有技术相比，本发明具有如下有益效果：

本发明的分类网络模型结构上通过跨层连接，传递了embedding信息，将语音代入更深的模型，从而有效的解决了LSTM在较深的网络中梯度消失的问题；

采用本方案的分类网络模型，舆情数据的分类准确率得到较大的提升。

附图说明

图1为本发明分类网络模型结构图；

图2为本发明实施例1中舆情分析方法流程图；

图3为本发明实施例1中舆情分析系统结构示意图；

图4为本发明实施例3中舆情数据新闻分类数据集的部分数据截图；

图5为图4中的新闻分类数据在经过分类网络模型后输出的新闻类别标签；

图6为本发明实施例3中新闻分类数据经过分类网络模型后的准确率结果图。

其中，附图标记为：

1-数据获取模块、2-分类模块。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1

参见图1，本发明一种实施例提供一种基于RCNN网络的舆情分析方法，包括以下步骤：

S2：构建分类网络模型，参见图2，包括以下步骤：

词嵌入层embedding layer，将输入的语料信息构建成词向量；

双向LSTM网络bi-LSTM，用于获得词向量的上下文信息并输出；

RCNN网络，将双向LSTM网络的输出以及词向量进行拼接(向量拼接层)，在RCNN网络的深层加入单向LSTM网络，再经过最大池化层max-pool后，最终利用soft-max输出分类结果；

S3：利用语料集对分类网络模型进行训练与优化；

在神经网络中，随着隐藏层数的增加，数据的浅层信息很难向更深层传递，计算机视觉中的ResNet结构实现了神经网络特征信息的跨层传递，从而使得神经网络获得更好的性能，将计算机视觉中的思路应用于自然语言处理中的文本分类模型，得到改进后的RCNN模型，即本实施例中的分类网络模型。

优选的，所述将双向LSTM网络的输出以及词向量进行拼接的输出表示为：

其中，

和

分别为双向LSTM两个方向的输出，embedding为词嵌入层的输出。

优选的，单个LSTM网络的输出表示为：

Γ_u＝δ(W_u[a^＜t-1＞,x^＜t＞]+b_u),

Γ_f＝δ(W_f[a^＜t-1＞,x^＜t＞]+b_f),

Γ_o＝δ(W_o[a^＜t-1＞,x^＜t＞]+b_o),

Γ_u、Γ_f和Γ_o分别代表更新门、遗忘门以及输出门，a^＜t-1＞为上个神经元的隐藏状态。

优选的，所述网络模型的优化方法选用Adam算法，采用交叉熵损失作为损失函数。

另一方面，本发明还提供一种基于RCNN网络的舆情分析系统，包括：

数据获取模块1，通过爬虫技术爬取各大门户论坛的文本语料并进行预处理，生成语料集；

分类模块2，用于将语料集输入训练完成的分类网络模型中，输出舆情数据的情感标签；所述训练完成的分类网络模型包括：词嵌入层，将输入的语料信息构建成词向量；双向LSTM网络，用于获得词向量的上下文信息并输出；RCNN网络，将双向LSTM网络的输出以及词向量进行拼接，在RCNN网络的深层加入单向LSTM网络，利用soft-max输出分类结果。

实施例2

本实施例提供一种基于RCNN网络的舆情分析方法，其特征在于：包括以下步骤：

S2：构建分类网络模型，包括以下步骤：

词嵌入层，将输入的语料信息构建成词向量；

双向LSTM网络，用于获得词向量的上下文信息并输出；

S3：利用语料集对分类网络模型进行训练与优化；

其中，

和

分别为双向LSTM两个方向的输出，embedding为词嵌入层的输出。

实施例3

本发明另一实施例还提供一种基于RCNN网络的舆情分析方法，包括以下步骤：

S2：构建分类网络模型，包括以下步骤：

词嵌入层，将输入的语料信息构建成词向量；

双向LSTM网络，用于获得词向量的上下文信息并输出；

S3：利用语料集对分类网络模型进行训练与优化；

其中，

和

分别为双向LSTM两个方向的输出，embedding为词嵌入层的输出。

对本实施例中的分类网络在情感分类的具体表现与现有技术中的分类网络进行比对：

现有技术的方案，即RCNN网络：

1.embedding层，输入为(64,100,1)的训练数据，将每个分词表征为128维的词向量，该层输出为(64,128,128)的向量；

2.输入为(64,128,128)的向量，双向的LSTM，每个方向神经元为128个，输出为(64,128,128)的向量；

3.向量拼接层，将两个方向LSTM的输出进行拼接，输出为(64,128,256)的向量；

4.输入为(64,128,256)的向量，卷积层，输出为(64,128,128)的向量；

5.输入为(64,128,128)的向量，最大池化层，输出为(64,128)的向量；

6.输入为(64,128)的向量，softmax层，输出为(64,15)的向量。

本发明采用改进后的RCNN结构为：

1.embedding层,输入为(64,100,1)的训练数据,将每个分词表征为128维的词向量，该层输出为(64,128,128)的向量；

3.向量拼接层，两个方向LSTM的输出，以及在embedding层分词的词向量,输出为(64,128,384)的向量；

4.输入为(64,128,384)的向量，卷积层，输出为(64,128,128)的向量；

6.输入为(64,128)的向量，softmax层，输出为(64,15)的向量。

参见图4至图6，本实施例的舆情数据新闻(文本)分类数据集由今日头条客户端提供,共计382688条数据，15个分类。

分类code：民生/文化/娱乐/体育/财经/房产/汽车/教育/科技/军事/旅游/国际/证券/农业/电竞。

分类网络模型优化方法选用可以自动调节学习率的Adam算法，模型在全连接层使用dropout，模型的损失函数使用交叉熵损失，经过10个epoch的训练。

参见图4，图4为舆情数据新闻分类数据集的部分数据截图，图5为图4中的新闻分类数据在经过分类网络模型后输出的新闻类别标签，图6为新闻分类数据经过分类网络模型后的准确率结果图，由图中可知，通过分类网络模型后，loss为1.93969，准确率为0.890879，与改进前的RCNN分类网络模型对比结果如下：

改进后的RCNN在新闻文本分类任务上取得了更好的效果，并且改进的RCNN可以更好地拟合训练数据，在训练集上的准确率更高，训练收敛的速度也更快。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。