CN114066066A

CN114066066A - 面向事故报道的舆情演化自动预测分析方法及系统

Info

Publication number: CN114066066A
Application number: CN202111369829.5A
Authority: CN
Inventors: 杜军威; 邹树林; 李浩杰; 陈卓; 胡强; 于旭; 江峰
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-18

Abstract

本发明公开了面向事故报道的舆情演化自动预测分析方法及系统，包括：获取事故新闻报道的文本信息；对所述事故新闻报道的文本信息进行预处理，得到每篇事故报道的情感分析值、每篇事故报道的要素和若干个事故集合；每个事故集合，均包括：关于同一件事故的按照时间顺序排列的若干篇不同报道；针对每一个事故集合中的每一篇报道，均提取事故报道三元组；每个事故报道三元组，均包括当前事故报道的事故名称、要素和情感分析值；将事故报道三元组转换成对应的特征表示；通过特征表示，获得事故集合的三元组集合，对三元组集合进行预测，得到对应的舆情演化分析结果。基于事故报道舆情演化预测模型，对采集的事故报道所带来的舆情影响及时进行评估。

Description

面向事故报道的舆情演化自动预测分析方法及系统

技术领域

本发明涉及舆情预测技术领域，特别是涉及面向事故报道的舆情演化自动预测分析方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

互联网中话题的传播速度十分迅速，并且网络舆情事件主要指向公共权力、公共利益、公共价值方面的事件。有论文指出，重特大事故等社会敏感问题其关注度增长迅速，经常成为网络舆情事件的焦点。发展迅速的特点是舆情的焦点，如果事故报道中存在不准确的表达、消极的暗示、或负面情绪感染等，会导致参与者的非理性因素增加，并加速网络谣言的产生，进而导致网络舆情恶性演化，给国家治理与社会治理形成严峻的挑战。通过事故报道内容对事故报道可能带来的舆情影响做出预测，对预测可能产生舆情恶化的事故报道进行内容完善，将对网络舆情发展引导能力的提高起到关键作用。从而能够营造良好网络舆论空间，引导社会热点，疏导公众情绪，对正确引导舆情发展具有重要的作用。

目前针对报道的舆情分析工作主要有：

1.舆情信息自动采集。

根据用户指定的规则或主题，定时采集被监控网站页面发布的相关信息以及产生的评论。最终对采集到的舆情信息进行持久化操作。

2.事故报道数据整理。

对收集的报道信息进行预处理，目前常见的预处理包括格式转换、数据清洗、数据对齐等操作。通过格式转换，可以将被监测的不同的网站同类数据进行处理，获得相同格式的表示。通过数据清洗，能够将文本中多余的、无关的信息进行筛选滤除，保证采集信息的准确性、有价值。通过数据对齐，将不同监测网站中报道标题、发布人、发布时间、报道文本、评论数量等数据格式化。最终得到结构化的事故报道和评论等相关信息。

3.事故舆情分析。

对取得的结构化事故报道和评论信息，通过数据可视化技术将某时间段内(或截止到当前时间)舆情的统计进行展示。展示的形式通常丰富多样，如各类图表、地图等。其内容主要包括两部分：特征性统计和趋势性统计。特征性统计主要包括关键词统计、地域统计、数量统计等；趋势性统计主要包括评论量变化统计、新闻数量变化统计、舆情变化统计、评论情感分析等。

相关工作如下：

基于爬虫技术与智能算法的网络舆情监测，智能计算机与应用2021年4月第11卷第4期；该成果基于百度指数去预测某事故或事件的互联网舆情走势，方法，但是并没有考虑新闻报道内容对舆情的影响，且只能预测其热度情况，不能预测新报道的情感倾向。

基于文本挖掘的网络舆情主题发现与情感分析，对外经贸2021年02期·总第320期；该成果虽然得到了情感倾向的变化，但是存在一些问题。来源单一，仅仅针对新浪微博进行数据采集，无法反映全网的态度和评价；并不是对某事故的舆情走势进行分析，而是所有事件的整体评价；并没有设计算法对事故后续的舆情发展进行预测。

综上，现有的网络舆情演化分析仅仅只针对现有数据进行统计分析，无法通过有效的手段对某重大事故的舆情演化进行预测。但随着互联网在国民生活所占比重逐年加大，网络舆情发展迅速，及时对事故舆情演化进行预测是极为重要的。现有的一些方法在事故舆情演化的预测上目前存在以下挑战：(1)舆情演化预测如何充分结合事故报道本身的特征，报道内容与事故舆情紧密相关，会对事故舆情的预测有利；(2)舆情演化预测模型与事故舆情演化分析系统并没有充分结合。

发明内容

为了解决现有技术的不足，本发明提供了面向事故报道的舆情演化自动预测分析方法及系统；可以对互联网中某事故结合事故报道对其接下来的舆情进行预测。

第一方面，本发明提供了面向事故报道的舆情演化自动预测分析方法；

面向事故报道的舆情演化自动预测分析方法，包括：

获取事故新闻报道的文本信息；

对所述事故新闻报道的文本信息进行预处理，得到每篇事故报道的情感分析值、每篇事故报道的要素和若干个事故集合；每个事故集合，均包括：关于同一件事故的按照时间顺序排列的若干篇不同报道；

针对每一个事故集合中的每一篇报道，均提取事故报道三元组；每个事故报道三元组，均包括当前事故报道的事故名称、要素和情感分析值；将事故报道三元组转换成对应的特征表示；通过特征表示，获得事故集合的三元组集合，对三元组集合进行预测，得到对应的舆情演化分析结果。

第二方面，本发明提供了面向事故报道的舆情演化自动预测分析系统；

面向事故报道的舆情演化自动预测分析系统，包括：

获取模块，其被配置为：获取事故新闻报道的文本信息；

预处理模块，其被配置为：对所述事故新闻报道的文本信息进行预处理，得到每篇事故报道的情感分析值、每篇事故报道的要素和若干个事故集合；每个事故集合，均包括：关于同一件事故的按照时间顺序排列的若干篇不同报道；

舆情演化模块，其被配置为：针对每一个事故集合中的每一篇报道，均提取事故报道三元组；每个事故报道三元组，均包括当前事故报道的事故名称、要素和情感分析值；将事故报道三元组转换成对应的特征表示；通过特征表示，获得事故集合的三元组集合，对三元组集合进行预测，得到对应的舆情演化分析结果。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

1.采集互联网中发布的事故报道和每篇事故新闻的舆情，提取事故报道特征与舆情演化特征，设计预测模型能够自动学习事故发展与事故处置过程的舆情状态变化，实现面向事故报道的舆情演化预测，提供有效的事故处置策略指导，避免舆情恶性演化。对新闻报道内容充分利用，以实现对事故舆情演化发展影响的评估。

2.基于事故报道舆情演化预测模型，能够对采集的事故报道所带来的舆情影响及时进行评估，从而能够有效的指导有关部门对舆情及时的进行处理。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明所提出的基于事故报道舆情演化预测模型；

图2是本发明中提出的事故报道舆情演化自动预测分析系统的总体结构。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了面向事故报道的舆情演化自动预测分析方法；

如图1所示，面向事故报道的舆情演化自动预测分析方法，包括：

S101：获取事故新闻报道的文本信息；

S102：对所述事故新闻报道的文本信息进行预处理，得到每篇事故报道的情感分析值、每篇事故报道的要素和若干个事故集合；每个事故集合，均包括：关于同一件事故的按照时间顺序排列的若干篇不同报道；

S103：针对每一个事故集合中的每一篇报道，均提取事故报道三元组；每个事故报道三元组，均包括当前事故报道的事故名称、要素和情感分析值；

将事故报道三元组转换成对应的特征表示；通过特征表示，获得事故集合的三元组集合，对三元组集合进行预测，得到对应的舆情演化分析结果。

进一步地，所述S101：事故新闻报道的文本信息，包括：事故报道标题、事故报道内容和事故报道评论文本。

通过定时采集门户网站、新闻网站等可能产生事故舆情的网站发布的新闻报道，包括报道的元数据信息(发布时间、发布者和发布站点等)、文本信息(事故报道标题、事故报道内容、事故报道评论文本等)。

进一步地，所述S102：对所述事故新闻报道的文本信息进行预处理，得到每篇事故报道的情感分析值；具体包括：

基于每篇事故报道的所有评论集合、所有评论的数量、每一条评论的情感倾向分值，确定每篇事故报道的情感分析值。

示例性地，对事故报道文本信息进行预处理。如图2中信息处理部分所示，对事故报道标题、内容进行处理，包括事故分类C、要素提取K、情感分析T、重复报道筛选、内容摘要S等，处理得到的要素信息表示为I，I＝{C,K,T,S}。

进一步地，所述每一条评论的情感倾向分值，获取过程包括：

将事故报道的每一条评论文本，输入到训练后的报道评论信息情感倾向预测模型中，得到每一条评论的情感倾向分值。

示例性地，事故报道R的情感分析结果T表示为：

M_R为事故报道R的所有评论的集合，|M_R|为评论的数量，Sent_m为事故报道R的第m条评论的情感倾向分值，由情感分析模型得到。由最终计算事故报道R的情感值T。

进一步地，所述训练后的报道评论信息情感倾向预测模型，训练步骤包括：

构建卷积神经网络；

构建训练集；所述训练集，包括：已知评论倾向分值的报道评论；

将训练集，输入到卷积神经网络中，对卷积神经网络进行训练，当损失函数不再降低时，停止训练，得到训练后的卷积神经网络，即为训练后的报道评论信息情感倾向预测模型。

设计事故报道标签自动构建方案，通过提前训练报道评论信息情感倾向预测模型进而获得事故报道舆情分值作为标签。事故报道标签自动构建使得数据集累积增加、模型迭代更新。通过深度学习算法训练得到报道评论信息情感倾向预测模型，并将采集的事故报道R_n的评论信息进行情感倾向逐条分析，进而获得某篇事故报道R_n的总体舆情分值S_n，作为事故报道R_n的标签。

进一步地，每篇事故报道的要素，获取过程包括：

利用pyltp自然语言处理工具，对文本中的时间要素和地点要素进行提取；基于TextRank算法，对文本中的关键词信息进行提取。时间要素、地点要素、关键词构成了每篇事故报道的关键要素。

基于命名实体识别技术和依存句法分析技术，提取事故报道文本中关键要素，包括时间要素、地点要素等。通过要素相关度匹配，获得事故匹配识别结果。

事故报道R的要素K主要包括K＝{time,location,keywords}，通过命名实体识别技术获得。

进一步地，所述若干个事故集合，获取过程包括：

根据要素相关度匹配方式，得到事故匹配识别结果；

对于每一篇事故报道R的要素K_R，如果存在一篇报道R’，报道R’的时间要素与报道R的时间要素相同，且报道R’的地点要素与报道R的地点要素相同，则认为这两篇事故报道为同一个事故；

采用同样的方式，对多篇事故报道的分析判断后，得到同一个事故的事故集合；进而得到若干个事故集合。

示例性地，对于采集的事故报道，需要通过事故报道处理获得的要素信息K将相同事故识别出来。对于每一篇新采集的事故报告R的要素K_R，如果存在某一篇报道R’，其与R的时间要素(K_R.time＝K_R′.time)和地点要素值相同，本发明则认为其为同一个事故。

在经过事故报道文本信息处理和事故识别过程后，本发明可以得到事故集合，每个事故中将包含多篇关于该事故的事故报道。

示例性地，S103：针对每一个事故集合中的每一篇报道，均提取事故报道三元组；每个事故报道三元组，均包括当前事故报道的事故名称、要素和情感分析值；具体包括：

对于发布的每一篇事故报道，从中提取三元组(O,K,T)作为事故报道的初始特征信息，记作

。即主体O在T时间所发生的某事件的要素K。以此可以在复杂文本中提取出其中影响事故舆情发展的关键信息，并将信息通过预训练语言模型获得其向量表示，用于模型输入。

进一步地，所述将事故报道三元组转换成对应的特征表示；具体包括：

基于事故报道三元组，得到对应的词向量序列；基于词向量序列，得到词向量矩阵；

基于词向量矩阵，通过卷积操作，得到特征映射；对所述特征映射，进行最大池化操作，得到事故报道的三元组特征表示。

示例性地，所述基于事故报道三元组，得到对应的词向量序列，采用训练后的语言模型来实现。

示例性地，所述基于词向量矩阵，通过卷积操作，得到特征映射；对所述特征映射，进行最大池化操作，得到事故报道的三元组特征表示，采用训练后的卷积神经网络来实现。

进一步地，所述通过特征表示，获得事故集合的三元组集合，对三元组集合进行预测，得到对应的舆情演化分析结果，通过训练后的LSTM模型来实现。

进一步地，训练后的语言模型、训练后的卷积神经网络和训练后的LSTM模型不是单独训练得到的，而是组成一个整体，对这个整体训练后得到的。

依次连接的输入层、语言模型、卷积神经网络和LSTM模型，共同组成了事故舆情演化预测模型。

进一步地，事故舆情演化预测模型，训练过程包括：

构建训练集；所述训练集包括：已知事故舆情演化结果时间序列的事故集合；

将训练集输入到事故舆情演化预测模型中，对事故舆情演化预测模型进行训练，当损失函数停止降低时，停止训练，得到训练后的事故舆情演化预测模型；也就是得到了训练后的语言模型、训练后的卷积神经网络和训练后的LSTM模型。

事故舆情演化预测模型及输入。事故舆情演化预测模型分为输入层、特征表示部分和预测输出部分。

(1)输入层，其工作是将同一个事故底下的以时间序列排序的连续事故报道集合，将集合中的事故报告分别提取其事故报道三元组，作为预测层的输入信息。本发明基于命名实体识别技术、依存句法分析、语义角色标注等自然语言处理相关的方法和技术，对报道内容进行事故报道三元组的提取

最终，针对一个事故Q的媒体报道的多篇事故报道，本发明可以提取出若干个事故报道三元组，将该集合记为M^Q，

(2)特征表示部分(语言模型、卷积神经网络)，将文本的事故报道三元组生成其对应的特征表示：

首先，需要将三元组中的词，通过传统词嵌入模型(Word Embedding Model)或预训练语言模型(Pre-trainedLanguage Model,PLM)生成对应的词向量序列d。词嵌入模型可以将词语映射到向量空间中，并获得该词语在该空间下的向量表示，如Word2Vec、Glove等；预训练语言模型先通过大量通用语料进行训练学习到通用语言知识，然后可对性地针对任务进行迁移训练，如BERT、GPT3等。具体操作表示如下：

d＝M(key words),d∈D

其中，d是通过语言模型或者词向量模型生成的词向量，D代表三元组中的词生成的词向量矩阵，M()代表选用的词嵌入模型或预训练语言模型。

然后，对于给定的词向量矩阵D，使用卷积操作提取其语义信息。使用j个尺寸为ω卷积滤波器(convolution filter)生成文本表示。

为第j个滤波器提取的特征向量。

代表第j个卷积核的一步卷积操作后的结果，本发明称为特征映射(FeatureMap)，公式如下：

其中，W_j为第j个卷积核的权重矩阵，X_{(:,i:(i+ω-1))}为文本特征矩阵中第i个词向量开始的滑动窗口的切片，ω为卷积核的尺寸，*为卷积操作，b_j为偏置，σ()为激活函数，可以采用ReLU(Rectified Linear Units，ReLU)作为激活函数，定义为σ(v)＝max{0,v}。

最终，对生成的特征映射

采用最大池化操作，取最大值作为该卷积核提取到的特征o_j，

对于j个不同的卷积核，能够获得事故特征三元组经过池化操作后的表示O_n＝[o₁,o₂,…,o_j]。

为最后的事故报道R_n的三元组的特征表示。

(3)预测输出部分(LSTM模型)，通过特征表示部分获得连续事故报道的三元组集合M^Q，输入到预测层。然后经过LSTM模块输出预测下一时刻的舆情倾向分值。假设时间序列中的一个时刻t+1存在事故报告R_n+1，将当前时刻t的隐含状态h(t)与t+1时刻的三元组特征表示O_n+1传入LSTM网络，计算得到时刻t+1的输出h(t+1)，记为t+1时刻模型预测的舆情倾向S′_n+1。根据隐含状态h(t+1)与实际热度值S_n+1计算误差通过优化器反向传播求解，更新卷积神经网络和LSTM模型参数。

进一步地，所述方法还包括：

S104：对事故报道文本进行处理，获得其关键词信息、时间地点、相关单位信息、事故报道舆情演化预测结果等。采用web方式，将时间段内的事故演化进行展示或对时间段内所有事故进行总览。

通过上述步骤对采集的事故报道进行处理，获得事故报告的关键信息，结合web2.0的展示技术，将事故舆情演化过程进行展示。主要包含事故演化分析总览和宏观展示分析两个模块。事故演化分析总览主要包含事故起止时间分析、舆情演化发展趋势预测、关键词展示等功能；宏观展示分析模块主要包含舆情热度排名、舆情地图、舆情关键词、舆情发展态势展示等功能。系统的总体架构如图2所示。

实施例二

本实施例提供了面向事故报道的舆情演化自动预测分析系统；

面向事故报道的舆情演化自动预测分析系统，包括：

获取模块，其被配置为：获取事故新闻报道的文本信息；

此处需要说明的是，上述获取模块、预处理模块和舆情演化模块对应于实施例一中的步骤S101至S103，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.面向事故报道的舆情演化自动预测分析方法，其特征是，包括：

获取事故新闻报道的文本信息；

2.如权利要求1所述的面向事故报道的舆情演化自动预测分析方法，其特征是，对所述事故新闻报道的文本信息进行预处理，得到每篇事故报道的情感分析值；具体包括：

3.如权利要求1所述的面向事故报道的舆情演化自动预测分析方法，其特征是，所述若干个事故集合，获取过程包括：

根据要素相关度匹配方式，得到事故匹配识别结果；

4.如权利要求1所述的面向事故报道的舆情演化自动预测分析方法，其特征是，所述将事故报道三元组转换成对应的特征表示；具体包括：

5.如权利要求4所述的面向事故报道的舆情演化自动预测分析方法，其特征是，所述基于事故报道三元组，得到对应的词向量序列，采用训练后的语言模型来实现；

所述基于词向量矩阵，通过卷积操作，得到特征映射；对所述特征映射，进行最大池化操作，得到事故报道的三元组特征表示，采用训练后的卷积神经网络来实现；

所述通过特征表示，获得事故集合的三元组集合，对三元组集合进行预测，得到对应的舆情演化分析结果，通过训练后的LSTM模型来实现。

6.如权利要求5所述的面向事故报道的舆情演化自动预测分析方法，其特征是，训练后的语言模型、训练后的卷积神经网络和训练后的LSTM模型不是单独训练得到的，而是组成一个整体，对这个整体训练后得到的；

7.如权利要求6所述的面向事故报道的舆情演化自动预测分析方法，其特征是，事故舆情演化预测模型，训练过程包括：

8.面向事故报道的舆情演化自动预测分析系统，其特征是，包括：

获取模块，其被配置为：获取事故新闻报道的文本信息；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。