CN114764463A

CN114764463A - 基于事件传播特征的互联网舆情事件自动预警系统

Info

Publication number: CN114764463A
Application number: CN202110041572.4A
Authority: CN
Inventors: 林祥; 伍贤锋; 朱良奇
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2022-07-19

Abstract

一种基于事件传播特征的互联网舆情事件自动预警系统，包括：依次相连的数据采集模块、数据预处理模块、事件形成模块、特征捕获模块和决策模块，其中：数据采集模块通过爬虫系统获取全网各个媒体平台的新闻消息数据，数据采集模块通过爬虫系统获取全网各个媒体平台的新闻消息数据，进行初步处理并输出基础数据结果至数据预处理模块，数据预处理模块对来自全网的各种格式的杂乱数据进行清洗工作，进行数据预处理并输出数据结果至事件形成模块，事件形成模块从数据预处理模块获得信息进行事件形成处理并对形成的事件进行特征采集并输出描述事件属性的特征至决策模块，决策模块根据描述事件属性的特征进行决策处理并通过多次实验寻找到最适合的决策模块参数，达到最大准确度的实时完成自动舆情事件预警功能。

Description

基于事件传播特征的互联网舆情事件自动预警系统

技术领域

本发明涉及的是一种信息处理领域的技术，具体是一种基于事件传播特征的互联网舆情事件自动预警系统。

背景技术

随着网络发展越快，信息就越透明，最近几年，各种公共安全事件，层次不穷。由于这些事件的特殊性，在网络社会引起了巨大的关注，一些媒体记者的错误言论导致网友的愤怒不堪。根据以往突发事件网络舆情的发展和演化规律，从中预学习一些会形成重大舆论事件的潜在特征，来帮助舆情监测系统能够更加准确的识别危险的舆论事件，及早的进行预警，达到预防的结果。对于政府来说，能够及早的发现重大舆情事件和采取一定的措施来引导舆论的发展有重大的意义。这对于社会的稳定发展具有重大意义。

通过查阅文献，发现现有的网络舆情的主要预测和预警方法都是基于统计学习系统，贝叶斯网络，还有灰色系统和基于模糊理论等传统方法来做模型的预测，而且都是基于文本颗粒，这对于系统的性能有极大的损失，因为各种文本描述的事件各不一样，所以这会导致事件的预测和预警会出现问题。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于事件传播特征的互联网舆情事件自动预警系统，利用无监督算法将各种描述事件的文本进行分类，描述同一事件的文本，用来提取特征采用深度学习算法来做舆情预测和利用随机森林算法来根据聚类之后的纯净的文本提取特征，做舆情事件的预警，以提高预警模型的及时性和准确性。本发明实时计算网络舆情发展指数，通过机器学习方法来智能综合网络舆情事件的各种传播特征，判断某个事件发展的方向，及时做出预警，避免因舆情监测技术不统一而导致最终系统预警不及时、不准确的情况出现。

本发明是通过以下技术方案实现的：

本发明涉及一种基于事件传播特征的互联网舆情事件自动预警系统，包括：依次相连的数据采集模块、数据预处理模块、事件形成模块、特征捕获模块和决策模块，其中：数据采集模块通过爬虫系统获取全网各个媒体平台的新闻消息数据，数据采集模块通过爬虫系统获取全网各个媒体平台的新闻消息数据，进行初步处理并输出基础数据结果至数据预处理模块，数据预处理模块对来自全网的各种格式的杂乱数据进行清洗工作，进行数据预处理并输出数据结果至事件形成模块，事件形成模块从数据预处理模块获得信息进行事件形成处理并对形成的事件进行特征采集并输出描述事件属性的特征至决策模块，决策模块根据描述事件属性的特征进行决策处理并通过多次实验寻找到最适合的决策模块参数，达到最大准确度的实时完成自动舆情事件预警功能。

本发明涉及一种基于上述系统的基于事件传播特征的互联网舆情事件自动预警的方法，在对文章信息进行提取特征信息预警之前，通过利用无监督聚类算法single-pass将流式文本数据进行聚类，生成结构性的事件信息输出，作为事件预警系统输入，这样就可以保证事件类别的文章与此事件具有极强的相关性，保证预警系统的输入数据的质量，减少噪音数据，然后利用机器学习算法随机森林来提取输入数据的事件特征，最后完成事件等级的预警功能。

技术效果

本发明整体解决了在面对大量零散的舆情事件发生时，现有技术无法将无序、颗粒化的采集内容进行整合，且容易因时间判断标准不一而导致采集分析结果出现严重偏差的技术问题。

与现有技术相比，本发明利用无监督算法将事件文本进行排序分类，统一事件判断标准，并利用随机森林算法来根据聚类之后的纯净的文本归纳特征，保证舆情事件预警模型较以往技术更为精确与及时。

附图说明

图1为本发明流程图；

图2为本发明中将预处理过后的数据输入到无监督聚类系统内形成事件的流程图；

图3为本发明中经过事件聚类算法将大量的流式文本数据聚类得到对应的类的结构性数据输入到事件预警算法当中完成预警功能的流程框图；

图4为本发明所生成的舆情事件成长分布图；

图5为本发明系统示意图。

具体实施方式

如图5所示，为本实施例涉及的一种基于事件传播特征的互联网舆情事件自动预警系统，包括：依次相连的数据采集模块、数据预处理模块、事件形成模块、预警值提取模块和决策模块，其中：数据采集模块通过爬虫系统获取全网各个媒体平台的新闻消息数据，进行初步处理并输出基础数据结果至数据预处理模块，数据预处理模块对来自全网的各种格式的杂乱数据进行清洗工作，进行数据预处理并输出数据结果至事件形成模块，事件形成模块从数据预处理模块获得信息进行事件形成处理并输出事件信息至特征捕获模块，特征捕获模块从事件信息中进行特征采集并输出描述事件属性的特征至决策模块，决策模块根据描述事件属性的特征进行决策处理并通过多次实验寻找到最适合的决策模块参数，达到最大准确度的实时完成自动舆情事件预警功能。

所述的数据采集模块包括：爬虫系统、数据去噪模块、网页去重模块、调度器、下载器、数据解析器以及存储单元，其中，爬虫系统是整个数据采集模块的核心部分，主要用来协调模块中各组成部分的交互，控制数据采集过程中的数据流向及在各流程节点调用相应的控制算法；数据去噪模块主要是去除网页数据中所包含的广告等无关内容，使得数据提取更加准确；网页去重模块则是利用哈希散列算法对网页进行处理。若得到的结果已存在，则认为该网页所对应的URL已被读取和下载过，进而放弃该网页的信息；调度器负责管理网络爬虫抓取到的URL 队列，同时按照需要进行URL的分发；下载器则是根据调度器分发的URL从校园论坛或其他相关网站抓取对应的Web页面，然后将其发送到数据解析部分并进行下一步处理；数据解析部分主要包含各种功能的数据处理算法，负责接收与提取Web页面中的目标数据和可爬取的URL，并传送给调度器和存储单元；存储单元则是负责将接收到的目标数据存入数据库中。

所述的数据预处理模块包括：标记化模块、归一化模块。其中标记化模块将存储单元中的文本数据的长字符串分割成小的片段或者tokens，大段文字可以被分割成句子，句子又可以被分割成单词等等。只有经过了tokenization，才能对文本进行进一步的处理；归一化是将标记化指的是一系列相关的任务，能够将所有文本放在同一水平区域上：将所有文本转化成同样的实例，删除标点，将数字转换成相应的文字等等。

所述的事件形成模块包括：关键词提取模块、话题检测模块。其中关键词提取模块对存储单元中的文本数据利用TextRank算法进行关键词提取；话题检测模块通过计算数据预处理模块得到的文本数据之间的余弦相似度以及关键词提取模块中提取的文本关键词之间的相似度，对其进行加权求和得到最终的文本间的相似度表示，利用Single-pass算法进行话题聚类。

所述的预警值提取模块包括：输入编码模块、双向LSTM编码模块、位置编码模块、Attention机制模块以及输出模块。其中输入编码模块与数据预处理模块相连并传输文本数据，利用Word2Vec模型进行WordEmbedding；双向LSTM编码模块与输入编码模块相连并传输词向量信息，对于输入层的每一个词向量w_i都会产生一个隐藏状态c_i，用以表征文本的语义信息；位置编码模块与事件形成模块相连，并传输关键词信息，对距离关键词较近的词赋予较大的权重、距离较远的词赋予较小的权重；Attention机制模块与双向LSTM编码模块和位置编码模块相连，分别传输语义信息以及位置权重向量，对每个词向量基于不用关键词计算注意权重；输出模块与Attention机制模块相连并传输注意权重的加权和，将其通过一个softmax函数计算文本的情感特征值。

所述的决策模块包括：知识库模块、推理机模块、知识获取模块、人机交互模块、综合数据库模块以及解释器模块。其中，知识库模块是问题求解所需要的领域知识的集合，包括基本事实、规则和其他有关信息；推理机模块是是对知识进行解释的程序，根据知识的语义对按一定策略找到的知识进行解释执行，并把结果记录到动态库的适当空间中。推理机模块和知识库模块是分离的，对知识库的修改无须改动推理机；知识获取模块负责建立、修改和扩充知识库，是决策模块中把问题求解的各种专门知识从知识源那里转换到知识库中的机构；人机界面模块是系统与用户进行交流时的界面，通过该界面，用户输入基本信息、回答系统提出的相关问题，系统输出推理结果及相关的解释也是通过人机交互界面；综合数据库模块是反映当前问题求解状态的集合，用于存放系统运行过程中所产生的所有信息，以及所需要的原始数据，包括用户输入的信息、推理的中间结果、推理过程的记录等。综合数据库中由各种事实、命题和关系组成的状态，既是推理机模块选用知识的依据，也是解释机制获得推理路径的来源；解释器模块用于对求解过程做出说明，并回答用户的提问。解释机制涉及程序的透明性，它让用户理解程序正在做什么和为什么这样做，向用户提供了关于系统的一个认识窗口。在很多情况下，解释机制是非常重要的。为了回答“为什么”得到某个结论的询问，系统通常需要反向跟踪动态库中保存的推理路径，并把它翻译成用户能接受的自然语言表达方式。

如图1所示，为本实施例基于上述系统的基于事件传播特征的互联网舆情事件自动预警的方法，具体包括：

步骤1，通过针对不同网站编写不同的爬虫系统代码，爬取全网平台的新闻媒体数据，以待后期进行数据挖掘，用于舆情预警。

步骤2，通过jieba分词对于来自数据源的文章正文进行分词并去掉停用词等无用词，通过词袋模型，将该批次分词过后的数据统计分析，获得每个词的词频信息以及索引，等待下一步的引用。

步骤3，通过每一个词的词频以及索引，并且利用TF-IDF算法得到每篇文章所对应的向量表示T＝(t1，w1，t2，w2，······ti，wi，·······tn，wn)，其中n表示文章T的单词个数，ti 表示每一个单词在词袋中的索引，wi表示单词ti在整个预料中的权重值。

步骤4，流式计算每一篇输入文章向量和已经形成类族的文章向量之间的相似度，通过多次实验寻找适当的阈值，判断当前流入的文章属于已有类别时则直接加入到已有类别之中，否则新生成事件。

步骤5，从已经生成事件的结构性数据当中，提取该事件中的每篇文章的相关数据特征，比如，文章的点赞量，浏览量，转发数，以及评论数等，作为事件预警系统的输入。

步骤6，通过随机森林算法将上一步提取到的每个事件的特征输入到预警系统，判断森林中的每一颗决策树对于该事件的分类结果，利用随机森林的集成思想，综合每一个树的结果，按投票的原则，得到最后该事件的预警等级信息。

如图2所示，首先给事件生成系统输入新闻文本集合D和相似度阈值E，然后将输入到系统的第一篇文章作为当前事件的初始中心，然后通过计算流式输入的每一篇文章与当前已存在的事件中心的相似度值并获取最大值S_max，然后判断S_max和相似度阈值的大小，当大于阈值则加入到取得最大值的事件分类之中，否则新建以当前输入文本为中心的事件类。

所述的形成的事件包含四十个字段的属性，提取当前事件的包含的文章属性特征：文章点赞数，文章转发数，文章浏览数，文章增长速率，负面文章的数量等。作为舆情事件等级预警模型的输入，等待模型提取并作出响应。

如图3所示，建立带有标签的学习样本。对已有事件并且已知事件等级的数据进行随机抽样，将抽取到的m个样本作为训练集E1，按照同样的方法抽取n次，得到n个训练样本，作为随机森林之中的每颗树的训练集。

按照一定的比例构建测试集，进行基于生成的事件信息的随机森林预测实验，为了保证模型的准确性和强健性，树的数量应当适当。

由于不同预警等级事件的数量个数差异较大，比如特大网络事件和重大网络事件数量比较少，所以为了是建立的模型能够充分学习到每一种事件的特征，在预测时候不会由于样本数量的问题而导致准确率下降的问题，采取了样本均衡方法。

具体的均衡方法就是，将样本数较少的等级中的事件信息随机抽取并放回补充原来的样本数量，使少样本的等级经过补充之后和多少样本的一样。这样每个等级中事件样本数量都一样，从而可以平衡每种等级的分裂准则中的地位。

基于前边所叙述构建的训练集，创建随机森林分类器。

所述的舆情事件等级预警模型，通过以下方式进行提取和响应：

①利用Bootstrap方法，有放回的对训练集进行重采样，随机产生产生n个训练集S1， S2，···Sn。

当训练集Si中含有m个不同的样本{x1，x2，x3，···xm}，每次有放回的从中抽取一个样本，并重复操作k次，则得到新的集合S*，通过概率知识可知，新集合中包含样本xi的概率为：p＝(1-1/n)ⁿ

通过对上述概率取极限即可得到取到样本xi的概率为0.368。通过计算可知新集合包含原集合的样本数量达到36.8％。通过利用这种重采样的方法既满足了多个样本的需求，也保证了每个决策树分类器都有不同的训练样本，这样可以保证每棵树能够学到不同的分类特征，使随机森林的分类更加准确，避免过拟合现象发生。

②利用生成的k个训练集，生成对应的决策树C1，C2，···Ck。在每个非叶子节点上选择属性前，从总共F个属性中选择f个属性作为当前节点的分类属性集，为每个非叶子节点递归的选择最优的分类属性，并以最优的分裂方式对该节点进行分裂。采用计算每次分裂的信息增益来判断是否基于当前属性来分裂。对于不同的判断方法形成了不同的决策树方法，比如ID3 和CART等。

③将测试集样本X输入到训练好的多颗决策树中，得到每个样本对应的类别Ci(x)，通过利用投票的原理，对每一颗决策树的结果统计，将k个分类器的结果中输出最多的类别作为随机森林模型的输出。

经过具体实际实验，在操作系统Windows10，CPU为Intel i5-7300HQ 2.5GHz、内存16GDDR4L、开发语言Python 3.7.1、开发平台Keras2.2.4的具体环境设置下，以批处理大小batch-size＝25、epoch＝30、learning_rate＝0.001参数运行上述装置/方法，能够得到的实验数据是：92.85％。

与现有技术相比，本系统实时完成自动舆情事件预警功能，显著提高了准确率。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于事件传播特征的互联网舆情事件自动预警系统，其特征在于，包括：依次相连的数据采集模块、数据预处理模块、事件形成模块、特征捕获模块和决策模块，其中：数据采集模块通过爬虫系统获取全网各个媒体平台的新闻消息数据，数据采集模块通过爬虫系统获取全网各个媒体平台的新闻消息数据，进行初步处理并输出基础数据结果至数据预处理模块，数据预处理模块对来自全网的各种格式的杂乱数据进行清洗工作，进行数据预处理并输出数据结果至事件形成模块，事件形成模块从数据预处理模块获得信息进行事件形成处理并对形成的事件进行特征采集并输出描述事件属性的特征至决策模块，决策模块根据描述事件属性的特征进行决策处理并通过多次实验寻找到最适合的决策模块参数，达到最大准确度的实时完成自动舆情事件预警功能。

2.根据权利要求1所述的基于事件传播特征的互联网舆情事件自动预警系统，其特征是，所述的数据采集模块包括：爬虫系统、数据去噪模块、网页去重模块、调度器、下载器、数据解析器以及存储单元，其中，爬虫系统是整个数据采集模块的核心部分，主要用来协调模块中各组成部分的交互，控制数据采集过程中的数据流向及在各流程节点调用相应的控制算法；数据去噪模块主要是去除网页数据中所包含的广告无关内容，使得数据提取更加准确；网页去重模块则是利用哈希散列算法对网页进行处理；若得到的结果已存在，则认为该网页所对应的URL已被读取和下载过，进而放弃该网页的信息；调度器负责管理网络爬虫抓取到的URL队列，同时按照需要进行URL的分发；下载器则是根据调度器分发的URL从校园论坛或其他相关网站抓取对应的Web页面，然后将其发送到数据解析部分并进行下一步处理；数据解析部分主要包含各种功能的数据处理算法，负责接收与提取Web页面中的目标数据和可爬取的URL，并传送给调度器和存储单元；存储单元则是负责将接收到的目标数据存入数据库中。

3.根据权利要求1所述的基于事件传播特征的互联网舆情事件自动预警系统，其特征是，所述的数据预处理模块包括：标记化模块、归一化模块；其中标记化模块将存储单元中的文本数据的长字符串分割成小的片段或者tokens，大段文字可以被分割成句子，句子又可以被分割成单词；只有经过了tokenization，才能对文本进行进一步的处理；归一化是将标记化指的是一系列相关的任务，能够将所有文本放在同一水平区域上：将所有文本转化成同样的实例，删除标点，将数字转换成相应的文字。

4.根据权利要求1所述的基于事件传播特征的互联网舆情事件自动预警系统，其特征是，所述的事件形成模块包括：关键词提取模块、话题检测模块；其中关键词提取模块对存储单元中的文本数据利用TextRank算法进行关键词提取；话题检测模块通过计算数据预处理模块得到的文本数据之间的余弦相似度以及关键词提取模块中提取的文本关键词之间的相似度，对其进行加权求和得到最终的文本间的相似度表示，利用Single-pass算法进行话题聚类。

5.根据权利要求1所述的基于事件传播特征的互联网舆情事件自动预警系统，其特征是，所述的预警值提取模块包括：输入编码模块、双向LSTM编码模块、位置编码模块、Attention机制模块以及输出模块；其中输入编码模块与数据预处理模块相连并传输文本数据，利用Word2Vec模型进行Word Embedding；双向LSTM编码模块与输入编码模块相连并传输词向量信息，对于输入层的每一个词向量w_i都会产生一个隐藏状态c_i，用以表征文本的语义信息；位置编码模块与事件形成模块相连，并传输关键词信息，对距离关键词较近的词赋予较大的权重、距离较远的词赋予较小的权重；Attention机制模块与双向LSTM编码模块和位置编码模块相连，分别传输语义信息以及位置权重向量，对每个词向量基于不用关键词计算注意权重；输出模块与Attention机制模块相连并传输注意权重的加权和，将其通过一个softmax函数计算文本的情感特征值。

6.根据权利要求1所述的基于事件传播特征的互联网舆情事件自动预警系统，其特征是，所述的决策模块包括：知识库模块、推理机模块、知识获取模块、人机交互模块、综合数据库模块以及解释器模块；其中，知识库模块是问题求解所需要的领域知识的集合，包括基本事实、规则和其他有关信息；推理机模块是是对知识进行解释的程序，根据知识的语义对按一定策略找到的知识进行解释执行，并把结果记录到动态库的适当空间中；推理机模块和知识库模块是分离的，对知识库的修改无须改动推理机；知识获取模块负责建立、修改和扩充知识库，是决策模块中把问题求解的各种专门知识从知识源那里转换到知识库中的机构；人机界面模块是系统与用户进行交流时的界面，通过该界面，用户输入基本信息、回答系统提出的相关问题，系统输出推理结果及相关的解释也是通过人机交互界面；综合数据库模块是反映当前问题求解状态的集合，用于存放系统运行过程中所产生的所有信息，以及所需要的原始数据，包括用户输入的信息、推理的中间结果、推理过程的记录；综合数据库中由各种事实、命题和关系组成的状态，既是推理机模块选用知识的依据，也是解释机制获得推理路径的来源；解释器模块用于对求解过程做出说明，并回答用户的提问；解释机制涉及程序的透明性，它让用户理解程序正在做什么和为什么这样做，向用户提供了关于系统的一个认识窗口；在很多情况下，解释机制是非常重要的；为了回答“为什么”得到某个结论的询问，系统通常需要反向跟踪动态库中保存的推理路径，并把它翻译成用户能接受的自然语言表达方式。

7.一种基于上述任一权利要求所述系统的基于事件传播特征的互联网舆情事件自动预警的方法，其特征在于，在对文章信息进行提取特征信息预警之前，通过利用无监督聚类算法single-pass将流式文本数据进行聚类，生成结构性的事件信息输出，作为事件预警系统输入，这样就可以保证事件类别的文章与此事件具有极强的相关性，保证预警系统的输入数据的质量，减少噪音数据，然后利用机器学习算法随机森林来提取输入数据的事件特征，最后完成事件级的预警功能。

8.根据权利要求7所述的方法，其特征是，具体包括：

步骤1，通过针对不同网站编写不同的爬虫系统代码，爬取全网平台的新闻媒体数据，以待后期进行数据挖掘，用于舆情预警；

步骤2，通过jieba分词对于来自数据源的文章正文进行分词并去掉停用词无用词，通过词袋模型，将该批次分词过后的数据统计分析，获得每个词的词频信息以及索引，待下一步的引用；

步骤3，通过每一个词的词频以及索引，并且利用TF-IDF算法得到每篇文章所对应的向量表示T＝(t1，w1，t2，w2，······ti，wi，·······tn，wn)，其中n表示文章T的单词个数，ti表示每一个单词在词袋中的索引，wi表示单词ti在整个预料中的权重值；

步骤4，流式计算每一篇输入文章向量和已经形成类族的文章向量之间的相似度，通过多次实验寻找适当的阈值，判断当前流入的文章属于已有类别时则直接加入到已有类别之中，否则新生成事件；

步骤5，从已经生成事件的结构性数据当中，提取该事件中的每篇文章的相关数据特征，比如，文章的点赞量，浏览量，转发数，以及评论数，作为事件预警系统的输入；

步骤6，通过随机森林算法将上一步提取到的每个事件的特征输入到预警系统，判断森林中的每一颗决策树对于该事件的分类结果，利用随机森林的集成思想，综合每一个树的结果，按投票的原则，得到最后该事件的预警级信息。