CN112199585A

CN112199585A - 一种基于数据挖掘技术的网络舆情突发热点事件发现方法

Info

Publication number: CN112199585A
Application number: CN202011055051.6A
Authority: CN
Inventors: 呼大永; 孟庆川; 董伊然; 马灿; 高玺艳; 张哲为
Original assignee: Heilongjiang Network Space Research Center; Institute of Information Engineering of CAS
Current assignee: Heilongjiang Network Space Research Center; Institute of Information Engineering of CAS
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-08

Abstract

本发明公开了一种基于数据挖掘技术的网络舆情突发热点事件发现方法，其步骤包括：1)提取当前日期T内每一条待处理的舆情消息的事件特征；2)设置多个时刻，根据各舆情消息的事件特征，统计每一类事件的消息量x_Tij并归一化为

3)读取当前日期T之前N天的每天第i‑1时刻到第i时刻第j类事件的归一化消息量

4)计算Q的第一四分数Q_1ij和第三四分数Q_3ij以及

如果

则判定第j类事件为一个热点事件；如果

则判定第j类事件为非热点事件。

Description

一种基于数据挖掘技术的网络舆情突发热点事件发现方法

技术领域

本发明涉及一种基于数据挖掘技术的网络舆情突发热点事件发现方法，属于计算机数据挖掘领域中热点发现领域，涉及海量数据创新性分析，发明着重解决的问题是在海量信息中发掘突发热点事件并追踪事件的热度变化。

背景技术

近年来，随着Internet的迅速发展，网络在社会发展、人民生活中扮演着越来越重要的角色。互联网已经成为信息承载和传播的核心载体和社会舆论的放大器。网络舆情，特别是突发热点舆情有着发生范围广、传播速度快、影响大的特点。通过社交媒体数据，在突发事件发生的时候，通过挖掘与分析得到有价值的应急信息，对于及时应对网络突发的公共事件和全面掌握社情民意具有重大意义。

突发热点事件发现是一项面向新闻媒体信息流进行位置话题识别和已知话题追中的信息处理技术。当前主流的突发热点事件发现方法分为两类：一类是基于主题模型，例如PLSA、LDA等，这类方法通过迭代计算，近似描述出文档集中的每个主题，但是该类方法只考虑了单词和文档之间的从属关系，没有考虑时间信息，所以通过该类方法建模更容易得到时间无关的静态主题，很难得到时间相关的突发事件主题。第二类是基于聚类方法，包括KNN、凝聚层次聚类等方法识别突发事件。这两类方法都把重点放在文本内容的处理方面，未考虑时间因素。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种综合考虑突发事件的时间特征和社交媒体消息特点的突发热点事件发现方法，时间元素是突发热点事件的重要组成部分，通过时间轴可以追踪事件的热度变化并及时有效的发现事件的发生。此外，本发明通过异常点分析算法发现热点，该方法计算速度快，仅仅通过维护一些统计量便可以实时快速计算当前时间点是否有事件的方法并追踪事件热度变化。因此，本发明的方法不但具有深远的理论价值，而且有着广阔的应用前景，可以创造较大的社会和经济效益。

本发明提出了一个基于时间序列的突发热点事件发现方法流程如图1所示，主要包含两个方面：(1)分析突发事件特征，采用分词、命名实体、国家突发公共事件总体应急预案中规定的事件类型判断文本消息是否涉及事件的发生。(2)热点分析，通过对消息统计量，结合plotbox异常点挖掘算法识别出突发事件，该算法计算速度快，能够实时判断当前时刻是否有热点事件的发生，并追踪事件发展趋势。

舆情消息都是一些非结构化的数据，需要对其进行必要的预处理并提取事件特征，包括事件的发生时间、地点、事件类型特征，其中事件类型包括自然灾害、事故灾害、公共卫生事件以及安全事件四大类，对应164小类。预处理包括：对原始文本集合进行去重、广告和低频词汇进行过滤，短文本过滤、文本分词以及事件特征提取。对于每一个句子，首先判断该句子中是否包含停用词，是否为疑问句以及是否过短等对句子进行过滤。对于一个关于事件的消息，一个句子中必须同时包含事件和地点关键词，因此通过判断一个句子中是否同时包含事件和地点关键词确定该句子是否有效。对于同时包含事件和地点的句子，由于地点有不同的维度，因此要对地点级别进行统一，另外同一种事件类型的表述方式不同，因此对事件关键词也要进行统一，将一些常用口语化的事件表述为标准的事件术语，例如“发大水”转成“洪水”等等，经过上述处理最后完成对一条消息的处理。

热点分析部分涉及到日常数据统计，从大量数据中分析事件正常状态下的指标。通过对这些消息进行文本分析预处理(筛选出包含时间、地点和事件类型的消息)，由于不同的消息描述事件的粒度不同，例如四川省发生地震和汶川县发生地震两条消息，对应的事件词语和地点词语为<四川省，地震>和<汶川县，地震>，统一转换成<四川省，地震>。将地点统一转换成一级省份(事件从164小类转成对应的4大类，地点从市、县转换成省)，统计处理后针对164类事件在一天24小时每个时刻(相邻时刻之间间隔15分钟)的消息量，并进行归一化处理。给定一个日期T以及该天的时刻i，对该时刻所有消息进行处理，得到每条消息对应的<地点，事件类型>特征，统计第j类事件(满足在地点为j_l，事件类型j_e)的消息量x_Tij＝∑data＜loc，event＞if loc＝jL and event＝j_e。

给定一个日期T以及该天的时刻i，对于第j类事件，对应归一化方法如公式(1)所示，

是x_Tij归一化之后的标准值，x_Tij表示日期T的第i-1时刻到第i时刻第j类事件的消息量，min_ij为历史数据中第j类事件在第i-1时刻到第i时刻的数据量最小值，max_ij为历史数据中第j类事件在第i-1时刻到第i时刻的数据量最大值。

热点分析主要是基于事件的统计数据采用PlotBox算法从大量数据中挖掘出热点事件。如图2所示，对于第j类事件，在一个月的时间内每天第i时刻对第i-1时刻到第i时刻消息的归一化消息量

计算Q的Q_1ij(第一四分数)、Q_2ij(第二四分数)和Q_3ij(第三四分数)，其中Q_1ij又称较小四分位数，等于该样本中所有数值由小到大排列后第25％的数字。Q_2ij又称中位数，等于该样本中所有数值由小到大排列后第50％的数字。Q_3ij有称较大四分位数，等于该样本中所有数值由小到大排列后第75％的数字。IQR_ij＝Q_3ij-Q_1ij，为四分位中间距，等于该样本的Q_3ij与Q_1ij之间的差距。

如果

那么第j类事件成为一个热点事件。

其中IQR_ij＝Q3_ij-Q_1ij，θ为热度敏感因子，通常取值为1.5。

如果

那么第j类事件从热点事件变成非热点事件

否则该事件当前状态不变。

本发明首次提出对数据进行竖向统计归一化(因为一天中的不同时刻用户讨论度是不一样的，例如半夜两点一共有100条数据，其中2条数据是讨论汶川地震，上午九点一共有10000条数据，其中有50条讨论汶川地震，单纯比较两个时刻讨论汶川地震的条数是没有意义的，必须基于的消息量，通过时间的纵向归一化将不同时刻的讨论特定事件的数据量放到一个可比较的维度)，归一化之后本发明将热点视为一种特殊的异常点，通过plotbox这个异常点分析算法挖掘出热点。

本发明还提供一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明的积极效果为：

本发明提出的综合考虑突发事件的时间特征和社交媒体消息特点的突发热点事件发现方法与现有的突发热点发现方法进行了对比验证。实验证明，本发明提出的突发热点事件发现方法不仅能够准确挖掘出突发的热点事件并且计算速度快实时性高，能够在海量数据中快速挖掘出热点事件并追踪事件热度变化。

附图说明

图1为本发明方法流程图。

图2为PlotBox图与正态分布的概率密度函数对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图和事例对本发明中技术核心作进一步详细的说明。

一种基于数据挖掘技术的网络舆情突发热点事件发现方法的基本步骤如下。

1.文本预处理部分，对于当前日期T的(i-1)～i时刻接收到的文本消息，进行预处理。

a)加载词典库文件

b)对原文本进行断句，根据回行换行符，标点符号，空格符号等

c)对断句后的每个断句进行分别处理

d)对每个断句进行分词优化，识别人名、地名及事件类型，通过地名和事件类型确定每一类事件的消息量。

2.热点事件发现部分，以第j类事件的发现为例，每一种事件发现都与该流程一致。

a)初始化。读取历史30天的i时刻第j类事件的归一化消息量

以及min_ij和max_ij。

b)计算当前日期T的第i-1时刻到第i时刻第j类事件的消息量进行归一化

c)计算Q的第一四分数Q_1ij和第三四分数Q_3ij以及

d)如果

那么第j类事件成为一个热点事件。

e)如果第j类事件之前为热点事件，如果当前所得

那么将第j类事件从热点事件变成非热点事件。

更新

并更新min_ij和max_ij。

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。