CN108733816B

CN108733816B - 一种微博突发事件检测方法

Info

Publication number: CN108733816B
Application number: CN201810490699.2A
Authority: CN
Inventors: 陈红阳
Original assignee: Chongqing Institute Of Humanities And Science
Current assignee: Chongqing Institute Of Humanities And Science
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2022-02-01
Anticipated expiration: 2038-05-21
Also published as: CN108733816A

Abstract

本申请公开了一种微博突发事件检测方法，包括获取微博文本数据集；基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集进行噪声过滤；以预设时长建立多个时间窗，将微博文本数据集中的微博文本划分至相应的时间窗中；对每个时间窗内的微博文本进行预处理；基于预设特征属性提取每个时间窗的突发特征词集；分别计算目标时间窗内的突发特征词之间的相似度；生成目标时间窗的突发事件。本申请在进行微博突发事件检测时充分考虑了微博文本关注度与发布者的影响力对微博突发事件检测的影响，且充分考虑了微博的情感倾向性、词频统计、词频增长率与TF‑PDF权重等因素对突发特征词识别的影响，提高了突发事件检测的精准度。

Description

一种微博突发事件检测方法

技术领域

本发明涉及网络检测技术领域，尤其涉及一种微博突发事件检测方法。

背景技术

微博是近年来兴起的、支持跨平台的信息互动交流的社会化媒体，因其简单、快捷的使用方式，受到广大发布者的青睐。大量新奇、热点时事以及短时爆发的突发事件等首见于此，并及时得到快速传播。采用突发事件检测技术对海量微博文本信息进行归类、组织，识别其所蕴含的突发事件信息呈现给发布者，既可解决信息过载问题，又可为政府、企业、组织机构等部门应对突发事件制定应急决策提供数据支撑，进一步正确引导微博舆情朝向健康方向发展，维护社会秩序，保持和谐与稳定。因此，研究针对微博文本的突发事件检测技术具有重要的理论价值和现实意义。

微博突发事件检测(Burst Event Detection，简称BED)，主要是通过一定的检测算法从海量微博数据中挖掘出含有突发性特征的事件，从而识别微博平台中的突发事件。目前，微博突发事件检测技术主要有基于聚类的突发事件检测技术与基于特征的突发事件检测技术两类，且后者是主流的技术，应用较广泛。研究者针对微博噪声去除以及突发特征词识别方面展开了相应的研究，并取得初步成果。《突发事件检测与关键节点挖掘研究》提出基于词性与特定格式的微博噪声数据过滤方法；《基于爆发词识别的微博突发事件监测方法研究》提出基于微博文本字数、发布者粉丝数、标签标注与特定格式的微博噪声数据过滤方法；文献《基于突发特征词与情感分析的微博突发事件监测研究》则提出了基于噪声词典、噪声发布者及特定格式的微博噪声数据过滤方法。这些方法虽一定程度上去除了有碍于微博突发事件检测的噪声数据，但未能充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响。

《中文微博突发事件检测研究》提出基于词频统计、词增长率与TF-PDF权重计算的微博突发特征词识别算法；《基于突发特征词聚类的微博突发事件检测方法》结合发布者影响力和词语的TF-IDF权重，提出基于突发度的微博突发特征词识别算法；《基于突发主题词和凝聚式层次聚类的微博突发事件检测研究》提出基于词频、文本频率、话题标签以及词频增长率特征的微博突发特征词识别算法；《基于KL距离的微博突发话题检测研究》提出基于词频、文本频率、发布者影响力以及TF-PDF的微博突发特征词识别算法。上述方法均是从某几个方面出发，设计微博突发特征词识别算法，有助于微博突发事件的检测，但未能综合考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响，有失偏颇。

因此，如何在进行微博突发事件检测时充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响，且充分考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响，成为了本领域技术人员亟需解决的问题。

发明内容

针对现有技术存在的上述不足，本发明要解决的技术问题是：如何在进行微博突发事件检测时充分考虑微博文本关注度与发布者的影响力对微博突发事件检测的影响，且充分考虑微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响。

为解决上述技术问题，本发明采用了如下的技术方案：

一种微博突发事件检测方法，包括：

步骤1：获取微博文本数据集D；

步骤2：基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤；

步骤3：以预设时长建立多个时间窗，将微博文本数据集D中的微博文本划分至相应的时间窗中；

步骤4：对每个时间窗内的微博文本进行预处理；

步骤5：基于预设特征属性提取每个时间窗的突发特征词集BT_i3，i3＝1,2，3，……n3，n3为时间窗的数量，每个突发特征词词集包括多个突发特征词；

步骤6：使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度；

步骤7：基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发特征词进行聚类，生成目标时间窗的突发事件。

优选地，步骤2包括：

提取微博文本数据集D中微博文本的类别信息；

基于所述类别信息去除微博文本数据集D中预设类别的微博文本；

提取微博文本数据集D中微博文本的字数信息；

基于所述字数信息去除微博文本数据集D中字数小于预设字数阈值的微博文本；

计算微博文本数据集D中微博文本的文本影响力评分Quality_text；

基于所述文本影响力评分Quality_text去除微博文本数据集D中文本影响力评分Quality_text小于预设评分阈值的微博文本，完成微博文本数据集D的噪声过滤。

优选地，文本影响力评分

代表微博文本的发布者影响力，即发布者被关注数U_follow与发布者关注数U_attention比值的对数，

表示微博文本的关注度，即微博文本的评论数Comment_text、转发数Forward_text、收藏数Collect_text与点赞数Prize_text的总和的对数与微博数据集D中所有微博文本的评论数Comment_i1、转发数Forward_i1、收藏数Collect_i1与点赞数Prize_i1的总和的对数的比值，而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重，i1＝1,2，3，……n1，n1为微博文本数据集D中的微博文本的数量。

优选地，步骤4包括：

对时间窗内的微博文本进行切词获得微博文本词集；

基于预设的词语情感数据库与微博文本词集进行对比，获得微博文本词集的情感信息；

基于预设的命名实体词库与话题标签库与微博文本词集进行对比，获得微博文本词集的词属性信息，词属性信息记录了微博文本词集是否包括命名实体词，以及微博文本词集中是否有词语属于话题标签，所述命名实体词包括词性为名词、动词、时间词、方位词或地点词的词语。

优选地，步骤5包括：

分别统计每个时间窗的微博文本词集中的每个词的词频与文本频率；

遍历每个时间窗的微博文本词集中的每个词，将词频与文本频率满足预设条件的词作为候选突发特征词，并形成每个时间窗的候选突发特征词集BW_set；

基于候选突发特征词集BW_set中每个候选突发特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值W_i2，i2＝1,2，3，……n2，n2为候选突发特征词集BW_set中的候选突发特征词的数量，

其中，

W_i2表示时间窗内任意候选突发特征词w_i2的权重，D表示微博数据集，n_i2j6表示候选突发特征词w_i2在任意微博文本j6中的词频，N_j6表示所有微博文本的数量，H_i2j6在表示候选突发特征词w_i2在微博文本j6中的命名实体权重因子，若候选突发特征词w_i2为命名实体，则取值为1，否则为0；E_i2j6在表示候选突发特征词w_i2在文本j6中的话题标签权重因子，若候选突发特征词w_i2包括话题标签，则取值为1，否则为0；K表示微博文本j6中的总词数，F_k2j6表示微博文本j6中的第k2个词；

计算候选突发特征词集BW_set每个候选突发特征词的词频增长率Z_i2，

其中，Z_i2表示候选突发特征词w_i2的词频增长速率，F_i2i3表示候选突发特征词w_i2在时间窗口T_i3中的词频，T_i3为任意一个时间窗口，k3表示时间窗口T_i3之前时间的时间窗口数；

计算候选突发特征词集BW_set每个候选突发特征词的关注度G_i2，

其中Comment_i2，Forward_i2，Collect_i2，Prize_i2分别为候选突发特征词w_i2所在微博文本的评论数、转发数、收藏数与点赞数，Comment_i2 ^j6，Forward_i2 ^j6，Collect_i2 ^j6，Prize_i2 ^j6分别为含候选突发特征词w_i2的第j6个微博文本的评论数、转发数、收藏数与点赞数，DD为当前计算的时间窗口中微博文本总数；

计算候选突发特征词集BW_set每个候选突发特征词的情感权重值E_i2，其中

DD为当前计算的时间窗口中微博文本总数，e_j6 ⁱ²为含有候选突发特征词w_i2的第j6条微博文本的情感倾向值，emotion(i2)为候选突发特征词w_i2的情感倾向值，mm为第j6条微博文本中词的总个数；

计算候选突发特征词的突发权重Bursty_i2＝γ₁×W_i2+γ₂×Z_i2+γ₃×G_i2+γ₄×E_i2，其中，γ₁+γ₂+γ₃+γ₄＝1，γ₁是TF-PDF权重值W_i2的权重、γ₂是词频增长率Z_i2的权重、γ₃是关注度G_i2的权重、γ₄是情感权重值E_i2的权重；

将突发权重Bursty_i2大于预设权重的候选突发特征词作为突发特征词，形成时间窗的突发特征词集BT_i3。

优选地，步骤6包括：

基于公式

计算突发特征词之间的相似度Sim(w_i4,w_j4)，式中，w_i4,w_j4表示同一个突发特征词集中的任意两个突发特征词，|P^t|表示此时间窗内的微博文本数，p_k则此时间窗中同时含有突发特征词w_i4及w_j4的微博文本数。

优选地，步骤7包括：

步骤(1)：将时间窗内每个词作为一个簇；

步骤(2)：基于公式

计算任意两个簇C_i5及C_j5的相似度Sim(C_i5,C_j5)，|C_i5×C_j5|表示任意两个簇C_i5及C_j5中词语数量的乘积，w_i5,w_j5分别是对应簇C_i5,C_j5中的任意一个突发特征词；

步骤(3)：将相似度最大的两个簇合并，

步骤(4)：再次计算任意两个簇的相似度，若此时新的相似度最大的两个簇的相似度小于相似度阈值，则执行步骤(3)，否则执行步骤(5)；

步骤(5)：去除突发特征词小于预设特征词阈值的簇，基于剩余的簇生成对应时间窗的突发事件。

综上所述，本申请公开了一种微博突发事件检测方法，包括获取微博文本数据集；基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集进行噪声过滤；以预设时长建立多个时间窗，将微博文本数据集中的微博文本划分至相应的时间窗中；对每个时间窗内的微博文本进行预处理；基于预设特征属性提取每个时间窗的突发特征词集；分别计算目标时间窗内的突发特征词之间的相似度；生成目标时间窗的突发事件。本申请在进行微博突发事件检测时充分考虑了微博文本关注度与发布者的影响力对微博突发事件检测的影响，且充分考虑了微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响，提高了突发事件检测的精准度。

附图说明

图1是本申请公开了一种微博突发事件检测方法的流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述说明。

如图1所示，本申请公开了一种微博突发事件检测方法，包括：

S101：获取微博文本数据集D；

微博文本数据集D包括了多个微博文本，可以采用网络爬虫进行微博文本的获取，获取方式为现有技术，在此不再赘述。

S102：基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤；

S103：以预设时长建立多个时间窗，将微博文本数据集D中的微博文本划分至相应的时间窗中；

由于获取的微博文本数据集D包括的微博文本的发布时间极广，

S104：对每个时间窗内的微博文本进行预处理；

S105：基于预设特征属性提取每个时间窗的突发特征词集BT_i3，i3＝1,2，3，……n3，n3为时间窗的数量，每个突发特征词词集包括多个突发特征词；

基于预设特征属性提取每个时间窗的突发特征词集BT_i3，i3＝1,2，3，……n3，n3为时间窗的数量，每个突发特征词词集包括多个突发特征词

S106：使用词语相似度计算方法分别计算目标时间窗内的突发特征词之间的相似度；

S107：基于目标时间窗的突发特征词之间的相似度使用聚类算法对目标时间窗的突发特征词进行聚类，生成目标时间窗的突发事件。

此处的目标时间窗根据实际需要来确定，可以是一个时间窗，也可以是多个时间窗，每个目标时间窗，分别生成突发事件。与现有技术相比，本申请提出了新的微博突发事件检测方法，该方法首先基于发布者影响力与文本关注度改进去噪算法，滤除微博中的噪声数据，然后提出基于多特征的突发特征词识别算法，最后结合聚类算法应用于微博数据以实现突发事件检测。相比于传统的突发事件检测方法，本方法在进行微博突发事件检测时充分考虑了微博文本关注度与发布者的影响力对微博突发事件检测的影响，且充分考虑了微博的情感倾向性、词频统计、词频增长率与TF-PDF权重等因素对突发特征词识别的影响，提高了突发事件检测的精准度。

具体实施时，步骤S102包括：

提取微博文本数据集D中微博文本的类别信息；

微博文本的类别信息记录了此微博文本的所属类别，例如明星娱乐类、购物类、美食类及电影类；

此处的预设类别可根据实际情况进行设定，例如：明星娱乐类、购物类、美食类及电影类。

提取微博文本数据集D中微博文本的字数信息；

当微博文本字数过少时，基本不存在具备包括突发事件的潜质，因此根据实际情况设置一个预设字数阈值，将小于预设字数阈值的微博文本去除，预设字数阈值可以为10。

在采用文本影响力评分进行噪声过滤之前，先去除类别及字数不符合的微博文本，可以极大地减少后续的计算量，提高过滤的速度。

具体实施时，文本影响力评分

本申请将发布者影响力及文本关注度相结合，根据计算得到的文本影响力评分Quality_text对微博文本的质量进行评价，过滤掉不被人关注的，影响力小的微博文本，去除杂质，减少后续的计算量，进而提高检测的精准度。

具体实施时，步骤S104包括：

对时间窗内的微博文本进行切词获得微博文本词集；

研究表明，停用词、特殊符号(如@，#等)、URL等为无用信息，会对微博突发事件检测造成干扰；而词性为名词、动词、时间词、方位词和地点词等词语可更好地描述微博事件。因此，本申请中会重点考虑名词、动词、时间词、方位词和地点词等命名实体词，此外，若包含特殊的标签，其成为特殊事件的可能也会提高。

具体实施时，步骤S105包括：

其中，

DD为当前计算的时间窗口中微博文本总数，e_j6 ⁱ²为含有候选突发特征词w_i2的第j6条微博文本的情感倾向值，emotion(i2)为候选突发特征词w_i2的情感倾向值，可以设置一个词语情感数据库，通过将候选突发特征词与词语情感数据库内预设的数据进行对比，判断候选突发特征词的情感倾向值，例如，正向情感，取值为1，负向情感，取值则为-1，中性情感则取值为0，此外，其取值也可采用在0-1之间进行取值取值越大，其表示的正面情感越强，取值越小，其表示的负面情感越强，mm为第j6条微博文本中词的总个数。

若计算的时间窗口中一个词的词频高于其他时间窗中该词的平均词频，且在进行计算的时间窗中包含该词的文本数量也高于其他时间窗口中包含该词的平均文本数量，那么它成为突发特征词的可能性较大。当满足公式

及

时，判断词频与文本频率满足预设条件，其中，tf_wj3(T_i3)表示当前进行计算的时间窗口T_i3内词w_j3的词频，N_docj3(T_i3)表示当前时间窗口T_i3内词w_j3的文本频率，

为词w_j3在时间窗口T_i3之前时间的时间窗的平均词频，

为词w_j在时间窗口T_i3之前时间的时间窗中的平均文本频率，k3为时间窗口T_i3之前时间的时间窗数。基于候选突发特征词集BW_set每个候选突发特征词的词属性信息计算每个候选突发特征词的TF-PDF权重值W_i2，i2＝1,2，3，……n2，n2为候选突发特征词集BW_set中的候选突发特征词的数量；

TF-IDF方法主要度量一个词对所在文本内容主题的表征程度以及有别于其他文本的有效区分度，但对于词的突发性度量已不适用。一个词成为突发特征词，其词频以及文本频率都将会急剧增加，目前多采用TF-PDF方法度量词的重要性。此外，突发事件通常由时间、地点、人名、机构名等命名实体标注，应给予命名实体词较高的权重；含有话题标签的词通常也描述着突发事件信息，也应给予较高的权重，本申请在计算中考虑了每个候选突发特征词的TF-PDF权重值W_i2，进一步的提高了突发事件检测的精准度。

在本申请中，采用公式

及

计算每个候选突发特征词的TF-PDF权重值W_i2。

突发特征词是短时间内词频急剧增加的词汇，具有一定的突发特性。可以用词频增长速率反映当前计算的时间窗口相较于其他时间窗口而言，某一个词的突发性，计算公式如下

其中，Z_i2表示候选突发特征词w_i2的词频增长速率，F_i2i3表示候选突发特征词w_i2在时间窗口T_i3中的词频，k3表示时间窗口T_i3之前时间的时间窗数。

微博文本得到的评论数、转发数、点赞数与收藏数越多，则其所受到的关注度越大。因此文本中词汇所蕴含的信息也就越多，成为突发特征词的可能性越大。

突发事件发生后，网民进行大量微博信息发布、转发与评论等操作，进一步推动蕴含网民强烈的正面或负面情绪的滋生与蔓延。可见，微博文本中蕴含的情感对突发特征词识别也具有一定的影响力。

因此，本申请综合了多种突发特征生成突发特征词集，能够极大地提高突发事件检测的精准度。

具体实施时，步骤S106包括：

基于公式

基于上下文词语同现性的词语相似度计算方法来衡量突发特征词之间的相似性，能够有效避免基于语义词典的词语语义相似度计算方法造成的语义相似度较低的词语却是描述同一事件的突发特征词现象的发生，进一步提高突发事件检测的准确性。

具体实施时，步骤S107包括：

步骤(1)：将时间窗内每个词作为一个簇；

步骤(2)：基于公式

步骤(3)：将相似度最大的两个簇合并，

本申请中，最后剩下的符合要求的簇，即为若干个突发特征词，由这几个突发特征词，能够生成对应的时间窗的突发事件。该聚类方法优点是可生成较规整的类集合，所得聚类结果与原始数据的初始排列及输入顺序无关，与聚类过程的先后顺序也无关，因此，聚类结果较稳定，不易导致类的重构，聚类质量比较高。

根据本申请提供的技术方案，使用来源于新浪微博，通过网络爬虫所获取的2014年8月1日-8月15日期间所产生的微博数据，进行效果验证。获取的微博数据主要包括微博文本内容、发布时间、发布作者、转发数、评论数、收藏数与点赞数等信息，获取的微博数据中一共包括3个突发事件，分别是‘X地爆炸事件’、‘Y地爆炸事件’以及‘Z地地震事件’。

采用公式

进行性能测评。Precision表示准确率，Recall表示召回率，F-measure表示F值，且correct为系统正确检测出的突发事件数，output为系统检索出来的突发事件数，labeled则为测试数据集中所包含的突发事件总数。

选择每个时间窗的时长为1小时，主要分为两个实验：

实验(一)：将将基于用户影响力与文本关注度的噪声去除算法(S102的算法)与文献[4](突发事件检测与关键节点挖掘研究)、[5](基于爆发词识别的微博突发事件监测方法研究)、[6](基于突发特征词与情感分析的微博突发事件监测研究)所提出的各个算法应用于微博突发事件检测中，并观测其在准确率、召回率以及F值上的变化，以对比分析各种噪声去除算法滤除微博噪声数据的有效性，具体见表1所示。

表1各种微博噪声去除算法应用于突发事件检测的性能指标对比分析

微博噪声去除算法	准确率％	召回率％	F值％
				文献[4]	42.85	52.35	47.13
文献[5]	49.36	63.16	55.41
				文献[6]	53.49	68.36	60.02
本文改进的噪声去除算法	62.49	75.68	68.45

观测表1中所示数据，可知，相比较于文献[4]、[5]、[6]所提出的噪声去除算法，本申请公开的技术方案使得突发事件检测的准确率等指标有所提升。这说明该算法可以更好地去除微博数据中的噪声数据，辅助于微博突发事件检测，进一步提高突发事件检测的效果。

实验(二)：将基于多特征的突发特征词识别算法(S104到S107的算法)与文献[7](中文微博突发事件检测研究)、[8](基于突发特征词聚类的微博突发事件检测方法)、[9](基于突发主题词和凝聚式层次聚类的微博突发事件检测研究)、[10](基于KL距离的微博突发话题检测研究)所提出的特征词识别算法应用于微博突发事件检测中，观测其在各个性能指标上的变化，并通过对比分析评测各个算法在突发特征词识别上的性能。具体见表2所示。

表1各种微博特征词识别算法应用于突发事件检测的性能指标对比分析

微博特征词识别算法	准确率％	召回率％	F值％
				文献[7]	55.89	69.48	61.95
文献[9]	58.47	73.58	65.16
				文献[8]	62.98	78.56	69.91
文献[10]	65.32	80.18.	70.01
				本文改进的突发特征词识别算法	68.24	85.63	75.95
本文所提微博突发事件检测方法	72.39	88.26	79.54

从表2中所示数据来看，S104至S107的算法用于微博突发事件检测时，相比于文献[7]、[8]、[9]和[10]中的算法，更能提高突发事件检测的效果；且将基于用户影响力与文本关注度的噪声去除算法，以及基于多特征的突发特征词识别算法结合(即S101至S107的算法)，应用于微博数据实现突发事件检测时，其检测效果又得到进一步提升。这主要是因为，改进的微博噪声去除算法综合发布者影响力与文本受关注程度两方面，可以更好地去除微博文本中存在的噪声数据；改进的突发特征词识别算法也全面考虑了突发特征词所具备的各种特性，使得突发特征词的识别更为准确，最终也提高了突发事件的检测效果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims

1.一种微博突发事件检测方法，其特征在于，包括：

步骤1：获取微博文本数据集D；

步骤2：基于微博文本关注度及微博文本对应的发布者的影响力对微博文本数据集D进行噪声过滤；该步骤包括：

提取微博文本数据集D中微博文本的类别信息；

提取微博文本数据集D中微博文本的字数信息；

基于所述文本影响力评分Quality_text去除微博文本数据集D中文本影响力评分Quality_text小于预设评分阈值的微博文本，完成微博文本数据集D的噪声过滤；

文本影响力评分

表示微博文本的关注度，即微博文本的评论数Comment_text、转发数Forward_text、收藏数Collect_text与点赞数Prize_text的总和的对数与微博数据集D中所有微博文本的评论数Comment_i1、转发数Forward_i1、收藏数Collect_i1与点赞数Prize_i1的总和的对数的比值，而α,β分别为发布者影响力与文本关注度对文本影响力评分的权重，i1＝1,2，3，……n1，n1为微博文本数据集D中的微博文本的数量；

步骤4：对每个时间窗内的微博文本进行预处理；该步骤包括：

对时间窗内的微博文本进行切词获得微博文本词集；

基于预设的命名实体词库与话题标签库与微博文本词集进行对比，获得微博文本词集的词属性信息，词属性信息记录了微博文本词集是否包括命名实体词，以及微博文本词集中是否有词语属于话题标签，所述命名实体词包括词性为名词、动词、时间词、方位词或地点词的词语；

步骤5：基于预设特征属性提取每个时间窗的突发特征词集BT_i3，i3＝1,2，3，……n3，n3为时间窗的数量，每个突发特征词集包括多个突发特征词；该步骤包括：