CN105224604B

CN105224604B - 一种基于堆优化的微博突发事件检测方法及其检测装置

Info

Publication number: CN105224604B
Application number: CN201510555292.XA
Authority: CN
Inventors: 于瑞国; 林榆旺; 喻梅; 王建荣; 于健; 赵满坤
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2015-09-01
Filing date: 2015-09-01
Publication date: 2019-01-29
Anticipated expiration: 2035-09-01
Also published as: CN105224604A

Abstract

本发明公开了一种基于堆优化的微博突发事件检测方法及其检测装置，所述检测方法包括以下步骤：对预处理后的微博数据按时间窗分组，分别计算组内微博文本的词语权重；通过所述词语权重获取词语的突发度，并计算时间窗内词语的突发度，提取突发词集合；对所述突发词集合进行聚类，通过堆优化加速聚类的过程；对聚类结果进行处理，提取有效事件。所述检测装置包括：计算模块、第一提取模块、聚类模块和第二提取模块。本发明通过结合用户影响力等因素，用于在大量的微博短文本中检测突发事件，以满足用户及时获取突发事件的需求，满足了实际应用中的需要。

Description

一种基于堆优化的微博突发事件检测方法及其检测装置

技术领域

本发明涉及短文本流的微博突发事件检测领域，尤其涉及一种基于堆优化的微博突发事件检测方法及其检测装置。

背景技术

TDT(话题检测与跟踪)技术从1996年开始兴起，最早的目标是用于对在线新闻文本进行话题识别和跟踪。随着互联网的发展，短文文本应用如微博，Twitter等随之兴起，短文文本的话题检测需求日益突出，于是在短文文本方面的TDT技术也不断发展。目前针对国内外在微博突发事件的研究方法上，主要分为两种，以文本为中心的方法和以突发特征为中心的方法。

以文本为中心的方法通过先抽取文本的主题词，通过主题词表示文本的内容，再对文本进行聚类，从而识别突发事件。目前以文本为中心的方法常用的有基于语义扩展的方法和进行主题建模的方法。在主题建模中，LDA(Latent Dirichlet Allocation，文档主题生成模型)主题建模较为常用，该方法在2003年由D.MBlei提出，是一种非监督机器学习的方法，可对自然语言进行建模，用于识别大规模文档集和语料库中潜在的主题信息。由于短文文本字数较少，数据较为稀疏，普通的以文本为中心的方法难以取得良好的检测效果。

以突发特征为中心的方法，先抽取短文文本中的突发特征词，再对突发特征词进行聚类，利用聚类结果表示事件从而实现突发事件的识别和检测。该方法可以过滤大部分的垃圾信息，减小噪声影响。由于突发特征词的数量较大，使用本方法在聚类上的时间复杂度也较高。

发明内容

本发明提供了一种基于堆优化的微博突发事件检测方法及其检测装置，本发明通过引入相应的数据结构，提升微博突发事件的检测效率，帮助用户更加快速，及时获取微博突发事件，详见下文描述：

一种基于堆优化的微博突发事件检测方法，所述检测方法包括以下步骤：

对预处理后的微博数据按时间窗分组，分别计算组内微博文本的词语权重；

通过所述词语权重获取词语的突发度，并计算时间窗内词语的突发度，提取突发词集合；

对所述突发词集合进行聚类，通过堆优化加速聚类的过程；

对聚类结果进行处理，提取有效事件。

其中，所述对所述突发词集合进行聚类，通过堆优化加速聚类的过程的步骤具体为：

按照堆顶结点的簇间距离最小的原则，对堆进行排序编号；

从排序编号小的簇开始，查看簇的堆顶结点，如果堆顶结点记录的距离值小于当前已知的最小距离值，则记录该簇编号，选择当前堆顶结点，同时更新最小距离值，直到遍历完所有簇；

将最终得到的簇编号与距离最近的簇合并，同时计算合并后簇与其他簇的簇间距离，并建立对应的堆保存信息。

其中，所述对聚类结果进行处理，提取有效事件的步骤具体为：

分析突发词聚类簇中是否包含了描述一个事件的必需词汇，删除无法描述事件的聚类簇，筛选出有效聚类簇，所述有效聚类簇为簇中词语包含时间、地点、人物、事件要素。

一种基于堆优化的微博突发事件检测装置，所述检测装置包括：

计算模块，用于对预处理后的微博数据按时间窗分组，分别计算组内微博文本的词语权重；

第一提取模块，用于通过所述词语权重获取词语的突发度，并计算时间窗内词语的突发度，提取突发词集合；

聚类模块，用于对所述突发词集合进行聚类，通过堆优化加速聚类的过程；

第二提取模块，用于对聚类结果进行处理，提取有效事件。

其中，所述聚类模块包括：

排序子模块，用于按照堆顶结点的簇间距离最小的原则，对堆进行排序编号；

第一获取子模块，从排序编号小的簇开始，查看簇的堆顶结点，如果堆顶结点记录的距离值小于当前已知的最小距离值，则记录该簇编号，选择当前堆顶结点，同时更新最小距离值，直到遍历完所有簇；

第二获取子模块，用于将最终得到的簇编号与距离最近的簇合并，同时计算合并后簇与其他簇的簇间距离，并建立对应的堆保存信息。

其中，所述第二提取模块包括：

提取子模块，用于分析突发词聚类簇中是否包含了描述一个事件的必需词汇，删除无法描述事件的聚类簇，筛选出有效聚类簇。

本发明提供的技术方案的有益效果是：在微博海量数据中，充斥着大量的垃圾信息和无用，由于用户是通过手动的方式浏览微博信息，大量的垃圾信息和无用信息给用户寻找有效的信息带来困难。本发明通过过滤垃圾信息和无用信息，再结合用户影响力等因素，在大量的微博文本中检测出最有可能的用户感兴趣的突发事件，以满足用户及时获取突发事件的需求。通过本发明，用户可以避免再海量的微博数据中逐个查找，能够及时获取最近发生的重大事件，了解事件的起因、经过。用户也能够通过该方法得到的结果，对突发事件进行追踪，了解到事件当前状态。

附图说明

图1为一种基于堆优化的微博突发事件检测方法的流程图；

图2为微博数据预处理的流程图；

图3为本方法与原有方法在时间增长率变化上的对比示意图；

图4为一种基于堆优化的微博突发事件检测装置的结构示意图；

图5为聚类模块的结构示意图；

图6为第二提取模块的结构示意图。

附图中，各部件的列表如下：

1：计算模块； 2：第一提取模块；

3：聚类模块； 4：第二提取模块；

31：排序子模块； 32：第一获取子模块；

33：第二获取子模块； 41：提取子模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于堆优化的微博突发事件检测方法，参见图1，该检测方法包括以下步骤：

101：对微博文本进行降噪，分词的预处理；

其中，微博文本中包含大量表情符号、网页地址链接、用户评论内容等无效的数据，在微博文本中匹配这些字符，并将其删除。通过分词软件对微博文本进行分词处理。

102：对预处理后的微博数据按时间窗分组，分别计算组内微博文本的词语权重；

103：通过词语权重获取词语的突发度，并计算时间窗内词语的突发度，提取突发词集合；

用户影响力由粉丝数，发布的微博数，是否VIP用户，活跃度这些因素影响。影响力较大的用户发布的微博内容越容易受到关注，同时这些用户可能发布重要事件。对于每个用户要区别对待他们发布的微博，影响力越大的用户发布的微博事件越可能是热点事件或突发事件，因此影响力越大的用户发布的微博词语的权重也应该越大。

突发事件的突发性表现在事件来的突然，并且迅速被广泛讨论。通过将当前时间窗内的词语权重与回顾时间窗内的词语权重对比得到词语在当前时间窗内的突发度情况。微博突发事件突发性越强，则表示该事件的词语在对应时间窗中的突发度越高。

104：对突发词集合进行聚类，通过堆优化加速聚类的过程；

定义簇为聚类过程中多个突发词语所属集合。定义簇间距离为两簇中词语个数的乘积除以簇间相似度；两簇的相似度为包含两簇中的任意单词对微博文本数量之和除以总的微博文本数量。

通过利用基于堆优化的突发词聚类算法，对突发词进行聚类，聚类算法的实现如下所示：

1)初始时，每个突发词属于一个簇；

2)预处理所有簇对的簇间距离；

即，对于每个簇建立一个堆保存该簇到其他簇的簇间距离，以及对应簇的ID值。

3)对于每个簇，查询与该簇距离最小的簇间距离；

4)选择簇间距离最小、且距离小于聚类阈值的两个簇进行合并；删除合并的两个簇，并将合并后的簇与其它存在的簇计算簇间距离，并建立新的堆保存簇间距离以及对应簇的信息。

5)重复3)、4)步骤直至最小的簇间距离大于等于聚类阈值。

105：对聚类结果进行处理，提取有效事件。

对于聚类结果，删除聚类结果中簇中突发词语个数小于2的簇，删除无法完整表示一个事件的簇；处理后即筛选出有效的微博事件。

综上所述，本发明实施例通过上述步骤101-步骤105提升了微博突发事件的检测效率，帮助用户更加快速，及时的获取微博突发事件。

实施例2

下面结合具体的计算公式、例子对实施例1中的技术方案进行详细的描述，详见下文：

201：微博突发事件检测过程中，首先要进行微博文本的降噪处理，在此过程中，需要删除微博文本中的表情符号、网页链接、评论内容等垃圾字符。

202：对降噪过后的微博文本通过IKAnalyzer分词工具进行分词处理；

在分词过程中，需要添加扩展词表和去停用词表，以提高分词的效果。通过分词处理，得到微博文本的分词结果。其中，IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包，该工具包为本领域技术人员所公知，本发明实施例对此不做赘述。

203：以天为单位划分微博文本时间窗，对于时间窗内的每条微博文本计算出每条微博文本中词语的权重；该权重表示词语在所属微博文本中的重要程度；

计算方法如公式1所示。其中，W_j,i表示词语j在微博文本i中的权重，tf_j,i表示微博文本i中词语j的词频，表示在文件i中所有词语的最大词频。

204：考虑微博转发与评论的情况，计算出时间窗内各个词语在时间窗中的权重；该计算得到的词语权重体现了词语在时间窗内的重要程度；

单个时间窗内词语权重的计算如公式2所示。

表示词语j在时间窗t内的权重；attittude_pi表示其他用户对微博文本p_i点赞个数；reply_pi表示其他用户对微博文本p_i的评论个数；w_j,i为词语j在微博文本i中的权重；为时间窗t内包含词语j的微博文本；α，β是权重因子。

其中，热点事件通常受到用户的广泛讨论，并且热点事件可以由主要的几个词语进行描述，当前时间窗内发布与词语相关的微博越多，参与评论互动的用户越多，会导致词语在当前时间窗内的权重越大，说明与词相关的事件越有可能是当前的热点事件。

205：计算出用户的影响力；

计算用户的影响力，用户的影响力计算方法如公式3所示，其中，Infu为用户的影响力；Fa为用户粉丝数；Tw为微博数；Pos为活跃度；IsVip为是否VIP用户，如果是VIP用户取1，否则取0；γ是VIP用户的影响权重因子。

206：通过公式4计算出时间窗内所有词语的突发度；

对于单个时间窗内的词语，通过与前N个时间窗内词语的比较，计算得到词语的突发度情况，计算方法如公式4所示，lb()是对数函数；k表示枚举前N个回顾时间窗；表示时间窗t中包含词语j的微博文本集合；P_n，P_b表示微博文本集合中的一条微博文本；为时间窗t内词语j的突发度；Inf_pn为发布微博文本P_n的微博用户的影响力；为时间窗k中词语j的词语突发度；Inf_pb为发布微博文本P_b的微博用户的影响力。

如果用户为VIP用户，则IsVip取1；否则该变量取0。如果用户每日发布的微博数量大于5则令活跃度Pos为0.5；如果用户每日发布的微博数量在1至5之间，则令活跃度Pos为0.2，否则令Pos为0。其中，VIP用户的影响权重因子γ取0.5为例进行说明，具体实现时，本发明实施例对此不作限制；并且活跃度的取值、以及微博数量的设置根据实际应用中的需要进行设定，本发明实施例对此也不做限制。

207：选定突发词阈值，对于突发度大于等于突发词阈值的词语加入突发词集合中；

其中，突发词阈值的选择需要根据实验数据的情况进行调整。在本发明实施例的实验中突发词阈值以800为例进行说明，具体实现时，本发明实施例对此不作限制。

208：按照堆顶结点的簇间距离最小的原则，对堆进行排序；

针对本发明，堆中需要记录的信息包括簇间距离以及对应的簇的编号，因此对于堆中的排序顺序必须满足堆顶结点的簇间距离最小，如果有多个结点的距离相等，那么对应簇编号较小的结点的优先级要更高。

209：选取距离最小的两个簇进行合并，即从编号小的簇开始，查看簇的堆顶结点，如果堆顶结点记录的距离值(堆顶结点记录的距离值为与该簇距离最小的簇的距离)小于当前已知的最小距离值，记录簇编号，选择该堆顶结点，同时更新最小距离值，直到遍历完所有簇；

210：将最终得到簇编号与距离最近的簇合并，同时计算合并后的簇与其他簇的簇间距离，并建立对应的堆保存信息；

其中，当最小距离值大于突发词阈值时聚类过程结束，否则重复执行步骤209和步骤210。

211：删除无法描述事件的聚类簇，筛选出有效的聚类结果。

其中，在突发词聚类的结果中，分析突发词聚类簇中是否包含了描述一个事件的必需词汇，删除无法描述事件的聚类簇。筛选出有效的聚类结果，筛选后的聚类结果中词汇便可以描述对应的突发事件。有效的聚类簇为簇中词语包含时间、地点、人物、事件等要素。

本发明实施例是一种基于堆优化的微博突发事件检测方法，通过结合用户影响力等因素，用于在大量的微博短文本中检测突发事件，以满足用户及时获取突发事件的需求。

综上所述，本发明实施例通过上述步骤201至步骤211使得用户能够及时获取最近发生的重大事件，了解事件的起因、经过。用户也能沟通该方法得到的结果，对突发事件进行追踪，了解到事件当前状态。

实施例3

下面结合具体的例子，附图3对实施例1和2中的方案进行可行性验证，详见下文描述：

本发明实施例的目的在于优化原有方法的聚类算法，以提升微博突发事件的检测方法的检测效率。通过利用本方法成功将原有算法的时间复杂度由O(N³)降低为O(N²*log(N))，同时在实验中达到了预期的目的。

对比实验中，通过控制突发词数规模为100、200、400、800、1600对比本方法与原有方法的实际运行时间。对比实验中，通过控制输入数据一致性，数据预处理一致性，以及其他环境一致的条件下多次实验取平均值来比较两种方法的运行时间。通过实验表明，在不同突发词规模的情况下，本方法的运行时间与未加入堆优化方法的运行时间比分别为1:11.7，1:21.3，1:42.0，1:80.3，1:140.9。实验结果显示，实际运行的时间比值与理论时间比值一致。因此本方法在时间复杂度上达到了相应的效果，成功将复杂度降低一个等级。

在突发词阈值选取的实验中，从200到3000的范围内对突发词阈值进行调整。在突发词阈值从200到3000的变化过程中，聚类结果表现为分散、一般、高度聚集的情况。其中在突发词阈值低时，表现分散现象，同一事件容易被划分为不同事件。在突发词阈值较高时，表现为高度聚集现象，容易出现不同事件被划分为同一事件。在中间段突发词阈值的取值中，分散和高度聚集的现象都较为不明显。当突发词阈值为800时，聚类结果的聚集程度较好，取得了较好的效果，准确识别出了8个突发事件中的6个事件，准确率为0.75。

图3给出了本方法和原有方法在时间增长率变化上的对比结果图，从图3中该可以看出，本方法在时间复杂度上的优势，本方法在时间增长率的可行性。本方法在效率上确实得到了极大的提升。

实施例4

一种基于堆优化的微博突发事件检测装置，参见图4，该检测装置包括：

计算模块1，用于对预处理后的微博数据按时间窗分组，分别计算组内微博文本的词语权重；

第一提取模块2，用于通过所述词语权重获取词语的突发度，并计算时间窗内词语的突发度，提取突发词集合；

聚类模块3，用于对所述突发词集合进行聚类，通过堆优化加速聚类的过程；

第二提取模块4，用于对聚类结果进行处理，提取有效事件。

其中，参见图5，聚类模块3包括：

排序子模块31，用于按照堆顶结点的簇间距离最小的原则，对堆进行排序编号；

第一获取子模块32，从排序编号小的簇开始，查看簇的堆顶结点，如果堆顶结点记录的距离值小于当前已知的最小距离值，记录簇编号，选择当前堆顶结点，同时更新最小距离值，直到遍历完所有簇；

第二获取子模块33，用于将最终得到的簇编号与距离最近的簇合并，同时计算合并后簇与其他簇的簇间距离，并建立对应的堆保存信息。

其中，参见图6，第二提取模块4包括：

提取子模块41，用于分析突发词聚类簇中是否包含了描述一个事件的必需词汇，删除无法描述事件的聚类簇，筛选出有效聚类簇。

本发明实施例对上述模块、子模块的执行主体不做限制，只要能实现上述功能的器件均可，可以为PC机、单片机等具有计算功能的器件。

综上所述，本发明实施例通过上述的模块、子模块使得用户能够及时获取最近发生的重大事件，了解事件的起因、经过。用户也能沟通该方法得到的结果，对突发事件进行追踪，了解到事件当前状态。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于堆优化的微博突发事件检测方法，其特征在于，所述检测方法包括以下步骤：

微博文本中包含大量表情符号、网页地址链接、用户评论内容这些无效的数据，在微博文本中匹配这些字符，并将其删除，通过分词软件对微博文本进行分词处理，对预处理后的微博数据按时间窗分组，分别计算组内微博文本的词语权重；

对所述突发词集合进行聚类，通过堆优化加速聚类的过程；

对聚类结果进行处理，提取有效事件；

所述对所述突发词集合进行聚类，通过堆优化加速聚类的过程的步骤具体为：

按照堆顶结点的簇间距离最小的原则，对堆进行排序编号；

将最终得到的簇编号与距离最近的簇合并，同时计算合并后簇与其他簇的簇间距离，并建立对应的堆保存信息；

所述对聚类结果进行处理，提取有效事件的步骤具体为：

2.一种用于实施权利要求1所述的基于堆优化的微博突发事件检测方法的检测装置，其特征在于，所述检测装置包括：

第二提取模块，用于对聚类结果进行处理，提取有效事件。

3.根据权利要求2所述的检测装置，其特征在于，所述聚类模块包括：

4.根据权利要求2所述的检测装置，其特征在于，所述第二提取模块包括：