CN103745000A

CN103745000A - 一种中文微博客的热点话题检测方法

Info

Publication number: CN103745000A
Application number: CN201410034402.3A
Authority: CN
Inventors: 陈国龙; 廖祥文; 郭德清; 郭文忠; 魏晶晶
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2014-01-24
Filing date: 2014-01-24
Publication date: 2014-04-23
Anticipated expiration: 2034-01-24
Also published as: CN103745000B

Abstract

本发明涉及一种中文微博客的热点话题检测方法，包括以下步骤：(1)首先基于一定的垃圾过滤规则对垃圾微博进行过滤；(2)对分布在微博中的关键字进行初步聚合，得到初步表示话题的词集合；检索各条微博最相似的前k条微博，然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征，得到各条微博特征丰富后的特征向量；(3)基于各条微博特征丰富后的特征向量，利用增量聚类方法对所有微博进行聚类，得到聚类的话题集合，然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算，最终得到热点话题列表。该方法能够高效、准确地对中文微博客进行热点话题检测，检测速度快，准确度高，适用范围广，应用性强。

Description

一种中文微博客的热点话题检测方法

技术领域

本发明涉及话题检测与跟踪技术领域，更具体地，涉及一种中文微博客的热点话题检测方法，能应用于热点话题的检测和热度排序，适用于中文微博客，包括新浪微博、腾讯微博、网易微博等。

背景技术

话题检测与跟踪（TDT）任务始于1996年，一个话题包含了一系列事件或者活动，或者伴随的直接相关的事件和活动。一个TDT事件表示在特定时间和场合发生的事情，连同所有必要的先决条件和不可避免的后果。

话题检测与跟踪经过十多年的高速发展，已经有了一系列成熟的理论，其中包括隐马尔可夫模型、老化理论、时间序列分析、LDA等。

热点话题是在一个时间段内频繁出现的话题。一个话题经常出现表示它可能是热点话题，但是这不是唯一的条件。每件事都有它的生命周期：出生、发展、衰落、死亡。所以，时间也是一个评价条件。热点话题的基本特征：1）在大量的信息中频繁出现；2）热点话题是从当前网络用户发布的微博中抽取的，所以是实时的，必须保证热点话题的“热”。

热点话题是话题检测与跟踪研究在实际问题中的应用。常见的话题发现算法，如中心向量法、层次聚类法、K-means、Single-Pass聚类算法等，在普通文本的TDT任务中已经取得了较好的效果。利用聚类方法来实现话题发现的技术已经比较成熟，但是在处理海量的文本数据时，大多数文本聚类算法速度过低，时间和空间复杂度往往大于O(n2)。而且这些算法主要是针对传统媒介平台的新闻数据，微博中的信息多呈现短文本、口语化、即时性、冗余信息、互动性强等特性，其中情感词所占比重也比传统文本要大，故传统的TDT不适合直接应用于微博的热点发现。

在现有技术中，有将传统的文本分类方法应用在微博平台上进行热点信息筛选，针对可能成为热点信息的微博条目，有研究者提出可以针对一部分特别关心的信息进行检测。如果能设计一种切合当前热点事件的分类器，那么就可以实时监控事件的发展。但是热点事件和话题在其出现之前是未知的，所以问题就变为对一些特定的，敏感的话题的固定检测。比如有日本学者训练了一个分类器来判断用户发布的内容是不是属于和地震相关的报道。分类器针对特定的话题筛选可以有良好的效果，但是微博上文本内容分布范围广，话题千变万化，在发生之前无法认为预知，这使得设计一个完备的词典式分类器来对所有的信息进行分类变得几乎不可能，一般的分类器难以胜任这样的任务。

在现有技术中，有利用微博情感波动和相邻时段词集的差异性来识别热点话题，并取得较好效果，但其没有考虑微博多噪声特点以及热点话题引起的突发关键字。

在现有技术中，有从社会学的角度出发，考虑了微博的基本信息来进行热点话题检测。比如有工作再计算词的权重的时候考虑了用户权重、粉丝数、回复数、转发数。首先使用一个成熟的理论来对词生命周期进行建模，然后考虑了用户权重，通过pagerank来计算词的权重，最后使用无监督的学习算法发现爆炸性话题。

因为短文本没有足够的单词出现信息，传统的聚类方法，比如词袋方法，受到了限制。为了解决这个问题，有工作把一个用户的推文当做一个文档。但是这样处理忽略了一个重要的事实：一条推文经常是和一个话题相关的。也有工作从用户的简介和文本中抽取出领域特征。其考虑了用户在推特上意图的分类标签和特征集合，比如平时的聊天，交流，分享，转发的信息。把tweets分成指定的的新闻、事件、观点、交易、私人信息类别。还有利用维基百科和WordNet整合短文本信息，用于短文本聚类。实验表明这种丰富文本特征的方法能很大地提高聚类精度，所以本发明中使用了类似的技术来丰富微博文本特征。

在现有技术中，有从建模角度出发，比如通过改进LDA的以适用于微博的Author-topic、Twitter-LDA模型等，可以有效用于微博话题建模，但是该类算法复杂度普通偏高，不利于从大规模微博数据集合中检测热点话题。

然而，现有的大部分中文微博热点话题检测方法没有充分考虑以下三个问题：1）微博客中存在大量的噪声信息；2）微博短文本造成信息缺失；3）海量微博数据带来的性能挑战。

微博经过这几年的快速发展，已经成为中国互联网的主流应用。庞大规模的用户也确保了其网络信息传播的核心作用。用户通过微博自由、便捷、即时地抒发自己的情感，已成为互联网上的时尚，同时也使得其成为热点话题产生和谈论的重要场所。由于微博具有自主性强，影响力大，信息传播便捷迅速等特点，从微博中检测出热点话题，可以帮助公众了解社会焦点，发现社会趋势，为市场研究和咨询行业等提供理论依据，也可以基于热点话题进行个性化的推荐服务、客户群偏好分析等，有很好的现实的应用价值和广阔的应用前景。因此，迫切需要一种高效准确的中文微博热点话题检测方法，该方法应该能够快速地发现微博中的热点话题，并对热点话题按照热度进行排序。

发明内容

本发明的目的在于提供一种中文微博客的热点话题检测方法，该方法检测速度快，准确度高，适用范围广，应用性强。

为实现上述目的，本发明的技术方案是：一种中文微博客的热点话题检测方法，包括以下步骤：

(1) 首先基于一定的垃圾过滤规则对垃圾微博进行过滤；

(2) 对分布在微博中的关键字进行初步聚合，得到初步表示话题的词集合；检索各条微博最相似的前k条微博，然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征，得到各条微博特征丰富后的特征向量；

(3) 基于各条微博特征丰富后的特征向量，利用增量聚类方法对所有微博进行聚类，得到聚类的话题集合，然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算，最终得到热点话题列表。

进一步的，所述步骤(1)中，所述垃圾过滤规则为过滤掉包含有以下内容之一的微博：

a) 特殊字符；

b) 推广相关的特殊汉字；

c) 网页链接“http://t.cn/”；

d) 符号“#”。

进一步的，所述步骤(2)中，按如下方法对关键字进行初步聚合：

采用如下的关键字相似度计算公式分别计算微博中所有关键字两两之间的相似度：

其中，

Figure 2014100344023100002DEST_PATH_IMAGE004

表示关键字w _i和关键字w _j的相似度，WB _i表示出现关键字w _i的微博集合；

如果大于一设定阈值φ，则判定关键字w _i和关键字w _j属于同一个话题，建立关键字w _i和关键字w _j的关联关系，否则不建立关键字w _i和关键字w _j的关联关系；利用得到的所有关联关系构成词关系集合；

然后，采用并查集对词关系集合中的关联关系进行合并，得到初步表示话题的词集合。

进一步的，所述步骤(2)中，检索各条微博最相似的前k条微博，然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征，具体方法如下：

对于微博B，通过信息检索中的BM25检索模型检索得到与其最相似的前k条微博{B₁，B₂，……，B_k}，然后将微博B表示为

Figure 2014100344023100002DEST_PATH_IMAGE006

，其中：

w _j表示微博中的关键字，j=1,2,……,n；n表示微博中所有关键字的个数；

其中，v _ji表示所述前k条微博的第i条微博中关键字w _j的权重，v _ji初始为1或0，v _ji=1表示第i条微博中出现关键字w _j，v _ji=0表示第i条微博中未出现关键字w _j；假设经过关键字初步聚合后，关键字w _j与其他一个或多个关键字属于同一个话题的词集合，那么如果第i条微博中出现关键字w _j，则判定所述其他一个或多个关键字也出现在所述第i条微博中，即第i条微博中所述其他一个或多个关键字的权重也设置为1；

最后得到微博B特征丰富后的特征向量

。

进一步的，所述步骤(3)中，基于聚类的话题集合，将每个话题包含的微博按照时间窗口进行划分，得到m个时间窗口的微博集合：{BT ₁, BT ₂, …, BT _i, …, BT _m}，所述话题热度HT的计算公式为：

Figure 2014100344023100002DEST_PATH_IMAGE010

其中，HT表示话题的热度，m表示有m个时间窗口，HB _i表示时间窗口i内的微博热度和；

Figure 2014100344023100002DEST_PATH_IMAGE012

其中，VB _i表示话题在时间窗口i内的热度权重，|BT _i|表示话题在时间窗口i内的微博数量，Hb _ij表示话题在时间窗口i内微博j的热度；

Figure 2014100344023100002DEST_PATH_IMAGE014

Figure 2014100344023100002DEST_PATH_IMAGE016

其中，RT _j表示在时间窗口i内微博j的转发数，RP _j表示在时间窗口i内微博j的评论数。

本发明的有益效果是：针对目前中文微博客热点话题检测面临的微博客中存在大量噪声信息、微博短文本造成信息缺失、海量微博数据对性能要求高等问题，提出了一种能够高效、准确地对中文微博客进行热点话题检测的方法，该方法检测速度快，准确度高，适用范围广，应用性强，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的实现流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

本发明中文微博客的热点话题检测方法，如图1所示，包括以下步骤：

步骤(1) 对垃圾微博进行过滤

因为微博中存在大量的噪声微博，比如一些广告推广、微博活动、用户个人微博等，因此，本发明首先基于一定的垃圾过滤规则对垃圾微博进行过滤。所述垃圾过滤规则为过滤掉包含有以下内容之一的微博：

a) 特殊字符：包括“★”、“▲”、“￥”、“『”、“◆”、“●”、“①”等；

b) 推广相关的特殊汉字：包括“分享自”、“参加了投票”、“活动推荐”等；

c) 网页链接“http://t.cn/”；

d) 符号“#”。

步骤(2) 对分布在微博中的关键字进行初步聚合，得到初步表示话题的词集合，通过初步聚合的结果可以很直观地看到话题相关的关键字；检索各条微博最相似的前k条微博，然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征，得到各条微博特征丰富后的特征向量，以基于此特征向量提高微博话题聚类的精度。

步骤(2)中，对关键字进行初步聚合的具体方法为：

其中，

如果

大于一设定阈值φ，则判定关键字w _i和关键字w _j属于同一个话题，建立关键字w _i和关键字w _j的关联关系，否则不建立关键字w _i和关键字w _j的关联关系；利用得到的所有关联关系构成词关系集合；

步骤(2)中，检索各条微博最相似的前k条微博，然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征，具体方法如下：

，其中：

最后得到微博B特征丰富后的特征向量。

步骤(3) 基于各条微博特征丰富后的特征向量，利用增量聚类方法对所有微博进行聚类，得到聚类的话题集合，然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算，最终得到热点话题列表。

利用增量聚类方法对所有微博进行聚类的实现方法为：

1）选择一个微博作为初始类，并作为该初始类的中心；

2）按照顺序从微博集中取出一个微博，计算它和现有类中心的相似度，得到该微博和已有类最近的相似度；

3）若该距离大于或等于设定的阈值Tc，则将其归入该类，并更新类的中心；

4）若该距离小于设定的阈值Tc，则将该微博当做一个新的类，并将其作为新类的中心；

5）重复步骤2）、3）、4）直至微博都处理完毕。

经过聚类后，可能会得到较多的话题聚类结果。如果直接呈现给用户，无法直观地反应话题的热度。因此需要通过计算话题热度，从中得到排序后的热点话题列表，然后呈现给用户。

每个话题都是从微博中提取得到的，所以微博文本热度是最能直接反应话题的热度。因为每条微博的影响力不同，所以单纯从聚类结果的微博数量上考虑，会造成较大的误差。考虑微博热度的时候应该综合用户影响力、转发数、评论数等因素。本发明根据用户影响力、微博转发数、微博评论数对微博热度的贡献率，提出了一种微博热度计算公式：

其中，Hb _ij表示话题在时间窗口i内微博j的热度，RT _j表示在时间窗口i内微博j的转发数，RP _j表示在时间窗口i内微博j的评论数。

话题的热度可以通过话题包含的微博热度求和得到。但是在计算话题热度的时候，还应该考虑时间因素，因为随着时间的推移，人们对一个话题的关注度也会下降。因此，所述步骤(3)中，基于聚类的话题集合，将每个话题包含的微博按照时间窗口（1个小时）进行划分，得到m个时间窗口的微博集合：{BT ₁, BT ₂, …, BT _i, …, BT _m}，则话题热度HT计算公式为：

通过以上话题热度计算公式，可以得到话题的热度值，进而得到热点话题的排序。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。