CN103294818A

CN103294818A - 多信息融合的微博热点话题检测方法

Info

Publication number: CN103294818A
Application number: CN201310231487XA
Authority: CN
Inventors: 张小明; 李舟军
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-06-12
Filing date: 2013-06-12
Publication date: 2013-09-11
Anticipated expiration: 2033-06-12
Also published as: CN103294818B

Abstract

本发明公开了一种基于多信息融合的微博热点话题检测方法，首先根据微博发布者的社交关系来计算博主的影响力，进而基于博主的影响力信息和特征词频率信息来计算特征词在给定时间段内所有微博中的权值之和；然后根据特征词权值之和随时间变化的信息来检测突发特征词，通过引入Web新闻语料来扩充微博数据以计算突发特征间的关联关系值，进而构建突发特征词关联图；最后对突发特征词关联图进行划分，每个强连通子图表示一个话题，从而实现微博热点话题的检测。本发明综合利用了微博特征词信息、博主社会关系信息、相关Web新闻文档信息来检测微博热点话题，提高了微博热点话题检测的效率。

Description

多信息融合的微博热点话题检测方法

技术领域

本发明涉及一种多信息融合的微博热点话题检测方法，可以自动检测微博中新出现的热点话题。可应用于多种类型的社会媒体数据，适用于社交网络中的数据挖掘、社会网络舆情监控等。

背景技术

随着Web2.0技术的发展，基于Web的社交网络变得越来越普及，特别是近年来，在线社会网络吸引了越来越多的网络用户，已经成为当前最热的网络平台，社会网络用户生成的信息已经成为目前互联网内容的主要来源。例如，新浪微博在短短的一年多时间里已有注册用户近2亿，每天产生的微博超过8000万，而搜狐微博亦有用户约2000万以上。随着用户规模的增加，微博逐渐成为反映社会热点事件以及群体或个体思想动态的主要场所，面对如此巨大的、动态变化的、参差不齐的微博数据，仅依靠人工的方法很难从中获得感兴趣的信息，因此必须充分利用有效的话题检测等信息处理技术，从海量的社交网络数据中发现热点话题以帮助用户、企业、政府部门等了解社会网络舆论的发展状态。

传统的话题检测方法研究主要针对互联网信息本身，其方法和技术主要面向传统的新闻文档数据，数据被分别看作孤立的信息进行研究，没有深入挖掘与分析在线社会网络所蕴含的社会关系，无法利用社会网络的特点，因此不能有效的检测微博中的热点话题。另外，当前面向微博的热点话题检测方法面临着数据稀疏性问题，这些方法没有利用其它类型的Web资源。

发明内容

本发明要解决的技术问题：克服现有话题检测技术的不足，提供一种融合多信息的微博热点话题检测方法，综合利用了微博特征词信息、博主社会关系信息、相关Web新闻文档信息来检测微博热点话题，提高了微博热点话题检测的效率。

本发明的技术解决方案：多信息融合的微博热点话题检测方法，包括结合博主影响力的特征词权值计算、突发特征词检测、话题检测几个步骤。结合博主影响力的特征词权值计算负责完成数据的预处理，数据桶的划分，博主影响力值的计算，结合博主的影响力和特征词频率计算特征词在每个微博中的权值以及每个桶中的权值之和。突发特征词检测负责根据特征词在不同桶中权值之和的变化情况检测出具有突发性质的特证词，即这些特征词在当前桶中其权值之和增长速度非常快。话题检测步骤负责根据特征词之间的关联关系构建每个桶中的突发特征词关联图，然后把特征词关联图划分为全联通的子图，每个子图代表一个热点话题。话题检测过程中融合了各种信息，包括微博数据本身的信息、博主之间的社交关系、相关的Web文档资源包含的信息等。

本发明具体实现步骤如下：

A．结合博主影响力的特征词权值计算：对收集到的数据进行预处理操作，根据博主之间的社交关系计算博主的影响力，结合博主的影响力及特征词的频率计算特征词在微博中的权值以及给定时间段内的权值之和；

B．突发特征词检测：针对步骤A的特征词，基于状态图模型构建数据桶序列的状态序列，根据不同数据桶内权值之和的变化情况检测出当前数据桶内的处于突发状态的特征词；

C．话题的检测：利用Web新闻文档数据扩充微博数据包含的特征词关联关系信息，根据步骤B检测出的突发特征词之间的关联关系构建特征词关联图，然后对特征词关联图进行划分，每个子图表示一个话题，图划分后得到热点话题列表。

上述步骤A中所描述的数据包括从新闻网站爬取的Web网页数据、微博上爬取的微博数据，预处理操作是指解析HTML页面以获取正文信息和社交信息。对正文分词，去掉停用词和常用词得到特征词，利用博主的社交信息计算博主的影响力值。然后结合博主的影响力和特征词在微博中的频率计算特征词在本篇微博中的权值。把微博数据流划分为连续的桶，对特征词在数据桶内所有微博中的权值进行求和以得到特征词在数据桶内的权值之和。

上述步骤B中所描述的基于状态图模型的突发特征词检测过程是：根据划分的数据桶，为每个特征词建立一个状态序列，每个桶对应一个状态，如果特征词在某个桶中其权值之和增长速度超过一定值，则该桶对应的状态为突发状态，否则为普通状态，通过求取使得状态序列达到最大条件概率值的状态值来获得特征词所在的不同桶对应的状态，进而检测出当前桶中的突发特征词。

上述步骤C中所描述的话题检测是一个特征词关联图划分的过程，图的节点表示特征词，节点之间的边表示特征词之间的关联关系，边的权重表示特征词间关联关系值的大小，特征词间的关联关系综合利用了特征词在微博和Web新闻文档中的共现关系，克服了微博中的数据稀疏性问题。然后把特征词关联图划分为强连通子图，子图中任意两个节点都可以互相到达，每个联通子图表示一个话题，包含联通子图中突发特征词的微博即为描述该子图所对应的话题的微博。

本发明与现有技术相比的优点在于：传统的话题检测方法主要针对数据本身，而当前针对微博热点话题检测方法受微博数据稀疏性问题影响严重。本发明提出的微博话题检测方法在以特征词为中心话题检测方法的基础上，结合社交网络数据的特点，考虑了博主在话题产生和发展中的作用，并利用了其它类型的Web资源来扩充微博短文本所包含的信息，提高了微博热点话题检测的性能。

附图说明

图1是多信息融合的微博热点话题检测的流程示意图。

图2特征词关联图划分示意图。

具体实施方式

下面结合附图及本发明的实施方式对本发明的方法作进一步详细的说明。

如图1所示，本发明具体实现如下：

（一）结合博主影响力的特征词权重计算

微博热点话题检测用到的数据包括从新闻网站爬取的Web网页数据、微博上爬取的微博数据，这些爬取的原始数据包含很多噪音信息，需要首先对其进行预处理，包括解析HTML页面以获取Web正文信息和社交信息，然后对提取的正文信息进行分词，去掉停用词和常用词，微博中剩下的其它词就称为特征词。而提取的社交信息是指博主的粉丝和关注信息。

微博是一个社交型的网络，人与人之间相互关联，具体的联系体现为粉丝和关注关系。在微博的传播过程中，不同的博主所起的作用是不同的，拥有大量粉丝的博主其影响力要远远超过拥有很少粉丝的普通人，其发表的微博也具有更大的影响力。因此，微博中特征词的权值计算需要考虑博主的影响力。特征词的权值计算分为两个阶段：1）博主影响力的计算；2）权值的计算。第一阶段计算每个博主的影响力值，第二阶段提取微博中的特征词，结合博主的影响力值和频率信息计算特证词在微博中的权值，然后计算特征词在数据桶中的权值之和。

本发明采取的方法是：根据博主的之间的粉丝和关注关系建立博主关系图，然后基于PageRank算法计算博主u_i的影响力值au(u_i)∈[0,1]:

au (u_{i}) = \frac{1 - α}{L} + α \times Σ_{j = 1}^{| F (u_{i}) |} \frac{au (u_{j})}{M (u_{i})}

其中，F(u_i)为用户u_i的粉丝数，M(u_i)为用户u_i所关注的博主，L为需要计算影响力的博主总数，α∈(0,1)为衰减因子，取值范围通常为0.6-0.9。

将过去时间段T内发表的所有微博记为W，并按照上传时间进行排序，以r为时间窗口把W划分为连续的互不相交的数据桶，则第t个时间窗口对应的数据桶为I^t=<I^t,I^t+r>，该桶内的所有微博记为MC^t，KW^t为I^t内的特征词集合。

对于给定数据桶中的每一条微博，提取其特征词，计算特征词在微博中的频率值，然后结合博主的影响力计算特征词在微博中权值，例如对于微博mc_j中的特征词x，其权值w_j,x∈[0,1]计算公式如下：

w_{j, x} = (0.5 + 0.5 \times \frac{{tf}_{j, x}}{{tf}_{j}^{\max}}) \times au (user ({tw}_{j}))

其中tf_j,x表示微博tw_j中特征词x的频率，t表示第j条微博中特征词频率的最大值，用于对微博中特征词的频率进行归一化，user(tw_j)为发表微博tw_j的博主，au(user(tw_j))为发表微博tw_j的博主的影响力值。然后计算特征词在该桶中的权值之和：

，桶中所有特征词的权值之和是：

（二）突发特征词的检测

当一个热点话题发生时，表达该话题主要内容的几个特征词会频繁出现，即它们的使用频率会突然增长很快，这些特征词就是突发特征词，因此，热点话题的检测可以通过检测描述它的突发特征词来实现。

本发明采用仅包含2个状态的状态图模型检测突发特征词。在一个桶中，一个特征词的权值之和越大，则表示该特征词在桶中的生成概率就越大。特征词在每个桶中都处于一个状态，即突发状态或普通状态，每个状态都对应特征词的一个生成概率，突发状态对应的生成概率大于普通状态对应的生成概率。

假设步骤（一）将过去时间段T发表的微博划分为N个连续的桶（I¹，I²,…I_N），对于特征词x，所处的状态序列为q=(q₁,q₂,…,q_N)，每个状态只有两种情况，即突发状态1和非突发状态0。假设初始状态时的微博中该特征词生成概率为p₀∈[0,1]，该概率符合指数分布，那么状态为k时微博中该特征词的生成概率p_k＝p₀s^k（k=0或1），s表示处于状态k时微博中该特征词出现频率与初始状态时微博中该特征词出现频率之比。在第t个桶中，以状态k生成特征词x的权值之和

的概率

可用正态分布公式来计算：

prob (k, w_{. x}^{t}, h_{t}) = \frac{1}{\sqrt{{2 πσ}^{2}}} e^{- {(\frac{y - μ}{σ})}^{2}}

其中

σ²²=p_k(1-p_k),

h_t表示t桶中所有特征词的权值之和的求和。定义δ（i，j）为由状态i转移到状态j的转移概率。根据贝叶斯公式可以得到x一个状态序列q的概率P(q|r,d)如下所示，其中Z为一个归一化常量，用来确保P(q|r,d)∈[0,1],其中δ(q_i-1,q_i)为状态转移开销：

(q | w, h) = \frac{prob (q_{1}, w_{. x}^{1}, h_{1}) Π_{i = 2}^{N} δ (q_{i - 1}, q_{i}) \times prob (q_{i}, w_{. x}^{i}, h_{i})}{Z}

Z = Σ_{w, h} prob (q_{1}, w_{. x}^{1}, h_{1}) Π_{i = 2}^{N} δ (q_{i - 1}, q_{i}) \times prob (q_{i}, w_{. x}^{i}, h_{i})

h_i表示第i个桶中的所有特征词的权值之和的总和值。对于特征词x，其在第t个数据桶中初始状态下的生成概率p₀由如下公式计算：

其中，n_t为t桶中特征词的总数。

对前N个桶所对应的状态序列q概率函数取对数可以得到一个对数似然函数为：

- \ln P (q | w, h) = - Σ_{i = 1}^{N} \ln (prob (q_{i}, w_{. x}^{i}, h_{i})) - Σ_{i = 2}^{N} \ln (δ (q_{i - 1}, q_{i})) - \ln Z

由于Z为常数，令cost(q)=-lnp(q|w,h)，则求使状态序列函数P(q|w,h)最大的状态序列等价于求使函数值cost(q)∈(0,+∞)最小的状态序列，该函数可利用如下增量式公式表示：

\cos t (q^{t}) = \min (\cos t (q^{t - 1}) + C (q_{t - 1}, q_{t})) - \ln prob (q_{t}, w_{. x}^{t}, h_{t})

其中C(q_i-1,q_i)＝ln(δ(q_i-1,q_i))，q^t表示包含前t个状态的状态序列。该状态序列可以由Viterbi算法求得。由于p_o是动态更新的，并且cost(q^t)的计算只与cost(q^t-1)有关，因此本算法只需保存前一个时间段时的损失值cost(q^t-1)即可实现增量式计算，算法的复杂度为O(N)，提高了话题检测的效率。

（三）话题的检测

话题的检测包括两个阶段：1）特征词关联图的构建；2）特征词关联图的划分。本发明采取的方法是如下：

假设t桶内的微博集合为MC^t，突发特征词

与特征词之间的关联关系值为

用以下公式计算：

{rw}_{i, j}^{k} = \log \frac{n_{i, j}}{n_{i} + n_{j} - 2 \times n_{i, j}} \times | \frac{n_{i, j}}{n_{i}} - \frac{n_{j} - n_{i, j}}{| {MC}^{t} | - n_{i}} |

其中，n_i,j为MC^t中特征词

与特征词

共现的次数，n_i,和n_j分别表示包含和

的微博数。

另外，本发明利用特征词在搜索引擎中搜索相关的其它类型的Web文本资源，利用返回的Web新闻文本克服微博数据稀疏性问题的影响。对于搜索引擎返回地Web新闻文本，利用与微博文本相同的公式来计算特征词之间的关联关系值

然后，采用以下公式来结合两部分的关联关系以得到特征词之间最终的关联关系值：

{rw}_{i, j}^{t} = α \cdot {rw}_{i, j}^{t} + (1 - α) \cdot {rd}_{i, j}^{t}

对于一个桶，基于突发特征词间的关联关系，可以构建一个有向图，图中的顶点集合为桶中的突发特征词，若两个特征词

与之间的关联关系值大于一个阀值，则存在有向边，其边的权重为

然后，话题的检测可利用图划分方法来实现，本发明利用求强连通子图的Tarjan算法把特征词关联图划分为强连通子图，划分结果如图2所示，结果每个强连通子图表示一个热点话题，并且桶中包含子图中突发特征词的微博即为描述该话题的微博。

总之，本发明利用了社交网络数据的特点，在检测突发特征词的过程中，综合利用了特征词频率分布信息和用户社会关系信息，在聚类突发特征词时，利用了Web新闻文档资源来克服微博数据稀疏性问题，能够提高微博热点话题检测的性能。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.多信息融合的微博热点话题检测方法，其特征在于实现步骤如下：

A．结合博主影响力的特征词权值计算：对收集到的数据进行过滤及预处理操作，提取微博中的特征词，结合博主的影响力及特征词的频率信息计算特征词在微博中的权值以及给定时间段内的权值之和；

B．突发特征词检测：根据步骤A的特征词在不同时间段内权值之和的变化情况检测出当前时间段内的突发特征词；

C．话题的检测：利用Web新闻文档数据扩充微博数据包含的特征词关联关系信息，根据步骤B检测出的突发特征词之间的关联关系构建特征词关联图，对突发特征词关联图进行划分，每一个子图表示一个话题，然后得到当前时间段内的热点话题列表。

2.根据权利要求1所述的多信息融合的微博热点话题检测方法，其特征在于：步骤A中所描述的数据包括从新闻网站爬取的Web网页数据、微博上爬取的微博数据，利用预处理操作获得微博的特征词和社交信息，然后计算博主的影响力，结合博主的影响力和特征词在微博中的频率计算特征词在微博中的权值，把所有的微博数据按照时间顺序进行排列，基于给定的时间窗口把微博序列划分为连续的桶，并对特征词在给定数据桶内所有微博中的权值进行求和以得到特征词在给定数据桶内的权值之和。

3.根据权利要求1所述的多信息融合的微博热点话题检测方法，其特征在于：步骤B中所描述的突发特征词检测过程是：对于当前桶中的特征词，利用其在各个数据桶中权值之和的变化情况来检测其当前是否处于突发的状态，如果当前桶中特征词权值之和相比历史桶中权值之和的增长速度超过一定阀值则该特征词被检测为突发特征词。

4.根据权利要求1所述的多信息融合的微博热点话题检测方法，其特征在于：步骤C中所描述的话题检测基于特征词关联图的划分，特征词关联图是一个有向图，节点表示特征词，节点之间的边表示特征词之间的关联关系，边的权重表示特征词间关联关系值的大小，特征词间的关联关系综合利用了特征词在微博和Web新闻文档中的共现关系，克服了微博中的数据稀疏性问题，然后利用图划分的方法是把特征词关联图划分为强连通子图，每个联通子图表示一个话题，包含联通子图中突发特征词的微博即为描述该子图所对应的话题的微博。