CN106294335A

CN106294335A - 一种用于微博的热点话题检测方法及装置

Info

Publication number: CN106294335A
Application number: CN201510236792.7A
Authority: CN
Inventors: 贺敏; 周勇林; 王丽宏; 云晓春; 包秀国; 程学旗; 马宏远; 丁丽; 张丹; 刘克松; 杜攀; 刘悦
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2015-05-11
Filing date: 2015-05-11
Publication date: 2017-01-04
Anticipated expiration: 2035-05-11
Also published as: CN106294335B

Abstract

本发明要解决的技术问题是提供一种用于微博的热点话题检测方法及装置，涉及网络信息挖掘技术领域，能够解决特征高度稀疏的微博文本热点话题检测困难的问题。所述方法包括：提取信息流中的有意义串并对所述有意义串进行热度分析，以从中筛选出热点特征；根据信息瓶颈理论对所述热点特征进行特征合并，并且计算合并后的合并程度指示参数；根据所述合并程度指示参数确定热点话题。

Description

一种用于微博的热点话题检测方法及装置

技术领域

本发明涉及网络信息挖掘技术领域，特别是涉及一种用于微博的突发特征检测方法及装置。

背景技术

近年来，随着web2.0社交网络的兴起，微博以其方便快捷的优点迅速流行起来，现在已经发展成为网络信息传播的主要途径。

由于微博具有来源广泛、更新速度快、传播周期短、传播方式多样化、参与性和互动性强等特点，在热点话题形成和传播方面，取得了强大的影响力和引导力。微博信息数量大，存在严重的信息过载问题，而话题分析技术能够将大量信息中的关键内容快速提取出来，对海量信息进行压缩组织。

微博话题检测及分析技术是微博舆情研究中的关键问题，通过微博平台上的话题发现及分析技术来及时、准确的发现热点话题，对于帮助个人了解社会热点和重要资讯，辅助国家发现网络舆情事件和舆论趋势，在网络民意及时感知、舆情检测、舆情监控、应急处置、信息安全等领域具有重要的现实意义。

在话题检测领域中，话题检测的方法主要包括两类，基于文本聚类的方法和基于概率话题模型的方法。但是这些方法都通常更适用于新闻等长篇文档的话题检测，对于特征高度稀疏的微博文本适用性较差。如何针对微博信息的特点进行热点话题检测，现有技术尚无有效的解决方案。

发明内容

本发明要解决的技术问题是提供一种用于微博的热点话题检测方法及装置，能够解决特征高度稀疏的微博文本热点话题检测困难的问题。

一方面，本发明提供一种用于微博的热点话题检测方法，包括：提取信息流中的有意义串并对所述有意义串进行热度分析，以从中筛选出热点特征；根据信息瓶颈理论对所述热点特征进行特征合并，并且计算合并后的合并程度指示参数；根据所述合并程度指示参数确定热点话题。

可选的，对所述有意义串进行热度分析包括：根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类，对所述有意义串进行热度分析。

可选的，所述根据信息瓶颈理论对所述热点特征进行特征合并包括：确定所述热点特征与文档、作者之间的对应关系；分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布，所述热点特征与所述文档的联合概率分布，以及所述热点特征与所述作者的联合概率分布；分别计算所述热点特征与所述文档的互信息，以及所述热点特征与所述作者的互信息；从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小，其中，所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。

可选的，所述合并代价为：

ΔI(F_i，F_j)＝λ{(p(F_i)+p(F_j))*D_JS[p(D|F_i),p(D|F_j)]}

+(1-λ){(p(F_i)+p(F_j))*D_JS[p(A|F_i),p(A|F_j)]}

其中，D_JS是指Jensen-Shannon(JS)距离，计算方法为：

D_{JS} [p_{i}, p_{j}] = π_{i} D_{KL} [p_{i} | | \hat{p}] + π_{j} D_{KL} [p_{j} | | \hat{p}]

\{\begin{matrix} {p_{i}, p_{j}} = {p (D | F_{i}), p (D | F_{j})} \\ {π_{i}, π_{j}} = {\frac{p (F_{i})}{p (F *)}, \frac{p (F_{j})}{p (F *)}} \\ \hat{p} = π_{i} p (D | F_{i}) + π_{j} p (D | F_{j}) \end{matrix}

其中，F_i和F_j分别为两个不同的热点特征集合，F*为F_i和F_j合并后的热点特征集合，D表示文档，A表示作者；

D_KL表示是KL距离，是相对熵，计算如下：

D_{KL} [x, y] = p (x) \log \frac{p (x)}{p (y)} .

可选的，所述从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小包括：分别计算两两热点特征集合之间的合并代价；选择合并代价最小的两个特征集合进行特征合并形成新特征集合；计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并，直到将所有特征集合合并为一个特征集合。

另一方面，本发明还提供一种用于微博的热点话题检测装置，包括：热度分析单元，用于提取信息流中的有意义串并对所述有意义串进行热度分析，以从中筛选出热点特征；特征合并单元，用于根据信息瓶颈理论对所述热点特征进行特征合并，并且计算合并后的合并程度指示参数；确定单元，用于根据所述合并程度指示参数确定热点话题。

可选的，所述热度分析单元，具体用于根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类，对所述有意义串进行热度分析。

可选的，所述特征合并单元包括：关系确定模块，用于确定所述热点特征与文档、作者之间的对应关系；概率确定模块，用于分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布，所述热点特征与所述文档的联合概率分布，以及所述热点特征与所述作者的联合概率分布；计算模块，用于分别计算所述热点特征与所述文档的互信息，以及所述热点特征与所述作者的互信息；合并模块，用于从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小，其中，所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。

可选的，所述合并代价为：

ΔI(F_i，F_j)＝λ{(p(F_i)+p(F_j))*D_JS[p(D|F_i),p(D|F_j)]}

+(1-λ){(p(F_i)+p(F_j))*D_JS[p(A|F_i),p(A|F_j)]}

其中，D_JS是指Jensen-Shannon(JS)距离，计算方法为：

D_{JS} [p_{i}, p_{j}] = π_{i} D_{KL} [p_{i} | | \hat{p}] + π_{j} D_{KL} [p_{j} | | \hat{p}]

\{\begin{matrix} {p_{i}, p_{j}} = {p (D | F_{i}), p (D | F_{j})} \\ {π_{i}, π_{j}} = {\frac{p (F_{i})}{p (F *)}, \frac{p (F_{j})}{p (F *)}} \\ \hat{p} = π_{i} p (D | F_{i}) + π_{j} p (D | F_{j}) \end{matrix}

D_KL表示是KL距离，是相对熵，计算如下：

D_{KL} [x, y] = p (x) \log \frac{p (x)}{p (y)} .

可选的，所述合并模块，具体用于：分别计算两两热点特征集合之间的合并代价；选择合并代价最小的两个特征集合进行特征合并形成新特征集合；计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并，直到将所有特征集合合并为一个特征集合。

本发明实施例提供的用于微博的热点话题检测方法及装置，能够对信息流中的有意义串进行提取和热度分析，从这些有意义串中筛选出热点特征，然后根据信息瓶颈理论对热点特征进行特征合并，并且计算合并后的合并程度指示参数，根据所述合并程度指示参数确定热点话题。这样，即使对于特征高度稀疏的微博文本，也能够将特征一点一点合并，并根据合并程度指示参数确定出特征对应的热点话题，有效提高了微博热点话题的检测准确率。

附图说明

图1是本发明实施例提供的用于微博的热点话题检测方法的一种流程图；

图2是本发明实施例中热点特征、文档、作者之间的关系示意图；

图3是本发明实施例中特征的共现关系构成特征网络的一种结构示意图；

图4是本发明实施例提供的用于微博的热点话题检测装置的一种结构示意图。

具体实施方式

以下结合附图对本发明进行详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

如图1所示，本发明实施例提供一种用于微博的热点话题检测方法，包括：

S11，提取信息流中的有意义串并对所述有意义串进行热度分析，以从中筛选出热点特征；

S12，根据信息瓶颈理论对所述热点特征进行特征合并，并且计算合并后的合并程度指示参数；

S13，根据所述合并程度指示参数确定热点话题。

本发明实施例提供的用于微博的热点话题检测方法，能够对信息流中的有意义串进行提取和热度分析，从这些有意义串中筛选出热点特征，然后根据信息瓶颈理论对热点特征进行特征合并，并且计算合并后的合并程度指示参数，根据所述合并程度指示参数确定热点话题。这样，即使对于特征高度稀疏的微博文本，也能够将特征一点一点合并，并根据合并程度指示参数确定出特征对应的热点话题，有效提高了微博热点话题的检测准确率。

具体而言，在步骤S11中，可以在设定的时间窗口内提取微博信息流中的有意义串，并对提取的有意义串进行热度分析。

可选的，有意义串的提取可包括如下步骤：

步骤1，提取大规模微博信息中的重复串。

其中，重复串是指重复出现频次大于两次的字符串，重复串的长度限定在若干个(如10个)字符以内。同一话题或事件，微博中有大量的博主发帖或者转发，具有统计意义的微博新特征就包含在重复串中。

步骤2，对重复串进行上下文邻接分析，提取微博信息中的有意义串。

上下文邻接分析指提取重复串的邻接集合，计算邻接种类。邻接集合和邻接种类定义如下：

邻接集合：分为左邻接集合NBL和右邻接集合NBR，分别指真实文本中，与字符串S左边或者右边相邻的词语的集合。当字符串做为一个句子的开始，其左邻接元素记为BOS，做为句子的结束时，其右邻接元素记为EOS。

邻接种类：分为左邻接种类VL和右邻接种类VR，分别指左邻接集合中和右邻接集合种元素的数目，它们反映了字符串上文和下文语境种类的多少。

选取左邻接种类和右邻接种类中的较小值记为minVN。当minVN大于预先设定的阈值TVN时，该字符串就是有意义串。阈值TVN的选取与微博信息的规模相关，取值应大于2，例如为3。

由于微博信息数量大，存在严重的信息过载、特征高度稀疏等特点，优选的，可以根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类，对所述有意义串进行热度分析，以便从中提取出热点特征。其中，有意义串的频次为有意义串出现的次数，文档频次表示有意义串在多少篇文档中出现过，作者频次表示有意义串被多少个作者发表过，邻接种类则表示字符串上文和下文语境种类的多少。

根据上述信息即可得到有意义串的热度hot，具体可根据如下公式计算。

hot (F_{i}) = a * \log (\frac{{TF}_{\max}}{{TF}_{i}}) + b * \log (\frac{{DF}_{\max}}{{DF}_{i}}) + c * \log (\frac{{AF}_{\max}}{{AF}_{i}}) + d * \log (\frac{{VN}_{\max}}{{VN}_{i}})

其中，TF_max表示时间窗口内特征频次的最大值，DF_max表示时间窗口内特征文档频次的最大值，AF_max表示时间窗口内特征作者频次的最大值，VN_max表示时间窗口内特征邻接种类的最大值。a，b，c，d分别为调节系数，可选的，可以都取1。当热度hot大于预先设定的阈值H时，对应的有意义串即为热点特征。

具体的，在步骤S12中，根据信息瓶颈理论对所述热点特征进行特征合并可包括：

确定所述热点特征与文档、作者之间的对应关系；

分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布，所述热点特征与所述文档的联合概率分布，以及所述热点特征与所述作者的联合概率分布；

分别计算所述热点特征与所述文档的互信息，以及所述热点特征与所述作者的互信息；

从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小，其中，所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。

举例说明，如图2所示，首先可以根据热点特征在文档中的出现情况构造热点特征F、文档D、作者A之间的三部图。统计特征F、文档D、作者A的边缘概率分布，以及特征F、文档D，热点特征F、作者A之间的联合概率分布，计算热点特征F、文档D以及热点特征F、作者A两两之间的互信息，公式如下：

I (X, Y) = P (X, Y) \log \frac{P (X, Y)}{P (X) P (Y)}

对热点特征(或热点特征集合)Fi、Fj合并时，合并代价是指合并所带来的互信息的减少量，公式如下：

ΔI(F_i，F_j)＝λ[I(F_before，D)-I(F_after，D)]+(1-λ)[I(F_before，A)-I(F_after，A)]

具体的，当进行特征合并时，合并既会引起热点特征F与文档D之间的互信息减少，又会引起热点特征F与作者A之间的互信息减少，可以通过λ来调节文档和作者对热点特征的影响大小。

根据信息瓶颈压缩方法的理论，合并代价详细计算方法如下：

ΔI(F_i，F_j)＝λ{(p(F_i)+p(F_j))*D_JS[p(D|F_i),p(D|F_j)]}

+(1-λ){(p(F_i)+p(F_j))*D_JS[p(A|F_i),p(A|F_j)]}

其中，D_JS是指Jensen-Shannon(JS)距离，计算方法为：

D_{JS} [p_{i}, p_{j}] = π_{i} D_{KL} [p_{i} | | \hat{p}] + π_{j} D_{KL} [p_{j} | | \hat{p}]

\{\begin{matrix} {p_{i}, p_{j}} = {p (D | F_{i}), p (D | F_{j})} \\ {π_{i}, π_{j}} = {\frac{p (F_{i})}{p (F *)}, \frac{p (F_{j})}{p (F *)}} \\ \hat{p} = π_{i} p (D | F_{i}) + π_{j} p (D | F_{j}) \end{matrix}

其中，F_i和F_j分别为两个不同的热点特征集合，F*为F_i和F_j合并后的热点特征集合，D表示文档，A表示作者；D_KL表示是KL距离，是相对熵，计算如下：

D_{KL} [x, y] = p (x) \log \frac{p (x)}{p (y)} .

可选的，从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小可具体包括如下步骤：

分别计算两两热点特征集合之间的合并代价；

选择合并代价最小的两个特征集合进行特征合并形成新特征集合；

计算所述新特征集合与其他特征集合之间的合并代价并再次进行特征合并，直到将所有特征集合合并为一个特征集合。

举例而言，在本发明的一个实施例中，假设存在四个热点特征A、B、C、D，分别计算AB，AC，AD，BC，BD，CD的合并代价，假如经过计算发现AB的合并代价最小，则先将热点特征A、B合并成特征集合AB，然后重新计算AB，C，D中两两合并(即ABC，ABD，CD合并)的合并代价。假设ABD的合并代价在三者中最小，则下一步将AB与D进行合并，最后将ABD与C合并，形成一个特征集合。

在步骤S12中，每一次特征合并后，还需要计算一下特征合并后的合并程度指示参数。在本发明的一个实施例中，合并程度指示参数可以为衡量网络模块化程度的一个指标Q，定义为；

Q = Σ_{i = 1}^{n} (e_{ii} - a_{i})

其中，eii表示第i个社区内部的连边占网络总边数的比例，ai表示第i个社区与其他社区之间的连边数。Q的含义具体可如图3所示。图3所示为特征的共现关系构成特征网络，每个特征是一个顶点(A、B、C、D、E)，如果两个特征在一条微博信息中共现，这两个特征就有一条连边。特征未合并时，每个特征是一个社区，每次特征合并后，合并的特征集合构成一个新的社区。在整个特征合并过程中，每次合并都会产生一个对应的Q值，最后选择Q值最大的特征集合为一个热点话题。例如，如果上述实施例中，如果ABD对应的Q值最大，则确定ABD为一个热点话题。

相应的，如图4所示，本发明实施例还提供一种用于微博的热点话题检测装置，包括：

热度分析单元41，用于提取信息流中的有意义串并对所述有意义串进行热度分析，以从中筛选出热点特征；

特征合并单元42，用于根据信息瓶颈理论对所述热点特征进行特征合并，并且计算合并后的合并程度指示参数；

确定单元43，用于根据所述合并程度指示参数确定热点话题。

本发明实施例提供的用于微博的热点话题检测装置，热度分析单元41能够对信息流中的有意义串进行提取和热度分析，从这些有意义串中筛选出热点特征，特征合并单元42能够根据信息瓶颈理论对热点特征进行特征合并，并且计算合并后的合并程度指示参数，确定单元43能够根据所述合并程度指示参数确定热点话题。这样，即使对于特征高度稀疏的微博文本，也能够快速发现热点特征，并对热点特征进行准确合并，有效提高了微博热点话题的检测准确率。

可选的，热度分析单元41，具体可用于根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类，对所述有意义串进行热度分析。

具体而言，特征合并单元42可包括：

关系确定模块，用于确定所述热点特征与文档、作者之间的对应关系；

概率确定模块，用于分别确定所述热点特征、所述文档、所述作者各自的边缘概率分布，所述热点特征与所述文档的联合概率分布，以及所述热点特征与所述作者的联合概率分布；

计算模块，用于分别计算所述热点特征与所述文档的互信息，以及所述热点特征与所述作者的互信息；

合并模块，用于从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小，其中，所述合并代价等于特征合并前后热点特征与文档之间、以及热点特征与作者之间互信息的减少量。

具体的，合并代价ΔI可以为：

ΔI(F_i，F_j)＝λ{(p(F_i)+p(F_j))*D_JS[p(D|F_i),p(D|F_j)]}

+(1-λ){(p(F_i)+p(F_j))*D_JS[p(A|F_i),p(A|F_j)]}

其中，D_JS是指Jensen-Shannon(JS)距离，计算方法为：

D_{JS} [p_{i}, p_{j}] = π_{i} D_{KL} [p_{i} | | \hat{p}] + π_{j} D_{KL} [p_{j} | | \hat{p}]

\{\begin{matrix} {p_{i}, p_{j}} = {p (D | F_{i}), p (D | F_{j})} \\ {π_{i}, π_{j}} = {\frac{p (F_{i})}{p (F *)}, \frac{p (F_{j})}{p (F *)}} \\ \hat{p} = π_{i} p (D | F_{i}) + π_{j} p (D | F_{j}) \end{matrix}

D_KL表示是KL距离，是相对熵，计算如下：

D_{KL} [x, y] = p (x) \log \frac{p (x)}{p (y)} .

可选的，所述合并模块，可具体用于：

分别计算两两热点特征集合之间的合并代价；

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种用于微博的热点话题检测方法，其特征在于，包括：

提取信息流中的有意义串并对所述有意义串进行热度分析，以从中筛选出热点特征；

根据信息瓶颈理论对所述热点特征进行特征合并，并且计算合并后的合并程度指示参数；

根据所述合并程度指示参数确定热点话题。

2.根据权利要求1所述的方法，其特征在于，对所述有意义串进行热度分析包括：

根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类，对所述有意义串进行热度分析。

3.根据权利要求1所述的方法，其特征在于，所述根据信息瓶颈理论对所述热点特征进行特征合并包括：

确定所述热点特征与文档、作者之间的对应关系；

4.根据权利要求3所述的方法，其特征在于，

所述合并代价为：

ΔI(F_i，F_j)＝λ{(P(F_i)+P(F_j))*D_JS[P(D|F_i),P(D|F_j)]}

+(1-λ){(P(F_i)+P(F_j))*D_JS[P(A|F_i),P(A|F_j)]}

其中，D_JS是指Jensen-Shannon(JS)距离，计算方法为：

D_{JS} [p_{i}, p_{j}] = π_{i} D_{KL} [p_{i} | | \hat{p}] + π_{j} D_{KL} [p_{j} | | \hat{p}]

\{\begin{matrix} {p_{i}, p_{j}} = {p (D | F_{i}), p (D | F_{j})} \\ {π_{i}, π_{j}} = {\frac{p (F_{i})}{p (F *)}, \frac{p (F_{j})}{p (F *)}} \\ \hat{p} = π_{i} p (D | F_{i}) + π_{j} p (D | F_{j}) \end{matrix}

D_KL表示是KL距离，是相对熵，计算如下：

D_{KL} [x, y] = p (x) \log \frac{p (x)}{p (y)} .

5.根据权利要求3所述的方法，其特征在于，所述从所述热点特征中选择两组热点特征进行特征合并，以使被选择的所述两组热点特征合并代价最小包括：

分别计算两两热点特征集合之间的合并代价；

6.一种用于微博的热点话题检测装置，其特征在于，包括：

热度分析单元，用于提取信息流中的有意义串并对所述有意义串进行热度分析，以从中筛选出热点特征；

特征合并单元，用于根据信息瓶颈理论对所述热点特征进行特征合并，并且计算合并后的合并程度指示参数；

确定单元，用于根据所述合并程度指示参数确定热点话题。

7.根据权利要求6所述的装置，其特征在于，所述热度分析单元，具体用于根据所述有意义串的频次、所述有意义串对应的文档频次、作者频次以及邻接种类，对所述有意义串进行热度分析。

8.根据权利要求6所述的装置，其特征在于，所述特征合并单元包括：

9.根据权利要求8所述的装置，其特征在于，

所述合并代价为：

ΔI(F_i，F_j)＝λ{(P(F_i)+P(F_j))*D_JS[P(D|F_i),P(D|F_j)]}

+(1-λ){(P(F_i)+P(F_j))*D_JS[P(A|F_i),P(A|F_j)]}

其中，D_JS是指Jensen-Shannon(JS)距离，计算方法为：

D_{JS} [p_{i}, p_{j}] = π_{i} D_{KL} [p_{i} | | \hat{p}] + π_{j} D_{KL} [p_{j} | | \hat{p}]

\{\begin{matrix} {p_{i}, p_{j}} = {p (D | F_{i}), p (D | F_{j})} \\ {π_{i}, π_{j}} = {\frac{p (F_{i})}{p (F *)}, \frac{p (F_{j})}{p (F *)}} \\ \hat{p} = π_{i} p (D | F_{i}) + π_{j} p (D | F_{j}) \end{matrix}

D_KL表示是KL距离，是相对熵，计算如下：

D_{KL} [x, y] = p (x) \log \frac{p (x)}{p (y)} .

10.根据权利要求9所述的装置，其特征在于，所述合并模块，具体用于：

分别计算两两热点特征集合之间的合并代价；