CN102214241B

CN102214241B - 一种基于图聚类的用户生成文本流中的突发话题检测方法

Info

Publication number: CN102214241B
Application number: CN 201110187138
Authority: CN
Inventors: 赵丽; 管晓宏; 袁睿翕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-07-05
Filing date: 2011-07-05
Publication date: 2013-02-13
Anticipated expiration: 2031-07-05
Also published as: CN102214241A

Abstract

本发明涉及一种基于图聚类的用户生成文本流中的突发话题检测方法，属于互联网数据挖掘技术领域。该方法提供了相对传统的话题检测问题的一种基于图的新视角，将在文本流中检测突发话题转化为一个典型的图聚类问题，这样可以根据已有的图论方法来得到解决。该方法主要步骤包括：获取文本流；检测突发词；构建突发词图；聚类突发词。该方法针对用户生成文本流中的突发话题检测，其性能优于已有的基于文档聚类、概率话题模型和基于突发特征聚类的方法。

Description

一种基于图聚类的用户生成文本流中的突发话题检测方法

技术领域

本发明属于互联网数据挖掘技术领域，特别是涉及一种对文本流中的突发话题检测的方法。

背景技术

从海量用户生成文本中准确地检测突发话题对政府决策和商业推广有重要意义。一个突发话题可以是一个发生在任何时刻的热门事件，也可以是在一段时间内由博主自发和被广泛响应的网络活动。事件可以是不可预期的，比如火山爆发，也可以是可预期的，比如总统竞选。活动一般是不可预期的，例如博客小测验(Internet quiz)的传播。一个突发话题常常有一个持续时间短、被大量网民热烈讨论时间段。

然而由于建模针对性弱和参数设置不灵活等局限，现有的文本聚类、概率话题模型和基于突发特征提取的方法在用户生成文本流中的突发话题检测问题上性能不佳。从文本流中提取话题已有大量研究工作。话题检测与跟踪项目(TDT)探索了从新闻文本流中通过文档聚类进行话题检测的方法。然而此类方法假设每一个文档讨论一个话题，这对博客日志等用户生成文本不适用。概率话题模型用于发现潜在的主题并成功的应用在自动组织、搜索、索引和浏览大数据集。与TDT的主要区别是概率话题模型假设一个文档可以包含多个主题。然而用概率话题模型发现的主题并不一定是突发话题或事件。基于突发特征提取和聚类的话题检测方法也假设一个文档可讨论多个话题，并且这些突发特征常常标志着突发话题出现，然后通过对突发特征聚类得到突发话题。但是已有的基于突发特征提取和聚类的话题检测方法的缺点是对参数的设置非常敏感。

图聚类是一类基于图论的理论，根据特定的准则将图中密度大的子图的顶点聚类的方法的统称，为解决本发明的突发词聚类问题提供了技术基础。由于对突发词聚类不能事先指定类数，本发明借鉴了图聚类中解决此类问题的社团结构检测方法。该方法采用模块性作为度量图聚类优劣的效益函数，具体过程是依据边的中间性从小到大依次移除图中的边，移除边过程中形成对顶点的聚类，并返回模块性最大的聚类，其中边的中间性等于图中所有顶点对间的最短路径经过该边的数目除以该边的权重。然而社团结构检测方法对解决突发词聚类问题仍存在不足。首先，该方法采用图顶点两两的共现数来度量顶点间的相关性，而这种非归一化的度量在突发词聚类问题中不能很好地区分相同话题突发词间和不同话题突发词间的连边。其次，该方法不适用于具有“全连通”特点的加权图结构，这是由于中间性度量在全联通图中退化，不能很好的区分相同话题突发词间和不同话题突发词间的连边。

Jaccard相似度是度量两个集合的相似性(即这两个集合的交集的大小除以并集的大小)的指标，可通过计算两个突发词所在文档集的相似性来度量这两个突发词的相似性。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于图聚类的用户生成文本流中的话题检测方法，该方法提出了两步图聚类算法，即突发词图约简和突发话题检测，能够快速准确的将突发词按照话题聚类，从而提高了突发话题的检测性能。

本发明的一种基于图聚类的用户生成文本流中的突发话题检测方法，其特征在于，该方法包括以下步骤：

1)获取用户生成文档：首先从Web 2.0站点采集大量网页格式的文档；然后从该网页格式的文档中提取出文档正文作为处理后的文档，同时提取该文档的发表时间，并保存；

2)构造文本流：设定时间单位，并将检测时间窗的大小设定为一个时间单位；根据时间窗对所述处理后的文档进行划分，将同一时间窗内的所有处理后的文档组成一个文档集，将所有文档集按照时间顺序组成文本流；将前t₁个时间窗的文档集作为话题检测的参考文档集；

3)检测突发词：对t时刻，t≥t₁+1的文档集进行话题检测，遍历字典中所有的词并判定是否是突发词；若某个词在t时刻出现率大于该词在参考文档集中的平均出现率的一定倍数T_b时，则判为突发词，T_b的取值范围为2.5-10；

4)构建初始突发词图：将t时刻检测到的突发词连接成无向加权的初始突发词图G_t，该图的顶点是突发词，该图的边的权重用Jaccard相似度度量；

5)约简突发词图：按照所述初始突发词图G_t中边的权重，从小到大的顺序移除边；用

表示移除i条边后的中间图，则该中间图

形成对原图G_t的顶点集合的一个聚类L⁽ⁱ⁾(G_t)，聚类中的一类对应于中间图一个最大联通子图的顶点集合；计算聚类L⁽ⁱ⁾(G_t)的模块性Q⁽ⁱ⁾，找到最大的模块性Q⁽ⁱ⁾并输相应的中间图

作为约简后的突发词图；

6)突发话题检测：对约简后的突发词图的每一个最大连通子图s提取内聚子图，将大于N个顶点的内聚子图中所有顶点集合对应词的组合为检测出的突发话题，N取值为大于3的正整数。

本发明所述的提取内聚子图的方法是依据步骤5)中得到的每一个最大联通子图s中所有顶点对之间的最短路径经过该边的数目除以该边的权重得到的值的大小依次移除边；用s⁽ⁱ⁾表示移除i条边后的中间图，则s⁽ⁱ⁾形成对图s的顶点集合的一个聚类L⁽ⁱ⁾(s)；计算中间步骤中顶点聚类的模块性Q⁽ⁱ⁾，找到最大的Q⁽ⁱ⁾和相应的s⁽ⁱ⁾；s⁽ⁱ⁾中每个顶点数不少于4的最大联通子图的顶点集合对应词的组合是一个检测出的话题。

本发明的技术特点及优点：

本发明将时间窗内的文档集合表示成一个加权图，其中顶点是突发词，边权重表示顶点相关性强度，用Jaccard相似度度量。于是将话题检测问题被转化为图聚类问题，即在初始突发词图中找出内聚子图，即子图中的顶点倾向于与子图内部的顶点相对于与子图外顶点以较大的权重相连。

本方法提供了相对传统的话题检测问题一种基于图的新视角，将在文档流中检测突发话题转化为一个典型的图聚类问题，这样可以根据已有的图论方法来得到解决。在突发词检测步骤中，通过根据词的突发性的大小来检测突发词。突发性通过当前时刻的突发词的出现率与该词在参考文档集中的平均出现率的比值计算。这样可以去掉常用词而保留与突发话题语义相关的突发词。在突发词构建步骤中，使用的Jaccard相似度作为突发词图的边权可以比共现数更好地表示突发词之间的相关度。

根据突发词图的特点，本发明提出了一种改进的两步图聚类算法：突发词图约简和突发话题检测。突发词图约简步骤旨在去掉权重小的连边，从而保留同一话题内部主要突发词之间的连边，去掉大多数不同话题的突发词之间的连边。突发话题检测步骤旨在去掉少量的不同话题的突发词之间的连边。在以上两步中，分别根据边权从小到大和边的中间性从大到小的顺序移除边。使得模块性最大的中间图作为每个步骤的输出。

本发明的中文网页新词自动获取方法与现有的技术相比，具有以下优点：

1)该方法针对用户生成文本流中的突发话题检测，其性能优于已有的基于文档聚类、概率话题模型和基于突发特征聚类的方法。

2)该方法采用Jaccard相似度度量突发词间的相关性，与已有的社团结构检测方法的共现数度量相比，这种归一化的度量在突发词聚类问题中能够更好地区分相同话题突发词间和不同话题突发词间的连边。

3)针对突发词图的全连通加权图结构，提出的两步图聚类算法通过突发词图约简步骤去掉了大部分不同话题突发词之间的连边，避免了在进一步的话题识别步骤中的出现全联通结构。

4)该方法是在线算法。对t时刻的话题检测仅需要当期文档集和参考文档集。它可以被用在实时性很强的话题检测应用，例如微博话题检测等。

5)该方法是非监督的。方法中的突发词检测步骤中采用的参考文档集无需人工标定，这在实际应用中很重要，因为绝大多数用户生成文本由于规模巨大是无法人工标定的。

6)可将通过该方法检测到的热点话题撰写成检测报告提交给政府部门、新闻单位或企业的相关部门。也可以作为后续科学研究如突发话题趋势分析、话题演变追踪等的已知信息。

附图说明

图1为本发明的基于图的突发话题检测方法总体示意图。

图2为本发明中的两步图聚类算法示意图。

具体实施方式

本发明提出的一种基于图聚类的用户生成文本流中的突发话题检测方法结合附图及实施例详细说明如下：

本发明的突发话题检测方法，如图1所示，包括以下步骤：

1)获取用户生成文档：首先从Web 2.0站点采集大量网页格式的文档(例如博客日志、微博等；这些文档是由Web 2.0用户生成并带有时间戳的网页格式的文档)；然后从该网页格式的文档中提取出文档正文作为处理后的文档，同时提取该文档的发表时间，并保存；

2)构造文本流：设定时间单位(例如小时、天、星期)，并将检测时间窗的大小设定为一个时间单位；根据时间窗对所述处理后的文档进行划分，将同一时间窗内的所有处理后的文档组成一个文档集，将所有文档集按照时间顺序组成文本流；将前t₁个时间窗的文档集作为话题检测的参考文档集；

设一个文本流S＝{D₁，...，D_T}是一个长度为T的按时间排序的文档集序列，其中D_t是一个在t时刻的文档集。文档集为D_t＝{d_t，1...，d_t，|Dt|}，其中d_t，i是D_t中的一个文档。文档d_t，i是一个在字典Ω＝{w₁，...，w_|Ω|}上的二进制向量d_t，i＝{δ(d_t，i，w₁)，...，δ(d_t，i，w_|Ω|)}。δ(d_t，i，w)＝1表示w在d_t，i中出现。其中运算符|·|表示集合的大小。

例如对于一个博客突发话题以天为单位的检测需求，文本流通过收集在时间区间T天内的所有的博客日志(或所有博客日志集合的采样)得到。时间点t代表时间区间上的第t天。文档d_t，i表示在第t天的序号为i的一篇日志。

3)检测突发词：对t时刻(即第t个时间窗)，t≥t₁+1的文档集进行话题检测，遍历字典中所有的词并判定是否是突发词；若某个词在t时刻出现率大于该词在参考文档集中的平均出现率(词在文档集中的出现率是通过文档集中包含该词的文档数除以文档集中文档总数计算的)的一定倍数T_b时，则判为突发词，T_b的取值范围为2.5-10；

具体步骤是：遍历字典中的词w∈Ω；计算w在t时刻文档集中的出现率λ_t(w)＝|D_t(w)|/|D_t|，其中D_t(w)表示D_t中含有词w的文档集合；计算w在参考文档集中的平均出现率

t₀＜t₁，其中时间窗[t₀，t₁]内的文档集合作为计算

的参考文档集；计算w的突发性

当且仅当

时，将其判为突发词。

4)构建初始突发词图：将t时刻检测到的突发词连接成无向加权的初始突发词图G_t，该图的顶点是突发词，该图的边的权重(表示突发词之间的相关性大小)用Jaccard相似度度量(即t时刻文档集中同时包含边两端的两个突发词的文档的个数除以至少包含边两端的一个突发词的文档的个数)；

所述词相似度J_t(w_i，w_j)是度量Ω中的两个词w_i和w_j相关性的指标，其计算式为

J_{t} (w_{i}, w_{j}) = \frac{| D_{t} (w_{i}) \cap D_{t} (w_{j}) |}{| D_{t} (w_{i}) \cup D_{t} (w_{j}) |} .

J_t(w_i，w_j)的值域是[0，1]。如果J_t(w_i，w_j)＝0，表示两个词出现在完全不相交的文档集合中；如果J_t(w_i，w_j)＝1，表示两个词出现在完全相同的文档集中。使用Jaccard相似度是因为当两个词属于同一个话题时，他们倾向于出现在相同的文档集合中。Jaccard相似度比共现数(即J_t(w_i，w_j)计算式中的分子)更适合区别话题内连边和话题间连边。

所述突发词图G_t＝{V_t，E_t，J_t}是一个无向加权图，其中V_t是顶点集合，E_t是边集合，J_t是权重集合。顶点集合表示为V_t＝{w₁，...，w_|Vt|}，包含t时刻的所有突发词。边(w_i，w_j)∈E_t表示顶点w_i和w_j间的连接。定义J_t(w_i，w_j)是边(w_i，w_j)的权重。G_t常常是一个全联通图，因为基本每一对突发词都在文档中共现过。

5)约简突发词图(基于图聚类法之步骤一)：该步骤如图2(b)所示，按照所述初始突发词图G_t(如图2(a)所示)中边的权重，从小到大的顺序移除边；用表示移除i条边后的中间图，则该中间图

形成对原图G_t的顶点集合的一个聚类L⁽ⁱ⁾(G_t)，聚类中的一类对应于中间图

一个最大联通子图的顶点集合；计算聚类L⁽ⁱ⁾(G_t)的模块性Q⁽ⁱ⁾(模块性为度量图聚类优劣的效益函数)，找到最大的模块性Q⁽ⁱ⁾并输相应的中间图

作为约简后的突发词图；

G_t的一个聚类表示为

L (G_{t}) = {l_{w_{1}}, . . ., l_{w_{| V |}}},

其中，

l_{w_{i}} &Element; M = {1, . . ., | M |},

|M|是类数。则聚类L(G_t)的模块性的定义为

Q (L (G_{t})) = \frac{1}{h} \underset{\underset{l_{w_{i}} = l_{w_{j}}}{w_{i}, w_{j} &Element; V}}{Σ} [J (w_{i}, w_{j}) - \frac{k_{w_{i}} k_{w_{j}}}{h}]

其中J(w_i，w_j)是词w_i和w_j的Jaccard相似度，

是图G_t中所有权重和的两倍，

是顶点w_i中加权图中的度，即与该顶点连接的所有边的权重和。

步骤(5)的具体实施方式描述如下。

输入：突发词图G_t＝{V_t，E_t，W_t}

输出：约简的突发词图

5-1)根据边权由小到大排序得到边列表L＝{e_i}；

5-2)令

计算

的模块性Q⁽⁰⁾；

5-3)forL中依次的每一个边e_i do

5-4)

移除e_i，变为

5-5)计算当前约简图

形成的顶点聚类在原图G_t上的模块性Q⁽ⁱ⁾；

56)end

5-7)找到最大的Q⁽ⁱ⁾并返回相应的中间图

6)突发话题检测(基于图聚类法之步骤二)：该步骤如图2(c)所示，对约简后的突发词图

的每一个最大连通子图s提取内聚子图(内聚子图是指子图中的顶点倾向于与子图内部的顶点相对于与子图外顶点以较大的权重相连)；提取内聚子图的方法是对步骤5)中得到的每一个最大联通子图s，依据边的中间性从小到大依次移除边；用s⁽ⁱ⁾表示移除i条边后的中间图，则s⁽ⁱ⁾形成对图s的顶点集合的一个聚类L⁽ⁱ⁾(s)；计算中间步骤中顶点聚类的模块性Q⁽ⁱ⁾(计算公式与步骤5)中的模块性计算式相同，只是用s代替G_t)，找到最大的Q⁽ⁱ⁾和相应的s⁽ⁱ⁾；s⁽ⁱ⁾中每个顶点数不少于4的最大联通子图的顶点集合对应的词组合是一个检测出的话题。该步骤的具体实施方式描述如下：

输入：约简的突发词图

的一个独立连通子图s

输出：若干代表不同话题的顶点集合

6-1)令s⁽⁰⁾＝s，计算s⁽⁰⁾的模块性Q⁽⁰⁾；

6-2)whiles^(i-1)的边集非空do

6-3)计算s^(i-1)中每条边的中间性；

6-4)删除s^(i-1)中中间性最大的边，变成s⁽ⁱ⁾；

6-5)计算当前s⁽ⁱ⁾形成的顶点聚类在s上的模块性Q⁽ⁱ⁾；

6-6)end

6-7)找到最大的Q⁽ⁱ⁾并返回相应的s⁽ⁱ⁾，其中每个顶点数不小于4的独立连通子图的顶点集合是一个检测出的话题；

一般来讲，对于一个突发词图，移除不同话题突发词之间的连边时，模块性逐渐增大，移除同一话题的突发词内的边时，模块性减小。步骤5)根据原始图G_t的边权大小对其进行约简，连接话题内主要突发词的连边由于权重较大将会被保留，大部分连接不同话题之间的连边将会被移除。步骤6)根据联通子图s的边的中间性进行内聚子图提取，连接不同话题顶点的连边由于中间性较大将会被移除，而连接话题内的突发词连边被保留，从而得到内聚子图。

Claims

1.一种基于图聚类的用户生成文本流中的突发话题检测方法，其特征在于，该方法包括以下步骤：

表示移除i条边后的中间图，则该中间图

一个最大联通子图的顶点集合；计算聚类L⁽ⁱ⁾(G_t)的模块性Q⁽ⁱ⁾，找到最大的模块性Q⁽ⁱ⁾并输出相应的中间图

作为约简后的突发词图；

6)突发话题检测：对约简后的突发词图的每一个最大连通子图s提取内聚子图，将大于N个顶点的内聚子图中所有顶点集合对应突发词的组合为检测出的突发话题，N取值为大于3的正整数。

2.如权利要求1所述方法，其特征在于，所述提取内聚子图的方法是依据步骤5)中得到的每一个最大联通子图s中所有顶点对之间的最短路径经过该边的数目除以该边的权重得到的值的大小依次移除边；用s⁽ⁱ⁾表示移除i条边后的中间图，则s⁽ⁱ⁾形成对图s的顶点集合的一个聚类L⁽ⁱ⁾(s)；计算中间步骤中顶点聚类的模块性Q⁽ⁱ⁾，找到最大的Q⁽ⁱ⁾和相应的s⁽ⁱ⁾；s⁽ⁱ⁾中每个顶点数不少于4的最大联通子图的顶点集合对应词的组合是一个检测出的话题。