CN104484343A

CN104484343A - 一种对微博进行主题发现与追踪的方法

Info

Publication number: CN104484343A
Application number: CN201410694002.5A
Authority: CN
Inventors: 康延荣; 刘克彬; 苗欣; 马强
Original assignee: WUXI QINGHUA INFORMATION SCIENCE AND TECHNOLOGY NATIONAL LABORATORY INTERNET OF THINGS TECHNOLOGY CENTER
Current assignee: WUXI QINGHUA INFORMATION SCIENCE AND TECHNOLOGY NATIONAL LABORATORY INTERNET OF THINGS TECHNOLOGY CENTER
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2015-04-01
Anticipated expiration: 2034-11-26
Also published as: CN104484343B

Abstract

本发明公开一种对微博进行主题发现与追踪的方法，包括如下步骤：将原创微博及其评论、转发组织在一起，整体作为同一个单元输入；从微博文本中提取特征词，获得特征词列表，并统计各特征词在输入单元的词频；计算特征词列表中的特征词的权值，获得VSM向量；采用增量聚类算法，将输入的VSM向量依次与已有微博簇进行相似度比较，获得相似度最高的微博簇，若二者相似度高于阈值，则将该微博并入所述相似度最高的微博簇，否则以该微博为基础生成一个新微博簇；对微博簇进行筛选，获得主题簇。本发明方便用户通过微博随时了解舆论主流和社会热点，同时也为进一步的舆论分析提供了支持。

Description

一种对微博进行主题发现与追踪的方法

技术领域

本发明涉及主题发现与追踪技术领域，尤其涉及一种对微博进行主题发现与追踪的方法。

背景技术

微博是“微型博客”的简称，是一种通过关注机制分享简短实时信息的广播式的社交网络平台。微博具有准入门槛低、信息分享便捷迅速、即时性等特点。这些特点使得微博迅速发展，在改变用户生活方式的同时，也极大地改变了信息的传播渠道和传播方式。由于微博庞大的用户数量和信息发布的实时性，使得微博成为实时获取社会热点信息的重要来源。但是，用户们每天发布的微博数目庞大且内容五花八门，人们很难将其整体把握，发掘出其中的重要信息。

早在微博出现之前，人们就已经尝试在大量的新闻报道或者其他网上信息资源上进行话题的检测与追踪(Topic Detection and Tracking，TDT)，旨在解决信息过载的问题，对信息加以归类、合并，帮助人们可以快速便捷的从整体上对信息加以理解和分析，发掘出其中的重要信息。对于在新闻报道上进行话题检测与追踪，人们已经有了较为成熟的技术，取得了令人满意的结果。但是，微博兴起时间短，并且微博的语料与新闻报道有着极大的不同，传统主题发现与追踪技术不适用于微博，给微博的主题发现与追踪带来了新的挑战。

发明内容

本发明的目的在于通过一种对微博进行主题发现与追踪的方法，来解决以上背景技术部分提到的问题。

为达此目的，本发明采用以下技术方案：

一种对微博进行主题发现与追踪的方法，包括如下步骤：

S101、输入微博：将原创微博及其评论、转发组织在一起，整体作为同一个单元输入；

S102、提取特征词：从微博文本中提取出代表该文本特征的词即特征词，获得特征词列表，并统计各特征词在输入单元中出现的次数即特征词的词频；

S103、计算权值：计算特征词列表中的特征词的权值，获得向量空间模型(Vector Space Model，VSM)向量；

S104、增量聚类：采用增量聚类算法，将输入的VSM向量依次与已有微博簇进行相似度比较，获得相似度最高的微博簇，若二者相似度高于阈值，则将该微博并入所述相似度最高的微博簇，否则以该微博为基础生成一个新微博簇；

S105、输出主题：对微博簇进行筛选，获得主题簇。

特别地，所述步骤S101中对已经处理过的原创微博的转发微博，将直接丢弃，不包括在输入单元内。

特别地，所述步骤S102具体包括：S1021、对微博文本进行去噪，获得微博主干内容；S1022、对文本进行分词和词性标注；S1023、对分词结果进行选取，获得最终的特征词，并统计各特征词的词频。

特别地，所述步骤S1023中对分词结果进行选取，获得最终的特征词，具体包括：从分词结果中选出名词、动词、形容词及字符串，然后去除掉里面的停用词，获得最终的特征词。

特别地，所述步骤S103具体包括：TF-IDF(Term Frequency–InverseDocument Frequency)模型的权值由词频(Term Frequency，TF)经逆文档频率(Inverse Document Frequency，IDF)加权获得，权值计算公式如下：

{df}_{t} (w) = {df}_{t - 1} (w) + {df}_{C_{t}} (w)

idf_t(w)＝(log(N_t/df_t(w)))

其中，df_t(w)表示t时刻词w的文档频率，df_t-1(w)是前一时刻w的文档频率，df_Ct(w)表示代表新加入的文档集合C_t中w的文档频率；idf_t(w)表示t时刻词w的逆文档频率，N_t表示t时刻文档数目；df₀(w)表示初始时刻词w的文档频率；

将微博流划分为时间长度为T的段，统计特征词在每段内的文档频率；在t时刻，取t之前n个时间段内特征词的归一化文档频率组成长度为n的序列y_w,t＝[y_w(1),y_w(2),…,y_w(n-1),y_w(n)]，其中y_w(i)是特征词w在i段内的归一化文档频率；y_w(i)计算公式如下：N(i)是i段内总的微博数目，对该序列y_w,t进行离散傅里叶变换得Y_w＝[Y_w(1),Y_w(2),…,Y_w(n-1),Y_w(n)]；获得得到Y_w后，由公式weight_t(d,w)＝f(d,w)*(idf_t(w)+BurstyWeight_w(t))获得文档d中t时刻词w的权值weight_t(d,w)。

特别地，所述步骤S103中初始时刻词w的文档频率通过对一训练用微博文库进行特征词统计获得。

特别地，所述步骤S104具体包括：

TopicSet = {{Topic}_{1}, {Topic}_{2}, {Topic}_{3}, . . . ., {Topic}_{n_{t}}}

表示主题集，Topic_i＝{Weibo_i,1,Weibo_i,2,...}表示主题即微博的集合；

表示t时刻已经存在的主题；如果t时刻加入新的微博Weibo_t，Weibo_t分别与进行相似度比较，获得相似度的最大值MaxSimi＝max_i(similarity(Weibo_t,Topic_i))，并将与Weibo_t相似度最大的主题记为Topic_max；将MaxSimi与预先设置阈值进行比较，若MaxSimi大于阈值，则将Weibo_t归入Topic_max，若MaxSimi小于阈值，则把Weibo_t作为一个新的主题，接入TopicSet。

特别地，所述步骤S104中若微博Weibo_t的VSM向量为a，微博簇内微博的VSM向量为{b₁,b₂,...,b_m}，则微博与微博簇的相似度similarity(a,{b₁,b₂,...,b_m})为：

similarity (a, {b_{1}, b_{2}, . . ., b_{m}}) = (Σ_{i = 1}^{m} \frac{a * b_{i}}{| a * b_{i} |}) / m .

特别地，所述步骤S105中对微博簇进行筛选，获得主题簇，具体包括：将微博簇中微博数量小于预设最小值的微博簇筛除，剩下的微博簇作为主体簇。

本发明提出的对微博进行主题发现与追踪的方法立足于VSM、TF-IDF模型和增量聚类算法，同时深入分析微博的文本特征，利用了微博的发布时间信息，对特征词的突发性进行权值估计，作为突发性权值加入到基本模型中，极大的改善了系统的聚类结果。本发明为在微博语料上发展的实时话题自动识别和追踪方法，既可以方便用户随时了解舆论主流和社会热点，也能够为进一步的舆论分析提供支持。

附图说明

图1为本发明实施例提供的对微博进行主题发现与追踪的方法流程图；

图2为本发明实施例提供的提取特征词的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容，除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参照图1所示，图1为本发明实施例提供的对微博进行主题发现与追踪的方法流程图。

本实施例中对微博进行主题发现与追踪的方法具体包括如下步骤：

S101、输入微博：将原创微博及其评论、转发组织在一起，整体作为同一个单元输入。

在本实施例中假设对于一条原创微博的转发或者评论都和该原创微博具有相同的主题。所以在微博输入部分将原创微博及其评论、转发组织在一起，整体作为同一个单元输入，而输入单元的核心扔为原创微博。输入单元中既包括了原创微博的文本、发布者、发布时间等信息，也包括了对该原创微博的众多评论。需要说明的是，对已经处理过的原创微博的转发微博，将直接丢弃，不包括在输入单元内。

S102、提取特征词：从微博文本中提取出代表该文本特征的词即特征词，获得特征词列表，并统计各特征词在输入单元中出现的次数即特征词的词频。

S103、计算权值：计算特征词列表中的特征词的权值，获得向量空间模型(Vector Space Model，VSM)向量。计算的过程中，使用到了从训练用数据库中统计的词的频率和文档频率作为这些统计值的初始值，并随着不断输入微博，这些统计值也同时在实时更新，并在权值计算中得到利用。权值计算完成后，得到完整的VSM向量。

VSM模型是把所有文档中出现的词作为特征，构成特征空间，然后将文本表示为特征空间内的一个向量。向量的一维对应一个特征，也就是一个特征词。由于特征空间的维度非常高，通常采用下面的方法进行向量表示：

d_j＝(t₁,w_1,j；t₂,w_2,j；…；t_n,w_n,j)

其中，t_i表示文档d_j中不同的词，w_i,j表示t_i在文档d_j的权重。

TF-IDF(Term Frequency–Inverse Document Frequency)模型的权值由词频(Term Frequency，TF)经逆文档频率(Inverse Document Frequency，IDF)加权获得，权值计算公式如下：

{df}_{t} (w) = {df}_{t - 1} (w) + {df}_{C_{t}} (w)

idf_t(w)＝(log(N_t/df_t(w)))

其中，df_t(w)表示t时刻词w的文档频率，df_t-1(w)是前一时刻w的文档频率，df_Ct(w)表示代表新加入的文档集合C_t中w的文档频率；idf_t(w)表示t时刻词w的逆文档频率，N_t表示t时刻文档数目；df₀(w)表示初始时刻词w的文档频率，通过对一训练用微博文库进行特征词统计获得。其中，TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

S104、增量聚类：采用增量聚类算法，将输入的VSM向量依次与已有微博簇进行相似度比较，获得相似度最高的微博簇，若二者相似度高于阈值，则将该微博并入所述相似度最高的微博簇，否则以该微博为基础生成一个新微博簇。

聚类结果初始为空。

TopicSet = {{Topic}_{1}, {Topic}_{2}, {Topic}_{3}, . . . ., {Topic}_{n_{t}}}

表示主题集，Topic_i＝{Weibo_i,1,Weibo_i,2,...}表示主题即微博的集合；表示t时刻已经存在的主题。

如果t时刻加入新的微博Weibo_t，Weibo_t分别与进行相似度比较，获得相似度的最大值MaxSimi＝max_i(similarity(Weibo_t,Topic_i))，并将与Weibo_t相似度最大的主题记为Topic_max；将MaxSimi与预先设置阈值进行比较，若MaxSimi大于阈值，则将Weibo_t归入Topic_max，若MaxSimi小于阈值，则把Weibo_t作为一个新的主题，接入TopicSet。其中，若令微博Weibo_t的VSM向量为a，微博簇内微博的VSM向量为{b₁,b₂,...,b_m}，则微博与微博簇的相似度similarity(a,{b₁,b₂,...,b_m})为：

similarity (a, {b_{1}, b_{2}, . . ., b_{m}}) = (Σ_{i = 1}^{m} \frac{a * b_{i}}{| a * b_{i} |}) / m .

S105、输出主题：对微博簇进行筛选，获得主题簇。

聚类结束后，微博簇数目非常之多，并且绝大多数微博簇都非常小，并不足以构成一个主题，所以要对微博簇进行筛选。于本实施例中对微博簇进行筛选，获得主题簇，具体包括：将微博簇中微博数量小于预设最小值MiniSize的微博簇筛除，剩下的微博簇作为主体簇。

下面结合实施，对步骤S102提取特征词的具体过程进行扼要说明。如图2所示，提取特征词具体包括如下步骤：S1021、对微博文本进行去噪，获得微博主干内容。S1022、对文本进行分词和词性标注。S1023、对分词结果进行选取，获得最终的特征词，并统计各特征词的词频。从分词结果中选出名词、动词、形容词及字符串，然后去除掉里面的停用词，获得最终的特征词。

特征词提取的目的是从微博文本中提取出代表该文本特征的词，作为VSM向量的一维。中文文本的特征词提取主要包括两个步骤：中文分词和词性标注、特征词选取。因为微博的文本中夹杂有许多与内容不相关的字串，所以在分词之前还需要先进行去噪。微博文本的主要噪声来自于微博在转发、评论过程中系统所做的标记，还有用户其他用户，文本中的短链接和表情符号。

在文本去除噪声后，就获得了微博的主干内容了。例如下面一条微博：“我网上查了下天气是17‐5度，这天也变得真快！//南雄坪田家园:回复周宏忠:是啊！一下就这么冷！南雄的朋友们，要保暖哦！//周宏忠:明天南雄气温是8一10度。冷空气一来，坪田银杏叶会黄得更快一些。”。去噪后，变为“我网上查了下天气是17‐5度，这天也变得真快！是啊！一下就这么冷！南雄的朋友们，要保暖哦！明天南雄气温是8一10度。冷空气一来，坪田银杏叶会黄得更快一些。”。

去除噪声后，对文本进行分词和词性标注。例如，“明天南雄气温是8一10度。冷空气一来，坪田银杏叶会黄得更快一些。”的分词结果是“明天/t南雄/n气温/n是/v 8/a一/m 10/n度/q。/w冷空气/n一/m来/f，/w坪/v田/n银杏/n叶/n会/v黄/a得/u更/d快/a一些/m。/w”。“/*”表示该词的词性，其中“/n”表示名词，“/v”表示动词，“/a”表示形容词，“/x”表示字符串。

分词和词性标注结束后，要对分词结果进行选取，获得最终的特征词。首先考虑到名词、动词、形容词和字符串往往代表了文本中的重要信息，所以本文把这四种词选出留待进一步筛选。根据词性选出分词结果中的一部分词后，再去除掉里面的停用词，剩下的就是从文本中提取出的特征词了。同时，为了后面进行权值计算，在进行特征词提取时需要同时对每个特征词的词频进行统计。停用词(Stop Word)是指使用频繁广泛，但实际意义有不大的词。比如一些功能词，“a”“an”“the”之类。通常，在自然语言处理过程中，停用词都会被过滤掉。本实施例中使用了一个包含1500个停用词的停用词表。

本发明的技术方案立足于VSM、TF-IDF模型和增量聚类算法，同时深入分析微博的文本特征，利用了微博的发布时间信息，对特征词的突发性进行权值估计，作为突发性权值加入到基本模型中，极大的改善了系统的聚类结果。本发明为在微博语料上发展的实时话题自动识别和追踪方法，既可以方便用户随时了解舆论主流和社会热点，也能够为进一步的舆论分析提供支持。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种对微博进行主题发现与追踪的方法，其特征在于，包括如下步骤：

S103、计算权值：计算特征词列表中的特征词的权值，获得VSM向量；

S105、输出主题：对微博簇进行筛选，获得主题簇。

2.根据权利要求1所述的对微博进行主题发现与追踪的方法，其特征在于，所述步骤S101中对已经处理过的原创微博的转发微博，将直接丢弃，不包括在输入单元内。

3.根据权利要求1所述的对微博进行主题发现与追踪的方法，其特征在于，所述步骤S102具体包括：S1021、对微博文本进行去噪，获得微博主干内容；S1022、对文本进行分词和词性标注；S1023、对分词结果进行选取，获得最终的特征词，并统计各特征词的词频。

4.根据权利要求3所述的对微博进行主题发现与追踪的方法，其特征在于，所述步骤S1023中对分词结果进行选取，获得最终的特征词，具体包括：从分词结果中选出名词、动词、形容词及字符串，然后去除掉里面的停用词，获得最终的特征词。

5.根据权利要求1所述的对微博进行主题发现与追踪的方法，其特征在于，所述步骤S103具体包括：TF-IDF模型的权值由词频经逆文档频率加权获得，权值计算公式如下：

{df}_{t} (w) {df}_{t - 1} (w) + {df}_{C_{t}} (w)

idf_t(w)＝(log(N_t/df_t(w)))

6.根据权利要求5所述的对微博进行主题发现与追踪的方法，其特征在于，所述步骤S103中初始时刻词w的文档频率通过对一训练用微博文库进行特征词统计获得。

7.根据权利要求1所述的对微博进行主题发现与追踪的方法，其特征在于，所述步骤S104具体包括：

TopicSet = {{Topic}_{1}, {Topic}_{2}, {Topic}_{3}, . . . ., {Topic}_{n_{t}}}

表示主题集，Topic_i＝{Weibo_i,1,Weibo_i,2,…}表示主题即微博的集合；

Topic₁,Topic₂,Topic₃,....,表示t时刻已经存在的主题；如果t时刻加入新的微博Weibo_t，Weibo_t分别与Topic₁,Topic₂,Topic₃,....,进行相似度比较，获得相似度的最大值MaxSimi＝max_i(similarity(Weibo_t,Topic_i))，并将与Weibo_t相似度最大的主题记为Topic_max；将MaxSimi与预先设置阈值进行比较，若MaxSimi大于阈值，则将Weibo_t归入Topic_max，若MaxSimi小于阈值，则把Weibo_t作为一个新的主题，接入TopicSet。

8.根据权利要求7所述的对微博进行主题发现与追踪的方法，其特征在于，所述步骤S104中若微博Weibo_t的VSM向量为a，微博簇内微博的VSM向量为{b₁,b₂,…,b_m}，则微博与微博簇的相似度similarity(a,{b₁,b₂,…,b_m})为：

similarity (a, {b_{1}, b_{2}, . . ., b_{m}}) = (Σ_{i = 1}^{m} \frac{a * b_{i}}{| a^{*} b_{i} |}) / m .

9.根据权利要求1所述的对微博进行主题发现与追踪的方法，其特征在于，所述步骤S105中对微博簇进行筛选，获得主题簇，具体包括：将微博簇中微博数量小于预设最小值的微博簇筛除，剩下的微博簇作为主体簇。