CN103984729A

CN103984729A - 微博信息追踪方法和微博信息追踪装置

Info

Publication number: CN103984729A
Application number: CN201410211030.7A
Authority: CN
Inventors: 洪毅虹; 费跃; 杨建武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2014-05-19
Filing date: 2014-05-19
Publication date: 2014-08-13

Abstract

本发明提出了一种微博信息追踪方法和一种微博信息追踪装置，其中微博信息追踪方法包括预设训练集合，其中，训练集合包括至少一个话题、前景语料和背景语料，前景语料为在话题发生的时间戳之后发布的信息，背景语料为在话题发生的时间戳之前发布的微博信息；获取话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征，以得到有关于训练集合的特征集合；根据特征集合训练生成话题追踪模型；使用话题追踪模型对需进行追踪的微博信息进行追踪。本发明能够从海量的实时微博信息流中过滤出与话题相关的微博信息，提高话题追踪的准确率。

Description

微博信息追踪方法和微博信息追踪装置

技术领域

本发明涉及计算机技术领域，具体而言，涉及微博信息追踪方法和微博信息追踪装置。

背景技术

近年来，随着移动互联网在世界范围内的迅速普及和蓬勃发展，实时的互联网络在人们的日常生活中越来越普遍。作为一种新兴的社交网络媒体，微博客(简称微博)，正逐渐取代博客，成为人们分享、传播和获取信息的新平台，典型的代表有美国注明微博客Twitter和国内的新浪微博。

微博客是一种广播形式的博客，用户可以随时随地用140个字符以内的内容发表自己的状态，分享自己感兴趣的新闻。其实时性、易用性以及社会化的特性使得微博在互联网上得到用户的青睐。据数据统计,美国著名微博客Twitter,其每日更新的微博数超过了5亿条。而在中国国内,据CNNIC《第32次中国互联网发展状况调查报告》显示，截至2013年6月底，中国微博用户数量达到3.31亿。作为一种互动性和传播性极强的社交网络，当一个事件发生的时候，微博会在极短的时间里产生海量的数据信息。在这种实时快速更新的宏大信息流中，用户想了解自己所感兴趣的事件的进展,希望系统能够对于话题的动态进行实时跟踪。而微博的实时性、社会化以及碎片化特征给微博环境下的话题追踪带来了巨大的挑战。

与传统新闻媒体以及博客环境下话题追踪一样，微博环境下与话题相关的微博追踪也面临着初始语料不足以及话题偏移的挑战。因此传统的话题追踪的技术，比如Rocchio算法、逻辑斯蒂回归算法都可以应用到微博环境下的话题追踪中。但是，与传统新闻媒体和博客环境下的话题追踪相比，微博环境下的话题追踪是不相同的。首先微博的内容更加短小精悍，更加碎片化，通常只允许用户发表140个字符以内的内容。相比传统新闻媒体和博客，我们更难准确地获取微博的主题信息。其次，用户在所编辑的微博内容中不仅可以包含文本的内容，而且可以包含图片及视频的链接或其他网页形式的链接来补充说明所要发表的内容。与此同时，用户还可以在微博中使用#符号来表明微博所属的主题，使得相似的信息能更快、更好地聚集在一起，从而方便信息的有效获取。除此之外，用户还可以通过符号、RT符号和其他用户进行互动，使得信息在用户之间能更快地传递。这些社交特性是传统新闻媒体和博客中不存在的。再次，相对于传统的博客，用户在微博中所发布的主题也更为宽泛和随意，可以是用户当前的状态，对特定话题的关注，甚至可以是简单的别人微博的转发。微博的用户人群也比传统的博客更加多元化，因此每一条微博并不是像博客那样有比较高的质量，其质量是参差不齐的。由于微博的特殊性，因此传统的话题追踪的技术不适用于微博环境。

因此，如何解决微博环境下与话题相关的微博追踪称为亟待解决的技术问题。

发明内容

基于上述背景技术出现的技术问题，本发明提供了一种信息追踪技术，可应用于微博环境中，提高追踪与话题相关的微博信息的准确率。

根据本发明的一个方面，提供了一种微博信息追踪方法，包括：预设训练集合，其中，所述训练集合包括至少一个话题、前景语料和背景语料，所述前景语料为在所述话题发生的时间戳之后发布的微博信息，所述背景语料为在所述话题发生的时间戳之前发布的微博信息；获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征，以得到有关于所述训练集合的特征集合；根据所述特征集合训练生成话题追踪模型；使用所述话题追踪模型对需进行追踪的微博信息进行追踪。

本发明典型的应用场景是微博环境，对预先设置的训练集合进行特征提取，得到特征集合，在该特征集合中，微博信息的文本特征反应了微博信息的语义信息和质量信息，而微博信息的相关反馈特征反应了与当前时间点最邻近且与话题相关的微博信息的相关性，因此基于该特征集合生成的话题追踪模型能够解决微博环境下话题偏移的问题，变相地进行了查询扩展，并且从海量的实时微博信息流中过滤出与话题相关的微博信息，可以提高微博环境下话题追踪的准确率，对网络用户有着重要的现实意义。

根据本发明的另一方面，还提供了一种微博信息追踪装置，包括：设置单元，预设训练集合，其中，所述训练集合包括至少一个话题、前景语料和背景语料，所述前景语料为在所述话题发生的时间戳之后发布的微博信息，所述背景语料为在所述话题发生的时间戳之前发布的微博信息；特征集合获取单元，获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征，以得到有关于所述训练集合的特征集合；微博话题追踪模型生成单元，根据所述特征集合训练生成微博话题追踪模型；追踪单元，使用所述微博话题追踪模型对需进行追踪的微博信息进行追踪。

附图说明

图1示出了根据本发明的实施例的微博信息追踪方法的示意流程图；

图2示出了根据本发明的实施例的生成特征集合方法的流程图；

图3示出了根据本发明的实施例的微博信息追踪过程的示意图；

图4示出了根据本发明的实施例的提取扩展主题信息的流程图；

图5示出了根据本发明的实施例的微博信息追踪装置的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

在具体阐述根据本发明的话题追踪方法之前，首先定义以下名词：

话题：每个事件都是一个话题，用若干个关键词表示，每个话题都有其发生时的时间戳。

触发微博：时间最早讨论该话题的微博被称为触发微博。

背景语料：在话题发生的时间戳之前发布的微博集合被称为背景语料。

前景语料：在话题发生的时间戳之后发布的微博集合被称为前景语料。

训练集合：该集合包含了一个话题集合，同时对于每个话题，该训练集合还包含了标注了是否与该话题相关的微博集合。

图1示出了根据本发明的实施例的微博信息追踪方法的示意流程图。

如图1所示，根据本发明的实施例的微博信息追踪方法，可以包括以下步骤：

步骤102，预设训练集合，其中，训练集合包括至少一个话题、前景语料和背景语料，前景语料为在话题发生的时间戳之后发布的微博信息，背景语料为在话题发生的时间戳之前发布的微博信息；步骤104，获取话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征，以得到有关于训练集合的特征集合；步骤106，根据特征集合训练生成话题追踪模型；步骤108，使用话题追踪模型对需进行追踪的微博信息进行追踪。

其中，所述获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征，具体包括：

根据所述背景语料中每一条微博信息中的词建立倒排索引；获取所述前景语料中每一条微博信息的内容信息，将所述内容信息添加至所述索引中；使用狄利克雷平滑算法和所述索引获取微博信息中词的分布，利用预先建立的语言模型确定所述前景语料中的每一条微博信息的语义特征，其中，所述语言模型中的词的分布是使用所述狄利克雷平滑算法和索引获取的；根据所述前景语料中的微博信息包含的特征名确定所述微博信息的质量特征，所述语义特征和所述质量特征为所述前景语料中的微博信息的文本特征；计算所述前景语料中的微博信息与已确定的且与所述话题相关的微博信息之间的相关度，所述相关度是所述前景预料中的微博信息的相关反馈特征；将所述训练集合中预先标注的微博信息与所述话题的相关性作为所述相关性特征。

背景语料中每一条微博信息中词的分布数据的获取过程包括：

提取背景语料中的微博信息的原始文本的短链接，根据短链接获取微博信息的扩展主题信息，将扩展主题信息特征至背景语料中，以及对背景语料中的内容和表示话题关键词集合进行预处理，得到词的分布数据。

获取前景语料中每一条微博信息的内容信息的过程具体包括：

提取前景语料中的微博信息的原始文本的短链接，根据短链接获取微博信息的扩展主题信息，以及根据微博信息的原始文本信息和扩展主题信息生成内容信息。

需说明的是，获取微博信息的扩展主题信息的方法包括：

将微博信息的短链接还原成原始的长链接，从长链接中解析出网站关键字集合；将网站的网页代码中解析出标签的内容，将标签的内容分割成多个子字符串；将不包含网站关键字集合中任一关键字的子字符串作为微博信息的扩展主题信息。

微博信息追踪方法还包括将触发信息添加进滑动窗口，其中，所述触发信息为与所述话题相关的且时间最早的微博信息；根据判断结果将与所述话题相关的微博信息添加进所述滑动窗口，将所述滑动窗口中的微博信息作为判断所述前景语料中的下一条微博信息是否与所述话题相关的依据。

采用梯度下降算法对所述特征集合进行训练，得到所述话题追踪模型，其中，使用所述话题追踪模型对需进行追踪的微博信息进行追踪包括：计算得到实时微博信息的文本特征和相关反馈特征；使用所述话题追踪模型计算出实时微博信息与所述话题的相关性分数；将所述相关性分数大于等于阈值的实时微博信息添加进所述滑动窗口中。

根据本发明的另一实施例的微博信息追踪的方法主要包括以下几个步骤：

A、基于训练集合使用文本模型和反馈模型生成训练得到话题追踪系统的特征集合，其中，文本模型和反馈模型将在下文中被解释。

B、使用梯度下降算法训练得到话题追踪系统M。

C、对需要进行话题追踪的话题以及其对应的实时微博流建立文本模型以及反馈模型，使用话题追踪系统过滤相关微博。

B中所描述的话题追踪系统M可以用公式1来表示

P (Y | x_{c}, x_{f}) = (1 - α) P_{w_{c}} (Y | x_{c}) + {αP}_{w_{f}} (Y | x_{f})

公式1

其中，

P_{w_{c}} (Y | x_{c}) = \frac{e^{w_{c} \cdot x_{c} + b_{c}}}{1 + e^{w_{c} \cdot x_{c} + b_{c}}}

公式2

P_{w_{f}} (Y | x_{f}) = \frac{e^{w_{f} \cdot x_{f} + b_{f}}}{1 + e^{w_{f} \cdot x_{f} + b_{f}}}

公式3

为本发明的文本模型，用公式2表示；w_c为文本模型的权重，b_c为模型的偏置，x_c为各维特征的值。

为本发明的反馈模型，用公式3表示；w_f为反馈模型的权重，b_f为模型的偏置，x_f为各维特征的值。

α为预设的0-1之间的实数。

本发明另外设置了一个阈值β，在进行话题追踪时，当P(Y|x_c,x_f)≥β时，微博才会被判定跟当前话题相关。

根据公式1、2、3，在进行话题追踪前，首先要先估算出模型的参数w_c、b_c、w_f、b_f。本发明定义了一个如公式4所示的损失函数来估算模型的参数，采用常用的梯度下降算法来计算参数，其梯度用公式5和公式6所示。

\begin{matrix} \min_{w_{c}, w_{f}} L (w_{c}, w_{f}) \\ = - Σ_{i = 1}^{m} [y^{(i)} \log (P (Y | {x_{c}}^{(i)}, {x_{f}}^{(i)})) + (1 \\ - y^{(i)}) \log (1 - P (Y | {x_{c}}^{(i)}, {x_{f}}^{(i)}))] \\ + λ (| | w_{c} | | + | | w_{f} | |) \end{matrix}

公式4

\begin{matrix} \frac{&PartialD; L}{{&PartialD; w}_{c}} = - Σ_{i = 1}^{m} [(\frac{y^{(i)} - 1}{1 - P (Y | {x_{c}}^{(i)}, {x_{f}}^{(i)})} + \frac{y^{(i)}}{P (Y | {x_{c}}^{(i)}, {x_{f}}^{(i)})}) \\ \cdot \frac{e^{w_{c} \cdot x_{c} + b_{c}}}{1 + e^{w_{c} \cdot x_{c} + b_{c}}} \cdot \frac{(α - 1) x_{c}}{1 + e^{w_{c} \cdot x_{c} + b_{c}}}] + {2 λw}_{c} \end{matrix}

公式5

\begin{matrix} \frac{&PartialD; L}{{&PartialD; w}_{f}} = - Σ_{i = 1}^{m} [(\frac{y^{(i)} - 1}{1 - P (Y | {x_{c}}^{(i)}, {x_{f}}^{(i)})} + \frac{y^{(i)}}{P (Y | {x_{c}}^{(i)}, {x_{f}}^{(i)})}) \\ \cdot \frac{e^{w_{f} \cdot x_{f} + b_{f}}}{1 + e^{w_{f} \cdot x_{f} + b_{f}}} \cdot \frac{(- α) x_{f}}{1 + e^{w_{f} \cdot x_{f} + b_{f}}}] + {2 λw}_{f} \end{matrix}

公式6

公式4、5、6中所需要的x_c ⁽ⁱ⁾,x_f ⁽ⁱ⁾,y⁽ⁱ⁾是从训练集合中获取的特征集合，x_c ⁽ⁱ⁾表示微博的语义特征和质量特征，x_f ⁽ⁱ⁾表示当前微博与滑动窗口中的微博的相关度，y⁽ⁱ⁾表示从标注结果中得到该微博与话题Q的相关性。针对训练集合中的每一个话题Q，获取特征集合的计算方法包括以下步骤，如图2所示：

A1)对训练集合中背景语料中的微博集合中的每一条微博，提取微博原始文本中的短链接，通过短链接获取该微博的扩展主题信息，将扩展主题信息添加到背景语料中。

A2)对训练集合中背景语料中的内容进行预处理，主要包括以下步骤：

A2.1)剔除停用词。

A2.2)词干提取。

A2.3)计算每个单词的TF值(Term Frequency词在微博中出现的频率)和IDF值(Inverse Document Frequency，逆向文件频率，代表词的常见度)。

A3)对表示话题的关键词集合进行预处理，主要包括以下步骤：

A3.1)剔除停用词。

A3.2)词干提取。

A4)对该话题的背景语料集合建立倒排索引。

A5)设置参数α和β的值，设置滑动窗口的宽度为n。

A6)初始状态下包含话题Q的相关微博的滑动窗口C设为空，并将该话题的触发微博添加滑动窗口C中。

A7)对于该话题前景语料集合中的每一条微博D，建立文本内容模型和相关反馈模型，主要包括以下步骤：

A7.1)提取微博原始文本中的短链接，通过短链接获取该微博的扩展主题信息D′。

A7.2)将微博的原始文本信息和扩展主题信息合并生成D″。

A7.3)对D″进行预处理后，添加到A4中所建立的倒排索引中，倒排索引表示词的分布数据。

A7.4)对D″进行建模，计算该微博与话题的相关度S_DE，其计算方法如公式7所示。其中，和是使用狄利克雷平滑(Dirichlet Smoothing)算法根据倒排索引计算得到的对话题Q和微博D″的估计。

Score (Q, D) = Σ_{w &Element; V} P (w | {\hat{θ}}_{Q}) \cdot \log (P (w | {\hat{θ}}_{D}))

公式7

A7.5)根据下表1计算该条微博的质量特征。

特征名	解释
		n_#	取值为0或者1，表示该条微博是否包含#符号。
n_link	取值为0或者1，表示该条微博是否包含短连接。
		n_RT	取值为0或者1，表示该条微博是否包含RT符号。
n_	取值为0或者1，表示该条微博是否包含符号。

至此，该微博文本内容所需要的特征(S_DE、n_#、n_link、n_RT、n_)都计算完毕了。

A7.6)根据公式1计算微博D和滑动窗口里每条微博的相关度，设为S_w＝＜s₁,s₂,…,s_n＞，即形成反馈模型所需要的特征。

A7.7)从训练集合中的标注结果中得到该微博与话题Q的相关性。

A7.8)如果该微博与话题Q不相关，则继续处理下一条微博，否将该微博加到滑动窗口中。如果滑动窗口里微博的个数大于n，则舍弃时间戳最早的微博。

针对A1和A7.1中所提到的通过微博短链接获取微博的扩展主题信息，主要有以下步骤：

1)将文档中包含的短链接还原成原始的长链接。

2)从长链接中解析出网站关键字集合。

3)从网页HTML代码中解析出<TITLE>标签的内容，作为网页主题信息的候选文本。

4)将候选文本的内容用常见的分隔符(例如“|”，“-”，“_”)分割成若干个子字符串。

5)保留不包含网站关键字集合中任一关键字的字符串作为微博的扩展主题信息。

使用A1-A7所描述的方法得到训练所需要的特征集合，并使用梯度下降方法训练得到公式1中所描述话题追踪系统Ｍ后，就可以进行微博上的话题追踪了。

话题追踪的过程和训练的过程基本是一致的，不同的地方在于A7.7中微博与话题Q相关性的获取。话题追踪的过程中，利用A1-A7.6中所描述的方法获取文本内容模型和反馈模型所需要的特征后，用公式1所描述的话题追踪系统M，计算出该微博和话题Q的相关性得分，如果该得分比预设的β值高，则该微博和话题是相关的，否则是不相关的。

在实际应用中，获取特征集合的过程主要包括以下步骤：

1)训练集合中背景语料中的微博集合中的每一条微博，提取微博原始文本中的短链接，通过短链接获取该微博的扩展主题信息，并添加到背景语料中。

2)对训练集合中的微博集合进行预处理，主要包括以下步骤：

a)剔除停用词。停用词可以由用户事先进行设置，可以为“in”、“the”和标点符号等无具体意义的词，中文可以为“的”、“着”、“吧”和标点符号等无具体意义的词。需要说明的是，当文档中出现中文句子时，需要利用现有技术对中文句子进行特殊的分词处理，再将停用词从文档中剔除。

b)词干提取。当目标文档集合中的内容为英文字符时，将所有单词进行还原。

c)计算每个单词的TF值和IDF值。

3)对表示话题的关键词集合进行预处理，主要包括以下步骤：

d)剔除停用词。

e)词干提取。

4)对该话题的背景语料集合建立倒排索引。

5)设置参数α和β的值，设置滑动窗口的宽度为n。

6)初始状态下包含话题Q的相关微博的滑动窗口C设为空，并将该话题的触发微博添加滑动窗口C中。

7)对于该话题前景语料集合中的每一条微博D，建立文本内容模型和相关反馈模型，主要包括以下步骤：

a)提取微博原始文本中的短链接，通过短链接获取该微博的扩展主题信息D′。

b)将微博的原始文本信息和扩展主题信息合并生成D″。

c)对D″进行预处理，添加到倒排索引中。

d)对D″进行建模，使用公式7计算其与话题的相关度S_DE。

e)计算该条微博的质量特征n_#、n_link、n_RT、n_。

f)根据公式7计算微博D和滑动窗口里每条微博的相关度，设为S_w＝＜s₁,s₂,…,s_n＞，即为反馈模型所需要的特征。

g)从训练语料中的标注结果中得到该微博与话题Q的相关性。

h)如果该微博与话题Q不相关，则继续处理下一条微博，否将该微博加到滑动窗口中。如果滑动窗口里微博的个数大于n，则舍弃时间戳最早的微博。

参见图3，根据本发明的又一实施例的微博追踪的过程，主要有以下步骤：

步骤302，对背景语料中的微博集合中的每一条微博，提取微博原始文本中的短链接，通过短链接获取该微博的扩展主题信息，并添加到背景语料中。

步骤304，对该话题的背景语料集合中的微博进行预处理，方法与训练分类器中的过程一样，在此不再赘述。

步骤306，对该话题的背景语料集合建立倒排索引。对表示话题的关键词集合进行预处理。设置参数α和β的值，设置滑动窗口的宽度为n。

初始状态下包含话题Q的相关微博的滑动窗口C设为空，并将该话题的触发微博添加滑动窗口C中。

步骤308，对于该话题前景语料集合中的每一条微博D，建立文本内容模型和相关反馈模型，主要包括以下步骤：

提取微博原始文本中的短链接，通过短链接获取该微博的扩展主题信息D′。

将微博的原始文本信息和扩展主题信息合并生成D″。

对D″进行预处理，添加到倒排索引中。

对D″进行建模，使用公式7计算该微博与话题的相关度S_DE。

计算该条微博的质量特征n_#、n_link、n_RT、n_。

根据公式7计算微博D和滑动窗口里每条微博的相关度，设为S_w＝＜s₁,s₂,…,s_n＞，即为反馈模型所需要的特征。

用公式1所描述的话题追踪系统M，计算出该微博和话题Q的相关性得分，如果该得分比预设的β值高，则该微博和话题是相关的，将该微博加到滑动窗口中，否则是不相关的，继续处理下一条微博。

步骤310，如果滑动窗口里微博的个数大于n，则舍弃时间戳最早的微博。

图4示出了根据本发明的实施例的提取扩展主题信息的流程图。

在本实施例中，通过微博短链接获取微博的扩展主题信息的过程，主要有以下步骤：

步骤402，提取微博的短链接。

步骤404，将文档中包含的短链接还原成原始的长链接。

步骤406，从长链接中解析出网站关键字集合。

步骤408，从网页HTML代码中解析出<TITLE>标签的内容，作为网页主题信息的候选文本。

步骤410，将候选文本的内容用常见的分隔符(例如“|”，“-”，“_”)分割成若干个子字符串。

步骤412，保留不包含网站关键字集合中任一关键字的字符串作为微博的扩展主题信息。

图5示出了根据本发明的实施例的微博信息追踪装置的框图。

如图5所示，根据本发明的实施例的微博信息追踪装置500包括：设置单元502，预设训练集合，其中，所述训练集合包括至少一个话题、前景语料和背景语料，所述前景语料为在所述话题发生的时间戳之后发布的微博信息，所述背景语料为在所述话题发生的时间戳之前发布的微博信息；特征集合获取单元504，获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征，以得到有关于所述训练集合的特征集合；微博话题追踪模型生成单元506，根据所述特征集合训练生成微博话题追踪模型；追踪单元508，使用所述微博话题追踪模型对需进行追踪的微博信息进行追踪。

所述特征集合获取单元504包括：索引建立单元5042，根据所述背景语料中每一条微博信息中的词建立倒排索引，以及获取所述前景语料中每一条微博信息的内容信息，将所述内容信息添加至所述索引中；文本特征获取单元5044，使用狄利克雷平滑算法和所述索引获取微博信息中词的分布，利用预先建立的语言模型确定所述前景语料中的微博信息的语义特征，以及根据所述前景语料中的微博信息包含的特征名确定所述微博信息的质量特征，所述语义特征和所述质量特征为所述前景语料中的信息的文本特征；相关性特征获取单元5046，计算所述前景语料中的信息与已确定的且与所述话题相关的信息之间的相关度，作为相关反馈特征，将所述训练集合中预先标注的微博信息与所述话题的相关性作为所述相关性特征；相关反馈特征获取单元5048，计算所述前景语料中的微博信息与已确定的且与所述话题相关的微博信息之间的相关度，所述相关度是所述前景预料中的微博信息的相关反馈特征；。

所述索引建立单元5042包括：分布数据获取单元504A，提取所述背景语料中的微博信息的原始文本的短链接，根据所述短链接获取所述微博信息的扩展主题信息，将所述扩展主题信息特征至所述背景语料中，以及对所述背景语料中的内容和表示所述话题关键词集合进行预处理，得到所述词的分布数据；内容信息获取单元504B，提取所述前景语料中的微博信息的原始文本的短链接，根据所述短链接获取所述微博信息的扩展主题信息，以及根据所述微博信息的原始文本信息和扩展主题信息生成所述内容信息。

在上述技术方案中，优选的，所述内容信息获取单元504B还用于将所述微博信息的短链接还原成原始的长链接，从所述长链接中解析出网站关键字集合，将所述网站的网页代码中解析出标签的内容，将所述标签的内容分割成多个子字符串，将不包含所述网站关键字集合中任一关键字的子字符串作为所述微博信息的扩展主题信息。

在上述技术方案中，优选的，所述特征集合获取单元504还可以包括：滑动窗口建立单元5048，将触发信息添加进滑动窗口，其中，所述触发信息为与所述话题相关的且时间最早的微博信息，以及根据判断结果将与所述话题相关的微博信息添加进所述滑动窗口，将所述滑动窗口中的微博信息作为判断所述前景语料中的下一条微博信息是否与所述话题相关的依据。

所述微博话题追踪模型生成单元506采用梯度下降算法对所述特征集合进行训练，得到所述微博话题追踪模型；所述追踪单元508还用于计算得到实时微博信息的文本特征和相关反馈特征，使用所述话题追踪模型计算出实时微博信息与所述话题的相关性分数，将所述相关性分数大于等于阈值的实时微博信息添加进所述滑动窗口中。

以上结合附图详细说明了根据本发明的技术方案，本发明提供了一种微博环境下话题追踪的方法及装置，考虑了微博文本的语义信息和质量信息，以及利用伪相关反馈技术建立了一个滑动的时间窗口来保存和当前时间点最邻近且与话题相关的微博，使得系统能够适应微博环境下话题偏移的问题，并且变相地进行了查询扩展，可以提高微博环境下话题追踪的准确率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种微博信息追踪方法，其特征在于，包括：

预设训练集合，其中，所述训练集合包括至少一个话题、前景语料和背景语料，所述前景语料为在所述话题发生的时间戳之后发布的微博信息，所述背景语料为在所述话题发生的时间戳之前发布的微博信息；

获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征，以得到有关于所述训练集合的特征集合；

根据所述特征集合训练生成话题追踪模型；

使用所述话题追踪模型对需进行追踪的微博信息进行追踪。

2.根据权利要求1所述的微博信息追踪方法，其特征在于，所述获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征，具体包括：

根据所述背景语料中每一条微博信息中的词建立倒排索引；

获取所述前景语料中每一条微博信息的内容信息，将所述内容信息添加至所述索引中；

使用狄利克雷平滑算法和所述索引获取微博信息中词的分布，利用预先建立的语言模型确定所述前景语料中的每一条微博信息的语义特征，其中，所述语言模型中的词的分布是使用所述狄利克雷平滑算法和索引获取的；

根据所述前景语料中的微博信息包含的特征名确定所述微博信息的质量特征，所述语义特征和所述质量特征为所述前景语料中的微博信息的文本特征；

计算所述前景语料中的微博信息与已确定的且与所述话题相关的微博信息之间的相关度，所述相关度是所述前景预料中的微博信息的相关反馈特征；

将所述训练集合中预先标注的微博信息与所述话题的相关性作为所述相关性特征。

3.根据权利要求2所述的微博信息追踪方法，其特征在于，所述背景语料中每一条微博信息中词的分布数据的获取过程包括：

提取所述背景语料中的微博信息的原始文本的短链接，根据所述短链接获取所述微博信息的扩展主题信息，将所述扩展主题信息特征至所述背景语料中，以及对所述背景语料中的内容和表示所述话题关键词集合进行预处理，得到所述词的分布数据；

获取所述前景语料中每一条微博信息的内容信息，具体包括：

提取所述前景语料中的微博信息的原始文本的短链接，根据所述短链接获取所述微博信息的扩展主题信息，以及根据所述微博信息的原始文本信息和扩展主题信息生成所述内容信息。

4.根据权利要求3所述的微博信息追踪方法，其特征在于，获取所述微博信息的扩展主题信息的方法包括：

将所述微博信息的短链接还原成原始的长链接，从所述长链接中解析出网站关键字集合；

将所述网站的网页代码中解析出标签的内容，将所述标签的内容分割成多个子字符串；

将不包含所述网站关键字集合中任一关键字的子字符串作为所述微博信息的扩展主题信息。

5.根据权利要求2至4中任一项所述的微博信息追踪方法，其特征在于，还包括：

将触发信息添加进滑动窗口，其中，所述触发信息为与所述话题相关的且时间最早的微博信息；

根据判断结果将与所述话题相关的微博信息添加进所述滑动窗口，将所述滑动窗口中的微博信息作为判断所述前景语料中的下一条微博信息是否与所述话题相关的依据。

6.根据权利要求5所述的微博信息追踪方法，其特征在于，采用梯度下降算法对所述特征集合进行训练，得到所述话题追踪模型，其中，使用所述话题追踪模型对需进行追踪的微博信息进行追踪包括：

计算得到实时微博信息的文本特征和相关反馈特征；

使用所述文本特征和相关反馈特征以及所述话题追踪模型计算出实时微博信息与所述话题的相关性分数；

将所述相关性分数大于等于阈值的实时微博信息添加进所述滑动窗口中。

7.一种微博信息追踪装置，其特征在于，包括：

设置单元，预设训练集合，其中，所述训练集合包括至少一个话题、前景语料和背景语料，所述前景语料为在所述话题发生的时间戳之后发布的微博信息，所述背景语料为在所述话题发生的时间戳之前发布的微博信息；

特征集合获取单元，获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征，以得到有关于所述训练集合的特征集合；

微博话题追踪模型生成单元，根据所述特征集合训练生成微博话题追踪模型；

追踪单元，使用所述微博话题追踪模型对需进行追踪的微博信息进行追踪。

8.根据权利要求7所述的微博信息追踪装置，其特征在于，所述特征集合获取单元包括：

索引建立单元，根据所述背景语料中每一条微博信息中的词建立倒排索引，以及获取所述前景语料中每一条微博信息的内容信息，将所述内容信息添加至所述索引中；

文本特征获取单元，使用狄利克雷平滑算法和所述索引获取微博信息中词的分布，利用预先建立的语言模型确定所述前景语料中的每一条微博信息的语义特征，以及根据所述前景语料中的微博信息包含的特征名确定所述微博信息的质量特征，所述语义特征和所述质量特征为所述前景语料中的微博信息的文本特征；

相关反馈特征获取单元，计算所述前景语料中的微博信息与已确定的且与所述话题相关的微博信息之间的相关度，所述相关度是所述前景预料中的微博信息的相关反馈特征；

相关性获取单元，将所述训练集合中预先标注的微博信息与所述话题的相关性作为所述相关性特征。

9.根据权利要求8所述的微博信息追踪装置，其特征在于，所述索引建立单元包括：

分布数据获取单元，提取所述背景语料中的微博信息的原始文本的短链接，根据所述短链接获取所述微博信息的扩展主题信息，将所述扩展主题信息特征至所述背景语料中，以及对所述背景语料中的内容和表示所述话题关键词集合进行预处理，得到所述词的分布数据；

内容信息获取单元，提取所述前景语料中的微博信息的原始文本的短链接，根据所述短链接获取所述微博信息的扩展主题信息，以及根据所述微博信息的原始文本信息和扩展主题信息生成所述内容信息。

10.根据权利要求9所述的微博信息追踪装置，其特征在于，所述内容信息获取单元还用于将所述微博信息的短链接还原成原始的长链接，从所述长链接中解析出网站关键字集合，将所述网站的网页代码中解析出标签的内容，将所述标签的内容分割成多个子字符串，将不包含所述网站关键字集合中任一关键字的子字符串作为所述微博信息的扩展主题信息。

11.根据权利要求8至10中任一项所述的微博信息追踪装置，所述特征在于，所述特征集合获取单元还包括：

滑动窗口建立单元，将触发信息添加进滑动窗口，其中，所述触发信息为与所述话题相关的且时间最早的微博信息，以及根据判断结果将与所述话题相关的微博信息添加进所述滑动窗口，将所述滑动窗口中的微博信息作为判断所述前景语料中的下一条微博信息是否与所述话题相关的依据。

12.根据权利要求11所述的微博信息追踪装置，所述特征在于，所述话题追踪模型生成单元采用梯度下降算法对所述特征集合进行训练，得到所述话题追踪模型；

所述追踪单元还用于计算得到实时微博信息的文本特征和相关反馈特征，使用所述话题追踪模型计算出实时微博信息与所述话题的相关性分数，将所述相关性分数大于等于阈值的实时微博信息添加进所述滑动窗口中。