CN103177024A

CN103177024A - 一种话题信息展现方法和装置

Info

Publication number: CN103177024A
Application number: CN2011104392588A
Authority: CN
Inventors: 伏圣国; 董恭谨; 朱红垒; 井辉; 白栓虎
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2011-12-23
Filing date: 2011-12-23
Publication date: 2013-06-26

Abstract

本发明的实施例提供了一种话题信息展现方法和装置，可解决现有技术话题展现不准确、不及时的问题。所述方法包括：接收信息；对接收的信息进行预处理；对预处理的信息进行话题发现；展现发现的话题信息。根据本发明实施例，可以及时地发现新话题及其子话题(相关焦点)，一定程度上解决了人工整理话题带来的及时性及覆盖面不足的缺点，具有重要的现实意义。话题的自动追踪可以串联相关话题及事件，从而让用户了解某个话题的来龙去脉，也有着重要的意义。

Description

一种话题信息展现方法和装置

技术领域

本发明涉及一种信息技术，尤其涉及一种话题信息展现方法和装置。

背景技术

互联网因即时性强、互动性好成为人们日常获取新闻的重要途径之一，并受到政府、金融、企业、情报等各领域关注。由于网络中的重要信息常会被海量数据淹没，因此建立以话题为主线的信息组织模式、快速有效地检测出并展现网上新话题和热点话题有着重要的意义。

微博的出现为话题的发现和跟踪提供了另一应用前景。微博用户呈现非常广阔的兴趣，用户关注的焦点随事件发生而迁移；由于大量繁杂无用信息的充斥，有很多有兴趣的内容无法及时浮现出来；话题自动识别和跟踪可以及时发现用户感兴趣的话题，来吸引更多人参与、讨论；通过跟踪来挖掘原创及其作者，提升用户的成就感和满意度，特别是草根用户。从商业意义来讲，有关话题内容展现地方，更容易投放广告。同时对于热门话题，还可引起领导层的关注，为国家治理提供及时信息。因此，展现热门话题有着十分重大的意义。为了展现热门话题，必须首先发现话题，下面简要介绍发现话题的方法。

话题发现及追踪通常以大规模新闻流为研究对象，通过分析新闻报道，发现热点话题并持续跟踪下去，最后将涉及某个话题的新闻报道组织起来以某种方式呈现给用户，方便用户及时了解当前热点话题以及事件的发展，在应对当前信息爆炸问题方面有着重要的意义。

在话题发现的实践中，话题发现主要有以下方式：

1、人工编辑，通过监视媒体或相关微博可以找出可能的热门话题。

2、用户用特定符号(如#)设定话题。

人工编辑整理的话题虽然准确度比较高，但是话题的及时性、覆盖面都有不足之处，同时人工编辑有较大的主观性，整理的话题基本都是众所周知的话题，对于某些话题的子话题以及还未传播开的次重要话题不能有效并及时地发现。同时，很多话题随着时间的推移讨论重点也在发生变化，而人工编辑难于及时捕捉话题的谈论焦点(子话题)。

在微博中系统规定用户可以使用特定符号(如#)来确定完整的语义单位(两个#之间的内容可以为“话题”或“类别”关键词)，但使用#的用户只占极少数，而且使用量在下降，同时滥用#进行作弊的用户也很多。

还可通过词频统计的方法从某种程度上识别话题，但是我们知道词和话题具有本质意义上的区别。词是广泛的语义单位，而话题通常由若干个词组合而成，如“日本地震”、“温州动车追尾事故”等代表特定的内容。所以用词来代表话题很明显不够精确。

综上所述，现有技术发现的话题还存在着许多不足之处，如话题不准确、话题发现不及时。

因此，由于话题发现是话题展现的前提，话题展现的过程也同样存在上述缺点。

发明内容

本发明的实施例提供了一种话题信息展现方法和装置，可解决现有技术话题展现不准确、不及时的问题。

本发明的实施例提供了一种话题信息展现方法，其特征在于，包括：接收信息；对接收的信息进行预处理；对预处理的信息进行话题发现；展现发现的话题信息。

所述接收信息是指接收预定时间片内的信息。

所述对接收的信息进行预处理具体包括：对所述信息进行分词。

所述对接收的信息进行预处理还包括：对分词获得的词进行词性标注。

在对接收的信息进行预处理之前，还执行步骤：对所接收的信息进行文本分类和/或广告及作弊过滤。

所述对预处理的信息进行话题发现具体包括：采用增量聚类和主题模型对预处理的信息进行话题发现。

所述步骤采用增量聚类和主题模型对预处理的信息进行话题发现具体包括：利用主题模型对预处理后的信息进行主题分析，得到每个信息的主题向量；根据每个信息的主题向量的相似度进行增量聚类，该聚类即为话题。

所述根据每个信息的主题向量的相似度进行增量聚类具体包括：判断当前信息的主题向量与每一个聚类中所有信息的平均主题向量的相似度是否大于预定值，若是，将当前信息填加到该聚类中，否则，将当前信息作为一个新的聚类。

在执行根据每个信息的主题向量的相似度进行增量聚类步骤之后，还执行步骤：对聚类按其包含的信息数进行排序。

所述展现发现的话题信息步骤具体包括：在网页上或在电子屏上展现包含的信息数排名最多的预定个数话题。

在执行根据每个信息的主题向量的相似度进行增量聚类步骤之后，还执行下述任一步骤或下述步骤的任意组合：抽取话题包含的关键词；话题去噪；抽取话题的摘要；抽取话题的发起人、意见领袖及传播关系；追踪话题。

所述展现发现的话题信息步骤具体包括：在网页上或在电子屏上展现抽取话题包含的关键词和/或抽取话题的摘要。

本发明还提供了一种话题信息展现装置，包括：接收单元，用于接收信息；预处理单元，用于对接收的信息进行预处理；话题发现单元，用于对预处理的信息进行话题发现；展现单元，用于展现发现的话题信息。

根据本发明实施例，可以及时地发现新话题及其子话题(相关焦点)，一定程度上解决了人工整理话题带来的及时性及覆盖面不足的缺点，具有重要的现实意义。

话题的自动追踪可以串联相关话题及事件，从而让用户了解某个话题的来龙去脉，也有着重要的意义。

附图说明

图1示出了本发明实施例话题信息展现的流程；

图2示出了本发明实施例展现话题信息装置。

具体实施方式

为了便于本领域一般技术人员理解和实现本发明，现结合附图描绘本发明的实施例。

对于话题发现的问题，在理论上有两类算法：(1)基于聚类的方法：如增量信息聚类、基于全局信息的聚类(K-means，层次聚类)等。(2)基于主题模型的方法。

话题发现及追踪通常以大规模新闻流为研究对象，所以单路径聚类算法是一种普遍采用的算法。此外主题模型方法近年来得到了充分的重视和深入的研究，普林斯顿大学的David M.Blei首先提出了LDA模型，用一个服从Dirichlet分布的K维隐含随机变量表示文档的主题混合比例，模拟文档的产生过程，利用LDA产生的不同隐含主题(每个主题都可以用不同的词来表示，它可以将词形不同，但意义相同的词关联到一起)来决定话题的方法近年来也被普遍采用。

本实施例提供了一种话题信息展现方法，包括步骤：接收信息；对接收的信息进行预处理；从预处理的信息中进行话题发现；展现所发现的话题信息。图1示出了本实施例的话题信息展现方法。下面对各个步骤进行详细介绍。

1、接收信息

接收信息可以是接收各种信息，尤指接收某一时间片内的某一类信息，如某个时间片内的所有行业或某一特定行业的信息，更具体地说，某个时间片的化学行业、计算机行业、物理行业、军事行业、财经行业等行业的信息。上述信息通常以若干个文本方式存在，如一条微博就是一条信息，两个小时片内的所有信息(微博)可能有数百万之多。在本发明中，以微博作为信息为例说明话题发现方法。

2、对接收的信息进行预处理

即对接收的信息进行分词和词性标注，然后取名词、动词等词性的词作为关键词。分词及词性标注主要用于选择每个信息文本的核心关键词，抛弃停用词等非核心关键词，关键词的选择一方面可以提高后续文本处理的速度，另一方面可以降低非核心词引起的噪声问题。为了实现只针对某类信息进行话题发现，我们需要对接收的所有信息进行分类，如化学类、计算机类、物理类、军事类、财经类等。为了加快预处理过程，在进行预处理之前，还要对所接收的所有信息进行广告及作弊过滤。

文本分类

我们利用文本分类来限定待分析信息的类别，实现对某一行业的话题发现。随着互联网的飞速发展，网上电子文档的信息量成爆炸趋势，大规模的文本处理已经成为一个挑战，而文本自动分类是将文本划分到预定义的类中，帮助人们检索、查询、过滤和利用信息的有效手段。分类算法有两大类：基于规则的方法和基于统计机器学习的方法。基于规则的方法费时费力，难以保证一致性和准确性，而且领域移植性差；基于统计机器学习的方法快速，领域移植性好。统计机器学习的方法主要有罗基奥方法(Rocchio method)、贝叶斯方法、KNN方法、决策树方法(decision tree)、决策规则分类方法(Decision RuleClassifier)、神经网络方法(Neural Networks)、支持向量机(SVM)、基于投票的方法(voting method)等。

经典的贝叶斯分类法分类速度快，本申请中我们即采用了这种分类法对某一时间片内的微博文本集进行分类，如将微博文本集分为：时政类、财经类、体育类、娱乐类等22个类别。然后对不同类别的微博文本集合进行话题识别，这样便于我们得到不同类别的话题。

广告及作弊过滤

微博信息量大，充斥着大量的广告和作弊微博，而所谓的话题并不包含广告，所以过滤掉这些广告和作弊微博不仅可以降低需要处理的数据量，同时可以降低这些微博对后续处理产生的干扰，有利于后续话题挖掘和追踪。

3、从预处理的信息中进行话题发现

话题发现和追踪系统通常采用增量聚类或主题模型的方法。

基于增量聚类的算法将相似度大于一定阈值的样本聚到一起，相似度计算通常是基于词特征的相似度，所以对属于同一话题但词特征相似度小于阈值的样本却无能为力，一定程度上造成了话题的重复，但是增量聚类方法聚类速度快，同时不需要事先指定聚类数，可以有效地保证话题的召回率。

基于主题模型的方法需要人工预先指定主题数K，然后通过无监督的学习，得到K个主题，将得到的主题作为话题，K值指定的过大会造成识别出的话题之间出现冗余，需要进行去重，K值指定的过小会造成识别出的话题召回率较低，所以确定合理的K值难度较大。实际上这种将主题作为话题方式是不妥的，因为话题与某个事件相关，而主题可以涵盖多个类似的事件，也就是说主题涵盖的范围比话题大，直接将主题作为话题并不能真正地表示一个话题。然而主题模型可以进行潜在语义分析，每个主题对应一系列关键词，主题可以认为是位于文档和词之间的潜在语义特征，这种潜在语义特征可以对词空间起到降维的作用，可以关联词形不同但语义相同或相关的词，尤其是在短文本相似度计算过程中，潜在语义特征(主题向量)效果要优于词向量，这也是我们利用主题模型的原因。

基于以上两种算法的优缺点，结合微博数据量大，噪声多的特点，本发明将两种算法进行了结合，采用基于主题模型和增量聚类相结合的话题发现算法，首先利用主题模型对某个时间片的分类别信息进行主题分析，得到每个主题的主题词列表以及每篇博文的主题向量，然后基于每篇博文的主题向量采用余弦相似度公式进行增量聚类，进而得到多个不同的聚类，通过对这些聚类进行打分排序，最终选择一定数量的聚类作为话题。

下面介绍主题模型和增量聚类话题相结合以发现话题的方法。

(1)、主题模型

一个文本通常包括讨论的若干主题，而文本中的特定词汇体现出所讨论的特定主题。在统计自然语言处理中，为文本主题建模的方法是视主题为词汇的概率分布，文本为这些主题的随机混合。

PLSA(Probabilistic Latent Semantic Analysis，概率潜在语义分析)和LDA(Latent Dirichlet Allocation，语义狄利克雷分配)是目前较常用的主题模型。目前的主题模型一般基于同样的思想-文本是若干主题的随机混合。不同的模型会进一步作不同的统计假设，以不同的方式获取模型参数。

与PLSA模型相比，LDA称得上是完全的生成模型。LDA在文本到主题一层引入了dirichlet(狄利克雷)分布，这是它优于PLSA的地方，使得模型参数的数量不会随着语料库的扩大而增多。

本文采用LDA主题模型进行博文主题向量分析，下面我们简要介绍LDA主题模型。

LDA模型

假设有T个主题，则所给文本中的第i个词汇w_i在这篇文本中的概率可以表示如下：

P (w_{i}) = Σ_{j = 1}^{T} P (w_{i} | z_{j}) P (z_{j})

其中，z_j是潜在主题，表明第i个词汇w_i取自该主题，P(w_i|z_j)是词汇w_i属于第j个主题(即z_j)的概率，P(z_j)表示第j个主题属于当前文本的概率。假定T个主题形成D个文本以W个词汇表示，为记叙方便，令表示对于第j个主题，W个词汇上的多项分布，其中w是W个词汇表中的词汇；令

表示对于文本d，T个主题上的多项分布，于是文本d中词汇w的概率为：

LDA模型在ψ^(d)上作Dirichlet(α)的先验概率假设，使得模型易于处理训练语料之外的新文本。为了便于模型参数的推理，本文除了在ψ^(d)上作对称的Dirichlet(α)的先验概率假设外，在上亦作对称的Dirichlet(χ)的先验概率假设，如下：

这里的χ可以理解为，在见到语料库的任何词汇之前，从主题抽样获得的词汇出现频数，而α可以理解为，在见到任何文档文字之前，主题被抽样的频数。尽管α和χ的具体取值会影响到主题及词汇被利用的程度，但不同的主题被利用的方式几乎没有变化，不同的词汇被利用的方式也基本相同，因此可以假定对称的Dirichlet分布，即所有的α取相同的值，所有的χ取相同的值。

根据LDA模型，我们对待分析博文集进行训练或推理，得到每篇博文的主题(潜在语义)向量，这些主题向量用作增量聚类中的相似度计算，这也是我们利用LDA模型的原因。

示例：

微博1：【注意：我国出现四种新版高仿假钞！】最近，杭州市萧山公安分局发现，社会上出现了以TJ55、AZ88、WL15、YX86开头新版假钞。这些假钞仿真度和伪造技术比之前出现的HD开头的假币更高，假币上都印有水印、安全线、阴阳互补对印图案等伪造标志。一旦发现，请及时报案！

微博2：【4新版假钞仿真度超HD版央行称制假技术无突破】近期，我国部分地区出现以TJ55、AZ88、WL15、YX86开头的新版假钞。央行称，假币在制作技术上没有新的突破。

微博1和2采用基于词向量(见表1)的方式计算得到的相似度值会比较低(0.477959)，因此传统的基于词向量的单路径聚类算法很难将这两条微博聚到一起，但采用LDA模型，可以分别把两条微博的词特征向量转换为主体分布概率为单位的主题向量(见表2和表3)，通过主题向量我们可以获悉当前微博哪些主题是主要主题(每个主题由多个不同的词及概率表示，见表4)，基于主题向量计算得到相似度值会较高(0.884017)。主题数的选择可以针对文本的特点进行反复实验得到。目前在我们的应用系统中主题数设定为200。表1和表2给出了在实验中选择10个主题获得的微博1和2的主题向量，其中每个元素代表对应主题的分布概率。

表1 微博1和2的词向量

表2 微博1的主题向量

主题编号	1	2	3	4	5	6	7	8	9	10
											主题分布概率	0.00	0.40	0.00	0.10	0.15	0.00	0.25	0.10	0.00	0.00

表3 微博2的主题向量

主题编号	1	2	3	4	5	6	7	8	9	10
											主题分布概率	0.00	0.75	0.00	0.00	0.1	0.00	0.15	0.00	0.00	0.00

表4 微博1中主题2和主题7包含的前5个主题词及概率

利用如下公式对博文进行分数计算：

{Scroe}_{i} = Σ_{j = 1}^{T} (z_{\max} - z_{j}), z_{\max} = \underset{1 < = j < = T, j! = \max}{\arg \max (z_{j})}

其中，Scroe_i为此微博分数，z_j为此微博第j个主题的分布概率值，z_max为此微博所有主题分布概率值中的最大值，T为主题数。该分数用作后面聚类的排序。

(2)、增量聚类话题方法

通常的聚类是基于全局信息的聚类，即在整个数据集合上进行聚类，但基于全局信息的聚类通常需要指定聚类数，但是聚类数目我们事先无法确定，所以一般只能给出一个估计数；同时基于全局信息的聚类算法复杂度太高，一般不适合数据规模较大的聚类。

基于以上考虑，本发明选用速度性能更好且不需要指定聚类数的单路径增量聚类方法，也就是说在作出最终的决策前，只看前面已经处理过的文本及其对应的聚类。

当接收并预处理完某个时间片内的所有信息(微博)后，我们将信息按照一定的顺序(如信息发布时间，信息内容长度)进行增量聚类，如果发现当前微博与之前的所有的聚类都不相关(基于主题向量进行相似度计算)，则检测到一个潜在的新话题类，否则将该微博加入相关聚类中。

综上所述，本发明的采用主题模型和增量聚类话题相结合以发现话题的方法如下。首先利用LDA主题模型对某个时间片的分类别信息进行主题分析，得到每篇博文的主题向量(每一维代表一个主题)，然后根据每篇博文的主题向量的相似度进行增量聚类，该聚类即为话题，具体而言，判断当前博文的主题向量与每一个聚类中所有博文的平均主题向量的相似度是否大于预定值，若是，将当前博文填加到该聚类中，否则，将当前博文作为一个新的聚类。这样，就可得到多个不同的聚类，通过对这些聚类计算权重(公式如下)，然后按权重排序，最终选择一定数量的聚类作为话题。

TopicWeight (C_{i}) = | C_{i} | * \exp (\frac{C_{i}}{N}) * \frac{Σ_{j = 1}^{C_{i}} Score (u_{j})}{C_{i}} * Σ_{j = 1}^{| C_{i} |} Score (C_{ij})

其中，C_i表示第i个聚类包含的微博数，

N表示所有聚类包含的微博数；Score(u_i)表示微博用户的权威度，取值为0-1；Score(C_ij)为第i个聚类中第j个微博的分数。

根据每个聚类的权重值，对所有的聚类进行排序，取一定数量且满足一定阈值的聚类作为话题，在实验中设定的阈值为聚类包含的微博数目，如大于100。

4、展现所发现的话题

所述展现发现的话题信息步骤具体包括：在网页上或在电子屏上展现发现的话题信息。话题信息包括话题本身、及由话题得到的摘要、关键词及话题的发起人、意见领袖及传播关系等。下面描述由话题得到其它话题信息的方法。

抽取话题包含的关键词

识别出某个话题后，我们可以抽取该话题的相关关键词，比如参与该话题的相关人物，话题的相关地点等。采用传统的tf(词频)*idf(逆文档频率)的方式对关键词进行权重计算，同时计算部分关键词对之间的点互信息值(公式

其中p(x，y)表示关键词x与y共同出现的概率，p(x)表示关键词x出现的概率，p(y)表示关键词y出现的概率)，根据关键词对的互信息值及包含的关键词权重，选取一定数量的关键词作为该话题的关键词集合。

具体算法流程如下：

(1)对话题类相关的所有博文进行分词处理，去掉停用词。

(2)计算每个关键词的词频(tf)值，将log(tf)*idf(逆文档频率)值作为关键词的权值。

(3)将所有关键词按照权值排序，取一定数量的关键词(如100)。

(4)根据公式

计算每对关键词对的点互信息值，通过点互信息值和包含的关键词计算每对关键词的权重，计算公式如下：

I(x，y)*(idf_x*log(tf)_x+idf_y*log(tf_y))，其中idf_x表示关键词x的逆文档频率，tf_x表示关键词x的频率。

(5)对(4)中得到的所有关键词对根据其权重进行排序(排序越高，则关键词越重要)，从中取一定数量的关键词作为该话题的关键词。

话题去噪

识别出某个话题类后，总会有一些噪音微博，这些微博不属于这个话题，但相似度计算也比较高，因此需要去除掉这些微博，去噪过程为：分析话题类相关的博文包含的话题关键词个数，将个数小于3个的博文去掉。

抽取话题的摘要

话题摘要主要是为了让用户能够根据一个短语或几个短语的组合对整个话题有一个整体性的了解，辅助用户了解该话题阐述的主要内容或者观点。具体算法如下：

对话题类相关的所有博文进行分词，去掉停用词。

抽取包含有至少两个话题关键词的所有N元词组(N越大，N元词组的含义越丰富，但是鉴于表示话题的摘要有长度要求，所以我们只统计三元词组)。

根据三元词组出现的频次以及包含的关键词权重计算三元组的得分，计算公式：

f为三元组的频次，N为该三元组包含的关键词个数，根据得分对所有三元组进行排序。

从前到后将有前缀或后缀有重叠词的三元组进行拼接，将拼接的三元组得分进行加和得到拼接后的字符串得分，根据得分对原三元组和拼接得到的三元组进行排序。

根据限定的摘要字数，从上述排序后的结果中选择N个(如2个)没有交集的字符串进行再次拼接，形成最终的话题摘要。

示例话题：

抽取话题的发起人、意见领袖及传播关系。

发现每个话题后，可以分析每个话题类内相关博文的转发和评论关系，同时记录参与转发和评论的相关用户，分析每个用户的参与时间及参与程度，得到每个话题类的发起人、意见领袖以及每个话题类的用户传播路径。

追踪话题

利用话题识别技术识别出各个时间片的话题后，可能会出现不同时间片存在相同的话题，所以话题的自动追踪或关联变得非常重要，一方面可以将事件发展的来龙去脉以及各个时间片的焦点话题呈现给用户，另一方面我们可以标示出新识别出的话题。

话题追踪的具体流程：

加载历史时间片的话题聚类结果。

抽取每个时间片及每个话题的相关关键词、原创UID(用户标识)以及#话题等。

对当前时间片的每个话题与历史话题做关联计算。

将关联度最大的话题作为当前话题的关联话题。

实验结果及分析

我们抽取了2011年5月19号某一个时间段的所有微博数据，通过本发明提出的算法进行话题的自动发现和追踪。然后，通过比较人工整理结果与本发明自动识别出的话题数据，发现大约有70％的相对重要的话题数据可以通过此方法自动识别并加以追踪。

在微博中用户对话题的访问量占总的内容访问量的比重较大。话题发现和跟踪技术在微博中的用途主要有两个方面，一个是建立话题榜，另一个是话题搜索功能来满足用户对内容的访问需求。

话题信息榜

话题信息榜可以是用来呈现话题信息的单独页面，也可以是电子显示屏。一些重要的话题信息也可呈现在用户主页上。这样用户可以通过一种直接快捷的方式发现微博中用户讨论的主要内容，从而提高用户的满意度。话题发现和跟踪技术可用来帮助编辑提供热点内容，以及与话题有关的属性，如重要博文，与之相关的人物、地点、媒体和用户等。编辑根据提供的内容进行筛选出重要话题，同时要对一些内容作人工补充和修改。

话题搜索

话题搜索是微博搜索的一个重要功能。通常的做法是用户在博文中设定“话题标题”，用#号放置在待搜索的话题标题的两端，把该话题标题对应的关键词加入到搜索的索引当中。这种方法最大的问题在于，用户通常不会自主设定话题标题；对同一内容，不同的用户有不同的设定词语；有的用户用此方法作弊发广告等内容。

本发明的话题发现和跟踪技术可以找到与话题相关的关键词、用户、地点等信息，并通过该信息做索引而找出相关话题；也可通过将识别出的话题摘要及对应的关键词等信息做索引找出相关话题。当用户搜索微博的时候，对搜索查询分词，用查询对应的关键词搜索话题的关键词索引，最终得到多个话题摘要，将得到的话题摘要展现给用户，提示这些话题含有与查询相关的信息。

根据本发明实施例，可以及时地发现新话题及其子话题(相关焦点)，一定程度上解决了人工整理话题带来的及时性及覆盖面不足的缺点，也可以有效地辅助人工做话题及其子话题的整理，具有重要的现实意义。

实施例二

如图2所示，本实施例提供了一种话题信息展现装置，包括：接收单元，用于接收信息；预处理单元，用于对接收的信息进行预处理；话题发现单元，用于对预处理的信息进行话题发现；展现单元，用于展现发现的话题信息；

话题发现单元具体包括：主题模型单元，用于利用主题模型对预处理的信息进行主题分析，得到每个信息的主题向量；聚类单元，用于根据每个信息的主题向量的相似度进行增量聚类，该聚类即为话题。所述装置还包括：排序单元：用于对聚类按其包含的信息数进行排序；话题处理单元，用于执行下述任一步骤或下述步骤的任意组合：抽取话题包含的关键词；话题去噪；抽取话题的摘要；抽取话题的发起人、意见领袖及传播关系；追踪话题。

本实施例的各个单元的工作原理可参见实施例一的描述。

虽然通过实施例描绘了本发明，但本领域普通技术人员知道，在不脱离本发明的精神和实质的情况下，就可使本发明有许多变形和变化，本发明的范围由所附的权利要求来限定。

Claims

1.一种话题信息展现方法，其特征在于，包括：

接收信息；

对接收的信息进行预处理；

对预处理的信息进行话题发现；

展现发现的话题信息。

2.根据权利要求1所述的方法，其特征在于，所述接收信息是指接收预定时间片段内的信息。

3.根据权利要求1所述的方法，其特征在于，所述对接收的信息进行预处理具体包括：对所述信息进行分词。

4.根据权利要求3所述的方法，其特征在于，所述对接收的信息进行预处理还包括：对分词获得的词进行词性标注。

5.根据权利要求4所述的方法，其特征在于，在对接收的信息进行预处理之前，还执行步骤：对所接收的信息进行文本分类和/或广告及作弊过滤。

6.根据权利要求1所述的方法，其特征在于，所述对预处理的信息进行话题发现具体包括：采用增量聚类和主题模型对预处理的信息进行话题发现。

7.根据权利要求6所述的方法，其特征在于，所述步骤采用增量聚类和主题模型对预处理的信息进行话题发现具体包括：

利用主题模型对预处理的信息进行主题分析，得到每个信息的主题向量；

根据每个信息的主题向量的相似度进行增量聚类，该聚类即为话题。

8.根据权利要求7所述的方法，其特征在于，所述根据每个信息的主题向量的相似度进行增量聚类具体包括：

判断当前信息的主题向量与每一个聚类中所有信息的平均主题向量的相似度是否大于预定值，若是，将当前信息填加到该聚类中，否则，将当前信息作为一个新的聚类。

9.根据权利要求7所述的方法，其特征在于，在执行根据每个信息的主题向量的相似度进行增量聚类步骤之后，还执行步骤：对聚类按其包含的信息数进行排序。

10.根据权利要求9所述的方法，其特征在于，所述展现发现的话题信息步骤具体包括：在网页上或在电子屏上展现包含的信息数排名最多的预定个数话题。

11.根据权利要求7所述的方法，其特征在于，在执行根据每个信息的主题向量的相似度进行增量聚类步骤之后，还执行下述任一步骤或下述步骤的任意组合：抽取话题包含的关键词；话题去噪；抽取话题的摘要；抽取话题的发起人、意见领袖及传播关系；追踪话题。

12.根据权利要求11所述的方法，其特征在于，所述展现发现的话题信息步骤具体包括：在网页上或在电子屏上展现抽取话题包含的关键词和/或抽取话题的摘要。

13.一种话题信息展现装置，其特征在于，包括：

接收单元，用于接收信息；

预处理单元，用于对接收的信息进行预处理；

话题发现单元，用于对预处理的信息进行话题发现；

展现单元，用于展现发现的话题信息。

14.根据权利要求13所述的装置，其特征在于，所述话题发现单元具体包括：

主题模型单元，用于利用主题模型对预处理的信息进行主题分析，得到每个信息的主题向量；

聚类单元，用于根据每个信息的主题向量的相似度进行增量聚类，该聚类即为话题。

15.根据权利要求13所述的装置，其特征在于，所述装置还包括：排序单元：用于对聚类按其包含的信息数进行排序。

16.根据权利要求13所述的装置，其特征在于，所述装置还包括：话题处理单元，用于执行下述任一步骤或下述步骤的任意组合：抽取话题包含的关键词；话题去噪；抽取话题的摘要；抽取话题的发起人、意见领袖及传播关系；追踪话题。