CN102999539B

CN102999539B - 预测给定话题的未来发展趋势的方法和装置

Info

Publication number: CN102999539B
Application number: CN201110279874.1A
Authority: CN
Inventors: 杨宇航; 夏迎炬; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-09-13
Filing date: 2011-09-13
Publication date: 2015-11-25
Anticipated expiration: 2031-09-13
Also published as: CN102999539A

Abstract

本发明涉及预测给定话题的未来发展趋势的方法和装置。该方法包括：确定给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数；根据提及给定话题的博文的博主到多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题，确定博主到多个过去时间段中的每个过去时间段为止的兴趣；估计给定话题与博主到多个过去时间段中的每个过去时间段为止的兴趣之间的相似度；确定博主到多个过去时间段中的每个过去时间段为止的粉丝数量；根据到多个过去时间段中的每个过去时间段为止的相似度和粉丝数量，确定到多个过去时间段中的每个过去时间段为止的粉丝指数；以及根据提及次数和粉丝指数，预测给定话题的未来发展趋势。

Description

预测给定话题的未来发展趋势的方法和装置

技术领域

本发明涉及话题发展趋势的预测，具体涉及预测给定话题的未来发展趋势的方法和装置。

背景技术

近年来，博客作为一种传播媒体(例如，微博)已得到快速发展。成千上万的人对各种各样的话题在微博中提出他们的想法和观点。例如，截止至2011年3月28日，推特(Twitter)拥有约20,000万有效用户，每天有约6,500个评论，每天处理约800,000个搜索查询。显然，博客已经成为传播迅速的媒体。

另一方面，对于实时搜索、建议和许多其他任务来说，热门话题的发掘和趋势预测非常重要。

鉴于上述原因，期望可以提出一种利用博客(例如，微博)的各种特征来发掘热门话题和预测话题的发展趋势的技术。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供预测给定话题的未来发展趋势的方法和装置。

根据本发明的一个方面，提供了一种预测给定话题的未来发展趋势的方法，包括：确定给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数，即提及次数；根据提及给定话题的博文的博主到多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题，确定博主到多个过去时间段中的每个过去时间段为止的兴趣；估计给定话题与博主到多个过去时间段中的每个过去时间段为止的兴趣之间的相似度；确定博主到多个过去时间段中的每个过去时间段为止的粉丝数量；根据到多个过去时间段中的每个过去时间段为止的相似度和粉丝数量，确定到多个过去时间段中的每个过去时间段为止的粉丝指数；以及根据多个过去时间段中的每个过去时间段的提及次数和到多个过去时间段中的每个过去时间段为止的粉丝指数，预测给定话题的未来发展趋势。

根据本发明的另一个方面，提供了一种预测给定话题的未来发展趋势的装置，包括：提及次数确定单元，其被配置为确定给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数，即提及次数；兴趣确定单元，其被配置为根据提及给定话题的博文的博主到多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题，确定博主到多个过去时间段中的每个过去时间段为止的兴趣；相似度估计单元，其被配置为估计给定话题与博主到多个过去时间段中的每个过去时间段为止的兴趣之间的相似度；粉丝数量确定单元，其被配置为确定博主到多个过去时间段中的每个过去时间段为止的粉丝数量；粉丝指数确定单元，其被配置为根据到多个过去时间段中的每个过去时间段为止的相似度和粉丝数量，确定到多个过去时间段中的每个过去时间段为止的粉丝指数；以及发展趋势预测单元，其被配置为根据多个过去时间段中的每个过去时间段的提及次数和到多个过去时间段中的每个过去时间段为止的粉丝指数，预测给定话题的未来发展趋势。

另外，本发明的实施例还提供了用于实现上述方法的计算机程序。

此外，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1是示出根据本发明的实施例的预测给定话题的未来发展趋势的方法的流程图；

图2是示出根据本发明的一个例子的预测给定话题的未来发展趋势的过程的流程图；

图3是示出根据本发明的另一个例子的预测给定话题的未来发展趋势的过程的流程图；

图4是示出根据本发明的实施例的预测给定话题的未来发展趋势的装置的配置的框图；

图5是示出根据本发明的一个实施例的发展趋势预测单元的配置的框图；

图6是示出根据本发明的另一个实施例的发展趋势预测单元的配置的框图；

图7是示出根据本发明的一个实施例的预测给定话题的未来发展趋势的装置的配置的框图；

图8是示出根据本发明的另一个实施例的预测给定话题的未来发展趋势的装置的配置的框图；

图9是示出根据本发明的一个实施例的热门话题确定单元的配置的框图；

图10是示出根据本发明的另一个实施例的热门话题确定单元的配置的框图；

图11是示出根据本发明的又一个实施例的热门话题确定单元的配置的框图；

图12是示出根据本发明的再一个实施例的热门话题确定单元的配置的框图；以及

图13是示出可以用于实施本发明的预测给定话题的未来发展趋势的方法和装置的计算设备的举例的结构图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

以下参考图1来描述根据本发明的实施例的预测给定话题的未来发展趋势的方法100。

图1是示出根据本发明的实施例的预测给定话题的未来发展趋势的方法100的流程图。

如图1所示，在步骤S102，可以确定给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数，即提及次数。例如，可以确定给定话题在过去一个月中的每天被博文提及的次数。应当理解，这里提到的月和天时间单位仅是示例性的，可以根据需要来设定更大或更小的时间单位。例如，可以确定给定话题在过去一天中的每个小时被博文提及的次数，或者可以确定给定话题在过去一年中的每个月被博文提及的次数。

在步骤S104，可以根据提及给定话题的博文的博主到多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题，确定博主到多个过去时间段中的每个过去时间段为止的兴趣。例如，可以根据发表提及给定话题的博文的博主到过去一个月中的每天为止所发表的博文所提及的话题，来确定该博主到过去一个月中的每天为止的兴趣。

在步骤S106，可以估计给定话题与博主到多个过去时间段中的每个过去时间段为止的兴趣之间的相似度。例如，假设给定话题为画展，当博主在过去一个月中的第一天为止发表的博文所提及的话题包括画展、油画和素描等时，给定话题与博主到过去一个月中的第一天为止的兴趣之间的相似度高。当博主到过去一个月中的第一天为止发表的博文所提及的话题包括电子器件、机械和发动机等时，给定话题与博主到过去一个月中的第一天为止的兴趣之间的相似度低。当博主到过去一个月中的第一天为止发表的博文所提及的话题包括油画、电子器件和画展等时，则所计算出的该相似度的大小则介于上述两个相似度的大小之间。

这里提到的画展、油画、素描、机械、发动机和电子器件等仅是示例性的，可能出现的给定话题和兴趣并不局限于此。此外，以上为了简化起见，仅以词汇为例来阐述给定话题和兴趣。实际上，给定话题和兴趣可能不像一个或几个词汇那么简单。例如，在相似度的计算过程中，例如可以将给定话题和兴趣表示成词汇矢量，稍后将进行详细描述。

在步骤S108，可以确定博主到多个过去时间段中的每个过去时间段为止的粉丝数量。例如，可以确定博主到过去一个月中的每天为止的粉丝数量。容易理解，博主的粉丝数量可能随着时间而不断变化。例如，可以简单地从博客主页中提取粉丝数量。

在步骤S110，可以根据到多个过去时间段中的每个过去时间段为止的相似度和粉丝数量，确定到多个过去时间段中的每个过去时间段为止的粉丝指数。换句话说，粉丝指数是相似度和粉丝数量的函数。粉丝指数可以随着相似度的变化而变化，并可以随着粉丝数量的变化而变化。例如，粉丝指数可以随着相似度的增大而增大，并可以随着粉丝数量的增大而增大。

可以根据各种方式来构建粉丝指数相对于相似度和粉丝数量的关系，只要这种方式可以反映相似度和粉丝数量对粉丝指数的贡献就可以。

例如，可以通过下述公式(1)来计算粉丝指数。

FI ({top}^{*}, t_{j}) = Σ_{k = 1}^{K} f (u_{k}, t_{j}) \times sim ({top}^{*}, int (u_{k}, t_{j})) - - - (1)

其中，FI(top^*，t_j)表示粉丝指数，f(u_k，t_j)表示粉丝数，sim(top^*，int(u_k，t_j))表示相似度。top^＊表示给定话题，t_j(j＝1，2，3，……，N-1，N)表示时间，u_k(k＝1，2，3，……，K-1，K)表示博主(也称为用户)，int(u_k，t_j)表示博主u_k到时间t_j为止的兴趣。

其中，可以通过各种适当方法来计算相似度sim(top^*，int(u_k，t_j))。以下以举例的方式，通过向量空间模型(VectorSpaceModel，简称VSM)来计算相似度sim(top^*，int(u_k，t_j))。

首先，构建由词汇w_i(i＝1，2，3，……，n)构成的n维向量空间＜w₁，w₂，w₃，……，w_n-1，w_n＞。

接下来，将话题top^＊表示为上述n维向量空间中的向量，即top^＊＝＜a₁，a₂，a₃，……，a_n-1，a_n＞，并将兴趣int(u_k，t_j)(以下简写成int)表示为上述n维向量空间中的向量，即int＝＜b₁，b₂，b₃，……，b_n-1，b_n＞。a_i(i＝1，2，3，……，n-1，n)代表词汇w_i在给定话题中的权重，b_i(i＝1，2，3，……，n-1，n)代表词汇w_i在博主的兴趣中的权重。例如，可以简单地使用出现频率作为权重。例如，如果词汇w₁在给定话题中的出现次数为2，则权重a₁＝2。如果词汇w₁在博主的兴趣中的出现次数为5，则权重b₁＝5。可选地，可以简单地使用出现或不出现作为权重。例如，如果词汇w₁在给定话题中出现，则权重a₁＝1。如果词汇w₁在博主的兴趣中不出现，则权重b₁＝0。

接下来，例如可以利用适当下述公式(2)-(5)中的一个来计算相似度sim(top^*，int)。

sim ({top}^{*}, int) = Σ_{i = 1}^{n} (a_{i} * b_{i}) - - - (2)

sim ({top}^{*}, int) = \frac{Σ_{i = 1}^{n} (a_{i} * b_{i})}{\sqrt{Σ_{i = 1}^{n} {a_{i}}^{2} * Σ_{i = 1}^{n} {b_{i}}^{2}}} - - - (3)

sim ({top}^{*}, int) = \frac{2 Σ_{i = 1}^{n} (a_{i} * b_{i})}{Σ_{i = 1}^{n} {a_{i}}^{2} + Σ_{i = 1}^{n} {b_{i}}^{2}} - - - (4)

sim ({top}^{*}, int) = \frac{Σ_{i = 1}^{n} (a_{i} * b_{i})}{Σ_{i = 1}^{n} {a_{i}}^{2} + Σ_{i = 1}^{n} {b_{i}}^{2} - Σ_{i = 1}^{n} (a_{i} * b_{i})} - - - (5)

相似度的计算过程例如可以参照Salton，G.“AutomaticTextProcessing：TheTransformation，Analysis，andRetrievalofInformationbyComputer”，Addison-Wesley，Inc.，Reading，MA，1988以及Castells，P.，Fernandez，M.，Vallet，D.：“Anadaptationofthevector-spacemodelforontology-basedinformationretrieval”；IEEETransactionsonKnowledgeandDataEngineering，19，2(2007)，261-272中的具体描述，通过引用将这两篇文献全文结合于此。

在步骤S112，可以根据多个过去时间段中的每个过去时间段的提及次数(即，给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数)和到多个过去时间段中的每个过去时间段为止的粉丝指数，预测给定话题的未来发展趋势。

以下将参照图2来描述根据本发明的一个例子的预测给定话题的未来发展趋势的步骤的过程，即，步骤S112根据多个过去时间段中的每个过去时间段的提及次数和到多个过去时间段中的每个过去时间段为止的粉丝指数来预测给定话题的未来发展趋势的过程。

图2是示出根据本发明的一个例子的预测给定话题的未来发展趋势的过程的流程图。

如图2所示，在步骤S202，可以根据提及次数(即，给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数)的历史数据和粉丝指数的历史数据训练预测模型(即，第一预测模型)。

在步骤S204，可以根据提及次数(即，给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数)和粉丝指数，利用在步骤S202中训练好的预测模型来预测给定话题在未来特定时间段内被提及的次数，从而可以预测给定话题的发展趋势。

上述的预测模型可以为人工神经网络、支持向量机等等。但这仅是示例，实际上，该预测模型可以是任意适当的预测模型。神经网络的具体内容例如可以参见Tsai，C.F.；Wang，S.P.2009.Stockpriceforecastingbyhybridmachinelearningtechniques，inProceedingsoftheInternationalMultiConferenceofEngineersandComputerScientists，1：755-760中的描述，而支持向量机的具体内容例如可以参见Maenhout，S.，B.DeBaets，G.Haesaert，andE.VanBockstaele.2007.Supportvectormachineregressionforthepredictionofmaizehybridperformance.Theor.Appl.Genet.115：1003-1013中的描述，通过引用将这两篇文献全文结合于此。

以下将参照图3来描述根据本发明的另一个例子的预测给定话题的未来发展趋势的步骤的过程，即，步骤S112根据多个过去时间段中的每个过去时间段的提及次数和到多个过去时间段中的每个过去时间段为止的粉丝指数来预测给定话题的未来发展趋势的过程。

图3是示出根据本发明的一个例子的预测给定话题的未来发展趋势的过程的流程图。

如图3所示，在步骤S302，可以根据提及次数(即，给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数)的历史数据，利用预测模型A(即，第二预测模型)来预测第一过去提及次数m_fm(top^＊，t_j)，其中top^＊代表给定话题，t_j(j＝1，2，3，……，N-1，N)代表时间，下标fm代表基于提及次数(mentionnumber)进行预测(forecast)。

例如，可以基于大上个月中每一天的提及次数，利用预测模型A来预测上个月中每天的提及次数(即，第一过去提及次数)m_fm(top^＊，t_j)。

在步骤S304，可以根据粉丝指数的历史数据，利用预测模型B(即，第三预测模型)来预测第二过去提及次数m_ff(top^＊，t_j)，其中下标ff代表基于粉丝指数(fansindex)进行预测(forecast)。

例如，可以基于到大上个月中每一天为止的粉丝指数，利用预测模型B来预测上个月中每天的提及次数(即，第二过去提及次数)m_ff(top^＊，t_j)。

在步骤S306，可以根据第一过去提及次数m_fm(top^＊，t_j)、第二过去提及次数m_ff(top^＊，t_j)和提及次数的历史数据(即，过去实际发生的提及次数)m_a(top^＊，t_j)来调谐特定预测式的参数，其中预测式表达第一过去提及次数和第二过去提及次数相对于提及次数的历史数据的关系。换句话说，基于利用预测模型A预测的提及次数m_fm(top^＊，t_j)和利用预测模型B预测的提及次数m_ff(top^＊，t_j)和过去实际发生的提及次数m_a(top^＊，t_j)来调谐特定预测式的参数。

仍以上述的时间单位为例，基于利用预测模型A预测的上个月中每天的提及次数m_fm(top^＊，t_j)、利用预测模型B预测的上个月中每天的提及次数m_ff(top^＊，t_j)、以及上个月中每天的实际发生的提及次数m_a(top^＊，t_j)来调谐特定预测式的参数。

可以根据各种方式来构建上述预测式。例如，第一过去提及次数m_fm(top^＊，t_j)、第二过去提及次数m_ff(top^＊，t_j)和过去实际发生的提及次数m_a(top^＊，t_j)之间的关系可以满足下式(6)。

m_a(top^＊，t_j)＝α×m_fm(top^＊，t_j)+β×m_ff(top^＊，t_j)(6)

其中，α和β为需要调谐的参数。通过上述步骤，可以调谐参数α和β。

在步骤S308，可以根据提及次数，利用预测模型A来预测第一未来提及次数m′_fm(top^＊，t′_j)。

例如，可以根据上个月中的每一天中的提及次数，利用预测模型A来预测未来的某一天的提及次数(即，第一未来提及次数)m′_fm(top^＊，t′_j)。

在步骤S310，可以根据粉丝指数，利用预测模型B来预测第二未来提及次数m′_ff(top^＊，t′_j)。

例如，可以根据针对到上个月中的每一天为止的粉丝指数，利用预测模型B来预测未来的某一天的提及次数(即，第二未来提及次数)m′_ff(top^＊，t′_j)。

在步骤S312，可以根据第一未来提及次数m′_fm(top^＊，t′_j)和第二未来提及次数m′_ff(top^＊，t′_j)，利用调谐好的参数的预测式来预测给定话题在未来特定时间段内被提及的次数m_f(top^＊，t_j)。

例如，可以基于利用预测模型A预测的未来某一天的提及次数m′_fm(top^＊，t′_j)以及利用预测模型B预测的未来某一天的提及次数m′_ff(top^＊，t′_j)，通过调谐好的参数的预测式来预测给定话题在未来某一天的提及次数m_f(top^＊，t_j)。

例如，接着式(6)进行描述，在调谐好参数α和β之后，m_f(top^＊，t_j)为：

m_f(top^＊，t_j)＝α×m_fm(top^＊，t_j)+β×m′_ff(top^＊，t′_j)(7)

上述的预测模型A和预测模型B可以相同也可以不同。例如，预测模型A可以为人工神经网络，而预测模型B可以为支持向量机，反之亦然。当然，预测模型A和预测模型B都可以是人工神经网络，或者预测模型A和预测模型B都可以是支持向量机。此外，人工神经网络和支持向量机仅是示例性的。实际上，预测模型A和预测模型B可以是任意适当的预测模型。

在参照图3描述的例子中，通过针对提及次数的历史数据来训练预测模型A并针对粉丝指数的历史数据来训练预测模型B，可以分别得到优化的预测模型A和优化的预测模型B，从而能够更准确地进行预测。

以上分别参照图2和图3描述了预测给定话题的未来发展趋势的过程的例子。但是，分别参照图2和图3描述的例子仅是示例性的而非限制性的。实际上，可以基于提及次数和粉丝指数，通过各种适当方式来预测给定话题的发展趋势。

根据本发明的一个改进实施例，可以分别对关于博文的信息、关于博主的信息和关于话题的信息进行结构化，然后再进行参照图1至图3描述的各个步骤。

具体地，可以将关于博文的信息结构化为博文标识、博主标识、话题标识和发布时间。可以将关于博主的信息结构化为博主标识、时间、粉丝数量和博主兴趣。可以将关于话题的信息结构化为话题标识、时间间隔和提及次数。

以推特为例，可以将关于发表的每条推特结构化为Tweet_id(推特标识)、User_id(用户标识)、Topic_id(话题标识)、Tweet_time(发布时间)，可以将关于推特用户的信息结构化为User_id(用户标识)、Time(时间)、follower_count(粉丝数)和User_interest(用户兴趣)，并且可以将关于话题的信息结构化为Topic_id(话题标识)、Time_interval(时间间隔)和Mentions_count(提及次数)。

根据需要，可以将关于博文的信息、关于博主的信息和关于话题的信息中的一种、两种或全部进行结构化。另外，对关于博文的信息的结构化也不一定局限于上述形式。例如，结构化后的关于博文的信息可以只包括博文标识、博主标识、话题标识和发布时间中的一部分。类似地，结构化后的关于博主的信息可以只包括博主标识、时间、粉丝数量和博主兴趣中的一部分。结构化后的关于话题的信息可以只包括话题标识、时间间隔和提及次数中的一部分。

通过上述的结构化，可以极大地提高处理速度和处理准确度，从而实时地预测话题的发展趋势。

在根据本发明的另一个改进实施例中，可以确定多个话题中的每个话题是否为热门话题，然后将热门话题确定为给定话题。在确定给定话题之后，进行参照图1至图3描述的各个步骤。通过上述过程，可以从成千上万的话题中筛选出热门话题，然后进行图1至3中的各个步骤，从而预测所筛选出的热门话题的发展趋势。

例如，可以确定多个话题中的每个话题被提及的持续时间是否超过预定持续时间阈值，然后可以将持续时间超过预定持续时间阈值的话题确定为热门话题。换句话说，可以将长时间被博文提及的话题视为热门话题。

可替换地，还可以确定多个话题中的每个话题被提及的频繁程度是否超过预定频繁程度阈值，然后可以将频繁程度超过预定频繁程度阈值的话题确定为热门话题。换句话说，可以将频繁地被博文提及的话题视为热门话题。

可替换地，可以确定多个话题中的每个话题被提及的持续时间是否超过预定持续时间阈值。然后，可以确定多个话题中的每个话题被提及的频繁程度是否超过预定频繁程度阈值。最后，可以将持续时间超过预定持续时间阈值并且频繁程度超过预定频繁程度阈值的话题确定为热门话题。换句话说，可以将长时间地且频繁地被博文提及的话题视为热门话题。

可替换地，可以确定多个话题中的每个话题在短时间内被提及的次数是否超过预定次数阈值。然后可以将在短时间内被提及的次数超过预定次数阈值的话题确定为热门话题。换句话说，可以将在短时间内爆发的话题视为热门话题。

以下将参照图4来描述根据本发明的实施例的预测给定话题的未来发展趋势的装置400的配置。装置400中的各个部件可以执行上述方法的各个步骤。为了简要起见，以下描述仅描述这些部件的概要操作，而不再重复与上述方法类似的详细描述。

图4是示出根据本发明的实施例的预测给定话题的未来发展趋势的装置400的配置的框图。

如图4所示，根据本发明的该实施例的预测给定话题的未来发展趋势的装置400可以包括：提及次数确定单元402、兴趣确定单元404、相似度估计单元406、粉丝数量确定单元408、粉丝指数确定单元410和发展趋势预测单元412。

提及次数确定单元402可以确定给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数，即提及次数。兴趣确定单元404可以根据提及给定话题的博文的博主到多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题，确定博主到多个过去时间段中的每个过去时间段为止的兴趣。相似度估计单元406可以估计给定话题与博主到多个过去时间段中的每个过去时间段为止的兴趣之间的相似度。粉丝数量确定单元408可以确定博主到多个过去时间段中的每个过去时间段为止的粉丝数量。粉丝指数确定单元410可以根据到多个过去时间段中的每个过去时间段为止的相似度和粉丝数量，确定到多个过去时间段中的每个过去时间段为止的粉丝指数。发展趋势预测单元412可以根据多个过去时间段中的每个过去时间段的提及次数和到多个过去时间段中的每个过去时间段为止的粉丝指数，预测给定话题的未来发展趋势。

图5是示出根据本发明的一个实施例的发展趋势预测单元412的配置的框图。

如图5所示，发展趋势预测单元412可以包括第一预测模型训练子单元412-2和第一预测模型预测子单元412-4。

第一预测模型训练子单元412-2可以根据提及次数的历史数据和粉丝指数的历史数据训练第一预测模型。第一预测模型预测子单元412-4可以根据提及次数和粉丝指数，利用训练好的第一预测模型来预测给定话题在未来特定时间段内被提及的次数。

图6是示出根据本发明的另一个实施例的发展趋势预测单元412的配置的框图。

如图6所示，发展趋势预测单元412可以包括第一过去提及次数预测子单元412-6、第二过去提及次数预测子单元412-8、预测式调谐子单元412-10、第一未来提及次数预测子单元412-12、第二未来提及次数预测子单元412-14和预测式预测子单元412-16。

第一过去提及次数预测子单元412-6可以根据提及次数的历史数据，利用第二预测模型来预测第一过去提及次数。第二过去提及次数预测子单元412-8可以根据粉丝指数的历史数据，利用第三预测模型来预测第二过去提及次数。预测式调谐子单元412-10可以根据第一过去提及次数、第二过去提及次数和提及次数的历史数据来调谐预测式的参数，其中预测式表达第一过去提及次数和第二过去提及次数与提及次数的历史数据的关系。第一未来提及次数预测子单元412-12可以根据提及次数，利用第二预测模型来预测第一未来提及次数。第二未来提及次数预测子单元412-14可以根据粉丝指数，利用第三预测模型来预测第二未来提及次数。预测式预测子单元412-16可以根据第一未来提及次数和第二未来提及次数，利用具有调谐好的参数的预测式来预测给定话题在未来特定时间段内被提及的次数。

图7是示出根据本发明的一个实施例的预测给定话题的未来发展趋势的装置400’的配置的框图。

如图7所示，根据本发明的该实施例的预测给定话题的未来发展趋势的装置400’除了图4中所示的那些单元之外还可以包括博文结构化单元414、博主结构化单元416和话题结构化单元418中的至少一个。其中，与图4中的单元类似的那些单元在此不再赘述。

博文结构化单元414可以将关于博文的信息结构化为博文标识、博主标识、话题标识和发布时间中的至少一个。博主结构化单元416可以将关于博主的信息结构化为博主标识、时间、粉丝数量和博主兴趣中的至少一个。话题结构化单元418可以将关于话题的信息结构化为话题标识、时间间隔和提及次数中的至少一个。

提及次数确定单元402、兴趣确定单元404、相似度估计单元406、粉丝数量确定单元408和发展趋势预测单元412中的至少一个可以根据博文结构化单元414、博主结构化单元416和话题结构化单元418中的至少一个结构化的信息来进行操作。

图8是示出根据本发明的另一个实施例的预测给定话题的未来发展趋势的装置400”的配置的框图。

如图8所示，根据本发明的实施例的预测给定话题的未来发展趋势的装置400”除了图4中所示的那些单元之外还可以包括热门话题确定单元420和给定话题确定单元422。热门话题确定单元420可以确定多个话题中的每个话题是否为热门话题。给定话题确定单元422可以将热门话题之一确定为给定话题。其中，与图4中的单元类似的那些单元在此不再赘述。

图9是示出根据本发明的一个实施例的热门话题确定单元420的配置的框图。

如图9所示，热门话题确定单元420可以包括持续时间确定子单元420-2和第一热门话题确定子单元420-4。持续时间确定子单元420-2可以确定多个话题中的每个话题被提及的持续时间是否超过预定持续时间阈值。第一热门话题确定子单元420-4可以将持续时间超过预定持续时间阈值的话题确定为热门话题。

图10是示出根据本发明的另一个实施例的热门话题确定单元420的配置的框图。

如图10所示，热门话题确定单元420可以包括频繁程度确定子单元420-6和第二热门话题确定子单元420-8。频繁程度确定子单元420-6可以确定多个话题中的每个话题被提及的频繁程度是否超过预定频繁程度阈值。第二热门话题确定子单元420-8可以将频繁程度超过预定频繁程度阈值的话题确定为热门话题。

图11是示出根据本发明的又一个实施例的热门话题确定单元420的配置的框图。

如图11所示，热门话题确定单元420可以包括持续时间确定子单元420-2、频繁程度确定子单元420-6和第三热门话题确定子单元420-10。持续时间确定子单元420-2可以确定多个话题中的每个话题被提及的持续时间是否超过预定持续时间阈值。频繁程度确定子单元420-6可以确定多个话题中的每个话题被提及的频繁程度是否超过预定频繁程度阈值。第三热门话题确定子单元420-10可以将持续时间超过预定持续时间阈值并且频繁程度超过预定频繁程度阈值的话题确定为热门话题。

图12是示出根据本发明的再一个实施例的热门话题确定单元420的配置的框图。

如图12所示，热门话题确定单元420可以包括次数确定子单元420-12和第四热门话题确定子单元420-14。次数确定子单元420-12可以确定多个话题中的每个话题在短时间内被提及的次数是否超过预定次数阈值。第四热门话题确定子单元420-14可以将在短时间内被提及的次数超过预定次数阈值的话题确定为热门话题。

可选地，粉丝指数可以随着粉丝数量的增大而增大，并且粉丝指数可以随着相似度的增大而增大。

通过本发明的实施例，博客(例如，微博)的关键特征被结合用于趋势预测。具体而言，基于讨论特定话题的用户的影响而对讨论特定话题的用户区别对待，计算话题和用户兴趣之间的相似度，基于用户影响和话题相似度两者的粉丝指数来预测给定话题的发展趋势预测，从而利用博客的关键特征来快速、准确、高效地预测话题的发展趋势。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图13所示的通用计算机1300安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图13中，中央处理单元(CPU)1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM1303中，也根据需要存储当CPU1301执行各种处理等等时所需的数据。CPU1301、ROM1302和RAM1303经由总线1304彼此链路。输入/输出接口1305也链路到总线1304。

下述部件链路到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可链路到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图13所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机(例如图13所示的通用计算机1300)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

关于以上实施例的实施方式，还公开以下附记。

附记

附记1.一种预测给定话题的未来发展趋势的方法，包括：

确定所述给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数，即提及次数；

根据提及所述给定话题的博文的博主到所述多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题，确定所述博主到所述多个过去时间段中的每个过去时间段为止的兴趣；

估计所述给定话题与所述博主到所述多个过去时间段中的每个过去时间段为止的所述兴趣之间的相似度；

确定所述博主到所述多个过去时间段中的每个过去时间段为止的粉丝数量；

根据到所述多个过去时间段中的每个过去时间段为止的所述相似度和所述粉丝数量，确定到所述多个过去时间段中的每个过去时间段为止的粉丝指数；以及

根据所述多个过去时间段中的每个过去时间段的所述提及次数和到所述多个过去时间段中的每个过去时间段为止的所述粉丝指数，预测所述给定话题的未来发展趋势。

附记2.根据附记1所述的方法，其中，所述预测所述给定话题的未来发展趋势的步骤包括：

根据所述提及次数的历史数据和所述粉丝指数的历史数据训练第一预测模型；以及

根据所述提及次数和所述粉丝指数，利用训练好的第一预测模型来预测所述给定话题在未来特定时间段内被提及的次数。

附记3.根据附记1所述的方法，其中，所述预测所述给定话题的未来发展趋势的步骤包括：

根据所述提及次数的历史数据，利用第二预测模型来预测第一过去提及次数；

根据所述粉丝指数的历史数据，利用第三预测模型来预测第二过去提及次数；

根据所述第一过去提及次数、所述第二过去提及次数和所述提及次数的历史数据来调谐预测式的参数，其中所述预测式表达所述第一过去提及次数和所述第二过去提及次数相对于所述提及次数的历史数据的关系；以及

根据所述提及次数，利用所述第二预测模型来预测第一未来提及次数；

根据所述粉丝指数，利用所述第三预测模型来预测第二未来提及次数；

根据所述第一未来提及次数和所述第二未来提及次数，利用具有调谐好的参数的预测式来预测所述给定话题在未来特定时间段内被提及的次数。

附记4.根据附记1所述的方法，在所述确定所述给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数的步骤之前还包括以下步骤中的至少一个：

将关于博文的信息结构化为博文标识、博主标识、话题标识和发布时间中的至少一个；

将关于博主的信息结构化为博主标识、时间、粉丝数量和博主兴趣中的至少一个；以及

将关于话题的信息结构化为话题标识、时间间隔和提及次数中的至少一个。

附记5.根据附记1至4中任一项所述的方法，在所述确定所述给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数的步骤之前还包括：

确定多个话题中的每个话题是否为热门话题；以及

将所述热门话题确定为所述给定话题。

附记6.根据附记5所述的方法，其中，所述确定多个话题中的每个话题是否为热门话题的步骤包括：

确定所述多个话题中的每个话题被提及的持续时间是否超过预定持续时间阈值；以及

将所述持续时间超过所述预定持续时间阈值的话题确定为所述热门话题。

附记7.根据附记5所述的方法，其中，所述确定多个话题中的每个话题是否为热门话题的步骤包括：

确定所述多个话题中的每个话题被提及的频繁程度是否超过预定频繁程度阈值；以及

将所述频繁程度超过所述预定频繁程度阈值的话题确定为所述热门话题。

附记8.根据附记5所述的方法，其中，所述确定多个话题中的每个话题是否为热门话题的步骤包括：

确定所述多个话题中的每个话题被提及的持续时间是否超过预定持续时间阈值；

将所述持续时间超过所述预定持续时间阈值并且所述频繁程度超过所述预定频繁程度阈值的话题确定为所述热门话题。

附记9.根据附记5所述的方法，其中，所述确定多个话题中的每个话题是否为热门话题的步骤包括：

确定所述多个话题中的每个话题在短时间内被提及的次数是否超过预定次数阈值；以及

将在短时间内被提及的次数超过预定次数阈值的话题确定为所述热门话题。

附记10.根据附记1至9中任一项所述的方法，其中，所述粉丝指数随着所述粉丝数量的增大而增大，并且所述粉丝指数随着所述相似度的增大而增大。

附记11.一种预测给定话题的未来发展趋势的装置，包括：

提及次数确定单元，其被配置为确定所述给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数，即提及次数；

兴趣确定单元，其被配置为根据提及所述给定话题的博文的博主到所述多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题，确定所述博主到所述多个过去时间段中的每个过去时间段为止的兴趣；

相似度估计单元，其被配置为估计所述给定话题与所述博主到所述多个过去时间段中的每个过去时间段为止的所述兴趣之间的相似度；

粉丝数量确定单元，其被配置为确定所述博主到所述多个过去时间段中的每个过去时间段为止的粉丝数量；

粉丝指数确定单元，其被配置为根据到所述多个过去时间段中的每个过去时间段为止的所述相似度和所述粉丝数量，确定到所述多个过去时间段中的每个过去时间段为止的粉丝指数；以及

发展趋势预测单元，其被配置为根据所述多个过去时间段中的每个过去时间段的所述提及次数和到所述多个过去时间段中的每个过去时间段为止的所述粉丝指数，预测所述给定话题的未来发展趋势。

附记12.根据附记11所述的装置，其中，所述发展趋势预测单元包括：

第一预测模型训练子单元，其被配置为根据所述提及次数的历史数据和所述粉丝指数的历史数据训练第一预测模型；以及

第一预测模型预测子单元，其被配置为根据所述提及次数和所述粉丝指数，利用训练好的第一预测模型来预测所述给定话题在未来特定时间段内被提及的次数。

附记13.根据附记11所述的装置，其中，所述发展趋势预测单元包括：

第一过去提及次数预测子单元，其被配置为根据所述提及次数的历史数据，利用第二预测模型来预测第一过去提及次数；

第二过去提及次数预测子单元，其被配置为根据所述粉丝指数的历史数据，利用第三预测模型来预测第二过去提及次数；

预测式调谐子单元，其被配置为根据所述第一过去提及次数、所述第二过去提及次数和所述提及次数的历史数据来调谐预测式的参数，其中所述预测式表达所述第一过去提及次数和所述第二过去提及次数相对于所述提及次数的历史数据的关系；

第一未来提及次数预测子单元，其被配置为根据所述提及次数，利用所述第二预测模型来预测第一未来提及次数；

第二未来提及次数预测子单元，其被配置为根据所述粉丝指数，利用所述第三预测模型来预测第二未来提及次数；以及

预测式预测子单元，其被配置为根据所述第一未来提及次数和所述第二未来提及次数，利用具有调谐好的参数的预测式来预测所述给定话题在未来特定时间段内被提及的次数。

附记14.根据附记11所述的装置，还包括以下单元中的至少一个：

博文结构化单元，其被配置为将关于博文的信息结构化为博文标识、博主标识、话题标识和发布时间中的至少一个；

博主结构化单元，其被配置为将关于博主的信息结构化为博主标识、时间、粉丝数量和博主兴趣中的至少一个；以及

话题结构化单元，其被配置为将关于话题的信息结构化为话题标识、时间间隔和提及次数中的至少一个，

其中，所述提及次数确定单元、所述兴趣确定单元、所述相似度估计单元、所述粉丝数量确定单元和所述发展趋势预测单元中的至少一个根据所述博文结构化单元、所述博主结构化单元和所述话题结构化单元中的所述至少一个结构化的信息来进行操作。

附记15.根据附记11至14中任一项所述的装置，还包括：

热门话题确定单元，其被配置为确定多个话题中的每个话题是否为热门话题；以及

给定话题确定单元，其被配置为将所述热门话题之一确定为所述给定话题。

附记16.根据附记15所述的装置，其中，所述热门话题确定单元包括：

持续时间确定子单元，其被配置为确定所述多个话题中的每个话题被提及的持续时间是否超过预定持续时间阈值；以及

第一热门话题确定子单元，其被配置为将所述持续时间超过所述预定持续时间阈值的话题确定为所述热门话题。

附记17.根据附记15所述的装置，其中，所述热门话题确定单元包括：

频繁程度确定子单元，其被配置为确定所述多个话题中的每个话题被提及的频繁程度是否超过预定频繁程度阈值；以及

第二热门话题确定子单元，其被配置为将所述频繁程度超过所述预定频繁程度阈值的话题确定为所述热门话题。

附记18.根据附记15所述的装置，其中，所述热门话题确定单元包括：

持续时间确定子单元，其被配置为确定所述多个话题中的每个话题被提及的持续时间是否超过预定持续时间阈值；

第三热门话题确定子单元，其被配置为将所述持续时间超过所述预定持续时间阈值并且所述频繁程度超过所述预定频繁程度阈值的话题确定为所述热门话题。

附记19.根据附记15所述的装置，其中，所述热门话题确定单元包括：

次数确定子单元，其被配置为确定所述多个话题中的每个话题在短时间内被提及的次数是否超过预定次数阈值；以及

第四热门话题确定子单元，其被配置为将在短时间内被提及的次数超过预定次数阈值的话题确定为所述热门话题。

附记20.根据附记11至19中任一项所述的装置，其中，所述粉丝指数随着所述粉丝数量的增大而增大，并且所述粉丝指数随着所述相似度的增大而增大。

Claims

1.一种预测给定话题的未来发展趋势的方法，包括：

2.根据权利要求1所述的方法，其中，所述预测所述给定话题的未来发展趋势的步骤包括：

3.根据权利要求1所述的方法，其中，所述预测所述给定话题的未来发展趋势的步骤包括：

4.根据权利要求1所述的方法，在所述确定所述给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数的步骤之前还包括以下步骤中的至少一个：

5.根据权利要求1至4中任一项所述的方法，在所述确定所述给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数的步骤之前还包括：

确定多个话题中的每个话题是否为热门话题；以及

将所述热门话题确定为所述给定话题。

6.根据权利要求5所述的方法，其中，所述确定多个话题中的每个话题是否为热门话题的步骤包括：

7.根据权利要求5所述的方法，其中，所述确定多个话题中的每个话题是否为热门话题的步骤包括：

8.根据权利要求5所述的方法，其中，所述确定多个话题中的每个话题是否为热门话题的步骤包括：

9.根据权利要求5所述的方法，其中，所述确定多个话题中的每个话题是否为热门话题的步骤包括：

10.一种预测给定话题的未来发展趋势的装置，包括：