CN103870563A

CN103870563A - 确定给定文本的主题分布的方法和装置

Info

Publication number: CN103870563A
Application number: CN201410083451.6A
Authority: CN
Inventors: 胡德勇
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2014-03-07
Filing date: 2014-03-07
Publication date: 2014-06-18
Anticipated expiration: 2034-03-07
Also published as: WO2015131528A1; CN103870563B

Abstract

本发明公开了一种确定给定文本的主题分布的方法和装置，包括：确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。采用本发明的技术方案，能够提升文本主题分布提取的效率，并且，能够降低在文本主题分布的提取过程中由于引入较多中间变量而造成的内存、CPU等系统资源的额外开销。

Description

确定给定文本的主题分布的方法和装置

技术领域

本发明涉及互联网技术领域，具体涉及一种确定给定文本的主题分布的方法和装置。

背景技术

主题模型（Topic Model）是用来在一系列文本中发现抽象主题的一种统计模型。一个文本通常可能包含多种主题，而且，每个主题所占比例各不相同。一个主题模型试图用数学框架来体现文本的主题分布特点。主题模型能够自动分析每个文本，统计文本内的词语，根据统计的信息来判断当前文本包含哪些主题，以及每个主题所占的比例各为多少。

主题模型不仅是机器学习和数据挖掘领域的一个热门研究对象，而且目前也已经被实际应用到很多领域中，例如，在搜索引擎领域，查询词（Query）和网页的相关性就涉及到文本主题分布的提取，同时搜索领域的大数据量和快速响应等特点，导致如何高效地进行文本的主题分布提取成为一个关键。现有方案关于文本主题分布提取的速度仍然有较大的提升空间。

为了提升文本主题分布的提取速度，本发明提出一种确定给定文本的主题分布的方案。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定给定文本的主题分布的装置和相应的确定给定文本的主题分布的方法。

根据本发明的一个方面，提供了一种确定给定文本的主题分布的方法，包括：确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

其中，所述给定文本的主题分布包括：所述训练样本包含的每个主题在所述给定文本下出现的概率。

其中，所述特定单词的主题分布包括：所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

其中，根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布，进一步包括：从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果；根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

其中，所述训练样本的原始训练数据包括：所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数；所述训练结果包括：所述训练样本中每个文本及单词下的主题分布。

根据本发明的另一方面，提供了一种确定给定文本的主题分布的装置，包括：第一确定模块，用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；获取模块，用于根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；第二确定模块，用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。其中，所述给定文本的主题分布包括：所述训练样本包含的每个主题在所述给定文本下出现的概率。

其中，所述获取模块，进一步包括：获取子模块，用于从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果；确定子模块，用于根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

与现有技术相比，根据本发明的技术方案存在以下有益效果：

（1）根据本发明的技术方案，基于已经得到的文本主题模型训练的训练结果对给定文本的主题分布进行计算，不需要进行多次迭代计算，能够提升文本主题分布提取的效率。

（2）根据本发明的技术方案，在文本主题分布的计算过程中能够降低由于引入较多中间变量造成的内存、CPU等系统资源的额外开销。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的确定给定文本的主题分布的方法的流程图；

图2示出了根据本发明一个实施例的根据对训练样本进行主题模型训练的训练结果，获取给定文本包含的特定单词的主题分布的流程图；以及

图3示出了根据本发明一个实施例的确定给定文本的主题分布的装置的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

现有技术中，文本主题分布的提取一般采用期望最大化（EM，Expectation-maximization）方法：

训练样本包括文本D₁、D₂、…、D_n、…，首先，通过文本主题模型训练可以得到：

训练样本中包含单词w₁、w₂、…、w_j、…，主题z₁、z₂、…、z_i、…；以及

p(w|z)——特定主题z下的单词分布，即，训练样本中每个主题下每个单词出现的概率；

p(z|D)——特定文本D下的主题分布，即，训练样本中每个文本下每个主题出现的概率；

p(z|w,D)——特定文本D、单词w下的主题分布，即，训练样本中每个文本及单词下，每个主题出现的概率；

利用得到的文本主题模型训练结果，通过EM算法对给定文本进行主题分布的提取，即，确定每一个主题z_t在给定文本D中出现的概率：

E阶段，即期望阶段：

p (z_{t} | w, D) = \frac{p (w | z_{t}) p (z_{t} | D)}{Σ_{i} p (w | z_{i}) p (z_{i} | D)} - - - (1)

M阶段，即最大化阶段：

p (z_{t} | D) = \frac{Σ_{w} c (w, D) p (z_{t} | w, D)}{Σ_{i} Σ_{w} c (w, D) p (z_{i} | w, D)} - - - (2)

在上述的方法中，以主题模型训练的输出结果p(w|z_t)（主题z_t下每个单词出现的概率）以及随机初始化的p(z_t|D)（每个文本下主题z_t出现的概率p(z_t|D)的估计值）为输入数据，整个过程需要进行反复执行E步和M步，直至达到预定迭代次数或者预定精度后，停止迭代，输出主题z_t在给定文本D中出现的概率p(z_t|D)。

EM方法存在以下不足：

（1）EM算法中引入了中间变量因素p(z_t|w,D)，未能利用模型的训练结果数据p(z|w,D)，导致在实现上需要占用额外的存储空间存储大量的中间数据，增加系统负荷。

（2）EM算法的效率依赖于随机初始化的p(z_t|D)，并且，实际中执行迭代次数一般至少在30次以上，导致文本主题分布提取的效率较低。

下面将参考附图，详细描述本发明改进的技术方案。

本发明的主要思想在于，根据对训练样本进行主题模型训练得到的训练结果数据以及原始训练数据对给定文本进行主题分布的提取。给定文本的主题分布可以包括：训练样本包含的每个主题在所述给定文本下出现的概率。

如图1所示，图1是根据本发明一实施例的确定给定文本的主题分布方法的流程图。

在步骤S110处，确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数。

其中，所述特定单词属于训练样本包含的单词集合。通过对训练样本进行主题模型训练，可以得到训练样本中包含的单词集合，即，训练样本中包含的一个或多个单词。

具体地，可以通过对给定文本进行分词处理，得到给定文本中包含的一个或多个单词，其中，属于训练样本包含的单词集合一个或多个单词为特定单词，并确定该给定文本中出现的特定单词中的每个单词在该给定文本中出现的次数，设给定文本为D_x，D_x中包含特定单词w₁、w₂、…、w_t、…、w_N，用c(w,D_x)表示在给定文本D_x中任意的特定单词w出现的次数。

在步骤S120处，根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布。

其中，所述特定单词的主题分布可以包括：所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率，因此，获取所述特定单词的主题分布，也就是获取所述训练样本包含的每个主题在特定单词中的每个单词下出现的概率。

如图2所示，图2是根据本发明一实施例的根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布（步骤S120）的流程图。

在步骤S210处，从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果。

其中，所述训练样本的原始训练数据可以包括：所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数，用c(w,D)表示任意单词w在文本D中出现的次数。对所述训练样本进行主题模型训练的训练结果包括：所述训练样本中每个文本及单词下的主题分布，即，训练样本中每个文本及单词下每个主题出现的概率，在本实施例中，用p(z_i|w,D)表示训练样本中任意文本D及任意单词w下，主题z_i出现的概率。

根据给定文本包含的特定单词，可以从训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与特定单词中的每个单词相关的原始训练数据和训练结果，即，从训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数c(w,D)中，获取与特定单词相关的c(w,D)，即，特定单词中每个单词在训练样本包含的每个文本中出现的次数c(w,D)，从训练样本中每个文本及单词下每个主题出现的概率p(z_i|w,D)中，获取与特定单词相关的p(z_i|w,D)，即，获取训练样本中包含特定单词的每个文本（训练样本中包含特定单词中的任意一个或多个单词的文本）及每个特定单词下的每个主题出现的概率p(z_i|w,D)。

在步骤S220处，根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

具体地，可以根据公式（3）对所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率进行近似计算，进而得到特定单词中每个单词的主题分布，即，特定单词中每个单词下每个主题出现的概率，用p(z_i|w)表示任意的特定单词w下主题z_i出现的概率，p(z_t|w)表示当前计算的主题z_t在特定单词w下出现的概率，应注意，可能会出现一个或多个单词下一个或多个主题出现的概率为零的情况，即，p(z_t|w)=0。

p (z_{t} | w) \approx \frac{Σ_{D} c (w, D) p (z_{t} | w, D)}{Σ_{i} Σ_{D} c (w, D) p (z_{i} | w, D)} - - - (3)

公式（3）中，p(z_t|w)表示任意主题z_t在特定单词中任意单词w下出现的概率，针对主题z_t，公式（3）的分子部分∑_Dc(w,D)p(z_t|w,D)表示，对特定单词w在训练样本的每个文本中出现的次数与该文本及该特定单词w下主题z_t出现的概率的乘积进行求和运算。公式（3）的分母部分的∑_i∑_Dc(w,D)p(z_i|w,D)表示对训练样本包含的所有主题，先对特定单词w在训练样本的每个文本中出现的次数与该文本及该特定单词w下主题z_i出现的概率的乘积进行求和运算，再将对训练样本包含的所有主题z_i进行上述求和运算得到的结果进行求和运算，在公式（3）中，在训练样本包含的文本范围内进行的求和运算，实际上就是将训练样本包含的所有文本看做一个文本。当根据公式（3）计算得到单词w下每个主题出现的概率，就得到了单词w的主题分布。

根据本申请的一个实施例，获取特定单词的主题分布的方式不限于此，例如，还可以先根据训练样本的原始训练数据和对训练样本进行主题模型训练的训练结果计算出训练样本包含的每个单词w的主题分布，再从其中获取特定单词中的每个单词的主题分布，即，根据训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数c(w,D)和训练样本中每个文本D及单词w下每个主题出现的概率p(z_i|w,D)确定所述训练样本中每个单词下的每个主题出现的概率，再从中获取每个特定单词w下的每个主题z_i出现的概率p(z_i|w)。

在步骤S130处，根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

具体地，可以根据上述得到的特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布，利用公式（4）对给定文本的主题分布进行近似计算。

p (z_{t} | D_{x}) \approx \frac{Σ_{w} c (w, D_{x}) p (z_{t} | w)}{Σ_{i} Σ_{w} c (w, D_{x}) p (z_{i} | w)} - - - (4)

公式（4）中，p(z_t|D_x)表示：针对特定主题z_t，在给定文本D_x中主题z_t出现的概率；分子部分的∑_wc(w,D_x)p(z_t|w)表示：针对主题z_t，对给定文本D_x包含的特定单词中的每个单词w在该给定文本D_x中出现的次数c(w,D_x)与主题z_t在该特定单词w下出现的概率p(z_t|w)的乘积进行求和运算；∑_i∑_wc(w,D)p(z_i|w)表示在训练样本包含的所有主题中，先针对每个主题z_i，对每个特定单词w在给定文本D_x中出现的次数c(w,D)与主题z_i在该特定单词w下出现的概率p(z_i|w)的乘积进行求和运算，再将对训练样本包含的所有主题进行上述求和运算得到的结果进行求和运算。计算每个主题z_t在D_x中出现的概率p(z_t|D_x)，得到的所有不为零的p(z_t|D_x)的集合，就是该给定文本D_x的主题分布。

下面以一个具体示例详细描述本发明对给定文本进行主题分布提取的步骤：

假设训练样本包含文本D₁、D₂，单词w₁、w₂、w₃、w₄，每个单词在每个文本中出现的次数分别为：

c(w₁,D₁)=2、c(w₂,D₁)=3、c(w₃,D₁)=1；

c(w₁,D₂)=1、c(w₃,D₂)=2、c(w₄,D₂)=3；

对训练样本进行主题模型训练的得到每个文本及单词下每个主题出现的概率p(z_i|w,D)分别为：

w₁,D₁下，p(z₁|w₁,D₁)=0.6、p(z₂|w₁,D₁)=0.4；

w₂,D₁下，p(z₁|w₂,D₁)=0.1、p(z₂|w₂,D₁)=0.9；

w₃,D₁下，p(z₂|w₃,D₁)=1；

w₁,D₂下，p(z₁|w₁,D₂)=1；

w₃,D₂下，p(z₁|w₃,D₂)=0.4、p(z₂|w₃,D₂)=0.6；

w₄,D₂下，p(z₁|w₄,D₂)=0.7、p(z₂|w₄,D₂)=0.3；

给定文本为D_x，

在步骤S110中，确定在给定文本D_x中出现的特定单词以及每个特定单词在给定文本D_x中出现的次数。

对D_x进行分词处理，得到D_x中出现的特定单词为w₁、w₃、w₄，并得到每个单词在文本D_x中出现的次数分别为：w₁出现3次、w₃出现1次、w₄出现1次，即，c(w₁,D_x)=3、c(w₃,D_x)=1、c(w₄,D_x)=1。

在步骤S120中，根据对训练样本进行主题模型训练的训练结果，获取特定单词w₁、w₃、w₄的主题分布。

首先，在步骤S210处，从训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与特定单词w₁、w₃、w₄相关的原始训练数据和训练结果。

与w₁、w₃、w₄相关的原始训练数据和训练结果为：

c(w₁,D₁)=2、c(w₃,D₁)=1、c(w₁,D₂)=1、c(w₃,D₂)=2、c(w₄,D₂)=3；

w₁,D₁下，p(z₁|w₁,D₁)=0.6、p(z₂|w₁,D₁)=0.4；

w₃,D₁下，p(z₂|w₃,D₁)=1；

w₁,D₂下，p(z₁|w₁,D₂)=1；

w₃,D₂下，p(z₁|w₃,D₂)=0.4、p(z₂|w₃,D₂)=0.6；

w₄,D₂下，p(z₁|w₄,D₂)=0.7、p(z₂|w₄,D₂)=0.3；

然后，在步骤S220处，根据与w₁、w₃、w₄相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在特定单词w₁、w₃、w₄中出现的概率。

根据公式（3）计算可以得到特定单词w₁、w₃、w₄的主题分布分别为：

w₁的主题分布：p(z₁|w₁)=0.73、p(z₂|w₁)=0.27；

w₃的主题分布：p(z₁|w₃)=0.27、p(z₂|w₃)=0.73；

w₄的主题分布：p(z₁|w₄)=0.7、p(z₂|w₄)=0.3。

或者，可以先根据训练样本的原始训练数据和训练结果利用公式（3）计算出训练样本中包含的每个单词的主题分布，得到：

w₁的主题分布：p(z₁|w₁)=0.73、p(z₂|w₁)=0.27；

w₂的主题分布：p(z₁|w₂)=0.1、p(z₂|w₂)=0.9；

w₃的主题分布：p(z₁|w₃)=0.27、p(z₂|w₃)=0.73；

w₄的主题分布：p(z₁|w₄)=0.7、p(z₂|w₄)=0.3；

再从中获取特定单词w₁、w₃、w₄的主题分布。

步骤S130，根据在步骤S110处得到的特定单词w₁、w₃、w₄在给定文本D_x中出现的次数以及在步骤S120处得到的特定单词w₁、w₃、w₄的主题分布确定给定文本D_x的主题分布。

根据特定单词为w₁、w₃、w₄在文本Dx中出现的次数：

c(w₁,D_x)=3、c(w₃,D_x)=1、c(w₄,D_x)=1；

以及特定单词w₁、w₃、w₄的主题分布确定给定文本Dx的主题分布：

w₁的主题分布：p(z₁|w₁)=0.73、p(z₂|w₁)=0.27；

w₃的主题分布：p(z₁|w₃)=0.27、p(z₂|w₃)=0.73；

w₄的主题分布：p(z₁|w₄)=0.7、p(z₂|w₄)=0.3。

利用公式（4）计算得到给定文本D_x的主题分布为：

p(z₁|D_x)=0.63，p(z₂|D_x)=0.37；

也就是说，给定文本D_x中，主题z₁出现的概率是0.63，主题z₂出现的概率是0.37。

本发明还提供了一种确定给定文本的主题分布的装置。如图3所示，图3是根据本发明一实施例的确定给定文本的主题分布的装置300的结构框图。装置300可以包括：第一确定模块310、获取模块320以及第二确定模块330。

第一确定模块310可以用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，其中，所述特定单词属于训练样本包含的单词集合。

获取模块320可以用于根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布。

第二确定模块330可以用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

根据本申请的一个实施例，所述给定文本的主题分布可以包括：所述训练样本包含的每个主题在所述给定文本下出现的概率。

根据本申请的一个实施例，所述特定单词的主题分布可以包括：所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

根据本申请的一个实施例，所述获取模块320可以进一步包括：获取子模块和确定子模块。

其中，获取子模块可以用于从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果。

确定子模块可以用于根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

所述训练样本的原始训练数据可以包括：所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数。所述训练结果可以包括所述训练样本中每个文本及单词下的主题分布。

以上描述的确定给定文本的主题分布的装置与之前描述的确定给定文本的主题分布的方法的处理是对应的，因此，关于更详细的技术细节，可以参见之前描述的方法。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的确定给定文本的主题分布的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种确定给定文本的主题分布的方法，其特征在于，包括：

确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；

根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；

根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

2.根据权利要求1所述的方法，其中，所述给定文本的主题分布包括：所述训练样本包含的每个主题在所述给定文本下出现的概率。

3.根据权利要求1或2所述的方法，其特征在于，所述特定单词的主题分布包括：所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

4.根据权利要求3所述的方法，其特征在于，根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布，进一步包括：

从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果；

根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

5.根据权利要求4所述的方法，其特征在于，

所述训练样本的原始训练数据包括：所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数；

所述训练结果包括：所述训练样本中每个文本及单词下的主题分布。

6.一种确定给定文本的主题分布的装置，其特征在于，包括：

第一确定模块，用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；

获取模块，用于根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；

第二确定模块，用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

7.根据权利要求6所述的装置，其中，所述给定文本的主题分布包括：所述训练样本包含的每个主题在所述给定文本下出现的概率。

8.根据权利要求6或7所述的装置，其特征在于，所述特定单词的主题分布包括：所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

9.根据权利要求8所述的装置，其特征在于，所述获取模块，进一步包括：

获取子模块，用于从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果；

确定子模块，用于根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

10.根据权利要求9所述的装置，其特征在于，