CN104536979B

CN104536979B - 主题模型的生成方法及装置、主题分布的获取方法及装置

Info

Publication number: CN104536979B
Application number: CN201410738272.1A
Authority: CN
Inventors: 石磊; 蒋佳军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-05
Filing date: 2014-12-05
Publication date: 2018-05-01
Anticipated expiration: 2034-12-05
Also published as: CN104536979A

Abstract

本发明实施例提供了一种主题模型的生成方法及装置、主题分布的获取方法及装置。一方面，本发明实施例通过获得训练样本中词对的第一后验概率参数；从而，依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望；其中，所述词对包含所述训练样本中两个不同的词条，以及依据所述训练样本中词对的主题分布的候选期望，获得主题模型的收敛度；进而，若所述主题模型的收敛度满足终止条件，将所述训练样本中词对的主题分布的候选期望作为所述主题分布的目标期望。因此，本发明实施例提供的技术方案用以解决现有技术中利用传统的主题模型获得文本的主题分布的准确性和稳定性比较低的问题。

Description

主题模型的生成方法及装置、主题分布的获取方法及装置

【技术领域】

本发明涉及计算机技术领域，尤其涉及一种主题模型的生成方法及装置、主题分布的获取方法及装置。

【背景技术】

在机器学习与自然语言处理领域中，常常需要从大量文本中，挖掘文本域词语之间所蕴含的潜在语义关系，即所主题。通过主题模型的学习和预测，可以获得文本的主题分布，用于实现文本聚类，以及应用于后续分类、检索、扩展、推荐等任务。

现有技术中，传统的主题模型，如概率潜语义分析(Probability LatentSemantic Analysis，PLSA)算法、非负矩阵分解(Non-negative Matrix Factorization，NMF)算法、隐含迪利克莱分布(Latent Dirichlet Allocation，LDA)算法，均采取词袋(bagof words)的概念，忽略了词条之间的关系，用多项分布(multinomial)描述每个词条的主题分布。然而，传统的主题模型都是针对长文本而提出，随着社交网络的兴起，互联网上产生了大量如微博、评论等短文本，由于短文本中包含的词条数目较少，受限于其共现词的低频性，利用传统的主题模型获得文本的主题分布的准确性和稳定性比较低。

【发明内容】

有鉴于此，本发明实施例提供了一种主题模型的生成方法及装置、主题分布的获取方法及装置，用以解决现有技术中利用传统的主题模型获得文本的主题分布的准确性和稳定性比较低的问题。

本发明实施例的一方面，提供一种主题模型的生成方法，所述主题模型包括主题分布的目标期望；包括：

获得训练样本中词对的第一后验概率参数；

依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望；其中，所述词对包含所述训练样本中两个不同的词条；

依据所述训练样本中词对的主题分布的候选期望，获得主题模型的收敛度；

若所述主题模型的收敛度满足终止条件，将所述训练样本中词对的主题分布的候选期望作为所述主题分布的目标期望，从而基于所述主题分布的目标期望生成所述主题模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获得训练样本中词对的第一后验概率参数，包括：

获得训练样本中词对的迪利克莱分布的先验概率参数；

依据随机数与所述迪利克莱分布的先验概率参数之和，获得所述训练样本中词对的迪利克莱分布的第一后验概率参数，以作为所述训练样本中词对的第一后验概率参数。

依据服从泊松分布的所述训练样本中词对的出现次数，并利用如下公式，获得所述迪利克莱分布的第一后验概率参数以作为所述训练样本中词对的第一后验概率参数：

其中，ε表示所述训练样本中词对b的迪利克莱分布的先验概率参数；n_b表示服从泊松分布的所述训练样本中词对b的出现次数；表示词对b的中间参数ρ^*中第b行、第k列的M维向量中的第m个数值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望，包括：

依据所述迪利克莱分布的第一后验概率参数并利用如下公式，获得所述训练样本中词对的主题分布的候选期望：

其中，<θ_bk>表示所述训练样本中词对b的主题分布的候选期望；表示迪利克莱分布的第一后验概率参数；K表示主题的总数目，k表示主题的序号，k的取值范围是[1,K]。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述依据所述训练样本中词对的主题分布的候选期望，获得主题模型的收敛度，包括：

依据所述训练样本中词对的主题分布的候选期望，获得所述训练样本中词对的伽玛分布的后验概率参数的期望、词对的中间参数、所述训练样本中词对的迪利克莱分布的第二后验概率参数、所述训练样本中词对的伽玛分布的后验概率参数中至少一个；

依据所述训练样本中词对的伽玛分布的后验概率参数的期望、词对的中间参数、所述训练样本中词对的迪利克莱分布的第二后验概率参数、所述训练样本中词对的伽玛分布的后验概率参数中至少一个，获得所述主题模型的收敛度。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

若所述主题模型的收敛度不满足所述终止条件，利用所述迪利克莱分布的第二后验概率参数更新所述第一后验概率参数，以及依据更新后的所述第一后验概率参数，执行依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望的操作。

本发明实施例的一方面，提供一种主题分布的获取方法，包括：

获得待处理文本；

依据所述待处理文本，获得至少一个词对；

利用预先生成的主题模型，获得每个所述词对的主题分布的期望；

依据每个所述词对的主题分布的期望，获得所述待处理文本的主题分布；

其中，所述主题模型为上述的主题模型的生成方法生成的。

本发明实施例的一方面，提供一种主题模型的生成装置，所述主题模型包括主题分布的目标期望；包括：

参数获取单元，用于获得训练样本中词对的第一后验概率参数；

参数处理单元，用于依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望；其中，所述词对包含所述训练样本中两个不同的词条；

收敛获取单元，用于依据所述训练样本中词对的主题分布的候选期望，获得主题模型的收敛度；

模型获取单元，用于若所述主题模型的收敛度满足终止条件，将所述训练样本中词对的主题分布的候选期望作为所述主题分布的目标期望，从而基于所述主题分布的目标期望生成所述主题模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述参数获取单元，具体用于：

获得训练样本中词对的迪利克莱分布的先验概率参数；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述参数处理单元，具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述收敛获取单元，具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括：参数更新单元，用于若所述主题模型的收敛度不满足所述终止条件，利用所述迪利克莱分布的第二后验概率参数更新所述第一后验概率参数；

所述参数处理单元，还用于依据更新后的所述第一后验概率参数，执行依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望的操作。

本发明实施例的一方面，提供一种主题分布的获取装置，包括：

文本获取单元，用于获得待处理文本；

切词处理单元，用于依据所述待处理文本，获得至少一个词对；

第一获取单元，用于利用预先生成的主题模型，获得每个所述词对的主题分布的期望；

第二获取单元，用于依据每个所述词对的主题分布的期望，获得所述待处理文本的主题分布；

其中，所述主题模型为上述的主题模型的生成装置生成的。

由以上技术方案可以看出，本发明实施例具有以下有益效果：

依据本发明实施例的上述技术方案可以看出，本发明实施例中以词条为单位，依据获得的后验概率参数，对主题分布的期望进行训练，当主题分布的期望满足条件时，确定最终的主题模型的分布，因此能够稳定、准确的挖掘出主题模型。

现有技术中每个主题下词条的分布是多项分布，无法描述词条之间的依赖关系，当短文本中的词条数目较少时，如果忽略词条之间的依赖关系将导致主题分布的估计不准确，本发明实施例以词对为单位进行主题模型的挖掘，与现有技术中相比，利用本发明实施例生成的主题模型可以依据短文本中的词对，准确地估计出短文本的主题分布。因此，本发明实施例提供的技术方案用以解决现有技术中利用传统的主题模型获得文本的主题分布的准确性和稳定性比较低的问题，利用本发明实施例提供的主题模型，获得主题文本的主题分布时，准确性和稳定性更高。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提供的主题模型的生成方法的实施例一的流程示意图；

图2是本发明实施例所提供的主题模型的生成方法的实施例二的流程示意图；

图3是本发明实施例所提供的主题分布的获取方法的流程示意图；

图4是本发明实施例所提供的第一主题示例图；

图5是本发明实施例所提供的第二主题示例图；

图6是本发明实施例所提供的主题模型的生成装置的功能方块图；

图7是本发明实施例所提供的主题分布的获取装置的功能方块图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述后验概率参数，但这些关键词不应限于这些术语。这些术语仅用来将关键词彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一后验概率参数也可以被称为第二后验概率参数，类似地，第二后验概率参数也可以被称为第一后验概率参数。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例一

本发明实施例给出一种主题模型的生成方法，请参考图1，其为本发明实施例所提供的主题模型的生成方法的实施例一的流程示意图，如图所示，该方法包括以下步骤：

S101，获得训练样本中词对的第一后验概率参数。

具体的，获得训练样本中词对的迪利克莱分布的先验概率参数；依据随机数与所述迪利克莱分布的先验概率参数之和，获得所述训练样本中词对的迪利克莱分布的第一后验概率参数，以作为所述训练样本中词对的第一后验概率参数。

或者，依据服从泊松分布的所述训练样本中词对的出现次数，并利用如下公式，获得所述迪利克莱分布的第一后验概率参数以作为所述训练样本中词对的第一后验概率参数：

S102，依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望；其中，所述词对包含所述训练样本中两个不同的词条。

具体的，依据所述迪利克莱分布的第一后验概率参数并利用如下公式，获得所述训练样本中词对的主题分布的候选期望：

S103，依据所述训练样本中词对的主题分布的候选期望，获得主题模型的收敛度。

具体的，首先，依据所述训练样本中词对的主题分布的候选期望，获得所述训练样本中词对的伽玛分布的后验概率参数的期望、词对的中间参数、所述训练样本中词对的迪利克莱分布的第二后验概率参数、所述训练样本中词对的伽玛分布的后验概率参数中至少一个。然后，依据所述训练样本中词对的伽玛分布的后验概率参数的期望、词对的中间参数、所述训练样本中词对的迪利克莱分布的第二后验概率参数、所述训练样本中词对的伽玛分布的后验概率参数中至少一个，获得所述主题模型的收敛度。

S104，若所述主题模型的收敛度满足终止条件，将所述训练样本中词对的主题分布的候选期望作为所述主题分布的目标期望。

具体的，判断S103中获得的所述主题模型的收敛度是否满足预设的终止条件，若所述主题模型的收敛度满足终止条件，将所述训练样本中词对的主题分布的候选期望作为所述主题分布的目标期望。反之，若所述主题模型的收敛度不满足所述终止条件，利用所述迪利克莱分布的第二后验概率参数更新所述第一后验概率参数，以及依据更新后的所述第一后验概率参数，执行依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望的操作，即执行S101。

需要说明的是，主题模型是由若干参数组成的一个集合，可以依据主题模型的用途确定该集合中需要包括哪些参数。本发明实施例中，所述主题模型为用于获得待处理文本的主题分布，所述主题模型可以包括但不限于主题分布的目标期望，因此，依据S104中确定的主题分布的目标期望生成所述主题模型。

实施例二

基于上述实施例一，本发明实施例对实施例一中S101～S104的方法进行具体描述。请参考图2，其为本发明实施例所提供的主题模型的生成方法的实施例二的流程示意图，如图所示，该方法包括以下步骤：

S201，依据文本集合，获得词对。

优选的，可以对训练样本中的短文本进行遍历，对遍历到的短文本进行切词，从而获得每个短文本对应的词条集合。依据每个短文本对应的词条集合中任意两个不同的词条，确定一个词对，所以该词对指的是同一个短文本中的任意两个词条的组合。

其中，若词对中包含标点符号、数字或者停用词，则将该词对去除。

优选的，获得词对在训练样本中的出现次数n_b。

S202，确定伽玛分布的先验概率参数α和β、以及迪利克莱分布的先验概率参数ε。

优选的，伽玛分布的先验概率参数α和β、以及迪利克莱分布的先验概率参数ε可以都预先设置为常数。

S203，对伽玛分布的先验概率参数α和β、以及迪利克莱分布的先验概率参数ε进行随机初始化，以获得伽玛分布的第一后验概率参数α^*和β^*、以及迪利克莱分布的第一后验概率参数ε^*。

优选的，可以依据随机数与伽玛分布的先验概率参数α之和，获得伽玛分布的第一后验概率参数α^*；其中，伽玛分布的第一后验概率参数α^*可以为一个K×W×M的矩阵，该矩阵中每个元素都可以等于一个随机数与伽玛分布的先验概率参数α之和。其中，K表示预先设置的主题的总数目；W表示训练样本中词条的总数目；M表示M维的向量。

优选的，可以依据随机数与伽玛分布的先验概率参数β之和，获得伽玛分布的第一后验概率参数β^*；其中，伽玛分布的第一后验概率参数β^*可以为一个K×W×M的矩阵，该矩阵中每个元素都可以等于一个随机数与伽玛分布的先验概率参数β之和。其中，K表示预先设置的主题的总数目；W表示训练样本中词条的总数目；M表示M维的向量。

优选的，可以依据随机数与迪利克莱分布的先验概率参数ε之和，获得迪利克莱分布的第一后验概率参数ε^*。其中，对于每个词对b而言，迪利克莱分布的第一后验概率参数ε^*可以为一个K的维向量，为该K维向量中第k个数值。

S204，计算训练样本中词对的主题分布的候选期望。

优选的，利用如下公式计算训练样本中词对的主题分布的候选期望<θ_bk>：

其中，<θ_bk>表示训练样本中词对b的主题分布的候选期望。

其中，迪利克莱分布的第一后验概率参数ε^*为一个K维向量，表示为该K维向量中第k个数值；K等于主题的总数目，k等于主题的序号，k的取值范围是[1,K]。

S205，计算伽玛分布的第一后验概率参数φ_kwm的期望<φ_kwm>。

优选的，利用如下公式计算伽玛分布的后验概率参数φ_kwm的期望<φ_kwm>：

其中，伽玛分布的第一后验概率参数α^*为K×W×M的矩阵，表示该K×W×M的矩阵中第k行的第w个向量中第m个数值。

其中，伽玛分布的第一后验概率参数β^*可以为一个K×W×M的矩阵，表示该K×W×M的矩阵中第k行的第w个向量中第m个数值。

S206，计算词对的中间参数。

优选的，利用如下公式计算词对的中间参数ρ^*：

其中，表示ρ^*所表示的矩阵中第b行第k列的M维向量中第m个数值；<θ_bk>表示训练样本中词对b的主题分布的候选期望。

其中，表示伽玛分布的后验概率参数φ_kwm的期望<φ_kwm>中第k行第w₁个向量中的第m个数；表示伽玛分布的后验概率参数φ_kwm的期望<φ_kwm>中第k行第w₂个向量中的第m个数。

其中，词对b{w₁,w₂}，w₁和w₂分别表示词对b中的两个词条。

S207，计算迪利克莱的第二后验概率参数。

优选的，可以利用如下公式计算迪利克莱的第二后验概率参数ε^*：

其中，表示ε^*所表示的K的维向量中第k列的个数值。

其中，ε表示迪利克莱分布的先验概率参数。

其中，表示ρ^*所表示的矩阵中第b行第k列的M维向量中第m个数值；M表示M维的向量；k表示主题的序号。

其中，n_b表示服从泊松分布的所述训练样本中词对b的出现次数。例如，n_b服从泊松分布其中，D训练样本中文本的总数目。

其中，若n_b＝0表示词对b在训练样本中没有共现过，训练样本中只有词对b中的一个词条，或者词对b中的每个词条都没有在训练样本中。

其中，θ_bk表示对于词条b，主题k的分布。

其中，词对b由词条w₁和词条w₂组成，对于主题k，每个词条都有一个对应的向量φ_kw，如词条w₁对应的向量为词条w₂对应的向量为

S208，计算伽玛分布的第二后验概率参数α^*。

优选的，利用如下公式计算伽玛分布的第二后验概率参数α^*：

其中，伽玛分布的第二后验概率参数α^*为K×W×M的矩阵，表示该K×W×M的矩阵中第k行的第w个向量中第m个数值。

其中，α表示伽玛分布的先验概率参数。

其中，I(w∈b)表示当词条w满足w∈b时，I(w∈b)＝1，反之，I(w∈b)＝0。

其中，b:n_b＞0表示对于出现次数小于或者等于0的词条不需要参与累加计算。

其中，表示ρ^*所表示的矩阵中第b行第k列的M维向量中第m个数值。

其中，n_b表示服从泊松分布的所述训练样本中词对b的出现次数。

S209，计算伽玛分布的第二后验概率参数β^*。

优选的，利用如下公式计算伽玛分布的第二后验概率参数β^*：

其中，伽玛分布的第二后验概率参数β^*为K×W×M的矩阵，表示该K×W×M的矩阵中第k行的第w个向量中第m个数值。

其中，β表示伽玛分布的先验概率参数。

其中，<θ_bk>表示训练样本中词对b的主题分布的候选期望。表示词条w₁的伽玛分布的第一后验概率参数。K等于主题的总数目。b:n_b＞0表示对于出现次数小于或者等于0的词条不需要参与累加计算。

其中，表示伽玛分布的后验概率参数φ_kwm的期望<φ_kwm>中第k行第w₁个向量中的第m个数。

S210，依据伽玛分布的后验概率参数的期望<φ_kwm>、词对的中间参数ρ^*、所述训练样本中词对的迪利克莱分布的第二后验概率参数ε^*、所述训练样本中词对的伽玛分布的后验概率参数α^*和β^*中至少一个，计算主题模型的收敛度，该收敛度表示依据这些参数确定的主题模型的收敛程度。

S211，判断主题模型的收敛度是否满足预设的终止条件。若主题模型的收敛度满足该终止条件，则确定当前获得的训练样本中词对的主题分布的候选期望<θ_bk>为主题模型所包含的主题分布的期望。反之，若主题模型的收敛度不满足该终止条件，则需要依据S207计算获得的迪利克莱的第二后验概率参数ε^*，迭代执行S204～S210，直到主题模型的收敛度满足终止条件时为止。

例如，所述终止条件可以为该主题模型的收敛度与上一次获得的主题模型的收敛度的差值小于预设的收敛阈值。

再例如，所述终止条件可以为迭代次数阈值，当迭代执行S204～S210的次数达到该迭代次数阈值时，认为主题模型的收敛度满足终止条件。

实施例三

基于上述实施例一和实施例二，本发明实施例给出一种主题分布的获取方法，请参考图3，其为本发明实施例所提供的主题分布的获取方法的流程示意图，如图所示，该方法包括以下步骤：

S301，获得待处理文本。

S302，依据所述待处理文本，获得至少一个词对；

S303，利用预先生成的主题模型，获得每个所述词对的主题分布的期望；其中，所述主题模型为利用上述的主题模型的生成方法生成的。

S304，依据每个所述词对的主题分布的期望，获得所述待处理文本的主题分布。

优选的，所述待处理文本可以包括但不限于用户输入的查询文本、评论信息、微博等。

优选的，可以利用词典对待处理文本进行切词处理，以获得待处理文本中包含的至少两个词条，其中，至少两个词条中任意两个词条可以构成一个词对，因此至少两个词条可以获得至少一个词对。

优选的，利用上述方法生成的主题模型对每个词对进行处理，以获得每个词对的主题分布的期望，然后依据每个词对的主题分布的期望，获得待处理文本的主题分布，该待处理文本的主题分布可以等于至少一个词对的主题分布的期望的累加和，即可以利用如下公式获得待处理文本的主题分布：

其中，T_k表示待处理文本的主题分布。

其中，<θ_bk>表示待处理文本中词对b的主题分布的期望。

其中，N表示待处理文本中词对的总数目。

例如，待处理文本中包含词条a、b和c，进而确定词对ab、ac和bc。然后利用主题模型获得词对ab的主题分布的期望、词对ac的主题分布的期望和词对bc的主题分布的期望，将这三个期望相加，得到待处理文本的主题分布。

实施例四

对大量的搜索日志，进行主题挖掘，并对每个搜索的查询文本，获得对应的主题分布，将每个查询文本聚类到对应的主题上，可以获得如下三个主题及每个主题的10个查询文本：

主题1：

1、党的群众路线教育实践活动学习文件选编学习心得体会

2.、中共中央关于在全党深入开展党的群众路线教育实践活动的意见

3、习近平同志在河北调研指导党的群众路线教育实践活动时的讲话

4、学习党的群众路线教育实践活动学习文件选编

5、郭庚茂学习弘扬焦裕禄精神做为民务实清廉表率

6、关于在教育实践活动中学习弘扬焦裕禄精神，践行“三严三实”要求的通知

7、党的群众路线教育实践活动学习心得体会site:www.gkstk.com

8、学习弘扬焦裕禄精神做为民务实清廉表率

9、厉行节约反对浪费重要论述摘编心得体会

10、群众路线发言提纲

主题2：

1、神武变异宝宝怎么洗

2、神武魔王寨怎么加点

3、85剑神刷图加点

4、斗战神火罗刹技能加点

5、火炬之光合体版4.0修改器

6、怪物猎人p3完美存档

7、dnf阿修罗pk视频

8、dnf85鬼泣刷图视频

9、短剑剑魂85刷图加点

10、dnf大魔导师

主题3：

1、猪肉大葱饺子馅做法大全

2、白菜猪肉饺子馅的做法

3、可乐鸡翅的做法最正宗的做法

4、可乐鸡翅的家常做法

5、鸡蛋韭菜饺子馅的做法

6、香菇油菜的做法大全

7、香菇饺子馅做法大全

8、清蒸鲈鱼的家常做法

9、皮蛋瘦肉粥的简单做法

10、春钓鲫鱼饵料配方

实施例五

本发明实施例中生成的主题模型能够描述词条与词条之间的依赖关系，这个依赖关系可以画出生动形象的图。每个主题可以画出一张图，这个图上，每个词条是一个节点，每两个词条之间有一条边，这条边的强度表示对应两个词条之间的依赖关系强度。

在国际学术界常用的20Newsgroup数据上，应用本发明实施例提供的主题模型的生成方法所生成的主题模型，画出如下图所示的三个主题。其中，对三个主题，分别滤除了词频较低的词条以及依赖关系很弱的词对。可以看出，如图4所示，图4中一个主题主要描述“学院”的相关内容，另一个主题主要描述了“中心”的相关内容。如图5所示，图5中的主题主要描述了“商城”的相关内容，另一个主题主要描述了“斗破苍穹”的相关内容。每个主题的结构是有明显区别的，说明不同主题内的词条与词条之间的依赖关系是有明显区别的。

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

实施例六

请参考图6，其为本发明实施例所提供的主题模型的生成装置的功能方块图，所述主题模型包括主题分布的目标期望。如图所示，该装置包括：

参数获取单元601，用于获得训练样本中词对的第一后验概率参数；

参数处理单元602，用于依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望；其中，所述词对包含所述训练样本中两个不同的词条；

收敛获取单元603，用于依据所述训练样本中词对的主题分布的候选期望，获得主题模型的收敛度；

模型获取单元604，用于若所述主题模型的收敛度满足终止条件，将所述训练样本中词对的主题分布的候选期望作为所述主题分布的目标期望。

优选的，所述参数获取单元601，具体用于：

获得训练样本中词对的迪利克莱分布的先验概率参数；

优选的，所述参数获取单元601，具体用于：

优选的，所述参数处理单元602，具体用于：

优选的，所述收敛获取单元603，具体用于：

可选的，所述装置还包括：参数更新单元605，用于若所述主题模型的收敛度不满足所述终止条件，利用所述迪利克莱分布的第二后验概率参数更新所述第一后验概率参数；

所述参数处理单元602，还用于依据更新后的所述第一后验概率参数，执行依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望的操作。

由于本实施例中的各单元能够执行图1所示的方法，本实施例未详细描述的部分，可参考对图1的相关说明。

实施例七

请参考图7，其为本发明实施例所提供的主题分布的获取装置的功能方块图。如图所示，该装置包括：

文本获取单元701，用于获得待处理文本；

切词处理单元702，用于依据所述待处理文本，获得至少一个词对；

第一获取单元703，用于利用预先生成的主题模型，获得每个所述词对的主题分布的期望；

第二获取单元704，用于依据每个所述词对的主题分布的期望，获得所述待处理文本的主题分布；

其中，所述主题模型为上述的主题模型的生成装置生成的。

由于本实施例中的各单元能够执行图3所示的方法，本实施例未详细描述的部分，可参考对图3的相关说明。

本发明实施例的技术方案具有以下有益效果：

另外，现有技术中有一种基于主题融合的马尔科夫自由场模型，由于马尔科夫自由场的结构特性，使得该模型的大小和模型复杂度等于词条数目的平方，因此无法在实际的大词表中应用。本发明实施例基于泊松分布实现主题模型的挖掘，可以有效解决该现有技术的复杂度较高的问题。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种主题模型的生成方法，其特征在于，所述主题模型包括主题分布的目标期望；所述方法包括：

获得训练样本中词对的第一后验概率参数；

2.根据权利要求1所述的方法，其特征在于，所述获得训练样本中词对的第一后验概率参数，包括：

获得训练样本中词对的迪利克莱分布的先验概率参数；

3.根据权利要求1所述的方法，其特征在于，所述获得训练样本中词对的第一后验概率参数，包括：

<mrow> <msubsup> <mi>&epsiv;</mi> <mrow> <mi>b</mi> <mi>k</mi> </mrow> <mo>*</mo> </msubsup> <mo>=</mo> <mi>&epsiv;</mi> <mo>+</mo> <msub> <mi>n</mi> <mi>b</mi> </msub> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msubsup> <mi>&rho;</mi> <mrow> <mi>b</mi> <mi>k</mi> <mi>m</mi> </mrow> <mo>*</mo> </msubsup> </mrow>

4.根据权利要求2或3所述的方法，其特征在于，所述依据所述第一后验概率参数，获得所述训练样本中词对的主题分布的候选期望，包括：

<mrow> <mo><</mo> <msub> <mi>&theta;</mi> <mrow> <mi>b</mi> <mi>k</mi> </mrow> </msub> <mo>></mo> <mo>=</mo> <msubsup> <mi>&epsiv;</mi> <mrow> <mi>b</mi> <mi>k</mi> </mrow> <mo>*</mo> </msubsup> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msubsup> <mi>&epsiv;</mi> <mrow> <mi>b</mi> <mi>k</mi> </mrow> <mo>*</mo> </msubsup> </mrow>

5.根据权利要求1所述的方法，其特征在于，所述依据所述训练样本中词对的主题分布的候选期望，获得主题模型的收敛度，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种主题分布的获取方法，其特征在于，所述方法包括：

获得待处理文本；

依据所述待处理文本，获得至少一个词对；

其中，所述主题模型为上述权利要求1～6中任一项所述的主题模型的生成方法生成的。

8.一种主题模型的生成装置，其特征在于，所述主题模型包括主题分布的目标期望；所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述参数获取单元，具体用于：

获得训练样本中词对的迪利克莱分布的先验概率参数；

10.根据权利要求8所述的装置，其特征在于，所述参数获取单元，具体用于：

11.根据权利要求9或10所述的装置，其特征在于，所述参数处理单元，具体用于：

12.根据权利要求8所述的装置，其特征在于，所述收敛获取单元，具体用于：

13.根据权利要求12所述的装置，其特征在于，

所述装置还包括：参数更新单元，用于若所述主题模型的收敛度不满足所述终止条件，利用所述迪利克莱分布的第二后验概率参数更新所述第一后验概率参数；

14.一种主题分布的获取装置，其特征在于，所述装置包括：

文本获取单元，用于获得待处理文本；

其中，所述主题模型为上述权利要求8～13中任一项所述的主题模型的生成装置生成的。