CN112015904A

CN112015904A - 确定文档语料库的潜在主题的方法、系统和计算机可读介质

Info

Publication number: CN112015904A
Application number: CN201911257756.3A
Authority: CN
Inventors: 李定成; 张婧媛; 李平; 赛玛卡·扎马尼达达内
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-05-30
Filing date: 2019-12-10
Publication date: 2020-12-01
Anticipated expiration: 2039-12-10
Also published as: CN112015904B; US20200380385A1; US11636355B2

Abstract

公开了确定文档语料库的潜在主题的方法、系统和计算机可读介质。利用领域知识是用于通过主题模型来提高推理出的文档的低维表示的质量的有效策略。本文中提供了在用于提取较相干的主题的主题建模的上下文中使用知识图(KG)嵌入的贝叶斯非参数模型的实施例；该模型的实施例可以被称为带有知识图嵌入的主题建模(TMKGE)。TMKGE实施例是从KG灵活借用信息以提高主题的可解译性的基于分层狄里克雷过程(HDP)的模型。并且，针对TMKGE模型开发了基于HDP的断棍构造的新颖、有效的在线变分推理方法的实施例，从而使TMKGE适用于大型文档语料库和KG。对数据集的实验说明了TMKGE相比现有技术的主题建模方法在主题相干性和文档分类准确性方面具有优良性能。

Description

确定文档语料库的潜在主题的方法、系统和计算机可读介质

技术领域

本公开总的来说涉及用于可以提供改进的计算机性能、特征和使用的计算机学习的系统和方法。更具体地说，本公开涉及实现高计算强度和快速推理的高效神经网络体系结构的实施例。

背景技术

例如概率潜在语义分析(PLSA)和潜在狄里克雷分配(LDA)等主题模型可以对帮助机器解译文本文档起重要作用。主题模型将文档视为词语袋。给定词语信息，主题模型试图将文档看作潜在主题的混合，其中这些主题经由在词语上的分布而生成。贝叶斯方法已经用于从文本语料库的文档词语频率表示来提取主题结构。然而，在没有监管的情况下，已经发现从这些模型生成的主题通常并不是可解译的。在当前研究中，将不同形式的知识合并为监管已经成为用于发现有意义的主题的强有力的策略。

最常规的做法是将先验领域知识纳入考量以提高主题相干性。一种常用领域知识基于词语相关性。例如，由领域专家生成词语之间的“必须链接(must-link)”和“无法链接(cannot-link)”以帮助主题建模。用于主题发现的另一有用形式的知识基于词语语义。具体地说，词语嵌入用作语义规则性以增强主题模型，其中在词语嵌入中，词语袋变换为向量表示，以使得上下文嵌入到那些词语向量中。

知识图(KG)嵌入学习实体和关系的低维连续向量空间，以保留KG 的固有结构。一些所提议的KGE-LDA将KG的嵌入并入到主题模型中以提取文档的更好的主题表示，并表现出一些不俗性能。然而，KGE-LDA 迫使词语和实体具有相同的潜在表示，这特别在仅部分KG可用的情形下是阻碍主题模型恢复数据的正确的基础潜在结构的相当限制性的假设。

因此，需要用于主题建模的改进的系统和方法。

发明内容

本公开旨在提供用于主题建模的改进的系统和方法。

根据一个方面，公开了一种用于确定文档语料库的潜在主题的计算机实施方法，所述方法包括：给定其中每一文档都包括词语和实体的文档语料库：使用从知识图获得的实体嵌入来表示所述文档语料库中的实体；以及针对所述文档语料库中的每一文档，生成所述文档中的词语的词语频率表示；以及将所述实体嵌入和所述词语频率表示用作主题模型的输入以生成所述文档语料库的潜在主题，所述主题模型包括：语料库级狄里克雷过程，其使用所述词语频率表示和所述实体嵌入以获得共享的基本测度，所述共享的基本测度用作两个文档级狄里克雷过程的先验；第一文档级狄里克雷过程，其将所述共享的基本测度用作先验以生成词语的潜在主题分布；第二文档级狄里克雷过程，其将所述共享的基本测度用作先验以生成实体嵌入的潜在主题分布；词语生成过程，其使用所述词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程；以及使用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。

根据另一方面，公开了一种非暂时性计算机可读介质，包括一个或更多个指令序列，所述指令序列在由至少一个处理器执行时使得执行包括以下各者的步骤：给定其中每一文档都包括词语和实体的文档语料库：使用从知识图获得的实体嵌入来表示所述文档语料库中的实体；以及针对所述文档语料库中的每一文档，生成所述文档中的词语的词语频率表示；以及将所述实体嵌入和所述词语频率表示用作主题模型的输入以生成所述文档语料库的潜在主题，所述主题模型包括：语料库级狄里克雷过程，其使用所述词语频率表示和所述实体嵌入以获得共享的基本测度，所述共享的基本测度用作两个文档级狄里克雷过程的先验；第一文档级狄里克雷过程，其将所述共享的基本测度用作先验以生成词语的潜在主题分布；第二文档级狄里克雷过程，其将所述共享的基本测度用作先验以生成实体嵌入的潜在主题分布；词语生成过程，其使用所述词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程；以及使用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。

根据又一方面，公开了一种计算系统，包括：至少一个处理器；以及一个或多个非暂时性计算机可读介质，包括一个或更多个指令序列，所述指令序列在由一个或更多个处理器中的至少一个执行时使得包括以下各者的步骤被执行：给定其中每一文档都包括词语和实体的文档语料库：使用从知识图获得的实体嵌入来表示所述文档语料库中的实体；以及针对所述文档语料库中的每一文档，生成所述文档中的词语的词语频率表示；以及将所述实体嵌入和所述词语频率表示用作主题模型的输入以生成所述文档语料库的潜在主题，所述主题模型包括：语料库级狄里克雷过程，其使用所述词语频率表示和所述实体嵌入以获得共享的基本测度，共享的基本测度用作两个文档级狄里克雷过程的先验；第一文档级狄里克雷过程，其将所述共享的基本测度用作先验以生成词语的潜在主题分布；第二文档级狄里克雷过程，其将所述共享的基本测度用作先验以生成实体嵌入的潜在主题分布；词语生成过程，其使用所述词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程；以及使用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。

附图说明

将参照本公开的实施例，其示例可以图示在附图中。这些图旨在进行说明，而不是限制性的。虽然大体上在这些实施例的上下文中描述本公开，但应理解，本公开的范围并不限于这些特定实施例。图中的项目可以并未按比例绘制。

图1用图形描绘根据本公开的实施例的带有知识图嵌入的主题建模 (TMKGE)模型的概述。在一个或更多个实施例中，TMKGE模型可以使用具有自然梯度的在线随机优化来训练以用于变分推理。

图2用图形表示根据本公开的实施例的TMKGE框架，其中TMKGE 框架包含两个分量——词语一个(下方分量)以及实体一个(上方分量)，这两个分量都将狄里克雷过程作为先验。

图3描绘根据本公开的实施例的用于确定文档语料库的潜在主题的方法。

图4描绘根据本公开的实施例的TMKGE框架的变分推理。

图5描绘根据本公开的实施例的用于更新文档级变分参数并更新语料库级参数的方法。

图6描绘根据本公开的实施例的表2，其中表2示出了示例主题以及由TMKGE模型实施例和另两个模型从三个语料库学习的逐点互信息 (PMI)主题相干性度量得分。

图7是根据本文献的实施例的计算装置/信息处置系统的简化框图。

具体实施方式

在下文描述中，出于解释的目的，阐述了具体细节以便理解本公开。然而，对于本领域的技术人员来说将清楚的是，可以在没有这些细节的情况下实践本公开。此外，本领域的技术人员应认识到，下文所述的本公开的实施例可以按各种方式(例如，过程、设备、系统、装置或有形计算机可读介质上的方法)来实施。

图中所示的部件或模块图示了本公开的示范性实施例，并且希望避免混淆本公开。还应理解，在本论述全文中，部件可以被描述为可以包括子单元的独立功能单元，但本领域的技术人员应认识到，各种部件或其部分可以被划分为独立部件或可以集成在一起，包含集成在单个系统或部件内。应注意，本文所述的功能或操作可以实施为部件。部件可以实施为软件、硬件或其组合。

此外，图内的部件或系统之间的连接不限于直接连接。实际上，这些部件之间的数据可以由中间部件修改、重新格式化或按其它方式改变。并且，可以使用额外连接或更少连接。还应注意，术语“耦接”、“连接”或 “通信地耦接”应被理解为包含直接连接、经由一个或更多个中间装置进行的间接连接和无线连接。

在本说明书中对“一个实施例”、“优选实施例”或“实施例”的引用意味结合实施例描述的特定特征、结构、特性或功能包含在本公开的至少一个实施例中并且可以包含在一个以上实施例中。并且，上述用语在本说明书中各种位置中的出现未必全部表示同一实施例或相同实施例。

某些术语在本说明书中各种位置中的使用是说明性的，并且不应解释为限制性的。服务、功能或资源不限于单个服务、功能或资源；这些术语的使用可以表示可以分散或聚集的相关服务、功能或资源的分组。

术语“包含”和“包括”应被理解为开放性术语，并且之后的任何列表是示例并且不希望限于所列举的项目。本文所使用的任何标题仅出于组织的目的，并且不应用于限制本说明书或权利要求书的范围。本专利文献中所述的每一参考文献的全部内容以引用方式并入本文中。

此外，本领域的技术人员应认识到：(1)某些步骤可以可选地执行； (2)步骤可以不限于本文所阐述的具体次序；(3)可以按不同次序执行某些步骤；并且(4)可以同时执行某些步骤。

应注意，本文中所提供的任何实验和结果是示例性地提供，并且是使用一个或多个具体实施例在具体条件下执行的；因此，这些实验及其结果都不应用于限制本专利文献的公开内容的范围。

A.引言

本文呈现的是带有知识图嵌入的主题建模(TMKGE)的实施例，这些实施例是通过利用KG结构而提取更相干的主题的基于分层狄里克雷过程(HDP)的模型。不同于KGE-LDA，TMKGE实施例通过在一个或更多个实施例中使用将词语建模的多项式分布以及将实体建模的多元高斯混合而实现词语与实体之间的更灵活的信息共享。在一个或更多个实施例中，使用两个比例向量——词语一个以及实体一个。相比之下，KGE- LDA仅使用一个比例向量，这一个比例向量由词语与实体两者共享。 TMKGE实施例包含语料库级与文档级两者下的狄里克雷过程(DP)的集合。语料库级DP的原子形成词语和实体的文档级DP的基本测度。因此，语料库级DP的原子可以表示词语主题、实体混合分量(例如，实体嵌入)或两者。图1用图形描绘了带有知识图嵌入的主题建模(TMKGE) 流程的概述，其中分别从语料库105和一个或多个知识图110提取的两个输入源(词语袋125和知识图(KG)嵌入130)用于获得潜在主题。如图1所图示，实体120由文档105与知识图110两者共享。可以由 TransE(知识图嵌入包)生成的实体嵌入130被传递到TMKGE实施例以生成隐藏式主题135。使用通过将多关系数据(例如，知识图)中的关系解译为对实体的低维嵌入运算的关系而将这些关系建模的方法将关系信息并入在TMKGE实施例的实体表示中。

作为非参数模型，TMKGE实施例不采用固定数量的主题或实体混合分量作为约束。而是它们自动从数据学习主题和实体混合分量的数量。此外，基于HDP的Sethuraman断棍(stick-breaking)构造而开发出高效的在线变分推理算法。在一个或更多个实施例中，以微型批次(minibatch) 方式构造断棍推理以导出TMKGE实施例的更有效且可缩放的坐标重音变分推理。

本公开的一些贡献包含以下各者。首先，TMKGE实施例是通过利用知识图结构而提取更相干的主题的贝叶斯非参数模型。第二，引入了两个比例向量以实现词语与实体之间的更灵活的信息共享。第三，经由在线变分推理而导出了高效且可缩放的参数估计算法。最终，根据经验而演示了 TMKGE实施例对主题发现和文档分类的有效性。

B.相关研究

潜在狄里克雷分配(LDA)是通过使用狄里克雷先验以将主题分布规则化而从文档和词语学习潜在主题的流行的概率模型。然而，来自LDA 模型的所生成的主题通常并不是可解译的，这部分是因为在不使用先验知识或外部资源的情况下，LDA模型未经监管。

近年来，已经利用先验知识来指导主题建模的过程。例如，已经提议深度森林(deep forest)LDA(DF-LDA)模型以将词语之间的“必须链接” 和“无法链接”并入到主题建模中。DF-LDA模型的一个弱点在于链接信息是取决于领域的。之后，引入了一般的基于知识的LDA以利用来自多个领域的“必须链接”。最近，MetaLDA提议通过针对文档超参数α和词语超参数β而将不同元信息作为先验并入来改进主题建模。

除了词语相关性之外，词语语义也用作用于主题建模的一种类型的有用知识。词语嵌入作为词语的低维连续向量被视为词语语义的有效表示。已经提议潜在特征主题建模(LFTM)以将预先训练的词语嵌入用在主题建模中。LFTM将词语及其主题的嵌入并入到词语的传统多项式分布中作为主题建模的概率函数。TopicVec通过将词语及其局部上下文词语一起组合到词语的常规多项式分布中而扩展了LFTM。TopicVec还学习主题的嵌入表示。高斯LDA进一步通过考量词语嵌入的连续性质而改进主题建模。一些人构造了较统一的框架，即，skip-gram主题嵌入(STE)，以解决一词多义的问题。其它人提议了统一框架主题建模和稀疏自动编码器(Topic Modeling and Sparse Autoencoder，TMSA)以经由互学习机制而同时改进主题发现和词语嵌入。

一些人已经提议用于从大型知识图(KGE)学习的基于主题的嵌入。 KGE学习实体与关系两者的低维连续向量空间，以保留知识图的固有结构。贝叶斯方法是通过将实体和关系的嵌入视为主题而引入。此后，其它人提议了知识图嵌入LDA(KGE-LDA)以将从知识图学习的实体嵌入编码为LDA，并据称表明知识图嵌入有助于主题发现。

本文中的实施例利用实体嵌入来对用于主题建模的先验知识进行编码。

C.模型实施例与变分推理实施例

此章节呈现了TMKGE模型实施例和用于学习TMKGE模型参数的有效在线变分推理的实施例。首先，为了便利起见，提供分层狄里克雷过程(HDP)的回顾。

1.分层狄里克雷过程(HDP)的预备

基本测度为G₀并且集中参数γ₀>0的狄里克雷过程(DP)G～DP(γ₀, G₀)是随机概率测度G在可测量空间

上的分布，以使得针对Ω的任何可测量不交分划(A₁,…,A_Q)，(G(A₁),…,G(A_Q))～Dir(γ₀G₀(A₁),…, γ₀G₀(A_Q))，其中“Dir”表示狄里克雷分布。

为了处理多个(D个)数据群组而引入的分层狄里克雷过程(HDP) 是一组随机概率测量在

上的分布：每一群组d∈{1,2,…,D}一个概率测度G_d～DP(α₀,G₀)，并且全局概率测度G₀～DP(γ₀,H)，基本测度为 H。

断棍构造表明来自G₀和G_d的抽样可以被表达为点质量的加权总和：

特别用于导出闭合形式变分推理的较便利的断棍构造是Sethuraman 构造(在如下文献中：Jayaram Sethuraman.狄里克雷先验的构造性定义.统计学报，1994，4(2)：第639到650页(Jayaram Sethuraman.A constructive definition of Dirichletpriors.Statistica sinica,4(2):639–650,1994))，该构造如下进行。首先，将全局级DP抽样表示为：

应注意，也通常将

的分布写为β～GEM(γ₀)。随后，将群组级抽样构造为：

ψ_dt～G₀，π′_dt＝Beta(1，α₀)，

或者，可以将群组级原子

表示为

其中辅助指示变量c_dt是从多项式Mult(β)独立抽样。

已经提议坍缩推理方法作为断棍推理的替代。然而，在一个或更多个实施例中，考虑到本文所公开的截断狄里克雷过程具有较高的计算效率并且容易实施，所以使用未坍缩HDP模型。

2.TMKGE模型实施例

图2描绘根据本公开的实施例的带有知识图嵌入的主题建模 (TMKGE)框架200的图形表示。如所描绘的实施例所示，存在两个分量，下方分量用于词语，并且上方分量用于实体。两个分量将狄里克雷过程205作为先验来共享。因为实体使用知识图嵌入来表示，所以在一个或更多个实施例中，每一实体使用高斯先验而生成，而用于词语的分量仍使用狄里克雷先验而生成。

令D表示语料库中的文档的数量，其中每一文档d∈{1,2,…,D}含有

个词语和

个实体。在此专利文献中，上标(w)和(e)分别表示词语相关参数和实体相关参数。在每一文档d中，第n个词语由w_dn表示，其中每一词语属于大小为V的词汇表，即，w_dn∈{1,2,…,V}。此外，第m个实体的P维嵌入是e_dm，其中语料库中的独特实体的总数是E。在一个或更多个实施例中，假设实体嵌入是获自“完整”知识图，并且因此它们含有独立于语料库的信息。在一个或更多个实施例中，使用TransE (用于知识编码的简单且有效的工具)来计算从文档提取的实体的嵌入，但是也可使用不同方法来获得从文档提取的实体的嵌入。在一个或更多个实施例中，TransE的归一化步骤被去除，并且因此输出向量(e_dm)不具有单位l₂范数。

TMKGE实施例建立在HDP的基础上而用于词语主题和实体混合的联合建模。在语料库级，词语主题和实体混合对应于狄里克雷过程G₀～ DP(γ₀,H)205的原子。在文档级，词语主题和实体混合分量是独立的DP 210和215的原子，其中共享的基本测度为G₀。在数学上，针对文档d，我们有

其中

和

是词语相关的DP 210和实体相关的DP 215。(1)中的Sethuraman构造产生：

在一个或更多个实施例中，这些DP接着用于将词语和实体分别指派给主题和混合分量。在文档d中，令

表示指派给第n个词语的主题，并且

表示被指派给第m个实体的混合分量。使用(2)中的混合比例，获得：

为了简单起见，索引t用于表示词语相关原子与实体相关原子两者，但它们可以对应于全局DP的不同原子。

在一个或更多个实施例中，语料库级DP的混合比例用于将文档原子映射到共享的全局原子。更精确地说，在一个或更多个实施例中，词语原子和实体原子映射辅助变量

和

可以接着将映射概率表达为：

在一个或更多个实施例中，映射概率可以由β_k更新。

TMKGE实施例实现知识图与文档之间的信息的灵活共享。此共享提供重要优点，这是因为实际上，仅部分相关信息可用，并且因此严格迫使主题和实体混合共享分量可以导致模型正确地恢复数据的潜在结构的能力降低。此外，模型实施例的非参数性质在文档级和语料库级实现词语与实体两者的原子的数量的自动发现。

在一个或更多个实施例中，语料库DP(G₀)的每一原子对应于词语与实体两者的一组参数。原子k含有主题词语狄里克雷分布φ_k＝ (φ_k1,…,φ_kV)^T 220以及实体高斯混合参数{μ_k,Λ_k}225。若给定φ_k和主题指派变量，文档d的第n个词语的生成过程230是：

以类似方式，文档d的第m个实体的生成过程235是：

其中μ_k和Λ_k是多元高斯分布的均值与精度矩阵。

在一个或更多个实施例中，共轭先验如下强加在词语与实体分量参数两者上：

φ_k～Dir(η，…，η)，μ_k～N(m₀，(ρ₀A_k)^-1)，

Λ_k～Wishart(v₀，W₀).

图3描绘根据本公开的实施例的用于确定文档语料库的潜在主题的方法。在一个或更多个实施例中，若给定每一文档包括词语和实体的文档语料库：(1)使用从知识图获得的实体嵌入来表示文档语料库中的实体；并且(2)针对文档语料库中的每一文档，生成文档中的词语的词语频率表示(305)。接着，在一个或更多个实施例中，将实体嵌入和词语频率表示用作主题模型的输入以生成文档语料库的潜在主题(310)。在一个或更多个实施例中，主题模型包括：语料库级狄里克雷过程，其使用词语频率表示和实体嵌入以获得共享的基本测度，用作两个文档级狄里克雷过程的先验；第一文档级狄里克雷过程，其将共享的基本测度用作先验以生成词语的潜在主题分布；第二文档级狄里克雷过程，其将共享的基本测度用作先验以生成实体嵌入的潜在主题分布；词语生成过程，其使用词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程；以及使用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。

应注意，TMKGE实施例可以用作生成模型。例如，在一个或更多个实施例中，给定一组主题模型参数(即，经训练主题模型)，主题模型可以用于生成一个或多个文档的词语。

3.在线变分推理实施例

在此章节中，公开用于TMKGE模型参数的有效学习的在线变分推理方法的实施例。在一个或更多个实施例中，使用基于断棍构造的完全分解的变分分布，并执行在线平均场变分推理。除了主题参数φ_k和实体混合参数{μ_k，Λ_k}之外，其它感兴趣的参数是语料库级棍比例

词语的文档级棍比例

和实体的文档级棍比例

词语的主题指派

实体的混合指派

以及映射变量

和

可以将词语相关参数和实体相关参数分别表示为Θ^(w)和Θ^(e)。接着，变分分布分解为：

q(β′,Θ^(ω)),Θ^(e))＝q(β′)qΘ^(ω))q(Θ^(e))。

针对语料库级棍比例，在一个或更多个实施例中，可以采用β分布：

其中全局原子的数量在K处被截断，因此q(β′_K＝1)＝1。针对词语相关参数Θ^(w)，我们有

q(Θ^(ω))＝q(c^(ω))q(z^(ω))q(π′^(ω))q(φ)，

实体相关参数(除高斯混合参数之外)的变分分布具有与上述分布类似的形式，可以如下来表达：

q(μ_k)＝N(m_k，(ρ_kΛ_k)^-1)，q(Λ_k)＝Wishart(v_k，W_k).

在标准变分推理理论中，将作为所观察的数据的边缘对数似然的下界的证据下界(ELBO)最大化以找到真实难解后验的最佳变分近似。若给定TMKGE的建模框架，可以将ELBO写为：

其中H(·)是变分分布的熵项。通过关于每一变分参数而取得此下界的导数，可以导出坐标上升更新步骤。

在一个或更多个实施例中，开发了用于处理大型数据集的TMKGE的在线变分推理。若给定现有语料库级参数，首先，可以将文档d采样，并接着可以计算其最佳文档级变分参数。针对词语相关变分参数，这些更新包含：

其中预期是关于变分分布并具有闭合形式。针对实体相关变分参数，可以导出类似更新，其中项

替换

针对语料库级变分数，使用自然梯度：

在一个或更多个实施例中，接着使用这些自然梯度和学习速率参数∈_t而更新语料库级参数。例如，针对主题词语分布参数，我们有

可以类似地更新上文(4)中的语料库级变分参数的剩余部分。为了确保参数收敛到驻点，在一个或更多个实施例中，学习速率满足

和

在一个或更多个实施例中，使用

其中κ∈(0.5,1]并且τ₀>0。在一个或更多个实施例中，为了提高在线变分推理的稳定性，使用微型批次的文档来计算自然梯度。也就是说，可以将上文(4)中的单个文档d的贡献替换为微型批次

中的文档的贡献的总和，并且将因数 D替换为

下文方法1中示出TMKGE的在线变分推理的整个方案的示例。

方法1：TMKGE框架实施例的在线变分推理实施例：

与方法1相关，图4描绘了根据本公开的实施例的TMKGE框架的变分推理。在一个或更多个实施例中，通过初始化主题模型的语料库级变分参数来开始通过变分推理方法的自然梯度进行的在线随机优化(405)。接着，迭代地执行设定更新步骤，直到已经满足停止条件(例如，一个或多个停止准则)为止(410)。如图4所图示，迭代步骤包含：从文档语料库随机对文档采样(415)；更新主题模型的文档级变分参数(420)；以及更新语料库级参数(425)。

在一个或更多个实施例中，一个或多个准则可以包含以下各者中的一个或更多个：已经执行数次迭代、设定量的时间已经逝去、连续迭代之间的一个或更多个参数的差小于更新阈值、在下一迭代中获得显著改变的概率低于改变阈值；一个或更多个参数的发散；以及已经满足限制。

图5描绘了根据本公开的实施例的用于如图4所论述更新文档级变分参数并更新语料库级参数的方法。在一个或更多个实施例中，更新文档级变分参数的步骤可以包括更新主题模型的词语相关变分参数(510)以及更新主题模型的实体相关变分参数(515)。在一个或更多个实施例中，使用词语相关变分参数和实体相关变分参数而计算自然梯度(520)，并还可以确定学习速率参数(525)。最终，在一个或更多个实施例中，更新语料库级参数的步骤包括使用自然梯度和学习速率参数而更新主题模型的语料库级参数(530)。在一个或更多个实施例中，更新语料库级参数的步骤包含更新语料库级变分参数。

D.实验结果

应注意，这些实验和结果是通过说明而提供，并且使用一个或多个具体实施例在具体条件下执行；因此，这些实验及其结果都不应用于限制本专利文献的公开内容的范围。

在两个实验任务上评估TMKGE实施例，并将其性能与LDA、HDP 和KGE-LDA的性能进行比较。针对LDA和HDP，使用在线变分推理实施方案。更精确地说，通过如下方式来评估框架实施例：测试它们是否找到相干且有意义的主题，以及测试它们是否在文档分类中实现良好性能。

对三个流行数据集的实验：20-Newsgroups(20NG)、NIPS以及 Ohsumed语料库。20NG数据集含有均匀归类为20个不同种类的18,846 个文档。

NIPS数据集含有来自NIPS会议的1,740篇论文。Ohsumed语料库来自MEDLINE数据库。使用1991到1996年的前20,000篇摘要中的 13,929篇独特心血管疾病摘要。集合中的每个文档具有来自23个疾病种类的一个或更多个相关联的种类。去除属于多个种类的文档，以使得仅属于一个种类的7,400个文档保留。使用Stanford CoreNLP而将数据集令牌化，其中Stanford CoreNLP是提供各种自然语言处理(NPL)工具的Java 工具包。在标准预处理(例如，去除停止词语)之后，在20NG数据集中存在20,881个不同词语，在NIPS数据集中存在14,482个不同词语，并且在Ohsumed数据集中存在8,446个不同词语。

1.外部知识源

用于实验测试的知识图是Word-Net(George A.Miller(1995). WordNet：英语词汇数据库.美国计算机学会通信，第38卷，第11期：第 39到41页(George A.Miller(1995).WordNet:A Lexical Database for English. Communications of the ACM,Vol.38,No.11:39-41))。WordNet是大型词汇知识图。WordNet中的实体是表达不同概念的同义词。WordNet中的关系主要涉及概念语义和词汇关系。使用Word-Net的子集(WN18)，其中 WN18介绍在以下文献中：Bordes等人的“知识库的学习结构化嵌入”，第25次人工智能AAAI会议(AAAI)纪要，2011年，加利福尼亚州旧金山市(Bordes et al.,“Learning StructuredEmbeddings of Knowledge Bases,” In Proceedings of the Twenty-Fifth AAAIConference on Artificial Intelligence (AAAI),2011,San Francisco,CA)。WN18含有151,442个三元组，具有 40,943个实体和18个关系。在实验中，经令牌化的词语使用自然语言工具包(NLTK)(Steven Bird和Edward Loper，NLTK：自然语言工具包， ACL 2004互动海报演示会纪要，第31页.计算语言学协会(Steven Bird and Edward Loper,NLTK:TheNatural Language Toolkit,In Proceedings of the ACL 2004 on Interactive posterand demonstration sessions,page 31. Association for ComputationalLinguistics))而与WN18中的实体关联。

2.模型参数

在实验中，针对每一方法，报告基于获得最佳性能的超参数设定的结果。针对TMKGE和HDP，报告K＝300、T＝20以及K＝100、T＝10 情况的结果。分别针对LDA和KGE-LDA，报告K＝100和K＝30的结果。在此整个研究中，实体嵌入的维数固定为P＝5。针对在线变分推理，算法运行1000次迭代，其中微型批次大小为100。

3.主题相干性

基于主题相干性而估计所测试的TMKGE实施例的性能。主题相干性已经表现出相比例如困惑度等其它典型主题模型度量较与人的判断一致。执行由TMKGE实施例发现的主题的定量分析与定性分析两者，并且将其性能与LDA、HDP和KGE-LDA的性能比较。

a)定量分析

通过逐点互信息(PMI)主题相干性度量来评估所发现的主题的相干性。如下实施PMI主题相干性：

其中k表示主题，N表示的k的热门词语的数量，p(w_i)是w_i在文档中出现的概率，p(w_i,w_j)是w_i和w_j在同一文档中共同出现的概率。较高 PMI得分意味较相干的主题。根据KGE-LDA，4,776,093个维基条目用于获得主题相干性得分。代替使用固定值N(热门词语的数量，例如，N ＝5或N＝10)，N在5到30的范围内变化。已经建议在若干不同基数上计算主题相干性并取平均值导致实质上较稳定的评估。

表1示出不同方法和数据集的平均主题相干性。可以观察到，针对三个数据集，所测试的TMKGE实施例在几乎所有热门词语大小中获得较高主题相干性。在所测试的TMKGE实施例并不排名最高的少许情况下，仅存在与最高性能结果的极小差异。这表明，知识图嵌入提高所发现的主题的相干性。此外，针对最热门10个词语，所有三个数据集的主题相干性高于由KGE-LDA获得的主题相干性。这表明实体嵌入与词语两者的基于HDP的主题建模相比基于LDA的建模具有不可比拟的优点。

表1：关于具有不同数量的热门词语的三个数据集的所有模型的主题相干性。较高PMI得分意味较相干的主题。所测试的TMKGE实施例相比其它方法的改进是显著的。

b)定性分析

提供在图6中的表2示出示例主题与其由KGE-LDA和所测试的 TMKGE模型实施例从三个语料库学习的PMI得分。每一模型的最后一行是将4,776,093个维基文档用作参考而计算的主题相干性。一些医疗简短词语：pbl＝外周血白细胞、meh＝平均红细胞血红蛋白。为了比较，报告与KGE-LDA论文(Liang Yao、Yin Zhang、Baogang Wei、Zhe Jin、 RuiZhang、Yangyang Zhang和Qinfei Chen，“知识图嵌入到主题建模中的并入”，第31次人工智能AAAI会议(AAAI)纪要，第3119到3126 页，加利福尼亚州旧金山市(2017年)(LiangYao,Yin Zhang,Baogang Wei, Zhe Jin,Rui Zhang,Yangyang Zhang,and Qinfei Chen,“Incorporating knowledge graph embeddings into topic modeling,”In Proceedingsof the Thirty-First AAAI Conference on Artificial Intelligence(AAAI),pages3119– 3126,San Francisco,CA(2017)))中所列举的主题类似的主题。

可见，TMKGE实施例找到主题中的相当密切相关的词语。例如，针对20NG的第二列，来自TMKGE实施例与KGE-LDA两者的主题词语与计算机相关。然而，应注意，来自TMKGE实施例的词语较关注计算机科学的核心词语。相比之下，来自KGE-LDA中的相同主题的词语似乎较接近品牌，例如，Windows、Mac或苹果(Apple)。此外，从TMKGE 实施例发现的主题比KGE-LDA中发现的主题多样。针对20NG，此处列出的三个主题(分别)表示神学、计算机科学和中东，而来自KGE-LDA 的三个主题(分别)表示互联网、计算机和汽车。TMKGE实施例与KGE- LDA两者发现具有来自NIPS数据集的不同热门词语的概率相关且机器学习的主题。大体来说，KGE-LDA发现来自Ohsumed语料库的基因相关主题、癌症相关主题和治疗相关主题。TMKGE实施例发现较多样且较具体的主题。例如，TMKGE发现的一个主题是关于越南老兵主题、癌症相关主题和性病主题。从主题相干性的观点来看，还可见，TMKGE实施例在那些主题的大多数中获得较高PMI得分。整个趋势与在最近一个章节中报告的平均PMI得分一致。总的来说，就平均PMI来说并且还在定性情况研究中，与包含LDA、HDP和KGE-LDA的其它主题模型相比， TMKGE实施例较好地发挥性能。

4.文档分类

根据以下文献中的做法经由文档分类来评估所提议的方法的实施例： Wei Li和Andrew McCallum，“弹球分配：主题相关的DAG结构化混合模型”，关于文档分类的第23次机器学习国际会议(ICML)纪要，2006 年，第577到584页，宾夕法尼亚州匹兹堡市(Wei Liand Andrew McCallum, “Pachinko Allocation:DAG-Structured Mixture Models ofTopic Correlations,” In Proceedings of the 23rd International Conference onMachine learning (ICML)2006,pages 577–584,Pittsburgh,PA)。

对20newsgroup数据集的comp主体以及Ohsumed数据集的前五个最常见标签(未有NIPS数据集的标签)进行五向分类，其中每一类的文档划分为75％训练和25％测试。针对每一类，对训练文档训练LDA、HDP 和TMKGE模型，并且接着使用LDA的变分推理过程中的E步骤来计算测试文档的预测似然。如果文档的对应模型产生最高似然，那么文档被正确分类。

五次重复模拟的TMKGE、HDP和LDA的平均分类准确性呈现在表 3中。此表包含KGE-LDA的分类准确性，其中所学习的主题比例用作支持向量机(SVM)分类器的特征。针对大多数文档类，TMKGE实施例具有最佳分类准确性，除了针对类mac之外。如所表明的是，基于KGE- LDA的SVM分类器具有显著最差的性能。为了进行较全面的比较，对 20newsgroup数据集的所有主体进行试验，并且在表4中提供实验结果。 TMKGE实施例在所有模型上实现最佳性能。可以从所测试的TMKGE实施例的优越性能观察到较少点。首先，似乎将到TMKGE实施例中的未经归一化的知识图嵌入作为比例向量添加到词语向量会提升性能。其次，优于LDA的HDP的选择起重要作用。这可以从KGE-LDA(其比词语袋 (BOW)更差)的低劣性能表示。更值得注意的是，TMKGE实施例相比全部涉及词语嵌入与主题建模的集成的STE-Diff、主题词语嵌入(TWE) 以及主题建模和稀疏自动编码器(TMSA)实现更好的性能。值得注意的是，TMKGE实施例相比现有技术模型(具有高边缘的TMSA)表现出其优势。这表明包含到实体嵌入中的知识图结构相比纯词语嵌入传达较多信息。同时，这还表明通过在线HDP而生成的两个比例向量实现词语与实体之间的信息的灵活分享。因此，提取了较相干的主题，并且也改进了分类结果。

表3：文档分类准确性

表4：文档分类：所有20newsgroup

模型	准确性(％)	模型	准确性(％)
				BOW	79.7	STE-Diff	82.9
Skip-Gram	75.4	LDA	77.5
				TWE	81.5	TMSA	83.5
PV	75.4	HDP	82.4
				GPU-DMM	48.0	KGE-LDA	70.5
STE-Same	80.4	TMKGE	88.79

E.计算系统实施例

在实施例中，本专利文献的方面可以涉及、可以包含一个或更多个信息处置系统/计算系统或可以实施在一个或更多个信息处置系统/计算系统上。计算系统可以包含可操作以运算、计算、确定、分类、处理、发射、接收、检索、发起、导引、交换、存储、显示、传达、表明、检测、记录、再现、处置或利用任何形式的信息、智能或数据的任何手段或手段的结合。例如，计算系统可以是或可以包含个人计算机(例如，膝上型计算机)、平板计算机、平板手机、个人数字助理(PDA)、智能电话、智能手表、智能包、服务器(例如，刀片服务器或机架服务器)、网络存储装置、相机或任何其它适当装置，并且可以改变大小、形状、性能、功能性和价格。计算系统可以包含随机存取存储器(RAM)、例如中央处理单元(CPU) 或硬件或软件控制逻辑等一个或更多个处理资源、ROM和/或其它类型的存储器。计算系统的额外部件可以包含一个或更多个磁盘驱动器、用于与外部装置通信的一个或更多个网络端口以及各种输入和输出(I/O)装置，例如，键盘、鼠标、触摸屏和/或视频显示器。计算系统还可以包含可操作以在各种硬件部件之间传输通信的一个或更多个总线。

图7是根据本公开的实施例的计算装置/信息处置系统(或计算系统) 的简化框图。应注意，针对系统700而示出的功能性可以操作以支持系统的各种实施例，但应理解，计算系统可以不同地配置并包含不同部件，包含具有更少或更多的如图7所描绘的部件。

如图7所描绘，计算系统700包含提供计算资源并控制计算机的一个或更多个中央处理单元(CPU)701。CPU 701可以用微处理器等来实施，并且还可以包含一个或更多个图形处理单元(GPU)719和/或用于数学计算的浮点协处理器。系统700还可以包含系统存储器702，其中系统存储器702可以呈随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

还可以设置数个控制器和周边装置，如图7所示。输入控制器703表示例如键盘、鼠标、触摸屏和/或触笔等各种输入装置704的接口。计算系统700还可以包含用于与一个或更多个存储装置708介接的存储控制器707，其中存储装置708中的每一个包含存储介质，例如，可以用于记录操作系统、实用工具和应用程序的指令程序的磁带或磁盘或光学介质，这些指令程序可以包含实施本公开的各种方面的程序的实施例。根据本公开，存储装置708还可以用于存储所处理的数据或将处理的数据。系统700还可以包含用于提供显示装置711的接口的显示控制器709，其中显示装置711可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子体面板或其它类型的显示器。计算系统700还可以包含一个或更多个周边装置706的一个或更多个控制器或接口705。周边装置的示例可以包含一个或更多个打印机、扫描仪、输入装置、输出装置、传感器等。通信控制器714可以与一个或更多个通信装置715介接，这使系统700能够经由各种网络中的任一个(包含互联网、云资源(例如，以太网云、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN)) 或经由任何适当电磁载波信号(包含红外线信号)而连接到远程装置。

在所图示的系统中，所有主要系统部件可以连接到总线716，其中总线716可以表示一个以上物理总线。然而，各种系统部件可以相互物理接近或可以并不相互物理接近。例如，输入数据和/或输出数据可以从一个物理位置远程传输到另一物理位置。此外，可以在网络上从远程位置 (例如，服务器)访问实施本公开的各种方面的程序。这些数据和/或程序可以经由各种机器可读介质中的任一个来传达，其中这些机器可读介质包含(但不限于)：磁性介质，例如，硬盘、软盘和磁带；光学介质，例如，CD-ROM和全息装置；磁光介质；以及被专门配置成存储程序代码或存储并执行程序代码的硬件装置，例如，专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪速存储器装置以及ROM和RAM装置。

本公开的方面可以通过指令而编码在一个或更多个非暂时性计算机可读介质上以供一个或更多个处理器或处理单元导致步骤被执行。应注意，一个或更多个非暂时性计算机可读介质应包含易失性存储器和非易失性存储器。应注意，替代实施方案是可能的，包含硬件实施方案或软件 /硬件实施方案。硬件实施功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的“构件”项目希望涵盖软件实施方案与硬件实施方案两者。类似地，如本文所使用，术语“计算机可读介质”包含上面体现有指令程序的软件和/或硬件，或其组合。谨记这些实施替代方案，应理解，附图和随附描述提供本领域的技术人员将需要以撰写程序代码(即，软件)和/或制造执行所需的处理的电路(即，硬件) 的功能信息。

应注意，本公开的实施例还可以涉及具有非暂时性有形计算机可读介质的计算机产品，其中计算机产品上具有用于执行各种计算机实施运算的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设计和构造的介质和计算机代码，或者它们可以是相关领域的技术人员所知或可用的种类。有形计算机可读介质的示例包含(但不限于)：磁性介质，例如，硬盘、软盘和磁带；光学介质，例如，CD-ROM和全息装置；磁光介质；以及被专门配置成存储程序代码或存储并执行程序代码的硬件装置，例如，专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪速存储器装置以及ROM和RAM装置。计算机代码的示例包含例如由编译器产生的计算机代码以及由计算机使用解译器执行的含有高阶代码的文件。本公开的实施例可以整体或部分实施为可以处于由处理装置执行的程序模块中的机器可执行指令。计算机程序的示例包含库、程序、例程、对象、部件和数据结构。在分散式计算环境中，程序模块可以物理上位于远程、本地或两者的场所中。

本领域的技术人员将认识到，没有哪个计算系统或编程语言对本公开的实践是关键的。本领域的技术人员还将认识到，上文所述的许多元件可以在物理上和/或功能上分离为子模块或组合在一起。

F.一些总结

本文中呈现的是带有知识图嵌入的主题建模(TMKGE)模型的实施例。TMKGE模型是用于将来自外部知识图的实体嵌入并入到主题建模中的基于分层狄里克雷过程的贝叶斯非参数模型。实施例允许文档与知识图之间的信息的灵活共享。具体来说，TMKGE实施例避免将词语和实体迫使到相同潜在因子，因此使其成为适用于仅部分相关信息可用的情形的框架。

此外，作为贝叶斯非参数模型，TMKGE实施例自动从数据学习词语主题和实体混合分量的数量。

并且，针对TMKGE模型开发了基于HDP的断棍构造的新颖、有效且可调整的在线变分推理方法的实施例，从而使TMKGE适用于大型文档语料库和KG。

对不同数据集的综合实验表示TMKGE模型在主题相干性和文档分类准确性方面显著优于现有技术主题建模方法。

本领域的技术人员应了解，前述示例和实施例是示范性的，并且不限于本公开的范围。希望本领域的技术人员在阅读说明书并研究附图后清楚的本公开的所有排列、增强、等同物、组合和改进包含在本公开的真实精神和范围内。还应注意，任何权利要求的元素可以不同地布置，包含具有多个依赖性、配置和组合。

Claims

1.一种用于确定文档语料库的潜在主题的计算机实施方法，所述方法包括：

给定其中每一文档都包括词语和实体的文档语料库：

使用从知识图获得的实体嵌入来表示所述文档语料库中的实体；以及

针对所述文档语料库中的每一文档，生成所述文档中的词语的词语频率表示；以及

将所述实体嵌入和所述词语频率表示用作主题模型的输入以生成所述文档语料库的潜在主题，所述主题模型包括：

语料库级狄里克雷过程，其使用所述词语频率表示和所述实体嵌入以获得共享的基本测度，所述共享的基本测度用作两个文档级狄里克雷过程的先验；

第一文档级狄里克雷过程，其将所述共享的基本测度用作先验以生成词语的潜在主题分布；

第二文档级狄里克雷过程，其将所述共享的基本测度用作先验以生成实体嵌入的潜在主题分布；

词语生成过程，其使用所述词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程；以及

使用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。

2.根据权利要求1所述的计算机实施方法，其中所述语料库级狄里克雷过程的每一原子对应于用于词语与实体两者的一组参数。

3.根据权利要求1所述的计算机实施方法，其中所述主题模型的模型参数是使用在线变分推理方法学习得到的。

4.根据权利要求3所述的计算机实施方法，其中使用在线变分推理方法学习所述主题模型的所述模型参数的步骤包括：

初始化所述主题模型的语料库级变分参数；以及

迭代地执行以下步骤，直到已经满足停止条件为止：

从所述文档语料库对文档随机采样；

更新所述主题模型的文档级变分参数；以及

更新语料库级参数。

5.根据权利要求4所述的计算机实施方法，其中更新所述主题模型的文档级变分参数以及更新语料库级参数的步骤包括以下步骤：

更新所述主题模型的词语相关变分参数；

更新所述主题模型的实体相关变分参数；

使用词语相关变分参数和实体相关变分参数来计算自然梯度；

更新学习速率参数；以及

使用所述自然梯度和所述学习速率参数来更新所述主题模型的语料库级参数。

6.根据权利要求5所述的计算机实施方法，其中，使用来自一批文档的词语相关变分参数和实体相关变分参数来计算所述主题模型的所述自然梯度以提高所述在线变分推理方法的稳定性。

7.根据权利要求1所述的计算机实施方法，还包括以下步骤：

给定一组主题模型参数，使用所述主题模型来生成文档的词语。

8.一种非暂时性计算机可读介质，包括一个或更多个指令序列，所述指令序列在由至少一个处理器执行时使得执行包括以下各者的步骤：

给定其中每一文档都包括词语和实体的文档语料库：

9.根据权利要求8所述的非暂时性计算机可读介质，其中所述语料库级狄里克雷过程的每一原子对应于用于词语与实体两者的一组参数。

10.根据权利要求8所述的非暂时性计算机可读介质，其中所述主题模型的模型参数是使用在线变分推理方法学习得到的。

11.根据权利要求10所述的非暂时性计算机可读介质，其中使用在线变分推理方法以学习所述主题模型的所述模型参数的步骤包括：

初始化所述主题模型的语料库级变分参数；以及

迭代地执行以下步骤，直到已经满足停止条件为止：

从所述文档语料库对文档随机采样；

更新所述主题模型的文档级变分参数；以及

更新语料库级参数。

12.根据权利要求11所述的非暂时性计算机可读介质，其中更新所述主题模型的文档级变分参数以及更新语料库级参数的步骤包括以下步骤：

更新所述主题模型的词语相关变分参数；

更新所述主题模型的实体相关变分参数；

更新学习速率参数；以及

13.根据权利要求12所述的非暂时性计算机可读介质，其中使用来自一批文档的词语相关变分参数和实体相关变分参数来计算所述主题模型的所述自然梯度以提高所述在线变分推理方法的稳定性。

14.根据权利要求8所述的非暂时性计算机可读介质，还包括在由至少一个处理器执行时使得执行包括以下步骤的一个或更多个指令序列：

15.一种计算系统，包括：

至少一个处理器；以及

一个或多个非暂时性计算机可读介质，包括一个或更多个指令序列，所述指令序列在由一个或更多个处理器中的至少一个执行时使得包括以下各者的步骤被执行：

给定其中每一文档都包括词语和实体的文档语料库：

语料库级狄里克雷过程，其使用所述词语频率表示和所述实体嵌入以获得共享的基本测度，共享的基本测度用作两个文档级狄里克雷过程的先验；

16.根据权利要求15所述的计算系统，其中所述语料库级狄里克雷过程的每一原子对应于用于词语与实体两者的一组参数。

17.根据权利要求15所述的计算系统，其中所述主题模型的模型参数是使用在线变分推理方法学习得到的。

18.根据权利要求17所述的计算系统，其中使用在线变分推理方法以学习所述主题模型的所述模型参数的步骤包括：

初始化所述主题模型的语料库级变分参数；以及

迭代地执行以下步骤，直到已经满足停止条件为止：

从所述文档语料库对文档随机采样；

更新所述主题模型的文档级变分参数；以及

更新语料库级参数。

19.根据权利要求18所述的计算系统，其中更新所述主题模型的文档级变分参数以及更新语料库级参数的步骤包括以下步骤：

更新所述主题模型的词语相关变分参数；

更新所述主题模型的实体相关变分参数；

更新学习速率参数；以及

20.根据权利要求19所述的计算系统，其中使用来自一批文档的词语相关变分参数和实体相关变分参数来计算所述主题模型的所述自然梯度以提高所述在线变分推理方法的稳定性。