CN112015904A - 确定文档语料库的潜在主题的方法、系统和计算机可读介质 - Google Patents
确定文档语料库的潜在主题的方法、系统和计算机可读介质 Download PDFInfo
- Publication number
- CN112015904A CN112015904A CN201911257756.3A CN201911257756A CN112015904A CN 112015904 A CN112015904 A CN 112015904A CN 201911257756 A CN201911257756 A CN 201911257756A CN 112015904 A CN112015904 A CN 112015904A
- Authority
- CN
- China
- Prior art keywords
- corpus
- topic
- document
- level
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 230000008569 process Effects 0.000 claims abstract description 64
- 238000009826 distribution Methods 0.000 claims description 53
- 238000002156 mixing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 abstract description 14
- 230000001427 coherent effect Effects 0.000 abstract description 7
- 239000000203 mixture Substances 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000000699 topical effect Effects 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013398 bayesian method Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 238000004599 local-density approximation Methods 0.000 description 1
- 239000004579 marble Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了确定文档语料库的潜在主题的方法、系统和计算机可读介质。利用领域知识是用于通过主题模型来提高推理出的文档的低维表示的质量的有效策略。本文中提供了在用于提取较相干的主题的主题建模的上下文中使用知识图(KG)嵌入的贝叶斯非参数模型的实施例;该模型的实施例可以被称为带有知识图嵌入的主题建模(TMKGE)。TMKGE实施例是从KG灵活借用信息以提高主题的可解译性的基于分层狄里克雷过程(HDP)的模型。并且,针对TMKGE模型开发了基于HDP的断棍构造的新颖、有效的在线变分推理方法的实施例,从而使TMKGE适用于大型文档语料库和KG。对数据集的实验说明了TMKGE相比现有技术的主题建模方法在主题相干性和文档分类准确性方面具有优良性能。
Description
技术领域
本公开总的来说涉及用于可以提供改进的计算机性能、特征和使 用的计算机学习的系统和方法。更具体地说,本公开涉及实现高计算 强度和快速推理的高效神经网络体系结构的实施例。
背景技术
例如概率潜在语义分析(PLSA)和潜在狄里克雷分配(LDA)等主 题模型可以对帮助机器解译文本文档起重要作用。主题模型将文档视为 词语袋。给定词语信息,主题模型试图将文档看作潜在主题的混合,其中 这些主题经由在词语上的分布而生成。贝叶斯方法已经用于从文本语料 库的文档词语频率表示来提取主题结构。然而,在没有监管的情况下,已 经发现从这些模型生成的主题通常并不是可解译的。在当前研究中,将不 同形式的知识合并为监管已经成为用于发现有意义的主题的强有力的策 略。
最常规的做法是将先验领域知识纳入考量以提高主题相干性。一种 常用领域知识基于词语相关性。例如,由领域专家生成词语之间的“必须 链接(must-link)”和“无法链接(cannot-link)”以帮助主题建模。用于 主题发现的另一有用形式的知识基于词语语义。具体地说,词语嵌入用作 语义规则性以增强主题模型,其中在词语嵌入中,词语袋变换为向量表示, 以使得上下文嵌入到那些词语向量中。
知识图(KG)嵌入学习实体和关系的低维连续向量空间,以保留KG 的固有结构。一些所提议的KGE-LDA将KG的嵌入并入到主题模型中 以提取文档的更好的主题表示,并表现出一些不俗性能。然而,KGE-LDA 迫使词语和实体具有相同的潜在表示,这特别在仅部分KG可用的情形 下是阻碍主题模型恢复数据的正确的基础潜在结构的相当限制性的假设。
因此,需要用于主题建模的改进的系统和方法。
发明内容
本公开旨在提供用于主题建模的改进的系统和方法。
根据一个方面,公开了一种用于确定文档语料库的潜在主题的计算 机实施方法,所述方法包括:给定其中每一文档都包括词语和实体的文档 语料库:使用从知识图获得的实体嵌入来表示所述文档语料库中的实体; 以及针对所述文档语料库中的每一文档,生成所述文档中的词语的词语 频率表示;以及将所述实体嵌入和所述词语频率表示用作主题模型的输 入以生成所述文档语料库的潜在主题,所述主题模型包括:语料库级狄里 克雷过程,其使用所述词语频率表示和所述实体嵌入以获得共享的基本 测度,所述共享的基本测度用作两个文档级狄里克雷过程的先验;第一文 档级狄里克雷过程,其将所述共享的基本测度用作先验以生成词语的潜 在主题分布;第二文档级狄里克雷过程,其将所述共享的基本测度用作先 验以生成实体嵌入的潜在主题分布;词语生成过程,其使用所述词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程;以及使 用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。
根据另一方面,公开了一种非暂时性计算机可读介质,包括一个或 更多个指令序列,所述指令序列在由至少一个处理器执行时使得执行 包括以下各者的步骤:给定其中每一文档都包括词语和实体的文档语 料库:使用从知识图获得的实体嵌入来表示所述文档语料库中的实体; 以及针对所述文档语料库中的每一文档,生成所述文档中的词语的词语频率表示;以及将所述实体嵌入和所述词语频率表示用作主题模型 的输入以生成所述文档语料库的潜在主题,所述主题模型包括:语料 库级狄里克雷过程,其使用所述词语频率表示和所述实体嵌入以获得 共享的基本测度,所述共享的基本测度用作两个文档级狄里克雷过程 的先验;第一文档级狄里克雷过程,其将所述共享的基本测度用作先 验以生成词语的潜在主题分布;第二文档级狄里克雷过程,其将所述 共享的基本测度用作先验以生成实体嵌入的潜在主题分布;词语生成 过程,其使用所述词语的潜在主题分布以及将潜在主题指派给词语的 词语级狄里克雷过程;以及使用实体混合的主题分布以及将潜在主题 指派给实体嵌入的分布。
根据又一方面,公开了一种计算系统,包括:至少一个处理器;以 及一个或多个非暂时性计算机可读介质,包括一个或更多个指令序列, 所述指令序列在由一个或更多个处理器中的至少一个执行时使得包括 以下各者的步骤被执行:给定其中每一文档都包括词语和实体的文档 语料库:使用从知识图获得的实体嵌入来表示所述文档语料库中的实体;以及针对所述文档语料库中的每一文档,生成所述文档中的词语 的词语频率表示;以及将所述实体嵌入和所述词语频率表示用作主题 模型的输入以生成所述文档语料库的潜在主题,所述主题模型包括: 语料库级狄里克雷过程,其使用所述词语频率表示和所述实体嵌入以 获得共享的基本测度,共享的基本测度用作两个文档级狄里克雷过程 的先验;第一文档级狄里克雷过程,其将所述共享的基本测度用作先 验以生成词语的潜在主题分布;第二文档级狄里克雷过程,其将所述 共享的基本测度用作先验以生成实体嵌入的潜在主题分布;词语生成 过程,其使用所述词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程;以及使用实体混合的主题分布以及将潜在主题 指派给实体嵌入的分布。
附图说明
将参照本公开的实施例,其示例可以图示在附图中。这些图旨在进行 说明,而不是限制性的。虽然大体上在这些实施例的上下文中描述本公开, 但应理解,本公开的范围并不限于这些特定实施例。图中的项目可以并未 按比例绘制。
图1用图形描绘根据本公开的实施例的带有知识图嵌入的主题建模 (TMKGE)模型的概述。在一个或更多个实施例中,TMKGE模型可以 使用具有自然梯度的在线随机优化来训练以用于变分推理。
图2用图形表示根据本公开的实施例的TMKGE框架,其中TMKGE 框架包含两个分量——词语一个(下方分量)以及实体一个(上方分量), 这两个分量都将狄里克雷过程作为先验。
图3描绘根据本公开的实施例的用于确定文档语料库的潜在主题的 方法。
图4描绘根据本公开的实施例的TMKGE框架的变分推理。
图5描绘根据本公开的实施例的用于更新文档级变分参数并更新语 料库级参数的方法。
图6描绘根据本公开的实施例的表2,其中表2示出了示例主题以及 由TMKGE模型实施例和另两个模型从三个语料库学习的逐点互信息 (PMI)主题相干性度量得分。
图7是根据本文献的实施例的计算装置/信息处置系统的简化框图。
具体实施方式
在下文描述中,出于解释的目的,阐述了具体细节以便理解本公开。 然而,对于本领域的技术人员来说将清楚的是,可以在没有这些细节的情 况下实践本公开。此外,本领域的技术人员应认识到,下文所述的本公开 的实施例可以按各种方式(例如,过程、设备、系统、装置或有形计算机 可读介质上的方法)来实施。
图中所示的部件或模块图示了本公开的示范性实施例,并且希望避 免混淆本公开。还应理解,在本论述全文中,部件可以被描述为可以包括 子单元的独立功能单元,但本领域的技术人员应认识到,各种部件或其部 分可以被划分为独立部件或可以集成在一起,包含集成在单个系统或部 件内。应注意,本文所述的功能或操作可以实施为部件。部件可以实施为 软件、硬件或其组合。
此外,图内的部件或系统之间的连接不限于直接连接。实际上,这些 部件之间的数据可以由中间部件修改、重新格式化或按其它方式改变。并 且,可以使用额外连接或更少连接。还应注意,术语“耦接”、“连接”或 “通信地耦接”应被理解为包含直接连接、经由一个或更多个中间装置进 行的间接连接和无线连接。
在本说明书中对“一个实施例”、“优选实施例”或“实施例”的引用 意味结合实施例描述的特定特征、结构、特性或功能包含在本公开的至少 一个实施例中并且可以包含在一个以上实施例中。并且,上述用语在本说 明书中各种位置中的出现未必全部表示同一实施例或相同实施例。
某些术语在本说明书中各种位置中的使用是说明性的,并且不应解 释为限制性的。服务、功能或资源不限于单个服务、功能或资源;这些术 语的使用可以表示可以分散或聚集的相关服务、功能或资源的分组。
术语“包含”和“包括”应被理解为开放性术语,并且之后的任何列 表是示例并且不希望限于所列举的项目。本文所使用的任何标题仅出于 组织的目的,并且不应用于限制本说明书或权利要求书的范围。本专利文 献中所述的每一参考文献的全部内容以引用方式并入本文中。
此外,本领域的技术人员应认识到:(1)某些步骤可以可选地执行; (2)步骤可以不限于本文所阐述的具体次序;(3)可以按不同次序执行 某些步骤;并且(4)可以同时执行某些步骤。
应注意,本文中所提供的任何实验和结果是示例性地提供,并且是使 用一个或多个具体实施例在具体条件下执行的;因此,这些实验及其结果 都不应用于限制本专利文献的公开内容的范围。
A.引言
本文呈现的是带有知识图嵌入的主题建模(TMKGE)的实施例,这 些实施例是通过利用KG结构而提取更相干的主题的基于分层狄里克雷 过程(HDP)的模型。不同于KGE-LDA,TMKGE实施例通过在一个或 更多个实施例中使用将词语建模的多项式分布以及将实体建模的多元高 斯混合而实现词语与实体之间的更灵活的信息共享。在一个或更多个实 施例中,使用两个比例向量——词语一个以及实体一个。相比之下,KGE- LDA仅使用一个比例向量,这一个比例向量由词语与实体两者共享。 TMKGE实施例包含语料库级与文档级两者下的狄里克雷过程(DP)的 集合。语料库级DP的原子形成词语和实体的文档级DP的基本测度。因 此,语料库级DP的原子可以表示词语主题、实体混合分量(例如,实体 嵌入)或两者。图1用图形描绘了带有知识图嵌入的主题建模(TMKGE) 流程的概述,其中分别从语料库105和一个或多个知识图110提取的两 个输入源(词语袋125和知识图(KG)嵌入130)用于获得潜在主题。 如图1所图示,实体120由文档105与知识图110两者共享。可以由 TransE(知识图嵌入包)生成的实体嵌入130被传递到TMKGE实施例以 生成隐藏式主题135。使用通过将多关系数据(例如,知识图)中的关系 解译为对实体的低维嵌入运算的关系而将这些关系建模的方法将关系信 息并入在TMKGE实施例的实体表示中。
作为非参数模型,TMKGE实施例不采用固定数量的主题或实体混合 分量作为约束。而是它们自动从数据学习主题和实体混合分量的数量。此 外,基于HDP的Sethuraman断棍(stick-breaking)构造而开发出高效的 在线变分推理算法。在一个或更多个实施例中,以微型批次(minibatch) 方式构造断棍推理以导出TMKGE实施例的更有效且可缩放的坐标重音 变分推理。
本公开的一些贡献包含以下各者。首先,TMKGE实施例是通过利用 知识图结构而提取更相干的主题的贝叶斯非参数模型。第二,引入了两个 比例向量以实现词语与实体之间的更灵活的信息共享。第三,经由在线变 分推理而导出了高效且可缩放的参数估计算法。最终,根据经验而演示了 TMKGE实施例对主题发现和文档分类的有效性。
B.相关研究
潜在狄里克雷分配(LDA)是通过使用狄里克雷先验以将主题分布规 则化而从文档和词语学习潜在主题的流行的概率模型。然而,来自LDA 模型的所生成的主题通常并不是可解译的,这部分是因为在不使用先验 知识或外部资源的情况下,LDA模型未经监管。
近年来,已经利用先验知识来指导主题建模的过程。例如,已经提议 深度森林(deep forest)LDA(DF-LDA)模型以将词语之间的“必须链接” 和“无法链接”并入到主题建模中。DF-LDA模型的一个弱点在于链接信 息是取决于领域的。之后,引入了一般的基于知识的LDA以利用来自多 个领域的“必须链接”。最近,MetaLDA提议通过针对文档超参数α和词 语超参数β而将不同元信息作为先验并入来改进主题建模。
除了词语相关性之外,词语语义也用作用于主题建模的一种类型的 有用知识。词语嵌入作为词语的低维连续向量被视为词语语义的有效表 示。已经提议潜在特征主题建模(LFTM)以将预先训练的词语嵌入用在 主题建模中。LFTM将词语及其主题的嵌入并入到词语的传统多项式分 布中作为主题建模的概率函数。TopicVec通过将词语及其局部上下文词 语一起组合到词语的常规多项式分布中而扩展了LFTM。TopicVec还学 习主题的嵌入表示。高斯LDA进一步通过考量词语嵌入的连续性质而改 进主题建模。一些人构造了较统一的框架,即,skip-gram主题嵌入(STE), 以解决一词多义的问题。其它人提议了统一框架主题建模和稀疏自动编 码器(Topic Modeling and Sparse Autoencoder,TMSA)以经由互学习机 制而同时改进主题发现和词语嵌入。
一些人已经提议用于从大型知识图(KGE)学习的基于主题的嵌入。 KGE学习实体与关系两者的低维连续向量空间,以保留知识图的固有结 构。贝叶斯方法是通过将实体和关系的嵌入视为主题而引入。此后,其它 人提议了知识图嵌入LDA(KGE-LDA)以将从知识图学习的实体嵌入编 码为LDA,并据称表明知识图嵌入有助于主题发现。
本文中的实施例利用实体嵌入来对用于主题建模的先验知识进行编 码。
C.模型实施例与变分推理实施例
此章节呈现了TMKGE模型实施例和用于学习TMKGE模型参数的 有效在线变分推理的实施例。首先,为了便利起见,提供分层狄里克雷过 程(HDP)的回顾。
1.分层狄里克雷过程(HDP)的预备
基本测度为G0并且集中参数γ0>0的狄里克雷过程(DP)G~DP(γ0, G0)是随机概率测度G在可测量空间上的分布,以使得针对Ω的任何 可测量不交分划(A1,…,AQ),(G(A1),…,G(AQ))~Dir(γ0G0(A1),…, γ0G0(AQ)),其中“Dir”表示狄里克雷分布。
为了处理多个(D个)数据群组而引入的分层狄里克雷过程(HDP) 是一组随机概率测量在上的分布:每一群组d∈{1,2,…,D}一个概 率测度Gd~DP(α0,G0),并且全局概率测度G0~DP(γ0,H),基本测度为 H。
断棍构造表明来自G0和Gd的抽样可以被表达为点质量的加权总和:
特别用于导出闭合形式变分推理的较便利的断棍构造是Sethuraman 构造(在如下文献中:Jayaram Sethuraman.狄里克雷先验的构造性定义.统 计学报,1994,4(2):第639到650页(Jayaram Sethuraman.A constructive definition of Dirichletpriors.Statistica sinica,4(2):639–650,1994)),该构造 如下进行。首先,将全局级DP抽样表示为:
ψdt~G0,π′dt=Beta(1,α0),
已经提议坍缩推理方法作为断棍推理的替代。然而,在一个或更多个 实施例中,考虑到本文所公开的截断狄里克雷过程具有较高的计算效率 并且容易实施,所以使用未坍缩HDP模型。
2.TMKGE模型实施例
图2描绘根据本公开的实施例的带有知识图嵌入的主题建模 (TMKGE)框架200的图形表示。如所描绘的实施例所示,存在两个分 量,下方分量用于词语,并且上方分量用于实体。两个分量将狄里克雷过 程205作为先验来共享。因为实体使用知识图嵌入来表示,所以在一个 或更多个实施例中,每一实体使用高斯先验而生成,而用于词语的分量仍 使用狄里克雷先验而生成。
令D表示语料库中的文档的数量,其中每一文档d∈{1,2,…,D}含 有个词语和个实体。在此专利文献中,上标(w)和(e)分别表 示词语相关参数和实体相关参数。在每一文档d中,第n个词语由wdn表 示,其中每一词语属于大小为V的词汇表,即,wdn∈{1,2,…,V}。此外, 第m个实体的P维嵌入是edm,其中语料库中的独特实体的总数是E。在 一个或更多个实施例中,假设实体嵌入是获自“完整”知识图,并且因此 它们含有独立于语料库的信息。在一个或更多个实施例中,使用TransE (用于知识编码的简单且有效的工具)来计算从文档提取的实体的嵌入, 但是也可使用不同方法来获得从文档提取的实体的嵌入。在一个或更多 个实施例中,TransE的归一化步骤被去除,并且因此输出向量(edm)不 具有单位l2范数。
TMKGE实施例建立在HDP的基础上而用于词语主题和实体混合的 联合建模。在语料库级,词语主题和实体混合对应于狄里克雷过程G0~ DP(γ0,H)205的原子。在文档级,词语主题和实体混合分量是独立的DP 210和215的原子,其中共享的基本测度为G0。在数学上,针对文档d, 我们有
为了简单起见,索引t用于表示词语相关原子与实体相关原子两者, 但它们可以对应于全局DP的不同原子。
在一个或更多个实施例中,映射概率可以由βk更新。
TMKGE实施例实现知识图与文档之间的信息的灵活共享。此共享提 供重要优点,这是因为实际上,仅部分相关信息可用,并且因此严格迫使 主题和实体混合共享分量可以导致模型正确地恢复数据的潜在结构的能 力降低。此外,模型实施例的非参数性质在文档级和语料库级实现词语与 实体两者的原子的数量的自动发现。
在一个或更多个实施例中,语料库DP(G0)的每一原子对应于词语 与实体两者的一组参数。原子k含有主题词语狄里克雷分布φk= (φk1,…,φkV)T 220以及实体高斯混合参数{μk,Λk}225。若给定φk和主题指 派变量,文档d的第n个词语的生成过程230是:
以类似方式,文档d的第m个实体的生成过程235是:
其中μk和Λk是多元高斯分布的均值与精度矩阵。
在一个或更多个实施例中,共轭先验如下强加在词语与实体分量参 数两者上:
φk~Dir(η,…,η),μk~N(m0,(ρ0Ak)-1),
Λk~Wishart(v0,W0).
图3描绘根据本公开的实施例的用于确定文档语料库的潜在主题的 方法。在一个或更多个实施例中,若给定每一文档包括词语和实体的文档 语料库:(1)使用从知识图获得的实体嵌入来表示文档语料库中的实体; 并且(2)针对文档语料库中的每一文档,生成文档中的词语的词语频率 表示(305)。接着,在一个或更多个实施例中,将实体嵌入和词语频率表 示用作主题模型的输入以生成文档语料库的潜在主题(310)。在一个或更 多个实施例中,主题模型包括:语料库级狄里克雷过程,其使用词语频率 表示和实体嵌入以获得共享的基本测度,用作两个文档级狄里克雷过程 的先验;第一文档级狄里克雷过程,其将共享的基本测度用作先验以生成 词语的潜在主题分布;第二文档级狄里克雷过程,其将共享的基本测度用 作先验以生成实体嵌入的潜在主题分布;词语生成过程,其使用词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程;以及使 用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。
应注意,TMKGE实施例可以用作生成模型。例如,在一个或更多个 实施例中,给定一组主题模型参数(即,经训练主题模型),主题模型可 以用于生成一个或多个文档的词语。
3.在线变分推理实施例
在此章节中,公开用于TMKGE模型参数的有效学习的在线变分推 理方法的实施例。在一个或更多个实施例中,使用基于断棍构造的完全分 解的变分分布,并执行在线平均场变分推理。除了主题参数φk和实体混合 参数{μk,Λk}之外,其它感兴趣的参数是语料库级棍比例词语 的文档级棍比例和实体的文档级棍比例词 语的主题指派实体的混合指派以及映射变 量和可以将词语相关参数和实体相关参数分别表示为Θ(w)和Θ(e)。 接着,变分分布分解为:
q(β′,Θ(ω)),Θ(e))=q(β′)qΘ(ω))q(Θ(e))。
针对语料库级棍比例,在一个或更多个实施例中,可以采用β分布:
其中全局原子的数量在K处被截断,因此q(β′K=1)=1。针对词语相 关参数Θ(w),我们有
q(Θ(ω))=q(c(ω))q(z(ω))q(π′(ω))q(φ),
实体相关参数(除高斯混合参数之外)的变分分布具有与上述分布类 似的形式,可以如下来表达:
q(μk)=N(mk,(ρkΛk)-1),q(Λk)=Wishart(vk,Wk).
在标准变分推理理论中,将作为所观察的数据的边缘对数似然的下 界的证据下界(ELBO)最大化以找到真实难解后验的最佳变分近似。若 给定TMKGE的建模框架,可以将ELBO写为:
其中H(·)是变分分布的熵项。通过关于每一变分参数而取得此下界 的导数,可以导出坐标上升更新步骤。
在一个或更多个实施例中,开发了用于处理大型数据集的TMKGE的 在线变分推理。若给定现有语料库级参数,首先,可以将文档d采样,并 接着可以计算其最佳文档级变分参数。针对词语相关变分参数,这些更新 包含:
在一个或更多个实施例中,接着使用这些自然梯度和学习速率参数∈t而更新语料库级参数。例如,针对主题词语分布参数,我们有
在一个或更多个实施例中,使用其中κ∈(0.5,1]并 且τ0>0。在一个或更多个实施例中,为了提高在线变分推理的稳定性, 使用微型批次的文档来计算自然梯度。也就是说,可以将上文(4)中的 单个文档d的贡献替换为微型批次中的文档的贡献的总和,并且将因数 D替换为下文方法1中示出TMKGE的在线变分推理的整个方案 的示例。
方法1:TMKGE框架实施例的在线变分推理实施例:
与方法1相关,图4描绘了根据本公开的实施例的TMKGE框架的 变分推理。在一个或更多个实施例中,通过初始化主题模型的语料库级变 分参数来开始通过变分推理方法的自然梯度进行的在线随机优化(405)。 接着,迭代地执行设定更新步骤,直到已经满足停止条件(例如,一个或 多个停止准则)为止(410)。如图4所图示,迭代步骤包含:从文档语料库随机对文档采样(415);更新主题模型的文档级变分参数(420);以及 更新语料库级参数(425)。
在一个或更多个实施例中,一个或多个准则可以包含以下各者中的 一个或更多个:已经执行数次迭代、设定量的时间已经逝去、连续迭代之 间的一个或更多个参数的差小于更新阈值、在下一迭代中获得显著改变 的概率低于改变阈值;一个或更多个参数的发散;以及已经满足限制。
图5描绘了根据本公开的实施例的用于如图4所论述更新文档级变 分参数并更新语料库级参数的方法。在一个或更多个实施例中,更新文档 级变分参数的步骤可以包括更新主题模型的词语相关变分参数(510)以 及更新主题模型的实体相关变分参数(515)。在一个或更多个实施例中, 使用词语相关变分参数和实体相关变分参数而计算自然梯度(520),并还 可以确定学习速率参数(525)。最终,在一个或更多个实施例中,更新语 料库级参数的步骤包括使用自然梯度和学习速率参数而更新主题模型的 语料库级参数(530)。在一个或更多个实施例中,更新语料库级参数的步 骤包含更新语料库级变分参数。
D.实验结果
应注意,这些实验和结果是通过说明而提供,并且使用一个或多个具 体实施例在具体条件下执行;因此,这些实验及其结果都不应用于限制本 专利文献的公开内容的范围。
在两个实验任务上评估TMKGE实施例,并将其性能与LDA、HDP 和KGE-LDA的性能进行比较。针对LDA和HDP,使用在线变分推理实 施方案。更精确地说,通过如下方式来评估框架实施例:测试它们是否找 到相干且有意义的主题,以及测试它们是否在文档分类中实现良好性能。
对三个流行数据集的实验:20-Newsgroups(20NG)、NIPS以及 Ohsumed语料库。20NG数据集含有均匀归类为20个不同种类的18,846 个文档。
NIPS数据集含有来自NIPS会议的1,740篇论文。Ohsumed语料库 来自MEDLINE数据库。使用1991到1996年的前20,000篇摘要中的 13,929篇独特心血管疾病摘要。集合中的每个文档具有来自23个疾病种 类的一个或更多个相关联的种类。去除属于多个种类的文档,以使得仅属 于一个种类的7,400个文档保留。使用Stanford CoreNLP而将数据集令牌 化,其中Stanford CoreNLP是提供各种自然语言处理(NPL)工具的Java 工具包。在标准预处理(例如,去除停止词语)之后,在20NG数据集中 存在20,881个不同词语,在NIPS数据集中存在14,482个不同词语,并 且在Ohsumed数据集中存在8,446个不同词语。
1.外部知识源
用于实验测试的知识图是Word-Net(George A.Miller(1995). WordNet:英语词汇数据库.美国计算机学会通信,第38卷,第11期:第 39到41页(George A.Miller(1995).WordNet:A Lexical Database for English. Communications of the ACM,Vol.38,No.11:39-41))。WordNet是大型词 汇知识图。WordNet中的实体是表达不同概念的同义词。WordNet中的关 系主要涉及概念语义和词汇关系。使用Word-Net的子集(WN18),其中 WN18介绍在以下文献中:Bordes等人的“知识库的学习结构化嵌入”, 第25次人工智能AAAI会议(AAAI)纪要,2011年,加利福尼亚州旧 金山市(Bordes et al.,“Learning StructuredEmbeddings of Knowledge Bases,” In Proceedings of the Twenty-Fifth AAAIConference on Artificial Intelligence (AAAI),2011,San Francisco,CA)。WN18含有151,442个三元组,具有 40,943个实体和18个关系。在实验中,经令牌化的词语使用自然语言工 具包(NLTK)(Steven Bird和Edward Loper,NLTK:自然语言工具包, ACL 2004互动海报演示会纪要,第31页.计算语言学协会(Steven Bird and Edward Loper,NLTK:TheNatural Language Toolkit,In Proceedings of the ACL 2004 on Interactive posterand demonstration sessions,page 31. Association for ComputationalLinguistics))而与WN18中的实体关联。
2.模型参数
在实验中,针对每一方法,报告基于获得最佳性能的超参数设定的结 果。针对TMKGE和HDP,报告K=300、T=20以及K=100、T=10 情况的结果。分别针对LDA和KGE-LDA,报告K=100和K=30的结 果。在此整个研究中,实体嵌入的维数固定为P=5。针对在线变分推理, 算法运行1000次迭代,其中微型批次大小为100。
3.主题相干性
基于主题相干性而估计所测试的TMKGE实施例的性能。主题相干 性已经表现出相比例如困惑度等其它典型主题模型度量较与人的判断一 致。执行由TMKGE实施例发现的主题的定量分析与定性分析两者,并 且将其性能与LDA、HDP和KGE-LDA的性能比较。
a)定量分析
通过逐点互信息(PMI)主题相干性度量来评估所发现的主题的相干 性。如下实施PMI主题相干性:
其中k表示主题,N表示的k的热门词语的数量,p(wi)是wi在文档 中出现的概率,p(wi,wj)是wi和wj在同一文档中共同出现的概率。较高 PMI得分意味较相干的主题。根据KGE-LDA,4,776,093个维基条目用 于获得主题相干性得分。代替使用固定值N(热门词语的数量,例如,N =5或N=10),N在5到30的范围内变化。已经建议在若干不同基数上 计算主题相干性并取平均值导致实质上较稳定的评估。
表1示出不同方法和数据集的平均主题相干性。可以观察到,针对 三个数据集,所测试的TMKGE实施例在几乎所有热门词语大小中获得 较高主题相干性。在所测试的TMKGE实施例并不排名最高的少许情况 下,仅存在与最高性能结果的极小差异。这表明,知识图嵌入提高所发现 的主题的相干性。此外,针对最热门10个词语,所有三个数据集的主题 相干性高于由KGE-LDA获得的主题相干性。这表明实体嵌入与词语两 者的基于HDP的主题建模相比基于LDA的建模具有不可比拟的优点。
表1:关于具有不同数量的热门词语的三个数据集的所有模型的主题 相干性。较高PMI得分意味较相干的主题。所测试的TMKGE实施例相 比其它方法的改进是显著的。
b)定性分析
提供在图6中的表2示出示例主题与其由KGE-LDA和所测试的 TMKGE模型实施例从三个语料库学习的PMI得分。每一模型的最后一 行是将4,776,093个维基文档用作参考而计算的主题相干性。一些医疗简 短词语:pbl=外周血白细胞、meh=平均红细胞血红蛋白。为了比较, 报告与KGE-LDA论文(Liang Yao、Yin Zhang、Baogang Wei、Zhe Jin、 RuiZhang、Yangyang Zhang和Qinfei Chen,“知识图嵌入到主题建模中 的并入”,第31次人工智能AAAI会议(AAAI)纪要,第3119到3126 页,加利福尼亚州旧金山市(2017年)(LiangYao,Yin Zhang,Baogang Wei, Zhe Jin,Rui Zhang,Yangyang Zhang,and Qinfei Chen,“Incorporating knowledge graph embeddings into topic modeling,”In Proceedingsof the Thirty-First AAAI Conference on Artificial Intelligence(AAAI),pages3119– 3126,San Francisco,CA(2017)))中所列举的主题类似的主题。
可见,TMKGE实施例找到主题中的相当密切相关的词语。例如,针 对20NG的第二列,来自TMKGE实施例与KGE-LDA两者的主题词语 与计算机相关。然而,应注意,来自TMKGE实施例的词语较关注计算 机科学的核心词语。相比之下,来自KGE-LDA中的相同主题的词语似乎 较接近品牌,例如,Windows、Mac或苹果(Apple)。此外,从TMKGE 实施例发现的主题比KGE-LDA中发现的主题多样。针对20NG,此处列 出的三个主题(分别)表示神学、计算机科学和中东,而来自KGE-LDA 的三个主题(分别)表示互联网、计算机和汽车。TMKGE实施例与KGE- LDA两者发现具有来自NIPS数据集的不同热门词语的概率相关且机器 学习的主题。大体来说,KGE-LDA发现来自Ohsumed语料库的基因相 关主题、癌症相关主题和治疗相关主题。TMKGE实施例发现较多样且较 具体的主题。例如,TMKGE发现的一个主题是关于越南老兵主题、癌症 相关主题和性病主题。从主题相干性的观点来看,还可见,TMKGE实施 例在那些主题的大多数中获得较高PMI得分。整个趋势与在最近一个章 节中报告的平均PMI得分一致。总的来说,就平均PMI来说并且还在定 性情况研究中,与包含LDA、HDP和KGE-LDA的其它主题模型相比, TMKGE实施例较好地发挥性能。
4.文档分类
根据以下文献中的做法经由文档分类来评估所提议的方法的实施例: Wei Li和Andrew McCallum,“弹球分配:主题相关的DAG结构化混合 模型”,关于文档分类的第23次机器学习国际会议(ICML)纪要,2006 年,第577到584页,宾夕法尼亚州匹兹堡市(Wei Liand Andrew McCallum, “Pachinko Allocation:DAG-Structured Mixture Models ofTopic Correlations,” In Proceedings of the 23rd International Conference onMachine learning (ICML)2006,pages 577–584,Pittsburgh,PA)。
对20newsgroup数据集的comp主体以及Ohsumed数据集的前五个 最常见标签(未有NIPS数据集的标签)进行五向分类,其中每一类的文 档划分为75%训练和25%测试。针对每一类,对训练文档训练LDA、HDP 和TMKGE模型,并且接着使用LDA的变分推理过程中的E步骤来计算 测试文档的预测似然。如果文档的对应模型产生最高似然,那么文档被正 确分类。
五次重复模拟的TMKGE、HDP和LDA的平均分类准确性呈现在表 3中。此表包含KGE-LDA的分类准确性,其中所学习的主题比例用作支 持向量机(SVM)分类器的特征。针对大多数文档类,TMKGE实施例具 有最佳分类准确性,除了针对类mac之外。如所表明的是,基于KGE- LDA的SVM分类器具有显著最差的性能。为了进行较全面的比较,对 20newsgroup数据集的所有主体进行试验,并且在表4中提供实验结果。 TMKGE实施例在所有模型上实现最佳性能。可以从所测试的TMKGE实 施例的优越性能观察到较少点。首先,似乎将到TMKGE实施例中的未 经归一化的知识图嵌入作为比例向量添加到词语向量会提升性能。其次, 优于LDA的HDP的选择起重要作用。这可以从KGE-LDA(其比词语袋 (BOW)更差)的低劣性能表示。更值得注意的是,TMKGE实施例相比 全部涉及词语嵌入与主题建模的集成的STE-Diff、主题词语嵌入(TWE) 以及主题建模和稀疏自动编码器(TMSA)实现更好的性能。值得注意的是,TMKGE实施例相比现有技术模型(具有高边缘的TMSA)表现出其 优势。这表明包含到实体嵌入中的知识图结构相比纯词语嵌入传达较多 信息。同时,这还表明通过在线HDP而生成的两个比例向量实现词语与 实体之间的信息的灵活分享。因此,提取了较相干的主题,并且也改进了 分类结果。
表3:文档分类准确性
表4:文档分类:所有20newsgroup
模型 | 准确性(%) | 模型 | 准确性(%) |
BOW | 79.7 | STE-Diff | 82.9 |
Skip-Gram | 75.4 | LDA | 77.5 |
TWE | 81.5 | TMSA | 83.5 |
PV | 75.4 | HDP | 82.4 |
GPU-DMM | 48.0 | KGE-LDA | 70.5 |
STE-Same | 80.4 | TMKGE | 88.79 |
E.计算系统实施例
在实施例中,本专利文献的方面可以涉及、可以包含一个或更多个信 息处置系统/计算系统或可以实施在一个或更多个信息处置系统/计算系 统上。计算系统可以包含可操作以运算、计算、确定、分类、处理、发射、 接收、检索、发起、导引、交换、存储、显示、传达、表明、检测、记录、 再现、处置或利用任何形式的信息、智能或数据的任何手段或手段的结合。 例如,计算系统可以是或可以包含个人计算机(例如,膝上型计算机)、 平板计算机、平板手机、个人数字助理(PDA)、智能电话、智能手表、 智能包、服务器(例如,刀片服务器或机架服务器)、网络存储装置、相 机或任何其它适当装置,并且可以改变大小、形状、性能、功能性和价格。 计算系统可以包含随机存取存储器(RAM)、例如中央处理单元(CPU) 或硬件或软件控制逻辑等一个或更多个处理资源、ROM和/或其它类型的 存储器。计算系统的额外部件可以包含一个或更多个磁盘驱动器、用于与 外部装置通信的一个或更多个网络端口以及各种输入和输出(I/O)装置, 例如,键盘、鼠标、触摸屏和/或视频显示器。计算系统还可以包含可操 作以在各种硬件部件之间传输通信的一个或更多个总线。
图7是根据本公开的实施例的计算装置/信息处置系统(或计算系统) 的简化框图。应注意,针对系统700而示出的功能性可以操作以支持系 统的各种实施例,但应理解,计算系统可以不同地配置并包含不同部件, 包含具有更少或更多的如图7所描绘的部件。
如图7所描绘,计算系统700包含提供计算资源并控制计算机的一 个或更多个中央处理单元(CPU)701。CPU 701可以用微处理器等来实 施,并且还可以包含一个或更多个图形处理单元(GPU)719和/或用于数 学计算的浮点协处理器。系统700还可以包含系统存储器702,其中系统 存储器702可以呈随机存取存储器(RAM)、只读存储器(ROM)或两者 的形式。
还可以设置数个控制器和周边装置,如图7所示。输入控制器703表 示例如键盘、鼠标、触摸屏和/或触笔等各种输入装置704的接口。计算 系统700还可以包含用于与一个或更多个存储装置708介接的存储控制 器707,其中存储装置708中的每一个包含存储介质,例如,可以用于记 录操作系统、实用工具和应用程序的指令程序的磁带或磁盘或光学介质, 这些指令程序可以包含实施本公开的各种方面的程序的实施例。根据本 公开,存储装置708还可以用于存储所处理的数据或将处理的数据。系 统700还可以包含用于提供显示装置711的接口的显示控制器709,其中 显示装置711可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有 机发光二极管、电致发光面板、等离子体面板或其它类型的显示器。计算 系统700还可以包含一个或更多个周边装置706的一个或更多个控制器 或接口705。周边装置的示例可以包含一个或更多个打印机、扫描仪、输 入装置、输出装置、传感器等。通信控制器714可以与一个或更多个通信 装置715介接,这使系统700能够经由各种网络中的任一个(包含互联 网、云资源(例如,以太网云、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN)) 或经由任何适当电磁载波信号(包含红外线信号)而连接到远程装置。
在所图示的系统中,所有主要系统部件可以连接到总线716,其中总 线716可以表示一个以上物理总线。然而,各种系统部件可以相互物理 接近或可以并不相互物理接近。例如,输入数据和/或输出数据可以从一 个物理位置远程传输到另一物理位置。此外,可以在网络上从远程位置 (例如,服务器)访问实施本公开的各种方面的程序。这些数据和/或程 序可以经由各种机器可读介质中的任一个来传达,其中这些机器可读介 质包含(但不限于):磁性介质,例如,硬盘、软盘和磁带;光学介质, 例如,CD-ROM和全息装置;磁光介质;以及被专门配置成存储程序代 码或存储并执行程序代码的硬件装置,例如,专用集成电路(ASIC)、可 编程逻辑装置(PLD)、闪速存储器装置以及ROM和RAM装置。
本公开的方面可以通过指令而编码在一个或更多个非暂时性计算机 可读介质上以供一个或更多个处理器或处理单元导致步骤被执行。应注 意,一个或更多个非暂时性计算机可读介质应包含易失性存储器和非易 失性存储器。应注意,替代实施方案是可能的,包含硬件实施方案或软件 /硬件实施方案。硬件实施功能可以使用ASIC、可编程阵列、数字信号处 理电路等来实现。因此,任何权利要求中的“构件”项目希望涵盖软件实 施方案与硬件实施方案两者。类似地,如本文所使用,术语“计算机可读 介质”包含上面体现有指令程序的软件和/或硬件,或其组合。谨记这些 实施替代方案,应理解,附图和随附描述提供本领域的技术人员将需要以 撰写程序代码(即,软件)和/或制造执行所需的处理的电路(即,硬件) 的功能信息。
应注意,本公开的实施例还可以涉及具有非暂时性有形计算机可读 介质的计算机产品,其中计算机产品上具有用于执行各种计算机实施运 算的计算机代码。介质和计算机代码可以是出于本公开的目的而专门设 计和构造的介质和计算机代码,或者它们可以是相关领域的技术人员所 知或可用的种类。有形计算机可读介质的示例包含(但不限于):磁性介 质,例如,硬盘、软盘和磁带;光学介质,例如,CD-ROM和全息装置; 磁光介质;以及被专门配置成存储程序代码或存储并执行程序代码的硬 件装置,例如,专用集成电路(ASIC)、可编程逻辑装置(PLD)、闪速存 储器装置以及ROM和RAM装置。计算机代码的示例包含例如由编译器 产生的计算机代码以及由计算机使用解译器执行的含有高阶代码的文件。 本公开的实施例可以整体或部分实施为可以处于由处理装置执行的程序 模块中的机器可执行指令。计算机程序的示例包含库、程序、例程、对象、 部件和数据结构。在分散式计算环境中,程序模块可以物理上位于远程、 本地或两者的场所中。
本领域的技术人员将认识到,没有哪个计算系统或编程语言对本公 开的实践是关键的。本领域的技术人员还将认识到,上文所述的许多元件 可以在物理上和/或功能上分离为子模块或组合在一起。
F.一些总结
本文中呈现的是带有知识图嵌入的主题建模(TMKGE)模型的实施 例。TMKGE模型是用于将来自外部知识图的实体嵌入并入到主题建模中 的基于分层狄里克雷过程的贝叶斯非参数模型。实施例允许文档与知识 图之间的信息的灵活共享。具体来说,TMKGE实施例避免将词语和实体 迫使到相同潜在因子,因此使其成为适用于仅部分相关信息可用的情形 的框架。
此外,作为贝叶斯非参数模型,TMKGE实施例自动从数据学习词语 主题和实体混合分量的数量。
并且,针对TMKGE模型开发了基于HDP的断棍构造的新颖、有效 且可调整的在线变分推理方法的实施例,从而使TMKGE适用于大型文 档语料库和KG。
对不同数据集的综合实验表示TMKGE模型在主题相干性和文档分 类准确性方面显著优于现有技术主题建模方法。
本领域的技术人员应了解,前述示例和实施例是示范性的,并且不限 于本公开的范围。希望本领域的技术人员在阅读说明书并研究附图后清 楚的本公开的所有排列、增强、等同物、组合和改进包含在本公开的真实 精神和范围内。还应注意,任何权利要求的元素可以不同地布置,包含具 有多个依赖性、配置和组合。
Claims (20)
1.一种用于确定文档语料库的潜在主题的计算机实施方法,所述方法包括:
给定其中每一文档都包括词语和实体的文档语料库:
使用从知识图获得的实体嵌入来表示所述文档语料库中的实体;以及
针对所述文档语料库中的每一文档,生成所述文档中的词语的词语频率表示;以及
将所述实体嵌入和所述词语频率表示用作主题模型的输入以生成所述文档语料库的潜在主题,所述主题模型包括:
语料库级狄里克雷过程,其使用所述词语频率表示和所述实体嵌入以获得共享的基本测度,所述共享的基本测度用作两个文档级狄里克雷过程的先验;
第一文档级狄里克雷过程,其将所述共享的基本测度用作先验以生成词语的潜在主题分布;
第二文档级狄里克雷过程,其将所述共享的基本测度用作先验以生成实体嵌入的潜在主题分布;
词语生成过程,其使用所述词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程;以及
使用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。
2.根据权利要求1所述的计算机实施方法,其中所述语料库级狄里克雷过程的每一原子对应于用于词语与实体两者的一组参数。
3.根据权利要求1所述的计算机实施方法,其中所述主题模型的模型参数是使用在线变分推理方法学习得到的。
4.根据权利要求3所述的计算机实施方法,其中使用在线变分推理方法学习所述主题模型的所述模型参数的步骤包括:
初始化所述主题模型的语料库级变分参数;以及
迭代地执行以下步骤,直到已经满足停止条件为止:
从所述文档语料库对文档随机采样;
更新所述主题模型的文档级变分参数;以及
更新语料库级参数。
5.根据权利要求4所述的计算机实施方法,其中更新所述主题模型的文档级变分参数以及更新语料库级参数的步骤包括以下步骤:
更新所述主题模型的词语相关变分参数;
更新所述主题模型的实体相关变分参数;
使用词语相关变分参数和实体相关变分参数来计算自然梯度;
更新学习速率参数;以及
使用所述自然梯度和所述学习速率参数来更新所述主题模型的语料库级参数。
6.根据权利要求5所述的计算机实施方法,其中,使用来自一批文档的词语相关变分参数和实体相关变分参数来计算所述主题模型的所述自然梯度以提高所述在线变分推理方法的稳定性。
7.根据权利要求1所述的计算机实施方法,还包括以下步骤:
给定一组主题模型参数,使用所述主题模型来生成文档的词语。
8.一种非暂时性计算机可读介质,包括一个或更多个指令序列,所述指令序列在由至少一个处理器执行时使得执行包括以下各者的步骤:
给定其中每一文档都包括词语和实体的文档语料库:
使用从知识图获得的实体嵌入来表示所述文档语料库中的实体;以及
针对所述文档语料库中的每一文档,生成所述文档中的词语的词语频率表示;以及
将所述实体嵌入和所述词语频率表示用作主题模型的输入以生成所述文档语料库的潜在主题,所述主题模型包括:
语料库级狄里克雷过程,其使用所述词语频率表示和所述实体嵌入以获得共享的基本测度,所述共享的基本测度用作两个文档级狄里克雷过程的先验;
第一文档级狄里克雷过程,其将所述共享的基本测度用作先验以生成词语的潜在主题分布;
第二文档级狄里克雷过程,其将所述共享的基本测度用作先验以生成实体嵌入的潜在主题分布;
词语生成过程,其使用所述词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程;以及
使用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。
9.根据权利要求8所述的非暂时性计算机可读介质,其中所述语料库级狄里克雷过程的每一原子对应于用于词语与实体两者的一组参数。
10.根据权利要求8所述的非暂时性计算机可读介质,其中所述主题模型的模型参数是使用在线变分推理方法学习得到的。
11.根据权利要求10所述的非暂时性计算机可读介质,其中使用在线变分推理方法以学习所述主题模型的所述模型参数的步骤包括:
初始化所述主题模型的语料库级变分参数;以及
迭代地执行以下步骤,直到已经满足停止条件为止:
从所述文档语料库对文档随机采样;
更新所述主题模型的文档级变分参数;以及
更新语料库级参数。
12.根据权利要求11所述的非暂时性计算机可读介质,其中更新所述主题模型的文档级变分参数以及更新语料库级参数的步骤包括以下步骤:
更新所述主题模型的词语相关变分参数;
更新所述主题模型的实体相关变分参数;
使用词语相关变分参数和实体相关变分参数来计算自然梯度;
更新学习速率参数;以及
使用所述自然梯度和所述学习速率参数来更新所述主题模型的语料库级参数。
13.根据权利要求12所述的非暂时性计算机可读介质,其中使用来自一批文档的词语相关变分参数和实体相关变分参数来计算所述主题模型的所述自然梯度以提高所述在线变分推理方法的稳定性。
14.根据权利要求8所述的非暂时性计算机可读介质,还包括在由至少一个处理器执行时使得执行包括以下步骤的一个或更多个指令序列:
给定一组主题模型参数,使用所述主题模型来生成文档的词语。
15.一种计算系统,包括:
至少一个处理器;以及
一个或多个非暂时性计算机可读介质,包括一个或更多个指令序列,所述指令序列在由一个或更多个处理器中的至少一个执行时使得包括以下各者的步骤被执行:
给定其中每一文档都包括词语和实体的文档语料库:
使用从知识图获得的实体嵌入来表示所述文档语料库中的实体;以及
针对所述文档语料库中的每一文档,生成所述文档中的词语的词语频率表示;以及
将所述实体嵌入和所述词语频率表示用作主题模型的输入以生成所述文档语料库的潜在主题,所述主题模型包括:
语料库级狄里克雷过程,其使用所述词语频率表示和所述实体嵌入以获得共享的基本测度,共享的基本测度用作两个文档级狄里克雷过程的先验;
第一文档级狄里克雷过程,其将所述共享的基本测度用作先验以生成词语的潜在主题分布;
第二文档级狄里克雷过程,其将所述共享的基本测度用作先验以生成实体嵌入的潜在主题分布;
词语生成过程,其使用所述词语的潜在主题分布以及将潜在主题指派给词语的词语级狄里克雷过程;以及
使用实体混合的主题分布以及将潜在主题指派给实体嵌入的分布。
16.根据权利要求15所述的计算系统,其中所述语料库级狄里克雷过程的每一原子对应于用于词语与实体两者的一组参数。
17.根据权利要求15所述的计算系统,其中所述主题模型的模型参数是使用在线变分推理方法学习得到的。
18.根据权利要求17所述的计算系统,其中使用在线变分推理方法以学习所述主题模型的所述模型参数的步骤包括:
初始化所述主题模型的语料库级变分参数;以及
迭代地执行以下步骤,直到已经满足停止条件为止:
从所述文档语料库对文档随机采样;
更新所述主题模型的文档级变分参数;以及
更新语料库级参数。
19.根据权利要求18所述的计算系统,其中更新所述主题模型的文档级变分参数以及更新语料库级参数的步骤包括以下步骤:
更新所述主题模型的词语相关变分参数;
更新所述主题模型的实体相关变分参数;
使用词语相关变分参数和实体相关变分参数来计算自然梯度;
更新学习速率参数;以及
使用所述自然梯度和所述学习速率参数来更新所述主题模型的语料库级参数。
20.根据权利要求19所述的计算系统,其中使用来自一批文档的词语相关变分参数和实体相关变分参数来计算所述主题模型的所述自然梯度以提高所述在线变分推理方法的稳定性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/427,225 | 2019-05-30 | ||
US16/427,225 US11636355B2 (en) | 2019-05-30 | 2019-05-30 | Integration of knowledge graph embedding into topic modeling with hierarchical Dirichlet process |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112015904A true CN112015904A (zh) | 2020-12-01 |
CN112015904B CN112015904B (zh) | 2024-06-25 |
Family
ID=73506454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911257756.3A Active CN112015904B (zh) | 2019-05-30 | 2019-12-10 | 确定文档语料库的潜在主题的方法、系统和计算机可读介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11636355B2 (zh) |
CN (1) | CN112015904B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032585A (zh) * | 2021-05-31 | 2021-06-25 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于文档结构和外部知识的文档级实体关系抽取方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051932B (zh) * | 2021-04-06 | 2023-11-03 | 合肥工业大学 | 语义和知识扩展主题模型的网络媒体事件的类别检测方法 |
US11748063B2 (en) * | 2021-12-30 | 2023-09-05 | Kyndryl, Inc. | Intelligent user centric design platform |
CN114913951A (zh) * | 2022-05-14 | 2022-08-16 | 云知声智能科技股份有限公司 | 一种病历不一致检测方法、系统、设备及存储介质 |
US11941038B2 (en) | 2022-05-19 | 2024-03-26 | International Business Machines Corporation | Transparent and controllable topic modeling |
CN116415593B (zh) * | 2023-02-28 | 2023-10-31 | 北京市农林科学院 | 一种研究前沿识别方法、系统、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120095952A1 (en) * | 2010-10-19 | 2012-04-19 | Xerox Corporation | Collapsed gibbs sampler for sparse topic models and discrete matrix factorization |
CN106844416A (zh) * | 2016-11-17 | 2017-06-13 | 中国科学院计算技术研究所 | 一种子话题挖掘方法 |
US20190057310A1 (en) * | 2017-08-16 | 2019-02-21 | Royal Bank Of Canada | Expert knowledge platform |
US20190114319A1 (en) * | 2017-10-17 | 2019-04-18 | Oracle International Corporation | Streaming latent dirichlet allocation |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645298B2 (en) * | 2010-10-26 | 2014-02-04 | Microsoft Corporation | Topic models |
JP6284643B2 (ja) * | 2013-12-02 | 2018-02-28 | キューベース リミテッド ライアビリティ カンパニー | 非構造化テキストにおける特徴の曖昧性除去方法 |
US9922032B2 (en) * | 2013-12-02 | 2018-03-20 | Qbase, LLC | Featured co-occurrence knowledge base from a corpus of documents |
US9575952B2 (en) * | 2014-10-21 | 2017-02-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
US10289957B2 (en) * | 2014-12-30 | 2019-05-14 | Excalibur Ip, Llc | Method and system for entity linking |
US10482119B2 (en) * | 2015-09-14 | 2019-11-19 | Conduent Business Services, Llc | System and method for classification of microblog posts based on identification of topics |
US11188830B2 (en) * | 2016-03-01 | 2021-11-30 | Verizon Media Inc. | Method and system for user profiling for content recommendation |
US20180082194A1 (en) * | 2016-09-21 | 2018-03-22 | International Business Machines Corporation | Collective matrix factorization for multi-relational learning |
US20180232648A1 (en) * | 2017-02-14 | 2018-08-16 | Cognitive Scale, Inc. | Navigating a Hierarchical Abstraction of Topics via an Augmented Gamma Belief Network Operation |
-
2019
- 2019-05-30 US US16/427,225 patent/US11636355B2/en active Active
- 2019-12-10 CN CN201911257756.3A patent/CN112015904B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120095952A1 (en) * | 2010-10-19 | 2012-04-19 | Xerox Corporation | Collapsed gibbs sampler for sparse topic models and discrete matrix factorization |
CN106844416A (zh) * | 2016-11-17 | 2017-06-13 | 中国科学院计算技术研究所 | 一种子话题挖掘方法 |
US20190057310A1 (en) * | 2017-08-16 | 2019-02-21 | Royal Bank Of Canada | Expert knowledge platform |
US20190114319A1 (en) * | 2017-10-17 | 2019-04-18 | Oracle International Corporation | Streaming latent dirichlet allocation |
Non-Patent Citations (2)
Title |
---|
WANG CHONG等: "Online Variational Inference for the Hierarchical Dirichlet Process", AISTATS, vol. 15, no. 15, pages 752 - 760 * |
YAO LIANG等: "Incorporating Knowledge Graph Embeddings into Topic Modeling", COLLEGE OF COMPUTER SCIENCE AND TECHNOLOGY, vol. 17, no. 17, pages 3119 - 3126 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032585A (zh) * | 2021-05-31 | 2021-06-25 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于文档结构和外部知识的文档级实体关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200380385A1 (en) | 2020-12-03 |
US11636355B2 (en) | 2023-04-25 |
CN112015904B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112015904B (zh) | 确定文档语料库的潜在主题的方法、系统和计算机可读介质 | |
Ming et al. | Rulematrix: Visualizing and understanding classifiers with rules | |
Zhao et al. | A heuristic approach to determine an appropriate number of topics in topic modeling | |
Hashimoto et al. | Topic detection using paragraph vectors to support active learning in systematic reviews | |
Kenyon-Dean et al. | Resolving event coreference with supervised representation learning and clustering-oriented regularization | |
Campos et al. | Biomedical named entity recognition: a survey of machine-learning tools | |
US10949456B2 (en) | Method and system for mapping text phrases to a taxonomy | |
Klami et al. | Bayesian Canonical correlation analysis. | |
US11651841B2 (en) | Drug compound identification for target tissue cells | |
Quispe et al. | Using virtual edges to improve the discriminability of co-occurrence text networks | |
WO2019208070A1 (ja) | 質問応答装置、質問応答方法及びプログラム | |
Nagarajan et al. | Predicting future scientific discoveries based on a networked analysis of the past literature | |
CN108509427B (zh) | 文本数据的数据处理方法及应用 | |
Li et al. | Integration of knowledge graph embedding into topic modeling with hierarchical dirichlet process | |
Flores et al. | Active learning for biomedical text classification based on automatically generated regular expressions | |
Choi et al. | Identifying disease-gene associations using a convolutional neural network-based model by embedding a biological knowledge graph with entity descriptions | |
Geng et al. | A model-free Bayesian classifier | |
CN112349410A (zh) | 用于科室分诊的分诊模型的训练方法、分诊方法和系统 | |
Strobl et al. | Identifying patient-specific root causes of disease | |
Yang et al. | A heuristic sampling method for maintaining the probability distribution | |
Yang et al. | Learning with dual heterogeneity: A nonparametric bayes model | |
Shi et al. | A vector representation of dna sequences using locality sensitive hashing | |
Gunawardena et al. | DCCNMF: Deep Complementary and Consensus Non-negative Matrix Factorization for multi-view clustering | |
Zhang et al. | Markov mixed membership models | |
Brouwer et al. | Prior and likelihood choices for Bayesian matrix factorisation on small datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |