CN108681544A

CN108681544A - 一种基于图谱拓扑结构和实体文本描述的深度学习方法

Info

Publication number: CN108681544A
Application number: CN201810187010.9A
Authority: CN
Inventors: 卓汉逵; 荣二虎
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2018-10-19

Abstract

本发明提供一种基于图谱拓扑结构和实体文本描述的深度学习方法，该方法在解决知识图谱补全问题中，要补全的实体可能已经存在于知识图谱中(需发现)，也可能不在知识图谱中(需生成)。对于需要发现的任务，可视作是封闭环境下的知识图补全问题，模型M1能够很好地“发现”这个实体；对于需要发现的任务，模型M2在注意力机制和循环卷积网络的帮助下，能够充分地发掘文本信息，为“生成”这个实体提供有力保障。这两个子模型的联合，能够解决开放世界知识图谱补全问题。

Description

一种基于图谱拓扑结构和实体文本描述的深度学习方法

技术领域

本发明涉及文本处理算法领域，更具体地，涉及一种基于图谱拓扑结构和实体文本描述的深度学习方法。

背景技术

知识图谱是(Knowledge Graph)当前大数据时代的研究热点，自从2012年 Google推出自己第一版知识图谱以来，它在学术界和工业界掀起了一股热潮。在知识图谱的研究中，知识图谱补全问题(Knowledge Graph Completion)占据了极为重要的位置。知识图谱补全的目标是将现有不完全的知识图谱尽可能地补全，以便丰富知识图谱包含的信息。

目前，关于知识图谱补全的相关技术有：基于众包的知识图补全、基于知识图谱拓扑结构语义深度学习模型、基于关系推理规则的推理模型等。

开放世界知识图谱补全问题(Open-World Knowledge Graph Completion)与封闭世界知识图谱补全问题(Close-World Knowledge Graph Completion)不同的是，它能够将现有知识图谱中不存在的实体加入到知识图谱中来，而非仅限于当前知识图谱中已存在的实体。开放世界知识图谱补全问题可形式化定义如下：给定一个不完备的知识图谱G＝(E,R,T)，其中E，R，T分别为头部实体集、关系集、尾部实体集，开放世界知识图谱补全问题的目标是找到这样的缺失三元组集合其中Eⁱ和Tⁱ分别是E和T的超集。

发明内容

本发明提供一种解决知识图谱补全的能力的基于图谱拓扑结构和实体文本描述的深度学习方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于图谱拓扑结构和实体文本描述的深度学习方法，包括以下步骤：

S1：构建基于图拓扑结构的预测模型M1；

S2：构建基于注意力机制的文本处理模型M2；

S3：通过大量的训练数据训练该模型，得出两个模型内部的参数，将现有的知识图谱结构作为子模型M1输入，相关的文本信息作为子模型M2的输入，分别得到M1的输出和M2的输出；

S4：根据词向量字典查询，即可得出预测实体的名称。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出基于图谱拓扑结构和实体文本描述的深度学习模型方法，该方法在解决知识图谱补全问题中，要补全的实体可能已经存在于知识图谱中(需发现)，也可能不在知识图谱中(需生成)。对于需要发现的任务，可视作是封闭环境下的知识图补全问题，模型M1能够很好地“发现”这个实体；对于需要发现的任务，模型M2在注意力机制和循环卷积网络的帮助下，能够充分地发掘文本信息，为“生成”这个实体提供有力保障。这两个子模型的联合，能够解决开放世界知识图谱补全问题。

附图说明

图1为本发明流程图；

图2为引入注意力机制的权重分配示意图；

图3为模型M2处理三元组补全问题的流程示意图；

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本发明提出了一种基于图谱拓扑结构和实体文本描述的深度学习方法，该方法基于深度学习理论，一方面，在实体文本信息处理上，加入注意力机制，引入循环卷积网络处理文本，能够更加充分地利用了知识图谱中实体的描述文本信息。另一方面，将知识图谱本身的拓扑结构所蕴含的丰富信息挖掘出来，从而提升模型对残缺三元组<h，r，？>或<？，r，t>中“？”预测的准确性，并且随着预测正确的三元组的不断加入，知识图谱的拓扑结构也将变得更加复杂，所能提供的信息也将更加丰富，从而该模型解决知识图谱补全的能力也将更为强大。

总的来讲，该模型分为两个子模型的联合模型：基于图拓扑结构的预测模型 M1和基于注意力机制的文本处理模型M2，如图1所示。M2处理的文本信息包括了实体描述文本、实体名称文本、关系名称文本、词向量字典等信息。

模型构建好以后，通过大量的训练数据训练该模型，得出图1中w1和w2 的值以及两个子模型内部的参数。待新问题来到时，将现有的知识图谱结构作为子模型M1输入，相关的文本信息作为子模型M2的输入，分别得到M1的输出 O₁和M2的输出O₂，此步骤输出皆为一个固定维度的向量，预测实体名称的词向量W由公式：

W＝w₁*N1+w₂*N2+…+w_n*Nn

其中，N1＝W_m11*O₁+W_m21*O₂

N2＝W_m12*O₁+W_m22*O₂

N3＝W_m13*O₁+W_m23*O₂

…

Nn＝W_m1n*O₁+W_m2n*O₂

得出。(其中，w₁，w₂，w_n和W_m11，W_m21等为模型的参数)最后根据词向量字典查询，即可得出预测实体的名称(需要指出的是，这里用到的词向量字典既包含了模型M2输入中的词向量字典，也包含了模型M1训练出来的词向量)

下面，分别介绍子模型M1、M2的实现方案。

首先是子模型M1，该模型的思想可直接借鉴封闭环境假设下的知识图谱补全问题的语义模型，如TransE，HolE等。在TransE模型中，对于头部实体h,关系r，尾部实体t，基于公式：

h+r＝t(2)

利用从知识图谱结构中得到的三元组，训练得到知识图谱中实体和关系的词向量表示，用于预测缺失的三元组。HolE在TranE思想下进行了改进，并在预测准确率上取得了较大的突破。在M1模型的实现上，可以用HolE的方法，对知识图谱中的信息进行处理，得到知识图谱中实体、关系的词向量表示。需注意的是，此部分词向量由知识图谱结构信息训练所得，跟基于语料的词向量如 GlovE等可能才在较大差异。这一步训练所得的词向量与实体的对应关系，应保存成字典形式。

其次，子模型M2实现部分。子模型M2的输入为文本信息，包括：实体名称、关系名称、实体描述文本以及预训练好的词向量字典如GloVe等。M2的实现可以借鉴图1中ConMask的结构，所不同的是，实体描述文本截取部分，不再是简单的截取指示词(Indicator Word)之后的单词，而是以指示词为中心，截取一个大小为k的文本片段。这样可避免指示词出现过早导致的截取片段过长问题以及应对目标词(Target Word)出现在指示词之前的情况。k的大小应设置自然语句的普遍长度为宜。

借用上面的例子<Michelle Obama,Spouse,？>，若设置k＝13，此策略将截取实体“Michelle Obama”的描述文本“Michelle LaVaughn Robinson Obama born January 171964American lawyer writer who First Lady United States married 44thPresident United States,Barack Obama”中的片段为“writer who First Lady UnitedStates married 44th President United States Barack Obama”。

在截取到文本片段后，ConMask模型得到|kc|×200的矩阵(kc为截取文本长度，200为词向量维度)，作为全卷积网络(FCN)的输入。我们的模型不同的是，在得到截取的文本之后，充分考虑单词之于关系、实体重要性之不同以及自然语言词序之间的关系，并且考虑片段中的单词与实体单词的语义距离，引入注意力机制，给截取的文本片段中每个单词赋予不同的权重，引入循环神经网络 (RNN)处理这个带权重的文本片段。

在这一步，赋予权重的策略是：越靠近指示词的单词具有越大的权重。文本片段中，首先，给每个单词赋予的权重为其与指示词词序距离的倒数。之后，度量片段中每个单词跟实体单词的语义距离，找出其中最相似的单词，并以此单词为新的指示词(NewIndicator Word)，再给每个单词赋予的第二个权重，即为其与新指示词词序距离的倒数。最后每个单词取两个权重中较大者最为最终权重。

举例来说，片段“writer who First Lady United States married 44thPresident United States Barack Obama”中，在引入注意力机制后，每个单词对应的权重如图 2所示。

权重分配完毕后，将此带权重的序列作为循环神经网络(RNN)的输入，以提取文本的高层特征表示，经循环神经网络处理后，得到的输出再作为全卷积网络(FCN)的输入，经全卷积网络卷积、池化等操作后，得到模型M2的输出，即为一个预测出的词向量表示。模型M2的整体架构类似于ConMask模型，所不同的是在将截取文本序列输入到全卷积网络前，加入了注意力分配机制并通过循环卷积网络，此举的目的在于利用循环神经网络处理序列文本的强大能力，充分发掘文本中蕴含的信息，提升模型的准确性。

模型M2解决三元组补全问题的流程如图3所示。

总结来说，本发明提出基于图谱拓扑结构和实体文本描述的深度学习模型的原因在于：在解决知识图谱补全问题中，要补全的实体可能已经存在于知识图谱中(需发现)，也可能不在知识图谱中(需生成)。对于需要发现的任务，可视作是封闭环境下的知识图补全问题，模型M1能够很好地“发现”这个实体；对于需要发现的任务，模型M2在注意力机制和循环卷积网络的帮助下，能够充分地发掘文本信息，为“生成”这个实体提供有力保障。这两个子模型的联合，能够解决开放世界知识图谱补全问题。

知识图谱在信息检索、用户兴趣挖掘、智能问答系统等领域有着广泛的应用，知识图谱的质量如何直接影响了这些应用的发展。本发明提出的方案关注知识图谱补全问题，是知识图谱包含信息多少、信息质量的核心问题所在，将为知识图谱在这些领域的应用提供有力的支撑。

目前，许多知名公司如Google、百度等都在建立自己的知识图谱，知识图谱的好坏对于其搜索产品的好坏起到了基础支撑作用，本发明提出的方案操作性强，能够为构建完备的知识图谱提供解决方案。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于图谱拓扑结构和实体文本描述的深度学习方法，其特征在于，包括以下步骤：

S1：构建基于图拓扑结构的预测模型M1；

S2：构建基于注意力机制的文本处理模型M2；

S4：根据词向量字典查询，即可得出预测实体的名称。