CN107391512A

CN107391512A - 知识图谱预测的方法和装置

Info

Publication number: CN107391512A
Application number: CN201610324506.7A
Authority: CN
Inventors: 刘志容; 高升; 何秀强
Original assignee: Huawei Technologies Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications; Huawei Cloud Computing Technologies Co Ltd
Priority date: 2016-05-17
Filing date: 2016-05-17
Publication date: 2017-11-24
Anticipated expiration: 2036-05-17
Also published as: CN107391512B

Abstract

本发明实施例提供了一种知识图谱预测的方法和装置，包括：获取第一实体和第二实体；根据所述第一实体和所述第二实体，建立第一三角子图；根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系。本发明实施例获取第一实体和第二实体，并建立包含该第一实体和第二实体的三角子图，根据该三角子图和嵌入式模型，确定该第一实体和第二实体之间的关系。本发明实施例能够充分利用知识图谱中三角子图在语义层面上的关系类型，获取对象实体相互之间的关联性，从而避免了仅考虑实体对的直接语义相关性导致的数据稀疏的问题。

Description

知识图谱预测的方法和装置

技术领域

本发明涉及计算机领域，更具体的，涉及计算机领域中知识图谱预测的方法和装置。

背景技术

知识图谱旨在描述真实世界中存在的各种实体或概念及其关系，一般用三元组表示，三元组包括左实体、右实体和关系。知识图谱亦可被看作是一张巨大的图，节点表示实体或概念，边则由属性或关系构成。知识图谱除了可以为用户提供查询词相关的链接之外，还赋予了查询词更丰富的语义信息，提供了查询词有关的更准确更直接的答案。

传统的搜索引擎往往只能为用户提供与查询词相关的网页供用户自行挑选。通过利用知识图谱的结构化的实体知识，搜索引擎可以为用户提供更加准确并具有条理的信息，甚至可以通过探索知识图谱中更深层次的信息，让用户发现一些意料之外的知识。知识图谱不仅能够从Freebase和维基百科等知识库中获取专业信息，同时还能够通过分析大规模网页内容抽取知识。目前的大规模知识图谱已经能够构建5亿个实体，建立35亿个属性和相互关系，并在不断高速扩充中。可见基于“知识图谱”的搜索引擎将是未来搜索引擎的发展方向。在未来的一段时间内，知识图谱将是大数据智能的前沿研究问题。

在计算机中如何对知识图谱进行表示与存储，是知识图谱构建与应用的重要课题。最近，伴随着深度学习和表示学习的革命性发展，研究者也开始探索面向知识图谱的表示学习方案。其基本思想是，将知识图谱中的实体和关系的语义信息用低维向量表示。这种表示方法有利于计算实体、关系间的语义相关度，可以极大地改进开放信息抽取中实体融合和关系融合的性能。同时，这种表示方法可以用于关系抽取以及关系推理，从而缓解现有知识图谱的非完备性的问题。因此，知识图谱的表示学习研究是目前知识图谱领域的一个热门研究方向。

面向多关系数据建模的传递性嵌入式(Translating Embeddings forModeling Multi-relational Data，TransE)模型是面向知识图谱补全问题的基于语义传递性的嵌入式模型。其提出的目的是为了将知识图谱中多关系型的实体和关系用低维的向量空间表示。但是，TransE模型在学习实体和关系向量时面临数据稀疏的问题。

发明内容

本发明实施例提供了知识图谱预测的方法和装置，能够缓解知识图谱预测时面临的数据稀疏的问题。

第一方面，本发明实施例提供了一种知识图谱预测的方法，包括：获取第一实体和第二实体，所述第一实体为所述知识图谱中的实体对象之一，所述第二实体为所述知识图谱中的实体对象之一；

根据所述第一实体和所述第二实体，建立第一三角子图，所述第一三角子图包括第一三元组、第二三元组和第三三元组，其中，所述第一三元组包括所述第一实体、所述第二实体和候选关系，所述第二三元组包括所述第一实体、第一共同邻居实体和所述第一实体与所述第一共同邻居实体的第一关系，所述第三三元组包括所述第二实体、所述第一共同邻居实体和所述第二实体与所述第一共同邻居实体的第二关系，所述第一共同邻居实体为所述知识图谱中的实体对象之一，所述第一关系为所述知识图谱中的关系之一，所述第二关系为所述知识图谱中的关系之一，所述候选关系为所述知识图谱中的关系之一；

根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系，所述嵌入式模型包括所述知识图谱中的已知的所有实体对象和所述所有实体对象之间已知的关系。

本发明实施例获取第一实体和第二实体，并建立包含该第一实体和第二实体的三角子图，根据该三角子图和嵌入式模型，确定该第一实体和第二实体之间的关系。本发明实施例能够充分利用知识图谱中三角子图在语义层面上的关系类型，获取对象实体相互之间的关联性，从而避免了仅考虑实体对的直接语义相关性导致的数据稀疏的问题。

可选的，所述根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系，包括：

根据所述嵌入式模型的第一损失函数，确定所述第一三角子图的第一损失值，所述第一损失函数为三角子图与损失值的映射关系；

根据所述第一三角子图的第一损失值，确定所述第一实体和所述第二实体之间的关系。

可选的，所述第一损失函数为三角子图的能量与损失值的映射关系，所述第一三角子图的能量包括所述第一三角子图包括的三个三元组的能量与关系能量的矢量和，其中，所述三个三元组中的每个三元组的能量包括所述每个三元组中的左实体的向量与所述每个三元组中的关系向量之和与所述每个三元组中的右实体的向量之间的距离，所述关系能量包括所述第一三元组中的关系的向量与所述第二三元组中的关系的向量之和与所述第三三元组中的关系的向量之间的距离。

所述第一三角子图为循环子图或非循环子图。例如，三角子图(e_i,R_ij,e_j,R_jk,e_k,R_ki)为循环子图，其能量为：

g(e_i,R_ij,e_j,R_jk,e_k,R_ki)＝f(e_i+R_ij,e_j)+f(e_j+R_jk,e_k)+f(e_k+R_ki,e_i)+h(R_ij+R_jk,-R_ki)，三角子图(e_i,R_ij,e_j,R_jk,e_k,R_ki)为非循环子图，其能量为：

g(e_i,R_ij,e_j,R_jk,e_k,R_ik)＝f(e_i+R_ij,e_j)+f(e_j+R_jk,e_k)+f(e_i+R_ik,e_k)+h(R_ij+R_jk,R_ik)，或者为：

g(e_i,R_ij,e_j,R_kj,e_k,R_ki)＝f(e_i+R_ij,e_j)+f(e_k+R_kj,e_j)+f(e_k+R_ki,e_i)+h(R_ij-R_jk,-R_ki)，或者为：

g(e_i,R_ij,e_j,R_kj,e_k,R_ik)＝f(e_i+R_ij,e_j)+f(e_k+R_kj,e_j)+f(e_i+R_ik,e_k)+h(R_ij-R_jk,R_ki)，

其中，f(x，y)表示x与y之间的距离，f(·)可以表示三角子图中各三元组的左实体向量与关系向量之和与右实体向量之间的距离，h(x，y)表示x与y之间的距离，h(·)表示三角子图中前两个关系向量之和与第三个关系向量之间的距离。

这样，所述根据所述嵌入式模型的第一损失函数，确定所述第一三角子图的第一损失值，包括：

确定所述第一三角子图的能量；

根据第一三角子图的能量和所述第一损失函数，确定所述第一损失值。

这时，该第一三角子图的损失函数L₃为：

L₃＝[γ+g(e_i,R_ij,e_j,R_jk,e_k,R_ik)]₊

可选的，所述根据所述第一实体和所述第二实体，建立第一三角子图之前，所述方法还包括：

从所述知识图谱中获取所述候选关系；

所述根据所述第一三角子图的第一损失值，确定所述第一实体和所述第二实体之间的关系，包括：

若所述第一损失值小于或等于预设值，将所述候选关系作为所述第一实体和所述第二实体之间的关系。

本发明实施例中，获取候选关系可以与获取第一实体和第二实体同时执行，或者在获取第一实体和第二实体之后获取候选关系，本发明对此不作限定。获取候选关系之后，该第一实体、第二实体和候选关系组成待预测的三元组。

当第一损失值大于预设值时，不会将候选关系作为所述第一实体和第二实体之间的关系。本发明实施例中的预设值可以提前配置。

从所述知识图谱中获取至少两个关系；

将所述至少两个关系中的每个关系作为所述候选关系，分别建立与所述至少两个关系一一对应的至少两个第一三角子图；

所述根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系，包括：

确定所述至少两个第一三角子图中的每个第一三角子图的第一损失值；

从所述至少两个第一三角子图的第一损失值中确定最小第一损失值；

将所述最小第一损失值对应的第一三角子图的候选关系作为所述第一实体与所述第二实体之间的关系。

本发明实施例中，该至少两个关系可以是知识图谱中的所有关系。这样，可以将知识图谱中存在的每个关系作为候选关系。对于嵌入式模型中的每个关系，能够得到包含候选关系的第一三角子图，进而计算每个第一三角子图的第一损失函数。这时，也可以设置一个预设值。如过存在多个损失函数小于预设值，可以确定小于预设值的损失函数对应的候选关系均可以为第一实体和第二实体之间的可能的关系。

可选的，所述根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系之前，还包括：

训练所述知识图谱的所述嵌入式模型。

可选的，所述训练所述知识图谱的所述嵌入式模型，包括：

随机初始化所述知识图谱中的所有实体对象和所有关系，其中，所述所有实体对象分别表示为嵌入式向量，所述所有关系分别表示为嵌入式向量；

根据所述知识图谱中的所述所有实体对象和所述所有关系，确定N个三元组，所述N个三元组中的每个三元组包括第三实体、第四实体和所述第三实体与所述第四实体之间的第三关系，其中，所述第三实体属于所述所有实体对象之一，所述第四实体属于所述所有实体对象之一，所述第三关系属于所述所有关系之一；

建立所述每个三元组对应的三角子图，所述每个三元组对应的三角子图包括所述每个三元组、第四三元组和第五三元组，其中，所述第四三元组包括所述第三实体、第二共同邻居实体和所述第三实体与所述第二共同邻居实体之间的第四关系，所述第五三元组包括所述第四实体、所述第二共同邻居实体和所述第四实体之间的第五关系，其中，所述第二共同邻居实体属于所述所有实体对象之一，所述第四关系属于所述所有关系之一，所述第五关系属于所述所有关系之一；

确定正样本集，所述正样本集包括N个正样本，所述N个正样本中的每个正样本包括所述每个三元组对应的三角子图；

确定所述每个正样本对应的负样本，所述每个正样本对应的负样本包括所述每个三元组对应的三角子图对应的负三角子图，所述每个三元组对应的三角子图和所述每个三元组对应的三角子图对应的负三角子图之间的部分实体对象或关系相同；

根据所述正样本集和所述每个正样本对应的负样本，更新所述所有实体对象的嵌入式向量和所述所有关系的嵌入式向量，以训练所述嵌入式模型。

本发明实施例中，负三角子图也包括三个三元组，例如为第六三元组、第七三元组和第八三元组，其中，第六三元组可以是所述每个三元组的负例，和/或第七三元组是第四三元组的负例，和/或第八三元组是第五三元组的负例。

可选的，所述根据所述正样本集和所述每个正样本对应的负样本，更新所述所有实体对象的嵌入式向量和所有关系的嵌入式向量，包括：

确定所述正样本集中的每个正样本的三角子图的能量；

确定所述每个正样本对应的负样本的负三角子图的能量；

根据所述每个正样本的三角子图的能量和所述每个正样本对应的负样本的负三角子图的能量，确定所述每个正样本的第二损失函数；

正样本的损失函数L₁可以为：

L₁＝[γ+g(e_i,R_ij,e_j,R_jk,e_k,R_ik)-g(e_i',R_ij,e_j,R_jk,e_k,R_ik)]₊

根据所述第二损失函数的梯度，更新所述每个正样本中的三角子图中的第三实体的嵌入式向量、第四实体的嵌入式向量和第三关系的嵌入式向量。

这里，确定三角子图和负三角子图的能量与确定第一三角子图的能量的方法相似。

可选的，所述确定所述每个正样本对应的负样本，包括：

随机将所述每个正样本的三角子图中的实体对象替换为所述知识图谱中的另一任意实体对象，将替换后的三角子图作为所述每个正样本对应的负样本；和/或

随机将所述每个正样本的三角子图中的关系替换为所述知识图谱中的另一任意关系，将替换后的三角子图作为所述每个正样本对应的负样本。

可选的，所述随机初始化所述知识图谱中的所有实体对象和所有关系，包括：

根据正太分布生成所述知识图谱中的所述所有实体对象的嵌入式向量和所述所有关系的嵌入式向量。

第二方面，本发明实施例提供了一种知识图谱预测的装置，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法，具体的，该装置包括用于执行上述第一方面或第一方面任意可能的实现方式中的方法的模块。

第三方面，本发明实施例提供了一种知识图谱预测的装置，该装置包括：存储器、处理器、收发器和总线系统。其中，该存储器和该处理器通过该总线系统相连，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，该执行使得该处理器执行第一方面或第一方面的任意可能的实现方式中的方法。

第四方面，本发明实施例提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一个训练嵌入式模型的方法的示意性流程图。

图2中(a)是本发明实施例的一个三角子图的示意性结构图，(b)是另一个三角子图的示意性结构图，(c)是另一个三角子图的示意性结构图，(d)是另一个三角子图的示意性结构图。

图3是本发明实施例的一个知识图谱预测的方法的示意性流程图。

图4是本发明实施例的一个知识图谱的示意性结构图。

图5是本发明实施例的一个知识图谱预测的装置的示意性结构图。

图6是本发明实施例的另一个知识图谱预测的装置的示意性结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

TransE模型将知识图谱中的关系看作低维空间中实体向量之间的一种翻译型的变换。本发明实施例中，三元组可以表示为(h,l,t)，其中，h表示左实体，l表示关系，t表示右实体。通过不断调整每个三元组实例中的左实体、关系和右实体的向量，使左实体向量与关系向量之和尽可能与右实体向量相等，即h+l＝t。

为了训练实体和关系的低维向量，TransE模型定义的损失函数为：

其中，[x]₊代表x的大于零的取值，γ为边界参数，d为L1或L2范数，d用于计算三元组的能量。S为TransE模型的正样本集，正样本集中的正样本可以称为正例。S'为TransE模型的负样本集，负样本集中的负样本可以称为负例，S'为训练时用到的每个正例对应的所有负例。这里，正例(h,l,t)对应的负样本集为：

S'_(h,l,t)＝{(h',l,t)|h'∈E}∪{(h,l,t')|t'∈E}

其中，h'为知识图谱中除上述左实体h之外的在所述知识图谱中的另一左实体，t'为知识图谱中除上述右实体t之外的在所述知识图谱中的另一右实体，并且满足：

且

上述定义的损失函数可以使真实三元组的能量比负样本集中的三元组的能量小。

现有技术的TransE模型在学习实体向量和关系向量时，对知识图谱中实体之间的长程关系等复杂的图拓扑关系信息缺少利用，使得TransE模型在学习实体向量和关系向量和知识图谱预测时面临数据稀疏的问题。

图1示出了本发明实施例的一种训练知识图谱的嵌入式模型的方法100的示意性流程图，该嵌入式模型包括所述知识图谱中的已知的所有实体对象和所述所有实体对象之间已知的关系。该方法100包括：

S110，随机初始化知识图谱中的所有实体和所有关系，其中，所有实体分别表示为嵌入式向量，所有关系分别表示为嵌入式向量。本发明实施例中，实体也可称为实体对象。

这里，可以根据正态分布生成知识图谱中的所有实体的嵌入式向量，即根据正态分布为所有实体赋予一个初始的嵌入式向量，根据正态分布生成知识图谱中的所有关系的嵌入式向量，即根据正态分布为所有关系赋予一个初始的嵌入式向量。本发明实施例中，还可以对所有关系的初始的嵌入式向量进行归一化处理，对所有实体的初始的嵌入式向量进行归一化处理。

可以理解，本发明实施例中，实体的初始嵌入式向量和关系的初始嵌入式向量是随机确定的，即对于知识图谱中的每一个三元组，其左实体向量和关系向量之和与右实体向量的距离是随机的，该距离可能会很大，此时，知识图谱中的三元组中的关系并不能表示该三元组的左实体和右实体之间的真实关系，知识图谱中的所有实体的嵌入式向量和所有关系的嵌入式向量并不能够准确的刻画所有关系和实体在知识图谱中的语义。

S120，确定知识图谱中的N个三元组。该N个三元组中的每个三元组包括左实体、右实体和所述左实体与所述右实体之间的第一关系，其中，所述左实体属于所述知识图谱中的所有实体之一，所述右实体属于所述知识图谱中的所有实体之一，所述第一关系属于所述知识图谱中的所有关系之一。

该N个三元组中每个三元组包括的左实体和右实体的集合即为该知识图谱中的所有实体，该N个三元组中的每个三元组包括的关系的集合即为该知识图谱中的所有关系。也就是说，本发明实施例中，知识图谱中的所有实体包括知识图谱中的每个三元组中的左实体和右实体，该知识图谱中的所有关系包括知识图谱中的每个三元组中的左实体和右实体的关系。

S130，建立所述每个三元组对应的三角子图。

上述N个三元组中的每个三元组对应的三角子图包括所述每个三元组、第一三元组和第二三元组，其中，所述第一三元组包括所述每个三元组中的左实体、共同邻居实体和所述每个三元组中的左实体与所述共同邻居实体之间的第二关系，所述第二三元组包括所述每个三元组中的右实体、所述共同邻居实体和所述每个三元组中的右实体之间的第三关系，其中，所述共同邻居实体属于所述所有实体对象之一，所述第二关系属于所述所有关系之一，所述第三关系属于所述所有关系之一。

这里，每个三元组中的左实体、共同邻居实体和第二关系可以分别为第一三元组的左实体、右实体和关系，或者，所述共同邻居实体、每个三元组中的左实体和第二关系可以分别为第一三元组的左实体、右实体和关系。同样的，每个三元组中的右实体、共同邻居实体和第三关系可以分别为第二三元组的左实体、右实体和关系，或者，所述共同邻居实体、每个三元组中的右实体和第三关系可以分别为第二三元组的左实体、右实体和关系。

在知识图谱中可以存在一个三元组的多个共同邻居实体，一个三元组可以对应有多个三角子图。同时，一个三角子图中包括三个三元组，该三角子图可以同时是三个三元组对应的三角子图。

可选的，上述三角子图为非循环(Acyclic)子图或循环(Cycle)子图。具体的，知识图谱中的对象实体与共同邻居实体之间可能存在四种三角子图模式。图2中的(a)、(b)、(c)和(d)分别示出了该四种三角子图模式的示意性结构图，其中，图2中的(a)、(c)和(d)为非循环(Acyclic)子图模式，(b)为循环(Cycle)子图模式。具体的，可以称(a)为Acyclic-I子图模式，称(c)为Acyclic-II子图模式，称(d)为Acyclic-III子图模式。

在训练该嵌入式模型的时候，不存在目标三元组，因此三种非循环子图模式是可以通过旋转、对称变换进行相互转换的，可以使用三种非循环子图模式中的任意一种非循环子图模式来训练模型。本发明实施例中，四种子图模式分别具有不同的能量。

具体的，图2中(a)的三角子图(e_i,R_ij,e_j,R_jk,e_k,R_ik)的能量为：

g(e_i,R_ij,e_j,R_jk,e_k,R_ik)＝f(e_i+R_ij,e_j)+f(e_j+R_jk,e_k)+f(e_i+R_ik,e_k)+h(R_ij+R_jk,R_ik)，

图2中(b)的三角子图(e_i,R_ij,e_j,R_jk,e_k,R_ik)的能量为：

g(e_i,R_ij,e_j,R_jk,e_k,R_ki)＝f(e_i+R_ij,e_j)+f(e_j+R_jk,e_k)+f(e_k+R_ki,e_i)+h(R_ij+R_jk,-R_ki)，

图2中(c)的三角子图(e_i,R_ij,e_j,R_jk,e_k,R_ik)的能量为：

g(e_i,R_ij,e_j,R_kj,e_k,R_ki)＝f(e_i+R_ij,e_j)+f(e_k+R_kj,e_j)+f(e_k+R_ki,e_i)+h(R_ij-R_jk,-R_ki)，

图2中(d)的三角子图(e_i,R_ij,e_j,R_jk,e_k,R_ik)的能量为：

其中，e_i和e_j分别表示上述每个三元组的左实体和右实体，e_k表示共同邻居实体，R_ij表示上述每个三元组的第一关系，R_ik表示上述第二关系，R_jk表示上述第三关系。这样，上述每个三元组为(e_i,R_ij,e_j)，第一三元组为(e_i,R_ik,e_k)，第二三元组为(e_j,R_jk,e_k)。f(x，y)表示x与y之间的距离，f(·)可以表示三角子图中各三元组的左实体向量与关系向量之和与右实体向量之间的距离，h(x，y)表示x与y之间的距离，h(·)表示三角子图中前两个关系向量之和与第三个关系向量之间的距离。

S140，根据三角子图，建立正样本集。所述正样本集包括N个正样本，N个正样本中的每个正样本包括S120中每个三元组对应的三角子图。

这里，一个三元组可以对应多个三角子图，本发明实施例中的正样本集中的三元组对应的三角子图可以是该三元组对应的所有三角子图中的部分或全部。

S150，建立S140中的所述每个正样本对应的负样本。所述每个正样本对应的负样本包括所述每个三元组对应的三角子图对应的负三角子图，所述每个三元组对应的三角子图和所述每个三元组对应的三角子图对应的负三角子图之间的部分实体或关系相同。本发明实施例中，负样本不属于所述正样本集，即负样本中的三角子图为存在错误的三角子图。

本发明实施例中，负三角子图也包括三个三元组，例如为第六三元组、第七三元组和第八三元组，其中，第六三元组可以是所述每个三元组的负例，和/或第七三元组是第一三元组的负例，和/或第八三元组是第二三元组的负例。

可选的，本发明实施例中，所述确定所述每个正样本对应的负样本，包括：

随机将所述每个正样本的三角子图中的实体替换为所述知识图谱中的另一任意实体，确定替换后的三角子图为所述每个正样本对应的负样本；和/或随机将所述每个正样本的三角子图中的关系替换为所述知识图谱中的另一任意关系，确定替换后的三角子图为所述每个正样本对应的负样本。

例如，可以将三角子图(e_i,R_ij,e_j,R_jk,e_k,R_ik)中的实体e_i替换为另一实体e_i'，和/或将实体e_j替换为另一实体e_j'，和/或将实体e_k替换为另一实体e_k'，和/或将关系R_ij替换为另一关系R_ij'，和/或将关系R_jk替换为另一关系R_jk'，和/或将关系R_ik替换为另一关系R_ik'，其中e_i'、e_j'和e_k'均属于知识图谱中的实体，R_ij'、R_jk'和R_ik'均属于知识图谱中的关系。这样，得到的负三角子图例如可以为(e_i',R_ij,e_j,R_jk,e_k,R_ik)、(e_i,R_ij,e_j',R_jk,e_k,R_ik)、(e_i,R_ij,e_j,R_jk,e_k',R_ik)、(e_i,R_ij,e_j',R_jk',e_k',R_ik)或(e_i,R_ij',e_j,R_jk,e_k',R_ik)，并且(e_i',R_ij,e_j,R_jk,e_k,R_ik)、(e_i,R_ij,e_j',R_jk,e_k,R_ik)、(e_i,R_ij,e_j,R_jk,e_k',R_ik)、(e_i,R_ij,e_j',R_jk',e_k',R_ik)和(e_i,R_ij',e_j,R_jk,e_k',R_ik)均不属于正样本集，这样，得到的负样本为(e_i',R_ij,e_j,R_jk,e_k,R_ik)、(e_i,R_ij,e_j',R_jk,e_k,R_ik)、(e_i,R_ij,e_j,R_jk,e_k',R_ik)、(e_i,R_ij,e_j',R_jk',e_k',R_ik)和(e_i,R_ij',e_j,R_jk,e_k',R_ik)中的至少一种。

本发明实施例中，可以只替换三角子图中的一种关系或实体得到负三角子图，也可以替换三角子图中的至少两种关系或实体得到负三角子图，本发明实施例对此不作限定。

本发明实施例中，当不存在与正样本中的三元组对应的三角子图时，正样本可以仅仅包括三元组，此时，该正样本对应的负样本包括该三元组对应的负三元组。这时，该正样本和负样本均与现有技术中的正样本和负样本相同。

当一个正样本可以对应多个负样本时，可以使正样本与该正样本对应的负样本的数量的比值为1:1或者1:1.5，该比值也可以为其他数值，本发明对此不作限定。

S160，更新所述所有实体的嵌入式向量和所述所有关系的嵌入式向量。即根据S140中的正样本集和S150中每个正样本对应的负样本，更新所有实体的嵌入式向量和所述所有关系的嵌入式向量，以训练所述嵌入式模型。

这里，可以利用正样本集和每个正样本对应的负样本，基于二元排序，采用随机梯度下降算法优化模型，更新实体的嵌入式向量和关系的嵌入式向量。

可选的，本发明实施例中，所述根据所述正样本集和所述每个正样本对应的负样本，更新所述所有实体的嵌入式向量和所有关系的嵌入式向量，可以包括：

确定所述正样本集中的每个正样本的三角子图的能量；

确定所述每个正样本对应的负样本的负三角子图的能量；

根据所述每个正样本的三角子图的能量和所述每个正样本对应的负样本的负三角子图的能量，确定所述每个正样本的损失函数；

根据上述损失函数的梯度，更新所述每个正样本中的三角子图中的所述每个三元组的左实体的嵌入式向量、所述每个三元组中的右实体的嵌入式向量和第一关系的嵌入式向量。

例如，g(e_i,R_ij,e_j,R_jk,e_k,R_ik)为正样本中的三角子图(e_i,R_ij,e_j,R_jk,e_k,R_ik)的能量，g(e_i',R_ij,e_j,R_jk,e_k,R_ik)为(e_i,R_ij,e_j,R_jk,e_k,R_ik)对应的负三角子图(e_i',R_ij,e_j,R_jk,e_k,R_ik)的能量。这时，该正样本的损失函数L₁可以为：

L₁＝[γ+g(e_i,R_ij,e_j,R_jk,e_k,R_ik)-g(e_i',R_ij,e_j,R_jk,e_k,R_ik)]₊

这时，模型的损失函数可以定义为：

这里，S表示正样本集，包括N个正样本。S'表示每个正样本对应的负样本集，即每个正样本对应的所有负样本。上述模型的损失函数表示遍历正样本集，对每个正样本，遍历该正样本对应的所有负样本，计算每个正样本与每个负样本的损失函数。

对该损失函数取梯度，可得：

本发明实施例中，根据该损失函数的梯度公式进行优化，即可更新每个正样本中的三角子图中的每个三元组中的左实体的嵌入式向量、每个三元组中的右实体的嵌入式向量和第一关系的嵌入式向量，进而对N个三元组中每个三元组的左实体、右实体和关系的嵌入式向量进行修正。

本发明实施例中，对模型的训练的过程为一个循环的过程，即重复执行上述S120-S160的步骤，最终得到知识图谱中所有实体的收敛的嵌入式向量，得到知识图谱中所有关系的收敛的嵌入式向量。

上述训练得到的嵌入式模型包括所述知识图谱中的所有实体的收敛的嵌入式向量表示和所有关系的收敛的嵌入式向量表示，所有实体的收敛的嵌入式向量表示和所有关系的收敛的嵌入式向量表示能够准确的刻画知识图谱中的所有实体和关系的语义。即嵌入式模型中的每个三元组的左实体的嵌入式向量表示和关系的嵌入式向量表示的和与该右实体的低维嵌入式向量的距离最小。

图3示出了本发明实施例的知识图谱预测的方法200的示意性流程图。下文中的嵌入式模型即为图1中训练的嵌入式模型，该嵌入式模型的方法100可以在方法200之前执行。该方法200包括：

S210，获取第一实体和第二实体，所述第一实体为所述知识图谱中的实体对象之一，所述第二实体为所述知识图谱中的实体对象之一。

该第一实体和第二实体可以分别为待预测的三元组的左实体和右实体，或者为待预测的三元组的右实体或左实体。这里，该第一实体和第二实体在知识图谱中并不存在关系，本发明实施例的知识图谱预测的方法可以对该第一实体和第二实体之间的关系进行预测，进而实现对知识图谱的补全。

S220，根据所述第一实体和所述第二实体，建立第一三角子图。所述第一三角子图包括第三三元组、第四三元组和第五三元组，其中，所述第三三元组包括所述第一实体、所述第二实体和候选关系，所述第四三元组包括所述第一实体、第一共同邻居实体和所述第一实体与所述第一共同邻居实体的第四关系，所述第五三元组包括所述第二实体、所述第一共同邻居实体和所述第二实体与所述第一共同邻居实体的第五关系，所述第一共同邻居实体为所述知识图谱中的实体对象之一，所述第四关系为所述知识图谱中的关系之一，所述第五关系为所述知识图谱中的关系之一，所述候选关系为所述知识图谱中的关系之一。

在S220之前，可以从知识图谱中获取该候选关系。具体的，可以在获取第一实体和第二实体之后，获取候选关系，或者可以在获取第一实体和第二实体的同时，获取候选关系，本发明对此不作限定。

S220中，该第三三元组包括该第一实体、第二实体和候选关系，该第三三元组可以为待预测的三元组。该待预测的三元组可以属于测试集，测试集为事先准备好的与训练集不重合的知识三元组集合，测试集中可以包含多个待测试的三元组。

这里，第一三角子图为非循环子图或循环子图。具体的，非循环子图可以包括Acyclic-I、Acyclic-II、Acyclic-III等模式。

在对三元组中的关系进行预测时，待预测的三元组可以为该第一三角子图中的目标三元组，不能通过旋转、对称变化对三种非循环子图进行相互转换。这时，可以根据实体对存在的共同邻居的真实模式分为图1中S130四种模式进行预测。例如在图2中，e_i为待预测的三元组中的左实体，e_j为待预测的三元组中的右实体，R_ij为待预测的三元组中的待预测的关系。

具体的，该第一三角子图的描述可以参见上述图1中的S140的三角子图的描述，该Acyclic-I、Acyclic-II、Acyclic-III和Cycle四种子图模式的描述可以参见上述图1中的S130和图2的描述，为了避免重复，这里不再赘述。

S230，根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系，所述嵌入式模型包括所述知识图谱中的已知的所有实体对象和所述所有实体对象之间已知的关系。

当从知识图谱中获取了一个候选关系时，这里可以确定该候选关系是否为该第一实体和第二实体之间的关系。当从知识图谱中获取了多个候选关系时，这里可以从多个候选关系中选出一个候选关系，作为第一实体和第二实体之间的最大概率的关系。

可选的，本发明实施例中，所述根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系，包括：根据所述嵌入式模型的第一损失函数，确定所述第一三角子图的第一损失值，所述第一损失函数为三角子图与损失值的映射关系；根据所述第一三角子图的第一损失值，确定所述第一实体和所述第二实体之间的关系。

具体的，本发明实施例中，所述第一损失函数可以为三角子图的能量与损失值的映射关系，所述第一三角子图的能量包括所述第一三角子图包括的三个三元组的能量与关系能量的矢量和，其中，所述三个三元组中的每个三元组的能量包括所述每个三元组中的左实体的向量与所述每个三元组中的关系向量之和与所述每个三元组中的右实体的向量之间的距离，所述关系能量包括所述第三三元组中的关系的向量与所述第四三元组中的关系的向量之和与所述第五三元组中的关系的向量之间的距离；

所述根据所述嵌入式模型的第一损失函数，确定所述第一三角子图的第一损失值，包括：

确定所述第一三角子图的能量；

具体的，该第一三角子图的能量包括第三三元组的能量、第四三元组的能量、第五三元组的能量和关系能量的矢量和。该第三三元组的能量可以为第一实体的向量与候选关系的向量之和与第二实体的向量之间的距离，第四三元组的能量可以为第一实体的向量与第四关系的向量之和与第一共同邻居实体的向量之间的距离，第五三元组的能量可以为第二实体的向量与第五关系的向量之和第一共同邻居实体的向量之间的距离。

例如，如果该第一三角子图为(e_i,R_ij,e_j,R_jk,e_k,R_ik)，其中，第三三元组为(e_i,R_ij,e_j)，第四三元组为(e_j,R_jk,e_k)，第五三元组为(e_i,R_ik,e_k)，当该第一三角子图为循环子图时，其能量为：

g(e_i,R_ij,e_j,R_jk,e_k,R_ik)＝f(e_i+R_ij,e_j)+f(e_j+R_jk,e_k)+f(e_i+R_ik,e_k)+h(R_ij+R_jk,R_ik)

当三角子图(e_i,R_ij,e_j,R_jk,e_k,R_ki)为非循环子图时，其能量为：

具体的，第一三角子图的描述可以参见上述图2中的描述，为避免重复，这里不再赘述。

这时，该第一三角子图的损失函数L₃为：

L₃＝[γ+g(e_i,R_ij,e_j,R_jk,e_k,R_ik)]₊

本发明实施例中，当从知识图谱中获取了一个候选关系时，可以根据该候选关系对应的第一三角子图的第一损失值，确定该候选关系是否为该第一实体和第二实体之间的关系。

具体的，可以预先配置预设值。当该第一损失值小于或等于预设值时，将该候选关系确定为该第一实体与第二实体之间的关系。当该第一损失值大于预设值时，不将该候选关系确定为该第一实体与第二实体之间的关系。

当从知识图谱中获取至少两个关系时，将该至少两个关系中的每个关系分别作为候选关系，分别建立与该至少两个关系一一对应的至少两个第一三角子图。可以理解，这时，存在至少两个候选关系，每个候选关系都对应一个第一三角子图。

然后确定至少两个第一三角子图中的每个第一三角子图的第一损失值，从至少两个第一三角子图的第一损失值中确定最小第一损失值，该最小损失值对应的第一三角子图的候选关系为该第一实体和第二实体之间的关系的概率最大，因此将该最小损失值对应的第一三角子图的候选关系作为第一实体与第二实体之间的关系。

本发明实施例中，该至少两个关系可以是知识图谱中的所有关系。这样，可以将知识图谱中存在的每个关系作为候选关系。对于嵌入式模型中的每个关系，能够得到包含候选关系的第一三角子图，进而计算每个第一三角子图的第一损失函数。这时，也可以设置一个预设值。如过存在多个损失函数小于预设值，可以确定小于预设值的损失函数对应的候选关系为第一实体和第二实体之间的关系。

下面结合图4，详细描述本发明的知识图谱预测的方法的一个具体的实施例。应注意，下面的例子仅仅是为了帮助本领域技术人员理解和实现本发明的实施例，而非限制本发明实施例的范围。本领域技术人员可以根据这里给出的例子进行等价变换或修改，这样的变换或修改仍然应落入本发明实施例的范围内。

利用本发明实施例的知识图谱预测的方法，可以对图4所示的知识图谱中实体之间的关系进行补全。图4所示为已经建立的知识图谱。图4中的知识图谱中的实体对象分别为：“奥巴马”、“火奴鲁鲁市”、“美国”、“霍普镇”和“克林顿”，该知识图谱中的关系分别为：“出生地”、“属于的国家”和“国籍”。该知识图谱中存在五个三元组，分别表示为：(火奴鲁鲁市，属于的国家，美国)、(奥巴马，出生地，火奴鲁鲁市)、(奥巴马，国籍，美国)、(霍普镇，属于的国籍，美国)和(克林顿，出生地，霍普镇)。

该知识图谱中的克林顿和美国之间并不存在关系。这时，可以确定克林顿为第一实体，美国为第二实体。知识图谱中的出生地、属于的国家和国籍中的至少一种为候选关系。当在获取克林顿和美国并且获取的候选关系为国籍时，待预测的三元组为(克林顿、国籍、美国)。

根据该知识图谱，可以确定第一三角子图为(克林顿，国籍，美国，出生地，霍普镇，属于的国家)，其中，(克林顿、国籍、美国)为第三三元组，即待预测的三元组，(克林顿，出生地，霍普镇)为第四三元组，(霍普镇，属于的国家，美国)为第五三元组，霍普镇为美国和克林顿的共同邻居实体。并且该三角子图为Acyclic-I模式。此时，可以确定该第一三角子图(克林顿，国籍，美国，出生地，霍普镇，属于的国家)的能量，进而根据该能量确定该三角子图的损失值。本发明实施例可以通过比较该损失值与预设值的大小关系，确定该待预测的三元组是否成立，即确定克林顿的国籍是否为美国。

这里，得到上述损失函数是小于预设值的，因此，克林顿的国籍是美国，即国籍为克林顿和美国之间的关系。这时，该知识图谱中还包括一个新的三元组(克林顿、国籍、美国)，该知识图谱更加具有完备性。

因此，本发明实施例通过融合图信息的嵌入式模型，确定需要预测的三元组的左实体和右实体的真实关系，能够对知识图谱进行补全，生成细粒度的知识图谱结构。

应注意，本发明实施例不限定专门的产品形态，本发明实施例的知识图谱补全的方法可以部署在通用的计算机节点上。初步构建的知识图谱可以被存储在硬盘存储器中，通过处理器和内存运行算法，对已有的知识图谱进行学习，得到模型。通模型对未知的知识进行预测，将预测结果存入硬盘存储器，实现对已有的知识图谱进行扩充。

本发明实施例知识图谱补全的方法具有准确性和普适性。将本发明实施例的知识图谱补全的方法与其他TransE模型进行多次对比实验，均得到了有效地验证。表1和表2分别为本发明实施例的采用了Acyclic和Cycle两种子图模式训练模型后的预测结果。

表1

表1所示的实验结果中TransR表示本发明方法，其中TransR-(A)表示仅采用融合子图模式的学习方法，TransR-(A+T)表示融合子图模式和嵌入式方法。TransE表示传统的嵌入式方法。本实验在模型训练阶段主要融合了Acyclic的子图模式。在测试本发明实施例的知识图谱预测的方法的效果时，遍历知识图谱中存在的每个关系，计算每个关系对于的包含该待测试三元组的左实体、右实体和共同邻居实体的三角子图的损失值，并将该损失值按从小到大排序。MeanRank为待预测的三元组中的真实关系在排序中所处位置的平均值。Hits@10(％)为待预测的三元组中的真实关系排在前10的情况在所有测试样例中所占的比例。从表1中可知，本发明实施例的知识图谱预测的方法对应的实验结果最优。

表2

表2所示的实验结果中TransR表示本发明方法，其中TransR-(A)表示仅采用融合子图模式的学习方法，TransR-(A+T)表示融合子图模式和嵌入式方法。TransE表示传统的嵌入式方法。本实验在模型训练阶段主要融合了Cycle的子图模式。从表1中可知，本发明实施例的知识图谱预测的方法对应的实验结果最优。

图5为本发明实施例的知识图谱预测的装置300的示意性框图。该装置300包括：

获取单元310，用于获取第一实体和第二实体，所述第一实体为所述知识图谱中的实体对象之一，所述第二实体为所述知识图谱中的实体对象之一；

建立单元320，用于根据所述第一实体和所述第二实体，建立第一三角子图，所述第一三角子图包括第一三元组、第二三元组和第三三元组，其中，所述第一三元组包括所述第一实体、所述第二实体和候选关系，所述第二三元组包括所述第一实体、第一共同邻居实体和所述第一实体与所述第一共同邻居实体的第一关系，所述第三三元组包括所述第二实体、所述第一共同邻居实体和所述第二实体与所述第一共同邻居实体的第二关系，所述第一共同邻居实体为所述知识图谱中的实体对象之一，所述第一关系为所述知识图谱中的关系之一，所述第二关系为所述知识图谱中的关系之一，所述候选关系为所述知识图谱中的关系之一；

确定单元330，用于根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系，所述嵌入式模型表示所述知识图谱中的已知的所有实体对象和所述所有实体对象之间已知的关系。

可选的，所述确定单元330具体用于：

可选的，所述第一损失函数为三角子图的能量与损失值的映射关系，所述第一三角子图的能量包括所述第一三角子图包括的三个三元组的能量与关系能量的矢量和，其中，所述三个三元组中的每个三元组的能量包括所述每个三元组中的左实体的向量与所述每个三元组中的关系向量之和与所述每个三元组中的右实体的向量之间的距离，所述关系能量包括所述第一三元组中的关系的向量与所述第二三元组中的关系的向量之和与所述第三三元组中的关系的向量之间的距离；

所述确定单元330具体用于：

确定所述第一三角子图的能量；

可选的，所述获取单元310还用于：

从所述知识图谱中获取所述候选关系；

所述确定单元330具体用于：

可选的，所述获取单元310还用于：

从所述知识图谱中获取至少两个关系；

所述确定单元330具体用于：

可选的，所述装置300还包括：

训练单元，用于训练所述知识图谱的所述嵌入式模型。

可选的，所述训练单元具体用于：

可选的，所述训练单元根据所述正样本集和所述每个正样本对应的负样本，更新所述所有实体对象的嵌入式向量和所有关系的嵌入式向量，包括：

确定所述正样本集中的每个正样本的三角子图的能量；

确定所述每个正样本对应的负样本的负三角子图的能量；

可选的，所述训练单元确定所述每个正样本对应的负样本，包括：

可选的，所述训练单元随机初始化所述知识图谱中的所有实体对象和所有关系，包括：

可选的，所述第一三角子图为循环子图或非循环子图。

应注意，本发明实施例中，获取单元310、建立单元320和确定单元330可以由处理器实现。如图6所示，装置400可以包括处理器410、存储器420和总线系统430。其中，存储器420可以用于存储处理器410执行的代码等。

装置400中的各个组件通过总线系统430耦合在一起，其中总线系统430除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都标为总线系统430。

在实现过程中，上述方法的各步骤可以通过处理器410中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器420，处理器410读取存储器420中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

图5所示的装置300或图6所示的装置400能够实现前述图1至图4所示的方法实施例对应的各个过程，具体的，该装置300或装置400可以参见上述图1至图4中的描述，为避免重复，这里不再赘述。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种知识图谱预测的方法，其特征在于，包括：

获取第一实体和第二实体，所述第一实体为所述知识图谱中的实体对象之一，所述第二实体为所述知识图谱中的实体对象之一；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一损失函数为三角子图的能量与损失值的映射关系，所述第一三角子图的能量包括所述第一三角子图包括的三个三元组的能量与关系能量的矢量和，其中，所述三个三元组中的每个三元组的能量包括所述每个三元组中的左实体的向量与所述每个三元组中的关系向量之和与所述每个三元组中的右实体的向量之间的距离，所述关系能量包括所述第一三元组中的关系的向量与所述第二三元组中的关系的向量之和与所述第三三元组中的关系的向量之间的距离；

确定所述第一三角子图的能量；

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一实体和所述第二实体，建立第一三角子图之前，所述方法还包括：

从所述知识图谱中获取所述候选关系；

5.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一实体和所述第二实体，建立第一三角子图之前，所述方法还包括：

从所述知识图谱中获取至少两个关系；

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系之前，还包括：

训练所述知识图谱的所述嵌入式模型。

7.根据权利要求6所述的方法，其特征在于，所述训练所述知识图谱的所述嵌入式模型，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述正样本集和所述每个正样本对应的负样本，更新所述所有实体对象的嵌入式向量和所有关系的嵌入式向量，包括：

确定所述正样本集中的每个正样本的三角子图的能量；

确定所述每个正样本对应的负样本的负三角子图的能量；

9.根据权利要求7或8所述的方法，其特征在于，所述确定所述每个正样本对应的负样本，包括：

10.根据权利要求7-9中任一项所述的方法，其特征在于，所述随机初始化所述知识图谱中的所有实体对象和所有关系，包括：

11.根据权利要求1-10中任一项所述的方法，其特征在于，所述第一三角子图为循环子图或非循环子图。

12.一种知识图谱预测的装置，其特征在于，包括：

获取单元，用于获取第一实体和第二实体，所述第一实体为所述知识图谱中的实体对象之一，所述第二实体为所述知识图谱中的实体对象之一；

建立单元，用于根据所述第一实体和所述第二实体，建立第一三角子图，所述第一三角子图包括第一三元组、第二三元组和第三三元组，其中，所述第一三元组包括所述第一实体、所述第二实体和候选关系，所述第二三元组包括所述第一实体、第一共同邻居实体和所述第一实体与所述第一共同邻居实体的第一关系，所述第三三元组包括所述第二实体、所述第一共同邻居实体和所述第二实体与所述第一共同邻居实体的第二关系，所述第一共同邻居实体为所述知识图谱中的实体对象之一，所述第一关系为所述知识图谱中的关系之一，所述第二关系为所述知识图谱中的关系之一，所述候选关系为所述知识图谱中的关系之一；

确定单元，用于根据所述第一三角子图和嵌入式模型，确定所述第一实体和所述第二实体之间的关系，所述嵌入式模型包括所述知识图谱中的已知的所有实体对象和所述所有实体对象之间已知的关系。

13.根据权利要求12所述的装置，其特征在于，所述确定单元具体用于：

14.根据权利要求13所述的装置，其特征在于，所述第一损失函数为三角子图的能量与损失值的映射关系，所述第一三角子图的能量包括所述第一三角子图包括的三个三元组的能量与关系能量的矢量和，其中，所述三个三元组中的每个三元组的能量包括所述每个三元组中的左实体的向量与所述每个三元组中的关系向量之和与所述每个三元组中的右实体的向量之间的距离，所述关系能量包括所述第一三元组中的关系的向量与所述第二三元组中的关系的向量之和与所述第三三元组中的关系的向量之间的距离；

所述确定单元具体用于：

确定所述第一三角子图的能量；

15.根据权利要求13或14所述的装置，其特征在于，所述获取单元还用于：

从所述知识图谱中获取所述候选关系；

所述确定单元具体用于：

16.根据权利要求13或14中任一项所述的装置，其特征在于，所述获取单元还用于：

从所述知识图谱中获取至少两个关系；

所述确定单元具体用于：

17.根据权利要求12-16中任一项所述的装置，其特征在于，所述装置还包括：

训练单元，用于训练所述知识图谱的所述嵌入式模型。

18.根据权利要求17所述的装置，其特征在于，所述训练单元具体用于：

19.根据权利要求18所述的装置，其特征在于，所述训练单元根据所述正样本集和所述每个正样本对应的负样本，更新所述所有实体对象的嵌入式向量和所有关系的嵌入式向量，包括：

确定所述正样本集中的每个正样本的三角子图的能量；

确定所述每个正样本对应的负样本的负三角子图的能量；

20.根据权利要求18或19所述的装置，其特征在于，所述训练单元确定所述每个正样本对应的负样本，包括：

21.根据权利要求18-20中任一项所述的装置，其特征在于，所述训练单元随机初始化所述知识图谱中的所有实体对象和所有关系，包括：

22.根据权利要求12-21中任一项所述的装置，其特征在于，所述第一三角子图为循环子图或非循环子图。