CN110147414B

CN110147414B - 一种知识图谱的实体表征方法及装置

Info

Publication number: CN110147414B
Application number: CN201910436046.0A
Authority: CN
Inventors: 李长亮; 朱自强; 汪美玲; 唐剑波
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2022-05-13
Anticipated expiration: 2039-05-23
Also published as: CN110147414A

Abstract

本申请提供一种知识图谱的实体表征方法及装置，其中所述方法包括：确定未知实体以及所述未知实体在知识图谱中的第一邻居实体；基于所述未知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体；确定所述第二邻居实体基于所述知识图谱的特征表达；基于所述第二邻居实体的特征表达确定所述第一邻居实体基于所述知识图谱的特征表达；基于所述第一邻居实体的特征表达确定所述未知实体基于所述知识图谱的特征表达。

Description

一种知识图谱的实体表征方法及装置

技术领域

本申请涉及互联网技术领域，特别涉及一种知识图谱的实体表征方法、装置、计算设备及计算机可读存储介质。

背景技术

知识图谱是用于增强其搜索引擎功能的知识库，本质上知识图谱旨在描述真实世界中存在的各种实体或概念及其关系，其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。

在现有技术中，知识图谱的实体表征一般采用实体基于知识图谱的嵌入表示，在有新的未知实体加入知识图谱的情况下，现有的知识图谱嵌入方法一般为直接对知识图谱中的全部实体重新进行训练，存在训练效率低下以及对实体的信息利用不充分等问题。

发明内容

有鉴于此，本申请实施例提供了一种知识图谱的实体表征方法、装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种知识图谱的实体表征方法，包括：

确定未知实体以及所述未知实体在知识图谱中的第一邻居实体；

基于所述未知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体；

确定所述第二邻居实体基于所述知识图谱的特征表达；

基于所述第二邻居实体的特征表达确定所述第一邻居实体基于所述知识图谱的特征表达；

基于所述第一邻居实体的特征表达确定所述未知实体基于所述知识图谱的特征表达。

根据本申请实施例的第二方面，提供了一种知识图谱的实体表征装置，包括：

第一确定模块，被配置为确定未知实体以及所述未知实体在知识图谱中的第一邻居实体；

第二确定模块，被配置为基于所述未知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体；

表达模块，被配置为确定所述第二邻居实体基于所述知识图谱的特征表达；

第一融合模块，被配置为基于所述第二邻居实体的特征表达确定所述第一邻居实体基于所述知识图谱的特征表达；

第二融合模块，被配置为基于所述第一邻居实体的特征表达确定所述未知实体基于所述知识图谱的特征表达。

根据本申请实施例的第三方面，提供了一种知识图谱的实体表征模型训练方法，包括：

确定已知实体以及所述已知实体在所述知识图谱中的第一邻居实体；

基于所述已知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体；

确定所述第二邻居实体基于所述知识图谱的特征表达；

根据所述第二邻居实体的特征表达并根据融合算法确定所述第一邻居实体基于所述知识图谱的特征表达；

根据所述第一邻居实体的特征表达并根据融合算法确定所述已知实体基于所述知识图谱的第一特征表达；

获取所述已知实体基于所述知识图谱的第二特征表达；

确定所述实体的第一特征表达与所述第二特征表达的距离，并通过所述距离调整所述实体表征模型的参数，直至满足模型训练目标。

根据本申请实施例的第四方面，提供了一种知识图谱的实体表征模型训练装置，包括：

第一训练样本获取模块，被配置为确定已知实体以及所述已知实体在所述知识图谱中的第一邻居实体；

第二训练样本获取模块，被配置为基于所述已知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体；

第一样本构建模块，被配置为确定所述第二邻居实体基于所述知识图谱的特征表达；

第二样本构建模块，被配置为根据所述第二邻居实体的特征表达并根据融合算法确定所述第一邻居实体基于所述知识图谱的特征表达；

第三样本构建模块，被配置为根据所述第一邻居实体的特征表达并根据融合算法确定所述已知实体基于所述知识图谱的第一特征表达；

标签模块，被配置为获取所述已知实体基于所述知识图谱的第二特征表达；

训练模块，被配置为确定所述实体的第一特征表达与所述第二特征表达的距离，并通过所述距离调整所述实体表征模型的参数，直至满足模型训练目标。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述知识图谱的实体表征方法或知识图谱的实体表征模型训练方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述知识图谱的实体表征方法或知识图谱的实体表征模型训练方法的步骤。

本申请通过利用未知实体与知识图谱中存在关系的已知实体以及该已知实体的邻居实体和关系，可以推导出未知实体基于所述知识图谱的特征表达，使得在处理新实体嵌入问题时不需要对所有的实体进行重新训练，提高了系统的处理效率，减少了数据的计算量，并且在推导的过程中充分利用了利用两层邻居实体的信息，改善了现有技术中对实体信息利用不足的局限性。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的知识图谱的实体表征方法的流程图；

图3是本申请实施例提供的知识图谱的实体表征方法的流程图；

图4是本申请实施例提供的知识图谱的实体表征方法的流程图；

图5是本申请实施例提供的知识图谱的实体表征方法的流程图；

图6是本申请实施例提供的知识图谱的实体表征方法的示意图；

图7是本申请实施例提供的知识图谱的实体表征装置的结构示意图；

图8是本申请实施例提供的知识图谱的实体表征模型训练方法的流程图；

图9是本申请实施例提供的知识图谱的实体表征模型的训练过程的示意图；

图10是本申请实施例提供的知识图谱的实体表征模型训练装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

知识图谱：语义网络(Semantic Network)的知识库，由节点(Vertex)和边(Edge)构成的多关系图(Multi-relational Graph)，在知识图谱里，我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。实体指的是现实世界中的事物比如人、地名、概念、药物、公司等，关系则用来表达不同实体之间的某种联系。

TransE算法：基于实体和关系的分布式向量表示，利用了词向量的平移不变现象。将每个三元组(head，relation，tail)中的关系relation看做从实体head到实体tail的翻译，通过不断调整h、r和t(head的向量、relation的向量和tail的向量)，使(h+r)尽可能与t相等，即h+r≈t。

在本申请中，提供了一种知识图谱的实体表征方法、装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的知识图谱的实体表征方法的示意性流程图，包括步骤201至步骤205。

步骤201：确定未知实体以及所述未知实体在知识图谱中的第一邻居实体。

在本申请实施例中，在系统内预存有已经构建完成的知识图谱，所述知识图谱包括多个已知实体以及每个已知实体之间的关系，例如：存在原始语料“乔丹居住在芝加哥”，则在所述知识图谱中对应为两个已知实体“乔丹(人物)”和“芝加哥(地名)”以及两个已知实体之间的关系“居住在”，并且“芝加哥”可以称之为“乔丹”的邻居实体，或者，“乔丹”也可以称之为“芝加哥”的邻居实体。在有新的未知实体加入所述已经构建完成的知识图谱的情况下，系统通过在所述知识图谱中寻找与所述未知实体存在关系的已知实体，从而确定所述未知实体在知识图谱中的邻居实体，即所述第一邻居实体，例如：一个新的语料“克里斯工作在芝加哥”，系统通过分词和实体抽取得到实体“克里斯”和实体“芝加哥”以及两者之间的关系“工作地点”，系统在知识图谱中通过查询匹配确定“芝加哥”为所述知识图谱中存在的已知实体，并且“克里斯”为未知实体，则所述已知实体“芝加哥”为所述未知实体“克里斯”的邻居实体，即所述第一邻居实体。

步骤202：基于所述未知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体。

在本申请实施例中，系统可以基于所述未知实体的邻居实体确定所述未知实体的邻居实体的邻居实体，即所述第二邻居实体，例如：一个新的语料“克里斯工作在芝加哥”，系统通过分词和实体抽取得到实体“克里斯”和实体“芝加哥”以及两者之间的关系“工作地点”，系统在知识图谱中通过查询匹配确定“芝加哥”为所述知识图谱中存在的已知实体，并且“克里斯”为未知实体，则所述已知实体“芝加哥”为所述未知实体“克里斯”的邻居实体，即所述第一邻居实体，同时，系统在知识图谱中通过查询匹配寻找到了一个三元组(乔丹，生活在，芝加哥)，即在所述知识图谱中“乔丹”为“芝加哥”的邻居实体，那么“乔丹”则可以理解为“克里斯”的邻居实体的邻居实体，即“乔丹”为所述第一邻居实体在所述知识图谱中的第二邻居实体。

步骤203：确定所述第二邻居实体基于所述知识图谱的特征表达。

在本申请实施例中，系统通过知识图谱的嵌入式表示学习算法确定所述第二邻居实体基于所述知识图谱的特征表达，即所述第二邻居实体基于所述知识图谱的向量化表示，例如：一个新的语料“克里斯工作在芝加哥”，其中“克里斯”为未知实体，“芝加哥”为所述“克里斯”的邻居实体，即所述第一邻居实体，“乔丹”为“克里斯”的邻居实体的邻居实体，即所述第二邻居实体，则系统可以通过知识图谱的嵌入式表示学习算法确定“乔丹”基于所述知识图谱的向量化表示。

步骤204：基于所述第二邻居实体的特征表达确定所述第一邻居实体基于所述知识图谱的特征表达。

在本申请实施例中，系统可以基于所述第二邻居实体的特征表达对所述第二邻居实体的特征表达进行关系转化(Transform by relation)和权重聚合(WeightedAggregation)，从而得到所述第一邻居实体基于所述知识图谱的特征表达，例如：一个新的语料“克里斯工作在芝加哥”，系统通过分词和实体抽取得到实体“克里斯”和实体“芝加哥”以及两者之间的关系“工作地点”，系统在知识图谱中通过查询匹配确定“芝加哥”为所述知识图谱中存在的已知实体，并且“克里斯”为未知实体，则所述已知实体“芝加哥”为所述未知实体“克里斯”的邻居实体，即所述第一邻居实体，同时，系统在知识图谱中通过查询匹配寻找到了一个三元组(乔丹，生活在，芝加哥)，即“乔丹”为“克里斯”的邻居实体的邻居实体，即所述第二邻居实体，则系统可以通过“乔丹”基于所述知识图谱的向量化表示计算出“芝加哥”基于所述知识图谱的向量化表示。

步骤205：基于所述第一邻居实体的特征表达确定所述未知实体基于所述知识图谱的特征表达。

在本申请实施例中，系统可以基于所述第一邻居实体的特征表达对所述第一邻居实体的特征表达进行关系转化和权重聚合，从而得到所述第未知实体基于所述知识图谱的特征表达，例如：一个新的语料“克里斯工作在芝加哥”，系统通过分词和实体抽取得到实体“克里斯”和实体“芝加哥”以及两者之间的关系“工作地点”，系统在知识图谱中通过查询匹配确定“芝加哥”为所述知识图谱中存在的已知实体，并且“克里斯”为未知实体，则所述已知实体“芝加哥”为所述未知实体“克里斯”的邻居实体，即所述第一邻居实体，则系统可以通过“芝加哥”基于所述知识图谱的向量化表示计算出“克里斯”基于所述知识图谱的向量化表示。

本申请通过利用未知实体与知识图谱中存在关系的已知实体以及该已知实体的邻居实体和关系，可以推导出未知实体基于所述知识图谱的特征表达，使得在处理新实体嵌入问题时不需要对所有的实体进行重新训练，提高了系统的处理效率，减少了数据的计算量，在推导的过程中充分利用了利用两层邻居实体的信息，通过权重聚合体现出不同邻居实体之间以及对于未知实体的不同影响力，例如在利用已知实体“乔丹”的特征表达计算通过已知实体“芝加哥”的特征表达时，应根据已知实体“乔丹”相对于已知实体“芝加哥”设置对应的权重系数，从而克服了平均聚合器没有考虑不同邻居应该具备不同权重的本质，同时，在寻找与未知实体存在关系的邻居实体时并没有固定的顺序，完全依照系统进行查询匹配后找到的三元组进行计算，克服了长短期记忆网络时序性所导致的强行赋予邻居实体其本不具备的依赖关系的问题，改善了现有技术中信息利用不足的局限性。

其中，处理器120可以执行图3所示方法中的步骤。图3是示出了根据本申请一实施例的知识图谱的实体表征方法的示意性流程图，包括步骤301至步骤308。

步骤301：获取所述知识图谱对应的原始语料，从所述原始语料中提取出多个已知实体并对每个所述已知实体进行分类。

在本申请实施例中，系统首先获取用于构建所述只是图谱的原始语料，其中所述原始原料可以是文字或特定信息集合，并借助自然语言处理技术或实体标注工具从所述原始语料中提取出多个已知实体并对每个所述已知实体进行分类。

步骤302：基于所述已知实体和所述已知实体的类别从所述原始语料中抽取出每个所述已知实体之间的关系。

在本申请实施例中，系统借助自然语言处理技术对已知实体进行实体统一和指代消解操作，减少实体的种类并降低知识图谱的稀疏性，进而对所述原始语料进行关系抽取，得到每个所述已知实体之间的关系。

步骤303：根据所述多个已知实体和每个所述已知实体之间的关系构建所述知识图谱。

在本申请实施例中，系统在获取了原始语料中的全部实体和关系后，基于已知实体和每个所述已知实体之间的关系构建所述知识图谱，形成多关系图以及多个三元组。

步骤304：确定未知实体以及所述未知实体在知识图谱中的第一邻居实体。

在本申请实施例中，在有新的未知实体加入所述已经构建完成的知识图谱的情况下，系统通过在所述知识图谱中寻找与所述未知实体存在关系的已知实体，从而确定所述未知实体在知识图谱中的邻居实体，即所述第一邻居实体。

步骤305：基于所述未知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体。

在本申请实施例中，系统可以基于所述未知实体的邻居实体确定所述未知实体的邻居实体的邻居实体，即所述第二邻居实体。

步骤306：确定所述第二邻居实体基于所述知识图谱的特征表达。

在本申请实施例中，系统通过知识图谱的嵌入式表示学习算法确定所述第二邻居实体基于所述知识图谱的特征表达。

步骤307：基于所述第二邻居实体的特征表达确定所述第一邻居实体基于所述知识图谱的特征表达。

在本申请实施例中，系统可以基于所述第二邻居实体的特征表达对所述第二邻居实体的特征表达进行关系转化(Transform by relation)和权重聚合(WeightedAggregation)，从而得到所述第一邻居实体基于所述知识图谱的特征表达。

步骤308：基于所述第一邻居实体的特征表达确定所述未知实体基于所述知识图谱的特征表达。

在本申请实施例中，系统可以基于所述第一邻居实体的特征表达对所述第一邻居实体的特征表达进行关系转化和权重聚合，从而得到所述第未知实体基于所述知识图谱的特征表达。

本申请借助自然语言处理技术构建所需的知识图谱，保证了知识图谱的可靠性，有利于后续的推导和深度学习。

在本申请实施例中，确定所述未知实体在所述知识图谱中的第一邻居实体包括：

根据所述知识图谱的三元组确定所述未知实体在所述知识图谱中的第一邻居实体。

在上述实施例中，如图4所示，根据所述知识图谱的三元组确定所述未知实体在所述知识图谱中的第一邻居实体包括步骤401至步骤404：

步骤401：获取包含有所述未知实体和所述知识图谱中已知实体的三元组，所述三元组包括头实体和尾实体和所述头实体与所述尾实体之间的关系。

所述知识图谱是由实体(entity)和关系(relations)构成的多关系图，每一条边都以三元组(头实体，关系，尾实体)的形式呈现，在本申请实施例中，系统可以获取包含有所述未知实体和所述知识图谱中已知实体的三元组，例如：一个新的语料“克里斯工作在芝加哥”，系统通过分词和实体抽取得到实体“克里斯”和实体“芝加哥”以及两者之间的关系“工作地点”，系统在知识图谱中通过查询匹配确定“芝加哥”为所述知识图谱中存在的已知实体，并且“克里斯”为未知实体，则系统可以构成三元组(克里斯，工作在，芝加哥)。

步骤402：判断所述未知实体是否为头实体。若是则执行步骤403，若否则执行步骤404。

在本申请实施例中，系统可以判断所述未知实体在三元组中位于头实体的位置处还是位于尾实体的位置处，例如：一个新的语料“克里斯工作在芝加哥”，对应的三元组(克里斯，工作在，芝加哥)，其中“克里斯”为未知实体，则所述未知实体“克里斯”位于头实体的位置处。

步骤403：将所述尾实体作为所述未知实体的第一邻居实体。

在本申请实施例中，例如：一个新的语料“克里斯工作在芝加哥”，对应的三元组(克里斯，工作在，芝加哥)，其中，未知实体“克里斯”位于头实体的位置处，已知实体“芝加哥”位于尾实体的位置处，则已知实体“芝加哥”为未知实体“克里斯”的第一邻居实体。

步骤404：将所述头实体作为所述未知实体的第一邻居实体。

在本申请实施例中，例如：一个新的语料“乔丹是克里斯的队友”，系统通过分词和实体抽取得到实体“克里斯”和实体“乔丹”以及两者之间的关系“队友”，系统在知识图谱中通过查询匹配确定“乔丹”为所述知识图谱中存在的已知实体，并且“克里斯”为未知实体，并构成对应的三元组(乔丹，队友，克里斯)，其中，未知实体“克里斯”位于尾实体的位置处，已知实体“乔丹”位于头实体的位置处，则已知实体“乔丹”为未知实体“克里斯”的第一邻居实体。

在本申请实施例中，基于所述未知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体包括：

根据所述知识图谱的三元组确定所述未知实体的第一邻居实体在所述知识图谱中的第二邻居实体。

在上述实施例中，如图5所示，根据所述知识图谱的三元组确定所述未知实体的第一邻居实体在所述知识图谱中的第二邻居实体包括步骤501至步骤504：

步骤501：获取所述知识图谱中的一个包含有所述未知实体的第一邻居实体的三元组，所述三元组包括头实体和尾实体和所述头实体与所述尾实体之间的关系。

所述知识图谱是由实体(entity)和关系(relations)构成的多关系图，每一条边都以三元组(头实体，关系，尾实体)的形式呈现，在本申请实施例中，系统可以获取所述知识图谱中的一个包含有所述未知实体的第一邻居实体的三元组，例如：一个原始语料“乔丹居住在芝加哥”，系统通过分词和实体抽取得到实体“乔丹”和实体“芝加哥”以及两者之间的关系“居住在”，进而系统在知识图谱中通过查询获取三元组(乔丹，居住在，芝加哥)，其中，已知实体“芝加哥”为未知实体“克里斯”的第一邻居实体。

步骤502：判断未知实体的第一邻居实体是否为头实体。若是则执行步骤503，若否则执行步骤504。

在本申请实施例中，系统可以判断所述未知实体的第一邻居实体在三元组中位于头实体的位置处还是位于尾实体的位置处，例如：对于三元组(乔丹，居住在，芝加哥)，其中已知实体“芝加哥”位于尾实体的位置处且为未知实体“克里斯”的第一邻居实体，则所述未知实体的第一邻居实体位于尾实体的位置处。

步骤503：将所述尾实体作为所述第一邻居实体的第二邻居实体。

在本申请实施例中，例如：一个原始语料“芝加哥的通用语言为英语”，系统通过分词和实体抽取得到实体“芝加哥”和实体“英语”以及两者之间的关系“语言”，进而系统在知识图谱中通过查询获取三元组(芝加哥，语言，英语)，其中，未知实体“克里斯”的第一邻居实体“芝加哥”位于头实体的位置处，已知实体“英语”位于尾实体的位置处，则已知实体“英语”为第一邻居实体“芝加哥”的第二邻居实体。

步骤504：将所述头实体作为所述第一邻居实体的第二邻居实体。

在本申请实施例中，例如：一个原始语料“乔丹居住在芝加哥”，系统通过分词和实体抽取得到实体“乔丹”和实体“芝加哥”以及两者之间的关系“居住在”，进而系统在知识图谱中通过查询获取三元组(乔丹，居住在，芝加哥)，其中，未知实体“克里斯”的第一邻居实体“芝加哥”位于尾实体的位置处，已知实体“乔丹”位于头实体的位置处，则已知实体“乔丹”为第一邻居实体“芝加哥”的第二邻居实体。

首先，本申请利用知识图谱中的三元组寻找所述未知实体的第一邻居实体以及第二邻居实体，通过所述未知实体的第一邻居实体以及第二邻居实体和关系推导出所述未知实体的特征表达，充分利用了已知实体的信息。

其次，本申请利用了与未知实体相关的两层相邻的已知实体，从而对未知实体的特征表达进行推导，解决了现有技术中对实体信息利用不足的局限性。同时，在本申请中不限于只利用两层相邻的已知实体，也可以利用本申请的技术方案进行三层或三层以上的多层相邻实体进行未知实体的推导。

下面以三层邻居实体为例进行说明，对于一个新的语料“乔丹是克里斯的队友”，系统通过分词和实体抽取得到实体“克里斯”和实体“乔丹”以及两者之间的关系“队友”，系统在知识图谱中通过查询匹配确定“乔丹”为所述知识图谱中存在的已知实体，并且“克里斯”为未知实体，并构成对应的三元组(乔丹，队友，克里斯)，则已知实体“乔丹”为未知实体“克里斯”第一邻居实体，然后系统根据已知实体“乔丹”在知识图谱中通过查询获取三元组(乔丹，居住在，芝加哥)，则已知实体“芝加哥”为第一邻居实体“乔丹”的第二邻居实体，接下来系统根据已知实体“芝加哥”在知识图谱中通过查询获取三元组(芝加哥，语言，英语)，则已知实体“英语”为第二邻居实体“芝加哥”的第三邻居实体，系统在确定所述第三邻居实体基于所述知识图谱的特征表达之后，根据融合算法对所述第三邻居实体基于所述知识图谱的特征表达进行推导，依次得到所述第二邻居实体基于所述知识图谱的特征表达以及所述第一邻居实体基于所述知识图谱的特征表达，最终根据所述第一邻居实体基于所述知识图谱的特征表计算出未知实体“克里斯”基于所述知识图谱的特征表达即向量化表示。

因此，在利用n层相邻实体推导出未知实体的特征表达的情况下，首先找到位于第n层的相邻实体并确定所述第n层的相邻实体基于所述知识图谱的特征表达，然后根据融合算法按照层级依次计算出每层的相邻实体基于所述知识图谱的特征表达，最终得到未知实体的特征表达即向量化表示，其中，n为大于2的正整数。

在本申请实施例中，确定所述第二邻居实体基于所述知识图谱的特征表达包括：

基于TransE算法确定所述第二邻居实体基于所述知识图谱的特征表达。

在本申请实施例中，系统基于TransE算法对所述第二邻居实体进行向量化表示，从而确定所述第二邻居实体基于所述知识图谱的特征表达，例如：一个原始语料“乔丹居住在芝加哥”，对应的三元组(乔丹，居住在，芝加哥)，其中，未知实体“克里斯”的第一邻居实体为“芝加哥”，则已知实体“乔丹”为第一邻居实体“芝加哥”的第二邻居实体，通过TransE算法可以得到第二邻居实体“乔丹”的基于所述知识图谱的特征表达。

在上述实施例中，基于所述第二邻居实体的特征表达确定所述第一邻居实体基于所述知识图谱的特征表达包括：

根据所述第二邻居实体的特征表达并基于融合算法确定所述第一邻居实体基于所述知识图谱的特征表达。

在本申请实施例中，系统根据TransE算法得到的所述第二邻居实体基于所述知识图谱的特征表达，通过融合公式(1)计算得到所述第一邻居实体基于所述知识图谱的特征表达：

其中：Eadja1为第一邻居实体基于所述知识图谱的特征表达，Eadja2为第二邻居实体基于所述知识图谱的特征表达，r为第一邻居实体与第二邻居实体之间的关系，N_k为第一邻居实体与第二邻居实体之间的关系集合，α为注意力机制，T_r为关系转换函数。

在本申请实施例中，如图6所示，以所述未知实体“克里斯”的第一邻居实体“芝加哥”为例进行说明：所述第一邻居实体“芝加哥”的第二邻居实体包括“乔丹”、“英语”“伊利诺伊州”以及“美国”等，系统通过TransE算法得到所述“乔丹”、“英语”“伊利诺伊州”以及“美国”等第二邻居实体的特征表达，并通过融合公式(1)计算得到所述第一邻居实体“芝加哥”基于其邻居实体“乔丹”、“美国”、“英语”以及“伊利诺伊州”等的特征表达。

在上述实施例中，基于所述第一邻居实体的特征表达确定所述未知实体基于所述知识图谱的特征表达包括：

根据所述第一邻居实体的特征表达并基于融合算法确定所述未知实体基于所述知识图谱的特征表达。

在本申请实施例中，图6所示，系统根据所述第一邻居实体基于所述知识图谱的特征表达，通过融合公式(2)计算得到所述未知实体基于所述知识图谱的特征表达：

其中：E⁰为未知实体基于所述知识图谱的特征表达，Eadja1为第一邻居实体基于所述知识图谱的特征表达，r为未知实体与第一邻居实体之间的关系，N_k为未知实体与第一邻居实体之间的关系集合，α为注意力机制，T_r为关系转换函数。

在本申请实施例中，如图6所示，以所述未知实体“克里斯”为例进行说明：所述未知实体“克里斯”的第一邻居实体包括“芝加哥”、“运动员”、“安娜”以及“阿根廷”等，其中，所述“运动员”、“安娜”和“阿根廷”均为所述知识图谱中的已知实体，系统通过融合公式(2)计算得到所述未知实体“克里斯”基于其第一邻居实体“芝加哥”、“运动员”、“安娜”以及“阿根廷”等的特征表达。

本申请通过融合算法，利用未知实体的多个第二邻居实体的特征表达以及未知实体的多个第一邻居实体的特征表达推导出所述未知实体的特征表达，提高了知识图谱的训练效率，减少了数据的计算量。

在本申请实施例中，在确定所述未知实体基于所述知识图谱的特征表达之后，则所述未知实体转变为所述知识图谱中的已知实体，其过推导程可以应用于实体关系预测，所述关系预测是指根据预先给定的一个关系以及一个头实体互或尾实体，从而判断出另外一个实体，例如通过实体“姚明”和关系“队友”，将实体“姚明”视为未知实体并对其进行特征表达的推导，则可以推算出与未知实体“姚明”存在“队友”关系的已知实体“麦迪”。

在本申请实施例中，在确定所述未知实体基于所述知识图谱的特征表达之后，则所述未知实体转变为所述知识图谱中的已知实体，其过推导程可以应用于三元组分类，所述三元组分类是指根据预先给定的三元组，判断其三元组是否正确对应的知识图谱内的知识即判断该预先给定的三元组是否正确，例如判断出三元组(姚明，队友，麦迪)所表达的知识是正确的，判断出三元组(姚明，队友，乔丹)所表达的知识是错误的。

在本申请实施例中，在确定所述未知实体基于所述知识图谱的特征表达之后，则所述未知实体转变为所述知识图谱中的已知实体，其过推导程可以应用于关系抽取，所述关系抽取是指根据预先给定的两个实体，判断所述两个实体之间的关系，例如预先给定实体“姚明”和实体“麦迪”，可以推断出两个实体之间的关系为“队友”。

本申请利用未知实体的多层邻居实体和关系，利用算推算出未知实体基于整个知识图谱的特征表达，从而可以推算出原本无法从知识图谱中得到的关系。

与上述方法实施例相对应，本说明书还提供了知识图谱的实体表征装置实施例，图7示出了本说明书一个实施例的知识图谱的实体表征装置的结构示意图。如图7所示，该装置包括：

第一确定模块701，被配置为确定未知实体以及所述未知实体在知识图谱中的第一邻居实体；

第二确定模块702，被配置为基于所述未知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体；

表达模块703，被配置为确定所述第二邻居实体基于所述知识图谱的特征表达；

第一融合模块704，被配置为基于所述第二邻居实体的特征表达确定所述第一邻居实体基于所述知识图谱的特征表达；

第二融合模块705，被配置为基于所述第一邻居实体的特征表达确定所述未知实体基于所述知识图谱的特征表达。

可选的，所述装置还包括：

实体获取模块706，被配置为获取所述知识图谱对应的原始语料，从所述原始语料中提取出多个已知实体并对每个所述已知实体进行分类；

关系抽取模块707，被配置为基于所述已知实体和所述已知实体的类别从所述原始语料中抽取出每个所述已知实体之间的关系；

构建模块708，被配置为根据所述多个已知实体和每个所述已知实体之间的关系构建所述知识图谱。

可选的，所述第一确定模块701包括：

第一确定子模块，被配置为根据所述知识图谱的三元组确定所述未知实体在所述知识图谱中的第一邻居实体。

可选的，所述第一确定子模块包括：

第一获取单元，被配置为获取包含有所述未知实体和所述知识图谱中已知实体的三元组，所述三元组包括头实体和尾实体和所述头实体与所述尾实体之间的关系；

第一判断单元，被配置为判断所述未知实体是否为头实体；

第一实体捕获单元，被配置为在所述未知实体为头实体情况下，将所述尾实体作为所述未知实体的第一邻居实体；

第二实体捕获单元，被配置为在所述未知实体为尾实体情况下，将所述头实体作为所述未知实体的第一邻居实体。

可选的，所述第二确定模块702包括：

第二确定子模块，被配置为根据所述知识图谱的三元组确定所述未知实体的第一邻居实体在所述知识图谱中的第二邻居实体。

可选的，所述第二确定子模块包括：

第二获取单元，被配置为获取所述知识图谱中的一个包含有所述未知实体的第一邻居实体的三元组，所述三元组包括头实体和尾实体和所述头实体与所述尾实体之间的关系；

第二判断单元，被配置为判断所述未知实体的第一邻居实体是否为头实体；

第三实体捕获单元，被配置为在所述未知实体的第一邻居实体为头实体情况下，将所述尾实体作为所述第一邻居实体的第二邻居实体；

第四实体捕获单元，被配置为在所述未知实体的第一邻居实体为尾实体情况下，将所述头实体作为所述第一邻居实体的第二邻居实体。

可选的，所述表达模块703包括：

向量转换单元，基于TransE算法确定所述第二邻居实体基于所述知识图谱的特征表达。

可选的，所述第一融合模块704包括：

第一融合单元，被配置为根据所述第二邻居实体的特征表达并基于融合算法确定所述第一邻居实体基于所述知识图谱的特征表达。

可选的，所述第二融合模块705包括：

第二融合单元，被配置为根据所述第一邻居实体的特征表达并基于融合算法确定所述未知实体基于所述知识图谱的特征表达。

本的知识图谱的实体表征装置通过利用未知实体与知识图谱中存在关系的已知实体以及该已知实体的邻居实体和关系，可以推导出未知实体基于所述知识图谱的特征表达，使得在处理新实体嵌入问题时不需要对所有的实体进行重新训练，提高了系统的处理效率，减少了数据的计算量，并且在推导的过程中充分利用了利用两层邻居实体的信息，改善了现有技术中对实体信息利用不足的局限性。

其中，处理器120可以执行图8所示方法中的步骤。图8是示出了根据本申请一实施例的知识图谱的实体表征模型训练方法的示意性流程图，包括步骤801至步骤807。

步骤801：确定已知实体以及所述已知实体在所述知识图谱中的第一邻居实体。

步骤802：基于所述已知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体。

步骤803：确定所述第二邻居实体基于所述知识图谱的特征表达。

步骤804：根据所述第二邻居实体的特征表达并根据融合算法确定所述第一邻居实体基于所述知识图谱的特征表达。

步骤805：根据所述第一邻居实体的特征表达并根据融合算法确定所述已知实体基于所述知识图谱的第一特征表达。

步骤806：获取所述已知实体基于所述知识图谱的第二特征表达。

步骤807：确定所述实体的第一特征表达与所述第二特征表达的距离，并通过所述距离调整所述实体表征模型的参数，直至满足模型训练目标。

图9为图8所示的训练过程的示意图，其中以知识图谱中的已知实体“乔丹”作为样本未知实体，通过所述知识图谱中的已知三元组(乔丹，生活在，芝加哥)，以及三元组(芝加哥，位于，美国)等为例对训练过程进行说明：在编码层中，样本“乔丹”未知实体，则“芝加哥”为第一邻居实体且“美国”、“英语”以及“伊利诺伊州”等为第二邻居实体，所述模型根据TransE算法得到所述第二邻居实体“美国”、“英语”以及“伊利诺伊州”等基于所述知识图谱的特征表达，并通过融合公式(1)计算得到所述第一邻居实体“芝加哥”基于其邻居实体“美国”、“英语”以及“伊利诺伊州”等的特征表达。

以上以样本未知实体“乔丹”一个邻居实体及其对应的第二邻居实体为例对该样本未知实体的第一邻居实体的特征表达计算过程进行说明，所述样本未知实体的其他邻居实体，例如“芝加哥公牛”、“运动员”的特征表达的计算过程与上述过程相似，不再赘述。

通过融合公式(2)计算得到所述样本未知实体“乔丹”基于其第一邻居实体“芝加哥”、“芝加哥公牛”以及“运动员”等的第一特征表达。

在解码层中，模型计算出该样本未知实体“乔丹”的第一特征表达，确定所述第一特征表达与作为标签的样本未知实体“乔丹”第二特征表达之间的距离，并根据损失函数对“乔丹”的第一特征表达进行打分，并通过所述距离调整所述实体表征模型的参数，直至满足模型训练目标的分数。

与上述模型训练方法实施例相对应，本说明书还提供了知识图谱的实体表征模型训练装置实施例，图10示出了本说明书一个实施例的知识图谱的实体表征模型训练装置的结构示意图。如图10所示，该装置包括：

第一训练样本获取模块1001，被配置为确定已知实体以及所述已知实体在所述知识图谱中的第一邻居实体；

第二训练样本获取模块1002，被配置为基于所述已知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体；

第一样本构建模块1003，被配置为确定所述第二邻居实体基于所述知识图谱的特征表达；

第二样本构建模块1004，被配置为根据所述第二邻居实体的特征表达并根据融合算法确定所述第一邻居实体基于所述知识图谱的特征表达；

第三样本构建模块1005，被配置为根据所述第一邻居实体的特征表达并根据融合算法确定所述已知实体基于所述知识图谱的第一特征表达；

标签模块1006，被配置为获取所述已知实体基于所述知识图谱的第二特征表达；

训练模块1007，被配置为确定所述实体的第一特征表达与所述第二特征表达的距离，并通过所述距离调整所述实体表征模型的参数，直至满足模型训练目标。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

确定所述第二邻居实体基于所述知识图谱的特征表达；

获取所述已知实体基于所述知识图谱的第二特征表达；

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述知识图谱的实体表征方法或知识图谱的实体表征模型训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该计算机可读存储介质的技术方案与上述的知识图谱的实体表征方法的技术方案属于同一构思，计算机可读存储介质的技术方案未详细描述的细节内容，均可以参见上述知识图谱的实体表征方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种知识图谱的实体表征方法，其特征在于，包括：

确定所述第二邻居实体基于所述知识图谱的特征表达；

对所述第二邻居实体的特征表达进行关系转化和权重聚合，确定所述第一邻居实体基于所述知识图谱的特征表达；

对所述第一邻居实体的特征表达进行关系转化和权重聚合，确定所述未知实体基于所述知识图谱的特征表达。

2.根据权利要求1所述的方法，其特征在于，在确定未知实体以及所述未知实体在知识图谱中的第一邻居实体之前，还包括：

获取所述知识图谱对应的原始语料，从所述原始语料中提取出多个已知实体并对每个所述已知实体进行分类；

基于所述已知实体和所述已知实体的类别从所述原始语料中抽取出每个所述已知实体之间的关系；

根据所述多个已知实体和每个所述已知实体之间的关系构建所述知识图谱。

3.根据权利要求1所述的方法，其特征在于，确定所述未知实体在所述知识图谱中的第一邻居实体包括：

4.根据权利要求3所述的方法，其特征在于，根据所述知识图谱的三元组确定所述未知实体在所述知识图谱中的第一邻居实体包括：

获取包含有所述未知实体和所述知识图谱中已知实体的三元组，所述三元组包括头实体和尾实体和所述头实体与所述尾实体之间的关系；

判断所述未知实体是否为头实体；

在所述未知实体为头实体情况下，将所述尾实体作为所述未知实体的第一邻居实体；

在所述未知实体为尾实体情况下，将所述头实体作为所述未知实体的第一邻居实体。

5.根据权利要求1所述的方法，其特征在于，基于所述未知实体的第一邻居实体确定所述第一邻居实体在所述知识图谱中的第二邻居实体包括：

6.根据权利要求5所述的方法，其特征在于，根据所述知识图谱的三元组确定所述未知实体的第一邻居实体在所述知识图谱中的第二邻居实体包括：

获取所述知识图谱中的一个包含有所述未知实体的第一邻居实体的三元组，所述三元组包括头实体和尾实体和所述头实体与所述尾实体之间的关系；

判断所述未知实体的第一邻居实体是否为头实体；

在所述未知实体的第一邻居实体为头实体情况下，将所述尾实体作为所述第一邻居实体的第二邻居实体；

在所述未知实体的第一邻居实体为尾实体情况下，将所述头实体作为所述第一邻居实体的第二邻居实体。

7.根据权利要求1所述的方法，其特征在于，确定所述第二邻居实体基于所述知识图谱的特征表达包括：

8.根据权利要求7所述的方法，其特征在于，确定所述第一邻居实体基于所述知识图谱的特征表达包括：

基于融合算法确定所述第一邻居实体基于所述知识图谱的特征表达。

9.根据权利要求8所述的方法，其特征在于，确定所述未知实体基于所述知识图谱的特征表达包括：

基于融合算法确定所述未知实体基于所述知识图谱的特征表达。

10.一种知识图谱的实体表征装置，其特征在于，包括：

第一融合模块，被配置为对所述第二邻居实体的特征表达进行关系转化和权重聚合，确定所述第一邻居实体基于所述知识图谱的特征表达；

第二融合模块，被配置为对所述第一邻居实体的特征表达进行关系转化和权重聚合，确定所述未知实体基于所述知识图谱的特征表达。

11.根据权利要求10所述的装置，其特征在于，还包括：

实体获取模块，被配置为获取所述知识图谱对应的原始语料，从所述原始语料中提取出多个已知实体并对每个所述已知实体进行分类；

关系抽取模块，被配置为基于所述已知实体和所述已知实体的类别从所述原始语料中抽取出每个所述已知实体之间的关系；

构建模块，被配置为根据所述多个已知实体和每个所述已知实体之间的关系构建所述知识图谱。

12.根据权利要求10所述的装置，其特征在于，所述第一确定模块包括：

13.根据权利要求12所述的装置，其特征在于，所述第一确定子模块包括：

第一判断单元，被配置为判断所述未知实体是否为头实体；

14.根据权利要求10所述的装置，其特征在于，所述第二确定模块包括：

15.根据权利要求14所述的装置，其特征在于，所述第二确定子模块包括：

16.根据权利要求10所述的装置，其特征在于，所述表达模块包括：

17.根据权利要求16所述的装置，其特征在于，所述第一融合模块包括：

第一融合单元，被配置为基于融合算法确定所述第一邻居实体基于所述知识图谱的特征表达。

18.根据权利要求17所述的装置，其特征在于，所述第二融合模块包括：

第二融合单元，被配置为基于融合算法确定所述未知实体基于所述知识图谱的特征表达。

19.一种知识图谱的实体表征模型训练方法，其特征在于，包括：

确定所述第二邻居实体基于所述知识图谱的特征表达；

对所述第二邻居实体的特征表达进行关系转化和权重聚合，并根据融合算法确定所述第一邻居实体基于所述知识图谱的特征表达；

对所述第一邻居实体的特征表达进行关系转化和权重聚合，并根据融合算法确定所述已知实体基于所述知识图谱的第一特征表达；

获取所述已知实体基于所述知识图谱的第二特征表达；

20.一种知识图谱的实体表征模型训练装置，其特征在于，包括：

第二样本构建模块，被配置为对所述第二邻居实体的特征表达进行关系转化和权重聚合，并根据融合算法确定所述第一邻居实体基于所述知识图谱的特征表达；

第三样本构建模块，被配置为对所述第一邻居实体的特征表达进行关系转化和权重聚合，并根据融合算法确定所述已知实体基于所述知识图谱的第一特征表达；

21.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-9或者19任意一项所述方法的步骤。

22.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-9或者19任意一项所述方法的步骤。