CN113742488A

CN113742488A - 基于多任务学习的嵌入式知识图谱补全方法和装置

Info

Publication number: CN113742488A
Application number: CN202110874769.6A
Authority: CN
Inventors: 张勇; 窦佳恒; 田冰; 李欣; 李超
Original assignee: Tsinghua University; Beijing Tsinghua Changgeng Hospital
Current assignee: Tsinghua University; Beijing Tsinghua Changgeng Hospital
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-12-03
Anticipated expiration: 2041-07-30
Also published as: CN113742488B

Abstract

本发明提供一种基于多任务学习的嵌入式知识图谱补全方法和装置，包括：将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量；该模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，各预设知识图谱包括除所述待补全知识图谱以外至少N个其他知识图谱；若确定任一事物实体、关系实体和另一事物实体为待补全知识图谱中的新三元组，则进行添加。本发明提供的方法和装置，实现了同时学习多个知识图谱的嵌入，获取全局的知识表示，提高知识补全的效率。

Description

基于多任务学习的嵌入式知识图谱补全方法和装置

技术领域

本发明涉及自动答复技术领域，尤其涉及一种基于多任务学习的嵌入式知识图谱补全方法和装置。

背景技术

随着人工智能技术的发展，很多客服系统已经发展出机器答复的方案，针对用户输入的提问文本，提取出提问文本中的关键词，然后以关键词为查询条件去数据库中搜索对应的答案，最后将答案组织成答复自然语言进行输出。而最常用的提取关键词和去数据库中查询答案的方式就是，构建头实体-关系实体-尾实体三元组数据组成的知识图谱数据库，然后对于任何提问语句，都是将查询答案的过程简化为：提取提问语句中的头实体和关系实体，去对应知识图谱数据库中查询对应的尾实体，例如，当提问“A国的首都是哪里”时，自动提取头实体“A国”和关系实体“政治中心”，那么以这两个实体去查找对应的知识图谱数据库中的对应头-关系-尾存在两个连接关系的实体三元组，若能查询得到头实体是“A国”且关系实体是“政治中心”的存在两个连接关系的目标实体三元组，则以所述目标实体三元组的尾实体构建答复语句进行输出，即可答复问题“A国的首都是哪里”。

然而，现有技术中的知识图谱数据库中实体很丰富，但是实体之间的关系识别，特别是头-关系-尾存在两个连接关系的三元组的挖掘和补全还存在瓶颈。现有技术中的知识图谱补全技术通常包括翻译模型和神经网络模型，然而两种模型都是基于单任务的，无法捕捉到不同的知识图谱之间的结构和语义之间的关系，即难以挖掘已有的知识图谱数据库中的实体之间更多的关系，无法更充分的补全已有的知识图谱数据库。

因此，如何避免现有的知识图谱补全方法由于采用单任务训练模型导致无法捕捉到不同的知识图谱之间的结构和语义之间的关系，即难以挖掘已有的知识图谱数据库中的实体之间更多的关系，无法更充分的补全已有的知识图谱数据库的情况，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明提供一种基于多任务学习的嵌入式知识图谱补全方法和装置，用以解决现有的基于知识图谱的自动答复系统中的知识图谱中的实体关系挖掘不足和无法充分补全已有的知识图谱导致的自动答复准确率低和可靠性差的问题，通过对待补全知识图谱进行基于多任务学习的嵌入式知识图谱补全，提出的嵌入式方法能够同时学习多个知识图谱的嵌入，以及获取全局的知识表示，从而大大提高知识补全的效率丰富待补全知识图谱中的实体之间关系的多样性。

本发明提供一种基于多任务学习的嵌入式知识图谱补全方法，包括：

将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；

其中，所述实体嵌入式表示模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，所述各预设知识图谱包括除所述待补全知识图谱以外至少N个其他知识图谱，N为大于1的整数；

若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。

根据本发明提供的一种基于多任务学习的嵌入式知识图谱补全方法，所述样本头实体、样本关系实体和对应的尾实体标签的构建，具体包括：

构建用于训练所述实体嵌入式表示模型的数据集，所述数据集中包括正例和负例；

其中，所述正例包括样本真关系实体和对应的真事物实体标签，所述负例T’通过如下公式表示：

T’＝{(h’，r，t)|h’∈E_h}∪{(h，r，t’)|t’∈E_t}∪{(h，r’，t)|r’∈R}，(h，r，t)∈T

T为所述正例的集合，h，r和t分别为样本真头实体、样本真关系实体和对应的真尾实体标签，E_h为对应的假头实体集合，E_t为对应的假尾实体集合，R为对应的假关系实体集合，所述正例和所述负例来源于各预设知识图谱中的头-关系-尾三元组。

根据本发明提供的一种基于多任务学习的嵌入式知识图谱补全方法，所述对应的假头实体集合和对应的假尾实体集合的构建，具体包括：

确定所有样本头实体除开样本真头实体h的集合为样本真关系实体r和对应的真尾实体标签t对应的假头实体集合E_h，确定所有样本尾实体除开样本真尾实体t的集合为样本真关系实体r和对应的真头实体标签h对应的假头实体集合E_t；

对应地，h’∈E_h表示从对应的假头实体集合E_h筛选出若干个假头实体，t’∈E_t表示从对应的假尾实体集合E_t筛选出所述若干个假尾实体。

根据本发明提供的一种基于多任务学习的嵌入式知识图谱补全方法，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，具体包括：

所述实体嵌入式表示模型的训练过程中，

全局共享层将输入的来自任一知识图谱的样本事物实体和样本关系实体进行全局向量表示，得到样本事物实体全局向量和样本关系实体全局向量输出至对应的所述任一知识图谱的特定任务表示层；其中，所述任一知识图谱属于所述各预设知识图谱；

所述任一知识图谱的特定任务表示层，将自身持有的样本事物实体特定表示向量结合输入的所述样本事物实体全局向量得到样本事物实体目标嵌入式表示向量，还将自身持有的样本关系实体特定表示向量结合输入的所述样本关系实体全局向量得到样本关系实体目标嵌入式表示向量，将所述样本事物实体目标嵌入式表示向量和所述样本关系实体目标嵌入式表示向量输出至对应的所述任一知识图谱的另一事物实体表示预测模块；其中，所述事物实体为头实体或者尾实体；

所述另一事物实体表示预测模块基于所述样本事物实体目标嵌入式表示向量和样本关系实体目标嵌入式表示向量确定另一事物实体预测目标嵌入式表示向量；

基于所述正例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量，以及所述负例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量构建损失函数并计算每一轮次的损失值，所述损失值用于对所述全局共享层和各特定任务表示层中的待调参数进行更新。

根据本发明提供的一种基于多任务学习的嵌入式知识图谱补全方法，所述将样本事物实体和样本关系实体进行全局向量表示，得到样本事物实体全局向量和样本关系实体全局向量，具体包括：

通过如下公式确定样本事物实体全局向量：

通过如下公式确定样本关系实体全局向量：

其中，

为所述全局共享层中第l层隐藏层输出的样本v的全局向量，v为关系实体、头实体或尾实体，N_r为样本关系实体集合，

为与集合N_r中任一关系实体r存在连接关系的尾实体的集合，

为与集合N_r中任一关系实体r存在连接关系的头实体的集合，当所述任一关系实体r与集合

中任一尾实体t存在连接关系，则α_vt＝1，否则α_vt＝0，当所述任一关系实体r与集合

中任一头实体h存在连接关系，则α_vh＝1，否则α_vh＝0，α_v为预设系数，

为所述全局共享层中第l-1层隐藏层输出的所述任一尾实体t全局向量，

为所述全局共享层中第l-1层隐藏层输出的所述任一关系实体r全局向量，

为所述全局共享层中第l-1层隐藏层输出的所述样本v实体全局向量，c(，)为同一隐藏层输出尾实体全局向量和关系实体全局向量的关系描述函数，

为同一隐藏层输出头实体全局向量和关系实体全局向量的关系描述函数，

d(l)为第l层隐藏层输出向量的维度，σ()为激活函数，W^l为所述第l层隐藏层的待优化权重矩阵，R’为下一层关系矩阵，R为关系矩阵，W^R为关系参数矩阵，α为权重参数，N_R为存在关系连接的实体集合，e为集合N_R中任一实体。

根据本发明提供的一种基于多任务学习的嵌入式知识图谱补全方法，所述任一知识图谱的特定任务表示层，将自身持有的样本事物实体特定表示向量结合输入的所述样本事物实体全局向量得到样本事物实体目标嵌入式表示向量，还将自身持有的样本关系实体特定表示向量结合输入的所述样本关系实体全局向量得到样本关系实体目标嵌入式表示向量，具体包括：

对于任一知识图谱k的特定任务表示层，

当样本事物实体为第一头实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

其中，h^(k)为所述任一知识图谱k的特定任务表示层自身持有的所述第一头实体特定表示向量，h^(s)为所述全局共享层输出的所述第一头实体全局向量，M_h为所述任一知识图谱k的特定任务表示层的待优化头实体权重矩阵；

当样本事物实体为第一尾实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

其中，t^(k)为所述任一知识图谱k的特定任务表示层自身持有的所述第一尾实体特定表示向量，t^(s)为所述全局共享层输出的所述第一尾实体全局向量，M_t为所述任一知识图谱k的特定任务表示层的待优化尾实体权重矩阵；

当样本事物实体为第一关系实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

其中，r^(k)为所述任一知识图谱k的特定任务表示层自身持有的所述第一关系实体特定表示向量，r^(s)为所述全局共享层输出的所述第一关系实体全局向量，M_r为所述任一知识图谱k的特定任务表示层的待优化关系实体权重矩阵。

根据本发明提供的一种基于多任务学习的嵌入式知识图谱补全方法，所述基于所述正例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量，以及所述负例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量构建损失函数，具体包括：

通过如下公式计算所述实体嵌入式表示模型训练过程中的损失函数L：

其中，T为所述正例的集合，T’为所述负例的集合，(h，r，t)∈T，(h，r，t)为正例集合T中任一存在头-关系-尾两个连接的实体三元组，(h’，r，t’)∈T’，(h’，r，t’)为负例集合T’中任一仅存在头-关系或者关系-尾一个连接的实体三元组，K为参与所述实体嵌入式表示模型训练的所有知识图谱集合。

本发明还提供一种基于多任务学习的嵌入式知识图谱补全装置，包括：

表示单元，用于将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；

添加单元，用于若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的基于多任务学习的嵌入式知识图谱补全方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的基于多任务学习的嵌入式知识图谱补全方法的步骤。

本发明提供的基于多任务学习的嵌入式知识图谱补全方法和装置，通过将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；其中，所述实体嵌入式表示模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，所述各预设知识图谱包括除所述待补全知识图谱以外至少N个其他知识图谱，N为大于1的整数；若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。由于对待补全知识图谱进行基于多任务学习的嵌入式知识图谱补全，提出的嵌入式方法能够同时学习多个知识图谱的嵌入，以及获取全局的知识表示，从而大大提高知识补全的效率丰富待补全知识图谱中的实体之间关系的多样性。因此，本发明提供的方法和装置，实现了同时学习多个知识图谱的嵌入，以及获取全局的知识表示，从而大大提高知识补全的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于多任务学习的嵌入式知识图谱补全方法的流程示意图；

图2为本发明提供的TransMTL模型的整体结构图；

图3为本发明提供的一种基于多任务学习补全知识图谱的自动答复方法的流程示意图；

图4为本发明提供的基于多任务学习的嵌入式知识图谱补全装置的结构示意图；

图5为本发明提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有的基于知识图谱的自动答复系统的知识图谱中普遍存在实体关系挖掘不足和无法充分补全已有的知识图谱导致的自动答复准确率低和可靠性差的问题。下面结合图1-图5描述本发明的一种基于多任务学习的嵌入式知识图谱补全方法。图1为本发明提供的一种基于多任务学习的嵌入式知识图谱补全方法的流程示意图，如图1所示，该方法包括：

步骤110，将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；

其中，所述实体嵌入式表示模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，所述各预设知识图谱包括除所述待补全知识图谱以外至少N个其他知识图谱，N为大于1的整数。

具体地，本发明提出的基于多任务学习的嵌入式知识图谱补全方法在对待补全知识图谱进行补全的过程中进行进一步说明。本发明提出一种多任务学习的知识图谱实体嵌入式翻译表示模型(translation model based on multi-task learning，TransMTL)，即实体嵌入式表示模型，该模型可以将输入的参与模型训练的任一知识图谱中的实体进行嵌入式表示，该嵌入式表示得到的实体表示向量包含该实体在参与模型训练的所有知识图谱中存在关系连接信息的总和。图2为本发明提供的TransMTL模型的整体结构图，如图2所示，该结构图的中间位置的模块为实体嵌入式表示模型训练过程中构建的神经网络的全局共享层，上下位置的模块分别为知识图谱KG1的特定任务表示层和知识图谱KG2的特定任务表示层，在知识图谱KG1的特定任务表示层右侧直接连接的模块为知识图谱KG1的另一事物实体表示预测模块，在知识图谱KG2的特定任务表示层右侧直接连接的模块为知识图谱KG2的另一事物实体表示预测模块。所述实体嵌入式表示模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，使得训练完成的实体嵌入式表示模型可以准确表达出实体中包含的关系信息，即训练时就是基于头实体和关系实体预测对应的尾实体，或者基于尾实体和关系实体预测对应的头实体，通常需要训练出h+r＝t或者t-r＝h的结果，其中，h、r和t分别是训练好的嵌入式表示模型对属于参与模型训练的任一知识图谱中的三元组中的头实体、关系实体和尾实体进行嵌入式表示后输出的头实体嵌入式向量、关系实体嵌入式向量和尾实体嵌入式向量。如此，在训练好的实体嵌入式表示模型投入使用时，就可以基于输入的测试头实体和测试关系实体输出预测的测试尾实体的向量表示，再基于预测的测试尾实体的向量表示去搜索对应知识图谱中的匹配的向量表示的事物实体作为与输入的测试头实体和测试关系实体存在真实连接关系的测试尾实体，于是该测试头实体、测试关系实体和测试尾实体组成的三元组即为新挖掘拓展出的一组关系数据，可以用于对所述对应知识图谱进行补充填充。

步骤120，若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。

具体地，对于输出的另一事物实体表示向量，若该另一事物实体的预测向量值能在待补全知识图谱中找到对应的另一事物，则确定所述任一事物实体、对应的关系实体和所述找到对应的另一事物为新的头-关系-尾三元组，可以将该新的三元组加入所述待补全知识图谱用于丰富待补全知识图谱中的关系信息量。举例来说，在实体嵌入式表示模型的使用过程中，对于输出了的头实体h1的表示向量a1，尾实体t1的表示向量a2和关系实体r1的表示向量a3，若以其中的头实体的表示向量a1，关系实体的表示向量a2按照实体嵌入式表示模型中的预测规则，预测出它们对应的尾实体表示向量为c3，而c3和a3可以判定为相似(例如c3和a3之间的距离小于预设值的判定条件)，那么尾实体t1、头实体h1和关系实体r1属于存在两个关系连接的头-关系-尾三元组triplet1，且与待补全知识图谱中的三元组不重复，那么triplet1可以作为新挖掘出的关系三元组数据加入待补全知识图谱。

本发明提出的基于多任务学习的嵌入式知识图谱补全方法所补全出的目标知识图谱可以用于多个领域和应用环境，例如，可以在自动答复系统中使用，下面举例一种基于多任务学习补全知识图谱的自动答复方法，图3为本发明提供的一种基于多任务学习补全知识图谱的自动答复方法的流程示意图，如图3所示，该方法包括：

步骤310，确定用户输入询问语句中的提问头实体和提问关系实体。

具体地，提取用户输入询问语句中的提问头实体和提问关系实体，常用的方式有分词处理，然后基于分词得到的各个单词结果进行词性匹配，得到用于描述事物的头实体和用于描述关系的关系实体。而步骤310中采用提取询问语句中的头实体和关系实体的关键词提取方法是由于本发明提供的自动答复方法是基于补全的待补全知识图谱实施的，而知识图谱中存储的“知识”都是以存在两个连接关系的头实体-关系实体-尾实体三元组形式进行数据存储，还包括其他的仅存在一个连接关系的事物实体和关系实体，其中，所述事物实体为头实体或者尾实体，还包括没有连接关系的事物实体和关系实体作为单个词汇进行存储，而一个知识图谱的知识丰富性是体现在该知识图谱在已存储的数据中挖掘出很多上述三元组数据的基础上，即能将该知识图谱中独立的实体发现出新的关系进行连接，增加它们的表意能力。因此，步骤310中提取询问语句中的头实体和关系实体，是为了后续使用知识图谱查询提问答复内容时更方便匹配。

步骤320，基于所述提问头实体和所述提问关系实体在待补全知识图谱中进行查询，输出查询结果尾实体；其中，所述待补全知识图谱是基于多任务学习的嵌入式知识图谱补全确定的。

具体地，在步骤310提取的提问语句中的提问头实体和提问关系实体的基础上，以所述提问头实体和提问关系实体作为查询条件去待补全知识图谱中进行查询，在待补全知识图谱中找到包含所述提问头实体和提问关系实体的存在两个连接关系的头实体-关系实体-尾实体目标三元组，以目标三元组中的尾实体作为查询结果进行输出。其中，待补全知识图谱是本发明提出的特有的基于多任务学习的嵌入式知识图谱补全确定的。相对于传统知识图谱的挖掘拓展方式中包括的翻译模型和神经网络模型，传统方式里的两种模型都是基于单任务的，无法捕捉到不同的知识图谱之间的结构和语义之间的关系。而本发明提出基于多任务学习的嵌入式知识图谱补全确定待补全知识图谱，即利用多任务的思想来将这两种模型进行结合，所述嵌入式用于指示同时学习多个知识图谱的嵌入表示，获取全局的知识向量表示，然后再以各自知识图谱的特定学习任务目标对来自各自知识图谱的训练样本数据进行学习训练，使得训练得到的全局知识表示层能统一表达各个知识图谱中的所有实体，使得最终的多任务学习的嵌入式表示模型能输出携带信息更丰富的实体嵌入表示向量，该实体嵌入表示向量中集合了其他知识图谱中的相关信息，而所述相关信息是基于多个知识图谱中的实体关系知识总和信息训练出来的。本发明提供的基于多任务学习的嵌入式知识图谱补全方式能够同时学习多个知识图谱的嵌入，以及获取全局的知识表示，从而大大提高知识补全的效率，进而提高自动答复系统答复结果的准确率和可靠性。

步骤330，基于所述尾实体拼接出答复语句进行输出。

具体地，在得到查询结果尾实体后，对尾实体进行自然语言拼接处理，使得处理后的答复语句更易读且符合自然语言的语法规范。所述拼接处理的方式有多种，例如，基于输入的提问语句作为拼接语料与尾实体进行拼接组合，得到用于输出的答复语句，或者使用匹配上的语言模版与尾实体进行拼接得到简介的答复语句等等，此处不作具体限定。

本发明提供的基于多任务学习的嵌入式知识图谱补全方法，通过将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；其中，所述实体嵌入式表示模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，所述各预设知识图谱包括除所述待补全知识图谱以外至少N个其他知识图谱，N为大于1的整数；若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。由于对待补全知识图谱进行基于多任务学习的嵌入式知识图谱补全，提出的嵌入式方法能够同时学习多个知识图谱的嵌入，以及获取全局的知识表示，从而大大提高知识补全的效率丰富待补全知识图谱中的实体之间关系的多样性。因此，本发明提供的方法，实现了同时学习多个知识图谱的嵌入，以及获取全局的知识表示，从而大大提高知识补全的效率。

基于上述实施例，该方法中，所述样本头实体、样本关系实体和对应的尾实体标签的构建，具体包括：

具体地，对于参与实体嵌入式表示模型训练的数据集进行描述，由于数据集的选定是基于训练时的损失函数的构建方式确定的，因此，先介绍训练过程中的损失函数的构建。在实体嵌入式表示模型训练时的神经网络构建中，除了需要有用于融合多个知识图谱实体信息的全局共享层，还需要加入参与训练的各个知识图谱对应的特定任务层来在全局共享层的向量表示基础上加入各自知识图谱的表示能力，各个知识图谱的特定任务层最常用的表示方式就是TransE算法，可以将不同关系内容信息表示为统一的向量形式，TransE算法可以将事物实体和关系实体投影到相同连续的低维向量空间。下面介绍三元组数据的能量确定方法，三元组(h，r，t)的能量值E(h，r，t)等同于d(h+r，t)，其中，d(，)表示距离函数。因此，能量函数通过如下公式定义：

E(h，r，t)＝||h+r-t||

为了学习出上述的嵌入式表示，需要在训练数据集上将基于边际的目标函数进行最小化，通过公式表示如下：

K＝∑_{(h，r，t)∈T}L(h，r，t)

其中，L(h，r，t)是对应于任一三元组(h，r，t)的基于边际的损失函数：

其中，[x]₊＝max(0，x)，T’为负例集合，且通过如下公式表示：

基于上述实施例，该方法中，所述对应的假头实体集合和对应的假尾实体集合的构建，具体包括：

具体地，负例集合为3种负例情况的集合，包括关系实体和尾实体是真但是头实体是假、关系实体和头实体是真但是尾实体是假，以及头实体和尾实体是真但是关系实体是假。对于关系实体和尾实体是真但是头实体是假的情况，确定所有样本头实体除开样本真头实体h的集合为样本真关系实体r和对应的真尾实体标签t对应的假头实体集合E_h，对应地，h’∈E_h表示从对应的假头实体集合E_h筛选出若干个假头实体；对于关系实体和头实体是真但是尾实体是假的情况，确定所有样本尾实体除开样本真尾实体t的集合为样本真关系实体r和对应的真头实体标签h对应的假头实体集合E_t，对应地，t’∈E_t表示从对应的假尾实体集合E_t筛选出所述若干个假尾实体；对于头实体和尾实体是真但是关系实体是假的情况，确定所有样本头实体除开样本真关系实体r的集合为样本真头实体t和对应的真尾实体标签t对应的假关系实体集合R，对应地，r’∈R表示从对应的假关系实体集合R筛选出若干个假头实体。

基于上述实施例，该方法中，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，具体包括：

所述实体嵌入式表示模型的训练过程中，

具体地，在实体嵌入式表示模型训练过程中，对神经网络中的全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块分别进行的处理操作进行说明。

可选地，所述全局共享层先对输入的样本事物实体和样本关系实体进行向量表示，其中，所述事物实体用于概括头实体和尾实体，而全局共享层是对训练数据集中的每一个事物实体和关系实体都进行统一的全局表示，无论该样本是来自参与模型训练的预设知识图谱中的哪个知识图谱，全局共享层输出样本事物实体全局向量和样本关系实体全局向量时，需要将它们输出至对应的所述任一知识图谱的特定任务表示层，例如当需要进行全局向量表示的关系实体r_test是来自第一知识图谱KG1，那么当全局共享层输出关系实体r_test的全局向量表示

时，需要将

输入至所述第一知识图谱对应的第一特定任务表示层(图2中的最上方的模块：KG1对应的Task-specific knowledge embedding layer)，而所述第一特定任务表示层会在全局向量表示

的基础上融合上自身对关系实体r_test的表示向量

得到目标融合向量表示

该融合方式可以通过如下公式表示：

其中，M_r为所述第一特定任务表示层中的待调关系实体权重矩阵，M_r用于将

转换到

的向量维度。如此，目标融合向量表示

可以将自身的第一知识图谱KG1中的信息与来自其他知识图谱KG2，KG3，...，KGQ的额外信息进行融合，得到最终包含了更多关系信息的实体向量表示，其中，Q为参与实体嵌入式表示模型训练的所有知识图谱的总个数。

最后，所述第一特定任务表示层输出端直接相连的第一另一事物实体表示预测模块(图2中的最上方的模块，KG1对应的Task-specific knowledge embedding layer，的右边直接相连的模块KGC_1 task)，是用于确定另一事物实体预测目标嵌入式表示向量，因为，当样本头实体和存在连接关系的样本关系被表达的很好时，它们的和就能预测与它们存在关系连接的尾实体，同理，当样本尾实体和存在连接关系的样本关系被表达的很好时，它们的和也能预测与它们存在关系连接的头实体，于是连接在各个特定任务表示层后面的另一事物实体表示预测模块用于预测各个知识图谱中的可能可以挖掘出连接关系的头实体和尾实体，最终，预测结果结婚正例集合和负例集合用于构建损失函数。

基于上述实施例，该方法中，所述将样本事物实体和样本关系实体进行全局向量表示，得到样本事物实体全局向量和样本关系实体全局向量，具体包括：

通过如下公式确定样本事物实体全局向量：

通过如下公式确定样本关系实体全局向量：

其中，

为与集合N_r中任一关系实体r存在连接关系的尾实体的集合，

该公式对于和特定关系实体r存在关系连接的头实体和尾实体基于角色判别标准来区分，即对于头实体和尾实体的卷积运算是不同的计算公式：当v为头实体时，它的嵌入式向量表示仅基于结合相关的尾实体

和关系实体

计算，当v为尾实体时，它的嵌入式向量表示仅基于结合相关的头实体

和关系实体

计算，因此，事物实体v的所有存在头实体角色和尾实体角色都被累加，还加上一个额外的自连接表示

来表示事物实体v的第l层隐藏层输出的向量表示。

此处需要说明的是，设计c(，)为同一隐藏层输出尾实体全局向量和关系实体全局向量的关系描述函数，以及

为同一隐藏层输出头实体全局向量和关系实体全局向量的关系描述函数，是用于突出表示采用标准，该标准为对于任一知识图谱中的三元组(h，r，t)应该满足h+r≈t，该标准也可以变形为h≈t-r和t≈h+r，因此，可以转换为如下公式：

基于上述实施例，该方法中，所述任一知识图谱的特定任务表示层，将自身持有的样本事物实体特定表示向量结合输入的所述样本事物实体全局向量得到样本事物实体目标嵌入式表示向量，还将自身持有的样本关系实体特定表示向量结合输入的所述样本关系实体全局向量得到样本关系实体目标嵌入式表示向量，具体包括：

对于任一知识图谱k的特定任务表示层，

当样本事物实体为第一头实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

当样本事物实体为第一尾实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

当样本事物实体为第一关系实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

具体地，对于任一知识图谱k对应的k特定任务层，能量函数可以通过如下公式表示：

(h^(k)+M_hh^(s))+(r^(k)+M_rr^(s))≈(t^(k)+M_tt^(s))

E(h，r，t)^[k]＝||(h^(k)+M_hh^(s))+(r^(k)+M_rr^(s))-(t^(k)+M_tt^(s))||

其中，h(^k)、t^(k)和r^(k)分别为所述任一知识图谱k的k特定任务表示层自身持有的第一头实体h的特定表示向量、第一尾实体t的特定表示向量和第一关系实体r的特定表示向量；M_h、M_t和M_r分别为所述任一知识图谱k的k特定任务表示层的待优化头实体权重矩阵、待优化尾实体权重矩阵和待优化关系实体权重矩阵。

基于上述实施例，该方法中，所述基于所述正例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量，以及所述负例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量构建损失函数，具体包括：

具体地，上述公式展示了为了学习全局共享层里面的待优化权重矩阵和各个特定任务层中的头实体权重矩阵、待优化尾实体权重矩阵和待优化关系实体权重矩阵，对所有知识图谱的特定任务中的所有三元组采用了基于边际的损失函数构造方法，其中，K为参与所述实体嵌入式表示模型训练的所有知识图谱集合。

下面对本发明提供的基于多任务学习的嵌入式知识图谱补全装置进行描述，下文描述的基于多任务学习的嵌入式知识图谱补全装置与上文描述的一种基于多任务学习的嵌入式知识图谱补全方法可相互对应参照。

图4为本发明提供的基于多任务学习的嵌入式知识图谱补全装置的结构示意图，如图4所示，基于多任务学习的嵌入式知识图谱补全装置包括表示单元410和添加单元420，其中，

所述表示单元410，用于将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；

所述添加单元420，用于若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。

本发明提供的基于多任务学习的嵌入式知识图谱补全装置，通过将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；其中，所述实体嵌入式表示模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，所述各预设知识图谱包括除所述待补全知识图谱以外至少N个其他知识图谱，N为大于1的整数；若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。由于对待补全知识图谱进行基于多任务学习的嵌入式知识图谱补全，提出的嵌入式方法能够同时学习多个知识图谱的嵌入，以及获取全局的知识表示，从而大大提高知识补全的效率丰富待补全知识图谱中的实体之间关系的多样性。因此，本发明提供的装置，实现了同时学习多个知识图谱的嵌入，以及获取全局的知识表示，从而大大提高知识补全的效率。

在上述实施例的基础上，该基于多任务学习的嵌入式知识图谱补全装置中，所述样本头实体、样本关系实体和对应的尾实体标签的构建，具体包括：

在上述实施例的基础上，该基于多任务学习的嵌入式知识图谱补全装置中，所述对应的假头实体集合和对应的假尾实体集合的构建，具体包括：

在上述实施例的基础上，该基于多任务学习的嵌入式知识图谱补全装置中，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，具体包括：

所述实体嵌入式表示模型的训练过程中，

在上述实施例的基础上，该基于多任务学习的嵌入式知识图谱补全装置中，所述将样本事物实体和样本关系实体进行全局向量表示，得到样本事物实体全局向量和样本关系实体全局向量，具体包括：

通过如下公式确定样本事物实体全局向量：

通过如下公式确定样本关系实体全局向量：

其中，

为与集合N_r中任一关系实体r存在连接关系的尾实体的集合，

在上述实施例的基础上，该基于多任务学习的嵌入式知识图谱补全装置中，所述任一知识图谱的特定任务表示层，将自身持有的样本事物实体特定表示向量结合输入的所述样本事物实体全局向量得到样本事物实体目标嵌入式表示向量，还将自身持有的样本关系实体特定表示向量结合输入的所述样本关系实体全局向量得到样本关系实体目标嵌入式表示向量，具体包括：

对于任一知识图谱k的特定任务表示层，

当样本事物实体为第一头实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

当样本事物实体为第一尾实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

当样本事物实体为第一关系实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

在上述实施例的基础上，该基于多任务学习的嵌入式知识图谱补全装置中，所述基于所述正例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量，以及所述负例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量构建损失函数，具体包括：

图5为本发明提供的一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行基于多任务学习的嵌入式知识图谱补全方法，该方法包括：将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；其中，所述实体嵌入式表示模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，所述各预设知识图谱包括除所述待补全知识图谱以外至少N个其他知识图谱，N为大于1的整数；若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于多任务学习的嵌入式知识图谱补全方法，该方法包括：将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；其中，所述实体嵌入式表示模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，所述各预设知识图谱包括除所述待补全知识图谱以外至少N个其他知识图谱，N为大于1的整数；若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于多任务学习的嵌入式知识图谱补全方法，该方法包括：将待补全知识图谱中的任一事物实体和对应的关系实体输入实体嵌入式表示模型，输出对应的另一事物实体表示向量，若所述任一事物实体为头实体，则所述另一事物实体为尾实体，若所述任一事物实体为尾实体，则所述另一事物实体为头实体；其中，所述实体嵌入式表示模型是基于样本头实体、样本关系实体和对应的尾实体标签进行训练得到的，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，所述各预设知识图谱包括除所述待补全知识图谱以外至少N个其他知识图谱，N为大于1的整数；若确定所述任一事物实体、对应的关系实体和所述另一事物实体为所述待补全知识图谱中的新头-关系-尾三元组，则将所述新三元组加入所述待补全知识图谱。

以上所描述的服务器实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多任务学习的嵌入式知识图谱补全方法，其特征在于，包括：

2.根据权利要求1所述的基于多任务学习的嵌入式知识图谱补全方法，其特征在于，所述样本头实体、样本关系实体和对应的尾实体标签的构建，具体包括：

T’＝{(h’，r，t)|h’∈Eh}∪{(h，r，t’)|t’∈E_t}∪{(h，r’，t)|r’∈R}，(h，r，t)∈T

3.根据权利要求2所述的基于多任务学习的嵌入式知识图谱补全方法，其特征在于，所述对应的假头实体集合和对应的假尾实体集合的构建，具体包括：

4.根据权利要求2或3所述的基于多任务学习的嵌入式知识图谱补全方法，其特征在于，所述实体嵌入式表示模型训练过程中构建的神经网络包括全局共享层、各预设知识图谱特定任务表示层和各个对应的另一事物实体表示预测模块，具体包括：

所述实体嵌入式表示模型的训练过程中，

5.根据权利要求4所述的基于多任务学习的嵌入式知识图谱补全方法，其特征在于，所述将样本事物实体和样本关系实体进行全局向量表示，得到样本事物实体全局向量和样本关系实体全局向量，具体包括：

通过如下公式确定样本事物实体全局向量：

通过如下公式确定样本关系实体全局向量：

其中，

为与集合N_r中任一关系实体r存在连接关系的尾实体的集合，

d(l)为第l层隐藏层输出向量的维度，σ()为激活函数，W^l为所述第l层隐藏层的待优化权重矩阵，R′为下一层关系矩阵，R为关系矩阵，W^R为关系参数矩阵，α为权重参数，N_R为存在关系连接的实体集合，e为集合N_R中任一实体。

6.根据权利要求5所述的基于多任务学习的嵌入式知识图谱补全方法，其特征在于，所述任一知识图谱的特定任务表示层，将自身持有的样本事物实体特定表示向量结合输入的所述样本事物实体全局向量得到样本事物实体目标嵌入式表示向量，还将自身持有的样本关系实体特定表示向量结合输入的所述样本关系实体全局向量得到样本关系实体目标嵌入式表示向量，具体包括：

对于任一知识图谱k的特定任务表示层，

当样本事物实体为第一头实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

其中，h(k)为所述任一知识图谱k的特定任务表示层自身持有的所述第一头实体特定表示向量，h(s)为所述全局共享层输出的所述第一头实体全局向量，M_h为所述任一知识图谱k的特定任务表示层的待优化头实体权重矩阵；

当样本事物实体为第一尾实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

其中，t(k)为所述任一知识图谱k的特定任务表示层自身持有的所述第一尾实体特定表示向量，t(s)为所述全局共享层输出的所述第一尾实体全局向量，M_t为所述任一知识图谱k的特定任务表示层的待优化尾实体权重矩阵；

当样本事物实体为第一关系实体时，

所述样本事物实体目标嵌入式表示向量

通过如下公式确定：

其中，r(k)为所述任一知识图谱k的特定任务表示层自身持有的所述第一关系实体特定表示向量，r(s)为所述全局共享层输出的所述第一关系实体全局向量，M_r为所述任一知识图谱k的特定任务表示层的待优化关系实体权重矩阵。

7.根据权利要求6所述的基于多任务学习的嵌入式知识图谱补全方法，其特征在于，所述基于所述正例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量，以及所述负例中样本事物实体目标嵌入式表示向量、样本关系实体目标嵌入式表示向量和另一事物实体预测目标嵌入式表示向量构建损失函数，具体包括：

d(h+r，t)＝||(h^(k)+M_hh^(s))+(r^(k)+M_rr^(s))-(t^(k)+M_tt^(s))||d(h’+r，t’)

＝||(h’^(k)+M_hh’^(s))+(r^(k)+M_rr^(s))-(t’^(k)+M_tt’^(s))||

其中，T为所述正例的集合，T，为所述负例的集合，(h，r，t)∈T，(h，r，t)为正例集合T中任一存在头-关系-尾两个连接的实体三元组，(h’，r，t’)∈T’，(h’，r，t’)为负例集合T’中任一仅存在头-关系或者关系-尾一个连接的实体三元组，K为参与所述实体嵌入式表示模型训练的所有知识图谱集合。

8.一种基于多任务学习的嵌入式知识图谱补全装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的基于多任务学习的嵌入式知识图谱补全方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于多任务学习的嵌入式知识图谱补全方法的步骤。