CN113377964A

CN113377964A - 知识图谱链接预测方法、装置、设备及存储介质

Info

Publication number: CN113377964A
Application number: CN202110739050.1A
Authority: CN
Inventors: 刘进; 王维川; 谢志文; 黄勃
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-10
Anticipated expiration: 2041-06-30
Also published as: CN113377964B

Abstract

本发明公开了一种知识图谱链接预测方法、装置、设备及存储介质，所述方法通过提取知识图谱中的实体集合、关系集合及三元组集合；获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型；根据训练后的MDistMult模型进行知识图谱链接预测；能够满足预测多种关系类型，让预测更加灵活，提高了领域数据集上的链接预测的效果，避免了链接预测失效，本发明所述方法与各类数据集的契合度高，链接预测结果准确性更高，扩展性更好，提高了知识图谱链接预测的精确度和效率。

Description

知识图谱链接预测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种知识图谱链接预测方法、装置、设备及存储介质。

背景技术

知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法；知识图谱在应用时经常会遇到一个问题，即知识图谱知识缺失问题，缺失的知识会影响使用知识图谱开展任务的准确率和其他性能；现有的知识补全的方法是通过预测知识图谱中潜在的可能三元组来补全知识图谱。

目前主流方法是知识嵌入相关的方法，通过设计单一评分函数模型或者神经网络模型来进行实体预测，这些方法在公开数据集上能取得一定的效果，但是在领域数据集上，如医药领域和化学领域知识图谱数据集上效果仍然较差；现有链接预测方法没有考虑利用知识嵌入来学习实体及关系隐含特征，面对领域数据集中未知的关系类型，很容易失效。

发明内容

本发明的主要目的在于提供一种知识图谱链接预测方法、装置、设备及存储介质，旨在解决现有技术中链接预测模型单一，在领域数据集上的预测效果较差，容易失效的技术问题。

第一方面，本发明提供一种知识图谱链接预测方法，所述知识图谱链接预测方法包括以下步骤：

提取知识图谱中的实体集合、关系集合及三元组集合；

获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型；

根据训练后的MDistMult模型进行知识图谱链接预测。

可选地，所述提取知识图谱中的实体集合、关系集合及三元组集合，包括：

采用json包导入知识图谱中的数据；

根据预设关键词对json包中的图谱数据进行抽取，获得实体集合、关系集合及三元组集合。

可选地，所述获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型之前，所述知识图谱链接预测方法还包括：

根据字典编号算法对所述实体集合中的实体和关系集合中的关系进行编号，获得编号后的实体和关系。

可选地，所述获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型，包括：

对所述实体集合中的各实体进行初始化，获得初始化向量，并对所述关系集合中的各关系进行初始化，获得初始矩阵；

将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型。

可选地，所述对所述实体集合中的各实体进行初始化，获得初始化向量，并对所述关系集合中的各关系进行初始化，获得初始矩阵，包括：

对所述实体集合中的各实体初始化为多维零向量，根据预设第一概率密度函数对所述多维零向量进行初始化，获得初始化向量；

获取所述关系集合中的各关系进行初始化，获得对角矩阵；

获取所述对角矩阵对应的对角元素数量，根据所述对角元素数量确定矩阵初始化参数数量；

根据所述矩阵初始化参数数量和预设第二概率密度函数对所述对角矩阵进行初始化分布，获得初始矩阵。

可选地，所述将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型，包括：

获取MDistMult模型中各个DistMult计算模块的评价函数；

根据所述评价函数确定所述MDistMult模型的损失函数；

根据预设训练集抽取比例抽取所述三元组集合中的三元组数据，生成训练集，以所述训练集中的三元组为基本输入单位，将所述基本输入单位中的实体及关系对应的初始向量和初始矩阵输入到MDistMult模型中进行训练，在检测到所述损失函数不再减少时训练结束，保存训练参数，并获得训练后的MDistMult模型。

可选地，所述根据训练后的MDistMult模型进行知识图谱链接预测，包括：

根据预设抽取比例从所述三元组集合中抽取三元组数据，生成测试集；

将所述测试集中的头实体或者尾实体用未知实体进行替换处理，获得处理后的测试集；

将处理后的测试集中的替换实体用其他实体替换，生成新三元组；

获得新三元组中各实体的字典编号，通过所述字典编号查询对应的目标参数化实体向量和目标关系对角矩阵；

将所述目标参数化实体向量和所述目标关系对角矩阵输入训练后的MDistMult模型，获得各替换实体对应所述新三元组的正确概率；

对各替换实体的正确概率进行降序排序，将获得的排序作为所述三元组集合的知识图谱链接预测的排名字典编号算法。

第二方面，为实现上述目的，本发明还提出一种知识图谱链接预测装置，所述知识图谱链接预测装置包括：

提取模块，用于提取知识图谱中的实体集合、关系集合及三元组集合；

训练模块，用于获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型；

预测模块，用于根据训练后的MDistMult模型进行知识图谱链接预测。

第三方面，为实现上述目的，本发明还提出一种知识图谱链接预测设备，所述知识图谱链接预测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的知识图谱链接预测程序，所述知识图谱链接预测程序配置为实现如上文所述的知识图谱链接预测方法的步骤。

第四方面，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有知识图谱链接预测程序，所述知识图谱链接预测程序被处理器执行时实现如上文所述的知识图谱链接预测方法的步骤。

本发明提出的知识图谱链接预测方法，通过提取知识图谱中的实体集合、关系集合及三元组集合；获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型；根据训练后的MDistMult模型进行知识图谱链接预测；能够满足预测多种关系类型，让预测更加灵活，提高了领域数据集上的链接预测的效果，避免了链接预测失效，与各类知识图谱数据集的契合度高，链接预测结果准确性更高，扩展性更好，提高了知识图谱链接预测的速度和效率。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明知识图谱链接预测方法第一实施例的流程示意图；

图3为本发明知识图谱链接预测方法第二实施例的流程示意图；

图4为本发明知识图谱链接预测方法第三实施例的流程示意图；

图5为本发明知识图谱链接预测方法第四实施例的流程示意图；

图6为本发明知识图谱链接预测方法第五实施例的流程示意图；

图7为本发明知识图谱链接预测方法中关系矩阵初始化示意图；

图8为本发明知识图谱链接预测方法第六实施例的流程示意图；

图9为本发明知识图谱链接预测方法中DistMult模块架构示意图；

图10为本发明知识图谱链接预测方法中MDistMult模块架构示意图；

图11为本发明知识图谱链接预测方法第七实施例的流程示意图；

图12为本发明知识图谱链接预测装置第一实施例的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的解决方案主要是：通过提取知识图谱中的实体集合、关系集合及三元组集合；获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型；根据训练后的MDistMult模型进行知识图谱链接预测；能够满足预测多种关系类型，让预测更加灵活，提高了领域数据集上的链接预测的效果，避免了链接预测失效，与各类知识图谱数据集的契合度高，链接预测结果准确性更高，扩展性更好，提高了知识图谱链接预测的速度和效率，解决了现有技术中链接预测模型单一，在领域数据集上的预测效果较差，容易失效的技术问题。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图1所示，该设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(Non-Volatile Memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对该设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及知识图谱链接预测程序。

本发明设备通过处理器1001调用存储器1005中存储的知识图谱链接预测程序，并执行以下操作：

提取知识图谱中的实体集合、关系集合及三元组集合；

根据训练后的MDistMult模型进行知识图谱链接预测。

本发明设备通过处理器1001调用存储器1005中存储的知识图谱链接预测程序，还执行以下操作：

采用json包导入知识图谱中的数据；

获取所述关系集合中的各关系进行初始化，获得对角矩阵；

根据所述矩阵初始化参数数量和预设第二概率密度函数对所述对角矩阵进行均匀分布，获得初始矩阵。

获取MDistMult模型中各个DistMult计算模块的评价函数；

根据所述评价函数确定所述MDistMult模型的损失函数；

对各替换实体的正确概率进行降序排序，将获得的排序作为所述三元组集合的知识图谱链接预测的排名。

本实施例通过上述方案，通过提取知识图谱中的实体集合、关系集合及三元组集合；获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型；根据训练后的MDistMult模型进行知识图谱链接预测；能够满足预测多种关系类型，让预测更加灵活，提高了领域数据集上的链接预测的效果，避免了链接预测失效，与各类知识图谱数据集的契合度高，链接预测结果准确性更高，扩展性更好，提高了知识图谱链接预测的速度和效率。

基于上述硬件结构，提出本发明知识图谱链接预测方法实施例。

参照图2，图2为本发明知识图谱链接预测方法第一实施例的流程示意图。

在第一实施例中，所述知识图谱链接预测方法包括以下步骤：

步骤S10、提取知识图谱中的实体集合、关系集合及三元组集合。

需要说明的是，知识图谱对应的数据集中有对应的实体数据、关系数据以及三元组数据，通过分别将所述知识图谱中的实体数据、关系数据以及三元组数据进行提取整合能够获得实体集合、关系集合及三元组集合。

步骤S20、获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型。

可以理解的是，通过使用初始化向量方法能够获得所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，通过将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，能够获得训练后的MDistMult模型，所述MDistMult模型为包含多个DistMult模块的模型，DistMult模块为知识图谱嵌入-语义匹配模型模块，所述MDistMult模型采用双线性方法计算，同时包含多个评分函数。

步骤S30、根据训练后的MDistMult模型进行知识图谱链接预测。

应当理解的是，通过训练后的MDistMult模型能够进行知识图谱链接预测，提高了知识图谱链接预测的速度和效率。

进一步地，图3为本发明知识图谱链接预测方法第二实施例的流程示意图，如图3所示，基于第一实施例提出本发明知识图谱链接预测方法第二实施例，在本实施例中，所述步骤S10具体包括以下步骤：

步骤S11、采用json包导入知识图谱中的数据。

需要说明的是，考虑到知识图谱数据集提供的数据为json格式，可以采用python中json包导入对应数据。

应当理解的是，可以由应用程序接口(Application Programming Interface，API)下载，或者网页爬取等方式中采集实体集合、关系集合及三元组集合，本实施例对此不加以限制。

步骤S12、根据预设关键词对json包中的图谱数据进行抽取，获得实体集合、关系集合及三元组集合。

可以理解的是，所述预设关键词为预先设置的用于提取知识图谱中相应不同图谱数据的关键词，通过所述预设关键词抽取所有的实体、关系以及三元组，分别进行数据汇总整合，从而获得实体集合、关系集合及三元组集合。

在具体实现中，在对知识图谱的图谱数据进行提取之前会进行基本数据处理，因此不需要再进行去重等数据清洗操作，方便了后续预测实验进行。

本实施例通过上述方案，通过采用json包导入知识图谱中的数据；根据预设关键词对json包中的图谱数据进行抽取，获得实体集合、关系集合及三元组集合，能够保证链接预测的数据准确性，提高了知识图谱链接预测的速度和效率。

进一步地，图4为本发明知识图谱链接预测方法第三实施例的流程示意图，如图4所示，基于第一实施例提出本发明知识图谱链接预测方法第三实施例，在本实施例中，所述步骤S20之前，所述知识图谱链接预测方法还包括以下步骤：

步骤S201、根据字典编号算法对所述实体集合中的实体和关系集合中的关系进行编号，获得编号后的实体和关系。

需要说明的是，所述字典编号算法为预先设置的字典编号规则数据，通过字典编号算法可以对所述实体集合中的实体和关系集合中的关系进行编号，获得编号后的实体和关系，字典编号方便计算机处理知识图谱中的实体和关系数据，提高最后的链接预测速度。

在具体实现中，对实体/关系，按照上述知识图谱的提取顺序从1进行整数编号，每次编号加1，以实体为例：

[e₁,e₂,e₃,..,e_i,…,e_m] (1)

[1,2,3,…,i,…m],i∈N (2)

其中公式(1)表示实体元素集合，公式(2)表示每个元素对应的字典编号，其中两个序列的顺序都为提取实体时的顺序，对于关系而言，字典编号方法相同，需要说明的是，字典编号时相同实体或关系有且只有1个编号。

本实施例通过上述方案，通过字典编号算法对所述实体集合中的实体和关系集合中的关系进行编号，获得编号后的实体和关系，提高了知识图谱链接预测的速度和效率。

进一步地，图5为本发明知识图谱链接预测方法第四实施例的流程示意图，如图5所示，基于第一实施例提出本发明知识图谱链接预测方法第四实施例，在本实施例中，所述步骤S20具体包括以下步骤：

步骤S21、对所述实体集合中的各实体进行初始化，获得初始化向量，并对所述关系集合中的各关系进行初始化，获得初始矩阵。

需要说明的是，对所述实体集合中的每个实体采用均匀分布并进行初始化后，可以获得初始化向量，相应地，对所述关系集合中的每个关系采用均匀分布并进行初始化后能够获得初始矩阵。

应当理解的是，可以是采用均匀分布初始化，也可以是正态分布，还可以是高斯分布等方法进行初始化，本实施例对此不加以限制。

步骤S22、将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型。

可以理解的是，通过将初始化后的实体向量和关系矩阵输入到MDistMu-lt模型中进行训练，能够获得训练后的MDistMult模型。

本实施例通过上述方案，通过对所述实体集合中的各实体进行初始化，获得初始化向量，并对所述关系集合中的各关系进行初始化，获得初始矩阵；将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型，能够满足预测多种关系类型，让预测更加灵活，提高了领域数据集上的链接预测的效果，避免了链接预测失效。

进一步地，图6为本发明知识图谱链接预测方法第五实施例的流程示意图，如图6所示，基于第四实施例提出本发明知识图谱链接预测方法第五实施例，在本实施例中，所述步骤S21具体包括以下步骤：

步骤S211、对所述实体集合中的各实体初始化为多维零向量，根据预设第一概率密度函数对所述多维零向量进行初始化，获得初始化向量。

需要说明的是，所述第一概率密度函数为预先设置的对多维零向量进行均匀分布的概率密度函数，对所述实体集合中的每个实体初始化后，能够生成对应的多维零向量，在对多维零向量进行均匀分布后，能够获得对应的初始化向量。

在具体实现中，对于数据集中的实体集合E，假设数据集中共有m个实体，首先将这m个实体初始化为N维零向量，即向量中的每个元素都为零，得到每个实体e_i表示如下：

e_i＝[0,0,0,…,0] (3)

其中零元素的数量等于N。

然后在程序中设定好初始化的分布为均匀分布x_i～U(a,b)，和对应的概率密度函数：

其中a和b为初始化参数，可人工进行设置，并且满足a＝-b；

初始化方法后获得的实体向量e_i如下：

e_i＝[-0.0240,-0.0323,0.0350,…,-0.0009,-0.0408] (3)

可以看到初始化后实体中N个维度元素每个都不为零，且符合均匀分布，方便后续进行模型的训练。

步骤S212、获取所述关系集合中的各关系进行初始化，获得对角矩阵。

可以理解的是，对所述关系集合中的每个关系进行初始化后，能够获得对应的对角矩阵。

步骤S213、获取所述对角矩阵对应的对角元素数量，根据所述对角元素数量确定矩阵初始化参数数量。

应当理解的是，所述对角矩阵对应有对角元素，通过计算能够获得对角元素的数量，通过所述交元素数量能够确定对应的对角元素矩阵初始化参数数量。

步骤S214、根据所述矩阵初始化参数数量和预设第二概率密度函数对所述对角矩阵进行均匀分布，获得初始矩阵。

可以理解的是，所述预设第二概率密度函数为预先设置的对对角矩阵进行均匀分布的概率密度函数，通过所述矩阵初始化参数数量和预设第二概率密度函数对所述对角矩阵进行均匀分布，从而获得初始矩阵。

在具体实现中，本实施例中DistMult模块计算采用对角矩阵，故除了主对角线以外元素全部为零，对角矩阵在进行计算时，除了对角线元素外，其他矩阵元素因为为零所以计算结果全部为零；链接预测任务通常给定有三元组(h，r，t)和测试三元组(h，r，？)、(？，r，t)(其中h和t分别是头尾实体，r是关系，？是未知实体)；考虑到节约MDistMult模型计算量和减少MDistMult模型计算时的空间复杂度。所以对于每个关系矩阵，只申请对角元素数量的空间，表示为：

A_j＝diag(r₁,r₂,…,r_n),r_i∈R (5)

其中j表示关系的字典编号，此时关系矩阵的初始化可以采用附图7所示的过程，图7为本发明知识图谱链接预测方法中关系矩阵初始化示意图，但是需要强调的是关系实际上是矩阵表示，才可以与实体嵌入在DistMult模块中进行矩阵计算；关系矩阵的初始化具体过程如下：

首先将所有关系对角化矩阵中元素初始化为N个零，即初始化矩阵中的每个元素都为零。得到每个实体A_j表示如下：

A_j＝diag(0,0,0,…,0) (6)

其中零元素的数量为N。

然后在程序中设定好初始化的分布为均匀分布y_j～U(c,d)，和对应的概率密度函数：

其中c和d为初始化参数，可人工进行设置，并且满足c＝-d；

初始化方法后获得的关系矩阵A_j如下：

A_j＝diag(0.0307,-0.0234,-0.0224,…,-0.0377,-0.0020) (8)

可以看到初始化后关系矩阵中N个对角元素都不为零，且符合均匀分布，方便后续进行MDistMult模型的训练。

本实施例通过上述方案，通过对所述实体集合中的各实体初始化为多维零向量，根据预设第一概率密度函数对所述多维零向量进行初始化，获得初始化向量；获取所述关系集合中的各关系进行初始化，获得对角矩阵；获取所述对角矩阵对应的对角元素数量，根据所述对角元素数量确定矩阵初始化参数数量；根据所述矩阵初始化参数数量和预设第二概率密度函数对所述对角矩阵进行均匀分布，获得初始矩阵，能够满足预测多种关系类型，让预测更加灵活，提高了领域数据集上的链接预测的效果，避免了链接预测失效。

进一步地，图8为本发明知识图谱链接预测方法第六实施例的流程示意图，如图8所示，基于第四实施例提出本发明知识图谱链接预测方法第六实施例，在本实施例中，所述步骤S22具体包括以下步骤：

步骤S221、获取MDistMult模型中各个DistMult计算模块的评价函数。

需要说明的是，所述MDistMult模型为包含多个DistMult模块的模型，DistMult模块为知识图谱嵌入-语义匹配模型模块，所述MDistMult模型采用双线性方法计算，同时包含多个评分函数，不同的DistMult计算模块具有不同的评价函数，评价函数是实体*关系*实体。

步骤S222、根据所述评价函数确定所述MDistMult模型的损失函数。

可以理解的是，通过所述评价函数能够确定所述MDistMult模型中各个DistMult计算模块对应的损失函数，从而确定所述MDistMult模型的损失函数。

步骤S223、根据预设训练集抽取比例抽取所述三元组集合中的三元组数据，生成训练集，以所述训练集中的三元组为基本输入单位，将所述基本输入单位中的实体及关系对应的初始向量和初始矩阵输入到MDistMult模型中进行训练，在检测到所述损失函数不再减少时训练结束，保存训练参数，并获得训练后的MDistMult模型。

应当理解的是，所述预设训练集抽取比例为预先设置的用于抽取所述三元组集合中的三元组数据形成训练集的比例，所述预设训练集抽取比例可以根据实际情况进行调整，本实施例对此不加以限制，根据预设训练集抽取比例抽取所述三元组集合中的三元组数据，生成训练集，以所述训练集中的三元组为基本输入单位，将所述基本输入单位中的实体及关系对应的初始向量和初始矩阵输入到MDistMult模型中进行训练，在检测到所述损失函数不再减少时训练结束，即在损失函数不再减少时，可以确定此时训练结果为最真实的三元组结果，此时可以保存相关参数，并且获得训练后的MDistMult模型。

在具体实现中，将训练集T₁作为MDistMult模型的输入；

假设MDistMult模型中DistMult计算模块的数量为Q，三元组表示为(h_z,A_z,t_z)，h_z和t_z分别表示MDistMult模型中第z个DistMult计算模块的初始化头实体和尾实体向量，A_z表示MDistMult模型中第z个DistMult计算模块的初始化关系矩阵，其中第z个DistMult计算模块输入的头尾实体向量为：

h_z＝[x₁,x₂,…,x_n],x_iz∈R,z＝1,2,3,…,Q (9)

t_z＝[x₁,x₂,…,x_n],x_iz∈R,z＝1,2,3,…,Q (10)

其中实体维度为N，z表示对应的第z个DistMult计算模块。

同理，第z个DistMult计算模块输入的关系矩阵为：

A_z＝diag(r₁,r₂,…,r_n),r_i∈R,z＝1,2,3,…,Q (11)

其中对角矩阵参数数量为N，z表示对应的第z个DistMult计算模块；

同时需要说明的是输入的所有实体向量和关系矩阵都采用上述实施例的向量初始化方法，共初始化Q次以满足输入的需要；

步骤4.2：构建DistMult模块评分函数f_rz＝(h,t)；

如附图9所示，图9为本发明知识图谱链接预测方法中DistMult模块架构示意图，对于每个DistMult模块，构建评分函数f_rz＝(h,t)如下:

其中f_rz(h,t)表示第z个DistMult模块的评分函数，h_z和t_z表示输入到第z个DistMult模块的三元组的头实体和尾实体的对应实体向量表示，

表示头实体的转置矩阵，A_jz表示输入到第z个DistMult模块的三元组的关系矩阵表示，附图9中可以看到头尾实体和关系的参数化表示，最后评分函数可以为每个三元组计算出一个值，这个值可以用来判断该三元组是否存在于数据集中，值越大表示越可能存在；

步骤4.3：构建MDistMult模型的评分函数f_all＝(h,t):

如附图10所示，图10为本发明知识图谱链接预测方法中MDistMult模块架构示意图，将每个DistMult模块的评分函数进行累加，得到构建的MDistMult的评分函数：

其中f_rz(h,t)为第z个DistMult模块的评分函数；

步骤4.4：训练MDistMult模型：

训练时，首先定义每个DistMult模块对应评分函数的损失函数：

loss_z＝-log P_i(t|h,r) (15)

其中，P_z(t|h,r)是尾实体t在第z个DistMult模块的评分函数计算对应的概率，概率越大表示其越为真实存在的提取到的三元组。

同理，对于MDsitMult模型的评分函数的损失函数对应为：

loss_all＝-log P_all(t|h,r) (17)

其中，P_all(t|h,r)是尾实体t在MDistMult模型的评分函数计算对应的概率，概率越大表示其越为真实存在的提取到的三元组。

最后我们将每个DistMult模块的损失函数和MDistMult模型的损失函数相加得到最后的MDsitMult模型的损失函数：

Loss＝loss_all+∑_zloss_z (18)

然后我们将所有实体嵌入和关系矩阵中参数作为训练目标，对损失函数Loss采用神经网络的链式求导方法进行训练，最终当损失函数Loss不再减少时训练结束，训练选择Adam作为优化算法，最终训练完成时保存所有参数。

如附图10所示，输入每个DistMult模型的三元组中，尾实体向量的颜色相同，这表示MDistMult模型共享每个DistMult模块计算时的尾实体向量，即：

t_i1＝t_i2＝…＝t_iz＝…＝t_in,n＝Q (19)

其中i表示尾实体的字典编号，Q为DistMult模块的数量，这样理论上每个实体和关系需要初始化N+1次。

本实施例通过上述方案，通过获取MDistMult模型中各个DistMult计算模块的评价函数；根据所述评价函数确定所述MDistMult模型的损失函数；根据预设训练集抽取比例抽取所述三元组集合中的三元组数据，生成训练集，以所述训练集中的三元组为基本输入单位，将所述基本输入单位中的实体及关系对应的初始向量和初始矩阵输入到MDistMult模型中进行训练，在检测到所述损失函数不再减少时训练结束，保存训练参数，并获得训练后的MDistMult模型；能够满足预测多种关系类型，让预测更加灵活，提高了领域数据集上的链接预测的效果，避免了链接预测失效，与各类知识图谱数据集的契合度高，链接预测结果准确性更高，扩展性更好，提高了知识图谱链接预测的速度和效率。

进一步地，图11为本发明知识图谱链接预测方法第七实施例的流程示意图，如图11所示，基于第一实施例提出本发明知识图谱链接预测方法第七实施例，在本实施例中，所述步骤S30具体包括以下步骤：

步骤S31、根据预设抽取比例从所述三元组集合中抽取三元组数据，生成测试集。

需要说明的是，所述预设抽取比例为预先设置的三元组集合分配抽取比例，通过所述预设抽取比例从所述三元组集合中抽取三元组数据，能够生成测试集，例如按照9:1比例将抽取到的三元组集合T分为训练集T₁和测试集T₂。

步骤S32、将所述测试集中的头实体或者尾实体用未知实体进行替换处理，获得处理后的测试集。

可以理解的是，可以用未知实体替换头实体和尾实体，对于划分出来的测试集T₂，将测试集三元组中的头或者尾实体用未知实体进行替代，即(h,r,t)替换为(h,r,？)或(？,r,t)，其中h和t分别是头尾实体，r是关系，？是未知实体。

步骤S33、将处理后的测试集中的替换实体用其他实体替换，生成新三元组。

应当理解的是，通过将处理后的测试集中的替换实体用其他实体替换能够生成新的三元组。

步骤S34、获得新三元组中各实体的字典编号，通过所述字典编号查询对应的目标参数化实体向量和目标关系对角矩阵。

可以理解的是，通过获得新三元组中各实体的字典编号，将所述字典编号输入到训练好的MDistMult模型中，MDistMult模型中每个DistMult模块通过字典编号可以查询出对应实体和关系的参数化向量和参数化对角矩阵。

步骤S35、将所述目标参数化实体向量和所述目标关系对角矩阵输入训练后的MDistMult模型，获得各替换实体对应所述新三元组的正确概率。

应当理解的是，通过将所述目标参数化和所述目标关系对角矩阵输入训练后的MDistMult模型，能够计算获得不同的替换实体对应所述新三元组的正确概率。

步骤S36、对各替换实体的正确概率进行降序排序，将获得的排序作为所述三元组集合的知识图谱链接预测的排名。

可以理解的是，在对各替换实体的正确概率进行降序排序后，能够获得对应的排序顺序，可以将该排序顺序作为所述三元组集合的知识图谱链接预测的排名，从而完成对知识图谱链接预测。

在具体实现中，每个DistMult模块对应的实体及关系参数都不相同，但是三元组尾实体因为共享原因向量参数相同；将对应三元组参数化向量和矩阵通过每个DistMult进行矩阵运算后，通过下述公式计算得到每个替换实体对应三元组正确的概率：

当计算出替换实体对应三元组的概率越大，则表示该替换实体为正确预测的概率越大，然后将所有替换实体计算出的概率降序排序得到链接预测的排名。最后通过链接预测的常用度量值来查看模型的性能；需要说明的是，本发明在Q设定为4时，在平均倒数排名(Mean Reciprocal Rank，MRR)指标上达到了0.244。

本实施例通过上述方案，通过根据预设抽取比例从所述三元组集合中抽取三元组数据，生成测试集；将所述测试集中的头实体或者尾实体用未知实体进行替换处理，获得处理后的测试集；将处理后的测试集中的替换实体用其他实体替换，生成新三元组；获得新三元组中各实体的字典编号，通过所述字典编号查询对应的目标参数化实体向量和目标关系对角矩阵；将所述目标参数化实体向量和所述目标关系对角矩阵输入训练后的MDistMult模型，获得各替换实体对应所述新三元组的正确概率；对各替换实体的正确概率进行降序排序，将获得的排序作为所述三元组集合的知识图谱链接预测的排名；能够提取更多知识图谱中实体与关系的特征，满足预测多种关系类型，让预测更加灵活，提高了领域数据集上的链接预测的效果，避免了链接预测失效，与各类知识图谱数据集的契合度高，链接预测结果准确性更高，扩展性更好，提高了知识图谱链接预测的速度和效率。

相应地，本发明进一步提供一种知识图谱链接预测装置。

参照图12，图12为本发明知识图谱链接预测装置第一实施例的功能模块图。

本发明知识图谱链接预测装置第一实施例中，该知识图谱链接预测装置包括：

提取模块10，用于提取知识图谱中的实体集合、关系集合及三元组集合。

训练模块20，用于获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型。

预测模块30，用于根据训练后的MDistMult模型进行知识图谱链接预测。

所述提取模块10，还用于采用json包导入知识图谱中的数据；根据预设关键词对json包中的图谱数据进行抽取，获得实体集合、关系集合及三元组集合。

所述训练模块20，还用于根据字典编号算法对所述实体集合中的实体和关系集合中的关系进行编号，获得编号后的实体和关系。

所述训练模块20，还用于对所述实体集合中的各实体进行初始化，获得初始化向量，并对所述关系集合中的各关系进行初始化，获得初始矩阵；将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型。

所述训练模块20，还用于对所述实体集合中的各实体初始化为多维零向量，根据预设第一概率密度函数对所述多维零向量进行初始化，获得初始化向量；获取所述关系集合中的各关系进行初始化，获得对角矩阵；获取所述对角矩阵对应的对角元素数量，根据所述对角元素数量确定矩阵初始化参数数量；根据所述矩阵初始化参数数量和预设第二概率密度函数对所述对角矩阵进行均匀分布，获得初始矩阵。

所述训练模块20，还用于获取MDistMult模型中各个DistMult计算模块的评价函数；根据所述评价函数确定所述MDistMult模型的损失函数；根据预设训练集抽取比例抽取所述三元组集合中的三元组数据，生成训练集，以所述训练集中的三元组为基本输入单位，将所述基本输入单位中的实体及关系对应的初始向量和初始矩阵输入到MDistMult模型中进行训练，在检测到所述损失函数不再减少时训练结束，保存训练参数，并获得训练后的MDistMult模型。

所述预测模块30，还用于根据预设抽取比例从所述三元组集合中抽取三元组数据，生成测试集；将所述测试集中的头实体或者尾实体用未知实体进行替换处理，获得处理后的测试集；将处理后的测试集中的替换实体用其他实体替换，生成新三元组；获得新三元组中各实体的字典编号，通过所述字典编号查询对应的目标参数化实体向量和目标关系对角矩阵；将所述目标参数化实体向量和所述目标关系对角矩阵输入训练后的MDistMult模型，获得各替换实体对应所述新三元组的正确概率；对各替换实体的正确概率进行降序排序，将获得的排序作为所述三元组集合的知识图谱链接预测的排名。

其中，知识图谱链接预测装置的各个功能模块实现的步骤可参照本发明知识图谱链接预测方法的各个实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有知识图谱链接预测程序，所述知识图谱链接预测程序被处理器执行时实现如下操作：

提取知识图谱中的实体集合、关系集合及三元组集合；

根据训练后的MDistMult模型进行知识图谱链接预测。

进一步地，所述知识图谱链接预测程序被处理器执行时还实现如下操作：

采用json包导入知识图谱中的数据；

获取所述关系集合中的各关系进行初始化，获得对角矩阵；

获取MDistMult模型中各个DistMult计算模块的评价函数；

根据所述评价函数确定所述MDistMult模型的损失函数；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种知识图谱链接预测方法，其特征在于，所述知识图谱链接预测方法还包括：

提取知识图谱中的实体集合、关系集合及三元组集合；

根据训练后的MDistMult模型进行知识图谱链接预测。

2.如权利要求1所述的知识图谱链接预测方法，其特征在于，所述提取知识图谱中的实体集合、关系集合及三元组集合，包括：

采用json包导入知识图谱中的数据；

3.如权利要求1所述的知识图谱链接预测方法，其特征在于，所述获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型之前，所述知识图谱链接预测方法还包括：

4.如权利要求1所述的知识图谱链接预测方法，其特征在于，所述获取所述实体集合中实体的初始向量以及所述关系集合中关系的初始矩阵，将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型，包括：

5.如权利要求4所述的知识图谱链接预测方法，其特征在于，所述对所述实体集合中的各实体进行初始化，获得初始化向量，并对所述关系集合中的各关系进行初始化，获得初始矩阵，包括：

获取所述关系集合中的各关系进行初始化，获得对角矩阵；

6.如权利要求4所述的知识图谱链接预测方法，其特征在于，所述将所述初始向量和初始矩阵输入到MDistMult模型中进行训练，获得训练后的MDistMult模型，包括：

获取MDistMult模型中各个DistMult计算模块的评价函数；

根据所述评价函数确定所述MDistMult模型的损失函数；

7.如权利要求1-6中任一项所述的知识图谱链接预测方法，其特征在于，所述根据训练后的MDistMult模型进行知识图谱链接预测，包括：

8.一种知识图谱链接预测装置，其特征在于，所述知识图谱链接预测装置包括：

9.一种知识图谱链接预测设备，其特征在于，所述知识图谱链接预测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的知识图谱链接预测程序，所述知识图谱链接预测程序配置为实现如权利要求1至7中任一项所述的知识图谱链接预测方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有知识图谱链接预测程序，所述知识图谱链接预测程序被处理器执行时实现如权利要求1至7中任一项所述的知识图谱链接预测方法的步骤。