CN113806561A

CN113806561A - 一种基于实体属性的知识图谱事实补全方法

Info

Publication number: CN113806561A
Application number: CN202111184099.1A
Authority: CN
Inventors: 黄震; 王艺霖; 李东升; 郭敏; 杨东; 杨森; 孙鼎
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2021-12-17

Abstract

本发明涉及一种基于实体属性的知识图谱事实补全方法，目的是提高知识图谱事实预测的平均精度均值，补全更可靠的事实。技术方案是：构建由数据预处理模块、事实预测网络、事实补全模块构成的基于路径的知识图谱事实补全系统。根据用户需要进行补全的知识图谱，数据预处理模块准备训练数据、验证数据和补全数据。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五部分构成，使用训练数据和验证数据对网络进行训练和验证；训练好的事实预测网络对补全数据进行预测得到预测结果，事实补全模块根据预测结果将知识图谱补全。采用本发明可提升事实预测网络预测的平均精度均值，使得补全到知识图谱中的事实可信度更高。

Description

一种基于实体属性的知识图谱事实补全方法

技术领域

本发明涉及知识图谱补全领域，具体涉及一种基于实体属性的对知识图谱进行事实补全的方法。

背景技术

知识图谱是结构化的语义知识库，能够记录世界中的实体及其之间的关系，为海量数据的存储提供了一种较好的组织和管理手段，比如DBpedia、YAGO、Freebase、NELL等著名的开源知识图谱。知识图谱是人工智能领域的重要研究内容之一，目前已经在搜索引擎、智能对话、用户推荐等众多领域得到了广泛的实际应用，渗透到了金融、医疗、教育等众多行业。

知识图谱中存储的一个事实通常可以表示为一个三元组的形式，即(头实体，关系，尾实体)，其中头实体和尾实体分别对应知识图谱中的两个节点，关系对应连接这两个节点的边。但是由于知识图谱存储的事实通常是从互联网上海量、异构、动态的数据资源中自动挖掘出来的，而这些数据无法包含所有事实，因此构建的知识图谱通常是不完整的。知识图谱中缺失的事实给实际应用带来了很多挑战，比如由于事实的不完整加大了推理的难度，降低了应用的覆盖性和准确性，导致给用户的推荐不精准、智能搜索的答案不全面等问题。因此，兴起了知识图谱补全任务，即基于现有知识图谱中的事实补全缺失事实。根据知识图谱中的元素可以将知识图谱补全分为事实预测(factprediction)、关系预测(relationprediction)、链接预测(linkprediction)三个子任务。事实预测，即为给定头实体、关系和尾实体，预测(头实体，关系，尾实体)是否成立；关系预测，即为给定头实体和尾实体，预测他们之间存在的关系；链接预测，即为给定关系和一个头实体(尾实体)，预测该实体通过该关系链接的尾实体(头实体)。使用这三种子任务中的任一种都可以对知识图谱中缺失的事实进行补全。

进行知识图谱事实预测的方法中，基于路径的方法一般抽取三元组(头实体，关系，尾实体)中头实体和尾实体之间的路径并提取路径特征(路径表示)，然后通过建立路径特征与关系的联系，判断头实体和尾实体之间是否存在该关系，如果存在则将该三元组看作缺失的事实并补全。该方法具有较强的可解释性，并且对路径信息的学习可以同时考虑实体和关系，并能建模他们之间存在的显式及隐式的模式。

在基于路径的知识图谱补全方法中，如何利用实体间路径的信息进行预测是一个重要研究点。现有的方法着重研究如何使用路径上实体和关系的信息获取路径的特征，以此提高路径表示的准确性，从而提升根据路径信息判断实体间关系的平均精度均值(MeanAveragePrecision)。

由于知识库中实体数量较大，因此直接使用实体本身会导致模型学习的路径表示较为稀疏，这能够拉大不同路径的差异性，易于区分不同的路径(判别性好)。但是这会导致模型难以提取相似路径之间的共同特征，因此很难将从一些路径中学到的知识用于指导相似路径进行相似的推理(泛化性差)，导致预测的平均精度均值低。为了在保持模型判别能力的同时提高泛化能力，以提升模型预测的平均精度均值，现有的方法致力于使用实体的类型信息代替实体本身去学习路径的表示。这是因为不同的实体一般具有不同的类型信息，且实体的类型信息可以表示实体在路径中所表示的语义，因此实体的类型兼具判别性和泛化性，从而可以提升模型预测的平均精确度。

然而，如何提升模型预测的平均精度均值，补全更可信的知识还存在很多挑战。第一，并不是知识图谱中的所有实体都能获得对应的实体类型，而且获得的实体类型也许只能部分地刻画实体信息，导致实体的信息表达不够全面，提取的路径特征不够准确，影响预测的平均精度均值。第二，实体与不同关系相连时一般会表达不同的语义(对应不同的类型)，实体的不同类型具有不同的抽象层次，因此如何准确选择路径中能够代表实体所表达语义并且具有合适的抽象层次的实体类型是一个难点。选择代表实体所表达语义的类型才会使得提取的路径特征准确，选择抽象层次合适的类型才会使得路径的特征兼具判别性和泛化性(选择语义更抽象的类型，则模型的泛化性更好；选择语义更具体的类型，则模型的判别性更好)，从而才能提升模型根据提取的路径特征预测实体间关系的精确度。

发明内容

本发明要解决的技术问题是：针对路径中实体语义信息不全面以及实体语义信息选择难度大，导致路径特征提取不够准确的问题，提出一种基于实体属性的知识图谱事实补全方法。该方法将知识图谱中与实体相连的关系作为该实体除了实体类型之外的另一种语义信息：实体属性，并同时捕获正反向路径序列上实体表达的语义所对应的属性信息和类型信息作为实体的语义信息，从而更全面更准确的提取路径的特征，提高知识图谱事实预测的平均精度均值，补全更可靠的事实。

为解决上述技术问题，本发明的技术方案是：构建由数据预处理模块、事实预测网络、事实补全模块构成的基于路径的知识图谱事实补全系统。根据用户需要进行补全的知识图谱(包含实体集合、关系集合、以及事实集合)，数据预处理模块准备训练数据(训练样本的数据集合和训练样本的标签集合)、验证数据(验证样本的数据集合和验证样本的标签集合)、以及补全数据(补全样本的数据集合)，输出给事实预测网络。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五部分构成。事实预测网络使用数据预处理模块输出的训练数据采用Adam方法进行训练，得到网络权重参数，事实预测网络使用数据预处理模块输出的验证数据进行验证，保存最优的网络权重参数。训练好的事实预测网络对数据预处理模块输出的补全数据进行预测，得到补全样本的预测概率集合，事实补全模块根据预测概率集合判断是否需要将补全样本补全到知识图谱中。

本发明主要包括以下步骤：

第一步：构建基于路径的知识图谱事实补全系统。该系统由数据预处理模块、事实预测网络、事实补全模块构成。

数据预处理模块与事实预测网络相连，接收用户输入的知识图谱，对用户输入的知识图谱进行预处理，得到训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合)，输出给事实预测网络，并将补全样本的数据集合输出给事实补全模块。数据预处理模块由路径抽取函数f_ExtractPath和路径预处理函数f_{PreprocessPaths}构成，其中f_ExtractPath从知识图谱中抽取每个样本的实体之间的路径信息，f_{PreprocessPaths}将每个样本的实体间路径信息处理为事实预测网络需要的数据结构。将知识图谱中的实体集合、关系集合、事实集合分别记为E＝{e_i}，R＝{r_j}和

将实体的属性集合记为A＝{a_v}，将实体的类型集合记为L＝{l_o}，其中1≤i≤|E|，1≤i₁≤|E|，1≤i₂≤|E|，1≤j≤|R|，1≤v≤|A|,1≤o≤|L|，|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数。将r_j′记为r_j的反关系，表示若

则

根据E、R、F、A、L，数据预处理模块获取训练样本集合S_*、训练样本的标签集合Y_*、验证样本集合S_#、验证样本的标签集合Y_#、以及补全样本集合U。对于样本集合(包括训练样本集合S_*、验证样本集合S_#、补全样本集合U)中的每个样本(包括训练样本、验证样本、补全样本)，数据预处理模块先使用f_ExtractPath从知识图谱中抽取样本的实体对之间的正向路径集合，然后使用f_{PreprocessPaths}处理该正向路径集合输出样本的数据集合，构成训练样本的数据集合、验证样本的数据集合、补全样本的数据集合。

事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成。其中，嵌入层包含3个嵌入矩阵，分别为关系的嵌入矩阵W_r、实体属性的嵌入矩阵W_A、实体类型的嵌入矩阵W_L；关系编码器用于提取每条路径的关系序列特征，由一个LSTM网络构成，记为LSTM_r；实体编码器用于提取每条路径的实体序列特征(包括每条路径上实体的属性信息序列的特征和类型信息序列的特征)，由实体画像注意力网络和实体序列编码网络两个子网络构成，其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成，实体属性注意力网络由4个全连接层

构成，实体类型注意力网络由4个全连接层

构成，而实体序列编码网络由两个LSTM网络(分别记为LSTM_A和LSTM_L)及4个全连接层

构成；路径编码器由结构相同的正向路径注意力网络和反向路径注意力网络构成，其中正向路径注意力网络由2个全连接层f_p和

构成，反向路径注意力网络由2个全连接层f′_p和

构成，分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征；预测器由4个全连接层f₁,f₂，f₃和f₄构成，用于预测每个样本属于事实的概率。事实预测网络从数据预处理模块得到样本数据集合(包括训练样本的数据集合、验证样本的数据集合、补全样本的数据集合)，提取样本数据集合中每个样本的路径特征，然后计算出每个样本属于事实的概率，组成预测概率集合(包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合)。其中，(1)嵌入层接收数据预处理模块的数据，将每个关系、实体属性、实体类型、实体属性分别使用W_r、W_A、W_L转化为向量表示，然后将每个样本的每条路径的关系序列转化为向量表示(即每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入)输出给关系编码器，将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示(即每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入，和每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入)输出给实体编码器，将每个样本的查询关系和反向查询关系转化为向量表示(即每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入)也输出给实体编码器；(2)关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入，对这些嵌入进行编码，得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示，将每个样本的每条正向路径的关系表示和每条反向路径的关系表示输出给实体编码器和路径编码器；(3)实体编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示，还接收来自嵌入层的每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入、每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入、每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入，对这些嵌入进行编码，得到每个样本的每条正向路径的实体表示和每条反向路径的实体表示，将每个样本的每条正向路径的实体表示和每条反向路径的实体表示输出给路径编码器；(4)路径编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示，以及来自实体编码器的每个样本的每条正向路径的实体表示和每条反向路径的实体表示，对这些表示进行编码，得到每个样本的正向路径表示和反向路径表示，将每个样本的正向路径表示和反向路径表示输出给预测器；(5)预测器接收来自路径编码器的每个样本的正向路径表示和反向路径表示，对这些表示进行编码，得到每个样本的预测结果(即每个样本属于事实的概率)，将每个样本的预测结果组成预测概率集合。事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合，进行训练并更新网络参数；事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合，进行验证并保存最优的网络参数。如果输入事实预测网络的样本数据集合是补全样本的数据集合，则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块。

事实补全模块与数据预处理模块和事实预测网络相连接。事实补全模块接收数据预处理模块输出的补全样本的数据集合和训练好的事实预测网络输出的补全样本的预测概率集合Z，根据每个补全样本的预测概率判断补全样本的数据集合中补全样本集合U里的每个补全样本是否是需要补全的事实，如果补全样本是需要补全的事实，则将补全样本u_w(u_w∈U)添加到知识图谱的事实集合中，即令F_new＝F∪u_w，F_new为补全后的知识图谱的事实集合。

第二步：数据预处理模块根据用户输入的需要补全的知识图谱(包括E、R、F)和L、D_L、R_Q，准备训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合)。

2.1数据预处理模块接收用户输入的需要补全的知识图谱(包括实体集合E、关系集合R、事实集合F)、实体的类型集合L和每个实体对应的类型信息的字典D_L(字典的key为实体，value为实体对应的类型集合)，以及需要补全的查询关系集合R_Q＝{r_q|r_q∈R}(1≤q≤Q，Q为R_Q中元素的个数)。

2.2数据预处理模块使用路径抽取函数f_ExtractPath和路径预处理函数f_{PreprocessPaths}准备训练和验证事实预测网络需要的训练样本的数据集合和训练样本的标签集合、验证样本的数据集合和验证样本的标签集合，具体地：

2.2.1令存储所有训练样本的集合

存储所有训练样本的标签集合

存储所有训练样本的所有正向路径的关系序列的集合

存储所有训练样本的所有反向路径的关系序列的集合

存储所有训练样本的所有正向路径的实体属性信息序列集合

存储所有训练样本的所有正向路径的实体类型信息序列集合

存储所有训练样本的所有反向路径的实体属性信息序列集合

存储所有训练样本的所有反向路径的实体类型信息序列集合

2.2.2令存储所有验证样本的集合

存储所有验证样本的标签集合

存储所有验证样本的所有正向路径的关系序列的集合

存储所有验证样本的所有反向路径的关系序列的集合

存储所有验证样本的所有正向路径的实体属性信息序列集合

存储所有验证样本的所有正向路径的实体类型信息序列集合

存储所有验证样本的所有反向路径的实体属性信息序列集合

存储所有验证样本的所有反向路径的实体类型信息序列集合

2.2.3令q＝1；

2.2.4如果q≤Q，转2.2.5获取查询关系r_q下的样本数据，否则说明全部样本数据均已经处理，转2.2.18。

2.2.5设置负样本数目与正样本数目的比值为K_N|P，K_N|P为正整数，且1≤K_N|P≤10。设置样本数量阈值为K_q，K_q为正整数，且

其中

表示以r_q为关系的事实，即

表示集合

的元素数目。令查询关系r_q的样本集合为

令查询关系r_q的样本标签集合为

令查询关系r_q下所有样本的所有正向路径的关系序列的集合

查询关系r_q下所有样本的所有反向路径的关系序列的集合

查询关系r_q下所有样本的所有正向路径的实体属性信息序列集合

查询关系r_q下所有样本的所有正向路径的实体类型信息序列集合

查询关系r_q下所有样本的所有反向路径的实体属性信息序列集合

查询关系r_q下所有样本的所有反向路径的实体类型信息序列集合

2.2.6令k＝1；

2.2.7如果k≤K_q，转2.2.8获取查询关系r_q下单个样本的数据，否则说明查询关系r_q下的所有样本的数据已经获取，转2.2.14。

2.2.8随机从实体集合E中选择两个实体

和

即

1≤k₁≤|E|，1≤k₂≤|E|。构造样本s_k，

且

若

则s_k为正样本，令s_k的标签y_k＝1，若

则s_k为负样本，令s_k的标签y_k＝0。构造样本s_k时需要控制最终S_q内正负样本的比例为1：K_N|P(即每构造一个正样本，就构造K_N|P个负样本)。

2.2.9令s_k的所有正向路径的关系序列的集合

s_k的所有反向路径的关系序列的集合

s_k的所有正向路径的实体属性信息序列集合

s_k的所有正向路径的实体类型信息序列集合

s_k的所有反向路径的实体属性信息序列集合

s_k的所有反向路径的实体类型信息序列集合

2.2.10f_ExtractPath采用随机游走方法(见文献“Lao,N.；Mitchell,T.；and Cohen,W.W.2011.Random walk inference and learning in a large scale knowledgebase.In EMNLP.ACL.”，Lao等人：大规模知识库中的随机游走推理和学习)抽取样本s_k的实体

到实体

的N条正向路径，放到s_k的正向路径集合

中，其中

1≤n≤N，第n条路径p_n由实体和关系交替构成，

M为路径p_n的长度，实体

为路径p_n上第t步的实体，r_t∈R(1≤t≤M)为路径p_n上第t步的关系。即采用f_ExtractPath函数处理

得到

到

的N条正向路径的集合

2.2.11f_{PreprocessPaths}将样本s_k的正向路径集合

处理为事实预测网络需要的数据结构，得到样本s_k的查询关系r_q、反向查询关系r′_q，样本s_k的所有正向路径的关系序列的集合

所有反向路径的关系序列的集合

所有正向路径的实体属性信息序列集合

和实体的类型信息序列集合

所有反向路径的实体的属性信息序列集合

和实体的类型信息序列集合

具体为：

2.2.11.1令n＝1；

2.2.11.2如果n≤N，转2.2.11.3处理样本s_k的第n条路径的数据，否则说明样本s_k的全部路径均已经处理，转2.2.11.14。

2.2.11.3获取

中第n条路径p_n的反向路径p′_n，

2.2.11.4将p_n分为正向关系序列

和正向实体序列

2.2.11.5将p′_n分为反向关系序列

和反向实体序列

2.2.11.6获取

上所有实体的属性信息，方法是：

2.2.11.6.1令t＝1；

2.2.11.6.2如果t≤M+1，转2.2.11.6.3获取

上的第t步实体的属性信息，否则说明

上所有实体的属性信息均已经获取，转2.2.11.7。

2.2.11.6.3获取

上的第t步实体e_t的属性集合A_t，

1≤v_t≤|A_t|，|A_t|为A_t中属性的个数。本发明提出的任意一个实体的属性信息是从知识图谱中与该实体相连的关系获得的，分为两种情况进行处理：

2.2.11.6.3.1如果e_t既不是

也不是

那么e_t的属性集合就是以e_t作为头实体的所有事实构成的邻居事实集合

中的关系的集合，即

转2.2.11.6.4。

2.2.11.6.3.2如果e_t是

或者

那么e_t的属性集合就是以e_t作为头实体的所有事实去掉包含

和

作为实体的所有事实构成的邻居事实集合

中的关系的集合，即

其中

表示以

和

分别作为头实体和尾实体的事实，即

转2.2.11.6.4。

2.2.11.6.4对A_t内的属性进行排序。方法是将A_t内的全部属性根据其在

中出现的频次从高到低进行排序，频次高的属性排序在前。具体地，将e_t的第v_t个属性

在

出现的次数记为

若属性

和

的次数满足

则属性

排序在

之前，最后将e_t的属性集合记为

意味着

2.2.11.6.5令t＝t+1，转2.2.11.6.2；

2.2.11.7将

上获得的所有实体的属性信息记为

2.2.11.8将

上所有实体的属性信息记为

为

的逆序，即

2.2.11.9获取

上所有实体的类型信息，方法是：

2.2.11.9.1令t＝1；

2.2.11.9.2如果t≤M+1，转2.2.11.9.3获取

上的第t步实体的类型信息，否则说明

上所有实体的类型信息均已经获取，转2.2.11.10。

2.2.11.9.3令e_t的类型集合L_t为字典D_L中键e_t对应的值，即令L_t＝D_L[e_t]，L_t可以表示为

1≤o_t≤|L_t|，

为L_t中的第o_t个类型，|L_t|为L_t中类型的个数。

2.2.11.9.4令t＝t+1，转2.2.11.9.2；

2.2.11.10将

上获得的所有实体的类型信息记为

2.2.11.11将

上所有实体的类型信息记为

为

的逆序，即

2.2.11.12将2.2.11.4中获得的正向路径p_n的关系序列

加入集合

即令

将2.2.11.5中获得的反向路径p′_n的关系序列

加入集合

即令

将2.2.11.7获得的正向路径p_n的实体属性序列

加入集合

即令

将2.2.11.10获得的正向路径p_n的实体类型序列

加入集合

即令

将2.2.11.8获得的反向路径p′_n的实体属性序列

加入集合

即令

将2.2.11.11获得的反向路径p′_n的实体类型序列

加入集合

即令

2.2.11.13令n＝n+1,转2.2.11.2。

2.2.11.14将下述信息作为f_{PreprocessPayhs}处理样本s_k的正向路径集合

的结果：样本s_k的查询关系r_q、反向查询关系r′_q，样本s_k的所有正向路径的关系序列的集合

所有反向路径的关系序列的集合

所有正向路径的实体属性信息序列集合

和实体的类型信息序列集合

所有反向路径的实体的属性信息序列集合

和实体的类型信息序列集合

转2.2.12。

2.2.12将样本s_k和s_k的标签分别加入样本集合S_q和样本的标签集合Y_q中，即令S_q＝S_q∪{s_k}，令Y_q＝Y_q∪{y_k}；将2.2.11.14中获得的f_{PreprocessPaths}处理样本s_k的正向路径集合

的结果作为元素添加到查询关系r_q下的样本的数据集合中，即令

2.2.13令k＝k+1,转2.2.7。

2.2.14此时查询关系r_q下所有样本为S_q＝{s₁,…,s_k,…,s_K}，查询关系r_q下所有样本的标签集合为Y_q＝{y₁,…,y_k，…,y_K}，查询关系r_q下所有样本的所有正向路径的关系序列的集合

查询关系r_q下所有样本的所有反向路径的关系序列的集合

将S_q、Y_q、

按照a:c的比例分为查询关系r_q下的训练数据S_q*、Y_q*、

和验证数据S_q#、Y_q#、

a和c为正数，一般a>c，且a+c＝10，优选a:c＝7:3。

2.2.15将查询关系r_q下的所有训练数据作为元素加入总的训练数据中，即令S_*＝S_*∪{S_q*}，Y_*＝Y_*∪{Y_q*}，

2.2.16将查询关系r_q下的所有验证数据作为元素加入总的验证数据中，即令S_#＝S_#∪{S_q#}，Y_#＝Y_#∪{Y_q#}，

2.2.17令q＝q+1,转2.2.4。

2.2.18此时所有训练样本的标签集合为Y_*＝{Y₁,…,Y_q,…,Y_Q}，所有的训练样本的集合为S_*＝{S_1*,…,S_q*,…,S_Q*}，所有训练样本的所有正向路径的关系序列的集合

所有训练样本的所有反向路径的关系序列的集合

所有训练样本的所有正向路径的实体属性信息序列集合

所有训练样本的所有正向路径的实体类型信息序列集合

所有训练样本的所有反向路径的实体属性信息序列集合

所有训练样本的所有反向路径的实体类型信息序列集合

S_*、

S_*′^r、

S_*′^A、S_*′^L构成所有训练样本的数据集合；所有验证样本的标签集合为Y_#＝{Y_1#,…,Y_q#,…,Y_Q#}，所有的验证样本的集合为S_#＝{S_1#,…,S_q#,…,S_Q#}，所有验证样本的所有正向路径的关系序列的集合

所有验证样本的所有反向路径的关系序列的集合

所有验证样本的所有正向路径的实体属性信息序列集合

所有验证样本的所有正向路径的实体类型信息序列集合

所有验证样本的所有反向路径的实体属性信息序列集合

所有验证样本的所有反向路径的实体类型信息序列集合

S_#、

S′_# ^r、

S′_# ^A、S′_# ^L构成所有验证样本的数据集合，转2.3。

2.3数据预处理模块使用路径抽取函数f_ExtractPath和路径预处理函数f_{PreprocessPaths}准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合，具体地：

2.3.1令存储所有补全样本的集合

存储所有补全样本的所有正向路径的关系序列的集合

存储所有补全样本的所有反向路径的关系序列的集合

存储所有补全样本的所有正向路径的实体属性信息序列集合

存储所有补全样本的所有正向路径的实体类型信息序列集合

存储所有补全样本的所有反向路径的实体属性信息序列集合

存储所有补全样本的所有反向路径的实体类型信息序列集合

2.3.2令q＝1；

2.3.3如果q≤Q，转2.3.4获取查询关系r_q下的补全样本数据，否则说明全部补全样本数据均已经处理，转2.3.14。

2.3.4准备需要判断是否为缺失事实的查询关系r_q下的所有补全样本的集合U_q，U_q为没有被F包含的关系为r_q的三元组的集合，即

简记为

1≤w≤|U_q|，|U_q|为U_q中元素的个数，即查询关系r_q下的补全样本的总数)。

2.3.5令查询关系r_q下所有补全样本的所有正向路径的关系序列的集合

令查询关系r_q下所有补全样本的所有反向路径的关系序列的集合

令查询关系r_q下所有补全样本的所有正向路径的实体属性信息序列集合

令查询关系r_q下所有补全样本的所有正向路径的实体类型信息序列集合

令查询关系r_q下所有补全样本的所有反向路径的实体属性信息序列集合

令查询关系r_q下所有补全样本的所有反向路径的实体类型信息序列集合

2.3.6令w＝1；

2.3.7若w≤|U_q|，转2.3.8获取查询关系r_q下补全样本u_w的数据，否则说明U_q中每个补全样本的数据均已经获取，转2.3.12。

2.3.8采用步骤2.2.10所述的f_ExtractPath函数处理

得到样本u_w的实体

到实体

的N_u条正向路径信息，放到u_w的正向路径集合

中，其中

中的第n_u条路径

1≤n_u≤N_u。

2.3.9采用步骤2.2.11所述的路径预处理函数f_{PreprocessPaths}处理u_w的正向路径集合

得到样本u_w的查询关系r_q、反向查询关系r′_q，样本u_w的所有正向路径的关系序列的集合

所有反向路径的关系序列的集合

所有正向路径的实体属性信息序列集合

和实体的类型信息序列集合

所有反向路径的实体的属性信息序列集合

和实体的类型信息序列集合

2.3.10将

作为元素添加到查询关系r_q下补全样本的数据集合中，即令

2.3.11令w＝w+1,转2.3.7。

2.3.12此时U_q中每个补全样本的数据均已经获取，查询关系r_q下所有补全样本

的路径信息为：查询关系r_q下所有补全样本的所有正向路径的关系序列的集合

查询关系r_q下所有补全样本的所有反向路径的关系序列的集合

查询关系r_q下所有补全样本的所有正向路径的实体属性信息序列集合

查询关系r_q下所有补全样本的所有正向路径的实体类型信息序列集合

查询关系r_q下所有补全样本的所有反向路径的实体属性信息序列集合

查询关系r_q下所有补全样本的所有反向路径的实体类型信息序列集合

将该查询关系r_q下的所有补全样本的数据作为元素加入总的补全样本的数据中，即令U＝U∪{U_q}，

2.3.13令q＝q+1,转2.3.3。

2.3.14此时所有补全样本的集合为U＝{U₁，…,U_q,…,U_Q}，所有补全样本的所有正向路径的关系序列的集合

所有补全样本的所有反向路径的关系序列的集合

所有补全样本的所有正向路径的实体属性信息序列集合

所有补全样本的所有正向路径的实体类型信息序列集合

所有补全样本的所有反向路径的实体属性信息序列集合

所有补全样本的所有反向路径的实体类型信息序列集合

且U、U^r、U′^r、U^A、U^L、U′^A、U′^L构成所有补全样本的数据集合。转2.4。

2.4将步骤2.2得到的S_*、

输出给事实预测网络作为Q组查询关系的训练样本的数据集合，将步骤2.2得到的Y_*输出给事实预测网络作为Q组查询关系的训练样本的标签集合，将步骤2.2得到的S_#、

输出给事实预测网络作为Q组查询关系的验证样本的数据集合，将步骤2.2得到的Y_#输出给事实预测网络作为Q组查询关系的验证样本的标签集合，将步骤2.3得到的U、U^r、U′^r、U^A、U^L、U′^A、U′^L输出给事实预测网络作为Q组查询关系的补全样本的数据集合；并将补全样本的数据集合输出给事实补全模块。

第三步：采用从数据预处理模块接收的Q组查询关系的训练样本的数据集合、训练样本的标签集合、验证样本的数据集合、验证样本的标签集合对事实预测网络进行训练和验证，获取Q个事实预测网络的权重参数(注意：不同的查询关系为不同的子任务，训练得到不同的事实预测网络权重参数)。

具体方法如下：

3.1令q＝1；

3.2如果q≤Q，则转步骤3.3，否则说明所有查询关系的事实预测网络均已训练结束，得到了Q个训练好的事实预测网络，即

转步骤3.8。

3.3初始化查询关系r_q对应的事实预测网络

的权重参数，方法为：

3.3.1初始化嵌入矩阵的权重。首先将关系、实体的属性、实体的类型分别对应的3个嵌入矩阵W_r、W_A、W_L随机初始化为遵循标准正态分布的50维的向量，即各个嵌入矩阵的维度分别为：关系总数目|R|×50、实体属性的总数目|A|×50、实体类型的总数目|L|×50。虽然本发明所述的实体属性实际上属于知识图谱中的关系(即集合A＝R)，但是其作为对实体语义信息的刻画，应该具有与路径上的关系不同的含义，因此实体属性的嵌入和关系的嵌入使用不同的嵌入矩阵。

3.3.2设置LSTM网络的参数。LSTM_r、LSTM_A和LSTM_L网络的隐藏单元的维度均为150维，且LSTM_r的隐藏单元和记忆单元均使用全零初始化。

3.3.3初始化全连接层的权重矩阵和偏置向量的权重。每个全连接层均包含一个权重矩阵和一个偏置向量，权重矩阵的维度为全连接层的输出维度×全连接层的输入维度，偏置向量的维度为全连接层的输出维度。下面介绍全连接层的输入维度和输出维度，以确定全连接层对应的权重矩阵和偏置向量的维度。实体属性注意力网络中全连接层

的输入维度分别为200，150，50，50，输出维度分别为150，50，50，1；实体类型注意力网络中全连接层

的输入维度分别为200，150，50，50，输出维度分别为150，50，50，1；实体序列编码网络中全连接层

的输入维度均为150，输出维度均为150维。路径编码器中全连接层f_p，f′_p，

和

的输入维度分别为300，300，100，100，输出维度分别为100，100，1，1。预测器中全连接层f₁,f₂,f₃,f₄的输入维度分别为300，300，600，300，输出维度分别为300，300，300，1。

3.4设置事实预测网络

的训练参数:使用Adam优化算法(见文献“Diederik PKingma and Jimmy Ba.2014.Adam:A method for stochastic optimization.arXivpreprint arXiv:1412.6980(2014)，Diederik等人：Adam：一种随机优化方法”)进行网络的优化，并使用默认参数(学习率learningRate＝0.001，一阶矩估计的指数衰减率β₁＝0.9，二阶矩估计的指数衰减率β₂＝0.999，防止除以零的最小值参数∈＝1e^-8)，批数据尺寸batchsize＝16。

3.5从S_*、Y_*、

中取出关于查询关系r_q的训练数据S_q*、Y_q*、

从S_#、Y_#、

中取出关于查询关系r_q的验证数据S_q#、Y_q#、

3.6迭代计算事实预测网络

输出的预测概率与真实标签之间的差距，最小化损失并更新网络

的参数，直到满足迭代次数要求，得到权重参数。具体方法如下：

3.6.1令训练迭代参数epoch＝1，令事实预测网络对查询关系r_q的验证数据进行预测的平均精确度(AveragePrecision)的值AP_q#＝0；初始化迭代阈值EpochNum，EpochNum是[1，30]内的整数；

3.6.2如果epoch≤迭代阈值EpochNum，转3.6.2.1对查询关系r_q的事实预测网络

进行新一次的迭代训练，否则说明查询关系r_q的事实预测网络

已经满足迭代次数要求，训练结束，转3.7。

3.6.2.1令批处理次数b＝1，令已训练样本数目processednum＝0；

3.6.2.2如果

转3.6.2.2.1使用S_q*中第b个batch的训练数据对

进行训练，其中|S_q*|为训练样本集合S_q*的样本数目，否则说明S_q*中的所有训练样本已经参与过计算，该次训练迭代结束，转3.6.2.3计算在验证数据S_q#上的预测结果；

3.6.2.2.1事实预测网络的嵌入层从S_q*中读取C个样本作为第b个batch的训练数据，即一个批次的训练数据，记为样本训练批次集合S_q*,b＝{s₁,…,s_c,…,s_c}，1≤c≤C，其中C＝min(batchsize,|S_q*|-processednum)，表示取batchsize和|S_q*|-processednum中的最小值。从Y_q*、

中取出与S_q*,b的这C个样本对应的数据，分别记为标签训练批次集合Y_q*,b＝{y₁,…,y_c,…,y_C}，正向路径关系序列训练批次集合

反向路径关系序列训练批次集合

正向路径实体属性信息序列训练批次集合

和正向路径实体类型信息序列训练批次集合

反向路径实体属性信息序列训练批次集合

和反向路径实体类型信息序列训练批次集合

3.6.2.2.2采用事实预测网络预测方法f_predict，对第b个batch的数据

和查询关系r_q、查询关系的反关系r′_q进行计算，得到第b个batch的数据的预测概率集合

其中

是该批次数据中样本s_c的预测概率，

具体为：

3.6.2.2.2.1事实预测网络的嵌入层读取r_q、r′_q，以及

使用关系的嵌入矩阵W_r、实体属性的嵌入矩阵W_A、实体类型的嵌入矩阵W_L分别将数据中的关系、实体属性、实体类型映射为各自的向量表示，得到r_q、r′_q、

分别对应的向量形式

(即批次数据的查询关系的嵌入

反向查询关系的嵌入

正向路径的关系序列的嵌入

反向路径的关系序列的嵌入

正向路径的实体属性序列的嵌入

正向路径的实体类型序列的嵌入

反向路径的实体属性序列的嵌入

反向路径的实体类型序列的嵌入

)，将

发送给关系编码器和实体编码器。

3.6.2.2.2.2关系编码器提取路径的关系特征。关系编码器从嵌入层接收

和

计算该批次数据的所有正向路径的关系表示和所有反向路径的关系表示并传给实体编码器和路径编码器。正向路径的关系表示的获取与反向路径的关系表示的获取方式相同，方法是：

3.6.2.2.2.2.1将

(维度为CN×M×50，即CN条正向路径的关系序列的嵌入，其中每条正向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTM_r的一次输入，并使用LSTM_r输出的最后的隐状态，记为

(维度为CN×150)，作为这CN条正向路径的关系表示(每条正向路径的关系表示为150维)。

3.6.2.2.2.2.2将

(维度为CN×M×50，即CN条反向路径的关系序列的嵌入，其中每条反向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTM_r的一次输入，并使用LSTM_r输出的最后的隐状态，记为

(维度为CN×150)，作为这CN条反向路径的关系表示(每条反向路径的关系表示为150维)。

3.6.2.2.2.2.3将该批次数据的所有正向路径的关系表示

和所有反向路径的关系表示

输出给实体编码器和路径编码器。

3.6.2.2.2.3实体编码器提取每条路径的实体特征。实体编码器从嵌入层接收

从关系编码器接收

和

计算所有正向路径的实体表示和所有反向路径的实体表示，并传给路径编码器。正向路径的实体表示的获取与反向路径的实体表示的获取方式相同，具体的过程为：

3.6.2.2.2.3.1实体序列编码网络对正向路径的实体属性序列嵌入

和正向路径的实体类型序列嵌入

进行编码，由于属性和类型属于两种信息，因此使用两个长短时记忆循环网络(即LSTM_A和LSTM_L)分别进行编码，来捕获正向路径上实体序列的属性表示和类型表示，具体为：

3.6.2.2.2.3.1.1使用正向路径的关系表示

对LSTM_A和LSTM_L进行初始化：

3.6.2.2.2.3.1.1.1将

输入到全连接层

得到LSTM_A的第一隐藏状态

将

输入到全连接层

得到LSTM_A的第一细胞状态

3.6.2.2.2.3.1.1.2将

输入到全连接层

得到LSTM_L的第一隐藏状态

将

输入到全连接层

得到LSTM_L的第一细胞状态

3.6.2.2.2.3.1.2令t＝1。

3.6.2.2.2.3.1.3如果1≤t≤M+1，则将t、

和

传给实体画像注意力网络，转第3.6.2.2.2.3.1.4步聚合数据中所有正向路径上第t步实体的属性信息和类型信息；否则说明数据中所有正向路径上实体的属性信息和类型信息已经聚合，转3.6.2.2.2.3.1.8。

3.6.2.2.2.3.1.4实体画像注意力网络(分为实体属性注意力网络和实体类型注意力网络)对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合，作为对实体的语义信息的刻画。具体的计算过程为：

3.6.2.2.2.3.1.4.1从

(维度为(C*N)×(M+1)×|A_t|×50)中取出批数据中所有正向路径的第t步实体的属性嵌入，记为

(维度为(C*N)×|A_t|×50)；

3.6.2.2.2.3.1.4.2将

和

级联，将级联后的

和

经过全连接层

得到指导第t步属性注意力的引导变量

3.6.2.2.2.3.1.4.3实体属性注意力网络将批数据中所有正向路径的第t步实体的属性嵌入

进行聚合，方法为：

3.6.2.2.2.3.1.4.3.1令v_t＝1；

3.6.2.2.2.3.1.4.3.2若v_t≤|A_t|，转3.6.2.2.2.3.1.4.3.3获取数据中所有正向路径上第t步实体的第v_t个属性的权重，否则说明数据中所有正向路径上第t步实体的每个属性的权重均已经获取，转3.6.2.2.2.3.1.4.3.6；

3.6.2.2.2.3.1.4.3.3将

中批数据所有正向路径的第t个实体的第v_t个属性的嵌入记为

(维度为(C*N)×50)，将

输入到全连接层

得到变换后的属性嵌入

将

输入到全连接层

得到属性引导第二变量

3.6.2.2.2.3.1.4.3.4将

和

相加，将相加后的

和

经过ReLU函数(见文献“Nair V,Hinton G E.Rectified Linear Units ImproveRestricted Boltzmann Machines[C].international conference on machinelearning,2010:807-814.”，Nair和Hinton：纠正线性单位改进受限的博尔茨曼机器)激活后输入到全连接层

得到批数据所有正向路径中第t步实体的第v_t个属性的权重

3.6.2.2.2.3.1.4.3.5令v_t＝v_t+1，转3.6.2.2.2.3.1.4.3.2；

3.6.2.2.2.3.1.4.3.6将权重

进行归一化，得到归一化后批数据所有正向路径第t步实体的所有属性的权重集合

3.6.2.2.2.3.1.4.3.7使用

聚合批数据所有正向路径第t步实体的所有属性的表示，得到聚合后的批数据所有正向路径第t步实体的属性表示

即将

(维度为(C*N)×|A_t|×50)聚合后得到

(维度为(C*N)×50)，转3.6.2.2.2.3.1.4.4；

3.6.2.2.2.3.1.4.4从

(维度为(C*N)×(M+1)×|L_t|×50)中取出批数据中所有正向路径的第t步实体的类型嵌入，记为

(维度为(C*N)×|L_t|×50)；

3.6.2.2.2.3.1.4.5将

和

级联，将级联后的

和

经过全连接层

得到指导第t步类型注意力的引导变量

3.6.2.2.2.3.1.4.6实体类型注意力网络将批数据中所有正向路径的第t步实体的类型嵌入

进行聚合，方法为：

3.6.2.2.2.3.1.4.6.1令o_t＝1；

3.6.2.2.2.3.1.4.6.2若o_t≤|L_t|，转3.6.2.2.2.3.1.4.6.3获取数据中所有正向路径上第t步实体的第o_t个类型的权重，否则说明数据中所有正向路径上第t步实体的每个类型的权重均已经获取，转3.6.2.2.2.3.1.4.6.6；

3.6.2.2.2.3.1.4.6.3将

中批数据所有正向路径的第t个实体的第o_t个类型的嵌入记为

(维度为(C*N)×50)，将

输入到全连接层

得到变换后的类型嵌入

将

输入到全连接层

得到类型引导第二变量

3.6.2.2.2.3.1.4.6.4将

和

相加，将相加后的

和

经过ReLU激活后输入全连接层

得到批数据所有正向路径中第t步实体第o_t个类型的权重

3.6.2.2.2.3.1.4.6.5令o_t＝o_t+1，转3.6.2.2.2.3.1.4.6.2；

3.6.2.2.2.3.1.4.6.6将权重

进行归一化，得到归一化后批数据中所有正向路径第t步实体的所有类型的权重集合

3.6.2.2.2.3.1.4.6.7使用

聚合批数据所有正向路径第t步实体的所有类型的表示，得到聚合后的批数据所有正向路径第t步实体的类型表示

即

(维度为(C*N)×|L_t|×50)聚合后得到

(维度为(C*N)×50)，转3.6.2.2.2.3.1.5；

3.6.2.2.2.3.1.5将

作为LSTM_A第t步的输入，得到LSTM_A第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.1.6将

作为LSTM_L第t步的输入，得到LSTM_L第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.1.7令t＝t+1，转3.6.2.2.2.3.1.3；

3.6.2.2.2.3.1.8将

和

相加(即分别为t＝M+1时LSTM_A和LSTM_L的输出)，得到批数据中所有正向路径的实体表示

维度为(C*N)×150。转3.6.2.2.2.3.2；

3.6.2.2.2.3.2实体序列编码网络对反向路径的实体属性序列嵌入

和反向路径的实体类型序列嵌入

进行编码，分别使用LSTM_A和LSTM_L来捕获反向路径上实体序列的属性表示和类型表示，方法是：

3.6.2.2.2.3.2.1使用反向路径的关系表示

对LSTM_A和LSTM_L进行初始化：

3.6.2.2.2.3.2.1.1将

输入到全连接层

得到LSTM_A的第二隐藏状态

将

输入到全连接层

得到LSTM_A的第二细胞状态

3.6.2.2.2.3.2.1.2将

输入到全连接层

得到LSTM_L的第二隐藏状态

将

输入到全连接层

得到LSTM_L的第二细胞状态

3.6.2.2.2.3.2.2令t＝1。

3.6.2.2.2.3.2.3如果1≤t≤M+1，将t、

和

传给实体画像注意力网络，转第3.6.2.2.2.3.2.4步聚合数据中所有反向路径上第t步实体的属性信息和类型信息；否则说明数据中所有反向路径上实体的属性信息和类型信息已经聚合，转3.6.2.2.2.3.2.8。

3.6.2.2.2.3.2.4实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合，作为对实体的语义信息的刻画。具体过程为：

3.6.2.2.2.3.2.4.1从

(维度为(C*N)×(M+1)×|A_t|×50)中取出批数据中所有反向路径的第t步实体的属性嵌入，记为

(维度为(C*N)×|A_t|×50)；

3.6.2.2.2.3.2.4.2将

和

级联，将级联后的

和

经过全连接层

得到指导第t步属性注意力的引导变量

3.6.2.2.2.3.2.4.3实体属性注意力网络将批数据中所有反向路径的第t步实体的属性嵌入

进行聚合，方法为：

3.6.2.2.2.3.2.4.3.1令v_t＝1；

3.6.2.2.2.3.2.4.3.2若v_t≤|A_t|，转3.6.2.2.2.3.2.4.3.3获取数据中所有反向路径上第t步实体的第v_t个属性的权重，否则说明数据中所有反向路径上第t步实体的每个属性的权重均已经获取，转3.6.2.2.2.3.2.4.3.6；

3.6.2.2.2.3.2.4.3.3将

中批数据所有反向路径的第t个实体的第v_t个属性的嵌入记为

(维度为(C*N)×50)，将

输入到全连接层

得到变换后的属性嵌入

将

输入到全连接层

得到属性引导第二变量

3.6.2.2.2.3.2.4.3.4将

和

相加，将相加后的

和

经过ReLU激活后输入全连接层

得到批数据所有反向路径中第t步实体第v_t个属性的权重

3.6.2.2.2.3.2.4.3.5令v_t＝v_t+1，转3.6.2.2.2.3.2.4.3.2；

3.6.2.2.2.3.2.4.3.6将权重

进行归一化，得到归一化后批数据所有反向路径第t步实体的所有属性的权重集合

3.6.2.2.2.3.2.4.3.7使用

聚合批数据所有反向路径第t步实体的所有属性的表示，得到聚合后的批数据所有反向路径第t步实体的属性表示

即将

(维度为(C*N)×|A_t|×50)聚合后得到

(维度为(C*N)×50)，转3.6.2.2.2.3.2.4.4；

3.6.2.2.2.3.2.4.4从

(维度为(C*N)×(M+1)×|L_t|×50)中取出批数据中所有反向路径的第t步实体的类型嵌入，记为

(维度为(C*N)×|L_t|×50)；

3.6.2.2.2.3.2.4.5将

和

级联，将级联后的

和

经过全连接层

得到指导第t步类型注意力的引导向量

3.6.2.2.2.3.2.4.6实体类型注意力网络将批数据中所有反向路径的第t步实体的类型嵌入

进行聚合，方法为：

3.6.2.2.2.3.2.4.6.1令o_t＝1；

3.6.2.2.2.3.2.4.6.2若o_t≤|L_t|，转3.6.2.2.2.3.2.4.6.3获取数据中所有反向路径上第t步实体的第o_t个类型的权重，否则说明数据中所有反向路径上第t步实体的每个类型的权重均已经获取，转3.6.2.2.2.3.2.4.6.6；

3.6.2.2.2.3.2.4.6.3将

中批数据中所有反向路径的第t个实体的第o_t个类型的嵌入记为

(维度为(C*N)×50)，将

输入到全连接层

得到变换后的类型嵌入

将

输入到全连接层

得到类型引导第二变量

3.6.2.2.2.3.2.4.6.4将

和

相加，将相加后的

和

经过ReLU激活后输入全连接层

得到批数据所有反向路径中第t步实体第o_t个类型的权重

3.6.2.2.2.3.2.4.6.5令o_t＝o_t+1，转3.6.2.2.2.3.2.4.6.2；

3.6.2.2.2.3.2.4.6.6将权重

进行归一化，得到归一化后批数据中所有反向路径第t步实体的所有类型的权重集合

3.6.2.2.2.3.2.4.6.7使用

聚合批数据所有反向路径第t步实体的所有类型的表示，得到聚合后的批数据所有反向路径第t步实体的类型表示

即

(维度为(C*N)×|L_t|×50)聚合后得到

(维度为(C*N)×50)，转3.6.2.2.2.3.2.5；

3.6.2.2.2.3.2.5将

作为LSTM_A第t步的输入，得到LSTM_A第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.2.6将

作为LSTM_L第t步的输入，得到LSTM_L第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.2.7令t＝t+1，转3.6.2.2.2.3.2.3；

3.6.2.2.2.3.2.8将

和

相加(即分别为t＝M+1时LSTM_A和LSTM_L的输出)，得到批数据中所有反向路径的实体表示

维度为(C*N)×150，转3.6.2.2.2.3.2.9；

3.6.2.2.2.3.2.9将3.6.2.2.2.3.1.8中批数据所有正向路径的实体表示

和3.6.2.2.2.3.2.8中批数据所有反向路径的实体表示的

传给路径编码器，转3.6.2.2.2.4。

3.6.2.2.2.4路径编码器从关系编码器接收

和

从实体编码器接收

和

分别使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示，具体步骤为：

3.6.2.2.2.4.1将批数据的所有正向路径的关系表示

和所有正向路径的实体表示

级联，得到批数据的所有正向路径的路径表示，记为

维度为(C*N)×300，批数据里每条路径的维度为300；

3.6.2.2.2.4.2将批数据的所有反向路径的关系表示

和所有反向路径的实体表示

级联，得到批数据的所有反向路径的路径表示，记为

维度为(C*N)×300，批数据里每条路径的维度为300；

3.6.2.2.2.4.3使用正向路径注意力网络聚合

中所有样本的N条正向路径的表示，方法为：

3.6.2.2.2.4.3.1令n＝1；

3.6.2.2.2.4.3.2若n≤N，转3.6.2.2.2.4.3.3获取数据中所有样本的第n条正向路径的权重，否则说明数据中所有样本的每条正向路径的权重均已经获取，转3.6.2.2.2.4.3.5；

3.6.2.2.2.4.3.3将

中所有样本的第n条路径的表示记为

(维度为C×300)。将

经过f_p和

两层全连接层(f_p之后会经过ReLU函数激活)后得到的值作为第n条正向路径的权重

3.6.2.2.2.4.3.4令n＝n+1，转3.6.2.2.2.4.3.2；

3.6.2.2.2.4.3.5将批数据中所有样本的所有正向路径的权重

进行归一化，得到归一化后批数据中所有样本的所有正向路径的权重

3.6.2.2.2.4.3.6使用

聚合批数据中样本的正向路径的表示，得到该批数据所有样本的正向路径表示

即

(维度为(C*N)×300)聚合后得到

(维度为C×300)，转3.6.2.2.2.4.4；

3.6.2.2.2.4.4使用反向路径注意力网络聚合

中所有样本的N条反向路径的表示，方法为：

3.6.2.2.2.4.4.1令n＝1；

3.6.2.2.2.4.4.2若n≤N，转3.6.2.2.2.4.4.3获取数据中所有样本的第n条反向路径的权重，否则说明数据中所有样本的每条反向路径的权重均已经获取，转3.6.2.2.2.4.4.5；

3.6.2.2.2.4.4.3将

中所有样本的第n条路径的表示记为

(维度为C×300)。将

经过f′_p和

两层全连接层(f′_p之后会经过ReLU函数激活)后得到的值作为第n条反向路径的权重

3.6.2.2.2.4.4.4令n＝n+1，转3.6.2.2.2.4.4.2；

3.6.2.2.2.4.4.5将批数据中所有样本的所有反向路径的权重

进行归一化，得到归一化后批数据中所有样本的所有反向路径的权重

3.6.2.2.2.4.4.6使用

聚合批数据中样本的反向路径的表示，得到该批数据所有样本的反向路径表示

即

(维度为(C*N)×300)聚合后得到

(维度为C×300)，转3.6.2.2.2.4.5；

3.6.2.2.2.4.5将

和

传输给预测器，转3.6.2.2.2.5；

3.6.2.2.2.5预测器从路径编码器接收

和

计算该批数据中所有样本的预测概率，方法为：

3.6.2.2.2.5.1将

输入到全连接层f₁中，将

输入到全连接层f₂中，然后将全连接层f₁和f₂的输出进行拼接，得到该批数据中所有样本的路径表示

维度为C×600，其中该批数据中每个样本的路径表示维度为600。

3.6.2.2.2.5.2将

输入到全连接层f₃中，然后将f₃的输出经过ReLU函数激活后输入到全连接层f₄中，得到所有样本的路径的新表示

3.6.2.2.2.5.3将

输入sigmoid函数中

得到该批次所有数据的预测概率集合

是该批次数据中样本s_c的预测概率，

转3.6.2.2.3。

3.6.2.2.3使用步骤3.6.2.2.1得到的标签集合Y_q*,b和步骤3.6.2.2.2.5.3事实预测网络的预测概率集合

计算该批次数据S_q*,b的损失值loss。方法如下式，其中

表示该批次数据中查询关系r_q的正样本集合，

表示该批次数据中查询关系r_q的正样本集合和负样本集合，如果S_q*,b中的样本s_c的标签y_c＝1，则样本

否则

3.6.2.2.4使用Adam优化算法对损失值loss最小化，以反向传播训练网络参数，事实预测网络中的参数(三个嵌入矩阵W_r、W_A、W_L，3个LSTM网络(LSTM_r、LSTM_A和LSTM_L)和20个全连接层的权重矩阵和偏置向量)都得到一次更新。

3.6.2.2.5令processednum＝processednum+C，b＝b+1，转3.6.2.2。

3.6.2.3令批处理次数b＝1，令已预测的验证样本数目predictednum＝0，令验证样本的预测概率集合

3.6.2.4如果

转3.6.2.4.1对S_q#中第b个batch的验证数据进行预测，其中|S_q#|为验证样本集合S_q#的样本数目，否则说明已经对S_q#中的所有验证样本进行预测，转3.6.2.5；

3.6.2.4.1事实预测网络的嵌入层从步骤3.5中得到的S_q#中读取C_#个样本作为第b个batch的验证数据，即一个批次的验证数据，记为样本验证批次集合

1≤c_#≤C_#，其中C_#＝min(batchsize,|S_q#|-predictednum)。从步骤3.5得到的Y_q#、

中取出与S_q#,b的这C_#个样本对应的数据，分别记为标签验证批次集合

正向路径关系序列验证批次集合

反向路径关系序列验证批次集合

正向路径实体属性信息序列验证批次集合

和正向路径实体类型信息序列验证批次集合

反向路径实体属性信息序列验证批次集合

和反向路径实体类型信息序列验证批次集合

3.6.2.4.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法f_predict，对第b个batch的验证数据

和查询关系r_q、查询关系的反关系r′_q进行计算，得到第b个batch的验证数据的预测概率集合

即

其中

是该批次数据中样本

的预测概率。将

加入

中，即令

3.6.2.4.3令predictednum＝predictednum+C_#，b＝b+1，转3.6.2.4。

3.6.2.5使用验证数据集合S_q#的标签集合Y_q#和事实预测网络的预测概率集合

计算事实预测网络对验证数据进行预测的平均精确度，记为

若

则令

并保存事实预测网络

的参数，转3.6.2.6；若

则不用保存事实预测网络

的参数，直接转3.6.2.6。

3.6.2.6令epoch＝epoch+1，转3.6.2；

3.7令q＝q+1，转3.2；

3.8计算该基于路径的知识图谱补全系统进行事实预测的平均精度均值MAP，

转第四步。

第四步：事实补全模块对用户输入的需要补全的知识图谱进行补全，方法是：

4.1事实补全模块从数据预处理模块接收补全样本的数据集合U、U^r、U′^r、U^A、U^L、U′^A、U′^L，令补全样本集合U对应的所有补全样本的预测概率集合

4.2令q＝1；

4.3如果q≤Q，转4.3.1预测查询关系r_q下所有补全样本属于事实的概率，否则说明所有查询关系下的补全样本均已预测，转4.4。

4.3.1从R_Q中取出查询关系r_q，根据r_q选择第三步中训练好的事实预测网络

4.3.2从U、U^r、U′^r、U^A、U^L、U′^A、U′^L中中取出关于查询关系r_q的补全数据U_q、

U′_q ^r、

U′_q ^A、U′_q ^L。

4.3.3令U_q对应的补全样本的预测概率集合为

4.3.4使用训练好的事实预测网络

预测U_q中所有样本属于事实的概率，得到U_q中所有样本属于事实的预测概率集合Z_q，具体地：

4.3.4.1令批处理次数b＝1，令已预测补全样本的数目predictednum＝0；

4.3.4.2如果

转4.3.4.2.1对U_q中第b个batch的补全数据进行预测，否则说明已经对U_q中的所有补全样本进行预测，转4.3.5；

4.3.4.2.1事实预测网络的嵌入层从U_q读取C_u个样本作为第b个batch的补全数据，即一个批次的补全数据，记为样本补全批次集合

1≤c_u≤C_u，其中C_u＝min(batchsize，|U_q|-predictednum)。从

中取出与U_q，b的这C_u个样本对应的数据，分别记为正向路径关系序列补全批次集合

反向路径关系序列补全批次集合

正向路径实体属性信息序列补全批次集合

和正向路径实体类型信息序列补全批次集合

反向路径实体属性信息序列补全批次集合

和反向路径实体类型信息序列补全批次集合

4.3.4.2.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法f_predict，对第b个batch的补全数据

和查询关系r_q、查询关系的反关系r′_q进行计算，得到第b个batch经过训练好的事实预测网络

预测得到的补全数据的预测概率集合

其中

是该批次数据中样本

的预测概率。

4.3.4.2.3事实补全模块从事实预测网络接收批次数据的预测概率集合

将

加入到r_q下的补全样本的预测概率集合Z_q中，即令

4.3.4.2.4令predictednum＝predictednum+C_u，b＝b+1，转4.3.4.2。

4.3.5将Z_q作为元素加入到所有补全样本的预测概率集合中，即Z＝Z∪{Z_q}；

4.3.6令q＝q+1，转4.3；

4.4根据所有补全样本集合U(U＝{U₁，…，U_q，…，U_Q})的预测概率集合Z(Z＝{Z₁，…，Z_q，…，Z_Q})，判断样本是否是需要补全的事实，得到补全后的知识图谱，具体地：

4.4.1将补全后的知识图谱的事实集合记为F_new，令F_new＝F；

4.4.2设置阈值δ(0.5≤δ≤1)，令q＝1；

4.4.3如果q≤Q，则转4.4.4补全查询关系r_q下的缺失事实，否则说明所有查询关系下的缺失事实均已补全，转4.5。

4.4.4令w＝1；

4.4.5如果w≤|U_q|，则转4.4.6判断补全样本u_w是否为缺失事实，否则说明查询关系r_q下的缺失事实均已补全，转4.4.8。

4.4.6U_q中第w个样本u_w代表三元组

u_w的预测概率为Z_q中的第w个预测概率z_w，若预测概率z_w≥δ，则在用户提供的知识图谱中将实体

和

使用r_q连接，即将

添加到事实集合F_new中，

4.4.7令w＝w+1，转4.4.5；

4.4.8令q＝q+1，转4.4.3；

4.5将用户提供的知识图谱中的事实集合F更新为F_new，即完成了对用户提供的知识图谱的补全。

采用本发明可以达到以下技术效果：

1.本发明的第一步构建了一个完整的基于路径的知识图谱补全系统，以补全知识图谱中缺失的事实，融合了数据预处理模块、事实预测网络和事实补全模块。该系统可以针对用户输入的需要补全的知识图谱，在第二步中构造训练集训练事实预测网络。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成，其中前四个模块同时编码正向路径和反向路径上的特征，预测器则根据正向和反向路径表示进行预测，提升了事实预测网络预测的平均精度均值，提升了事实补全模块补全事实的可信度。

2.本发明在第三步事实预测网络的实体编码器中提取实体的表示时提出了使用实体的属性对实体的语义信息进行刻画，实体的属性即在知识图谱中与该实体相连的边。事实预测网络的实体编码器使用实体属性注意力和实体类型注意力两个网络聚合实体的属性表示和类型表示，丰富了路径上实体的语义信息，提升了路径上实体表示的准确性，进一步提升了路径表示的准确性和事实预测的平均精度均值。

3.本发明第三步训练事实预测网络时将输出的预测值与真值不断拟合，得到了可以准确预测实体间是否存在某个关系的事实预测网络，从而可以对补全样本是否是知识图谱中缺失的事实进行更准确的判断，使得补全到知识图谱中的事实可信度更高。

附图说明：

图1为本发明整体流程图。

图2为本发明第一步构建的基于路径的知识图谱补全系统逻辑结构图。

图3为图2中的事实预测网络的逻辑结构图。

图4为本发明第四步补全知识图谱中缺失事实的流程图。

具体实施方式：

图1为本发明整体流程图。如图1所示，本发明包括以下步骤：

第一步：构建基于路径的知识图谱事实补全系统。该系统如图2所示，由数据预处理模块、事实预测网络、事实补全模块构成。

将实体的属性集合记为A＝{a_v}，将实体的类型集合记为L＝{l_o}，其中1≤i≤|E|，1≤i₁≤|E|，1≤i₂≤|E|，1≤j≤|R|，1≤v≤|A|,1≤o≤|L|，|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数。将r′_j记为r_j的反关系，表示若

则

事实预测网络如图3所示，由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成。其中，嵌入层包含3个嵌入矩阵，分别为关系的嵌入矩阵W_r、实体属性的嵌入矩阵W_A、实体类型的嵌入矩阵W_L；关系编码器用于提取每条路径的关系序列特征，由一个LSTM网络构成，记为LSTM_r；实体编码器用于提取每条路径的实体序列特征(包括每条路径上实体的属性信息序列的特征和类型信息序列的特征)，由实体画像注意力网络和实体序列编码网络两个子网络构成，其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成，实体属性注意力网络由4个全连接层

构成，实体类型注意力网络由4个全连接层

构成，反向路径注意力网络由2个全连接层f′_p和

构成，分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征；预测器由4个全连接层f₁，f₂，f₃和f₄构成，用于预测每个样本属于事实的概率。事实预测网络从数据预处理模块得到样本数据集合(包括训练样本的数据集合、验证样本的数据集合、补全样本的数据集合)，提取样本数据集合中每个样本的路径特征，然后计算出每个样本属于事实的概率，组成预测概率集合(包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合)。其中，(1)嵌入层接收数据预处理模块的数据，将每个关系、实体属性、实体类型、实体属性分别使用W_r、W_A、W_L转化为向量表示，然后将每个样本的每条路径的关系序列转化为向量表示(即每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入)输出给关系编码器，将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示(即每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入，和每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入)输出给实体编码器，将每个样本的查询关系和反向查询关系转化为向量表示(即每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入)也输出给实体编码器；(2)关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入，对这些嵌入进行编码，得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示，将每个样本的每条正向路径的关系表示和每条反向路径的关系表示输出给实体编码器和路径编码器；(3)实体编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示，还接收来自嵌入层的每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入、每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入、每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入，对这些嵌入进行编码，得到每个样本的每条正向路径的实体表示和每条反向路径的实体表示，将每个样本的每条正向路径的实体表示和每条反向路径的实体表示输出给路径编码器；(4)路径编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示，以及来自实体编码器的每个样本的每条正向路径的实体表示和每条反向路径的实体表示，对这些表示进行编码，得到每个样本的正向路径表示和反向路径表示，将每个样本的正向路径表示和反向路径表示输出给预测器；(5)预测器接收来自路径编码器的每个样本的正向路径表示和反向路径表示，对这些表示进行编码，得到每个样本的预测结果(即每个样本属于事实的概率)，将每个样本的预测结果组成预测概率集合。事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合，进行训练并更新网络参数；事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合，进行验证并保存最优的网络参数。如果输入事实预测网络的样本数据集合是补全样本的数据集合，则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块。

2.2.1令存储所有训练样本的集合

存储所有训练样本的标签集合

存储所有训练样本的所有正向路径的关系序列的集合

存储所有训练样本的所有反向路径的关系序列的集合

存储所有训练样本的所有正向路径的实体属性信息序列集合

存储所有训练样本的所有正向路径的实体类型信息序列集合

存储所有训练样本的所有反向路径的实体属性信息序列集合

存储所有训练样本的所有反向路径的实体类型信息序列集合

2.2.2令存储所有验证样本的集合

存储所有验证样本的标签集合

存储所有验证样本的所有正向路径的关系序列的集合

存储所有验证样本的所有反向路径的关系序列的集合

存储所有验证样本的所有正向路径的实体属性信息序列集合

存储所有验证样本的所有正向路径的实体类型信息序列集合

存储所有验证样本的所有反向路径的实体属性信息序列集合

存储所有验证样本的所有反向路径的实体类型信息序列集合

2.2.3令q＝1；

其中

表示以r_q为关系的事实，即

表示集合

的元素数目。令查询关系r_q的样本集合为

令查询关系r_q的样本标签集合为

令查询关系r_q下所有样本的所有正向路径的关系序列的集合

查询关系r_q下所有样本的所有反向路径的关系序列的集合

2.2.6令k＝1；

2.2.8随机从实体集合E中选择两个实体

和

即

1≤k₁≤|E|，1≤k₂≤|E|。构造样本s_k，

且

若

则s_k为正样本，令s_k的标签y_k＝1，若

2.2.9令s_k的所有正向路径的关系序列的集合

s_k的所有反向路径的关系序列的集合

s_k的所有正向路径的实体属性信息序列集合

s_k的所有正向路径的实体类型信息序列集合

s_k的所有反向路径的实体属性信息序列集合

s_k的所有反向路径的实体类型信息序列集合

2.2.10f_ExtractPath采用随机游走方法抽取样本s_k的实体

到实体

的N条正向路径，放到s_k的正向路径集合

中，其中

1≤n≤N，第n条路径p_n由实体和关系交替构成，

M为路径p_n的长度，实体

得到

到

的N条正向路径的集合

2.2.11f_{PreprocessPaths}将样本s_k的正向路径集合

所有反向路径的关系序列的集合

所有正向路径的实体属性信息序列集合

和实体的类型信息序列集合

所有反向路径的实体的属性信息序列集合

和实体的类型信息序列集合

具体为：

2.2.11.1令n＝1；

2.2.11.3获取

中第n条路径p_n的反向路径p′_n，

2.2.11.4将p_n分为正向关系序列

和正向实体序列

2.2.11.5将p′_n分为反向关系序列

和反向实体序列

2.2.11.6获取

上所有实体的属性信息，方法是：

2.2.11.6.1令t＝1；

2.2.11.6.2如果t≤M+1，转2.2.11.6.3获取

上的第t步实体的属性信息，否则说明

上所有实体的属性信息均已经获取，转2.2.11.7。

2.2.11.6.3获取

上的第t步实体e_t的属性集合A_t，

2.2.11.6.3.1如果e_t既不是

也不是

中的关系的集合，即

转2.2.11.6.4。

2.2.11.6.3.2如果e_t是

或者

那么e_t的属性集合就是以e_t作为头实体的所有事实去掉包含

和

作为实体的所有事实构成的邻居事实集合

中的关系的集合，即

其中

表示以

和

分别作为头实体和尾实体的事实，即

转2.2.11.6.4。

在

出现的次数记为

若属性

和

的次数满足

则属性

排序在

之前，最后将e_t的属性集合记为

意味着

2.2.11.6.5令t＝t+1，转2.2.11.6.2；

2.2.11.7将

上获得的所有实体的属性信息记为

2.2.11.8将

上所有实体的属性信息记为

为

的逆序，即

2.2.11.9获取

上所有实体的类型信息，方法是：

2.2.11.9.1令t＝1；

2.2.11.9.2如果t≤M+1，转2.2.11.9.3获取

上的第t步实体的类型信息，否则说明

上所有实体的类型信息均已经获取，转2.2.11.10。

1≤o_t≤|L_t|，

为L_t中的第o_t个类型，|L_t|为L_t中类型的个数。

2.2.11.9.4令t＝t+1，转2.2.11.9.2；

2.2.11.10将

上获得的所有实体的类型信息记为

2.2.11.11将

上所有实体的类型信息记为

为

的逆序，即

2.2.11.12将2.2.11.4中获得的正向路径p_n的关系序列

加入集合

即令

将2.2.11.5中获得的反向路径p′_n的关系序列

加入集合

即令

将2.2.11.7获得的正向路径p_n的实体属性序列

加入集合

即令

将2.2.11.10获得的正向路径p_n的实体类型序列

加入集合

即令

将2.2.11.8获得的反向路径p′_n的实体属性序列

加入集合

即令

将2.2.11.11获得的反向路径p′_n的实体类型序列

加入集合

即令

2.2.11.13令n＝n+1,转2.2.11.2。

2.2.11.14将下述信息作为f_{PreprocessPaths}处理样本s_k的正向路径集合

所有反向路径的关系序列的集合

所有正向路径的实体属性信息序列集合

和实体的类型信息序列集合

所有反向路径的实体的属性信息序列集合

和实体的类型信息序列集合

转2.2.12。

2.2.13令k＝k+1,转2.2.7。

2.2.14此时查询关系r_q下所有样本为S_q＝{S₁,…,s_k,…,S_K}，查询关系r_q下所有样本的标签集合为Y_q＝{y₁,…,y_k,…,y_K}，查询关系r_q下所有样本的所有正向路径的关系序列的集合

查询关系r_q下所有样本的所有反向路径的关系序列的集合

将S_q、Y_q、

按照a:c的比例分为查询关系r_q下的训练数据S_q*、Y_q*、

和验证数据S_q#、Y_q#、

a和c为正数，一般a>c，且a+c＝10，优选a:c＝7:3。

2.2.17令q＝q+1,转2.2.4。

所有训练样本的所有反向路径的关系序列的集合

所有训练样本的所有正向路径的实体属性信息序列集合

所有训练样本的所有正向路径的实体类型信息序列集合

所有训练样本的所有反向路径的实体属性信息序列集合

所有训练样本的所有反向路径的实体类型信息序列集合

S_*、

S_*′^r、

S_*′^A、S_*′^L构成所有训练样本的数据集合；所有验证样本的标签集合为Y_#＝{Y_1#，…,Y_q#,…,Y_Q#}，所有的验证样本的集合为S_#＝{S_1#,…,S_q#,…,S_Q#}，所有验证样本的所有正向路径的关系序列的集合

所有验证样本的所有反向路径的关系序列的集合

所有验证样本的所有正向路径的实体属性信息序列集合

所有验证样本的所有正向路径的实体类型信息序列集合

所有验证样本的所有反向路径的实体属性信息序列集合

所有验证样本的所有反向路径的实体类型信息序列集合

S_#、

S′_# ^r、

S′_# ^A、S′_# ^L构成所有验证样本的数据集合，转2.3。

2.3.1令存储所有补全样本的集合

存储所有补全样本的所有正向路径的关系序列的集合

存储所有补全样本的所有反向路径的关系序列的集合

存储所有补全样本的所有正向路径的实体属性信息序列集合

存储所有补全样本的所有正向路径的实体类型信息序列集合

存储所有补全样本的所有反向路径的实体属性信息序列集合

存储所有补全样本的所有反向路径的实体类型信息序列集合

2.3.2令q＝1；

简记为

2.3.6令w＝1；

2.3.8采用步骤2.2.10所述的f_ExtractPath函数处理

得到样本u_w的实体

到实体

的N_u条正向路径信息，放到u_w的正向路径集合

中，其中

中的第n_u条路径

1≤n_u≤N_u。

所有反向路径的关系序列的集合

所有正向路径的实体属性信息序列集合

和实体的类型信息序列集合

所有反向路径的实体的属性信息序列集合

和实体的类型信息序列集合

2.3.10将

作为元素添加到查询关系r_q下补全样本的数据集合中，即令

2.3.11令w＝w+1,转2.3.7。

2.3.13令q＝q+1,转2.3.3。

所有补全样本的所有反向路径的关系序列的集合

所有补全样本的所有正向路径的实体属性信息序列集合

所有补全样本的所有正向路径的实体类型信息序列集合

所有补全样本的所有反向路径的实体属性信息序列集合

所有补全样本的所有反向路径的实体类型信息序列集合

且U、U^r、U′^r、U^A、U^L、U^′A、U^′L构成所有补全样本的数据集合。转2.4。

2.4将步骤2.2得到的S_*、

输出给事实预测网络作为Q组查询关系的验证样本的数据集合，将步骤2.2得到的Y_#输出给事实预测网络作为Q组查询关系的验证样本的标签集合，将步骤2.3得到的U、U^r、U^′r、U^A、U^L、U^′A、U^′L输出给事实预测网络作为Q组查询关系的补全样本的数据集合；并将补全样本的数据集合输出给事实补全模块。

具体方法如下：

3.1令q＝1；

转步骤3.8。

3.3初始化查询关系r_q对应的事实预测网络

的权重参数，方法为：

和

3.4设置事实预测网络

的训练参数:使用Adam优化算法进行网络的优化，并使用默认参数(学习率learningRate＝0.001，一阶矩估计的指数衰减率β₁＝0.9，二阶矩估计的指数衰减率β₂＝0.999，防止除以零的最小值参数∈＝1e^-8)，批数据尺寸batchsize＝16。

3.5从S_*、Y_*、

中取出关于查询关系r_q的训练数据S_q*、Y_q*、

从S_#、Y_#、

中取出关于查询关系r_q的验证数据S_q#、Y_q#、

3.6迭代计算事实预测网络

已经满足迭代次数要求，训练结束，转3.7。

3.6.2.1令批处理次数b＝1，令已训练样本数目processednum＝0；

3.6.2.2如果

转3.6.2.2.1使用S_q*中第b个batch的训练数据对

3.6.2.2.1事实预测网络的嵌入层从S_q*中读取C个样本作为第b个batch的训练数据，即一个批次的训练数据，记为样本训练批次集合S_q*，b＝{s₁，…，s_c，…，s_C}，1≤c≤C，其中C＝min(batchsize，|S_q*|-processednum)，表示取batchsize和|S_q*|-processednum中的最小值。从Y_q*、

中取出与S_q*，b的这C个样本对应的数据，分别记为标签训练批次集合Y_q*，b＝{y₁，…，y_c，…，y_C}，正向路径关系序列训练批次集合

反向路径关系序列训练批次集合

正向路径实体属性信息序列训练批次集合

和正向路径实体类型信息序列训练批次集合

反向路径实体属性信息序列训练批次集合

和反向路径实体类型信息序列训练批次集合

其中

是该批次数据中样本s_c的预测概率，

具体为：

3.6.2.2.2.1事实预测网络的嵌入层读取r_q、r′_q，以及

分别对应的向量形式

(即批次数据的查询关系的嵌入

反向查询关系的嵌入

正向路径的关系序列的嵌入

反向路径的关系序列的嵌入

正向路径的实体属性序列的嵌入

正向路径的实体类型序列的嵌入

反向路径的实体属性序列的嵌入

反向路径的实体类型序列的嵌入

)，将

发送给关系编码器和实体编码器。

和

3.6.2.2.2.2.1将

3.6.2.2.2.2.2将

3.6.2.2.2.2.3将该批次数据的所有正向路径的关系表示

和所有反向路径的关系表示

输出给实体编码器和路径编码器。

从关系编码器接收

和

3.6.2.2.2.3.1实体序列编码网络对正向路径的实体属性序列嵌入

和正向路径的实体类型序列嵌入

3.6.2.2.2.3.1.1使用正向路径的关系表示

对LSTM_A和LSTM_L进行初始化：

3.6.2.2.2.3.1.1.1将

输入到全连接层

得到LSTM_A的第一隐藏状态

将

输入到全连接层

得到LSTM_A的第一细胞状态

3.6.2.2.2.3.1.1.2将

输入到全连接层

得到LSTM_L的第一隐藏状态

将

输入到全连接层

得到LSTM_L的第一细胞状态

3.6.2.2.2.3.1.2令t＝1。

3.6.2.2.2.3.1.3如果1≤t≤M+1，则将t、

和

3.6.2.2.2.3.1.4.1从

(维度为(C*N)×|A_t|×50)；

3.6.2.2.2.3.1.4.2将

和

级联，将级联后的

和

经过全连接层

得到指导第t步属性注意力的引导变量

进行聚合，方法为：

3.6.2.2.2.3.1.4.3.1令v_t＝1；

3.6.2.2.2.3.1.4.3.3将

中批数据所有正向路径的第t个实体的第v_t个属性的嵌入记为

(维度为(C*N)×50)，将

输入到全连接层

得到变换后的属性嵌入

将

输入到全连接层

得到属性引导第二变量

3.6.2.2.2.3.1.4.3.4将

和

相加，将相加后的

和

经过ReLU函数激活后输入到全连接层

得到批数据所有正向路径中第t步实体的第v_t个属性的权重

3.6.2.2.2.3.1.4.3.5令v_t＝v_t+1，转3.6.2.2.2.3.1.4.3.2；

3.6.2.2.2.3.1.4.3.6将权重

3.6.2.2.2.3.1.4.3.7使用

即将

(维度为(C*N)×|A_t|×50)聚合后得到

(维度为(C*N)×50)，转3.6.2.2.2.3.1.4.4；

3.6.2.2.2.3.1.4.4从

(维度为(C*N)×|L_t|×50)；

3.6.2.2.2.3.1.4.5将

和

级联，将级联后的

和

经过全连接层

得到指导第t步类型注意力的引导变量

进行聚合，方法为：

3.6.2.2.2.3.1.4.6.1令o_t＝1；

3.6.2.2.2.3.1.4.6.3将

中批数据所有正向路径的第t个实体的第o_t个类型的嵌入记为

(维度为(C*N)×50)，将

输入到全连接层

得到变换后的类型嵌入

将

输入到全连接层

得到类型引导第二变量

3.6.2.2.2.3.1.4.6.4将

和

相加，将相加后的

和

经过ReLU激活后输入全连接层

得到批数据所有正向路径中第t步实体第o_t个类型的权重

3.6.2.2.2.3.1.4.6.5令o_t＝o_t+1，转3.6.2.2.2.3.1.4.6.2；

3.6.2.2.2.3.1.4.6.6将权重

3.6.2.2.2.3.1.4.6.7使用

即

(维度为(C*N)×|L_t|×50)聚合后得到

(维度为(C*N)×50)，转3.6.2.2.2.3.1.5；

3.6.2.2.2.3.1.5将

作为LSTM_A第t步的输入，得到LSTM_A第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.1.6将

作为LSTM_L第t步的输入，得到LSTM_L第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.1.7令t＝t+1，转3.6.2.2.2.3.1.3；

3.6.2.2.2.3.1.8将

和

维度为(C*N)×150。转3.6.2.2.2.3.2；

3.6.2.2.2.3.2实体序列编码网络对反向路径的实体属性序列嵌入

和反向路径的实体类型序列嵌入

3.6.2.2.2.3.2.1使用反向路径的关系表示

对LSTM_A和LSTM_L进行初始化：

3.6.2.2.2.3.2.1.1将

输入到全连接层

得到LSTM_A的第二隐藏状态

将

输入到全连接层

得到LSTM_A的第二细胞状态

3.6.2.2.2.3.2.1.2将

输入到全连接层

得到LSTM_L的第二隐藏状态

将

输入到全连接层

得到LSTM_L的第二细胞状态

3.6.2.2.2.3.2.2令t＝1。

3.6.2.2.2.3.2.3如果1≤t≤M+1，将t、

和

3.6.2.2.2.3.2.4.1从

(维度为(C*N)×|A_t|×50)；

3.6.2.2.2.3.2.4.2将

和

级联，将级联后的

和

经过全连接层

得到指导第t步属性注意力的引导变量

进行聚合，方法为：

3.6.2.2.2.3.2.4.3.1令v_t＝1；

3.6.2.2.2.3.2.4.3.3将

中批数据所有反向路径的第t个实体的第v_t个属性的嵌入记为

(维度为(C*N)×50)，将

输入到全连接层

得到变换后的属性嵌入

将

输入到全连接层

得到属性引导第二变量

3.6.2.2.2.3.2.4.3.4将

和

相加，将相加后的

和

经过ReLU激活后输入全连接层

得到批数据所有反向路径中第t步实体第v_t个属性的权重

3.6.2.2.2.3.2.4.3.5令v_t＝v_t+1，转3.6.2.2.2.3.2.4.3.2；

3.6.2.2.2.3.2.4.3.6将权重

3.6.2.2.2.3.2.4.3.7使用

即将

(维度为(C*N)×|A_t|×50)聚合后得到

(维度为(C*N)×50)，转3.6.2.2.2.3.2.4.4；

3.6.2.2.2.3.2.4.4从

(维度为(C*N)×|L_t|×50)；

3.6.2.2.2.3.2.4.5将

和

级联，将级联后的

和

经过全连接层

得到指导第t步类型注意力的引导向量

进行聚合，方法为：

3.6.2.2.2.3.2.4.6.1令o_t＝1；

3.6.2.2.2.3.2.4.6.3将

(维度为(C*N)×50)，将

输入到全连接层

得到变换后的类型嵌入

将

输入到全连接层

得到类型引导第二变量

3.6.2.2.2.3.2.4.6.4将

和

相加，将相加后的

和

经过ReLU激活后输入全连接层

得到批数据所有反向路径中第t步实体第o_t个类型的权重

3.6.2.2.2.3.2.4.6.5令o_t＝o_t+1，转3.6.2.2.2.3.2.4.6.2；

3.6.2.2.2.3.2.4.6.6将权重

3.6.2.2.2.3.2.4.6.7使用

即

(维度为(C*N)×|L_t|×50)聚合后得到

(维度为(C*N)×50)，转3.6.2.2.2.3.2.5；

3.6.2.2.2.3.2.5将

作为LSTM_A第t步的输入，得到LSTM_A第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.2.6将

作为LSTM_L第t步的输入，得到LSTM_L第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.2.7令t＝t+1，转3.6.2.2.2.3.2.3；

3.6.2.2.2.3.2.8将

和

维度为(C*N)×150，转3.6.2.2.2.3.2.9；

3.6.2.2.2.3.2.9将3.6.2.2.2.3.1.8中批数据所有正向路径的实体表示

和3.6.2.2.2.3.2.8中批数据所有反向路径的实体表示的

传给路径编码器，转3.6.2.2.2.4。

3.6.2.2.2.4路径编码器从关系编码器接收

和

从实体编码器接收

和

3.6.2.2.2.4.1将批数据的所有正向路径的关系表示

和所有正向路径的实体表示

级联，得到批数据的所有正向路径的路径表示，记为

维度为(C*N)×300，批数据里每条路径的维度为300；

3.6.2.2.2.4.2将批数据的所有反向路径的关系表示

和所有反向路径的实体表示

级联，得到批数据的所有反向路径的路径表示，记为

维度为(C*N)×300，批数据里每条路径的维度为300；

3.6.2.2.2.4.3使用正向路径注意力网络聚合

中所有样本的N条正向路径的表示，方法为：

3.6.2.2.2.4.3.1令n＝1；

3.6.2.2.2.4.3.3将

中所有样本的第n条路径的表示记为

(维度为C×300)。将

经过f_p和

3.6.2.2.2.4.3.4令n＝n+1，转3.6.2.2.2.4.3.2；

3.6.2.2.2.4.3.5将批数据中所有样本的所有正向路径的权重

3.6.2.2.2.4.3.6使用

即

(维度为(C*N)×300)聚合后得到

(维度为C×300)，转3.6.2.2.2.4.4；

3.6.2.2.2.4.4使用反向路径注意力网络聚合

中所有样本的N条反向路径的表示，方法为：

3.6.2.2.2.4.4.1令n＝1；

3.6.2.2.2.4.4.3将

中所有样本的第n条路径的表示记为

(维度为C×300)。将

经过f′_p和

3.6.2.2.2.4.4.4令n＝n+1，转3.6.2.2.2.4.4.2；

3.6.2.2.2.4.4.5将批数据中所有样本的所有反向路径的权重

3.6.2.2.2.4.4.6使用

即

(维度为(C*N)×300)聚合后得到

(维度为C×300)，转3.6.2.2.2.4.5；

3.6.2.2.2.4.5将

和

传输给预测器，转3.6.2.2.2.5；

3.6.2.2.2.5预测器从路径编码器接收

和

计算该批数据中所有样本的预测概率，方法为：

3.6.2.2.2.5.1将

输入到全连接层f₁中，将

3.6.2.2.2.5.2将

3.6.2.2.2.5.3将

输入sigmoid函数中

得到该批次所有数据的预测概率集合

是该批次数据中样本s_c的预测概率，

转3.6.2.2.3。

计算该批次数据S_q*,b的损失值loss。方法如下式，其中

表示该批次数据中查询关系r_q的正样本集合，

否则

3.6.2.2.5令processednum＝processednum+C，b＝b+1，转3.6.2.2。

3.6.2.4如果

正向路径关系序列验证批次集合

反向路径关系序列验证批次集合

正向路径实体属性信息序列验证批次集合

和正向路径实体类型信息序列验证批次集合

反向路径实体属性信息序列验证批次集合

和反向路径实体类型信息序列验证批次集合

即

其中

是该批次数据中样本

的预测概率。将

加入

中，即令

3.6.2.4.3令predictednum＝predictednum+C_#，b＝b+1，转3.6.2.4。

计算事实预测网络对验证数据进行预测的平均精确度，记为

若

则令

并保存事实预测网络

的参数，转3.6.2.6；若

则不用保存事实预测网络

的参数，直接转3.6.2.6。

3.6.2.6令epoch＝epoch+1，转3.6.2；

3.7令q＝q+1，转3.2；

转第四步。

第四步：事实补全模块对用户输入的需要补全的知识图谱进行补全，如图4所示，具体方法是：

4.2令q＝1；

4.3.2从U、U^r、U′^r、U^A、U^L、U′^A、U^′L中中取出关于查询关系r_q的补全数据U_q、

U′_q ^r、

U′_q ^A、U′_q ^L。

4.3.3令U_q对应的补全样本的预测概率集合为

4.3.4使用训练好的事实预测网络

4.3.4.2如果

1≤c_u≤C_u，其中C_u＝min(batchsize,|U_q|-predictednum)。从

中取出与U_q,b的这C_u个样本对应的数据，分别记为正向路径关系序列补全批次集合

反向路径关系序列补全批次集合

正向路径实体属性信息序列补全批次集合

和正向路径实体类型信息序列补全批次集合

反向路径实体属性信息序列补全批次集合

和反向路径实体类型信息序列补全批次集合

和查询关系r_q、查询关系的反关系r_q′进行计算，得到第b个batch经过训练好的事实预测网络

预测得到的补全数据的预测概率集合

其中

是该批次数据中样本

的预测概率。

将

加入到r_q下的补全样本的预测概率集合Z_q中，即令

4.3.4.2.4令predictednum＝predictednum+C_u，b＝b+1，转4.3.4.2。

4.3.6令q＝q+1，转4.3；

4.4根据所有补全样本集合U(U＝{U₁,…,U_q,…,U_Q})的预测概率集合Z(Z＝{Z₁,…,Z_q,…,Z_Q})，判断样本是否是需要补全的事实，得到补全后的知识图谱，具体地：

4.4.1将补全后的知识图谱的事实集合记为F_new，令F_new＝F；

4.4.2设置阈值δ(0.5≤δ≤1)，令q＝1；

4.4.4令w＝1；

4.4.6U_q中第w个样本u_w代表三元组

和

使用r_q连接，即将

添加到事实集合F_new中，

4.4.7令w＝w+1，转4.4.5；

4.4.8令q＝q+1，转4.4.3；

Claims

1.一种基于实体属性的知识图谱事实补全方法，其特征在于包括以下步骤：

第一步：构建基于路径的知识图谱事实补全系统，该系统由数据预处理模块、事实预测网络、事实补全模块构成；

数据预处理模块与事实预测网络相连，接收用户输入的知识图谱，对用户输入的知识图谱进行预处理，得到训练事实预测网络所需的训练数据即训练样本的数据集合和训练样本的标签集合、验证事实预测网络所需的验证数据即验证样本的数据集合和验证样本的标签集合、以及事实补全模块所需的要判断是否为缺失事实的补全数据即补全样本的数据集合，输出给事实预测网络，并将补全样本的数据集合输出给事实补全模块；数据预处理模块由路径抽取函数f_ExtractPath和路径预处理函数f_{PreprocessPaths}构成，其中f_ExtractPath从知识图谱中抽取每个样本的实体之间的路径信息，f_{preprocessPaths}将每个样本的实体间路径信息处理为事实预测网络需要的数据结构；将知识图谱中的实体集合、关系集合、事实集合分别记为E＝{e_i}，R＝{r_j}和

将实体的属性集合记为A＝{a_v}，将实体的类型集合记为L＝{l_o}，其中1≤i≤|E|，1≤i₁≤|E|，1≤i₂≤|E|，1≤j≤|R|，1≤v≤|A|，1≤o≤|L|，|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数；将r′_j记为r_j的反关系，表示若

则

根据E、R、F、A、L，数据预处理模块获取训练样本集合S_*、训练样本的标签集合Y_*、验证样本集合S_#、验证样本的标签集合Y_#、以及补全样本集合U；对于S_*、S_#、U中的每个样本，数据预处理模块先使用f_ExtractPath从知识图谱中抽取样本的实体对之间的正向路径集合，然后使用f_{PreprocessPaths}处理该正向路径集合输出样本的数据集合，构成训练样本的数据集合、验证样本的数据集合、补全样本的数据集合；

事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成；其中，嵌入层包含3个嵌入矩阵，分别为关系的嵌入矩阵W_r、实体属性的嵌入矩阵W_A、实体类型的嵌入矩阵W_L；关系编码器用于提取每条路径的关系序列特征，由一个LSTM网络构成，记为LSTM_r；实体编码器用于提取每条路径的实体序列特征即每条路径上实体的属性信息序列的特征和类型信息序列的特征，由实体画像注意力网络和实体序列编码网络两个子网络构成，其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成，实体属性注意力网络由4个全连接层

构成，实体类型注意力网络由4个全连接层

构成，而实体序列编码网络由两个LSTM网络即LSTM_A和LSTM_L及4个全连接层

构成，反向路径注意力网络由2个全连接层f′_p和

构成，分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征；预测器由4个全连接层f₁，f₂，f₃和f₄构成，用于预测每个样本属于事实的概率；事实预测网络从数据预处理模块得到包含训练样本的数据集合、验证样本的数据集合、补全样本的数据集合的样本数据集合，提取样本数据集合中每个样本的路径特征，然后计算出每个样本属于事实的概率，组成包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合的预测概率集合；事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合，进行训练并更新网络参数；事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合，进行验证并保存最优的网络参数；如果输入事实预测网络的样本数据集合是补全样本的数据集合，则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块；

事实补全模块与数据预处理模块和事实预测网络相连；事实补全模块接收数据预处理模块输出的补全样本的数据集合和训练好的事实预测网络输出的补全样本的预测概率集合Z，根据每个补全样本的预测概率判断补全样本的数据集合中补全样本集合U里的每个补全样本是否是需要补全的事实，如果补全样本是需要补全的事实，则将补全样本添加到知识图谱的事实集合中，得到补全后的知识图谱的事实集合F_new；

第二步：数据预处理模块根据用户输入的需要补全的知识图谱、实体的类型集合L和每个实体对应的类型信息的字典D_L，以及需要补全的查询关系集合R_Q，准备训练事实预测网络所需的训练数据、验证事实预测网络所需的验证数据、以及事实补全模块所需的要判断是否为缺失事实的补全数据；方法是：

2.1数据预处理模块接收用户输入的需要补全的知识图谱、实体的类型集合L和每个实体对应的类型信息的字典D_L，以及需要补全的查询关系集合R_Q，R_Q＝{r_q|r_q∈R}，1≤q≤Q，Q为R_Q中元素的个数；需要补全的知识图谱包括实体集合E、关系集合R、事实集合F，字典D_L中的key为实体，value为实体对应的类型集合；

2.2数据预处理模块使用路径抽取函数f_ExtractPath和路径预处理函数f_{PreprocessPaths}准备训练和验证事实预测网络需要的训练样本的数据集合和训练样本的标签集合、验证样本的数据集合和验证样本的标签集合，方法是：

2.2.1令存储所有训练样本的集合

存储所有训练样本的标签集合

存储所有训练样本的所有正向路径的关系序列的集合

存储所有训练样本的所有反向路径的关系序列的集合

存储所有训练样本的所有正向路径的实体属性信息序列集合

存储所有训练样本的所有正向路径的实体类型信息序列集合

存储所有训练样本的所有反向路径的实体属性信息序列集合

存储所有训练样本的所有反向路径的实体类型信息序列集合

2.2.2令存储所有验证样本的集合

存储所有验证样本的标签集合

存储所有验证样本的所有正向路径的关系序列的集合

存储所有验证样本的所有反向路径的关系序列的集合

存储所有验证样本的所有正向路径的实体属性信息序列集合

存储所有验证样本的所有正向路径的实体类型信息序列集合

存储所有验证样本的所有反向路径的实体属性信息序列集合

存储所有验证样本的所有反向路径的实体类型信息序列集合

2.2.3令q＝1；

2.2.4如果q≤Q，转2.2.5，否则说明全部样本数据均已经处理，转2.2.18；

2.2.5设置负样本数目与正样本数目的比值为K_N|P，K_N|P为正整数；设置样本数量阈值为K_q，K_q为正整数，，其中

表示以r_q为关系的事实，即

表示集合

的元素数目；令查询关系r_q的样本集合为

令查询关系r_q的样本标签集合为

令查询关系r_q下所有样本的所有正向路径的关系序列的集合

查询关系r_q下所有样本的所有反向路径的关系序列的集合

2.2.6令k＝1；

2.2.7如果k≤K_q，转2.2.8，否则说明查询关系r_q下的所有样本的数据已经获取，转2.2.14；

2.2.8随机从实体集合E中选择两个实体

和

即

构造样本s_k，

且

若

则s_k为正样本，令s_k的标签y_k＝1，若

则s_k为负样本，令s_k的标签y_k＝0；

2.2.9令s_k的所有正向路径的关系序列的集合

s_k的所有反向路径的关系序列的集合

s_k的所有正向路径的实体属性信息序列集合

s_k的所有正向路径的实体类型信息序列集合

s_k的所有反向路径的实体属性信息序列集合

s_k的所有反向路径的实体类型信息序列集合

2.2.10 f_ExtractPath采用随机游走方法抽取样本s_k的实体

到实体

的N条正向路径，放到s_k的正向路径集合

中，其中

第n条路径p_n由实体和关系交替构成，

M为路径p_n的长度，实体

为路径p_n上第t步的实体，r_t∈R，1≤t≤M为路径p_n上第t步的关系；

2.2.11 f_{PreprocessPaths}将样本s_k的正向路径集合

所有反向路径的关系序列的集合

所有正向路径的实体属性信息序列集合

和实体的类型信息序列集合

所有反向路径的实体的属性信息序列集合

和实体的类型信息序列集合

其中：

为正向关系序列，

为反向关系序列，

r′_t是p_n的反向路径p′_n上的关系，

为正向实体序列

上获得的所有实体的属性信息，

为为

上的第t步实体e_t的属性集合，

|A_t|为A_t中属性的个数；

为

上获得的所有实体的类型信息记，

L_t为e_t的类型集合；

为反向实体序列

上所有实体的属性信息，

为

的逆序，即

为

上所有实体的类型信息，

为

的逆序，即

2.2.12将样本s_k和s_k的标签分别加入样本集合S_q和样本的标签集合Y_q中，即令S_q＝S_q∪{s_k}，令Y_q＝Y_q∪{y_k}；令

2.2.13令k＝k+1，转2.2.7；

2.2.14此时查询关系r_q下所有样本为S_q＝{s₁，...，s_k，...，s_K}，查询关系r_q下所有样本的标签集合为Y_q＝{y₁，...，y_k，...，y_K}，查询关系r_q下所有样本的所有正向路径的关系序列的集合

查询关系r_q下所有样本的所有反向路径的关系序列的集合

将S_q、Y_q、

按照a∶c的比例分为查询关系r_q下的训练数据S_q*、Y_q*、

和验证数据S_q#、Y_q#、

a和c为正数，a＞c，且a+c＝10；

2.2.15将查询关系r_q下的所有训练数据作为元素加入总的训练数据中，即令S_*＝S_*∪{S_q*}，Y_*＝Y_*U{Y_q*}，

2.2.16将查询关系r_q下的所有验证数据作为元素加入总的验证数据中，即令S_#＝S_#∪{S_q#}，Y_#＝Y_#U{Y_q#}，

2.2.17令q＝q+1，转2.2.4；

2.2.18此时所有训练样本的标签集合为Y_*＝{Y₁，...，Y_q，...，Y_Q}，所有的训练样本的集合为S_*＝{S_1*，...，S_q*，...，S_Q*}，所有训练样本的所有正向路径的关系序列的集合

所有训练样本的所有反向路径的关系序列的集合

所有训练样本的所有正向路径的实体属性信息序列集合

所有训练样本的所有正向路径的实体类型信息序列集合

所有训练样本的所有反向路径的实体属性信息序列集合

所有训练样本的所有反向路径的实体类型信息序列集合

S_*、

构成所有训练样本的数据集合；所有验证样本的标签集合为Y_#＝{Y_1#，...，Y_q#，...，Y_Q#}，所有的验证样本的集合为S_#＝{S_1#，...，S_q#，...，S_Q#}，所有验证样本的所有正向路径的关系序列的集合

所有验证样本的所有反向路径的关系序列的集合

所有验证样本的所有正向路径的实体属性信息序列集合

所有验证样本的所有正向路径的实体类型信息序列集合

所有验证样本的所有反向路径的实体属性信息序列集合

所有验证样本的所有反向路径的实体类型信息序列集合

S_#、

构成所有验证样本的数据集合，转2.3；

2.3数据预处理模块使用f_ExtractPath和f_{PreprocessPaths}准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合，包括所有补全样本的集合U＝{U₁，...，U_q，...，U_Q}，所有补全样本的所有正向路径的关系序列的集合

所有补全样本的所有反向路径的关系序列的集合

所有补全样本的所有正向路径的实体属性信息序列集合

所有补全样本的所有正向路径的实体类型信息序列集合

所有补全样本的所有反向路径的实体属性信息序列集合

所有补全样本的所有反向路径的实体类型信息序列集合

U_q为查询关系r_q下所有补全样本，

|U_q|为U_q中元素的个数，即查询关系r_q下的补全样本的总数；

为查询关系r_q下所有补全样本的所有正向路径的关系序列的集合，

为查询关系r_q下所有补全样本的所有反向路径的关系序列的集合

2.4将步骤2.2得到的S_*、

输出给事实预测网络作为Q组查询关系的验证样本的数据集合，将步骤2.2得到的Y_#输出给事实预测网络作为Q组查询关系的验证样本的标签集合，将步骤2.3得到的U、U^r、U′^r、U^A、U^L、U^′A、U′^L输出给事实预测网络作为Q组查询关系的补全样本的数据集合；并将补全样本的数据集合输出给事实补全模块；

第三步：采用从数据预处理模块接收的Q组查询关系的训练样本的数据集合、训练样本的标签集合、验证样本的数据集合、验证样本的标签集合对事实预测网络进行训练和验证，获取Q个事实预测网络的权重参数；

具体方法如下：

3.1令q＝1；

转步骤3.8；

3.3初始化查询关系r_q对应的事实预测网络

的权重参数；

3.4设置

的训练参数：包括设置学习率learningRate、一阶矩估计的指数衰减率β₁、二阶矩估计的指数衰减率β₂，防止除以零的参数∈，批数据尺寸batchsize；

3.5从S_*、Y_*、

中取出关于查询关系r_q的训练数据S_q*、Y_q*、

从S_#、Y_#、

中取出关于查询关系r_q的验证数据S_q#、Y_q#、

3.6迭代计算事实预测网络

的参数，直到满足迭代次数要求，得到权重参数；具体方法如下：

3.6.1令训练迭代参数epoch＝1，令事实预测网络对查询关系r_q的验证数据进行预测的平均精确度的值AP_q#＝0；初始化迭代阈值EpochNum，EpochNum是[1，30]内的整数；

3.6.2如果epoch≤迭代阈值EpochNum，转3.6.2.1，否则说明查询关系r_q的事实预测网络

已经满足迭代次数要求，训练结束，转3.7；

3.6.2.1令批处理次数b＝1，令已训练样本数目processednum＝0；

3.6.2.2如果

转3.6.2.2.1，其中|S_q*|为训练样本集合S_q*的样本数目，否则说明S_q*中的所有训练样本已经参与过计算，该次训练迭代结束，转3.6.2.3计算在验证数据S_q#上的预测结果；

3.6.2.2.1事实预测网络的嵌入层从S_q*中读取C个样本作为第b个batch的训练数据，即一个批次的训练数据，记为样本训练批次集合S_q*，b＝{s₁，...，s_c，...，s_C}，1≤c≤C，其中C＝min(batchsize，|S_q*|-processednum)，表示取batchsize和|S_q*|-processednum中的最小值；从Y_q*、

中取出与S_q*，b的这C个样本对应的数据，分别记为标签训练批次集合Y_q*，b＝{y₁，...，y_c，...，y_C}，正向路径关系序列训练批次集合

反向路径关系序列训练批次集合

正向路径实体属性信息序列训练批次集合

和正向路径实体类型信息序列训练批次集合

反向路径实体属性信息序列训练批次集合

和反向路径实体类型信息序列训练批次集合

其中

是该批次数据中样本s_c的预测概率，

具体为：

3.6.2.2.2.1事实预测网络的嵌入层读取r_q、r′_q，以及

分别对应的向量形式

即批次数据的查询关系的嵌入

反向查询关系的嵌入

正向路径的关系序列的嵌入

反向路径的关系序列的嵌入

正向路径的实体属性序列的嵌入

正向路径的实体类型序列的嵌入

反向路径的实体属性序列的嵌入

反向路径的实体类型序列的嵌入

将

发送给关系编码器和实体编码器；

3.6.2.2.2.2关系编码器从嵌入层接收

和

计算该批次数据的所有正向路径的关系表示

和所有反向路径的关系表示

将

和

传给实体编码器和路径编码器；

3.6.2.2.2.3实体编码器提取每条路径的实体特征；实体编码器从嵌入层接收

从关系编码器接收

和

计算所有正向路径的实体表示

和所有反向路径的实体表示

将

和

传给路径编码器；

3.6.2.2.2.4路径编码器从关系编码器接收

和

从实体编码器接收

和

分别使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示，得到所有样本的正向路径表示

和所有样本的反向路径表示

将

和

传输给预测器；

3.6.2.2.2.5预测器从路径编码器接收

和

计算该批数据中所有样本的预测概率，方法为：

3.6.2.2.2.5.1将

输入到全连接层f₁中，将

维度为C×600，其中该批数据中每个样本的路径表示维度为600；

3.6.2.2.2.5.2将

3.6.2.2.2.5.3将

输入sigmoid函数中，得到该批次所有数据的预测概率集合

是该批次数据中样本s_c的预测概率，

转3.6.2.2.3；

3.6.2.2.3使用步骤3.6.2.2.1得到的标签集合Y_q*，b和步骤3.6.2.2.2.5.3事实预测网络的预测概率集合

计算该批次数据S_q*，b的损失值loss；方法如下式，其中

表示该批次数据中查询关系r_q的正样本集合，

表示该批次数据中查询关系r_q的正样本集合和负样本集合，如果S_q*，b中的样本s_c的标签y_c＝1，则样本

否则

3.6.2.2.4使用Adam优化算法对损失值loss最小化，以反向传播训练网络参数，事实预测网络中W_r、W_A、W_L、LSTM_r、LSTM_A和LSTM_L的参数和20个全连接层的权重矩阵和偏置向量都得到一次更新；

3.6.2.2.5令processednum＝processednum+C，b＝b+1，转3.6.2.2；

3.6.2.4如果

转3.6.2.4.1，其中|S_q#|为验证样本集合S_q#的样本数目，否则说明已经对S_q#中的所有验证样本进行预测，转3.6.2.5；

1≤c_#≤C_#，其中C_#＝min(batchsize，|S_q#|-predictednum)；从步骤3.5得到的Y_q#、

中取出与S_q#，b的这C_#个样本对应的数据，分别记为标签验证批次集合

正向路径关系序列验证批次集合

反向路径关系序列验证批次集合

正向路径实体属性信息序列验证批次集合

和正向路径实体类型信息序列验证批次集合

反向路径实体属性信息序列验证批次集合

和反向路径实体类型信息序列验证批次集合

即

其中

是该批次数据中样本

的预测概率；将

加入

中，即令

3.6.2.4.3令predictednum＝predictednum+C_#，b＝b+1，转3.6.2.4；

计算事实预测网络对验证数据进行预测的平均精确度，记为

若

则令

并保存事实预测网络

的参数，转3.6.2.6；若

则直接转3.6.2.6。；

3.6.2.6令epoch＝epoch+1，转3.6.2；

3.7令q＝q+1，转3.2；

转第四步；

4.1事实补全模块从数据预处理模块接收补全样本的数据集合，包括U、U^r、U′^r、U^A、U^L、U′^A、U′^L，令补全样本集合U对应的所有补全样本的预测概率集合

4.2令q＝1；

4.3如果q≤Q，转4.3.1预测查询关系r_q下所有补全样本属于事实的概率，否则说明所有查询关系下的补全样本均已预测，转4.4；

4.3.2从U、U^r、U′^r、U^A、U^L、U′^A、U′^L中取出关于查询关系r_q的补全数据U_q、

4.3.3令U_q对应的补全样本的预测概率集合为

4.3.4使用训练好的事实预测网络

预测U_q中所有样本属于事实的概率，得到U_q中所有样本属于事实的预测概率集合Z_q，方法是：

4.3.4.2如果

其中C_u＝min(batchsize，|U_q|-predictednum)；从

反向路径关系序列补全批次集合

正向路径实体属性信息序列补全批次集合

和正向路径实体类型信息序列补全批次集合

反向路径实体属性信息序列补全批次集合

和反向路径实体类型信息序列补全批次集合

预测得到的补全数据的预测概率集合

其中

是该批次数据中样本

的预测概率；

将

加入到r_q下的补全样本的预测概率集合Z_q中，即令

4.3.4.2.4令predictednum＝predictednum+C_u，b＝b+1，转4.3.4.2；

4.3.6令q＝q+1，转4.3；

4.4根据U的预测概率集合Z，Z＝{Z₁，...，Z_q，...，Z_Q}，判断样本是否是需要补全的事实，得到补全后的知识图谱，具体地：

4.4.1将补全后的知识图谱的事实集合记为F_new，令F_new＝F；

4.4.2设置阈值δ，令q＝1；

4.4.3如果q≤Q，则转4.4.4补全查询关系r_q下的缺失事实，否则说明所有查询关系下的缺失事实均已补全，转4.5；

4.4.4令w＝1；

4.4.5如果w≤|U_q|，则转4.4.6判断补全样本u_w是否为缺失事实，否则说明查询关系r_q下的缺失事实均已补全，转4.4.8；

4.4.6U_q中第w个样本u_w代表三元组

和

使用r_q连接，即将

添加到事实集合F_new中，

4.4.7令w＝w+1，转4.4.5；

4.4.8令q＝q+1，转4.4.3；

2.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法，其特征在于所述事实预测网络中嵌入层、关系编码器、实体编码器、路径编码器、预测器的功能和输入输出关系为：嵌入层接收数据预处理模块的数据，将每个关系、实体属性、实体类型、实体属性分别使用W_r、W_A、W_L转化为向量表示，然后将每个样本的每条路径的关系序列转化为向量表示输出给关系编码器，将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示输出给实体编码器，将每个样本的查询关系和反向查询关系转化为向量表示也输出给实体编码器；关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入，对这些嵌入进行编码，得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示，将每个样本的每条正向路径的关系表示和每条反向路径的关系表示输出给实体编码器和路径编码器；实体编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示，还接收来自嵌入层的每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入、每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入、每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入，对这些嵌入进行编码，得到每个样本的每条正向路径的实体表示和每条反向路径的实体表示，将每个样本的每条正向路径的实体表示和每条反向路径的实体表示输出给路径编码器；路径编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示，以及来自实体编码器的每个样本的每条正向路径的实体表示和每条反向路径的实体表示，对这些表示进行编码，得到每个样本的正向路径表示和反向路径表示，将每个样本的正向路径表示和反向路径表示输出给预测器；预测器接收来自路径编码器的每个样本的正向路径表示和反向路径表示，对这些表示进行编码，得到每个样本的预测结果即每个样本属于事实的概率，将每个样本的预测结果组成预测概率集合；事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合，进行训练并更新网络参数。

3.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法，其特征在于2.2.5步所述负样本数目与正样本数目的比值为K_N|P满足1≤K_N|P≤10；2.2.5步所述样本数量阈值K_q满足

2.2.8步所述构造样本s_k时控制S_q内正负样本的比例为1∶K_N|P；2.2.14步所述a∶c＝7∶3，第四步所述δ满足0.5≤δ≤1。

4.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法，其特征在于2.2.11步所述f_{PreprocessPaths}处理样本s_k的正向路径集合

的方法是：

2.2.11.1令n＝1；

2.2.11.2如果n≤N，转2.2.11.3，否则说明样本s_k的全部路径均已经处理，转2.2.11.14；

2.2.11.3获取

中第n条路径p_n的反向路径p′_n，

2.2.11.4将p_n分为关系序列

和实体序列

2.2.11.5将p′_n分为关系序列

和实体序列

2.2.11.6获取

上所有实体的属性信息；

2.2.11.7将

上获得的所有实体的属性信息记为

A_t为第t步实体e_t的属性集合_t，

为e_t的第v_t个属性；

2.2.11.8将

上所有实体的属性信息记为

为

的逆序，即

2.2.11.9获取

上所有实体的类型信息；

2.2.11.10将

上获得的所有实体的类型信息记为

L_t为字典D_L中键为e_t对应的值，即L_t＝D_L[e_t]；

2.2.11.11将

上所有实体的类型信息记为

为

的逆序，即

2.2.11.12将

加入集合

即令

将

加入集合

即令

将

加入集合

即令

将

加入集合

即令

将

加入集合

即令

将

加入集合

即令

2.2.11.13令n＝n+1，转2.2.11.2；

2.2.11.14得到样本s_k的查询关系r_q、反向查询关系r′_q，样本s_k的所有正向路径的关系序列的集合

所有反向路径的关系序列的集合

所有正向路径的实体属性信息序列集合

和实体的类型信息序列集合

所有反向路径的实体的属性信息序列集合

和实体的类型信息序列集合

5.如权利要求4所述的一种基于实体属性的知识图谱事实补全方法，其特征在于2.2.11.6步所述获取

上所有实体的属性信息的方法是：

2.2.11.6.1令t＝1；

2.2.11.6.2如果t≤M+1，转2.2.11.6.3，否则说明

上所有实体的属性信息均已经获取，结束；

2.2.11.6.3获取

上的第t步实体e_t的属性集合A_t，

|A_t|为A_t中属性的个数；分两种情况进行处理：

2.2.11.6.3.1如果e_t既不是

也不是

e_t的属性集合是以e_t作为头实体的所有事实构成的邻居事实集合

中的关系的集合，即

转2.2.11.6.4；

2.2.11.6.3.2如果e_t是

或者

e_t的属性集合是以e_t作为头实体的所有事实去掉包含

和

作为实体的所有事实构成的邻居事实集合

中的关系的集合，即

其中

表示以

和

分别作为头实体和尾实体的事实，

转2.2.11.6.4；

2.2.11.6.4对A_t内的属性进行排序；方法是将A_t内的全部属性根据其在

中出现的频次从高到低进行排序，频次高的属性排序在前；具体地，将e_t的第v_t个属性

在

出现的次数记为

若属性

和

的次数满足

则属性

排序在

之前，最后将e_t的属性集合记为

意味着

2.2.11.6.5令t＝t+1，转2.2.11.6.2。

6.如权利要求4所述的一种基于实体属性的知识图谱事实补全方法，其特征在于2.2.11.9步所述获取

上所有实体的类型信息的方法是：

2.2.11.9.1令t＝1；

2.2.11.9.2如果t≤M+1，转2.2.11.9.3，否则说明

上所有实体的类型信息均已经获取，结束；

2.2.11.9.3令e_t的类型集合L_t为字典D_L中键e_t对应的值，即令L_t＝D_L[e_t]，L_t表示为

为L_t中的第o_t个类型，|L_t|为L_t中类型的个数；

2.2.11.9.4令t＝t+1，转2.2.11.9.2。

7.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法，其特征在于2.3步所述数据预处理模块使用f_ExtractPath和f_{PreprocessPaths}准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合的方法是：

2.3.1令存储所有补全样本的集合

存储所有补全样本的所有正向路径的关系序列的集合

存储所有补全样本的所有反向路径的关系序列的集合

存储所有补全样本的所有正向路径的实体属性信息序列集合

存储所有补全样本的所有正向路径的实体类型信息序列集合

存储所有补全样本的所有反向路径的实体属性信息序列集合

存储所有补全样本的所有反向路径的实体类型信息序列集合

2.3.2令q＝1；

2.3.3如果q≤Q，转2.3.4，否则说明全部补全样本数据均已经处理，转2.3.14；

简记为

2.3.6令w＝1；

2.3.7若w≤|U_q|，转2.3.8，否则说明U_q中每个补全样本的数据均已经获取，转2.3.12；

2.3.8采用步骤2.2.10所述f_ExtractPath函数处理

得到样本u_w的实体

到实体

的N_u条正向路径信息，放到u_w的正向路径集合

中，其中

中的第n_u条路径

2.3.9采用步骤2.2.11所述路径预处理函数f_{PreprocessPaths}处理u_w的正向路径集合

所有反向路径的关系序列的集合

所有正向路径的实体属性信息序列集合

和实体的类型信息序列集合

所有反向路径的实体的属性信息序列集合

和实体的类型信息序列集合

2.3.10将

作为元素添加到查询关系r_q下补全样本的数据集合中，即令

2.3.11令w＝w+1，转2.3.7；

2.3.12令U＝U∪{U_q}，

2.3.13令q＝q+1，转2.3.3；

2.3.14 U、U^r、U′^r、U^A、U^L、U′^A、U′^L构成所有补全样本的数据集合。

8.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.3步所述初始化查询关系r_q对应的事实预测网络

的权重参数的方法是：

3.3.1初始化嵌入矩阵的权重；将关系、实体的属性、实体的类型分别对应的3个嵌入矩阵W_r、W_A、W_L随机初始化为遵循标准正态分布的50维的向量，即各个嵌入矩阵的维度分别为：关系总数目|R|×50、实体属性的总数目|A|×50、实体类型的总数目|L|×50；

3.3.2设置LSTM网络的参数；LSTW_r、LSTM_A和LSTM_L网络的隐藏单元的维度均为150维，且LSTM_r的隐藏单元和记忆单元均使用全零初始化；

3.3.3初始化全连接层的权重矩阵和偏置向量的权重；每个全连接层均包含一个权重矩阵W和一个偏置向量b，权重矩阵W的维度为全连接层的输出维度×全连接层的输入维度，偏置向量b的维度为全连接层的输出维度；实体属性注意力网络中全连接层

的输入维度均为150，输出维度均为150维；路径编码器中全连接层f_p，f′_p，

和

的输入维度分别为300，300，100，100，输出维度分别为100，100，1，1；预测器中全连接层f₁，f₂，f₃，f₄的输入维度分别为300，300，600，300，输出维度分别为300，300，300，1。

9.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.4步所述设置

的训练参数的方法是：设置学习率learningRate＝0.001，一阶矩估计的指数衰减率β₁＝0.9，二阶矩估计的指数衰减率β₂＝0.999，防止除以零的最小值参数∈＝1e^-8，批数据尺寸batchsize＝16。

10.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.2步所述关系编码器提取路径的正向路径的关系表示和反向路径的关系表示的方法是：

3.6.2.2.2.2.1将

作为关系编码器中LSTM_r的一次输入，并使用LSTM_r输出的最后的隐状态，记为

维度为CN×M×50，即CN条正向路径的关系序列的嵌入，其中每条正向路径的关系序列的嵌入维度为M×50；

维度为CN×150，作为这CN条正向路径的关系表示，每条正向路径的关系表示为150维；

3.6.2.2.2.2.2将

的维度为CN×M×50，即CN条反向路径的关系序列的嵌入，其中每条反向路径的关系序列的嵌入维度为M×50；

的维度为CN×150)，作为这CN条反向路径的关系表示，每条反向路径的关系表示为150维；

3.6.2.2.2.2.3将该批次数据的所有正向路径的关系表示

和所有反向路径的关系表示

输出给实体编码器和路径编码器。

11.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.3步所述实体编码器计算所有正向路径的实体表示和所有反向路径的实体表示的方法是：

3.6.2.2.2.3.1实体序列编码网络对正向路径的实体属性序列嵌入

和正向路径的实体类型序列嵌入

进行编码，使用LSTM_A和LSTM_L分别进行编码，捕获正向路径上实体序列的属性表示和类型表示，得到所有正向路径的实体表示

3.6.2.2.2.3.2实体序列编码网络对反向路径的实体属性序列嵌入

和反向路径的实体类型序列嵌入

进行编码，使用LSTM_A和LSTM_L分别进行编码，捕获反向路径上实体序列的属性表示和类型表示，得到所有反向路径的实体表示

12.如权利要求11所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.3.1步所述实体序列编码网络使用LSTM_A和LSTM_L分别进行编码，捕获正向路径上实体序列的属性表示和类型表示的方法是：

3.6.2.2.2.3.1.1使用正向路径的关系表示

对LSTM_A和LSTM_L进行初始化：

3.6.2.2.2.3.1.1.1将

输入到全连接层

得到LSTM_A的第一隐藏状态

将

输入到全连接层

得到LSTM_A的第一细胞状态

3.6.2.2.2.3.1.1.2将

输入到全连接层

得到LSTM_L的第一隐藏状态

将

输入到全连接层

得到LSTM_L的第一细胞状态

3.6.2.2.2.3.1.2令t＝1；

3.6.2.2.2.3.1.3如果1≤t≤M+1，则将t、

和

传给实体画像注意力网络，转第3.6.2.2.2.3.1.4步；否则说明数据中所有正向路径上实体的属性信息和类型信息已经聚合，转3.6.2.2.2.3.1.8；

3.6.2.2.2.3.1.4实体画像注意力网络的实体属性注意力网络和实体类型注意力网络对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合，得到聚合后的批数据所有正向路径第t步实体的属性表示

和聚合后的批数据所有正向路径第t步实体的类型表示

转3.6.2.2.2.3.1.5；

3.6.2.2.2.3.1.5将

作为LSTM_A第t步的输入，得到LSTM_A第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.1.6将

作为LSTM_L第t步的输入，得到LSTM_L第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.1.7令t＝t+1，转3.6.2.2.2.3.1.3；

3.6.2.2.2.3.1.8将

和

相加，即分别为t＝M+1时LSTM_A和LSTM_L的输出，得到批数据中所有正向路径的实体表示

维度为(C*N)×150。

13.如权利要求12所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.3.1.4步所述实体画像注意力网络的实体属性注意力网络和实体类型注意力网络对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合的方法是：

3.6.2.2.2.3.1.4.1从

中取出批数据中所有正向路径的第t步实体的属性嵌入，记为

的维度为(C*N)×(M+1)×|A_t|×50；

的维度为(C*N)×|A_t|×50；

3.6.2.2.2.3.1.4.2将

和

级联，将级联后的

和

经过全连接层

得到指导第t步属性注意力的引导变量

进行聚合，得到聚合后的批数据所有正向路径第t步实体的属性表示

3.6.2.2.2.3.1.4.4从

中取出批数据中所有正向路径的第t步实体的类型嵌入，记为

的维度为(C*N)×(M+1)×|L_t|×50，

的维度为(C*N)×|L_t|×50；

3.6.2.2.2.3.1.4.5将

和

级联，将级联后的

和

经过全连接层

得到指导第t步类型注意力的引导变量

进行聚合，得到聚合后的批数据所有正向路径第t步实体的类型表示

14.如权利要求13所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.3.1.4.3步所述实体属性注意力网络将批数据中所有正向路径的第t步实体的属性嵌入

进行聚合的方法是：

3.6.2.2.2.3.1.4.3.1令v_t＝1；

3.6.2.2.2.3.1.4.3.3将

中批数据所有正向路径的第t个实体的第v_t个属性的嵌入记为

将

输入到全连接层

得到变换后的属性嵌入

将

输入到全连接层

得到属性引导第二变量

的维度为(C*N)×50；

3.6.2.2.2.3.1.4.3.4将

和

相加，将相加后的

和

经过ReLU函数激活后输入到全连接层

得到批数据所有正向路径中第t步实体的第v_t个属性的权重

3.6.2.2.2.3.1.4.3.5令v_t＝v_t+1，转3.6.2.2.2.3.1.4.3.2；

3.6.2.2.2.3.1.4.3.6将权重

3.6.2.2.2.3.1.4.3.7使用

即将

聚合后得到

的维度为(C*N)×|A_t|×50，

的维度为(C*N)×50。

15.如权利要求13所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.3.1.4.6步所述实体类型注意力网络将批数据中所有正向路径的第t步实体的类型嵌入

进行聚合的方法为：

3.6.2.2.2.3.1.4.6.1令o_t＝1；

3.6.2.2.2.3.1.4.6.3将

中批数据所有正向路径的第t个实体的第o_t个类型的嵌入记为

将

输入到全连接层

得到变换后的类型嵌入

将

输入到全连接层

得到类型引导第二变量

的维度为(C*N)×50；

3.6.2.2.2.3.1.4.6.4将

和

相加，将相加后的

和

经过ReLU激活后输入全连接层

得到批数据所有正向路径中第t步实体第o_t个类型的权重

3.6.2.2.2.3.1.4.6.5令o_t＝o_t+1，转3.6.2.2.2.3.1.4.6.2；

3.6.2.2.2.3.1.4.6.6将权重

3.6.2.2.2.3.1.4.6.7使用

即

聚合后得到

的维度为(C*N)×|L_t|×50，

的维度为(C*N)×50。

16.如权利要求11所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.3.2步所述实体序列编码网络对反向路径的实体属性序列嵌入

和反向路径的实体类型序列嵌入

进行编码，分别使用LSTM_A和LSTM_L来捕获反向路径上实体序列的属性表示和类型表示的方法是：

3.6.2.2.2.3.2.1使用反向路径的关系表示

对LSTM_A和LSTM_L进行初始化：

3.6.2.2.2.3.2.1.1将

输入到全连接层

得到LSTM_A的第二隐藏状态

将

输入到全连接层

得到LSTM_A的第二细胞状态

3.6.2.2.2.3.2.1.2将

输入到全连接层

得到LSTM_L的第二隐藏状态

将

输入到全连接层

得到LSTM_L的第二细胞状态

3.6.2.2.2.3.2.2令t＝1；

3.6.2.2.2.3.2.3如果1≤t≤M+1，将t、

和

传给实体画像注意力网络，转第3.6.2.2.2.3.2.4步；否则说明数据中所有反向路径上实体的属性信息和类型信息已经聚合，转3.6.2.2.2.3.2.8；

3.6.2.2.2.3.2.4实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合，得到聚合后的批数据所有反向路径第t步实体的属性表示

和聚合后的批数据所有反向路径第t步实体的类型表示

3.6.2.2.2.3.2.5将

作为LSTM_A第t步的输入，得到LSTM_A第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.2.6将

作为LSTM_L第t步的输入，得到LSTM_L第t步的输出

维度为(C*N)×150；

3.6.2.2.2.3.2.7令t＝t+1，转3.6.2.2.2.3.2.3；

3.6.2.2.2.3.2.8将

和

相加，得到批数据中所有反向路径的实体表示

维度为(C*N)×150，转3.6.2.2.2.3.2.9；

3.6.2.2.2.3.2.9将3.6.2.2.2.3.1.8中批数据所有正向路径的实体表示

和3.6.2.2.2.3.2.8中批数据所有反向路径的实体表示的

传给路径编码器。

17.如权利要求16所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.3.2.4步所述实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合的方法是：

3.6.2.2.2.3.2.4.1从

中取出批数据中所有反向路径的第t步实体的属性嵌入，记为

的维度为(C*N)×(M+1)×|A_t|×50，

的维度为(C*N)×|A_t|×50；

3.6.2.2.2.3.2.4.2将

和

级联，将级联后的

和

经过全连接层

得到指导第t步属性注意力的引导变量

进行聚合，得到聚合后的批数据所有反向路径第t步实体的属性表示

转3.6.2.2.2.3.2.4.4；

3.6.2.2.2.3.2.4.4从

中取出批数据中所有反向路径的第t步实体的类型嵌入，记为

的维度为(C*N)×(M+1)×|L_t|×50，

的维度为(C*N)×|L_t|×50；

3.6.2.2.2.3.2.4.5将

和

级联，将级联后的

和

经过全连接层

得到指导第t步类型注意力的引导向量

进行聚合，得到聚合后的批数据所有反向路径第t步实体的类型表示

18.如权利要求17所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.3.2.4.3步实体属性注意力网络将批数据中所有反向路径的第t步实体的属性嵌入

进行聚合的方法是：

3.6.2.2.2.3.2.4.3.1令v_t＝1；

3.6.2.2.2.3.2.4.3.3将

中批数据所有反向路径的第t个实体的第v_t个属性的嵌入记为

将

输入到全连接层

得到变换后的属性嵌入

将

输入到全连接层

得到属性引导第二变量

的维度为(C*N)×50；

3.6.2.2.2.3.2.4.3.4将

和

相加，将相加后的

和

经过ReLU激活后输入全连接层

得到批数据所有反向路径中第t步实体第v_t个属性的权重

3.6.2.2.2.3.2.4.3.5令v_t＝v_t+1，转3.6.2.2.2.3.2.4.3.2；

3.6.2.2.2.3.2.4.3.6将权重

3.6.2.2.2.3.2.4.3.7使用

即将

聚合后得到

的维度为(C*N)×50。

19.如权利要求17所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.3.2.4.6步实体类型注意力网络将批数据中所有反向路径的第t步实体的类型嵌入

进行聚合的方法是：

3.6.2.2.2.3.2.4.6.1令o_t＝1；

3.6.2.2.2.3.2.4.6.3将

将

输入到全连接层

得到变换后的类型嵌入

将

输入到全连接层

得到类型引导第二变量

的维度为(C*N)×50；

3.6.2.2.2.3.2.4.6.4将各

和

相加，将相加后的

和

经过ReLU激活后输入全连接层

得到批数据所有反向路径中第t步实体第o_t个类型的权重

3.6.2.2.2.3.2.4.6.5令o_t＝o_t+1，转3.6.2.2.2.3.2.4.6.2；

3.6.2.2.2.3.2.4.6.6将权重

3.6.2.2.2.3.2.4.6.7使用

即

聚合后得到

的维度为(C*N)×|L_t|×50，

的维度为(C*N)×50。

20.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.4步所述路径编码器使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示的方法为：

3.6.2.2.2.4.1将批数据的所有正向路径的关系表示

和所有正向路径的实体表示

级联，得到批数据的所有正向路径的路径表示，记为

维度为(C*N)×300，批数据里每条路径的维度为300；

3.6.2.2.2.4.2将批数据的所有反向路径的关系表示

和所有反向路径的实体表示

级联，得到批数据的所有反向路径的路径表示，记为

维度为(C*N)×300，批数据里每条路径的维度为300；

3.6.2.2.2.4.3使用正向路径注意力网络聚合

中所有样本的N条正向路径的表示，得到该批数据所有样本的正向路径表示

3.6.2.2.2.4.4使用反向路径注意力网络聚合

中所有样本的N条反向路径的表示，得到该批数据所有样本的反向路径表示

21.如权利要求20所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.4.3步使用正向路径注意力网络聚合

中所有样本的N条正向路径的表示的方法为：

3.6.2.2.2.4.3.1令n＝1；

3.6.2.2.2.4.3.2若n≤N，转3.6.2.2.2.4.3.3，否则说明数据中所有样本的每条正向路径的权重均已经获取，转3.6.2.2.2.4.3.5；

3.6.2.2.2.4.3.3将

中所有样本的第n条路径的表示记为

将

经过f_p和

两层全连接层后得到的值作为第n条正向路径的权重

的维度为C×300；

3.6.2.2.2.4.3.4令n＝n+1，转3.6.2.2.2.4.3.2；

3.6.2.2.2.4.3.5将批数据中所有样本的所有正向路径的权重

3.6.2.2.2.4.3.6使用

即

聚合后得到

的维度为(C*N)×300，

的维度为C×300。

22.如权利要求20所述的一种基于实体属性的知识图谱事实补全方法，其特征在于3.6.2.2.2.4.4步所述使用反向路径注意力网络聚合

中所有样本的N条反向路径的表示的方法是：

3.6.2.2.2.4.4.1令n＝1；

3.6.2.2.2.4.4.2若n≤N，转3.6.2.2.2.4.4.3，否则说明数据中所有样本的每条反向路径的权重均已经获取，转3.6.2.2.2.4.4.5；

3.6.2.2.2.4.4.3将

中所有样本的第n条路径的表示记为

(维度为C×300)；将

经过f′_p和

两层全连接层后得到的值作为第n条反向路径的权重

的维度为C×300；

3.6.2.2.2.4.4.4令n＝n+1，转3.6.2.2.2.4.4.2；

3.6.2.2.2.4.4.5将批数据中所有样本的所有反向路径的权重

3.6.2.2.2.4.4.6使用

即

聚合后得到

转3.6.2.2.2.4.5；

的维度为(C*N)×300，

的维度为C×300。