CN115599927A

CN115599927A - 一种基于度量学习的时序知识图谱补全方法及系统

Info

Publication number: CN115599927A
Application number: CN202211396787.9A
Authority: CN
Inventors: 廖清; 龚兴; 柴合言; 李鉴明; 王晔; 高翠芸; 贾焰
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-13

Abstract

本发明公开了一种基于度量学习的时序知识图谱补全方法及系统，包括：将若干个候选尾实体分别填入待补全三元组，获得若干个待评估四元组；根据第一头实体和所有候选尾实体的所有邻居实体、第一实体关系、以及第一时序信息，对第一头实体和候选尾实体进行实时编码，获得头实体编码结果和尾实体编码结果，并编码得到时序知识图谱中样本数据集对应的四元组编码结果；利用度量学习机制，结合所有编码结果，对各待评估四元组进行相似度评分排序，并根据排序结果确定待补全三元组对应的第一尾实体。本发明根据待补全三元组内的第一实体关系和第一时序信息，并基于少量样本数据，筛选得到第一尾实体，使得能够在保证补全效果的同时，减少整体运算数据。

Description

一种基于度量学习的时序知识图谱补全方法及系统

技术领域

本发明涉及时序知识图谱补全领域，尤其涉及一种基于度量学习的时序知识图谱补全方法及系统。

背景技术

知识图谱(KG)是以三元组的形式表示事实信息，例如(库克，CEO，苹果公司)，其中库克是事实的第一头实体，苹果公司是事实的尾实体，CEO是第一头实体与尾实体之间的关系。但是由于大部分事实是在不断演变的，例如事实(乔布斯，CEO，苹果公司)仅在(库克，CEO，苹果公司)之前有效。为了使知识图谱能够描述世界上不断变化的知识，于是通过将时间信息合并到知识图谱中，创建成时序知识图谱(TKG)。时序知识图用四元组表示每个事实，其中表示事实时间有效性的时间约束。TKG谱已被广泛用于辅助人工智能领域的下游任务，例如推荐系统，问答系统和信息检索等领域。

目前，尽管开发了许多先进的提取技术，但TKG通常是不完整的，这限制了基于TKG的应用程序的性能和范围，所以最近的研究集中在开发用于时序知识图谱补全(TKGC)的模型。然而，这些研究没有考虑到大多数现实世界的知识图谱是具有长尾分布特征的，即其中很大一部分关系仅出现少数几次。目前基于深度学习的TKGC的模型都需要大规模数据的支撑，所以对少样本关系的补全效果不佳。另外，这些方法也无法处理新增关系，每新增一种关系就要将该关系的四元组放回模型重新训练，耗费大量时间。

发明内容

本发明提供了一种基于度量学习的时序知识图谱补全方法及系统，在少量样本数据的情况下，保证时序知识图谱的补全效果，并提升整体运算效率。

为了解决上述技术问题，本发明实施例提供了一种基于度量学习的时序知识图谱补全方法，包括：

将若干个候选尾实体分别填入时序知识图谱中的待补全三元组，获得若干个待评估四元组；其中，所述待补全三元组包括第一头实体、第一实体关系以及第一时序信息，所述第一实体关系是所述第一头实体和所述候选尾实体之间的关系，所述第一时序信息是所述第一实体关系的建立时间；

根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息，对所述第一头实体和各所述候选尾实体进行实时编码，获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果，并对样本数据集中的一个或者多个样本四元组进行实时编码，获得所述样本数据集对应的四元组编码结果；

利用度量学习机制，结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果，对各所述待评估四元组进行相似度评分排序，并根据排序结果，确定所述待补全三元组对应的第一尾实体，以完成对所述时序知识图谱的补全。

实施本发明实施例，利用若干个候选实体，对包括第一头实体、第一实体关系以及第一时序信息的待补全三元组进行初步填补，以获得若干个待评估四元组，并根据该待补全三元组的第一实体关系和第一时序信息、各第一头实体的多个邻居实体、以及各候选尾实体的多个邻居实体，能够实现关系感知和时间感知，并聚合作为第一头实体和候选尾实体的邻居信息，对第一头实体和候选尾实体进行实时编码，并对样本数据集的一个或者多个样本四元组进行实时编码，然后结合两次实时编码的结果，对所有的待评估四元组进行相似度评分排序，从而筛选出待补全三元组对应的第一尾实体，完成对时序知识图谱的补全。同时，当待补全三元组中的第一实体关系发生变化时，仅需要根据新的实体关系进行重新编码，而不需要利用大量四元组作为训练数据去重新训练补全预测模型，从而减少运算数据量，并提升时序知识图谱的补全速率。

作为优选方案，所述根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息，对所述第一头实体和各所述候选尾实体进行实时编码，获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果，具体为：

按照预设的时序信息编码算法，对所述第一时序信息进行实时编码处理，以获得对应的第一时间编码结果；

利用注意力机制，结合所述第一头实体的多个邻居实体、以及所述第一时间编码结果，计算得到所述第一头实体的各个邻居实体的权重值，并结合各所述候选尾实体的多个邻居实体、以及所述第一时间编码结果，计算得到各所述候选尾实体的各个邻居实体的权重值；

按照预设的实体编码算法，结合所述第一头实体的各个邻居实体的权重值、所述第一头实体的各个邻居实体的嵌入向量、以及所述第一头实体的嵌入向量，计算得到所述第一头实体对应的所述头实体编码结果，并结合各所述候选尾实体的各个邻居实体的权重值、各所述候选尾实体的各个邻居实体的嵌入向量、以及各所述候选尾实体的嵌入向量，计算得到各所述待评估四元组对应的所述尾实体编码结果。

实施本发明实施例的优选方案，采用注意力机制，结合第一时间编码结果、第一实体关系、第一头实体的多个邻居实体、以及各待评估四元组对应的候选尾实体的多个邻居实体，计算各第一头实体的各个邻居实体对应的权重值和各候选尾实体的各个邻居实体的权重值，并结合各第一头实体的各个邻居实体对应的权重值、各候选尾实体的各个邻居实体对应的权重值、各邻居实体的嵌入向量、第一头实体的嵌入向量、以及各个候选尾实体的嵌入向量，以使第一头实体和候选尾实体都能够有效地聚合与之关系密切的邻居实体，从而提升头实体编码结果和尾实体编码结果的准确性，防止错误的邻居实体影响时序知识图谱的补全效果。

作为优选方案，所述对样本数据集中的一个或者多个样本四元组进行实时编码，获得所述样本数据集对应的四元组编码结果，具体为：

将所述时序知识图谱中的一个或者多个所述样本四元组，作为所述样本数据集；其中，所述样本四元组包括第二头实体、第二实体关系、第二尾实体以及第二时序信息，所述第二实体关系是所述第二头实体和第二尾实体之间的关系，所述第二时序信息是所述第二实体关系的建立时间，且所述第一实体关系和所述第二实体关系相同，所述第一时序信息和所述第二时序信息相同；

按照预设的时序信息编码算法，对各所述样本四元组的所述第二时序信息进行实时编码处理，以获得各所述样本四元组对应的第二时间编码结果，并根据所述头实体编码结果、各所述待评估四元组对应的所述尾实体编码结果、以及所有所述第二时间编码结果，计算得到所述样本数据集对应的编码组合；

将所述编码组合中的所有编码表示输入至多头注意力模块，以获得所述样本数据集对应的四元组编码结果。

实施本发明实施例的优选方案，对样本数据集中的一个或者多个样本四元组进行编码处理，并将编码得到的各个编码表示输入至多头注意力模块，实现不同样本四元组之间的信息交互，并获得样本数据集对应的四元组编码结果，进而保障样本数据集对应的四元组编码结果能够充分地表征样本数据集，并基于小样本数据实现时序知识图谱的补全，以进一步提升时序知识图谱的补全效果。

作为优选方案，所述利用度量学习机制，结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果，对各所述待评估四元组进行相似度评分排序，并根据排序结果，确定所述待补全三元组对应的第一尾实体，以完成对所述时序知识图谱的补全，具体为：

将所述头实体编码结果与各所述待评估四元组对应的所述尾实体编码结果分别进行拼接，获得各所述待评估四元组对应的四元组编码结果；

通过预构建的长短期记忆网络模型，结合所述样本数据集对应的四元组编码结果、以及所有所述待评估四元组对应的四元组编码结果，分析得到所述长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出；

按照预设的相似度算法，根据所述长短期记忆网络模型对应的所有所述隐层输出、以及所述样本数据集对应的四元组编码结果，计算得到各所述待评估四元组对应的相似度评分，并将当前所述相似度评分最高的所述待评估四元组作为所述待补全三元组的补全结果，以完成对所述时序知识图谱的补全。

实施本发明实施例的优选方案，基于长短期记忆网络模型，分析获取各个待评估四元组对应的相似度评分，并选取相似度评分最高的待评估四元组作为待补全三元组的补全结果，能够避免相似度评分低的待评估四元组影响时序知识图谱的信息准确度，进而保证时序知识图谱的补全效果。

作为优选方案，所述的一种基于度量学习的时序知识图谱补全方法，还包括：

根据各所述待评估四元组对应的所述相似度评分，计算得到所述长短期记忆网络模型的损失函数值，并根据所述损失函数值，分析所述长短期记忆网络模型的评分准确性、所述头实体编码结果的准确度、各所述待评估四元组对应的所述尾实体编码结果的准确度、以及所述样本数据集对应的四元组编码结果的准确度。

实施本发明实施例的优选方案，通过计算长短期记忆网络模型的损失函数值，分析得到长短期记忆网络模型的评分准确性、以及各编码结果的准确度，使得能够对其编码参数和模型参数进行适应性调整，从而直观地展现并提升时序知识图谱的补全效果。

为了解决相同的技术问题，本发明实施例还提供了一种基于度量学习的时序知识图谱补全系统，包括：

数据获取模块，用于将若干个候选尾实体分别填入时序知识图谱中的待补全三元组，获得若干个待评估四元组；其中，所述待补全三元组包括第一头实体、第一实体关系以及第一时序信息，所述第一实体关系是所述第一头实体和所述候选尾实体之间的关系，所述第一时序信息是所述第一实体关系的建立时间；

编码模块，用于根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息，对所述第一头实体和各所述候选尾实体进行实时编码，获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果，并对样本数据集中的一个或者多个样本四元组进行实时编码，获得所述样本数据集对应的四元组编码结果；

图谱补全模块，用于利用度量学习机制，结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果，对各所述待评估四元组进行相似度评分排序，并根据排序结果，确定所述待补全三元组对应的第一尾实体，以完成对所述时序知识图谱的补全。

作为优选方案，所述编码模块，具体包括：

第一编码单元，用于按照预设的时序信息编码算法，对所述第一时序信息进行实时编码处理，以获得对应的第一时间编码结果；

权重计算单元，用于利用注意力机制，结合所述第一头实体的多个邻居实体、以及所述第一时间编码结果，计算得到所述第一头实体的各个邻居实体的权重值，并结合各所述候选尾实体的多个邻居实体、以及所述第一时间编码结果，计算得到各所述候选尾实体的各个邻居实体的权重值；

第二编码单元，用于按照预设的实体编码算法，结合所述第一头实体的各个邻居实体的权重值、所述第一头实体的各个邻居实体的嵌入向量、以及所述第一头实体的嵌入向量，计算得到所述第一头实体对应的所述头实体编码结果，并结合各所述候选尾实体的各个邻居实体的权重值、各所述候选尾实体的各个邻居实体的嵌入向量、以及各所述候选尾实体的嵌入向量，计算得到各所述待评估四元组对应的所述尾实体编码结果；

第三编码单元，用于对所述样本数据集中的一个或者多个所述样本四元组进行实时编码，获得所述样本数据集对应的四元组编码结果。

作为优选方案，所述第三编码单元，具体包括：

数据获取子单元，用于将所述时序知识图谱中的一个或者多个所述样本四元组，作为所述样本数据集；其中，所述样本四元组包括第二头实体、第二实体关系、第二尾实体以及第二时序信息，所述第二实体关系是所述第二头实体和第二尾实体之间的关系，所述第二时序信息是所述第二实体关系的建立时间，且所述第一实体关系和所述第二实体关系相同，所述第一时序信息和所述第二时序信息相同；

编码子单元，用于按照预设的时序信息编码算法，对各所述样本四元组的所述第二时序信息进行实时编码处理，以获得各所述样本四元组对应的第二时间编码结果，并根据所述头实体编码结果、各所述待评估四元组对应的所述尾实体编码结果、以及所有所述第二时间编码结果，计算得到所述样本数据集对应的编码组合；将所述编码组合中的所有编码表示输入至多头注意力模块，以获得所述样本数据集对应的四元组编码结果。

作为优选方案，所述图谱补全模块，具体包括：

分析拼接单元，用于将所述头实体编码结果与各所述待评估四元组对应的所述尾实体编码结果分别进行拼接，获得各所述待评估四元组对应的四元组编码结果；

评分筛选单元，用于通过预构建的长短期记忆网络模型，结合所述样本数据集对应的四元组编码结果、以及所有所述待评估四元组对应的四元组编码结果，分析得到所述长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出；按照预设的相似度算法，根据所述长短期记忆网络模型对应的所有所述隐层输出、以及所述样本数据集对应的四元组编码结果，计算得到各所述待评估四元组对应的相似度评分，并将当前所述相似度评分最高的所述待评估四元组作为所述待补全三元组的补全结果，以完成对所述时序知识图谱的补全。

作为优选方案，所述的一种基于度量学习的时序知识图谱补全系统，还包括：

性能评估模块，用于根据各所述待评估四元组对应的所述相似度评分，计算得到所述长短期记忆网络模型的损失函数值，并根据所述损失函数值，分析所述长短期记忆网络模型的评分准确性、所述头实体编码结果的准确度、各所述待评估四元组对应的所述尾实体编码结果的准确度、以及所述样本数据集对应的四元组编码结果的准确度。

附图说明

图1：为本发明实施例一提供的一种基于度量学习的时序知识图谱补全方法的流程示意图；

图2：为本发明实施例一提供的一种基于度量学习的时序知识图谱补全系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参照图1，为本发明实施例提供的一种基于度量学习的时序知识图谱补全方法，该方法包括步骤S1至步骤S3，各步骤具体如下：

步骤S1，将若干个候选尾实体o_i分别填入时序知识图谱中的待补全三元组，获得若干个待评估四元组query set(s,r,o_i,t_i)；其中，待补全三元组包括第一头实体s、第一实体关系r_i以及第一时序信息t_i，第一实体关系r_i是第一头实体s和候选尾实体o_i之间的关系，第一时序信息t_i是第一实体关系r_i的建立时间。

在执行步骤S2之前，从时序知识图谱G中，获取第一头实体的邻居实体、以及各候选尾实体的邻居实体，并根据第一头实体的邻居实体、各候选尾实体的邻居实体、第一实体关系以及第一时序信息，构成集合N_e＝{(e_i,r_i,t_i)|(e,r_i,e_i,t_i)∈G}；其中，邻居实体e_i作为实体e的邻居信息，实体e为第一头实体s或者第一尾实体o，第一时序信息t_i是第一实体关系r_i的建立时间。

步骤S2，根据所有的邻居实体e_i、第一实体关系r_i和第一时序信息t_i，对所有的实体e进行实时编码，以获得各待评估四元组对应的第一实体编码结果h_e，并对样本数据集中的一个或者多个样本四元组support set(s_i,r,o_i,t_i)进行实时编码，以获得样本数据集对应的四元组编码结果S_r；其中，第一实体编码结果h_e为头实体编码结果h_s或者尾实体编码结果

作为优选方案，步骤S2包括步骤S21至步骤S26，各步骤具体如下：

步骤S21，请参见式(1)，对第一时序信息t_i进行实时编码处理，以获得对应的第一时间编码结果Φ¹(t)。

其中，向量

是一组可学习的参数。

步骤S22，请参见式(2)，利用注意力机制，结合第一时间编码结果Φ¹(t)、第一实体关系r_i以及第一头实体s的多个邻居实体e_i，计算得到第一头实体s的各个邻居实体e_i的权重值α_i，并结合第一时间编码结果Φ¹(t)、第一实体关系r_i以及各个候选尾实体o_i的多个邻居实体e_i，计算得到各个候选尾实体o_i的各个邻居实体e_i的权重值α_i。

其中，i,j∈(1,2,…,N)，N为自然数；v表示实体或实体关系的嵌入向量(比如

表示第一实体关系r_i的嵌入向量，该嵌入向量可通过预训练得到也可以随机初始化，在训练时不断更新)；r表示当前待评估四元组query set对应的实体关系；t表示当前第一头实体所在的待评估四元组query set对应的时间；r_i表示各实体e的邻居实体e_i对应的实体关系；t_i表示各实体e的邻居实体e_i对应的实体关系的建立时间；Φ¹(t)为当前待评估四元组query set对应的第一时间编码结果；Φ¹(t_i)为各实体e的邻居实体e_i的第一时间编码结果；<x,y>表示x与y的内积；

是可学习的参数。

步骤S23，请参见式(3)，结合各实体e的邻居实体e_i对应的权重值α_i、各邻居实体e_i的嵌入向量

以及实体e的嵌入向量v_e，计算得到对应的第一实体编码结果h_e。其中，第一实体编码结果h_e为头实体编码结果h_s或者尾实体编码结果

其中，

均是可学习的参数，分别用于调和实体e的邻居信息与实体e的原始信息，邻居实体e_i即表示实体e的邻居信息；σ是激活函数Relu。

步骤S24，将时序知识图谱G中的一个或者多个样本四元组support set(s_i,r,o_i,t_i)，作为样本数据集；其中，样本四元组包括第二头实体s_i、第二实体关系r、第二尾实体o_i以及第二时序信息t_i，第二实体关系r是第二头实体s_i和第二尾实体o_i之间的关系，第二时序信息t_i是第二实体关系r的建立时间，且第一实体关系r和第二实体关系r_i相同，第一时序信息t_i和第二时序信息t_i相同。

步骤S25，请参见式(4)，对各样本四元组的第二时序信息t_i进行实时编码处理，以获得各样本四元组support set对应的第二时间编码结果Φ²(t)，并参见式(5)，根据第一实体编码结果h_e和所有第二时间编码结果Φ²(t)，计算得到各样本四元组support set对应的编码表示Z_ri，用于构成样本数据集对应的编码组合Z_r＝[Z_r1，Z_r2，…，Z_rl]。

其中，

表示第一实体编码结果对应的头实体嵌入

与尾实体嵌入

的拼接结果；Φ²(t_i)表示各样本四元组support set对应的第二时间编码结果；向量

是一组可学习的参数。

步骤S26，请参见式(6)(7)，将编码组合Z_r中的所有编码表示Z_ri输入至多头注意力模块，以获得样本数据集对应的四元组编码结果S_r。

[S_r1,S_r2,…,S_rk]＝[Z_r1，Z_r2，…，Z_rk]

(7)

其中，Q＝Z_rW_Q；K＝Z_rW_K；V＝Z_rW_V；Z_r表示样本数据集对应的编码组合；

均为可学习的参数。

步骤S3，利用度量学习机制，结合第一实体编码结果h_e和样本数据集对应的四元组编码结果S_r，对各待评估四元组query set进行相似度评分排序，并根据排序结果，确定待补全三元组对应的第一尾实体，以完成对时序知识图谱G的补全。

作为优选方案，步骤S3包括步骤S31至步骤S33，各步骤具体如下：

步骤S31，将步骤S23获得的头实体编码结果h_s和各待评估四元组query set对应的尾实体编码结果

分别进行拼接，获得各待评估四元组query set对应的四元组编码结果q_r。

步骤S32，以各待评估四元组support set对应的四元组编码结果q_r作为长短期记忆网络模型中每一层长短期记忆网络单元的输入，使得能够通过长短期记忆网络模型，结合所有待评估四元组query set对应的四元组编码结果q_r和样本数据集对应的四元组编码结果S_r，分析得到长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出h_l；其中，l为层序数。

步骤S33，按照预设的相似度算法，根据长短期记忆网络模型对应的所有隐层输出h_l、以及样本数据集对应的四元组编码结果S_r，请参见式(8)(9)(10)(11)(12)，计算得到各待评估四元组query set对应的相似度评分Score(q_r,S_r)，并将当前相似度评分最高的待评估四元组作为待补全三元组的补全结果，以完成对时序知识图谱的补全。

其中，h₀、r₀、c₀均为向量0；h_i-1表示上一层长短期记忆网络单元的隐层输出

与q_r相加；r_i-1表示h_i-1与S_r做注意力机制算法得到的样本四元组Support set的嵌入表示的聚合。

需要说明的是，r_i-1与h_i-1拼接再作为下一层长短期记忆网络单元的隐层输入，经过l层的长短期记忆网络单元输出的h_l与四元组编码结果S_r中每一个S_rj进行内积计算，然后求和得到q_r与当前的Support set的匹配分数Score(q_r,S_r)。

作为优选方案，本发明实施例提供的一种基于度量学习的时序知识图谱补全方法，还包括步骤S4，各步骤具体如下：

步骤S4，根据各待评估四元组query set对应的相似度评分Score(q_r,S_r)，计算得到长短期记忆网络模型的损失函数值

并根据损失函数值

分析长短期记忆网络模型的评分准确性、以及第一实体编码结果和四元组编码结果的准确度。

在本实施例中，针对包括头实体s、实体关系r和时序信息t的待补全三元组，其候选尾实体的集合为

请参见式(13)，计算得到长短期记忆网络模型的损失函数值

其中，o⁺代表正确的尾实体，

代表错误的尾实体；

表示当前样本四元组对应的头实体s与正确尾实体o⁺的拼接结果；

表示当前样本四元组对应的头实体s与错误尾实体

的拼接结果；

表示每个实体关系r中的所有正确的待评估四元组query set；

表示每个实体关系r中的所有错误的待评估四元组query set；[x]₊＝max(0,x)；λ是一个常数。

请参照图2，为本发明实施例提供的一种基于度量学习的时序知识图谱补全系统的结构示意图，该系统包括数据获取模块M1、编码模块M2和图谱补全模块M3，各模块具体如下：

数据获取模块M1，用于将若干个候选尾实体分别填入时序知识图谱中的待补全三元组，获得若干个待评估四元组；其中，待补全三元组包括第一头实体、第一实体关系以及第一时序信息，第一实体关系是第一头实体和候选尾实体之间的关系，第一时序信息是第一实体关系的建立时间；

编码模块M2，用于根据第一头实体的多个邻居实体、各候选尾实体的多个邻居实体、第一实体关系和第一时序信息，对第一头实体和各候选尾实体进行实时编码，获得第一头实体对应的头实体编码结果和各待评估四元组对应的尾实体编码结果，并对样本数据集中的一个或者多个样本四元组进行实时编码，获得样本数据集对应的四元组编码结果；

图谱补全模块M3，用于利利用度量学习机制，结合头实体编码结果和各待评估四元组对应的尾实体编码结果、以及样本数据集对应的四元组编码结果，对各待评估四元组进行相似度评分排序，并根据排序结果，确定待补全三元组对应的第一尾实体，以完成对时序知识图谱的补全。

作为优选方案，编码模块M2，具体包括第一编码单元21、权重计算单元22、第二编码单元23和第三编码单元24，各单元具体如下：

第一编码单元21，用于按照预设的时序信息编码算法，对第一时序信息进行实时编码处理，以获得对应的第一时间编码结果；

权重计算单元22，用于利用注意力机制，结合第一头实体的多个邻居实体、以及第一时间编码结果，计算得到第一头实体的各个邻居实体的权重值，并结合各候选尾实体的多个邻居实体、以及第一时间编码结果，计算得到各候选尾实体的各个邻居实体的权重值；

第二编码单元23，用于按照预设的实体编码算法，结合第一头实体的各个邻居实体的权重值、第一头实体的各个邻居实体的嵌入向量、以及第一头实体的嵌入向量，计算得到第一头实体对应的头实体编码结果，并结合各候选尾实体的各个邻居实体的权重值、各候选尾实体的各个邻居实体的嵌入向量、以及各候选尾实体的嵌入向量，计算得到各待评估四元组对应的尾实体编码结果；

第三编码单元24，用于对对样本数据集中的一个或者多个样本四元组进行实时编码，以获得样本数据集对应的四元组编码结果。

作为优选方案，第三编码单元24，具体包括数据获取子单元241和编码子单元242，各单元具体如下：

数据获取子单元241，用于将时序知识图谱中的一个或者多个样本四元组，作为样本数据集；其中，样本四元组包括第二头实体、第二实体关系、第二尾实体以及第二时序信息，第二实体关系是第二头实体和第二尾实体之间的关系，第二时序信息是第二实体关系的建立时间，且第一实体关系和第二实体关系相同，第一时序信息和第二时序信息相同；

编码子单元242，用于按照预设的时序信息编码算法，对各样本四元组的第二时序信息进行实时编码处理，以获得各样本四元组对应的第二时间编码结果，并根据头实体编码结果、各待评估四元组对应的尾实体编码结果、以及所有第二时间编码结果，计算得到样本数据集对应的编码组合；将编码组合中的所有编码表示输入至多头注意力模块，以获得样本数据集对应的四元组编码结果。

作为优选方案，图谱补全模块M3，具体包括分析拼接单元31和评分筛选单元32，各单元具体如下：

分析拼接单元31，用于将头实体编码结果与各待评估四元组对应的尾实体编码结果分别进行拼接，获得各待评估四元组对应的四元组编码结果；

评分筛选单元32，用于通过预构建的长短期记忆网络模型，结合样本数据集对应的四元组编码结果、以及所有待评估四元组对应的四元组编码结果，分析得到长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出；按照预设的相似度算法，根据长短期记忆网络模型对应的所有隐层输出、以及样本数据集对应的四元组编码结果，计算得到各待评估四元组对应的相似度评分，并将当前相似度评分最高的待评估四元组作为待补全三元组的补全结果，以完成对时序知识图谱的补全。

作为优选方案，本发明实施例提供的一种基于度量学习的时序知识图谱补全系统，还包括性能评估模块M4，该模块具体如下：

性能评估模块M4，用于根据各待评估四元组对应的相似度评分，计算得到长短期记忆网络模型的损失函数值，并根据损失函数值，分析长短期记忆网络模型的评分准确性、头实体编码结果的准确度、各待评估四元组对应的尾实体编码结果的准确度、以及样本数据集对应的四元组编码结果的准确度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

相比于现有技术，本发明实施例具有如下有益效果：

本发明提出一种基于度量学习的时序知识图谱补全方法及系统，将若干个候选实体填入包括第一头实体、第一实体关系以及第一时序信息的待补全三元组，并根据该待补全三元组的第一实体关系和第一时序信息、第一头实体的多个邻居实体、以及所有候选尾实体的多个邻居实体，在对第一头实体和所有候选尾实体进行实时编码的过程中实现关系感知和时间感知，并聚合作为第一头实体和候选尾实体的邻居实体，从而保证头实体编码结果和尾实体编码结果能够同时兼顾第一头实体和候选尾实体之间的关系、以及第一实体关系的建立时间这两个信息，以保障实体编码结果的准确性。同时，对样本数据集中的少量样本数据——一个或者多个样本四元组进行实时编码，实现不同样本四元组之间的信息交互，以充分表征样本数据集，然后结合两次实时编码的结果，对所有的待评估四元组进行相似度评分排序，进而从所有的候选尾实体中筛选出待补全三元组对应的第一尾实体，完成对时序知识图谱的补全。另外地，当待补全三元组中的第一实体关系发生变化时，仅需要根据新的实体关系进行重新编码，而非依赖于大量四元组去重新训练补全预测模型，进而减少运算数据量，并提升时序知识图谱的补全速率。

进一步地，采用注意力机制，结合第一时间编码结果、第一实体关系、第一头实体的多个邻居实体、以及各待评估四元组对应的各个候选尾实体的多个邻居实体，计算各邻居实体对应的权重值，并结合各邻居实体对应的权重值、各邻居实体的嵌入向量、第一头实体的嵌入向量、以及各个候选尾实体的嵌入向量，以使第一头实体和各候选尾实体能够有效地聚合与之关系密切贴合的邻居实体，从而提升第一实体编码结果的准确性，防止错误的邻居实体影响时序知识图谱的补全效果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于度量学习的时序知识图谱补全方法，其特征在于，包括：

2.如权利要求1所述的一种基于度量学习的时序知识图谱补全方法，其特征在于，所述根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息，对所述第一头实体和各所述候选尾实体进行实时编码，获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果，具体为：

3.如权利要求1所述的一种基于度量学习的时序知识图谱补全方法，其特征在于，所述对样本数据集中的一个或者多个样本四元组进行实时编码，获得所述样本数据集对应的四元组编码结果，具体为：

4.如权利要求1所述的一种基于度量学习的时序知识图谱补全方法，其特征在于，所述利用度量学习机制，结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果，对各所述待评估四元组进行相似度评分排序，并根据排序结果，确定所述待补全三元组对应的第一尾实体，以完成对所述时序知识图谱的补全，具体为：

5.如权利要求4所述的一种基于度量学习的时序知识图谱补全方法，其特征在于，还包括：

6.一种基于度量学习的时序知识图谱补全系统，其特征在于，包括：

7.如权利要求6所述的一种基于度量学习的时序知识图谱补全系统，其特征在于，所述编码模块，具体包括：

8.如权利要求7所述的一种基于度量学习的时序知识图谱补全系统，其特征在于，所述第三编码单元，具体包括：

9.如权利要求6所述的一种基于度量学习的时序知识图谱补全系统，其特征在于，所述图谱补全模块，具体包括：

10.如权利要求9所述的一种基于度量学习的时序知识图谱补全系统，其特征在于，还包括：