CN114780739A

CN114780739A - 基于时间图卷积网络的时序知识图谱补全方法及系统

Info

Publication number: CN114780739A
Application number: CN202210393407.XA
Authority: CN
Inventors: 马超; 彭琛琛; 石小川; 张典; 孟小亮; 李彦胜
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-22

Abstract

本发明公开了一种基于时间图卷积网络的时序知识图谱补全方法及系统，本发明的时间图卷积网络包括结构编码器、时序编码器和解码器三个模块；本发明首先选择待补全的时序知识图谱G，并确定该时序知识图谱待补全的目标时间步；然后通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量；接着通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量；最后通过解码器对每个候选四元组(s,r,o,t)根据得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量，对待补全时序知识图谱中缺失内容进行预测，完成时序知识图谱的补全。本发明可以有效提升时序知识图谱补全任务的准确率。

Description

基于时间图卷积网络的时序知识图谱补全方法及系统

技术领域

本发明属于信息技术领域，涉及一种时序知识图谱补全方法及系统，具体涉及面向时序知识图谱补全任务提出的一种通过图卷积神经网络和门控循环单元对时序知识图谱进行建模，挖掘知识图谱潜在结构特征和时序特征，对时序知识图谱中缺失的实体和关系进行补全的方法及系统。

背景技术

知识图谱是以结构化的图模式将现实世界中的实体或概念及其之间的关系组织起来形成计算机可理解和可计算的一种知识体系，已被广泛应用于推荐系统、机器翻译和问答系统等领域。

传统的知识图谱只能处理静态的数据，无法反映实体和关系随着时间推移所产生的变化。时序知识图谱是传统知识图谱在时间维度上的扩展，它为实体和关系构成的事实添加了时间戳作为约束，能够反映知识随时间动态变化的特性，有着广阔的应用前景。由于数据来源和构建方法的限制，现有的时序知识图谱往往存在不完整的问题。时序知识图谱中实体和关系的缺失阻碍了它的应用。因而，如何从现有的时序知识图谱中挖掘和推理出隐含的知识，在一定程度上对其进行补全成为了目前研究的重点。

现有的知识图谱补全技术大多针对静态的数据，没有考虑知识图谱中蕴含的时序信息，无法对时序知识图谱进行有效的推理。近年来，一些方法将时序知识图谱中动态变化的事件在时间序列上进行建模，对某些时间点缺失的实体或关系进行推理和预测，但这种方法忽略了时序知识图谱蕴含的局部和全局结构特征，难以有效挖掘邻域实体潜在的重要信息。还有一些方法使用图卷积神经网络学习时序知识图谱每个时间点的实体表征，从而挖掘其内部的空间结构信息，实现对缺失数据的推理和补全，但这种方法对每个时间点的图结构独立建模，对时序信息的融合存在一定的局限性。

发明目的

本发明的目的在于提出一种基于时间图卷积网络的时序知识图谱补全方法及系统，以提升时序知识图谱补全任务的准确率。

本发明的方法所采用的技术方案是：一种基于时间图卷积网络的时序知识图谱补全方法，所述时间图卷积网络包括结构编码器、时序编码器和解码器三个模块：结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息，挖掘实体和关系的潜在语义信息；时序编码器用于学习知识图谱的历史信息，挖掘实体和关系的时序特征信息；解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果；

所述方法包括以下步骤：

步骤1：选择待补全的时序知识图谱G，并确定该时序知识图谱待补全的目标时间步；

将时序知识图谱G中的事件按其时间步升序排列，即G＝{G₁,G₂,…,G_T}，其中T表示时间步的集合，G_t表示该时序知识图谱G在时间步t的子知识图谱；

定义时序知识图谱G的所有实体构成的集合为E，所有关系构成的集合为R；时序知识图谱G中的事件表示为四元组形式(s,r,o,t)，其中头实体s∈E，关系r∈R，尾实体o∈E，时间步t∈T；

时序知识图谱G的补全包含实体补全和关系补全两个任务；实体补全是对四元组中缺失的实体进行预测，给定一个不完整四元组(s,r,？,t)，通过对所有候选实体进行推理和排序，从中选出最有可能的实体作为补全的结果；关系补全是对缺失关系的四元组(s,？,o,t)进行推理，预测头实体s和尾实体o之间可能存在的关系；其中，？表示缺失的关系；

步骤2：通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量；

步骤3：通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量；

步骤4：通过解码器对每个候选四元组(s,r,o,t)根据得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量

和

通过实体和关系的最终嵌入向量计算待补全时序知识图谱中候选实体的得分，并根据结果对缺失内容进行预测，完成时序知识图谱的补全。

本发明的系统所采用的技术方案是：一种基于时间图卷积网络的时序知识图谱补全系统，所述时间图卷积网络包括结构编码器、时序编码器和解码器三个模块：结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息，挖掘实体和关系的潜在语义信息；时序编码器用于学习知识图谱的历史信息，挖掘实体和关系的时序特征信息；解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果；

所述系统包括以下模块：

模块1，用于选择待补全的时序知识图谱G，并确定该时序知识图谱待补全的目标时间步；

时序知识图谱G的补全包含实体补全和关系补全两个任务；实体补全是对四元组中缺失的实体进行预测，给定一个不完整四元组(s,r,？,t)，通过对所有候选实体进行推理和排序，从中选出最有可能的实体作为补全的结果；其中，？表示缺失的实体；关系补全是对缺失关系的四元组(s,？,o,t)进行推理，预测头实体s和尾实体o之间可能存在的关系；其中，？表示缺失的关系；

模块2，用于通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量；

模块3，用于通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量；

模块4，用于通过解码器对每个候选四元组(s,r,o,t)根据得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量

和

本发明的优越性主要体现在以下几个方面：

(1)本发明提出的时间图卷积网络通过基于改进的RGCN的结构编码器对多关系实体建模，通过基于GRU的时序编码器对历史信息建模，同时捕获了时序知识图谱潜在的结构特征和时序特征，从而提升时序知识图谱补全任务的准确率。

(2)本发明提出的时序知识图谱补全方法具有较高的可拓展性，可与ConvE模型、TransE模型、NTN和DistMult等多种静态的补全方法相结合进行表征学习。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的时间图卷积网络架构图。

图3为本发明实施例的结构编码器结构图。

图4为本发明实施例的时序编码器结构图。

图5为本发明实施例的解码器结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于时间图卷积网络的时序知识图谱补全方法，可以有效提升时序知识图谱补全任务的准确率。具体而言，本发明主要包括以下三点：

(1)为了有效获取时序知识图谱的潜在语义信息和结构特征，时间图卷积网络采用基于RGCN模型的结构编码器，通过改进的图卷积神经网络对多关系实体建模。

(2)为了有效获取知识图谱时序特征，时间图卷积网络采用基于门控循环单元(GRU)的时序编码器建模时序知识图谱中历史信息，挖掘知识图谱潜在的时序依赖关系。

(3)为了利用实体和关系的嵌入向量，对每个目标时间点的知识图谱缺失部分进行有效推理和预测，时间图卷积网络使用基于ConvE方法的解码器，用于根据实体和关系的嵌入向量计算候选三元组的得分。

请见图2，本实施例的时间图卷积网络包括结构编码器、时序编码器和解码器三个模块：结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息，挖掘实体和关系的潜在语义信息；时序编码器用于学习知识图谱的历史信息，挖掘实体和关系的时序特征信息；解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果；

请见图3，本实施例的结构编码器，所述结构编码器由L层多关系图卷积神经网络(RGCN)构建，将每个时间步的知识图谱作为输入，对实体节点的局部邻居信息进行传递和聚合，从而生成实体和关系的嵌入向量。其中实体节点的聚合信息按照关系的类型不同进行相应转换，并经过正则化和激活函数ReLU。最终得到的实体和关系的嵌入向量具有了该时间步知识图谱的结构信息。结构编码器采用交叉熵损失函数更新模型参数，通过参数共享和稀疏约束技术减轻了过拟合，能够在大规模知识图谱上扩展、传递数据。

请见图4，本实施例的时序编码器，所述时序编码器，采用具有权重衰减机制的门控循环单元(GRU)，用以集成跨时间步的实体和关系的嵌入向量中包含的时序信息。时序编码器以每一时间步的实体嵌入向量和关系嵌入向量作为输入，根据实体和关系在预测时间步之前的活跃程度计算其对应的衰减系数，将该系数与嵌入向量相乘输入GRU单元，计算实体和关系的最终嵌入向量。

请见图5，本实施例的解码器，所述解码器基于ConvE模型实现，由单层的卷积网络、全连接投影层和内积层组成，具有较少的参数且通过一对多打分的方式加速训练过程。解码器首先将实体和关系的嵌入向量堆叠形成二维张量，经过卷积和全连接层后在内积层与候选目标的嵌入向量进行匹配，计算得分函数，根据得分排序选择待补全的目标。

本发明提供的方法具体包括以下步骤：

将时序知识图谱G中的事件按其时间步升序排列，时序知识图谱可表示为其不同时间步的子知识图谱的序列，即G＝{G₁,G₂,…,G_T}，其中T表示时间步的集合，G_t表示该时序知识图谱G在时间步t的子知识图谱；

时序知识图谱G的补全包含实体补全和关系补全两个任务；实体补全是对四元组中缺失的实体进行预测，例如给定一个不完整四元组(s,r,？,t)，通过对所有候选实体进行推理和排序，从中选出最有可能的实体作为补全的结果；其中，？表示缺失的实体；关系补全是对缺失关系的四元组(s,？,o,t)进行推理，预测头实体s和尾实体o之间可能存在的关系；其中，？表示缺失的关系；

本实施例中，步骤2的具体实现包括以下子步骤：

步骤2.1：随机初始化时间步t所有实体的嵌入向量

和所有关系的嵌入向量

其中N为实体的总数，M为关系的总数；

步骤2.2：采用L层多关系图卷积神经网络RGCN作为结构编码器，使用L层多关系图卷积神经网络RGCN对局部邻居信息进行聚合，经过每层消息传递后得到实体的嵌入向量

和关系的嵌入向量

其中1≤l≤L；采用交叉熵损失函数更新RGCN的参数；

步骤2.3：经过L层的聚合后将

作为结构编码器输出的实体e_i的嵌入向量，将

作为结构编码器输出的关系r_j的嵌入向量。

本实施例中，时序编码器使用门控循环单元GRU实现，用于整合预测时间步t之前K个时间步由上一步骤中结构编码器产生的每一实体e_i的嵌入向量{h_i,t-K,h_i,t-K+1,…,h_i,t-1}以及每一关系r_j的嵌入向量{r_i,t-K,r_i,t-K+1,…,r_i,t-1}，得到时间步t每一实体e_i对应的最终嵌入向量

以及每一关系r_j对应的最终嵌入向量

具体实现包括以下子步骤：

步骤3.1：分别计算每一实体e_i和每一关系r_j在长度为K的时间步中的衰减系数{γ_i,t-K,γ_i,t-K+1,…,γ_i,t-1}和{θ_i,t-K,θ_i,t-K+1,…,θ_i,t-1}；衰减系数用于衡量实体和关系在预测时间步之前的活跃程度；实体当前出现的时间步与实体上一次出现的时间步的间隔越小，则实体在当前时间步的活跃度越高，间隔越大，实体在当前时间步的活跃度越低。

步骤3.2：将各个时间步的嵌入向量{h_i,t-K,h_i,t-K+1,…,h_i,t-1}和{r_i,t-K,r_i,t-K+1,…,r_i,t-1}与对应的衰减系数{γ_i,t-K,γ_i,t-K+1,…,γ_i,t-1}和{θ_i,t-K,θ_i,t-K+1,…,θ_i,t-1}相乘作为GRU的输入，获取实体和关系的时序依赖特征；

步骤3.3：将GRU的输出

和

分别作为实体e_i和关系r_j在时间步t的嵌入向量。

和

本实施例采用的时间图卷积网络为训练好的时间图卷积网络；其训练过程包括以下步骤：

(1)构建若干待补全的时序知识图谱G，并确定该时序知识图谱待补全的目标时间步；

(2)步骤2：通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量；

(3)通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量；

(4)通过解码器对每个候选四元组(s,r,o,t)根据上述步骤得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量

和

计算其得分，并产生时间图卷积网络整体的损失函数；通过随机梯度下降法优化该损失函数，并更新时间图卷积网络的模型参数以及实体和关系的嵌入向量直至收敛。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于时间图卷积网络的时序知识图谱补全方法，其特征在于：所述时间图卷积网络包括结构编码器、时序编码器和解码器三个模块：结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息，挖掘实体和关系的潜在语义信息；时序编码器用于学习知识图谱的历史信息，挖掘实体和关系的时序特征信息；解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果；

所述方法包括以下步骤：

时序知识图谱G的补全包含实体补全和关系补全两个任务；实体补全是对四元组中缺失的实体进行预测，给定一个不完整四元组(s,r,？,t)，通过对所有候选实体进行推理和排序，从中选出最有可能的实体作为补全的结果，其中，？表示缺失的实体；关系补全是对缺失关系的四元组(s,？,o,t)进行推理，预测头实体s和尾实体o之间可能存在的关系；其中，？表示缺失的关系；

和

2.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法，其特征在于：所述结构编码器由L层多关系图卷积神经网络RGCN构建，将每个时间步的知识图谱作为输入，对实体节点的局部邻居信息进行传递和聚合，从而生成实体和关系的嵌入向量；其中实体节点的聚合信息按照关系的类型不同进行相应转换，并经过正则化和激活函数ReLU；最终得到的实体和关系的嵌入向量具有了该时间步知识图谱的结构信息。

3.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法，其特征在于：所述时序编码器，采用具有权重衰减机制的门控循环单元GRU，用以集成跨时间步的实体和关系的嵌入向量中包含的时序信息；时序编码器以每一时间步的实体嵌入向量和关系嵌入向量作为输入，根据实体和关系在预测时间步之前的活跃程度计算其对应的衰减系数，将衰减系数与嵌入向量相乘输入GRU，计算实体和关系的最终嵌入向量。

4.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法，其特征在于：所述解码器基于ConvE模型实现，由单层的卷积网络、全连接投影层和内积层组成；解码器首先将实体和关系的嵌入向量堆叠形成二维张量，经过卷积和全连接层后在内积层与候选目标的嵌入向量进行匹配，计算得分函数，根据得分排序选择待补全的目标。

5.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法，其特征在于，步骤2的具体实现包括以下子步骤：

步骤2.1：随机初始化时间步t所有实体的嵌入向量

和所有关系的嵌入向量

其中N为实体的总数，M为关系的总数；

和关系的嵌入向量

其中1≤l≤L；采用交叉熵损失函数更新RGCN的参数；

步骤2.3：经过L层的聚合后将

作为结构编码器输出的实体e_i的嵌入向量，将

作为结构编码器输出的关系r_j的嵌入向量。

6.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法，其特征在于，步骤3中，所述时序编码器使用门控循环单元GRU实现，用于整合预测时间步t之前K个时间步由上一步骤中结构编码器产生的每一实体e_i的嵌入向量{h_i,t-K,h_i,t-K+1,…,h_i,t-1}以及每一关系r_j的嵌入向量{r_i,t-K,r_i,t-K+1,…,r_i,t-1}，得到时间步t每一实体e_i对应的最终嵌入向量

以及每一关系r_j对应的最终嵌入向量

具体实现包括以下子步骤：

步骤3.1：分别计算每一实体e_i和每一关系r_j在长度为K的时间步中的衰减系数{γ_i,t-K,γ_i,t-K+1,…,γ_i,t-1}和{θ_i,t-K,θ_i,t-K+1,…,θ_i,t-1}；衰减系数用于衡量实体和关系在预测时间步之前的活跃程度；

步骤3.3：将GRU的输出

和

分别作为实体e_i和关系r_j在时间步t的嵌入向量。

7.根据权利要求1-6任意一项所述的基于时间图卷积网络的时序知识图谱补全方法，其特征在于：所述时间图卷积网络为训练好的时间图卷积网络；其训练过程包括以下步骤：

时序知识图谱G的补全包含实体补全和关系补全两个任务；实体补全是对四元组中缺失的实体进行预测，给定一个不完整四元组(s,r,？,t)，通过对所有候选实体进行推理和排序，从中选出最有可能的实体作为补全的结果；其中，？表示缺失的实体；关系补全是对缺失关系的四元组(s,？,o,t)进行推理，预测头实体s和尾实体o之间可能存在的关系，其中，？表示缺失的关系；

和

8.一种基于时间图卷积网络的时序知识图谱补全系统，其特征在于：所述时间图卷积网络包括结构编码器、时序编码器和解码器三个模块：结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息，挖掘实体和关系的潜在语义信息；时序编码器用于学习知识图谱的历史信息，挖掘实体和关系的时序特征信息；解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果；

所述系统包括以下模块：

和