CN114780739A - 基于时间图卷积网络的时序知识图谱补全方法及系统 - Google Patents

基于时间图卷积网络的时序知识图谱补全方法及系统 Download PDF

Info

Publication number
CN114780739A
CN114780739A CN202210393407.XA CN202210393407A CN114780739A CN 114780739 A CN114780739 A CN 114780739A CN 202210393407 A CN202210393407 A CN 202210393407A CN 114780739 A CN114780739 A CN 114780739A
Authority
CN
China
Prior art keywords
time
entity
time sequence
knowledge graph
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210393407.XA
Other languages
English (en)
Inventor
马超
彭琛琛
石小川
张典
孟小亮
李彦胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210393407.XA priority Critical patent/CN114780739A/zh
Publication of CN114780739A publication Critical patent/CN114780739A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于时间图卷积网络的时序知识图谱补全方法及系统,本发明的时间图卷积网络包括结构编码器、时序编码器和解码器三个模块;本发明首先选择待补全的时序知识图谱G,并确定该时序知识图谱待补全的目标时间步;然后通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量;接着通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量;最后通过解码器对每个候选四元组(s,r,o,t)根据得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量,对待补全时序知识图谱中缺失内容进行预测,完成时序知识图谱的补全。本发明可以有效提升时序知识图谱补全任务的准确率。

Description

基于时间图卷积网络的时序知识图谱补全方法及系统
技术领域
本发明属于信息技术领域,涉及一种时序知识图谱补全方法及系统,具体涉及面向时序知识图谱补全任务提出的一种通过图卷积神经网络和门控循环单元对时序知识图谱进行建模,挖掘知识图谱潜在结构特征和时序特征,对时序知识图谱中缺失的实体和关系进行补全的方法及系统。
背景技术
知识图谱是以结构化的图模式将现实世界中的实体或概念及其之间的关系组织起来形成计算机可理解和可计算的一种知识体系,已被广泛应用于推荐系统、机器翻译和问答系统等领域。
传统的知识图谱只能处理静态的数据,无法反映实体和关系随着时间推移所产生的变化。时序知识图谱是传统知识图谱在时间维度上的扩展,它为实体和关系构成的事实添加了时间戳作为约束,能够反映知识随时间动态变化的特性,有着广阔的应用前景。由于数据来源和构建方法的限制,现有的时序知识图谱往往存在不完整的问题。时序知识图谱中实体和关系的缺失阻碍了它的应用。因而,如何从现有的时序知识图谱中挖掘和推理出隐含的知识,在一定程度上对其进行补全成为了目前研究的重点。
现有的知识图谱补全技术大多针对静态的数据,没有考虑知识图谱中蕴含的时序信息,无法对时序知识图谱进行有效的推理。近年来,一些方法将时序知识图谱中动态变化的事件在时间序列上进行建模,对某些时间点缺失的实体或关系进行推理和预测,但这种方法忽略了时序知识图谱蕴含的局部和全局结构特征,难以有效挖掘邻域实体潜在的重要信息。还有一些方法使用图卷积神经网络学习时序知识图谱每个时间点的实体表征,从而挖掘其内部的空间结构信息,实现对缺失数据的推理和补全,但这种方法对每个时间点的图结构独立建模,对时序信息的融合存在一定的局限性。
发明目的
本发明的目的在于提出一种基于时间图卷积网络的时序知识图谱补全方法及系统,以提升时序知识图谱补全任务的准确率。
本发明的方法所采用的技术方案是:一种基于时间图卷积网络的时序知识图谱补全方法,所述时间图卷积网络包括结构编码器、时序编码器和解码器三个模块:结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息,挖掘实体和关系的潜在语义信息;时序编码器用于学习知识图谱的历史信息,挖掘实体和关系的时序特征信息;解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果;
所述方法包括以下步骤:
步骤1:选择待补全的时序知识图谱G,并确定该时序知识图谱待补全的目标时间步;
将时序知识图谱G中的事件按其时间步升序排列,即G={G1,G2,…,GT},其中T表示时间步的集合,Gt表示该时序知识图谱G在时间步t的子知识图谱;
定义时序知识图谱G的所有实体构成的集合为E,所有关系构成的集合为R;时序知识图谱G中的事件表示为四元组形式(s,r,o,t),其中头实体s∈E,关系r∈R,尾实体o∈E,时间步t∈T;
时序知识图谱G的补全包含实体补全和关系补全两个任务;实体补全是对四元组中缺失的实体进行预测,给定一个不完整四元组(s,r,?,t),通过对所有候选实体进行推理和排序,从中选出最有可能的实体作为补全的结果;关系补全是对缺失关系的四元组(s,?,o,t)进行推理,预测头实体s和尾实体o之间可能存在的关系;其中,?表示缺失的关系;
步骤2:通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量;
步骤3:通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量;
步骤4:通过解码器对每个候选四元组(s,r,o,t)根据得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量
Figure BDA0003596423940000021
Figure BDA0003596423940000022
通过实体和关系的最终嵌入向量计算待补全时序知识图谱中候选实体的得分,并根据结果对缺失内容进行预测,完成时序知识图谱的补全。
本发明的系统所采用的技术方案是:一种基于时间图卷积网络的时序知识图谱补全系统,所述时间图卷积网络包括结构编码器、时序编码器和解码器三个模块:结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息,挖掘实体和关系的潜在语义信息;时序编码器用于学习知识图谱的历史信息,挖掘实体和关系的时序特征信息;解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果;
所述系统包括以下模块:
模块1,用于选择待补全的时序知识图谱G,并确定该时序知识图谱待补全的目标时间步;
将时序知识图谱G中的事件按其时间步升序排列,即G={G1,G2,…,GT},其中T表示时间步的集合,Gt表示该时序知识图谱G在时间步t的子知识图谱;
定义时序知识图谱G的所有实体构成的集合为E,所有关系构成的集合为R;时序知识图谱G中的事件表示为四元组形式(s,r,o,t),其中头实体s∈E,关系r∈R,尾实体o∈E,时间步t∈T;
时序知识图谱G的补全包含实体补全和关系补全两个任务;实体补全是对四元组中缺失的实体进行预测,给定一个不完整四元组(s,r,?,t),通过对所有候选实体进行推理和排序,从中选出最有可能的实体作为补全的结果;其中,?表示缺失的实体;关系补全是对缺失关系的四元组(s,?,o,t)进行推理,预测头实体s和尾实体o之间可能存在的关系;其中,?表示缺失的关系;
模块2,用于通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量;
模块3,用于通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量;
模块4,用于通过解码器对每个候选四元组(s,r,o,t)根据得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量
Figure BDA0003596423940000031
Figure BDA0003596423940000032
通过实体和关系的最终嵌入向量计算待补全时序知识图谱中候选实体的得分,并根据结果对缺失内容进行预测,完成时序知识图谱的补全。
本发明的优越性主要体现在以下几个方面:
(1)本发明提出的时间图卷积网络通过基于改进的RGCN的结构编码器对多关系实体建模,通过基于GRU的时序编码器对历史信息建模,同时捕获了时序知识图谱潜在的结构特征和时序特征,从而提升时序知识图谱补全任务的准确率。
(2)本发明提出的时序知识图谱补全方法具有较高的可拓展性,可与ConvE模型、TransE模型、NTN和DistMult等多种静态的补全方法相结合进行表征学习。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的时间图卷积网络架构图。
图3为本发明实施例的结构编码器结构图。
图4为本发明实施例的时序编码器结构图。
图5为本发明实施例的解码器结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于时间图卷积网络的时序知识图谱补全方法,可以有效提升时序知识图谱补全任务的准确率。具体而言,本发明主要包括以下三点:
(1)为了有效获取时序知识图谱的潜在语义信息和结构特征,时间图卷积网络采用基于RGCN模型的结构编码器,通过改进的图卷积神经网络对多关系实体建模。
(2)为了有效获取知识图谱时序特征,时间图卷积网络采用基于门控循环单元(GRU)的时序编码器建模时序知识图谱中历史信息,挖掘知识图谱潜在的时序依赖关系。
(3)为了利用实体和关系的嵌入向量,对每个目标时间点的知识图谱缺失部分进行有效推理和预测,时间图卷积网络使用基于ConvE方法的解码器,用于根据实体和关系的嵌入向量计算候选三元组的得分。
请见图2,本实施例的时间图卷积网络包括结构编码器、时序编码器和解码器三个模块:结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息,挖掘实体和关系的潜在语义信息;时序编码器用于学习知识图谱的历史信息,挖掘实体和关系的时序特征信息;解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果;
请见图3,本实施例的结构编码器,所述结构编码器由L层多关系图卷积神经网络(RGCN)构建,将每个时间步的知识图谱作为输入,对实体节点的局部邻居信息进行传递和聚合,从而生成实体和关系的嵌入向量。其中实体节点的聚合信息按照关系的类型不同进行相应转换,并经过正则化和激活函数ReLU。最终得到的实体和关系的嵌入向量具有了该时间步知识图谱的结构信息。结构编码器采用交叉熵损失函数更新模型参数,通过参数共享和稀疏约束技术减轻了过拟合,能够在大规模知识图谱上扩展、传递数据。
请见图4,本实施例的时序编码器,所述时序编码器,采用具有权重衰减机制的门控循环单元(GRU),用以集成跨时间步的实体和关系的嵌入向量中包含的时序信息。时序编码器以每一时间步的实体嵌入向量和关系嵌入向量作为输入,根据实体和关系在预测时间步之前的活跃程度计算其对应的衰减系数,将该系数与嵌入向量相乘输入GRU单元,计算实体和关系的最终嵌入向量。
请见图5,本实施例的解码器,所述解码器基于ConvE模型实现,由单层的卷积网络、全连接投影层和内积层组成,具有较少的参数且通过一对多打分的方式加速训练过程。解码器首先将实体和关系的嵌入向量堆叠形成二维张量,经过卷积和全连接层后在内积层与候选目标的嵌入向量进行匹配,计算得分函数,根据得分排序选择待补全的目标。
本发明提供的方法具体包括以下步骤:
步骤1:选择待补全的时序知识图谱G,并确定该时序知识图谱待补全的目标时间步;
将时序知识图谱G中的事件按其时间步升序排列,时序知识图谱可表示为其不同时间步的子知识图谱的序列,即G={G1,G2,…,GT},其中T表示时间步的集合,Gt表示该时序知识图谱G在时间步t的子知识图谱;
定义时序知识图谱G的所有实体构成的集合为E,所有关系构成的集合为R;时序知识图谱G中的事件表示为四元组形式(s,r,o,t),其中头实体s∈E,关系r∈R,尾实体o∈E,时间步t∈T;
时序知识图谱G的补全包含实体补全和关系补全两个任务;实体补全是对四元组中缺失的实体进行预测,例如给定一个不完整四元组(s,r,?,t),通过对所有候选实体进行推理和排序,从中选出最有可能的实体作为补全的结果;其中,?表示缺失的实体;关系补全是对缺失关系的四元组(s,?,o,t)进行推理,预测头实体s和尾实体o之间可能存在的关系;其中,?表示缺失的关系;
步骤2:通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量;
本实施例中,步骤2的具体实现包括以下子步骤:
步骤2.1:随机初始化时间步t所有实体的嵌入向量
Figure BDA0003596423940000051
和所有关系的嵌入向量
Figure BDA0003596423940000061
其中N为实体的总数,M为关系的总数;
步骤2.2:采用L层多关系图卷积神经网络RGCN作为结构编码器,使用L层多关系图卷积神经网络RGCN对局部邻居信息进行聚合,经过每层消息传递后得到实体的嵌入向量
Figure BDA0003596423940000062
和关系的嵌入向量
Figure BDA0003596423940000063
其中1≤l≤L;采用交叉熵损失函数更新RGCN的参数;
步骤2.3:经过L层的聚合后将
Figure BDA0003596423940000064
作为结构编码器输出的实体ei的嵌入向量,将
Figure BDA0003596423940000065
作为结构编码器输出的关系rj的嵌入向量。
步骤3:通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量;
本实施例中,时序编码器使用门控循环单元GRU实现,用于整合预测时间步t之前K个时间步由上一步骤中结构编码器产生的每一实体ei的嵌入向量{hi,t-K,hi,t-K+1,…,hi,t-1}以及每一关系rj的嵌入向量{ri,t-K,ri,t-K+1,…,ri,t-1},得到时间步t每一实体ei对应的最终嵌入向量
Figure BDA0003596423940000066
以及每一关系rj对应的最终嵌入向量
Figure BDA0003596423940000067
具体实现包括以下子步骤:
步骤3.1:分别计算每一实体ei和每一关系rj在长度为K的时间步中的衰减系数{γi,t-Ki,t-K+1,…,γi,t-1}和{θi,t-Ki,t-K+1,…,θi,t-1};衰减系数用于衡量实体和关系在预测时间步之前的活跃程度;实体当前出现的时间步与实体上一次出现的时间步的间隔越小,则实体在当前时间步的活跃度越高,间隔越大,实体在当前时间步的活跃度越低。
步骤3.2:将各个时间步的嵌入向量{hi,t-K,hi,t-K+1,…,hi,t-1}和{ri,t-K,ri,t-K+1,…,ri,t-1}与对应的衰减系数{γi,t-Ki,t-K+1,…,γi,t-1}和{θi,t-Ki,t-K+1,…,θi,t-1}相乘作为GRU的输入,获取实体和关系的时序依赖特征;
步骤3.3:将GRU的输出
Figure BDA0003596423940000068
Figure BDA0003596423940000069
分别作为实体ei和关系rj在时间步t的嵌入向量。
步骤4:通过解码器对每个候选四元组(s,r,o,t)根据得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量
Figure BDA00035964239400000610
Figure BDA00035964239400000611
通过实体和关系的最终嵌入向量计算待补全时序知识图谱中候选实体的得分,并根据结果对缺失内容进行预测,完成时序知识图谱的补全。
本实施例采用的时间图卷积网络为训练好的时间图卷积网络;其训练过程包括以下步骤:
(1)构建若干待补全的时序知识图谱G,并确定该时序知识图谱待补全的目标时间步;
将时序知识图谱G中的事件按其时间步升序排列,时序知识图谱可表示为其不同时间步的子知识图谱的序列,即G={G1,G2,…,GT},其中T表示时间步的集合,Gt表示该时序知识图谱G在时间步t的子知识图谱;
定义时序知识图谱G的所有实体构成的集合为E,所有关系构成的集合为R;时序知识图谱G中的事件表示为四元组形式(s,r,o,t),其中头实体s∈E,关系r∈R,尾实体o∈E,时间步t∈T;
时序知识图谱G的补全包含实体补全和关系补全两个任务;实体补全是对四元组中缺失的实体进行预测,例如给定一个不完整四元组(s,r,?,t),通过对所有候选实体进行推理和排序,从中选出最有可能的实体作为补全的结果;其中,?表示缺失的实体;关系补全是对缺失关系的四元组(s,?,o,t)进行推理,预测头实体s和尾实体o之间可能存在的关系;其中,?表示缺失的关系;
(2)步骤2:通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量;
(3)通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量;
(4)通过解码器对每个候选四元组(s,r,o,t)根据上述步骤得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量
Figure BDA0003596423940000071
Figure BDA0003596423940000072
计算其得分,并产生时间图卷积网络整体的损失函数;通过随机梯度下降法优化该损失函数,并更新时间图卷积网络的模型参数以及实体和关系的嵌入向量直至收敛。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (8)

1.一种基于时间图卷积网络的时序知识图谱补全方法,其特征在于:所述时间图卷积网络包括结构编码器、时序编码器和解码器三个模块:结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息,挖掘实体和关系的潜在语义信息;时序编码器用于学习知识图谱的历史信息,挖掘实体和关系的时序特征信息;解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果;
所述方法包括以下步骤:
步骤1:选择待补全的时序知识图谱G,并确定该时序知识图谱待补全的目标时间步;
将时序知识图谱G中的事件按其时间步升序排列,即G={G1,G2,…,GT},其中T表示时间步的集合,Gt表示该时序知识图谱G在时间步t的子知识图谱;
定义时序知识图谱G的所有实体构成的集合为E,所有关系构成的集合为R;时序知识图谱G中的事件表示为四元组形式(s,r,o,t),其中头实体s∈E,关系r∈R,尾实体o∈E,时间步t∈T;
时序知识图谱G的补全包含实体补全和关系补全两个任务;实体补全是对四元组中缺失的实体进行预测,给定一个不完整四元组(s,r,?,t),通过对所有候选实体进行推理和排序,从中选出最有可能的实体作为补全的结果,其中,?表示缺失的实体;关系补全是对缺失关系的四元组(s,?,o,t)进行推理,预测头实体s和尾实体o之间可能存在的关系;其中,?表示缺失的关系;
步骤2:通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量;
步骤3:通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量;
步骤4:通过解码器对每个候选四元组(s,r,o,t)根据得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量
Figure FDA0003596423930000011
Figure FDA0003596423930000012
通过实体和关系的最终嵌入向量计算待补全时序知识图谱中候选实体的得分,并根据结果对缺失内容进行预测,完成时序知识图谱的补全。
2.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法,其特征在于:所述结构编码器由L层多关系图卷积神经网络RGCN构建,将每个时间步的知识图谱作为输入,对实体节点的局部邻居信息进行传递和聚合,从而生成实体和关系的嵌入向量;其中实体节点的聚合信息按照关系的类型不同进行相应转换,并经过正则化和激活函数ReLU;最终得到的实体和关系的嵌入向量具有了该时间步知识图谱的结构信息。
3.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法,其特征在于:所述时序编码器,采用具有权重衰减机制的门控循环单元GRU,用以集成跨时间步的实体和关系的嵌入向量中包含的时序信息;时序编码器以每一时间步的实体嵌入向量和关系嵌入向量作为输入,根据实体和关系在预测时间步之前的活跃程度计算其对应的衰减系数,将衰减系数与嵌入向量相乘输入GRU,计算实体和关系的最终嵌入向量。
4.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法,其特征在于:所述解码器基于ConvE模型实现,由单层的卷积网络、全连接投影层和内积层组成;解码器首先将实体和关系的嵌入向量堆叠形成二维张量,经过卷积和全连接层后在内积层与候选目标的嵌入向量进行匹配,计算得分函数,根据得分排序选择待补全的目标。
5.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法,其特征在于,步骤2的具体实现包括以下子步骤:
步骤2.1:随机初始化时间步t所有实体的嵌入向量
Figure FDA0003596423930000021
和所有关系的嵌入向量
Figure FDA0003596423930000022
其中N为实体的总数,M为关系的总数;
步骤2.2:采用L层多关系图卷积神经网络RGCN作为结构编码器,使用L层多关系图卷积神经网络RGCN对局部邻居信息进行聚合,经过每层消息传递后得到实体的嵌入向量
Figure FDA0003596423930000023
和关系的嵌入向量
Figure FDA0003596423930000024
其中1≤l≤L;采用交叉熵损失函数更新RGCN的参数;
步骤2.3:经过L层的聚合后将
Figure FDA0003596423930000025
作为结构编码器输出的实体ei的嵌入向量,将
Figure FDA0003596423930000026
作为结构编码器输出的关系rj的嵌入向量。
6.根据权利要求1所述的基于时间图卷积网络的时序知识图谱补全方法,其特征在于,步骤3中,所述时序编码器使用门控循环单元GRU实现,用于整合预测时间步t之前K个时间步由上一步骤中结构编码器产生的每一实体ei的嵌入向量{hi,t-K,hi,t-K+1,…,hi,t-1}以及每一关系rj的嵌入向量{ri,t-K,ri,t-K+1,…,ri,t-1},得到时间步t每一实体ei对应的最终嵌入向量
Figure FDA0003596423930000027
以及每一关系rj对应的最终嵌入向量
Figure FDA0003596423930000028
具体实现包括以下子步骤:
步骤3.1:分别计算每一实体ei和每一关系rj在长度为K的时间步中的衰减系数{γi,t-Ki,t-K+1,…,γi,t-1}和{θi,t-Ki,t-K+1,…,θi,t-1};衰减系数用于衡量实体和关系在预测时间步之前的活跃程度;
步骤3.2:将各个时间步的嵌入向量{hi,t-K,hi,t-K+1,…,hi,t-1}和{ri,t-K,ri,t-K+1,…,ri,t-1}与对应的衰减系数{γi,t-Ki,t-K+1,…,γi,t-1}和{θi,t-Ki,t-K+1,…,θi,t-1}相乘作为GRU的输入,获取实体和关系的时序依赖特征;
步骤3.3:将GRU的输出
Figure FDA0003596423930000031
Figure FDA0003596423930000032
分别作为实体ei和关系rj在时间步t的嵌入向量。
7.根据权利要求1-6任意一项所述的基于时间图卷积网络的时序知识图谱补全方法,其特征在于:所述时间图卷积网络为训练好的时间图卷积网络;其训练过程包括以下步骤:
(1)构建若干待补全的时序知识图谱G,并确定该时序知识图谱待补全的目标时间步;
将时序知识图谱G中的事件按其时间步升序排列,即G={G1,G2,…,GT},其中T表示时间步的集合,Gt表示该时序知识图谱G在时间步t的子知识图谱;
定义时序知识图谱G的所有实体构成的集合为E,所有关系构成的集合为R;时序知识图谱G中的事件表示为四元组形式(s,r,o,t),其中头实体s∈E,关系r∈R,尾实体o∈E,时间步t∈T;
时序知识图谱G的补全包含实体补全和关系补全两个任务;实体补全是对四元组中缺失的实体进行预测,给定一个不完整四元组(s,r,?,t),通过对所有候选实体进行推理和排序,从中选出最有可能的实体作为补全的结果;其中,?表示缺失的实体;关系补全是对缺失关系的四元组(s,?,o,t)进行推理,预测头实体s和尾实体o之间可能存在的关系,其中,?表示缺失的关系;
(2)步骤2:通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量;
(3)通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量;
(4)通过解码器对每个候选四元组(s,r,o,t)根据上述步骤得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量
Figure FDA0003596423930000033
Figure FDA0003596423930000034
计算其得分,并产生时间图卷积网络整体的损失函数;通过随机梯度下降法优化该损失函数,并更新时间图卷积网络的模型参数以及实体和关系的嵌入向量直至收敛。
8.一种基于时间图卷积网络的时序知识图谱补全系统,其特征在于:所述时间图卷积网络包括结构编码器、时序编码器和解码器三个模块:结构编码器用于捕获时序知识图谱每一个时间步的拓扑结构信息,挖掘实体和关系的潜在语义信息;时序编码器用于学习知识图谱的历史信息,挖掘实体和关系的时序特征信息;解码器用于根据包含拓扑结构信息和时序特征信息的嵌入向量计算补全结果;
所述系统包括以下模块:
模块1,用于选择待补全的时序知识图谱G,并确定该时序知识图谱待补全的目标时间步;
将时序知识图谱G中的事件按其时间步升序排列,即G={G1,G2,…,GT},其中T表示时间步的集合,Gt表示该时序知识图谱G在时间步t的子知识图谱;
定义时序知识图谱G的所有实体构成的集合为E,所有关系构成的集合为R;时序知识图谱G中的事件表示为四元组形式(s,r,o,t),其中头实体s∈E,关系r∈R,尾实体o∈E,时间步t∈T;
时序知识图谱G的补全包含实体补全和关系补全两个任务;实体补全是对四元组中缺失的实体进行预测,给定一个不完整四元组(s,r,?,t),通过对所有候选实体进行推理和排序,从中选出最有可能的实体作为补全的结果;其中,?表示缺失的实体;关系补全是对缺失关系的四元组(s,?,o,t)进行推理,预测头实体s和尾实体o之间可能存在的关系,其中,?表示缺失的关系;
模块2,用于通过结构编码器产生时序知识图谱每个时间步的实体嵌入向量和关系嵌入向量;
模块3,用于通过时序编码器生成实体和关系在预测时间步对应的最终嵌入向量;
模块4,用于通过解码器对每个候选四元组(s,r,o,t)根据得到的头实体s、关系r和尾实体o在时间步t对应的最终嵌入向量
Figure FDA0003596423930000041
Figure FDA0003596423930000042
通过实体和关系的最终嵌入向量计算待补全时序知识图谱中候选实体的得分,并根据结果对缺失内容进行预测,完成时序知识图谱的补全。
CN202210393407.XA 2022-04-14 2022-04-14 基于时间图卷积网络的时序知识图谱补全方法及系统 Pending CN114780739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210393407.XA CN114780739A (zh) 2022-04-14 2022-04-14 基于时间图卷积网络的时序知识图谱补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210393407.XA CN114780739A (zh) 2022-04-14 2022-04-14 基于时间图卷积网络的时序知识图谱补全方法及系统

Publications (1)

Publication Number Publication Date
CN114780739A true CN114780739A (zh) 2022-07-22

Family

ID=82428628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210393407.XA Pending CN114780739A (zh) 2022-04-14 2022-04-14 基于时间图卷积网络的时序知识图谱补全方法及系统

Country Status (1)

Country Link
CN (1) CN114780739A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599927A (zh) * 2022-11-08 2023-01-13 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)(Cn) 一种基于度量学习的时序知识图谱补全方法及系统
CN115984146A (zh) * 2023-03-16 2023-04-18 中国海洋大学 基于全局一致性的海洋叶绿素浓度图像的补全方法及网络
CN116340524A (zh) * 2022-11-11 2023-06-27 华东师范大学 一种基于关系自适应网络的小样本时态知识图谱补全方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599927A (zh) * 2022-11-08 2023-01-13 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)(Cn) 一种基于度量学习的时序知识图谱补全方法及系统
CN116340524A (zh) * 2022-11-11 2023-06-27 华东师范大学 一种基于关系自适应网络的小样本时态知识图谱补全方法
CN116340524B (zh) * 2022-11-11 2024-03-08 华东师范大学 一种基于关系自适应网络的小样本时态知识图谱补全方法
CN115984146A (zh) * 2023-03-16 2023-04-18 中国海洋大学 基于全局一致性的海洋叶绿素浓度图像的补全方法及网络

Similar Documents

Publication Publication Date Title
CN109754605B (zh) 一种基于注意力时态图卷积网络的交通预测方法
CN113053115B (zh) 一种基于多尺度图卷积网络模型的交通预测方法
CN111400620B (zh) 基于时空嵌入Self-Attention的用户轨迹位置预测方法
CN114780739A (zh) 基于时间图卷积网络的时序知识图谱补全方法及系统
CN115240425B (zh) 一种基于多尺度时空融合图网络的交通预测方法
CN113361680B (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN109887282A (zh) 一种基于层级时序图卷积网络的路网交通流预测方法
CN111696355A (zh) 动态图卷积交通速度预测方法
CN109685153B (zh) 一种基于特征聚合的社交网络谣言鉴别方法
CN113313947A (zh) 短期交通预测图卷积网络的路况评估方法
CN114299723B (zh) 一种交通流量预测方法
CN109344992B (zh) 一种融合时空因素的智能家居用户操控行为习惯建模方法
CN110909909A (zh) 基于深度学习和多层时空特征图的短时交通流预测方法
CN106529818A (zh) 基于模糊小波神经网络的水质评价预测方法
CN113762595B (zh) 通行时间预测模型训练方法、通行时间预测方法及设备
CN113537580B (zh) 一种基于自适应图学习的公共交通客流预测方法及系统
CN115862324A (zh) 一种智慧交通的时空同步图卷积神经网络及交通预测方法
Dai et al. Spatio-temporal deep learning framework for traffic speed forecasting in IoT
CN115862319A (zh) 一种面向时空图自编码器的交通流量预测方法
CN114926770A (zh) 视频动作识别方法、装置、设备和计算机可读存储介质
Xu et al. Short‐term traffic flow prediction based on whale optimization algorithm optimized BiLSTM_Attention
Xiong et al. DCAST: a spatiotemporal model with DenseNet and GRU based on attention mechanism
Lu et al. An adaptive neural architecture search design for collaborative edge-cloud computing
CN111507499B (zh) 预测用模型的构建方法、测试方法、装置及系统
CN117131979A (zh) 基于有向超图及注意力机制的交通流速度预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination