CN118069869B - 基于时间规律捕获的时序知识图谱推理方法及装置 - Google Patents
基于时间规律捕获的时序知识图谱推理方法及装置 Download PDFInfo
- Publication number
- CN118069869B CN118069869B CN202410466869.9A CN202410466869A CN118069869B CN 118069869 B CN118069869 B CN 118069869B CN 202410466869 A CN202410466869 A CN 202410466869A CN 118069869 B CN118069869 B CN 118069869B
- Authority
- CN
- China
- Prior art keywords
- time
- entity
- data
- coding
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000011159 matrix material Substances 0.000 claims abstract description 86
- 238000010586 diagram Methods 0.000 claims abstract description 69
- 230000003068 static effect Effects 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 14
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 238000005096 rolling process Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种基于时间规律捕获的时序知识图谱推理方法及装置,涉及大数据、人工智能与知识图谱技术领域,该方法包括:获取用户查询输入,构建查询四元组,并获取历史数据;对四元组数据进行重复事实编码,得到历史数据统计向量;对动态图数据进行时间线拟合,得到筛选后的动态图数据和实体数据;对静态图数据进行全局编码,得到静态图上的实体和关系的编码矩阵,并使用局部编码方式、基于筛选后的动态图数据对编码矩阵进行更新;对查询四元组进行解码,将解码结果与更新后的编码矩阵进行得分计算,并将计算的解码得分与历史数据统计向量、实体数据结合,得到预测结果。采用上述方案的本申请能够基于历史数据,实现对较远的未来事实的准确预测。
Description
技术领域
本申请涉及大数据、人工智能与知识图谱技术领域,尤其涉及基于时间规律捕获的时序知识图谱推理方法和装置。
背景技术
知识图谱是大规模语义网络知识库,由点(实体)和边(实体间的关系)组成,采取符号化的知识表示方式,利用三元组,即(头实体,关系,尾实体)来描述具体的知识,近年来在自然语言处理、问答系统、推荐系统等诸多领域有着广泛的应用。然而,现实世界中的知识常常是动态的,会随时间变化。为了研究这项变化,时序知识图谱(TKG)应运而生。时序知识图谱将时间纳入知识的表示中,以四元组/>或动态图的形式来描述时序知识(事实)。
然而,时序知识图谱往往是充满噪声且不完整的,这很大程度上限制了其在下游任务中的应用。时序知识图谱推理,则是通过对已有事实的学习,来对时序知识图谱的缺失边进行补全和推理的任务,分为内推和外推两类。给定一个时间范围到/>的时序知识图谱,时序知识图谱内推任务目的是预测时间范围/>内的缺失事实,也被称为时序知识图谱补全任务;时序知识图谱外推任务则更加困难,其需要预测/>以后的缺失事实,即进行未来预测。
现有的时序知识图谱外推模型主要分为3类。1)嵌入类模型。嵌入类模型通过将时序知识图谱中的实体和关系以及时间嵌入到连续向量空间,从而在方便计算的同时保留时序知识图谱中的结构信息。2)规则类模型。规则类模型学习事实出现的因果关系,将这一关系视为静态关系,并基于此进行未来预测。3)路径类模型。路径类模型寻找与查询中的实体有关的事实,构筑出一条相关路径,对这一路径上的事实进行学习,避免了无关知识的误导。
然而,上述几类方法存在两个不足。1)对历史事实的学习不够全面。时序数据存在序列性、循环性、重复性三大特性,序列性表示与相关知识随时间的变化,循环性表示同一事实有规律地在不同时间出现,重复性表示实体A与实体B之间存在某一关系时,在未来时间这两个实体之间可能仍存在这一关系。其中规则类模型只能建模循环性和重复性;嵌入和路径类模型能够对三大特性进行建模。然而,其对序列性的建模忽略了不同时间的知识之间的联系,同时,对重复性的建模也忽略了时间对重复知识的影响。2)无法对间隔较远的未来事实进行预测。假设当前时间为,现有的模型大多只能对/>时刻的未来事实进行预测,或将已有知识作为静态知识预测未来事实。部分模型通过先预测/>时刻的事实,再将这些事实作为已有知识预测/>时刻的事实的方法实现了对较远间隔的未来事实进行预测,然而,这一方法会导致误差累积,极大的影响预测性能。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于时间规律捕获的时序知识图谱推理方法,解决了现有方法对历史数据学习不够充分,且无法预测较远的事实的技术问题,能够充分学习历史数据的特性,实现对未来事实的准确预测。
本申请的第二个目的在于提出一种基于时间规律捕获的时序知识图谱推理装置。
为达上述目的,本申请第一方面实施例提出了一种基于时间规律捕获的时序知识图谱推理方法,时序知识图谱基于文本数据生成,文本数据中的每段文本表示现实世界的一个事件,时序知识图谱以的形式存储现实世界的一个事件,该方法用于基于已有的头实体s、关系r、时间戳t确定待补全的尾实体o,该方法包括:获取用户的查询输入,基于查询输入构建查询四元组,并获取历史数据,其中,历史数据包括四元组数据、动态图数据和静态图数据;基于查询四元组对四元组数据进行重复事实编码,得到历史数据统计向量;对查询四元组和动态图数据进行时间线拟合,得到筛选后的动态图数据和实体数据;基于查询四元组、静态图数据进行全局编码,得到静态图上的实体和关系的编码矩阵,并采用局部编码的方式、基于筛选后的动态图数据对实体和关系的编码矩阵进行更新,得到更新后的实体和关系的编码矩阵;对查询四元组进行解码,将解码结果与更新后的实体和关系的编码矩阵进行得分计算,并将计算的解码得分与历史数据统计向量、实体数据结合,得到预测结果。
本申请实施例的基于时间规律捕获的时序知识图谱推理方法,能够同时对相关事实的全局和局部联系进行建模,并能够将重复事实的时间属性纳入到计算中,进而对历史数据进行全面建模;使用时间线拟合框架来模拟回归预测,进而基于回归预测的特性,来对较远的未来事实进行预测,解决了原有方法误差累积的问题。
可选地,在本申请的一个实施例中,基于查询四元组对四元组数据进行重复事实编码,得到历史数据统计向量,包括:
对与查询四元组匹配的四元组数据的数量进行统计,得到历史数据统计向量,其中,统计时每条匹配的四元组数据增加的统计量表示为:
其中,为查询四元组的预测时间,/>为统计的历史数据的时间。
可选地,在本申请的一个实施例中,对查询四元组和动态图数据进行时间线拟合,得到筛选后的动态图数据,包括:
基于动态图数据进行编码,得到动态图编码和第一时间编码,并使用第一时间编码对动态图编码进行拟合,得到由时间编码拟合的动态图编码,其中,第一时间编码通过同时建模时间的循环特征和非循环特征得到;
对查询四元组进行编码,得到查询四元组的时间编码,并基于查询四元组的时间编码与动态图数据的由时间编码拟合的动态图编码确定动态图数据与查询四元组的相似性得分,基于相似性得分进行筛选,得到筛选后的动态图数据;
对查询四元组和动态图数据进行时间线拟合,得到筛选后的实体数据,包括:
基于动态图数据进行编码,得到实体出现编码和第二时间编码,并使用第二时间编码对实体出现编码进行拟合,得到由第二时间编码拟合的实体特征嵌入矩阵,其中,实体出现编码为动态图数据中所有出现的实体的嵌入均值;
对查询四元组进行编码,得到查询四元组的时间编码,计算查询四元组的时间编码和由第二时间编码拟合的实体特征嵌入矩阵中的实体的相似性得分,基于相似性得分进行筛选,得到筛选后的实体数据。
可选地,在本申请的一个实施例中,对于t时刻的子图,构建的动态图编码表示为:
其中,、/>为可学习参数,/>表示在t时间的子图内事实的头实体嵌入,/>表示在t时间的子图内事实的关系嵌入,/>表示在t时间的子图内事实的尾实体嵌入;
第一时间编码表示为:
其中,、/>、/>、/>为可学习参数;
使用第一时间编码对动态图编码进行拟合,表示为:
计算动态图数据与查询四元组的相似性得分,表示为:
其中,由所有已知时序知识图谱的由时间编码拟合的动态图编码拼接而成;
t时刻的实体出现编码表示为:
其中,表示在时间t的子图内,任一事实的头实体嵌入。
可选地,在本申请的一个实施例中,基于查询四元组、静态图数据进行全局编码,得到静态图上的实体和关系的编码矩阵,包括:
将查询四元组的预测时间之前的所有静态图合并,并通过去除四元组中的时间的方式得到静态知识图谱;
使用图卷积网络对静态知识图谱进行邻居信息聚合,得到实体和关系的编码矩阵。
可选地,在本申请的一个实施例中,静态知识图谱表示为:
其中,表示实体,/>表示关系类型,/>表示在时间/>出现事实的有限集;
设定实体在/>时间下的嵌入表示为/>,实体/>由/>层的图卷积网络聚合邻居信息得到,第/>层的实体表示为:
其中,表示在时间/>时所有以实体/>作为尾实体的事实的头实体集,/>表示ReLu激活函数,/>、/>分别表示第/>层对于邻居信息以及自环信息的可学习参数矩阵,/>、/>分别表示时间/>时实体e对应的关系和头实体经过/>层图卷积网络后的嵌入;
实体和关系的编码矩阵表示为:
其中,是随机初始化的实体嵌入矩阵,/>是与局部编码共享的关系嵌入矩阵。
可选地,在本申请的一个实施例中,采用局部编码方式、基于筛选后的动态图数据对实体和关系的编码矩阵进行更新,得到更新后的实体和关系的编码矩阵,包括:
基于筛选后的动态图数据,使用实体GRU更新实体和关系的编码矩阵中的实体嵌入,并在更新时加入残差连接;
基于筛选后的动态图数据,使用关系GRU更新实体和关系的编码矩阵中的关系嵌入;
其中,使用实体GRU更新实体和关系的编码矩阵中的实体嵌入,表示为:
其中,是/>时刻经过聚合后的实体嵌入矩阵,/>时刻的实体嵌入矩阵/>;
在更新时加入残差连接,表示为:
使用关系GRU更新实体和关系的编码矩阵中的关系嵌入,表示为:
其中,是经过实体嵌入更新后的关系嵌入矩阵,/>表示为:
其中,表示/>时刻的子图内,关系r所在三元组的头实体嵌入,/>是与关系数有关的可学习矩阵,/>是与全局编码共享的关系嵌入矩阵。
可选地,在本申请的一个实施例中,对于查询四元组,其解码得分表示为:
其中,是超参数,/>是t时刻实体嵌入矩阵的转置,/>为查询四元组的时间编码。
为达上述目的,本发明第二方面实施例提出了一种基于时间规律捕获的时序知识图谱推理装置,时序知识图谱基于文本数据生成,文本数据中的每段文本表示现实世界的一个事件,时序知识图谱以的形式存储现实世界的一个事件,该装置用于基于已有的头实体s、关系r、时间戳t确定待补全的尾实体o,该装置包括数据处理模块、重复事实编码模块、时间线拟合模块、全局编码模块、局部编码模块、静态-动态解码模块,其中,
数据处理模块,用于获取用户的查询输入,基于查询输入构建查询四元组,并获取历史时序知识图谱数据,其中,历史时序知识图谱数据包括四元组数据、动态图数据和静态图数据;
重复事实编码模块,用于基于查询四元组对四元组数据进行重复事实编码,得到历史数据统计向量;
时间线拟合模块,用于对查询四元组和动态图数据进行时间线拟合,得到筛选后的动态图数据和实体数据;
全局编码模块,用于基于查询四元组、静态图数据进行全局编码,得到静态图上的实体和关系的编码矩阵;
局部编码模块,用于采用局部编码的方式、基于筛选后的动态图数据对实体和关系的编码矩阵进行更新,得到更新后的实体和关系的编码矩阵;
静态-动态解码模块,用于对查询四元组进行解码,将解码结果与更新后的实体和关系的编码矩阵进行得分计算,并将计算的解码得分与历史数据统计向量、实体数据结合,得到预测结果。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于时间规律捕获的时序知识图谱推理方法的流程示意图;
图2为本申请实施例的数据服务系统总体架构图;
图3为本申请实施例的用户输入格式示例图;
图4为本申请实施例的用户输入转化后格式示例图;
图5为本申请实施例的动态图形式示例图;
图6为本申请实施例的静态图形式示例图;
图7为本申请实施例提供的一种基于时间规律捕获的时序知识图谱推理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
本申请主要解决时序知识图谱外推任务。举例来说,假设当前所在时间为,则对于查询(詹姆斯,效力于,?,t+n),需要通过对时间/>及以前的事实进行学习,来预测/>时刻的未来事实的尾实体。
下面参考附图描述本申请实施例的基于时间规律捕获的时序知识图谱推理方法和装置。
图1为本申请实施例一所提供的一种基于时间规律捕获的时序知识图谱推理方法的流程示意图,时序知识图谱基于文本数据生成,文本数据中的每段文本表示现实世界的一个事件,时序知识图谱以的形式存储现实世界的一个事件,该方法用于基于已有的头实体s、关系r、时间戳t确定待补全的尾实体o。
如图1所示,该基于时间规律捕获的时序知识图谱推理方法包括以下步骤:
步骤101,获取用户的查询输入,基于查询输入构建查询四元组,并获取历史数据,其中,历史数据包括四元组数据、动态图数据和静态图数据;
步骤102,基于查询四元组对四元组数据进行重复事实编码,得到历史数据统计向量;
步骤103,对查询四元组和动态图数据进行时间线拟合,得到筛选后的动态图数据和实体数据;
步骤104,基于查询四元组、静态图数据进行全局编码,得到静态图上的实体和关系的编码矩阵,并采用局部编码的方式、基于筛选后的动态图数据对实体和关系的编码矩阵进行更新,得到更新后的实体和关系的编码矩阵;
步骤105,对查询四元组进行解码,将解码结果与更新后的实体和关系的编码矩阵进行得分计算,并将计算的解码得分与历史数据统计向量、实体数据结合,得到预测结果。
本申请实施例的基于时间规律捕获的时序知识图谱推理方法,能够同时对相关事实的全局和局部联系进行建模,并能够将重复事实的时间属性纳入到计算中,进而对历史数据进行全面建模;使用时间线拟合框架来模拟回归预测,进而基于回归预测的特性,来对较远的未来事实进行预测,解决了原有方法误差累积的问题。
本实施例还提出一种基于该推理方法的时序知识图谱推理的数据服务系统,其总体架构如图2所示。其中,各个模块的功能描述如下:
查询管理模块:接收用户输入,将之解析为时序知识图谱所需要的四元组形式,并传递给时序知识图谱管理模块。用户输入格式可以为如图3所示。
时序知识图谱管理模块:从已有的时序知识图谱中获取历史数据,同时将查询四元组按实体-id、关系-id以及时间-id对照表转化为id的格式,并将这些数据一起送入输入模块。转化后格式如图4所示。
输入模块:接受到历史数据后,将之转化为后续编码模块所需的不同输入形式,分别输入到对应的编码模块中。共有三种形式的数据,动态图形式、静态图形式和四元组形式,其中,动态图形式如图5所示,静态图形式如图6所示。
时间线拟合模块:该模块分为子图特征拟合和实体特征拟合部分。子图特征拟合部分在训练和测试阶段有所不同。1)训练阶段。该阶段的输入为动态图形式的历史数据,需要得到各个动态图的编码以及时间的编码,并使用时间编码来拟合动态图编码。2)预测阶段。该阶段的输入为查询四元组,根据四元组的时间信息选取对应的时间编码,并基于该时间编码与历史时间编码之间的相似度来选取局部编码模块所需的历史动态图。实体特征拟合部分预测出查询四元组所在时间可能出现的实体,将这一结果送入静态-动态解码模块。
全局编码模块:该模块接收静态图形式的历史数据,输入模块通过去除所有四元组的时间信息来将所有历史数据拼接成一张静态图,进而该模块在该静态图上编码关系和实体,输出为关系和实体的编码矩阵。
局部编码模块:该模块接收动态图形式的历史数据,并在测试阶段根据时间线拟合模块的结果对动态图按时间进行筛选,在筛选后的历史数据上进行实体和关系的编码,输出为关系和实体的编码矩阵。
重复事实编码模块:该模块接收四元组形式的历史数据,根据查询四元组的头实体、关系信息,找出该四元组的历史重复事实数据,对其进行统计后,得到一个该四元组的历史重复事实统计向量作为输出。
静态-动态解码模块:该模块接收实体、关系编码矩阵以及历史重复事实统计向量作为输入,生成一个时间编码矩阵,并根据这些编码矩阵得到最终的预测值,最后将预测值返回给用户。
训练模块:在训练阶段,为了学习到各个模块中的参数信息,需要将静态-动态解码模块的结果输入训练模块,用于参数学习,得到能够用于预测阶段的模块参数。
具体地,将一个TKG定义为按时间划分的一系列子图,其中子图表示在/>时刻的一个多关系有向图,其中/>分别为实体、关系类型以及在时间/>出现事实的有限集。每个事实都是一个四元组/>,表示/>时刻头实体/>和尾实体/>之间存在关系/>,其中/>。
具体地,由于历史事实的序列特性,以往的方法使用循环神经网络来捕获邻近子图的信息。然而,这种做法会导致部分时间间隔较远的事实信息丢失。在全局-局部编码模块中,为了同时建模整张时序图上的事实信息,本实施例首先构建一张全局静态图,学习到时序图的静态表示,再通过局部嵌入突出邻近子图的信息,进而在考虑序列特性的同时将间隔较远的子图信息也纳入考虑范围。
(1)邻居信息聚合
本实施例使用多层的图卷积网络来聚合图中的结构信息。假设实体在/>时间下的嵌入表示为/>,其由/>层的图卷积网络聚合邻居信息得到,则第/>层的实体/>表示为
其中,表示在时间/>时所有以实体/>作为尾实体的事实的头实体集,/>表示ReLu激活函数,/>、/>分别表示第/>层对于邻居信息以及自环信息的可学习参数矩阵。/>、/>分别表示时间/>时实体e对应的关系和头实体经过/>层图卷积网络后的嵌入
(2)循环编码器
为了捕获整个时序图上的信息,防止信息丢失,对于时刻的预测,本实施例首先将时间t之前的所有时间子图合并,通过去掉四元组中的时间来得到一张静态知识图谱。由于其是一个多关系图,本实施例使用/>层的图卷积网络来对这一聚合图进行学习,得到的嵌入表示如下:
其中是随机初始化的实体嵌入矩阵,/>是与局部编码器共享的关系嵌入矩阵。进一步的,考虑到较近时间的事实对当前时间的预测有更大影响,本实施例提取最近k个时间戳的子图序列/>用于局部信息学习。同时,为了建模事实的序列特性,本实施例分别使用实体GRU和关系GRU来学习事实的时序变化信息。其中,利用实体GRU更新实体嵌入的过程如下:
其中是/>时刻经过CompGCN聚合后的实体嵌入矩阵,/>时刻的实体嵌入矩阵/>。由于GRU带有遗忘机制,为了防止学习到的重要全局信息被遗忘,本实施例对实体GRU加入残差连接:
其中是经过静态图上的图卷积网络聚合得到的实体嵌入矩阵。对于关系,使用当前时间与关系r有关的实体嵌入的均值作为关系r的嵌入;同时,考虑到同一实体对不同关系的重要程度不同,加入与关系数有关的参数来捕获这一信息:
进而,本实施例使用关系GRU来学习关系的时序变化信息:
其中为拼接操作,/>表示/>时刻的子图内,关系r所在三元组的头实体嵌入,是与关系数有关的可学习矩阵,/>是与全局编码器共享的关系嵌入矩阵。/>是经过实体嵌入更新后的关系嵌入矩阵。
具体地,重复事实编码即对于一个query ,通过对时间t之前的事实进行查找,对与query的/>都相同的事实的数量进行统计,得到一个统计向量/>,其中每个位置的值对应所统计事实的尾实体/>的数量。后来的方法对其进行了相应改进,其只考虑某一历史事实是否出现,而不考虑其出现频率,即将/>中所有大于0的值设置为1,因为现有方法认为统计频率会导致模型认为很久之前多次出现的事实比近期少量出现的事实更为重要,进而发生错误判断。
然而,将所有出现过的事实都认为成同等重要这一做法,虽然可以避免历史数据误导模型进行错误判断,但完全不考虑出现频率也会丢失大量重要信息。因此,本实施例综合考虑二者优点,提出时序重要性,在重复事实编码模块中,在统计query 的历史事实出现次数时,当发现一个历史事实/>时,不对统计量加1,而是加上/>,这样即统计了历史事实的出现频率信息,也兼顾考虑了较近发生的事实更为重要这一信息。由此得到的历史数据统计向量记为/>。
具体地,为了能够有效的对较远的未来事实进行预测,在时间线拟合模块中,本实施例采用回归预测的方式,通过时间线拟合的方式捕获时序规律,进而能够将历史信息推广至未来。
(1)子图特征拟合
为了将全局-局部编码器用于预测较远的未来事实,需要得到与未来事实相隔最近的k个子图的特征信息。本实施例认为子图特征与其中所包含的事实有关,因此对于t时刻的子图,构建的图嵌入如下:
其中,、/>为可学习参数,/>表示在/>时间的子图内事实的头实体嵌入。由于部分事实具有循环特征,因此,本实施例通过同时建模时间的循环特征和非循环特征来构造一条时间线:
其中FFN为全连接网络,、/>、/>、/>为可学习参数。接着,为了使时间线拟合图嵌入曲线,本实施例使用KL散度(用来衡量使用一个分布拟合另一个分布时的信息损失量,若将嵌入视为分布,则可用来衡量两个嵌入之间的差异),来使得时间嵌入与图嵌入接近:
进而在预测过程中,时间线嵌入就可以认为是图嵌入。基于此,对于预测未来事实的过程中缺失最近k个子图信息的情况,使用当前时间的图嵌入与已知子图的嵌入进行相似性得分计算:
其中,由所有已知时序知识图谱的子图嵌入拼接而成。接着,本实施例找出得分最高的k张子图来近似未来预测时最近的k个时间戳子图,以进行较远的未来事实的预测。
(2)实体特征拟合
在TKG中,每张子图中出现的实体是有限的,若在预测过程中,能够先一步预测出图中实体出现情况,则能够对结果进一步过滤。因此,本实施例使用与图特征拟合类似的方式,来对每张子图中实体出现情况这一特征进行拟合。首先,使用子图中所有出现实体的嵌入均值来构建实体出现特征:
其中,表示在时间t的子图内,任一事实的头实体嵌入。接着,按照子图特征拟合中的方式,构造时间线线来拟合实体特征线,并通过kl散度计算拟合损失/>。最后,通过计算出当前时间戳的实体特征嵌入与实体嵌入矩阵/>的相似性得分,并将得分最高的前n个实体作为在当前时间戳会出现的实体,构造一个表示实体出现情况的向量/>,其中这n个实体对应位置的值为1,其他位置的值为0。
具体地,在时序图中,大多数实体之间的关系会随事件发生变化,然而,也存在部分事实,如,是不变的。因此仅考虑动态事实或静态事实是不够的,需要设计一个同时建模动态和静态事实的解码器。在静态-动态解码模块中,通过结合以往的解码方法ConvTransE(在静态推理任务上表现优异的卷积解码器)和TimeConvTransE(ConvTransE在时序知识图谱推理上的变体),来对编码结果进行联合解码,因此对于query/>,其解码得分计算如下:
其中是超参数,/>是t时刻实体嵌入矩阵的转置,/>是按照时间线拟合部分的方式生成的时间嵌入。
具体地,在通过模型训练模块训练时,为了利用实体特征拟合的结果和历史重复事实编码向量/>,使用softmax函数将它们转化为概率值后,用来过滤解码器得分:
其中是超参数,/>是向量对应位置相乘,/>和/>是经过softmax后的实体特征拟合结果以及历史重复事实编码向量。此外,本实施例认为这些用于过滤的向量用在训练阶段会影响模型性能,仅在测试阶段使用,因而训练阶段的得分函数为:
本实施例将多步时序推理任务视为多标签分类任务,并使用交叉熵损失函数来对其进行训练。同时,为了在预测时能有较为准确的子图和实体特征,特征拟合部分的损失被加入到最终损失函数中,实现联合训练,得到的损失函数如下:
其中是用于联合训练的超参数,/>是query/>的真实结果的独热编码向量,/>、/>分别是子图特征拟合和实体特征拟合部分的损失。
本申请还提出一种基于知识图谱多跳推理的数据服务系统的运行实例。
在该运行实例中,假设现在拥有2010年以前的所有知识的时序知识图谱,以四元组形式存储。则在训练阶段,系统首先对各个模块内的参数进行学习。所有已知四元组都会被作为查询四元组来进行训练,得到训练好的参数。而在预测阶段,对于实际的用户输入,系统的运行例子如下所示:
用户首先给定一个查询,可以是四元组形式,比如,或者自然语言形式“詹姆斯在2013年效力于那个队?”,送入查询处理模块。
1)查询管理模块将所有查询转化为四元组形式,送入时序知识图谱管理模块。
2)时序知识图谱管理模块提取出所有已知的知识图谱数据,作为历史数据送入输入模块。
3)输入模块将历史数据分为动态图格式、四元组格式以及静态图格式,分别送入重复事实编码模块、时间线拟合模块和全局编码模块。
4)重复事实模块统计历史数据中所有拥有“詹姆斯”作为头实体以及“效力于”作为关系的四元组,并对这些四元组的尾实体进行统计,获得一个长度为所有实体数量的统计向量。全局编码模块对静态图中的实体和关系进行编码,获得实体和关系的编码矩阵。时间线拟合模块中的子图特征拟合部分根据训练过程中已获得的时间线嵌入,获得2013年的时间嵌入,并作为2013年的图嵌入来与2010年以前的所有子图嵌入做相似度计算,取得分最高的几个子图作为2012年、2011年、2010年等近期时间的子图,并与全局编码模块中的编码矩阵一起送入局部编码模块。实体特征拟合部分则预测出可能出现在2013年的所有实体,并将预测结果送入静态-动态解码模块。
5)局部编码模块根据时间线拟合模块送来的子图数据,来更新全局编码模块送入的实体和关系的编码矩阵,并送入静态-动态解码模块。
6)静态动态解码模块根据查询四元组中的实体、关系、时间的嵌入进行解码,并将解码结果与实体编码矩阵进行得分计算,将获得的得分与重复事实模块中的统计向量以及时间线拟合模块中的实体预测结果进行结合,得到最终的预测实体。
为了实现上述实施例,本申请还提出一种基于时间规律捕获的时序知识图谱推理装置,时序知识图谱基于文本数据生成,文本数据中的每段文本表示现实世界的一个事件,时序知识图谱以的形式存储现实世界的一个事件,该装置用于基于已有的头实体s、关系r、时间戳t确定待补全的尾实体o。
图7为本申请实施例提供的一种基于时间规律捕获的时序知识图谱推理装置的结构示意图。
如图7所示,该基于时间规律捕获的时序知识图谱推理装置包括数据处理模块、重复事实编码模块、时间线拟合模块、全局编码模块、局部编码模块、静态-动态解码模块,其中,
数据处理模块,用于获取用户的查询输入,基于查询输入构建查询四元组,并获取历史时序知识图谱数据,其中,历史时序知识图谱数据包括四元组数据、动态图数据和静态图数据;
重复事实编码模块,用于基于查询四元组对四元组数据进行重复事实编码,得到历史数据统计向量;
时间线拟合模块,用于对查询四元组和动态图数据进行时间线拟合,得到筛选后的动态图数据和实体数据;
全局编码模块,用于基于查询四元组、静态图数据进行全局编码,得到静态图上的实体和关系的编码矩阵;
局部编码模块,用于采用局部编码的方式、基于筛选后的动态图数据对实体和关系的编码矩阵进行更新,得到更新后的实体和关系的编码矩阵;
静态-动态解码模块,用于对查询四元组进行解码,将解码结果与更新后的实体和关系的编码矩阵进行得分计算,并将计算的解码得分与历史数据统计向量、实体数据结合,得到预测结果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种基于时间规律捕获的时序知识图谱推理方法,其特征在于,所述时序知识图谱基于文本数据生成,所述文本数据中的每段文本表示现实世界的一个事件,所述时序知识图谱以 的形式存储现实世界的一个事件,所述方法用于基于已有的头实体s、关系r、时间戳t确定待补全的尾实体o,所述方法包括以下步骤:
获取用户的查询输入,基于所述查询输入构建查询四元组,并获取历史数据,其中,所述历史数据包括四元组数据、动态图数据和静态图数据;
基于所述查询四元组对所述四元组数据进行重复事实编码,得到历史数据统计向量;
对所述查询四元组和所述动态图数据进行时间线拟合,得到筛选后的动态图数据和实体数据;
基于所述查询四元组、所述静态图数据进行全局编码,得到静态图上的实体和关系的编码矩阵,并采用局部编码方式、基于所述筛选后的动态图数据对所述实体和关系的编码矩阵进行更新,得到更新后的实体和关系的编码矩阵;
对所述查询四元组进行解码,将解码结果与所述更新后的实体和关系的编码矩阵进行得分计算,并将计算的解码得分与所述历史数据统计向量、所述实体数据结合,得到预测结果;
其中,对所述查询四元组和所述动态图数据进行时间线拟合,得到筛选后的动态图数据,包括:
基于所述动态图数据进行编码,得到动态图编码和第一时间编码,并使用所述第一时间编码对所述动态图编码进行拟合,得到由时间编码拟合的动态图编码,其中,所述第一时间编码通过同时建模时间的循环特征和非循环特征得到;
对所述查询四元组进行编码,得到所述查询四元组的时间编码,并基于所述查询四元组的时间编码与所述动态图数据的由时间编码拟合的动态图编码确定动态图数据与查询四元组的相似性得分,基于相似性得分进行筛选,得到筛选后的动态图数据;
对所述查询四元组和所述动态图数据进行时间线拟合,得到筛选后的实体数据,包括:
基于所述动态图数据进行编码,得到实体出现编码和第二时间编码,并使用所述第二时间编码对所述实体出现编码进行拟合,得到由第二时间编码拟合的实体特征嵌入矩阵,其中,所述实体出现编码为所述动态图数据中所有出现的实体的嵌入均值;
对所述查询四元组进行编码,得到查询四元组的时间编码,计算所述查询四元组的时间编码和所述由第二时间编码拟合的实体特征嵌入矩阵中的实体的相似性得分,基于相似性得分进行筛选,得到筛选后的实体数据。
2.如权利要求1所述的基于时间规律捕获的时序知识图谱推理方法,其特征在于,所述基于所述查询四元组对所述四元组数据进行重复事实编码,得到历史数据统计向量,包括:
对与所述查询四元组匹配的四元组数据的数量进行统计,得到历史数据统计向量,其中,统计时每条匹配的四元组数据增加的统计量表示为:
其中,为查询四元组的预测时间,/>为统计的历史数据的时间。
3.如权利要求1所述的基于时间规律捕获的时序知识图谱推理方法,其特征在于,对于t时刻的子图,构建的动态图编码表示为:
其中,、/>为可学习参数,/>表示在t时间的子图内事实的头实体嵌入,/>表示在t时间的子图内事实的关系嵌入,/>表示在t时间的子图内事实的尾实体嵌入;
所述第一时间编码表示为:
其中,、/>、/>、/>为可学习参数;
使用所述第一时间编码对所述动态图编码进行拟合,表示为:
计算动态图数据与查询四元组的相似性得分,表示为:
其中,由所有已知时序知识图谱的由时间编码拟合的动态图编码拼接而成;
t时刻的实体出现编码表示为:
其中,表示在时间t的子图内,任一事实的头实体嵌入。
4.如权利要求1所述的基于时间规律捕获的时序知识图谱推理方法,其特征在于,所述基于所述查询四元组、所述静态图数据进行全局编码,得到静态图上的实体和关系的编码矩阵,包括:
将查询四元组的预测时间之前的所有静态图合并,并通过去除四元组中的时间的方式得到静态知识图谱;
使用图卷积网络对所述静态知识图谱进行邻居信息聚合,得到实体和关系的编码矩阵。
5.如权利要求4所述的基于时间规律捕获的时序知识图谱推理方法,其特征在于,所述静态知识图谱表示为:
其中,表示实体,/>表示关系类型,/>表示在时间/>出现事实的有限集;
设定实体在/>时间下的嵌入表示为/>,实体/>由/>层的图卷积网络聚合邻居信息得到,第层的实体表示为:
其中,表示在时间/>时所有以实体/>作为尾实体的事实的头实体集,/>表示ReLu激活函数,/>、/>分别表示第/>层对于邻居信息以及自环信息的可学习参数矩阵,/>、/>分别表示时间/>时实体e对应的关系和头实体经过/>层图卷积网络后的嵌入;
所述实体和关系的编码矩阵表示为:
其中,是随机初始化的实体嵌入矩阵,/>是与局部编码共享的关系嵌入矩阵。
6.如权利要求1所述的基于时间规律捕获的时序知识图谱推理方法,其特征在于,所述采用局部编码方式、基于所述筛选后的动态图数据对所述实体和关系的编码矩阵进行更新,得到更新后的实体和关系的编码矩阵,包括:
基于所述筛选后的动态图数据,使用实体GRU更新实体和关系的编码矩阵中的实体嵌入,并在更新时加入残差连接;
基于所述筛选后的动态图数据,使用关系GRU更新实体和关系的编码矩阵中的关系嵌入;
其中,使用实体GRU更新实体和关系的编码矩阵中的实体嵌入,表示为:
其中,是t-1时刻经过聚合后的实体嵌入矩阵,t-k时刻的实体嵌入矩阵;
所述在更新时加入残差连接,表示为:
使用关系GRU更新实体和关系的编码矩阵中的关系嵌入,表示为:
其中,是经过实体嵌入更新后的关系嵌入矩阵,/>表示为:
其中,表示t-1时刻的子图内,关系r所在三元组的头实体嵌入,/>是与关系数有关的可学习矩阵,/>是与全局编码共享的关系嵌入矩阵。
7.如权利要求1所述的基于时间规律捕获的时序知识图谱推理方法,其特征在于,对于查询四元组,其解码得分表示为:
其中,是超参数,/>是t时刻实体嵌入矩阵的转置,/>为查询四元组的时间编码。
8.一种基于时间规律捕获的时序知识图谱推理装置,其特征在于,所述时序知识图谱基于文本数据生成,所述文本数据中的每段文本表示现实世界的一个事件,所述时序知识图谱以 的形式存储现实世界的一个事件,所述装置用于基于已有的头实体s、关系r、时间戳t确定待补全的尾实体o,所述装置包括数据处理模块、重复事实编码模块、时间线拟合模块、全局编码模块、局部编码模块、静态-动态解码模块,其中,
所述数据处理模块,用于获取用户的查询输入,基于所述查询输入构建查询四元组,并获取历史时序知识图谱数据,其中,所述历史时序知识图谱数据包括四元组数据、动态图数据和静态图数据;
所述重复事实编码模块,用于基于所述查询四元组对所述四元组数据进行重复事实编码,得到历史数据统计向量;
所述时间线拟合模块,用于对所述查询四元组和所述动态图数据进行时间线拟合,得到筛选后的动态图数据和实体数据;
所述全局编码模块,用于基于所述查询四元组、所述静态图数据进行全局编码,得到静态图上的实体和关系的编码矩阵;
所述局部编码模块,用于采用局部编码方式、基于所述筛选后的动态图数据对所述实体和关系的编码矩阵进行更新,得到更新后的实体和关系的编码矩阵;
所述静态-动态解码模块,用于对所述查询四元组进行解码,将解码结果与所述更新后的实体和关系的编码矩阵进行得分计算,并将计算的解码得分与所述历史数据统计向量、所述实体数据结合,得到预测结果;
其中,对所述查询四元组和所述动态图数据进行时间线拟合,得到筛选后的动态图数据,包括:
基于所述动态图数据进行编码,得到动态图编码和第一时间编码,并使用所述第一时间编码对所述动态图编码进行拟合,得到由时间编码拟合的动态图编码,其中,所述第一时间编码通过同时建模时间的循环特征和非循环特征得到;
对所述查询四元组进行编码,得到所述查询四元组的时间编码,并基于所述查询四元组的时间编码与所述动态图数据的由时间编码拟合的动态图编码确定动态图数据与查询四元组的相似性得分,基于相似性得分进行筛选,得到筛选后的动态图数据;
对所述查询四元组和所述动态图数据进行时间线拟合,得到筛选后的实体数据,包括:
基于所述动态图数据进行编码,得到实体出现编码和第二时间编码,并使用所述第二时间编码对所述实体出现编码进行拟合,得到由第二时间编码拟合的实体特征嵌入矩阵,其中,所述实体出现编码为所述动态图数据中所有出现的实体的嵌入均值;
对所述查询四元组进行编码,得到查询四元组的时间编码,计算所述查询四元组的时间编码和所述由第二时间编码拟合的实体特征嵌入矩阵中的实体的相似性得分,基于相似性得分进行筛选,得到筛选后的实体数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410466869.9A CN118069869B (zh) | 2024-04-18 | 2024-04-18 | 基于时间规律捕获的时序知识图谱推理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410466869.9A CN118069869B (zh) | 2024-04-18 | 2024-04-18 | 基于时间规律捕获的时序知识图谱推理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118069869A CN118069869A (zh) | 2024-05-24 |
CN118069869B true CN118069869B (zh) | 2024-06-21 |
Family
ID=91099482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410466869.9A Active CN118069869B (zh) | 2024-04-18 | 2024-04-18 | 基于时间规律捕获的时序知识图谱推理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118069869B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742489A (zh) * | 2021-08-05 | 2021-12-03 | 昆明理工大学 | 一种基于时序知识图谱的综合影响力补偿方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11687570B2 (en) * | 2020-02-03 | 2023-06-27 | Samsung Electronics Co., Ltd. | System and method for efficient multi-relational entity understanding and retrieval |
CN116629362A (zh) * | 2023-04-27 | 2023-08-22 | 西北工业大学 | 一种基于路径搜索的可解释时间图推理方法 |
CN117787411A (zh) * | 2023-12-22 | 2024-03-29 | 西南交通大学 | 一种基于关系图的局部-全局时序知识图谱推理方法 |
-
2024
- 2024-04-18 CN CN202410466869.9A patent/CN118069869B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742489A (zh) * | 2021-08-05 | 2021-12-03 | 昆明理工大学 | 一种基于时序知识图谱的综合影响力补偿方法 |
Non-Patent Citations (1)
Title |
---|
LorenTzE: Temporal Knowledge Graph Embedding Based on Lorentz Transformation;Ningyuan Li等;ICANN 2023;20230922;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN118069869A (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3355547B1 (en) | Method and system for learning representations of network flow traffic | |
US20190294975A1 (en) | Predicting using digital twins | |
US8160981B2 (en) | Event-based anticipation systems, methods and computer program products for associative memories wherein times of future events occurring are predicted | |
JP7119912B2 (ja) | 行動認識方法、行動認識プログラムおよび行動認識装置 | |
CN111372123B (zh) | 基于从局部到全局的视频时序片段提取方法 | |
CN113222883B (zh) | 处理异常检测的装置及方法 | |
CN113095346A (zh) | 数据标注的方法以及数据标注的装置 | |
US11415975B2 (en) | Deep causality learning for event diagnosis on industrial time-series data | |
KR102042168B1 (ko) | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 | |
KR101852116B1 (ko) | 디노이징 장치 및 노이즈 제거 방법 | |
Li et al. | Weakly-supervised anomaly detection in video surveillance via graph convolutional label noise cleaning | |
CN112613349A (zh) | 基于深度混合卷积神经网络的时序动作检测方法及装置 | |
CN115168721A (zh) | 融合协同变换与时态感知的用户兴趣推荐方法及系统 | |
CN115114542A (zh) | 一种对象推荐方法、系统、训练方法、介质及计算机设备 | |
CN115761599A (zh) | 一种视频异常检测方法及系统 | |
Kim et al. | Residual correction in real-time traffic forecasting | |
CN118069869B (zh) | 基于时间规律捕获的时序知识图谱推理方法及装置 | |
Islam et al. | A multi-mode real-time system verification model using efficient event-driven dataset | |
Sun et al. | Self-supervised traffic advisors: Distributed, multi-view traffic prediction for smart cities | |
US20150026113A1 (en) | System and method for identification of deviations from periodic behavior patterns in multimedia content | |
Liu et al. | Combined CNN/RNN video privacy protection evaluation method for monitoring home scene violence | |
JP5191064B2 (ja) | 特定のクエリに関する不確定かつ不整合オントロジの推論方式および装置 | |
CN117034099A (zh) | 一种系统日志异常检测方法 | |
JP6969993B2 (ja) | 情報抽出装置 | |
CN114170271B (zh) | 一种具有自跟踪意识的多目标跟踪方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |