CN112559757B - 一种时序知识图谱补全的方法及系统 - Google Patents
一种时序知识图谱补全的方法及系统 Download PDFInfo
- Publication number
- CN112559757B CN112559757B CN202011261488.5A CN202011261488A CN112559757B CN 112559757 B CN112559757 B CN 112559757B CN 202011261488 A CN202011261488 A CN 202011261488A CN 112559757 B CN112559757 B CN 112559757B
- Authority
- CN
- China
- Prior art keywords
- entity
- object entity
- probability
- complemented
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000001502 supplementing effect Effects 0.000 title description 7
- 239000013598 vector Substances 0.000 claims abstract description 75
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000001174 ascending effect Effects 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 12
- 230000003068 static effect Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 230000010076 replication Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 235000002492 Rungia klossii Nutrition 0.000 description 1
- 244000117054 Rungia klossii Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009401 outcrossing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种时序知识图谱补全的方法,包括在时序知识图谱中选定含有待补全对象实体的知识图谱,并确定相应的目标时序;通过目标时序之前的各个时序已存在的对象实体,确定时序知识图谱在目标时序的复制词汇向量;计算复制词汇向量中每个对象实体能够成为待补全对象实体的第一概率;计算每个备选对象实体能够成为待补全对象实体的第二概率;根据第一概率和第二概率得到每个备选对象实体能够成为待补全对象实体的最终概率从而最终确定待补全对象实体。本方案不仅能够从整个实体词汇中预测对象实体,还能够识别出有重复的对象实体,根据过去出现的复制词汇相应地选择这些实体,故本技术方案具有较高的准确率。
Description
技术领域
本发明涉及时序知识图谱技术领域,具体涉及一种时序知识图谱补全的方法及系统。
背景技术
知识图谱(Knowledge Graphs,KG)是广泛用于现实世界事实(或事件)的知识表征的资源,因为它支持许多知识驱动的信息检索、自然语言理解和推荐系统。传统上,一个知识图谱只拥有静态快照,而目前快速增长的数据往往表现出复杂的时间动态。这就需要有新的方法来对这种动态的事实进行建模,通过分配具有时间属性的实体的相互作用来进行建模(即被称为时序知识图谱,或TKG)。代表性的TKG包括全球事件、语言和音调数据库(Global Database of Events,Language,and Tone,GDELT)和综合危机预警系统(Integrated Crisis Early Warning System,ICEWS),它们是两个流行的基于事件的数据存储库,存储着全球范围内不断发展的实体交互知识。附图1是ICEWS的子图快照的一个实例。
时序知识图谱在人工智能领域发挥着越来越重要的作用。最近,许多研究工作都投入到TKG的表示学习中。相关方法通常将实体关系的时间演变事实用时间特定的嵌入进行编码。这为基于过去事实的嵌入表征来完成时序知识图谱的未来事实提供了一个通用且高效的工具。此外,它还有利于广泛的下游应用,例如事务推荐、事件过程诱导和社会关系预测。
目前常用的方法有以下几种:
1、静态知识图嵌入
在最近的调查中总结了大量的方法来建立没有时间动态事实的静态KGs模型(Wang et al.,2017;Ji et al.,2020;Dai et al.,2020)。其中一类方法是转换模型(Bordes et al.,2013;Wang et al.,2014;Ji et al.,2015),它将两个实体向量之间的关系建模为几何转换。另一类模型是语义匹配模型,学习实体和关系的潜在语义来衡量事实的可信度(Yang et al.,2015;Trouillon et al.,2016;Sun et al.,2019)。其他一些模型是基于神经方法,在嵌入的基础上使用前馈或卷积层(Schlichtkrull et al.,2018;Dettmers et al.,2018;Schlichtkrull et al.,2018).。然而,这些方法并没有捕捉到时间性的事实。
2、动态知识图嵌入
最近有人尝试对TKG中不断发展的事实进行建模。TTransE(Jiang et al.,2016)是TransE的扩展,将时间信息嵌入到得分函数中。HyTE(Dasgupta,Ray,and Talukdar,2018)将TransH(Wang et al.,2014)中的投影法向量替换为时间相关的法向量。Know-Evolve(Trivedi et al.,2017)学习随着时间推移的非线性演化实体表征,它将一个事实的发生建模为一个时间点过程。TA-DistMult(Garc′la-Dur′an,Dumancic,and Niepert,2018)利用递归神经网络学习时间感知的关系表示,并使用TransE和DistMult的标准评分函数。DE-SimplE(Goel et al.,2020)使用双时态实体嵌入来表示不同时间戳的实体,并利用与SimplE(Kazemi and Poole,2018)相同的评分函数来对四元组的可信度进行评分。基于塔克分解(Balazevic,Allen,and Hospedales,2019),ConT(Ma,Tresp,and Daxberger,2019)为每个时间戳学习一个新的核心张量。然而,它们无法预测未来的事实,因为无法获得未见时间戳的表示。
3、循环图神经方法
有一些为建模图序列而设计的方法,也可以应用于捕获TKG。这类递归图神经模型通常采用消息传递框架来聚合节点的邻域信息。DyREP(Trivedi et al.,2018)将动态图网络分为两个过程,并将表示学习作为连接两个过程的潜在桥梁,学习网络中的时间结构信息。GCRN(Seo et al.,2018)合并了图结构数据的CNN和RNN,同时识别有意义的空间结构和动态模式。Know-evolve、DyREP和GCRN结合MLP解码器来预测未来事实,在(Jin et al.,2020).中称为Know-evolve+MLP、DyRep+MLP和R-GCNR+MLP。RE-NET(Jin et al.,2020).通过基于RNN的事件编码器和邻域聚合器对事件(事实)序列进行建模
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有的时间知识图嵌入方法只注重分别计算每个快照的潜伏表征,无法捕捉连续时间快照中事实的长期依赖性,因此其确定待补全的对象实体的准确性不高。
发明内容
本发明实施例提供一种时序知识图谱补全的方法及系统,用于解决现有技术中存在的确定时序知识图谱中待补全对象实体的准确性不高的问题。
为达上述目的,一方面,本发明实施例提供一种时序知识图谱补全的方法,其特征在于,包括:
在时序知识图谱中选定含有待补全对象实体的知识图谱,并确定所述含有待补全对象实体的知识图谱所对应的目标时序;
通过所述目标时序之前的各个时序所对应的知识图谱中已存在的对象实体,确定所述时序知识图谱在所述目标时序的复制词汇向量,所述复制词汇向量用于确定每个所述已存在的对象实体是否能够再次成为所述待补全对象实体;
计算所述复制词汇向量中每个对象实体能够成为所述待补全对象实体的第一概率;
计算每个备选对象实体能够成为所述待补全对象实体的第二概率,所述备选对象实体是指对象实体集合中的所有对象实体;
根据所述第一概率和所述第二概率得到每个备选对象实体能够成为所述待补全对象实体的最终概率;
根据所述最终概率确定所述待补全对象实体。
另一方面,本发明实施例提供一种时序知识图谱补全的系统,其特征在于,包括:
选取单元,用于在时序知识图谱中选定含有待补全对象实体的知识图谱,并确定所述含有待补全对象实体的知识图谱所对应的目标时序;
复制词汇向量生成单元,用于通过所述目标时序之前的各个时序所对应的知识图谱中已存在的对象实体,确定所述时序知识图谱在所述目标时序的复制词汇向量,所述复制词汇向量用于确定每个所述已存在的对象实体是否能够再次成为所述待补全对象实体;
第一概率计算单元,用于计算所述复制词汇向量中每个对象实体能够成为所述待补全对象实体的第一概率;
第二概率计算单元,用于计算每个备选对象实体能够成为所述待补全对象实体的第二概率,所述备选对象实体是指对象实体集合中的所有对象实体;
最终概率计算单元,用于根据所述第一概率和所述第二概率得到每个备选对象实体能够成为所述待补全对象实体的最终概率;
确定单元,用于根据所述最终概率确定所述待补全对象实体以补全时序知识图谱。
上述技术方案具有如下有益效果:
本申请的技术方案能够有效地对时间性、多关系图数据进行建模,不仅能够从整个实体词汇中预测对象实体,而且能够识别出有重复的对象实体,从而根据过去出现的复制词汇相应地选择这些实体。因此,本技术方案在确定时序知识图谱中未知的待补全对象实体时,具有更高的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的ICEWS的子图快照;
图2是本发明实施例一种时序知识图谱补全的方法流程图;
图3是本发明实施例一种时序知识图谱补全的方法的原理图;
图4是本发明实施例中生成复制词汇向量的示意图;
图5为本发明实施例一种时序知识图谱补全的系统的组成示意图;
图6是本发明的一个应用示例;
图7是本发明实施例中权重系数α的取值范围与结果间的关系。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图2所示,本发明实施例提供一种时序知识图谱补全的方法,包括:
在时序知识图谱中选定含有待补全对象实体的知识图谱,并确定所述含有待补全对象实体的知识图谱所对应的目标时序;
通过所述目标时序之前的各个时序所对应的知识图谱中已存在的对象实体,确定所述时序知识图谱在所述目标时序的复制词汇向量,所述复制词汇向量用于确定每个所述已存在的对象实体是否能够再次成为所述待补全对象实体;
计算所述复制词汇向量中每个对象实体能够成为所述待补全对象实体的第一概率;
计算每个备选对象实体能够成为所述待补全对象实体的第二概率,所述备选对象实体是指对象实体集合中的所有对象实体;
根据所述第一概率和所述第二概率得到每个备选对象实体能够成为所述待补全对象实体的最终概率;
根据所述最终概率确定所述待补全对象实体以补全时序知识图谱。
知识图谱通常包含时间上的动态事实,这些事实模拟了沿时间线的实体的动态关系或相互作用。由于这样的时间知识图常常存在不完整性,因此开发时间感知的表示学习模型,帮助推断这种图中缺失的时间事实是很重要的。虽然时间上的事实通常是不断变化的,但值得注意的是,许多事实可以在历史上反复出现,如经济危机和国家的外交互动。这说明,一个模型可以从历史上的已知事实中学习到很多东西。基于这种现象,本申请提出了基于一种新颖的时间感知复制生成机制新的时序知识图谱的表示学习方法。
在补全知识图谱中未知的实体对象时,本技术方案考虑到:事实上,许多事实在历史上反复发生。例如,全球经济危机大约每隔7到10年就会定期发生一次;外交活动定期发生在两个建立了关系的国家之间;东非动物每年6月都会进行大规模的迁徙。更具体地说,我们发现,在整个24年的ICEWS数据中(即1995年至2019年),超过80%的事件已经出现在前一个时间段。这个统计数字强调了利用已知事实预测未来事实的重要性。然而,之前的大多数模型都专注于从整个实体词汇中预测对象实体,而不是复制词汇,即那些包含过去在主语实体和谓语对的事实中作为对象实体的所有实体。这种处理方式将极大地阻碍这些模型的性能,因此需要探索一种新的框架,使其能够平衡复制词汇和整个实体词汇之间的利用。
为此,可以提出一种新的基于新型时间感知复制机制的TKG的表示学习方法。该学习方法不仅能够从整个实体词汇中预测对象事实,而且能够识别出有重复的事实,并根据过去出现的复制词汇相应地选择这些事实。
如图3所示,该技术方案的模型结合了两种模式的过程,即复制模式(即计算复制词汇向量中每个对象实体能够成为待补全对象实体的第一概率)和生成模式(即计算每个备选对象实体能够成为所述待补全对象实体的第二概率),前者试图从特定的复制词汇中选择实体,形成历史上的重复事实,后者则从整个实体词汇中预测实体。当预测图3中的四元组(s1,p3,ot,T+1)时,复制模式可以得到复制词汇{s3,s4,s5,…,sm}中的实体的概率,这些实体在事实中曾以主语实体s1和谓语p3沿着已知快照作为对象实体。而生成模式估计整个实体词汇中每个实体满足答案的概率。然后模型结合复制模式和生成模式的概率预测,将第一概率与第二概率结合进行计算,得到最终的预测结果。
进一步的,如图2所示,所述时序知识图谱由一组四元组按照时间戳的升序排列而组成,其形式为其中,T表示时间戳的集合;
所述四元组的形式为g=(s,p,o,t),其中时序t∈T,主实体s∈ε,对象实体o∈E,所述主实体s和所述对象实体o之间的谓语ε为所述主实体t的集合,E为所述对象实体o的集合,/>为所述四元组中谓语的集合;
所述含有待补全对象实体的知识图谱的形式为
其中,tk为含有待补全对象实体的知识图谱所对应的目标时序,ot为待补全的对象实体;
所述复制词汇向量为
其中,是在时序为k的知识图谱中对应于当前对象实体的主实体和谓语对(s,p,t)的复制词汇,是一个N维one-hot向量。
时序知识图谱在传统知识图谱中融入时序信息。对于一个时序知识图谱,每个事实捕捉到了在时序t∈T时刻,主实体s∈ε和对象实体o∈ε的谓词(关系)其中ε,/>分别表示相应词汇的实体和关系,T表示时间戳的集合。/>是知识图谱在时间t的知识图。g=(s,p,o,t)是在/>中的一个四元组(事实)。时序知识图谱建立在一组事实四元组的基础上,根据它们的时间戳升序排列,即/>其中相同的四元组因冗余而被删除。
当预测四元组(si,pj,ot,tT)的未来事实时,可以考虑将已知事实{(si,pj,oa,t0),(si,pj,ob,t1),…,(si,pj,ok,tT-1)}处理成已知事实。这些在前面快照中出现过的事实,作为抽象概括中的源文本,仅根据已知事实预测未来的事实,这些事实来自复制词汇{oa,ob,…,ok}。
对于每一个主语实体和谓语对在时间步骤t,可以定义一个特定于(s,p,t)的E的定界子集(即(s,p,t)的复制词汇)为它包含了所有在事实中充当对象实体的实体,其主语实体s和谓语p沿着已知快照/>前tk,其中复制词汇/>是N维的one-hot向量,N是ε的基数,复制词汇中实体的值为1,其他为0。缺失的时间事实的预测旨在预测与给定的(s,p,ot,t)的主体实体的缺失关系(或给定的(s,p,o,t)的对象实体),或预测与给定的(s,p,o,t)的主体实体和对象实体的谓词。在不失一般性的前提下,我们将我们的模型描述为预测时间事实中缺失的对象实体,尽管该模型可以很容易地扩展到预测其他元素,包括主体实体和谓语。
首先对训练集进行处理,得到任意快照中每个主体实体和谓语对(s,p,t)的复制词汇,即其中/>是一个N维的一热向量,它包括在快照/>中,所有在事实中担任过主语s和谓语p的对象实体。
图4是本发明实施例中生成复制词汇向量过程的示意图,依次对每个快照进行训练,每次对新的快照进行训练的同时,会利用之前所有的快照作为复制词汇,这个过程某种程度上类似于递归的思想。当评估本技术方案在验证集和测试集的表现时,将使用整个训练集的复制词汇。
每当在一个新的时序知识图谱快照上进行训练时,将会在前一个时序的快照的基础上扩展复制集。包含快照/>中所有主语实体和谓语对的复制词汇。
对于每一个四元组(s,p,ot,tk),将从之前的时序对应的知识图谱快照中扩展出特定于(s,p,tk)的复制词汇。
是一个N维one-hot向量,在复制词汇表中的实体值为1,其它值为0。
进一步的,如图2所示,所述计算所述复制词汇向量中每个对象实体能够成为所述待补全对象实体的第一概率,包括:
将转化为/>
生成索引向量vq=Tanh(Wc[s,p]+bc),其中,和/>是可学习参数,vq是一个N维的向量;
通过和索引向量vq来划分候选空间/>其中cq是一个N维向量;
根据cq得到所述第一概率p(c)=softmax(cq)。
复制模式是为了识别具有重复性的事实,并据此通过复制历史上的已知事实来预测未来的事实。
如果查询(s,p,ot,tk)在时间步tk时有与主体实体和谓词对(s,p,ot,tk)相关的复制词汇则本技术方案将增加复制词汇中选择的对象实体的概率。详细来说,复制模式首先用多层感知器(MLP)生成一个索引向量vq。
这个索引向量vq是一个N维的向量,这样N就是整个实体词汇ε的卡性。它负责从ε中选择实体,这些实体在tk之前的已知快照中形成s和p的已知事实。
为了最小化历史上一些实体与s和p没有形成已知事实的概率(即对Copy模式不感兴趣),我们首先对进行修改。/>将/>中的无利害实体的值改为一个相当小的负数。之后通过添加索引向量vq和改变后的one-hot向量/>来划分候选空间,使无兴趣实体的概率最小化,再用softmax层得到复制词汇中对象实体的概率估计。
cq中无利益实体的值几乎接近于零。p(c)是整个实体词汇大小向量,它只包含复制词汇的概率。概率中的最大值p(c)就是我们通过复制模式复制词汇中的对象实体。复制模式的重要优势是可以从一个比整个实体词汇划定得多的候选空间中学习预测。然而,会有全新的事实在新的快照中。因此,需要一个生成模式来预测这种事实。
进一步的,所述计算每个备选对象实体能够成为所述待补全对象实体的第二概率,包括:
生成整个实体词汇查询向量gq=Wg[s,p,tk]+bg,其中和/>是可学习参数,gq是一个N维的向量;
根据gq得到所述第二概率p(g)=softmax(gq)。
给定同一个查询(s,p,ot,tk),生成模式负责从整个实体词汇ε中选择对象实体来预测事实。生成模式所做的预测将被预测的事实视为一个没有任何引用复制词汇的事实与复制模式类似,生成模式也会生成整个实体词汇查询向量gq,然后在整个实体词汇上用softmax层预测对象实体。
与vq的维度相同,gq也等于实体词汇ε的基数。与复制模式中的p(c)类似,p(g)也是整个实体词汇大小的向量,它包含了整个实体词汇的概率。概率中的最大值p(g)就是通过生成模式预测整个实体词汇中的对象实体。生成模式可以解决复制模式无法预测事实的问题。
进一步的,所述根据所述第一概率和所述第二概率确定每个备选对象实体能够成为所述待补全对象实体的最终概率的方式为:
p(o|s,p,t)=α*p(c)+(1-α)*p(g),
其中,其中权重系数α∈[0,1];
所述根据所述最终概率确定所述待补全对象实体的方式为:
ot=argmaxo∈Ep(o|s,p,t),
其中,ot为所述待补全对象实体。
当给定一个查询(s,p,ot,tk)时,预测(对象)实体可以被看作是一个多类分类任务,其中每个类对应一个对象实体。为了学习实体、关系和时间的权重和表示,在训练期间存在的时序知识图谱快照的所有事实上最小化以下交叉熵损失
其中,oit是快照中第i个真实对象实体,pt(yik)是快照/>中k第i个地真对象实体为oi时的概率值。
在不失一般性的前提下,将过程描述为预测时间事实中缺失的对象,尽管这个过程可以很容易地扩展到预测其他元素,包括主体和关系。为了对查询(s,p,ot,tk)进行预测,复制和生成两种模式分别对候选空间中概率最高的对象实体进行预测,其中复制模式预测的候选空间比整个实体词汇量小得多。为了确保所有实体的概率之和等于1,定义一个系数α来调整复制模式和生成模式之间的权重。本技术方案将复制模式和生成模式的概率预测结合起来,将这两种模式给出的每个实体的概率相加。最后的预测ot将是获得最高综合概率的实体,定义如下:
p(o|s,p,t)是整个实体词汇量大小的向量,它包含了所有实体的概率。概率p(o|s,p,t)中的最大值就是我们预测的目标对象实体ot。
如图5所示,本发明实施例提供一种时序知识图谱补全的系统,包括:
选取单元,用于在时序知识图谱中选定含有待补全对象实体的知识图谱,并确定所述含有待补全对象实体的知识图谱所对应的目标时序;
复制词汇向量生成单元,用于通过所述目标时序之前的各个时序所对应的知识图谱中已存在的对象实体,确定所述时序知识图谱在所述目标时序的复制词汇向量,所述复制词汇向量用于确定每个所述已存在的对象实体是否能够再次成为所述待补全对象实体;
第一概率计算单元,用于计算所述复制词汇向量中每个对象实体能够成为所述待补全对象实体的第一概率;
第二概率计算单元,用于计算每个备选对象实体能够成为所述待补全对象实体的第二概率,所述备选对象实体是指对象实体集合中的所有对象实体;
最终概率计算单元,用于根据所述第一概率和所述第二概率得到每个备选对象实体能够成为所述待补全对象实体的最终概率;
确定单元,用于根据所述最终概率确定所述待补全对象实体。
进一步的,所述时序知识图谱由一组四元组按照时间戳的升序排列而组成,其形式为其中,T表示时间戳的集合;
所述四元组的形式为g=(s,p,o,t),其中时序t∈T,主实体s∈ε,对象实体o∈E,所述主实体s和所述对象实体o之间的谓语ε为所述主实体t的集合,E为所述对象实体o的集合,/>为所述四元组中谓语的集合;
所述含有待补全对象实体的知识图谱的形式为
其中,tk为含有待补全对象实体的知识图谱所对应的目标时序,ot为待确定的对象实体;
所述复制词汇向量为
其中,是在时序为k的知识图谱中对应于当前对象实体的主实体和谓语对(s,p,t)的复制词汇,是一个N维one-hot向量。
进一步的,所述第一概率计算单元具体用于:
将转化为/>
生成索引向量vq=Tanh(Wc[s,p]+bc),其中,和/>是可学习参数,vq是一个N维的向量;
通过和索引向量vq来划分候选空间/>其中cq是一个N维向量;
根据cq得到所述第一概率p(c)=softmax(cq)。
进一步的,所述第二概率计算单元具体用于:
生成整个实体词汇查询向量gq=Wg[s,p,tk]+bg,其中和/>是可学习参数,gq是一个N维的向量;
根据gq得到所述第二概率p(g)=softmax(gq)。
进一步的,所述最终概率计算单元具体用于:
p(o|s,p,t)=α*p(c)+(1-α)*p(g),
其中,其中权重系数α∈[0,1];
所述确定单元具体用于:
ot=argmaxo∈Ep(o|s,p,t),
其中,ot为所述待补全对象实体。
图6所示是本发明的一个例子。模型由两种模式的过程组成,即复制模式和生成模式当时空链接预测预测查询的形式为(NBA,冠军,?,2018)时,得到已知事实中的复制词汇,其中包含2018年之前30支NBA球队中的18支NBA冠军球队。然后,复制模式能够预测18支NBA冠军球队中对象实体的概率,生成模式能够得到整个实体词汇(现有的30支NBA球队)中对象实体的概率,这与现有的方法类似。最后,结合复制模式和生成模式的概率预测,得到最终的测算结果。
下面通过具体试验来说明本申请技术方案的效果:
将在五个公共时序知识图谱数据集上展示本技术方案的有效性。首先详细解释实验设置,包括基线和数据集,之后得出结果,最后进行消融研究。
本实验使用5个基准,即ICEWS18、ICEWS14、GDELT、WIKI和YAGO来评估本技术方案在链接预测任务上的表现。ICEWS记录了带有时间戳的政治事实,例如,(Donald~Trump,Make~a~visit,France,2018-04-10),两个基准数据集提取了两个时间段的数据,即。ICEWS18(Boschee et al.(2015);从2018年1月1日至2018年10月31日)和ICEWS14(Trivediet al.(2017);从2014年1月1日至2014年12月31日)。GDELT(Leetaru and Schrodt,2013)包含了2018年1月1日至2018年1月31日收集的全球广播、纸媒和网络新闻的知识(时间粒度为15分钟)。WIKI数据集是由Leblay and Chekol(2018)提供的维基百科历史子集,YAGO数据集(Mahdisoltani,Biega,and Suchanek,2013)是从维基百科和其他来源自动提取的。由于WIKI数据集和YAGO数据集包含了时间跨度的时间事实,其形式为(s,p,o,[Ts,Te]),其中Ts为开始时间,Te为结束时间,因此按照Jin etal.(2020)将这些时间事实分解为时间粒度为一年的快照。表1总结了这些数据集的统计数据。
表1:数据集的统计
将其与多种静态和动态知识图表示模型进行比较。静态的包括TransE,DisMult,ComplEX,R-GCN,ConvE。动态方法包括TTransE,HyTE,TA-DisMult,Know-Evolve+MLP,DyRep+MLP和RE-NET。其中RE-NET在所有的基准数据集上都提供了SOTA性能。Know-Evolve+MLP、DyRep+MLP、R-GCRN+MLP是前者结合MLP解码器的方法。
为了预测未来的事实,将除ICEWS14以外的每个数据集按时间顺序分为训练集、验证集和测试集,比例分别为80%/10%/10%。为了结果的公平性,没有拆分ICEWS14,这与(Jin et al.,2020)类似。报告显示了平均互惠等级(MRR)和Hits@1/3/10(前1/3/10预测中的正确实体)。按照Jin et al.中的过滤设置定义。在评估过程中,从损坏的三元组列表中删除所有出现在训练、验证或测试集中的三元组。
该模型是在PyTorch中实现的。超参数(权重系数α)的值是根据验证集的性能确定的。通过基线方法得出的结果采用的是来自(Jin et al.,2020)。系数α从0.1到0.9进行调整,步长为0.1。具体来说,ICEWS18和ICEWS14的系数为0.8,GDELT、WIKI和YAGO的系数为0.7。优化采用AMSGrad优化器进行,学习率为0.001。嵌入维度设置为200,与基线方法一致,由(Jin et al.,2020)。批量大小设置为1024。训练间隔时间限制为30个,这在大多数情况下足够收敛。具体来说,由于ICEWS14没有附带验证集,所以可以直接将ICEWS18中相同的超参数设置延续到ICEWS14中。
表2和表3报告了用本技术方案和基线方法对五个TKG数据集的链接预测结果,其中CyGNet即代表本技术方案。如图所示,本技术方案在所有情况下都取得了最好的性能。静态方法一般表现出足够的结果,而由于没有捕捉到时间信息,所以很大程度上落后于表现最好的时序知识图谱表示方法。还可以观察到,所有静态KGE方法的行为总体上优于TTransE和HyTE。这可能是由于TTransE和HyTE实际上是对每个快照独立地捕捉表征,而不是捕捉任何长期依赖性。
表2 GDELT,ICEWS18和ICEWS14的结果(百分比)
表2显示,在ICEWS18、ICEWS14、GDELT上,本技术方案的表现大大优于所有其他基线。
具体来说,在GDELT上,本技术方案比最佳基线方法RE-NET的MRR提高了9.43%,Hits@1提高了11.56%,Hits@3提高了11.01%,Hits@10提高了7.17%。值得注意的是,GDELT的每个快照中的训练事实比其他数据集更密集,并且拥有更完整的历史信息
表3 WIKI和YAGO的结果(百分比)。(在WIKI和YAGO中的Hits@1值结果在之前的工作中(Jin et al.,2020)没有展示.)
在表3中,本技术方案在公共知识图谱(WIKI和YAGO)上的表现优于所有其他基线。在这些数据集中,静态KGs基线比大多数TKGs显示出更好的结果。这是由于公共知识图谱和其他数据集的不同之处在于WIKI和YAGO的事实是在一个时间跨度内有效的。然而,本技术方案的表现优于静态和时间方法,这意味着本技术方案通过从历史中学习,从头开始识别和预测新的事实,有效地预测未来的事实。
为了帮助理解本技术方案中不同模型组件的贡献,在这里提出了一项消融研究,通过调整其模型组件的使用来创建本技术方案的变体,并比较在ICEWS18数据集上的性能。
表4模型不同变体在ICEWS18的结果(百分比)
从结果来看,复制模式和生成模式都很重要。去掉复制模式会导致MRR下降8.95%,其他指标也会急剧下降。这表明,通过参考过去的已知事实来学习预测未来的事实是有帮助的。另一方面,取消生成模式也会导致MRR下降3.22%,这导致模型失去了预测未来事实的能力。这些结果进一步解释了模型的良好表现是由于从历史中学习的能力,以及从头开始识别和预测新事实的能力。
CyGNet-Generation-Candidate是model的一个变种。而CyGNet-Generation-Candidate与CyGNet(本技术方案)的区别在于,前者利用生成模式预测除应付词汇以外的整个实体词汇中的全新未来事实。本技术方案的性能优于CyGNet-Generation-Candidate。
为了帮助理解不同模型组件在本技术方案中的贡献,下面对权重系数α的取值范围与结果之间的关系进行分析。我们调整系数α来改变复制模式和生成模式之间的权重。结果呈现在图7中。
权重系数α为0时表示本技术方案只使用生成模式,α为1表示本技术方案只使用复制模式。可以观察到,如果不考虑过去发生的已知事实(α=0),只使用生成模式时的性能是不够有效的。而在一定范围内,随着α的增加,本技术方案的性能也会增加。而对已知事实的过度考虑会导致性能的降低。而最极端的情况是,本技术方案只使用生成模式,而忽略全新未来事实,即α=1。因此应通过合理调整系数α来平衡复制词汇和整个实体词汇之间的利用率。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种时序知识图谱补全的方法,其特征在于,包括:
在时序知识图谱中选定含有待补全对象实体的知识图谱,并确定所述含有待补全对象实体的知识图谱所对应的目标时序;
通过所述目标时序之前的各个时序所对应的知识图谱中已存在的对象实体,确定所述时序知识图谱在所述目标时序的复制词汇向量,所述复制词汇向量用于确定每个所述已存在的对象实体是否能够再次成为所述待补全对象实体;
计算所述复制词汇向量中每个对象实体能够成为所述待补全对象实体的第一概率;
计算每个备选对象实体能够成为所述待补全对象实体的第二概率,所述备选对象实体是指对象实体集合中的所有对象实体;
根据所述第一概率和所述第二概率得到每个备选对象实体能够成为所述待补全对象实体的最终概率;
根据所述最终概率确定所述待补全对象实体以补全时序知识图谱;
所述时序知识图谱由一组四元组按照时间戳的升序排列而组成,其形式为 其中,T表示时间戳的集合;
所述四元组的形式为其中时序t∈T,主实体s∈ε,对象实体o∈E,所述主实体s和所述对象实体o之间的谓语/>ε为所述主实体t的集合,E为所述对象实体o的集合,/>为所述四元组中谓语的集合;
所述含有待补全对象实体的知识图谱的形式为
其中,tk为含有待补全对象实体的知识图谱所对应的目标时序,ot为待补全的对象实体;
所述复制词汇向量为
其中,是在时序为k的知识图谱中对应于当前对象实体的主实体和谓语对(s,p,t)的复制词汇,是一个N维one-hot向量;
所述计算所述复制词汇向量中每个对象实体能够成为所述待补全对象实体的第一概率,包括:
将转化为/>具体包括:/>将/>中的无兴趣实体的值改为一个相当小的负数;
生成索引向量vq=Tanh(Wc[s,p]+bc),其中,和/>是可学习参数,vq是一个N维的向量;
通过和索引向量vq来划分候选空间/>其中cq是一个N维向量;
根据cq得到所述第一概率p(c)=softmax(cq);
所述计算每个备选对象实体能够成为所述待补全对象实体的第二概率,包括:
生成整个实体词汇查询向量gq=Wg[s,p,tk]+bg,其中和/>是可学习参数,gq是一个N维的向量;
根据gq得到所述第二概率p(g)=softmax(gq);
所述根据所述第一概率和所述第二概率确定每个备选对象实体能够成为所述待补全对象实体的最终概率的方式为:
p(o|s,p,t)=α*p(c)+(1-α)*p(g),
其中,其中权重系数α∈[0,1];
所述根据所述最终概率确定所述待补全对象实体的方式为:
ot=argmaxo∈Ep(o|s,p,t),
其中,ot为所述待补全对象实体。
2.一种时序知识图谱补全的系统,其特征在于,包括:
选取单元,用于在时序知识图谱中选定含有待补全对象实体的知识图谱,并确定所述含有待补全对象实体的知识图谱所对应的目标时序;
复制词汇向量生成单元,用于通过所述目标时序之前的各个时序所对应的知识图谱中已存在的对象实体,确定所述时序知识图谱在所述目标时序的复制词汇向量,所述复制词汇向量用于确定每个所述已存在的对象实体是否能够再次成为所述待补全对象实体;
第一概率计算单元,用于计算所述复制词汇向量中每个对象实体能够成为所述待补全对象实体的第一概率;
第二概率计算单元,用于计算每个备选对象实体能够成为所述待补全对象实体的第二概率,所述备选对象实体是指对象实体集合中的所有对象实体;
最终概率计算单元,用于根据所述第一概率和所述第二概率得到每个备选对象实体能够成为所述待补全对象实体的最终概率;
确定单元,用于根据所述最终概率确定所述待补全对象实体以补全时序知识图谱;
其中,所述时序知识图谱由一组四元组按照时间戳的升序排列而组成,其形式为 其中,T表示时间戳的集合;
所述四元组的形式为其中时序t∈T,主实体s∈ε,对象实体o∈E,所述主实体s和所述对象实体o之间的谓语/>ε为所述主实体t的集合,E为所述对象实体o的集合,/>为所述四元组中谓语的集合;
所述含有待补全对象实体的知识图谱的形式为
其中,tk为含有待补全对象实体的知识图谱所对应的目标时序,ot为待补全的对象实体;
所述复制词汇向量为
其中,是在时序为k的知识图谱中对应于当前对象实体的主实体和谓语对(s,p,t)的复制词汇,是一个N维one-hot向量;
所述第一概率计算单元具体用于:
将转化为/>具体包括:/>将/>中的无兴趣实体的值改为一个相当小的负数;
生成索引向量vq=Tanh(Wc[s,p]+bc),其中,和/>是可学习参数,vq是一个N维的向量;
通过和索引向量vq来划分候选空间/>其中cq是一个N维向量;
根据cq得到所述第一概率p(c)=softmax(cq);
所述第二概率计算单元具体用于:
生成整个实体词汇查询向量gq=Wg[s,p,tk]+bg,其中和/>是可学习参数,gq是一个N维的向量;
根据gq得到所述第二概率p(g)=softmax(gq);
所述最终概率计算单元具体用于:
p(o|s,p,t)=α*p(c)+(1-α)*p(g),
其中,其中权重系数α∈[0,1];
所述确定单元具体用于:
ot=argmaxo∈Ep(o|s,p,t),
其中,ot为所述待补全对象实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011261488.5A CN112559757B (zh) | 2020-11-12 | 2020-11-12 | 一种时序知识图谱补全的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011261488.5A CN112559757B (zh) | 2020-11-12 | 2020-11-12 | 一种时序知识图谱补全的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559757A CN112559757A (zh) | 2021-03-26 |
CN112559757B true CN112559757B (zh) | 2023-12-26 |
Family
ID=75042011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011261488.5A Active CN112559757B (zh) | 2020-11-12 | 2020-11-12 | 一种时序知识图谱补全的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559757B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343100B (zh) * | 2021-06-25 | 2024-01-30 | 中关村智慧城市产业技术创新战略联盟 | 一种基于知识图谱的智慧城市资源推荐方法和系统 |
CN113742491A (zh) * | 2021-08-12 | 2021-12-03 | 上海熙业信息科技有限公司 | 基于表示学习的时间知识图谱推理方法 |
CN113836318A (zh) * | 2021-09-26 | 2021-12-24 | 合肥智能语音创新发展有限公司 | 动态知识图谱补全方法、装置以及电子设备 |
CN116701573A (zh) * | 2023-06-06 | 2023-09-05 | 哈尔滨理工大学 | 一种基于时序知识图谱的查询方法和系统 |
CN116910131B (zh) * | 2023-09-12 | 2023-12-08 | 山东省国土测绘院 | 一种基于基础地理实体数据库的联动可视化方法及系统 |
CN117093727B (zh) * | 2023-10-16 | 2024-01-05 | 湖南董因信息技术有限公司 | 基于时间关系感知的时序知识图谱补全方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147450A (zh) * | 2019-05-06 | 2019-08-20 | 北京科技大学 | 一种知识图谱的知识补全方法及装置 |
CN111221983A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
CN111666422A (zh) * | 2020-06-05 | 2020-09-15 | 法雨科技(北京)有限责任公司 | 知识图谱构建系统及方法 |
CN111881219A (zh) * | 2020-05-19 | 2020-11-03 | 杭州中奥科技有限公司 | 动态知识图谱补全方法、装置、电子设备和存储介质 |
-
2020
- 2020-11-12 CN CN202011261488.5A patent/CN112559757B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147450A (zh) * | 2019-05-06 | 2019-08-20 | 北京科技大学 | 一种知识图谱的知识补全方法及装置 |
CN111221983A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
CN111881219A (zh) * | 2020-05-19 | 2020-11-03 | 杭州中奥科技有限公司 | 动态知识图谱补全方法、装置、电子设备和存储介质 |
CN111666422A (zh) * | 2020-06-05 | 2020-09-15 | 法雨科技(北京)有限责任公司 | 知识图谱构建系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112559757A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559757B (zh) | 一种时序知识图谱补全的方法及系统 | |
Zhu et al. | Learning from history: Modeling temporal knowledge graphs with sequential copy-generation networks | |
Xu et al. | Temporal knowledge graph embedding model based on additive time series decomposition | |
Galkin et al. | Message passing for hyper-relational knowledge graphs | |
Jain et al. | Temporal knowledge base completion: New algorithms and evaluation protocols | |
Guo et al. | Bitcoin price forecasting: A perspective of underlying blockchain transactions | |
Zhao et al. | Truth discovery in data streams: A single-pass probabilistic approach | |
Zhang et al. | DNEAT: A novel dynamic node-edge attention network for origin-destination demand prediction | |
Xu | Synthesizing tabular data using conditional GAN | |
Xu et al. | Time-aware graph neural networks for entity alignment between temporal knowledge graphs | |
Mirtaheri et al. | One-shot learning for temporal knowledge graphs | |
Derakhshan et al. | Continuous Deployment of Machine Learning Pipelines. | |
CA3080840A1 (en) | System and method for diachronic machine learning architecture | |
Xing et al. | Learning reliable user representations from volatile and sparse data to accurately predict customer lifetime value | |
US20230325632A1 (en) | Automated anomaly detection using a hybrid machine learning system | |
CN116340524A (zh) | 一种基于关系自适应网络的小样本时态知识图谱补全方法 | |
Li et al. | Future Event Prediction Based on Temporal Knowledge Graph Embedding. | |
Suprem et al. | Assed: A framework for identifying physical events through adaptive social sensor data filtering | |
Wang et al. | GLANet: temporal knowledge graph completion based on global and local information-aware network | |
Zheng et al. | Dream: Adaptive reinforcement learning based on attention mechanism for temporal knowledge graph reasoning | |
Dong et al. | Temporal inductive path neural network for temporal knowledge graph reasoning | |
Prabowo et al. | Traffic forecasting on new roads unseen in the training data using spatial contrastive pre-training | |
Xia et al. | Graph neural point process for temporal interaction prediction | |
Lee et al. | TS-Fastformer: Fast Transformer for Time-Series Forecasting | |
Chen et al. | Local-Global History-aware Contrastive Learning for Temporal Knowledge Graph Reasoning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |