CN115599927A - 一种基于度量学习的时序知识图谱补全方法及系统 - Google Patents
一种基于度量学习的时序知识图谱补全方法及系统 Download PDFInfo
- Publication number
- CN115599927A CN115599927A CN202211396787.9A CN202211396787A CN115599927A CN 115599927 A CN115599927 A CN 115599927A CN 202211396787 A CN202211396787 A CN 202211396787A CN 115599927 A CN115599927 A CN 115599927A
- Authority
- CN
- China
- Prior art keywords
- entity
- quadruple
- encoding
- evaluated
- tail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于度量学习的时序知识图谱补全方法及系统,包括:将若干个候选尾实体分别填入待补全三元组,获得若干个待评估四元组;根据第一头实体和所有候选尾实体的所有邻居实体、第一实体关系、以及第一时序信息,对第一头实体和候选尾实体进行实时编码,获得头实体编码结果和尾实体编码结果,并编码得到时序知识图谱中样本数据集对应的四元组编码结果;利用度量学习机制,结合所有编码结果,对各待评估四元组进行相似度评分排序,并根据排序结果确定待补全三元组对应的第一尾实体。本发明根据待补全三元组内的第一实体关系和第一时序信息,并基于少量样本数据,筛选得到第一尾实体,使得能够在保证补全效果的同时,减少整体运算数据。
Description
技术领域
本发明涉及时序知识图谱补全领域,尤其涉及一种基于度量学习的时序知识图谱补全方法及系统。
背景技术
知识图谱(KG)是以三元组的形式表示事实信息,例如(库克,CEO,苹果公司),其中库克是事实的第一头实体,苹果公司是事实的尾实体,CEO是第一头实体与尾实体之间的关系。但是由于大部分事实是在不断演变的,例如事实(乔布斯,CEO,苹果公司)仅在(库克,CEO,苹果公司)之前有效。为了使知识图谱能够描述世界上不断变化的知识,于是通过将时间信息合并到知识图谱中,创建成时序知识图谱(TKG)。时序知识图用四元组表示每个事实,其中表示事实时间有效性的时间约束。TKG谱已被广泛用于辅助人工智能领域的下游任务,例如推荐系统,问答系统和信息检索等领域。
目前,尽管开发了许多先进的提取技术,但TKG通常是不完整的,这限制了基于TKG的应用程序的性能和范围,所以最近的研究集中在开发用于时序知识图谱补全(TKGC)的模型。然而,这些研究没有考虑到大多数现实世界的知识图谱是具有长尾分布特征的,即其中很大一部分关系仅出现少数几次。目前基于深度学习的TKGC的模型都需要大规模数据的支撑,所以对少样本关系的补全效果不佳。另外,这些方法也无法处理新增关系,每新增一种关系就要将该关系的四元组放回模型重新训练,耗费大量时间。
发明内容
本发明提供了一种基于度量学习的时序知识图谱补全方法及系统,在少量样本数据的情况下,保证时序知识图谱的补全效果,并提升整体运算效率。
为了解决上述技术问题,本发明实施例提供了一种基于度量学习的时序知识图谱补全方法,包括:
将若干个候选尾实体分别填入时序知识图谱中的待补全三元组,获得若干个待评估四元组;其中,所述待补全三元组包括第一头实体、第一实体关系以及第一时序信息,所述第一实体关系是所述第一头实体和所述候选尾实体之间的关系,所述第一时序信息是所述第一实体关系的建立时间;
根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息,对所述第一头实体和各所述候选尾实体进行实时编码,获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果,并对样本数据集中的一个或者多个样本四元组进行实时编码,获得所述样本数据集对应的四元组编码结果;
利用度量学习机制,结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果,对各所述待评估四元组进行相似度评分排序,并根据排序结果,确定所述待补全三元组对应的第一尾实体,以完成对所述时序知识图谱的补全。
实施本发明实施例,利用若干个候选实体,对包括第一头实体、第一实体关系以及第一时序信息的待补全三元组进行初步填补,以获得若干个待评估四元组,并根据该待补全三元组的第一实体关系和第一时序信息、各第一头实体的多个邻居实体、以及各候选尾实体的多个邻居实体,能够实现关系感知和时间感知,并聚合作为第一头实体和候选尾实体的邻居信息,对第一头实体和候选尾实体进行实时编码,并对样本数据集的一个或者多个样本四元组进行实时编码,然后结合两次实时编码的结果,对所有的待评估四元组进行相似度评分排序,从而筛选出待补全三元组对应的第一尾实体,完成对时序知识图谱的补全。同时,当待补全三元组中的第一实体关系发生变化时,仅需要根据新的实体关系进行重新编码,而不需要利用大量四元组作为训练数据去重新训练补全预测模型,从而减少运算数据量,并提升时序知识图谱的补全速率。
作为优选方案,所述根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息,对所述第一头实体和各所述候选尾实体进行实时编码,获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果,具体为:
按照预设的时序信息编码算法,对所述第一时序信息进行实时编码处理,以获得对应的第一时间编码结果;
利用注意力机制,结合所述第一头实体的多个邻居实体、以及所述第一时间编码结果,计算得到所述第一头实体的各个邻居实体的权重值,并结合各所述候选尾实体的多个邻居实体、以及所述第一时间编码结果,计算得到各所述候选尾实体的各个邻居实体的权重值;
按照预设的实体编码算法,结合所述第一头实体的各个邻居实体的权重值、所述第一头实体的各个邻居实体的嵌入向量、以及所述第一头实体的嵌入向量,计算得到所述第一头实体对应的所述头实体编码结果,并结合各所述候选尾实体的各个邻居实体的权重值、各所述候选尾实体的各个邻居实体的嵌入向量、以及各所述候选尾实体的嵌入向量,计算得到各所述待评估四元组对应的所述尾实体编码结果。
实施本发明实施例的优选方案,采用注意力机制,结合第一时间编码结果、第一实体关系、第一头实体的多个邻居实体、以及各待评估四元组对应的候选尾实体的多个邻居实体,计算各第一头实体的各个邻居实体对应的权重值和各候选尾实体的各个邻居实体的权重值,并结合各第一头实体的各个邻居实体对应的权重值、各候选尾实体的各个邻居实体对应的权重值、各邻居实体的嵌入向量、第一头实体的嵌入向量、以及各个候选尾实体的嵌入向量,以使第一头实体和候选尾实体都能够有效地聚合与之关系密切的邻居实体,从而提升头实体编码结果和尾实体编码结果的准确性,防止错误的邻居实体影响时序知识图谱的补全效果。
作为优选方案,所述对样本数据集中的一个或者多个样本四元组进行实时编码,获得所述样本数据集对应的四元组编码结果,具体为:
将所述时序知识图谱中的一个或者多个所述样本四元组,作为所述样本数据集;其中,所述样本四元组包括第二头实体、第二实体关系、第二尾实体以及第二时序信息,所述第二实体关系是所述第二头实体和第二尾实体之间的关系,所述第二时序信息是所述第二实体关系的建立时间,且所述第一实体关系和所述第二实体关系相同,所述第一时序信息和所述第二时序信息相同;
按照预设的时序信息编码算法,对各所述样本四元组的所述第二时序信息进行实时编码处理,以获得各所述样本四元组对应的第二时间编码结果,并根据所述头实体编码结果、各所述待评估四元组对应的所述尾实体编码结果、以及所有所述第二时间编码结果,计算得到所述样本数据集对应的编码组合;
将所述编码组合中的所有编码表示输入至多头注意力模块,以获得所述样本数据集对应的四元组编码结果。
实施本发明实施例的优选方案,对样本数据集中的一个或者多个样本四元组进行编码处理,并将编码得到的各个编码表示输入至多头注意力模块,实现不同样本四元组之间的信息交互,并获得样本数据集对应的四元组编码结果,进而保障样本数据集对应的四元组编码结果能够充分地表征样本数据集,并基于小样本数据实现时序知识图谱的补全,以进一步提升时序知识图谱的补全效果。
作为优选方案,所述利用度量学习机制,结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果,对各所述待评估四元组进行相似度评分排序,并根据排序结果,确定所述待补全三元组对应的第一尾实体,以完成对所述时序知识图谱的补全,具体为:
将所述头实体编码结果与各所述待评估四元组对应的所述尾实体编码结果分别进行拼接,获得各所述待评估四元组对应的四元组编码结果;
通过预构建的长短期记忆网络模型,结合所述样本数据集对应的四元组编码结果、以及所有所述待评估四元组对应的四元组编码结果,分析得到所述长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出;
按照预设的相似度算法,根据所述长短期记忆网络模型对应的所有所述隐层输出、以及所述样本数据集对应的四元组编码结果,计算得到各所述待评估四元组对应的相似度评分,并将当前所述相似度评分最高的所述待评估四元组作为所述待补全三元组的补全结果,以完成对所述时序知识图谱的补全。
实施本发明实施例的优选方案,基于长短期记忆网络模型,分析获取各个待评估四元组对应的相似度评分,并选取相似度评分最高的待评估四元组作为待补全三元组的补全结果,能够避免相似度评分低的待评估四元组影响时序知识图谱的信息准确度,进而保证时序知识图谱的补全效果。
作为优选方案,所述的一种基于度量学习的时序知识图谱补全方法,还包括:
根据各所述待评估四元组对应的所述相似度评分,计算得到所述长短期记忆网络模型的损失函数值,并根据所述损失函数值,分析所述长短期记忆网络模型的评分准确性、所述头实体编码结果的准确度、各所述待评估四元组对应的所述尾实体编码结果的准确度、以及所述样本数据集对应的四元组编码结果的准确度。
实施本发明实施例的优选方案,通过计算长短期记忆网络模型的损失函数值,分析得到长短期记忆网络模型的评分准确性、以及各编码结果的准确度,使得能够对其编码参数和模型参数进行适应性调整,从而直观地展现并提升时序知识图谱的补全效果。
为了解决相同的技术问题,本发明实施例还提供了一种基于度量学习的时序知识图谱补全系统,包括:
数据获取模块,用于将若干个候选尾实体分别填入时序知识图谱中的待补全三元组,获得若干个待评估四元组;其中,所述待补全三元组包括第一头实体、第一实体关系以及第一时序信息,所述第一实体关系是所述第一头实体和所述候选尾实体之间的关系,所述第一时序信息是所述第一实体关系的建立时间;
编码模块,用于根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息,对所述第一头实体和各所述候选尾实体进行实时编码,获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果,并对样本数据集中的一个或者多个样本四元组进行实时编码,获得所述样本数据集对应的四元组编码结果;
图谱补全模块,用于利用度量学习机制,结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果,对各所述待评估四元组进行相似度评分排序,并根据排序结果,确定所述待补全三元组对应的第一尾实体,以完成对所述时序知识图谱的补全。
作为优选方案,所述编码模块,具体包括:
第一编码单元,用于按照预设的时序信息编码算法,对所述第一时序信息进行实时编码处理,以获得对应的第一时间编码结果;
权重计算单元,用于利用注意力机制,结合所述第一头实体的多个邻居实体、以及所述第一时间编码结果,计算得到所述第一头实体的各个邻居实体的权重值,并结合各所述候选尾实体的多个邻居实体、以及所述第一时间编码结果,计算得到各所述候选尾实体的各个邻居实体的权重值;
第二编码单元,用于按照预设的实体编码算法,结合所述第一头实体的各个邻居实体的权重值、所述第一头实体的各个邻居实体的嵌入向量、以及所述第一头实体的嵌入向量,计算得到所述第一头实体对应的所述头实体编码结果,并结合各所述候选尾实体的各个邻居实体的权重值、各所述候选尾实体的各个邻居实体的嵌入向量、以及各所述候选尾实体的嵌入向量,计算得到各所述待评估四元组对应的所述尾实体编码结果;
第三编码单元,用于对所述样本数据集中的一个或者多个所述样本四元组进行实时编码,获得所述样本数据集对应的四元组编码结果。
作为优选方案,所述第三编码单元,具体包括:
数据获取子单元,用于将所述时序知识图谱中的一个或者多个所述样本四元组,作为所述样本数据集;其中,所述样本四元组包括第二头实体、第二实体关系、第二尾实体以及第二时序信息,所述第二实体关系是所述第二头实体和第二尾实体之间的关系,所述第二时序信息是所述第二实体关系的建立时间,且所述第一实体关系和所述第二实体关系相同,所述第一时序信息和所述第二时序信息相同;
编码子单元,用于按照预设的时序信息编码算法,对各所述样本四元组的所述第二时序信息进行实时编码处理,以获得各所述样本四元组对应的第二时间编码结果,并根据所述头实体编码结果、各所述待评估四元组对应的所述尾实体编码结果、以及所有所述第二时间编码结果,计算得到所述样本数据集对应的编码组合;将所述编码组合中的所有编码表示输入至多头注意力模块,以获得所述样本数据集对应的四元组编码结果。
作为优选方案,所述图谱补全模块,具体包括:
分析拼接单元,用于将所述头实体编码结果与各所述待评估四元组对应的所述尾实体编码结果分别进行拼接,获得各所述待评估四元组对应的四元组编码结果;
评分筛选单元,用于通过预构建的长短期记忆网络模型,结合所述样本数据集对应的四元组编码结果、以及所有所述待评估四元组对应的四元组编码结果,分析得到所述长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出;按照预设的相似度算法,根据所述长短期记忆网络模型对应的所有所述隐层输出、以及所述样本数据集对应的四元组编码结果,计算得到各所述待评估四元组对应的相似度评分,并将当前所述相似度评分最高的所述待评估四元组作为所述待补全三元组的补全结果,以完成对所述时序知识图谱的补全。
作为优选方案,所述的一种基于度量学习的时序知识图谱补全系统,还包括:
性能评估模块,用于根据各所述待评估四元组对应的所述相似度评分,计算得到所述长短期记忆网络模型的损失函数值,并根据所述损失函数值,分析所述长短期记忆网络模型的评分准确性、所述头实体编码结果的准确度、各所述待评估四元组对应的所述尾实体编码结果的准确度、以及所述样本数据集对应的四元组编码结果的准确度。
附图说明
图1:为本发明实施例一提供的一种基于度量学习的时序知识图谱补全方法的流程示意图;
图2:为本发明实施例一提供的一种基于度量学习的时序知识图谱补全系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参照图1,为本发明实施例提供的一种基于度量学习的时序知识图谱补全方法,该方法包括步骤S1至步骤S3,各步骤具体如下:
步骤S1,将若干个候选尾实体oi分别填入时序知识图谱中的待补全三元组,获得若干个待评估四元组query set(s,r,oi,ti);其中,待补全三元组包括第一头实体s、第一实体关系ri以及第一时序信息ti,第一实体关系ri是第一头实体s和候选尾实体oi之间的关系,第一时序信息ti是第一实体关系ri的建立时间。
在执行步骤S2之前,从时序知识图谱G中,获取第一头实体的邻居实体、以及各候选尾实体的邻居实体,并根据第一头实体的邻居实体、各候选尾实体的邻居实体、第一实体关系以及第一时序信息,构成集合Ne={(ei,ri,ti)|(e,ri,ei,ti)∈G};其中,邻居实体ei作为实体e的邻居信息,实体e为第一头实体s或者第一尾实体o,第一时序信息ti是第一实体关系ri的建立时间。
步骤S2,根据所有的邻居实体ei、第一实体关系ri和第一时序信息ti,对所有的实体e进行实时编码,以获得各待评估四元组对应的第一实体编码结果he,并对样本数据集中的一个或者多个样本四元组support set(si,r,oi,ti)进行实时编码,以获得样本数据集对应的四元组编码结果Sr;其中,第一实体编码结果he为头实体编码结果hs或者尾实体编码结果
作为优选方案,步骤S2包括步骤S21至步骤S26,各步骤具体如下:
步骤S21,请参见式(1),对第一时序信息ti进行实时编码处理,以获得对应的第一时间编码结果Φ1(t)。
步骤S22,请参见式(2),利用注意力机制,结合第一时间编码结果Φ1(t)、第一实体关系ri以及第一头实体s的多个邻居实体ei,计算得到第一头实体s的各个邻居实体ei的权重值αi,并结合第一时间编码结果Φ1(t)、第一实体关系ri以及各个候选尾实体oi的多个邻居实体ei,计算得到各个候选尾实体oi的各个邻居实体ei的权重值αi。
其中,i,j∈(1,2,…,N),N为自然数;v表示实体或实体关系的嵌入向量(比如表示第一实体关系ri的嵌入向量,该嵌入向量可通过预训练得到也可以随机初始化,在训练时不断更新);r表示当前待评估四元组query set对应的实体关系;t表示当前第一头实体所在的待评估四元组query set对应的时间;ri表示各实体e的邻居实体ei对应的实体关系;ti表示各实体e的邻居实体ei对应的实体关系的建立时间;Φ1(t)为当前待评估四元组query set对应的第一时间编码结果;Φ1(ti)为各实体e的邻居实体ei的第一时间编码结果;<x,y>表示x与y的内积;是可学习的参数。
步骤S23,请参见式(3),结合各实体e的邻居实体ei对应的权重值αi、各邻居实体ei的嵌入向量以及实体e的嵌入向量ve,计算得到对应的第一实体编码结果he。其中,第一实体编码结果he为头实体编码结果hs或者尾实体编码结果
步骤S24,将时序知识图谱G中的一个或者多个样本四元组support set(si,r,oi,ti),作为样本数据集;其中,样本四元组包括第二头实体si、第二实体关系r、第二尾实体oi以及第二时序信息ti,第二实体关系r是第二头实体si和第二尾实体oi之间的关系,第二时序信息ti是第二实体关系r的建立时间,且第一实体关系r和第二实体关系ri相同,第一时序信息ti和第二时序信息ti相同。
步骤S25,请参见式(4),对各样本四元组的第二时序信息ti进行实时编码处理,以获得各样本四元组support set对应的第二时间编码结果Φ2(t),并参见式(5),根据第一实体编码结果he和所有第二时间编码结果Φ2(t),计算得到各样本四元组support set对应的编码表示Zri,用于构成样本数据集对应的编码组合Zr=[Zr1,Zr2,…,Zrl]。
步骤S26,请参见式(6)(7),将编码组合Zr中的所有编码表示Zri输入至多头注意力模块,以获得样本数据集对应的四元组编码结果Sr。
[Sr1,Sr2,…,Srk]=[Zr1,Zr2,…,Zrk]
(7)
步骤S3,利用度量学习机制,结合第一实体编码结果he和样本数据集对应的四元组编码结果Sr,对各待评估四元组query set进行相似度评分排序,并根据排序结果,确定待补全三元组对应的第一尾实体,以完成对时序知识图谱G的补全。
作为优选方案,步骤S3包括步骤S31至步骤S33,各步骤具体如下:
步骤S32,以各待评估四元组support set对应的四元组编码结果qr作为长短期记忆网络模型中每一层长短期记忆网络单元的输入,使得能够通过长短期记忆网络模型,结合所有待评估四元组query set对应的四元组编码结果qr和样本数据集对应的四元组编码结果Sr,分析得到长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出hl;其中,l为层序数。
步骤S33,按照预设的相似度算法,根据长短期记忆网络模型对应的所有隐层输出hl、以及样本数据集对应的四元组编码结果Sr,请参见式(8)(9)(10)(11)(12),计算得到各待评估四元组query set对应的相似度评分Score(qr,Sr),并将当前相似度评分最高的待评估四元组作为待补全三元组的补全结果,以完成对时序知识图谱的补全。
需要说明的是,ri-1与hi-1拼接再作为下一层长短期记忆网络单元的隐层输入,经过l层的长短期记忆网络单元输出的hl与四元组编码结果Sr中每一个Srj进行内积计算,然后求和得到qr与当前的Support set的匹配分数Score(qr,Sr)。
作为优选方案,本发明实施例提供的一种基于度量学习的时序知识图谱补全方法,还包括步骤S4,各步骤具体如下:
步骤S4,根据各待评估四元组query set对应的相似度评分Score(qr,Sr),计算得到长短期记忆网络模型的损失函数值并根据损失函数值分析长短期记忆网络模型的评分准确性、以及第一实体编码结果和四元组编码结果的准确度。
其中,o+代表正确的尾实体,代表错误的尾实体;表示当前样本四元组对应的头实体s与正确尾实体o+的拼接结果;表示当前样本四元组对应的头实体s与错误尾实体的拼接结果;表示每个实体关系r中的所有正确的待评估四元组query set;表示每个实体关系r中的所有错误的待评估四元组query set;[x]+=max(0,x);λ是一个常数。
请参照图2,为本发明实施例提供的一种基于度量学习的时序知识图谱补全系统的结构示意图,该系统包括数据获取模块M1、编码模块M2和图谱补全模块M3,各模块具体如下:
数据获取模块M1,用于将若干个候选尾实体分别填入时序知识图谱中的待补全三元组,获得若干个待评估四元组;其中,待补全三元组包括第一头实体、第一实体关系以及第一时序信息,第一实体关系是第一头实体和候选尾实体之间的关系,第一时序信息是第一实体关系的建立时间;
编码模块M2,用于根据第一头实体的多个邻居实体、各候选尾实体的多个邻居实体、第一实体关系和第一时序信息,对第一头实体和各候选尾实体进行实时编码,获得第一头实体对应的头实体编码结果和各待评估四元组对应的尾实体编码结果,并对样本数据集中的一个或者多个样本四元组进行实时编码,获得样本数据集对应的四元组编码结果;
图谱补全模块M3,用于利利用度量学习机制,结合头实体编码结果和各待评估四元组对应的尾实体编码结果、以及样本数据集对应的四元组编码结果,对各待评估四元组进行相似度评分排序,并根据排序结果,确定待补全三元组对应的第一尾实体,以完成对时序知识图谱的补全。
作为优选方案,编码模块M2,具体包括第一编码单元21、权重计算单元22、第二编码单元23和第三编码单元24,各单元具体如下:
第一编码单元21,用于按照预设的时序信息编码算法,对第一时序信息进行实时编码处理,以获得对应的第一时间编码结果;
权重计算单元22,用于利用注意力机制,结合第一头实体的多个邻居实体、以及第一时间编码结果,计算得到第一头实体的各个邻居实体的权重值,并结合各候选尾实体的多个邻居实体、以及第一时间编码结果,计算得到各候选尾实体的各个邻居实体的权重值;
第二编码单元23,用于按照预设的实体编码算法,结合第一头实体的各个邻居实体的权重值、第一头实体的各个邻居实体的嵌入向量、以及第一头实体的嵌入向量,计算得到第一头实体对应的头实体编码结果,并结合各候选尾实体的各个邻居实体的权重值、各候选尾实体的各个邻居实体的嵌入向量、以及各候选尾实体的嵌入向量,计算得到各待评估四元组对应的尾实体编码结果;
第三编码单元24,用于对对样本数据集中的一个或者多个样本四元组进行实时编码,以获得样本数据集对应的四元组编码结果。
作为优选方案,第三编码单元24,具体包括数据获取子单元241和编码子单元242,各单元具体如下:
数据获取子单元241,用于将时序知识图谱中的一个或者多个样本四元组,作为样本数据集;其中,样本四元组包括第二头实体、第二实体关系、第二尾实体以及第二时序信息,第二实体关系是第二头实体和第二尾实体之间的关系,第二时序信息是第二实体关系的建立时间,且第一实体关系和第二实体关系相同,第一时序信息和第二时序信息相同;
编码子单元242,用于按照预设的时序信息编码算法,对各样本四元组的第二时序信息进行实时编码处理,以获得各样本四元组对应的第二时间编码结果,并根据头实体编码结果、各待评估四元组对应的尾实体编码结果、以及所有第二时间编码结果,计算得到样本数据集对应的编码组合;将编码组合中的所有编码表示输入至多头注意力模块,以获得样本数据集对应的四元组编码结果。
作为优选方案,图谱补全模块M3,具体包括分析拼接单元31和评分筛选单元32,各单元具体如下:
分析拼接单元31,用于将头实体编码结果与各待评估四元组对应的尾实体编码结果分别进行拼接,获得各待评估四元组对应的四元组编码结果;
评分筛选单元32,用于通过预构建的长短期记忆网络模型,结合样本数据集对应的四元组编码结果、以及所有待评估四元组对应的四元组编码结果,分析得到长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出;按照预设的相似度算法,根据长短期记忆网络模型对应的所有隐层输出、以及样本数据集对应的四元组编码结果,计算得到各待评估四元组对应的相似度评分,并将当前相似度评分最高的待评估四元组作为待补全三元组的补全结果,以完成对时序知识图谱的补全。
作为优选方案,本发明实施例提供的一种基于度量学习的时序知识图谱补全系统,还包括性能评估模块M4,该模块具体如下:
性能评估模块M4,用于根据各待评估四元组对应的相似度评分,计算得到长短期记忆网络模型的损失函数值,并根据损失函数值,分析长短期记忆网络模型的评分准确性、头实体编码结果的准确度、各待评估四元组对应的尾实体编码结果的准确度、以及样本数据集对应的四元组编码结果的准确度。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
相比于现有技术,本发明实施例具有如下有益效果:
本发明提出一种基于度量学习的时序知识图谱补全方法及系统,将若干个候选实体填入包括第一头实体、第一实体关系以及第一时序信息的待补全三元组,并根据该待补全三元组的第一实体关系和第一时序信息、第一头实体的多个邻居实体、以及所有候选尾实体的多个邻居实体,在对第一头实体和所有候选尾实体进行实时编码的过程中实现关系感知和时间感知,并聚合作为第一头实体和候选尾实体的邻居实体,从而保证头实体编码结果和尾实体编码结果能够同时兼顾第一头实体和候选尾实体之间的关系、以及第一实体关系的建立时间这两个信息,以保障实体编码结果的准确性。同时,对样本数据集中的少量样本数据——一个或者多个样本四元组进行实时编码,实现不同样本四元组之间的信息交互,以充分表征样本数据集,然后结合两次实时编码的结果,对所有的待评估四元组进行相似度评分排序,进而从所有的候选尾实体中筛选出待补全三元组对应的第一尾实体,完成对时序知识图谱的补全。另外地,当待补全三元组中的第一实体关系发生变化时,仅需要根据新的实体关系进行重新编码,而非依赖于大量四元组去重新训练补全预测模型,进而减少运算数据量,并提升时序知识图谱的补全速率。
进一步地,采用注意力机制,结合第一时间编码结果、第一实体关系、第一头实体的多个邻居实体、以及各待评估四元组对应的各个候选尾实体的多个邻居实体,计算各邻居实体对应的权重值,并结合各邻居实体对应的权重值、各邻居实体的嵌入向量、第一头实体的嵌入向量、以及各个候选尾实体的嵌入向量,以使第一头实体和各候选尾实体能够有效地聚合与之关系密切贴合的邻居实体,从而提升第一实体编码结果的准确性,防止错误的邻居实体影响时序知识图谱的补全效果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于度量学习的时序知识图谱补全方法,其特征在于,包括:
将若干个候选尾实体分别填入时序知识图谱中的待补全三元组,获得若干个待评估四元组;其中,所述待补全三元组包括第一头实体、第一实体关系以及第一时序信息,所述第一实体关系是所述第一头实体和所述候选尾实体之间的关系,所述第一时序信息是所述第一实体关系的建立时间;
根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息,对所述第一头实体和各所述候选尾实体进行实时编码,获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果,并对样本数据集中的一个或者多个样本四元组进行实时编码,获得所述样本数据集对应的四元组编码结果;
利用度量学习机制,结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果,对各所述待评估四元组进行相似度评分排序,并根据排序结果,确定所述待补全三元组对应的第一尾实体,以完成对所述时序知识图谱的补全。
2.如权利要求1所述的一种基于度量学习的时序知识图谱补全方法,其特征在于,所述根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息,对所述第一头实体和各所述候选尾实体进行实时编码,获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果,具体为:
按照预设的时序信息编码算法,对所述第一时序信息进行实时编码处理,以获得对应的第一时间编码结果;
利用注意力机制,结合所述第一头实体的多个邻居实体、以及所述第一时间编码结果,计算得到所述第一头实体的各个邻居实体的权重值,并结合各所述候选尾实体的多个邻居实体、以及所述第一时间编码结果,计算得到各所述候选尾实体的各个邻居实体的权重值;
按照预设的实体编码算法,结合所述第一头实体的各个邻居实体的权重值、所述第一头实体的各个邻居实体的嵌入向量、以及所述第一头实体的嵌入向量,计算得到所述第一头实体对应的所述头实体编码结果,并结合各所述候选尾实体的各个邻居实体的权重值、各所述候选尾实体的各个邻居实体的嵌入向量、以及各所述候选尾实体的嵌入向量,计算得到各所述待评估四元组对应的所述尾实体编码结果。
3.如权利要求1所述的一种基于度量学习的时序知识图谱补全方法,其特征在于,所述对样本数据集中的一个或者多个样本四元组进行实时编码,获得所述样本数据集对应的四元组编码结果,具体为:
将所述时序知识图谱中的一个或者多个所述样本四元组,作为所述样本数据集;其中,所述样本四元组包括第二头实体、第二实体关系、第二尾实体以及第二时序信息,所述第二实体关系是所述第二头实体和第二尾实体之间的关系,所述第二时序信息是所述第二实体关系的建立时间,且所述第一实体关系和所述第二实体关系相同,所述第一时序信息和所述第二时序信息相同;
按照预设的时序信息编码算法,对各所述样本四元组的所述第二时序信息进行实时编码处理,以获得各所述样本四元组对应的第二时间编码结果,并根据所述头实体编码结果、各所述待评估四元组对应的所述尾实体编码结果、以及所有所述第二时间编码结果,计算得到所述样本数据集对应的编码组合;
将所述编码组合中的所有编码表示输入至多头注意力模块,以获得所述样本数据集对应的四元组编码结果。
4.如权利要求1所述的一种基于度量学习的时序知识图谱补全方法,其特征在于,所述利用度量学习机制,结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果,对各所述待评估四元组进行相似度评分排序,并根据排序结果,确定所述待补全三元组对应的第一尾实体,以完成对所述时序知识图谱的补全,具体为:
将所述头实体编码结果与各所述待评估四元组对应的所述尾实体编码结果分别进行拼接,获得各所述待评估四元组对应的四元组编码结果;
通过预构建的长短期记忆网络模型,结合所述样本数据集对应的四元组编码结果、以及所有所述待评估四元组对应的四元组编码结果,分析得到所述长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出;
按照预设的相似度算法,根据所述长短期记忆网络模型对应的所有所述隐层输出、以及所述样本数据集对应的四元组编码结果,计算得到各所述待评估四元组对应的相似度评分,并将当前所述相似度评分最高的所述待评估四元组作为所述待补全三元组的补全结果,以完成对所述时序知识图谱的补全。
5.如权利要求4所述的一种基于度量学习的时序知识图谱补全方法,其特征在于,还包括:
根据各所述待评估四元组对应的所述相似度评分,计算得到所述长短期记忆网络模型的损失函数值,并根据所述损失函数值,分析所述长短期记忆网络模型的评分准确性、所述头实体编码结果的准确度、各所述待评估四元组对应的所述尾实体编码结果的准确度、以及所述样本数据集对应的四元组编码结果的准确度。
6.一种基于度量学习的时序知识图谱补全系统,其特征在于,包括:
数据获取模块,用于将若干个候选尾实体分别填入时序知识图谱中的待补全三元组,获得若干个待评估四元组;其中,所述待补全三元组包括第一头实体、第一实体关系以及第一时序信息,所述第一实体关系是所述第一头实体和所述候选尾实体之间的关系,所述第一时序信息是所述第一实体关系的建立时间;
编码模块,用于根据所述第一头实体的多个邻居实体、各所述候选尾实体的多个邻居实体、所述第一实体关系和所述第一时序信息,对所述第一头实体和各所述候选尾实体进行实时编码,获得所述第一头实体对应的头实体编码结果和各所述待评估四元组对应的尾实体编码结果,并对样本数据集中的一个或者多个样本四元组进行实时编码,获得所述样本数据集对应的四元组编码结果;
图谱补全模块,用于利用度量学习机制,结合所述头实体编码结果和各所述待评估四元组对应的所述尾实体编码结果、以及所述样本数据集对应的四元组编码结果,对各所述待评估四元组进行相似度评分排序,并根据排序结果,确定所述待补全三元组对应的第一尾实体,以完成对所述时序知识图谱的补全。
7.如权利要求6所述的一种基于度量学习的时序知识图谱补全系统,其特征在于,所述编码模块,具体包括:
第一编码单元,用于按照预设的时序信息编码算法,对所述第一时序信息进行实时编码处理,以获得对应的第一时间编码结果;
权重计算单元,用于利用注意力机制,结合所述第一头实体的多个邻居实体、以及所述第一时间编码结果,计算得到所述第一头实体的各个邻居实体的权重值,并结合各所述候选尾实体的多个邻居实体、以及所述第一时间编码结果,计算得到各所述候选尾实体的各个邻居实体的权重值;
第二编码单元,用于按照预设的实体编码算法,结合所述第一头实体的各个邻居实体的权重值、所述第一头实体的各个邻居实体的嵌入向量、以及所述第一头实体的嵌入向量,计算得到所述第一头实体对应的所述头实体编码结果,并结合各所述候选尾实体的各个邻居实体的权重值、各所述候选尾实体的各个邻居实体的嵌入向量、以及各所述候选尾实体的嵌入向量,计算得到各所述待评估四元组对应的所述尾实体编码结果;
第三编码单元,用于对所述样本数据集中的一个或者多个所述样本四元组进行实时编码,获得所述样本数据集对应的四元组编码结果。
8.如权利要求7所述的一种基于度量学习的时序知识图谱补全系统,其特征在于,所述第三编码单元,具体包括:
数据获取子单元,用于将所述时序知识图谱中的一个或者多个所述样本四元组,作为所述样本数据集;其中,所述样本四元组包括第二头实体、第二实体关系、第二尾实体以及第二时序信息,所述第二实体关系是所述第二头实体和第二尾实体之间的关系,所述第二时序信息是所述第二实体关系的建立时间,且所述第一实体关系和所述第二实体关系相同,所述第一时序信息和所述第二时序信息相同;
编码子单元,用于按照预设的时序信息编码算法,对各所述样本四元组的所述第二时序信息进行实时编码处理,以获得各所述样本四元组对应的第二时间编码结果,并根据所述头实体编码结果、各所述待评估四元组对应的所述尾实体编码结果、以及所有所述第二时间编码结果,计算得到所述样本数据集对应的编码组合;将所述编码组合中的所有编码表示输入至多头注意力模块,以获得所述样本数据集对应的四元组编码结果。
9.如权利要求6所述的一种基于度量学习的时序知识图谱补全系统,其特征在于,所述图谱补全模块,具体包括:
分析拼接单元,用于将所述头实体编码结果与各所述待评估四元组对应的所述尾实体编码结果分别进行拼接,获得各所述待评估四元组对应的四元组编码结果;
评分筛选单元,用于通过预构建的长短期记忆网络模型,结合所述样本数据集对应的四元组编码结果、以及所有所述待评估四元组对应的四元组编码结果,分析得到所述长短期记忆网络模型中的每一层长短期记忆网络单元对应的隐层输出;按照预设的相似度算法,根据所述长短期记忆网络模型对应的所有所述隐层输出、以及所述样本数据集对应的四元组编码结果,计算得到各所述待评估四元组对应的相似度评分,并将当前所述相似度评分最高的所述待评估四元组作为所述待补全三元组的补全结果,以完成对所述时序知识图谱的补全。
10.如权利要求9所述的一种基于度量学习的时序知识图谱补全系统,其特征在于,还包括:
性能评估模块,用于根据各所述待评估四元组对应的所述相似度评分,计算得到所述长短期记忆网络模型的损失函数值,并根据所述损失函数值,分析所述长短期记忆网络模型的评分准确性、所述头实体编码结果的准确度、各所述待评估四元组对应的所述尾实体编码结果的准确度、以及所述样本数据集对应的四元组编码结果的准确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211396787.9A CN115599927A (zh) | 2022-11-08 | 2022-11-08 | 一种基于度量学习的时序知识图谱补全方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211396787.9A CN115599927A (zh) | 2022-11-08 | 2022-11-08 | 一种基于度量学习的时序知识图谱补全方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115599927A true CN115599927A (zh) | 2023-01-13 |
Family
ID=84853110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211396787.9A Pending CN115599927A (zh) | 2022-11-08 | 2022-11-08 | 一种基于度量学习的时序知识图谱补全方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599927A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929047A (zh) * | 2019-12-11 | 2020-03-27 | 中国人民解放军国防科技大学 | 关注邻居实体的知识图谱推理方法和装置 |
US20200160215A1 (en) * | 2018-11-16 | 2020-05-21 | NEC Laboratories Europe GmbH | Method and system for learning numerical attributes on knowledge graphs |
CN112148892A (zh) * | 2020-09-25 | 2020-12-29 | 中国人民解放军国防科技大学 | 动态知识图谱的知识补全方法、装置和计算机设备 |
CN113254549A (zh) * | 2021-06-21 | 2021-08-13 | 中国人民解放军国防科技大学 | 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置 |
CN113282818A (zh) * | 2021-01-29 | 2021-08-20 | 中国人民解放军国防科技大学 | 基于BiLSTM的挖掘网络人物关系的方法、装置及介质 |
CN113836318A (zh) * | 2021-09-26 | 2021-12-24 | 合肥智能语音创新发展有限公司 | 动态知识图谱补全方法、装置以及电子设备 |
CN114780739A (zh) * | 2022-04-14 | 2022-07-22 | 武汉大学 | 基于时间图卷积网络的时序知识图谱补全方法及系统 |
CN114969357A (zh) * | 2022-05-05 | 2022-08-30 | 中国人民解放军国防科技大学 | 中文知识图谱补全方法、装置、计算机设备和存储介质 |
CN115203430A (zh) * | 2022-07-05 | 2022-10-18 | 苏州凌图科技有限公司 | 时序知识图谱表征模型构建方法和时序知识图谱补全方法 |
CN115238855A (zh) * | 2022-05-23 | 2022-10-25 | 北京邮电大学 | 基于图神经网络的时序知识图谱的补全方法及相关设备 |
-
2022
- 2022-11-08 CN CN202211396787.9A patent/CN115599927A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200160215A1 (en) * | 2018-11-16 | 2020-05-21 | NEC Laboratories Europe GmbH | Method and system for learning numerical attributes on knowledge graphs |
CN110929047A (zh) * | 2019-12-11 | 2020-03-27 | 中国人民解放军国防科技大学 | 关注邻居实体的知识图谱推理方法和装置 |
CN112148892A (zh) * | 2020-09-25 | 2020-12-29 | 中国人民解放军国防科技大学 | 动态知识图谱的知识补全方法、装置和计算机设备 |
CN113282818A (zh) * | 2021-01-29 | 2021-08-20 | 中国人民解放军国防科技大学 | 基于BiLSTM的挖掘网络人物关系的方法、装置及介质 |
CN113254549A (zh) * | 2021-06-21 | 2021-08-13 | 中国人民解放军国防科技大学 | 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置 |
CN113836318A (zh) * | 2021-09-26 | 2021-12-24 | 合肥智能语音创新发展有限公司 | 动态知识图谱补全方法、装置以及电子设备 |
CN114780739A (zh) * | 2022-04-14 | 2022-07-22 | 武汉大学 | 基于时间图卷积网络的时序知识图谱补全方法及系统 |
CN114969357A (zh) * | 2022-05-05 | 2022-08-30 | 中国人民解放军国防科技大学 | 中文知识图谱补全方法、装置、计算机设备和存储介质 |
CN115238855A (zh) * | 2022-05-23 | 2022-10-25 | 北京邮电大学 | 基于图神经网络的时序知识图谱的补全方法及相关设备 |
CN115203430A (zh) * | 2022-07-05 | 2022-10-18 | 苏州凌图科技有限公司 | 时序知识图谱表征模型构建方法和时序知识图谱补全方法 |
Non-Patent Citations (3)
Title |
---|
WENHAN XIONG ET AL.: ""one-shot relational learning for knowledge graphs"" * |
李凤英 等: ""基于时序感知的动态知识图谱补全方法"" * |
邵心玥: ""融合时间信息知识图谱自主建模与推理关键技术研究"" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487950B2 (en) | Autonomous evolution intelligent dialogue method, system, and device based on a game with a physical environment | |
Zhou et al. | A knee-guided evolutionary algorithm for compressing deep neural networks | |
CN110413785A (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
TW202117577A (zh) | 用以針對目標性質生成結構的機器學習系統以及方法 | |
CN106897254B (zh) | 一种网络表示学习方法 | |
CN109410917A (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
CN109783799B (zh) | 一种基于语义依存图的关系提取方法 | |
CN111428848B (zh) | 基于自编码器和3阶图卷积的分子智能设计方法 | |
CN113128206B (zh) | 基于单词重要性加权的问题生成方法 | |
CN110084250A (zh) | 一种图像描述的方法及系统 | |
CN113836312A (zh) | 一种基于编码器和解码器架构的知识表示推理方法 | |
CN115862319A (zh) | 一种面向时空图自编码器的交通流量预测方法 | |
CN114254093A (zh) | 多空间知识增强的知识图谱问答方法及系统 | |
CN113283577A (zh) | 一种基于元学习和生成对抗网络的工业平行数据生成方法 | |
CN116596150A (zh) | 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法 | |
Wu et al. | Switchtab: Switched autoencoders are effective tabular learners | |
CN111126560A (zh) | 一种基于云遗传算法优化bp神经网络的方法 | |
CN114925270A (zh) | 一种会话推荐方法和模型 | |
CN110083734A (zh) | 基于自编码网络和鲁棒核哈希的半监督图像检索方法 | |
CN116306780B (zh) | 一种动态图链接生成方法 | |
CN115599927A (zh) | 一种基于度量学习的时序知识图谱补全方法及系统 | |
CN113111308B (zh) | 基于数据驱动遗传编程算法的符号回归方法及系统 | |
CN110909254B (zh) | 基于深度学习模型针对问答社区进行问题热度预测的方法和系统 | |
CN110674335B (zh) | 一种基于多生成多对抗的哈希码与图像双向转换方法 | |
CN115587187A (zh) | 基于小样本的知识图谱补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |