CN117093727A - 基于时间关系感知的时序知识图谱补全方法 - Google Patents
基于时间关系感知的时序知识图谱补全方法 Download PDFInfo
- Publication number
- CN117093727A CN117093727A CN202311334014.2A CN202311334014A CN117093727A CN 117093727 A CN117093727 A CN 117093727A CN 202311334014 A CN202311334014 A CN 202311334014A CN 117093727 A CN117093727 A CN 117093727A
- Authority
- CN
- China
- Prior art keywords
- time
- relation
- embedded
- entity
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000008447 perception Effects 0.000 title claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 96
- 238000013461 design Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 54
- 238000005070 sampling Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000000295 complement effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000036962 time dependent Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 206010019233 Headaches Diseases 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于时间关系感知的时序知识图谱补全方法,所述方法包括:实体、关系和时间嵌入特征初始化;构建时间四元组可信度评分函数,并计算时间四元组可信度损失函数;构建时间关系感知模块并计算时间关系感知损失函数;对时间四元组可信度损失函数和时间关系感知损失函数计算联合损失函数并以此优化实体、关系和时间的嵌入特征表示;设计规则获得目标实体和候选实体;根据优化后的实体、关系和时间的嵌入特征表示,计算候选实体的与目标实体的时间四元组可信度评分函数,根据该评分函数补全图谱。本发明的时序知识图谱知识表示方法提出了时序感知模块,能够使图谱中的时间嵌入特征表示更加具备时间关系判别性。
Description
技术领域
本发明涉及深度学习和知识图谱技术领域,尤其涉及一种基于时间关系感知的时序知识图谱补全方法。
背景技术
时序知识图谱是指在知识图谱的基础上,引入时间信息,描述实体之间在不同时间点上的关系和演化过程的一种扩展形式。它可以用于描述实体之间的历史和未来的关系,反映实体之间的演化过程和动态变化,具有广泛的应用价值。时序知识图谱知识表示是指将时序知识图谱中的实体、关系和时间信息转化为低维嵌入向量,以便于计算机进行处理和应用的过程。
当前的知识表示方法往往仅利用知识的可信度评分函数进行训练,却忽略了时间信息天然具备的时间关系,这有可能导致依赖于这些知识表示方法的下游模型发生一些常识性错误,如“之前”和“之后”等时间关系的错判。如何利用时间信息天然具备的时间关系,优化出更具备时间关系判别性的知识嵌入特征表示,是一个有研究价值和应用价值的问题。
近年来,研究者们构建了各种各样的大规模的知识图谱。虽然它们已经在多个领域取得了显著的成绩,但是在实际应用中,知识覆盖率不足一直是一个令人头疼的问题。那么,如何在已有知识中通过学习得到新的知识,从而对知识图谱进行补全,成为了一种有效手段。并且,在学习的过程中,知识图谱补全检验了模型的推理能力。在时序知识图谱在进行补全工作对于时序知识图谱的研究和利用具有非常重要的实践意义。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了基于时间关系感知的时序知识图谱补全方法。所述方法能够实现将时序知识图谱中的实体、关系和时间信息转化为低维嵌入向量,以便于计算机进行处理,相比现有方法,本方法创新性提出了时间关系感知模块,能够建模出更具时间判别性的时间嵌入特征表示。
本发明的目的是通过如下技术方案实现的,基于时间关系感知的时序知识图谱补全方法,所述方法包括:
步骤1,初始化实体嵌入特征、关系嵌入特征和时间嵌入特征;
步骤2,构建时间四元组可信度评分函数,计算时间四元组可信度损失函数;
步骤3,构建时间关系感知模块,计算时间关系感知损失函数;
步骤4,对时间四元组可信度损失函数和时间关系感知损失函数计算联合损失函数,采用联合损失函数来优化实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示;
步骤5,设计规则获得目标实体和候选实体;
步骤6,根据优化后的实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示,计算候选实体的与目标实体的时间四元组可信度评分函数,根据候选实体的与目标实体的时间四元组可信度评分函数补全图谱。
具体地,所述的初始化实体嵌入特征、关系嵌入特征和时间嵌入特征,包括以下步骤:
步骤101,将实体嵌入特征建模为d维复数,并使用标准正态分布对实体嵌入特征进行初始化;具体而言,对于每个实体,使用一个2×d维向量来表示嵌入特征,其中,前d维表示实部,后d维表示虚部,即:
;
其中,和分别表示第i个实体的实部和虚部,表示d维复数空间,有N个实体,则实体嵌入特征矩阵的大小为N×2d,表达式为:;
使用标准正态分布对进行初始化,表达式为:;
其中,表示实体嵌入特征矩阵中第i个实体的第j个嵌入特征;
将实体嵌入特征矩阵拆分为实部和虚部两个矩阵,表达式为:
;
;
其中,表示实体嵌入特征矩阵的实部矩阵,表示实体嵌入特征矩阵的虚部矩阵;
步骤102,关系嵌入特征初始化;将关系嵌入特征建模为d维复数,并使用标准正态分布对关系嵌入特征进行初始化;具体而言,对于每个关系,使用一个2×d维向量来表示嵌入特征,其中前d维表示实部,后d维表示虚部,即:;
其中,和分别表示第i个关系的实部和虚部,有M个关系,则关系嵌入特征矩阵R的大小为M×2d,表达式为:;
使用标准正态分布对进行初始化,表达式为:;
其中,表示关系嵌入特征矩阵R中第i个关系的第j个嵌入特征;
将关系嵌入特征矩阵R拆分为实部和虚部两个矩阵,表达式为:
;
;
其中,表示关系嵌入特征矩阵R的实部矩阵,表示关系嵌入特征矩阵的虚部矩阵;
步骤103,时间嵌入特征初始化;将时间嵌入特征建模为d维复数,并使用标准正态分布对其进行初始化;具体而言,对于每个时间,使用一个2×d维向量来表示嵌入特征,其中前d维表示实部,后d维表示虚部,表达式为:
;
其中,和分别表示第i个时间的实部和虚部,有L个时间,则时间嵌入特征矩阵T的大小为L×2d,表达式为:;
使用标准正态分布对T进行初始化,表达式为:;
其中,表示时间嵌入特征矩阵T中第i个时间的第j个嵌入特征;
将时间嵌入矩阵T拆分为实部和虚部两个矩阵,即:
;
;
其中,表示时间嵌入特征矩阵T的实部矩阵,表示时间嵌入特征矩阵T的虚部矩阵。
所述的构建时间四元组可信度评分函数,计算时间四元组可信度损失函数,包含以下步骤:
对于时间四元组,其中是关系主体,是关系客体,是关系,是时间;时间四元组对应的嵌入特征四元组表示为,和分别为和的嵌入特征,为关系的嵌入特征,为时间的嵌入特征,时间四元组的可信度评分函数为函数,即:
;
其中,是的共轭复数;
从时序知识图谱中采样出个时间四元组作为正样本的子集,随机构造出个时间四元组作为负样本的集合,计算时间四元组可信度损失函数,表达式如下:
;
其中,和是超参数。
具体地,所述的构建时间关系感知模块,计算时间关系感知损失函数,包含如下步骤:
从时序知识图谱中采样出个时间四元组,第个时间四元组的时间表示为,对应的嵌入特征表示为,第个时间四元组的时间表示为,对应的嵌入特征表示为,根据和的时间跨度,将时间关系分为5类,并打上时间关系标签,具体分类方式为:
对于两个时间点和,将时间关系分为以下五类:
第一类:,此时,,;
第二类:此时,,;
第三类:,此时,,;
第四类:,此时,,;
第五类:,此时,,;
其中,、和是根据具体的时序知识图谱预先设定的时间阈值,用于确定不同时间跨度范围的时间关系,时间关系标签是5维向量,是时间关系标签第k个元素的值;
时间关系感知模块用于判断时间点和的时间关系,表达式为:
;
其中,、、和是可学习的参数,和是激活函数,表示预测的时间点和的时间关系;
计算时间关系感知损失函数,表达式为:
;
其中,表示时间关系标签第k个元素的值,表示预测的时间关系第k个元素的值,对从时序知识图谱中采样出的个时间四元组两两计算时间关系感知损失函数,取平均得到最终的时间关系感知损失函数:;
其中,为最终的时间关系感知损失函数,该损失函数的值越小,意味着从时序知识图谱中采样出个时间四元组对应的个时间特征嵌入越发具有时间关系感知的能力。
具体地,所述的对时间四元组可信度损失函数和时间关系感知损失函数计算联合损失函数,采用联合损失函数来优化实体、关系和时间的嵌入特征表示,包括以下步骤:
从时序知识图谱中随机选择一批时间四元组作为训练样本,计算时间四元组可信度损失函数和时间关系感知损失函数,将这两个损失函数进行加权求和,得到联合损失函数,表达式为:;
其中,超参数和用于平衡两个损失函数的影响;
对联合损失函数进行优化,表达式如下:
;
;
;
;
其中,和分别表示当前时刻t的梯度的一阶矩估计和二阶矩估计,和分别表示上一时刻t-1的梯度的一阶矩估计和二阶矩估计,和是衰减率超参数,是当前时刻t的梯度,和分别是一阶矩估计和二阶矩估计的偏差修正项,是的t次幂,是的t次幂,是学习率,是为了防止除以0而添加的小常数,是当前时刻t的模型参数,是是下一时刻t+1的模型参数。
具体地,设计规则获得目标实体和候选实体,包括以下步骤:
步骤501,从时序知识图谱中随机采样出一个目标实体;
步骤502,从时序知识图谱的目标实体的两跳邻居节点中随机选取个候选实体,的计算公式为:;
其中,表示目标实体的两跳邻居节点的总数,是设定的超参数,用于避免候选实体数过多导致的计算量过大。
具体地,所述的根据优化后的实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示,计算候选实体的与目标实体的时间四元组可信度评分函数,根据候选实体的与目标实体的时间四元组可信度评分函数补全图谱,包括以下步骤:
目标实体的候选实体集合表示为,其中表示候选实体的集合,表示第i个候选实体,第i个候选实体的嵌入特征为;
步骤601,计算目标实体和其中一个候选实体的存在边的可信度;
目标实体的嵌入特征为;
计算时间四元组的可信度,表达式如下:
;
其中,表示时间四元组的可信度,表示目标实体的嵌入特征,表示第i个候选实体的嵌入特征,表示关系r的嵌入特征,表示时间t的嵌入特征,关系r从时序知识图谱中所有关系的集合随机采样得到,时间t从时序图谱中所有时间的集合随机采样得到;
步骤602,若大于设定的阈值,则认为这个时间四元组是存在的,则在目标实体和第i个候选实体之间加上一条关系为r,时间为t的边;
对目标实体的候选实体集合中的每个候选实体都进行步骤601和步骤602,补全目标实体的缺失的关系。
与现有方法相比,本发明方法的优点在于:本技术提供了,基于时间关系感知的时序知识图谱补全方法。本方法创新性提出了时间关系感知模块及时间关系损失函数,能够建模出更具时间关系判别性的特征。
附图说明
图1示出了本发明实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
科学合作网络是指由科学家、研究机构、学术组织等形成的相互合作和交流的网络结构。这种网络通常基于共同的科学研究兴趣、专业领域或项目目标而建立,旨在促进科学家之间的合作、知识共享和创新,其往往采用时序知识图谱的形式表示。时序知识图谱是一种基于图结构的数据模型,用于表示实体之间的关联关系。在科学合作网络中,科学家、研究机构、学术组织等可以被看作是实体,而他们之间的合作关系、研究领域、发表的论文等可以被看作是关系,且这些关系是天然带有时间属性的。由于多数学术会议,学术期刊是相互独立的,它们之间的信息是不互通的,所以往往构建出的科学合作网络是不完善的,存在很多网络中没有体现出的关系。
本实施例中,假设我们已有一个不完善的科学合作网络,该科学合作网络用时序知识图谱的方式表示。我们想要用图谱补全的技术对该科学合作网络进行完善,这个过程可以用到我们提出的基于时间关系感知的时序知识图谱补全方法。
由此,如图1所示,基于时间关系感知的时序知识图谱补全方法,所述方法包括:
步骤1,初始化实体嵌入特征、关系嵌入特征和时间嵌入特征;
步骤2,构建时间四元组可信度评分函数,计算时间四元组可信度损失函数;
步骤3,构建时间关系感知模块,计算时间关系感知损失函数;
步骤4,对时间四元组可信度损失函数和时间关系感知损失函数计算联合损失函数,采用联合损失函数来优化实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示;
步骤5,设计规则获得目标实体和候选实体;
步骤6,根据优化后的实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示,计算候选实体的与目标实体的时间四元组可信度评分函数,根据候选实体的与目标实体的时间四元组可信度评分函数补全图谱。
时序知识图谱是一种将时间与知识关系结合起来的知识表示形式。它扩展了传统的静态知识图谱,将时间维度纳入考虑,以便更好地描述事实、事件和知识的演化过程。
时序知识图谱的特点是在图谱中引入时间属性,以记录实体之间的关系在时间上的变化。这种时间属性可以是日期、时间戳或时间区间,用于指示实体之间关系的发生、持续或终止时间。通过时序知识图谱,我们可以对知识的演化过程进行建模和分析,从而更好地理解事件的发展和历史变迁。
具体地,所述的初始化实体嵌入特征、关系嵌入特征和时间嵌入特征,包括以下步骤:
步骤101,将实体嵌入特征建模为d维复数,并使用标准正态分布对实体嵌入特征进行初始化;具体而言,对于每个实体,使用一个2×d维向量来表示嵌入特征,其中,前d维表示实部,后d维表示虚部,即:
;
其中,和分别表示第i个实体的实部和虚部,表示d维复数空间,有N个实体,则实体嵌入特征矩阵的大小为N×2d,表达式为:;
使用标准正态分布对进行初始化,表达式为:;
其中,表示实体嵌入特征矩阵中第i个实体的第j个嵌入特征;
将实体嵌入特征矩阵拆分为实部和虚部两个矩阵,表达式为:
;
;
其中,表示实体嵌入特征矩阵的实部矩阵,表示实体嵌入特征矩阵的虚部矩阵;
步骤102,关系嵌入特征初始化;将关系嵌入特征建模为d维复数,并使用标准正态分布对关系嵌入特征进行初始化;具体而言,对于每个关系,使用一个2×d维向量来表示嵌入特征,其中前d维表示实部,后d维表示虚部,即:;
其中,和分别表示第i个关系的实部和虚部,有M个关系,则关系嵌入特征矩阵R的大小为M×2d,表达式为:;
使用标准正态分布对进行初始化,表达式为:;
其中,表示关系嵌入特征矩阵R中第i个关系的第j个嵌入特征;
将关系嵌入特征矩阵R拆分为实部和虚部两个矩阵,表达式为:
;
;
其中,表示关系嵌入特征矩阵R的实部矩阵,表示关系嵌入特征矩阵的虚部矩阵;
步骤103,时间嵌入特征初始化;将时间嵌入特征建模为d维复数,并使用标准正态分布对其进行初始化;具体而言,对于每个时间,使用一个2×d维向量来表示嵌入特征,其中前d维表示实部,后d维表示虚部,表达式为:;
其中,和分别表示第i个时间的实部和虚部,有L个时间,则时间嵌入特征矩阵T的大小为L×2d,表达式为:;
使用标准正态分布对T进行初始化,表达式为:;
其中,表示时间嵌入特征矩阵T中第i个时间的第j个嵌入特征;
将时间嵌入矩阵T拆分为实部和虚部两个矩阵,即:
;
;
其中,表示时间嵌入特征矩阵T的实部矩阵,表示时间嵌入特征矩阵T的虚部矩阵。
具体地,所述的构建时间四元组可信度评分函数,计算时间四元组可信度损失函数,包含以下步骤:
对于时间四元组,其中是关系主体,是关系客体,是关系,是时间;时间四元组对应的嵌入特征四元组表示为,和分别为和的嵌入特征,为关系的嵌入特征,为时间的嵌入特征,时间四元组的可信度评分函数为函数,即:
;
其中,是的共轭复数;
从时序知识图谱中采样出个时间四元组作为正样本的子集,随机构造出个时间四元组作为负样本的集合,计算时间四元组可信度损失函数,表达式如下:;
其中,和是超参数。
具体地,所述的构建时间关系感知模块,计算时间关系感知损失函数,包含如下步骤:
从时序知识图谱中采样出个时间四元组,第个时间四元组的时间表示为,对应的嵌入特征表示为,第个时间四元组的时间表示为,对应的嵌入特征表示为,根据和的时间跨度,将时间关系分为5类,并打上时间关系标签,具体分类方式为:
对于两个时间点和,将时间关系分为以下五类:
第一类:,此时,,;
第二类:此时,,;
第三类:,此时,,;
第四类:,此时,,;
第五类:,此时,,;
其中,、和是根据具体的时序知识图谱预先设定的时间阈值,用于确定不同时间跨度范围的时间关系,时间关系标签是5维向量,是时间关系标签第k个元素的值;
时间关系感知模块用于判断时间点和的时间关系,表达式为:
;
其中,、、和是可学习的参数,和是激活函数,表示预测的时间点和的时间关系;
计算时间关系感知损失函数,表达式为:
;
其中,表示时间关系标签第k个元素的值,表示预测的时间关系第k个元素的值,对从时序知识图谱中采样出的个时间四元组两两计算时间关系感知损失函数,取平均得到最终的时间关系感知损失函数:;
其中,为最终的时间关系感知损失函数,该损失函数的值越小,意味着从时序知识图谱中采样出个时间四元组对应的个时间特征嵌入越发具有时间关系感知的能力。
具体地,所述的对时间四元组可信度损失函数和时间关系感知损失函数计算联合损失函数,采用联合损失函数来优化实体、关系和时间的嵌入特征表示,包括以下步骤:
从时序知识图谱中随机选择一批时间四元组作为训练样本,计算时间四元组可信度损失函数和时间关系感知损失函数,将这两个损失函数进行加权求和,得到联合损失函数,表达式为:
;
其中,超参数和用于平衡两个损失函数的影响;
对联合损失进行优化本质上是基于多任务学习的思想,多任务学习(Multi-TaskLearning)是一种机器学习方法,旨在通过同时学习多个相关任务来改善模型的性能。传统的机器学习方法通常针对单个任务进行建模和训练,而多任务学习则通过在一个模型中联合学习多个任务,共享底层表示和参数,以实现任务之间的相互促进和信息共享。
多任务学习的核心思想是利用不同任务之间的相关性和共享结构来提高模型的泛化能力和效果。通过将多个相关任务的数据输入到一个共享的模型中,模型可以学习到通用的特征表示,这些特征对于各个任务都有用。共享的底层表示可以捕捉任务之间的共性和关联,从而提高模型的泛化能力和学习效率。
对联合损失函数进行优化,表达式如下:
;
;
;
;
其中,和分别表示当前时刻t的梯度的一阶矩估计和二阶矩估计,和分别表示上一时刻t-1的梯度的一阶矩估计和二阶矩估计,和是衰减率超参数,是当前时刻t的梯度,和分别是一阶矩估计和二阶矩估计的偏差修正项,是的t次幂,是的t次幂,是学习率,是为了防止除以0而添加的小常数,是当前时刻t的模型参数,是是下一时刻t+1的模型参数。
具体地,所述的设计规则获得目标实体和候选实体,包括以下步骤:
步骤501,从时序知识图谱中随机采样出一个目标实体;
步骤502,从时序知识图谱的目标实体的两跳邻居节点中随机选取个候选实体,的计算公式为:
;
其中,表示目标实体的两跳邻居节点的总数,是设定的超参数,用于避免候选实体数过多导致的计算量过大。
更进一步地,所述的根据优化后的实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示,计算候选实体的与目标实体的时间四元组可信度评分函数,根据候选实体的与目标实体的时间四元组可信度评分函数补全图谱,包括以下步骤:
步骤601,计算目标实体和其中一个候选实体的存在边的可信度;
目标实体的嵌入特征为;
目标实体的候选实体集合,其中表示候选实体的集合,表示第i个候选实体,第i个候选实体的嵌入特征为;
计算时间四元组的可信度,表达式如下:
;
其中,表示时间四元组的可信度,表示目标实体的嵌入特征,表示第i个候选实体的嵌入特征,表示关系r的嵌入特征,表示时间t的嵌入特征,关系r从时序知识图谱中所有关系的集合随机采样得到,时间t从时序图谱中所有时间的集合随机采样得到;
步骤602,若大于设定的阈值,则认为这个时间四元组是存在的,则在目标实体和第i个候选实体之间加上一条关系为r,时间为t的边;
对目标实体的候选实体集合中的每个候选实体都进行步骤601和步骤602,补全目标实体的缺失的关系。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (7)
1.基于时间关系感知的时序知识图谱补全方法,其特征在于,所述方法包括:
步骤1,初始化实体嵌入特征、关系嵌入特征和时间嵌入特征;
步骤2,构建时间四元组可信度评分函数,计算时间四元组可信度损失函数;
步骤3,构建时间关系感知模块,计算时间关系感知损失函数;
步骤4,对时间四元组可信度损失函数和时间关系感知损失函数计算联合损失函数,采用联合损失函数来优化实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示;
步骤5,设计规则获得目标实体和候选实体;
步骤6,根据优化后的实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示,计算候选实体的与目标实体的时间四元组可信度评分函数,根据候选实体的与目标实体的时间四元组可信度评分函数补全图谱。
2.根据权利要求1所述的基于时间关系感知的时序知识图谱补全方法,其特征在于,所述的初始化实体嵌入特征、关系嵌入特征和时间嵌入特征,包括以下步骤:
步骤101,将实体嵌入特征建模为d维复数,并使用标准正态分布对实体嵌入特征进行初始化;具体而言,对于每个实体,使用一个2×d维向量来表示嵌入特征,其中,前d维表示实部,后d维表示虚部,即:
;
其中,和分别表示第i个实体的实部和虚部,表示d维复数空间,有N个实体,则实体嵌入特征矩阵的大小为N×2d,表达式为:
;
使用标准正态分布对进行初始化,表达式为:
;
其中,表示实体嵌入特征矩阵中第i个实体的第j个嵌入特征;
将实体嵌入特征矩阵拆分为实部和虚部两个矩阵,表达式为:
;
;
其中,表示实体嵌入特征矩阵的实部矩阵,表示实体嵌入特征矩阵的虚部矩阵;
步骤102,关系嵌入特征初始化;将关系嵌入特征建模为d维复数,并使用标准正态分布对关系嵌入特征进行初始化;具体而言,对于每个关系,使用一个2×d维向量来表示嵌入特征,其中前d维表示实部,后d维表示虚部,即:;
其中,和分别表示第i个关系的实部和虚部,有M个关系,则关系嵌入特征矩阵R的大小为M×2d,表达式为:
;
使用标准正态分布对进行初始化,表达式为:
;
其中,表示关系嵌入特征矩阵R中第i个关系的第j个嵌入特征;
将关系嵌入特征矩阵R拆分为实部和虚部两个矩阵,表达式为:
;
;
其中,表示关系嵌入特征矩阵R的实部矩阵,表示关系嵌入特征矩阵的虚部矩阵;
步骤103,时间嵌入特征初始化;将时间嵌入特征建模为d维复数,并使用标准正态分布对其进行初始化;具体而言,对于每个时间,使用一个2×d维向量来表示嵌入特征,其中前d维表示实部,后d维表示虚部,表达式为:
;
其中,和分别表示第i个时间的实部和虚部,有L个时间,则时间嵌入特征矩阵T的大小为L×2d,表达式为:;
使用标准正态分布对T进行初始化,表达式为:;
其中,表示时间嵌入特征矩阵T中第i个时间的第j个嵌入特征;
将时间嵌入矩阵T拆分为实部和虚部两个矩阵,即:
;
;
其中,表示时间嵌入特征矩阵T的实部矩阵,表示时间嵌入特征矩阵T的虚部矩阵。
3.根据权利要求2所述的基于时间关系感知的时序知识图谱补全方法,其特征在于,所述的构建时间四元组可信度评分函数,计算时间四元组可信度损失函数,包含以下步骤:
对于时间四元组,其中是关系主体,是关系客体,是关系,是时间;时间四元组对应的嵌入特征四元组表示为,和分别为和的嵌入特征,为关系的嵌入特征,为时间的嵌入特征,时间四元组的可信度评分函数为函数,即:
;
其中,是的共轭复数;
从时序知识图谱中采样出个时间四元组作为正样本的子集,随机构造出个时间四元组作为负样本的集合,计算时间四元组可信度损失函数,表达式如下:
;
其中,和是超参数。
4.根据权利要求3所述的基于时间关系感知的时序知识图谱补全方法,其特征在于,所述的构建时间关系感知模块,计算时间关系感知损失函数,包含如下步骤:
从时序知识图谱中采样出个时间四元组,第个时间四元组的时间表示为,对应的嵌入特征表示为,第个时间四元组的时间表示为,对应的嵌入特征表示为,根据和的时间跨度,将时间关系分为5类,并打上时间关系标签,具体分类方式为:
对于两个时间点和,将时间关系分为以下五类:
第一类:,此时,,;
第二类:此时,,;
第三类:,此时,,;
第四类:,此时,,;
第五类:,此时,,;
其中,、和是根据具体的时序知识图谱预先设定的时间阈值,用于确定不同时间跨度范围的时间关系,时间关系标签是5维向量,是时间关系标签第k个元素的值;
时间关系感知模块用于判断时间点和的时间关系,表达式为:
;
其中,、、和是可学习的参数,和是激活函数,表示预测的时间点和的时间关系;
计算时间关系感知损失函数,表达式为:
;
其中,表示时间关系标签第k个元素的值,表示预测的时间关系第k个元素的值,对从时序知识图谱中采样出的个时间四元组两两计算时间关系感知损失函数,取平均得到最终的时间关系感知损失函数:
;
其中,为最终的时间关系感知损失函数,该损失函数的值越小,意味着从时序知识图谱中采样出个时间四元组对应的个时间特征嵌入越发具有时间关系感知的能力。
5.根据权利要求4所述的基于时间关系感知的时序知识图谱补全方法,其特征在于,所述的对时间四元组可信度损失函数和时间关系感知损失函数计算联合损失函数,采用联合损失函数来优化实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示,包括以下步骤:
从时序知识图谱中随机选择一批时间四元组作为训练样本,计算时间四元组可信度损失函数和时间关系感知损失函数,将这两个损失函数进行加权求和,得到联合损失函数,表达式为:;
其中,超参数和用于平衡两个损失函数的影响;
对联合损失函数进行优化,表达式如下:
;
;
;
;
其中,和分别表示当前时刻t的梯度的一阶矩估计和二阶矩估计,和分别表示上一时刻t-1的梯度的一阶矩估计和二阶矩估计,和是衰减率超参数,是当前时刻t的梯度,和分别是一阶矩估计和二阶矩估计的偏差修正项,是的t次幂,是的t次幂,是学习率,是为了防止除以0而添加的小常数,是当前时刻t的模型参数,是是下一时刻t+1的模型参数。
6.根据权利要求5所述的基于时间关系感知的时序知识图谱补全方法,其特征在于,所述的设计规则获得目标实体和候选实体,包括以下步骤:
步骤501,从时序知识图谱中随机采样出一个目标实体;
步骤502,从时序知识图谱的目标实体的两跳邻居节点中随机选取个候选实体,的计算公式为:
;
其中,表示目标实体的两跳邻居节点的总数,是设定的超参数,用于避免候选实体数过多导致的计算量过大。
7.根据权利要求6所述的基于时间关系感知的时序知识图谱补全方法,其特征在于,所述的根据优化后的实体的嵌入特征表示、关系的嵌入特征表示和时间的嵌入特征表示,计算候选实体的与目标实体的时间四元组可信度评分函数,根据候选实体的与目标实体的时间四元组可信度评分函数补全图谱,包括以下步骤:
目标实体的候选实体集合表示为,其中表示候选实体的集合,表示第i个候选实体,第i个候选实体的嵌入特征为;
步骤601,计算目标实体和其中一个候选实体的存在边的可信度;
目标实体的嵌入特征为;
计算时间四元组的可信度,表达式如下:
;
其中,表示时间四元组的可信度,表示目标实体的嵌入特征,表示第i个候选实体的嵌入特征,表示关系r的嵌入特征,表示时间t的嵌入特征,关系r从时序知识图谱中所有关系的集合随机采样得到,时间t从时序图谱中所有时间的集合随机采样得到;
步骤602,若大于设定的阈值,则认为这个时间四元组是存在的,则在目标实体和第i个候选实体之间加上一条关系为r,时间为t的边;
对目标实体的候选实体集合中的每个候选实体都进行步骤601和步骤602,补全目标实体的缺失的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311334014.2A CN117093727B (zh) | 2023-10-16 | 2023-10-16 | 基于时间关系感知的时序知识图谱补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311334014.2A CN117093727B (zh) | 2023-10-16 | 2023-10-16 | 基于时间关系感知的时序知识图谱补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117093727A true CN117093727A (zh) | 2023-11-21 |
CN117093727B CN117093727B (zh) | 2024-01-05 |
Family
ID=88781443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311334014.2A Active CN117093727B (zh) | 2023-10-16 | 2023-10-16 | 基于时间关系感知的时序知识图谱补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093727B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111904470A (zh) * | 2020-08-24 | 2020-11-10 | 西北工业大学 | 医学超声诊查过程的动态可解释推理辅助诊断方法 |
US20200364619A1 (en) * | 2019-05-16 | 2020-11-19 | Royal Bank Of Canada | System and method for diachronic machine learning architecture |
CN112231469A (zh) * | 2020-10-16 | 2021-01-15 | 福州大学 | 一种3drte时间知识图谱的三维旋转嵌入方法 |
CN112559757A (zh) * | 2020-11-12 | 2021-03-26 | 中国人民解放军国防科技大学 | 一种时序知识图谱补全的方法及系统 |
CN114756687A (zh) * | 2022-03-30 | 2022-07-15 | 同济大学 | 基于自学习实体关系联合抽取的钢铁产线设备诊断方法 |
CN115033662A (zh) * | 2022-06-10 | 2022-09-09 | 华中科技大学 | 一种分布式注意的时序知识图谱推理方法 |
CN115186819A (zh) * | 2022-06-22 | 2022-10-14 | 电子科技大学 | 一种结合子图结构和关系类型的知识图谱补全方法 |
CN115391553A (zh) * | 2022-08-23 | 2022-11-25 | 西北工业大学 | 一种自动搜索时序知识图谱补全模型的方法 |
CN116108188A (zh) * | 2022-07-18 | 2023-05-12 | 北京工商大学 | 一种基于门控循环神经网络的时间知识图谱补全方法及系统 |
CN116340524A (zh) * | 2022-11-11 | 2023-06-27 | 华东师范大学 | 一种基于关系自适应网络的小样本时态知识图谱补全方法 |
WO2023115761A1 (zh) * | 2021-12-20 | 2023-06-29 | 北京邮电大学 | 基于时序知识图谱的事件检测方法和装置 |
CN116450850A (zh) * | 2023-04-17 | 2023-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于序列编码器的时空知识图谱补全方法 |
CN116628212A (zh) * | 2022-11-25 | 2023-08-22 | 云南大学 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
-
2023
- 2023-10-16 CN CN202311334014.2A patent/CN117093727B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364619A1 (en) * | 2019-05-16 | 2020-11-19 | Royal Bank Of Canada | System and method for diachronic machine learning architecture |
CN111904470A (zh) * | 2020-08-24 | 2020-11-10 | 西北工业大学 | 医学超声诊查过程的动态可解释推理辅助诊断方法 |
CN112231469A (zh) * | 2020-10-16 | 2021-01-15 | 福州大学 | 一种3drte时间知识图谱的三维旋转嵌入方法 |
CN112559757A (zh) * | 2020-11-12 | 2021-03-26 | 中国人民解放军国防科技大学 | 一种时序知识图谱补全的方法及系统 |
WO2023115761A1 (zh) * | 2021-12-20 | 2023-06-29 | 北京邮电大学 | 基于时序知识图谱的事件检测方法和装置 |
CN114756687A (zh) * | 2022-03-30 | 2022-07-15 | 同济大学 | 基于自学习实体关系联合抽取的钢铁产线设备诊断方法 |
CN115033662A (zh) * | 2022-06-10 | 2022-09-09 | 华中科技大学 | 一种分布式注意的时序知识图谱推理方法 |
CN115186819A (zh) * | 2022-06-22 | 2022-10-14 | 电子科技大学 | 一种结合子图结构和关系类型的知识图谱补全方法 |
CN116108188A (zh) * | 2022-07-18 | 2023-05-12 | 北京工商大学 | 一种基于门控循环神经网络的时间知识图谱补全方法及系统 |
CN115391553A (zh) * | 2022-08-23 | 2022-11-25 | 西北工业大学 | 一种自动搜索时序知识图谱补全模型的方法 |
CN116340524A (zh) * | 2022-11-11 | 2023-06-27 | 华东师范大学 | 一种基于关系自适应网络的小样本时态知识图谱补全方法 |
CN116628212A (zh) * | 2022-11-25 | 2023-08-22 | 云南大学 | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 |
CN116450850A (zh) * | 2023-04-17 | 2023-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于序列编码器的时空知识图谱补全方法 |
Non-Patent Citations (1)
Title |
---|
崔员宁;李静;沈力;申扬;乔林;薄珏;: "Duration-HyTE:基于持续时间建模的时间感知知识表示学习方法", 计算机研究与发展, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN117093727B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918511B (zh) | 一种基于bfs和lpa的知识图谱反欺诈特征提取方法 | |
CN112287126B (zh) | 一种适于多模态知识图谱的实体对齐方法及设备 | |
CN110059157A (zh) | 一种图文跨模态检索方法、系统、装置和存储介质 | |
US20120314941A1 (en) | Accurate text classification through selective use of image data | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN114240539B (zh) | 一种基于Tucker分解和知识图谱的商品推荐方法 | |
CN112348269A (zh) | 一种融合图结构的时间序列预测建模方法 | |
CN114491082A (zh) | 基于网络安全应急响应知识图谱特征提取的预案匹配方法 | |
CN115982480A (zh) | 基于协同注意力网络和对比学习的序列推荐方法及系统 | |
CN112597399B (zh) | 图数据处理方法、装置、计算机设备和存储介质 | |
CN117893807A (zh) | 基于知识蒸馏的联邦自监督对比学习图像分类系统及方法 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN117350845A (zh) | 基于级联超图神经网络的企业信用风险评估方法 | |
CN117093727B (zh) | 基于时间关系感知的时序知识图谱补全方法 | |
CN116166977A (zh) | 一种基于时序图神经网络的物联网服务聚类方法 | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
CN106816871B (zh) | 一种电力系统状态相似性分析方法 | |
CN111913997A (zh) | 一种基于人工智能的用户画像系统的实现方法 | |
Zhu et al. | [Retracted] Construction of Digital Economy Trade Security Evaluation System Based on Computational Intelligence | |
Lourens et al. | Critically Analyzing the Nature of Deep Learning, The Way, It is Adopted in Organizational Developments | |
CN117407496A (zh) | 基于时间关系表示的知识问答方法 | |
CN116562359B (zh) | 基于对比学习的ctr预测模型训练方法、装置及电子设备 | |
Zhu et al. | Application of 5G internet of things in the construction of enterprise management accounting information system | |
CN117390090B (zh) | 一种rpa流程挖掘方法、存储介质、电子设备 | |
CN114625871B (zh) | 一种基于注意力位置联合编码的三元组分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |