CN112905807A - 一种多源时空知识融合方法 - Google Patents

一种多源时空知识融合方法 Download PDF

Info

Publication number
CN112905807A
CN112905807A CN202110320156.8A CN202110320156A CN112905807A CN 112905807 A CN112905807 A CN 112905807A CN 202110320156 A CN202110320156 A CN 202110320156A CN 112905807 A CN112905807 A CN 112905807A
Authority
CN
China
Prior art keywords
time
space
knowledge
entity
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110320156.8A
Other languages
English (en)
Other versions
CN112905807B (zh
Inventor
胡铮
朱新宁
张晓晗
张春红
唐晓晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110320156.8A priority Critical patent/CN112905807B/zh
Publication of CN112905807A publication Critical patent/CN112905807A/zh
Application granted granted Critical
Publication of CN112905807B publication Critical patent/CN112905807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多源时空知识融合方法,属于知识图谱领域。具体为:首先,选取两种时空精度和采样率都有较大差异的异质时空数据源,分别进行预处理,得到各自对应的时空轨迹序列;并分别构建各自对应的时空知识图谱;接着、利用基于衰减机制的长路径的知识图表示算法对时空知识图谱中的三元组分别进行训练学习,得到每个实体对应的最终低维向量;依次选择第二种时空知识图谱中的未对齐实体S,经过变换函数后与第一种时空知识图谱中的所有实体逐一进行相似度对比,选择相似度最高的实体进行实体对的匹配;最后,按照所有实体对齐的结果,对两种不同的时空数据源进行时空知识的融合;本发明有效的弥补了单一时空数据源中时空知识的不完整性。

Description

一种多源时空知识融合方法
技术领域
本发明涉及知识图谱领域,具体是一种多源时空知识融合方法。
背景技术
知识融合的目的是将不同来源的知识进行整合,从而使知识驱动的应用程序受益;多源数据融合可以修正单源知识的不确定性,借助知识图谱进行知识融合是一个很好的解决办法。知识图谱已经成为以知识为驱动的各类应用的重要资源,如搜索引擎、问答以及推荐系统。知识图谱结构化地存储了大量现实世界中的事实;其中,每个事实都以三元组(h,r,t)来描述,其中h,r,t分别表示头实体、尾实体以及它们之间的关系。
但由于不同知识图谱中知识来源的多样性和知识结构的异构性,已有的知识图谱往往存在着以下问题:(1)不同知识图谱间存在很多知识重复或补充;(2)单一知识图谱的质量低、信息覆盖度低、知识描述不完全;在融合不同知识图谱中的知识时,实体表示和实体对齐技术是首要的关键技术。
目前已有的知识图嵌入模型可以分为两类:基于翻译的模型和基于路径推理的模型;
基于翻译的模型将关系作为从头实体向量到尾实体向量的平移向量,期望知识图中每一个三元组(h,r,t)满足h+r≈t。为了解决多跳推理问题,在嵌入模型的基础上引入了路径推理算法,它将实体间的多步关系路径表示为低维向量空间中的向量,从而将两种方法相结合,在嵌入模型的基础上考虑了关系路径的隐含信息,极大地提高了知识推理的效果。
实体对齐,致力于将两个不同知识图谱中指称相同的实体链接起来。如文献1:《Ajoint embedding method for entity alignment of knowledge bases》将不同的知识图联合嵌入到一个统一的向量空间中,以对齐知识图中的实体。文献2:《Multilingualknowledge graph embeddings for cross-lingual knowledge alignment》学习转换,将每个实体的嵌入向量转换为另一个空间中的对应向量,还有一些工作通过实体的属性来帮助实体进行对齐工作。
对于实体表示技术,文献3:CN 106909622 A提出了一种基于路径的知识图谱嵌入方法,包括以下步骤:将知识图谱中的实体对、关系和实体对之间的多步关系路径表示为初始低维向量;利用损失函数训练实体对、关系和实体对之间的多步关系路径的低维向量表示的模型。
文献4:CN 110188206 A公开了一种基于翻译模型的协同迭代联合实体对齐方法及装置,该方法包括:在嵌入实体后,通过协同迭代训练模块选取语义距离最小的一对实体组成实体对,将满足预设距离阈值的实体对添加到实体对齐种子集,对实体对齐种子集进行更新;迭代直至不存在满足预设距离阈值的实体对。
目前的技术方案存在以下问题:
1)、目前的知识图谱融合都是针对跨语言标准的三元组数据,基于轨迹构建的时空顺序知识图谱几乎没有。所以现有基于文本相似度,属性相似度的实体对齐技术并不适用于时空知识图谱。
2)、目前基于路径的实体表示大多采用随机游走的方式来生成,导致路径信息不准确。同时简单地组合关系向量来构造多跳路径向量,不利于嵌入更长的关系路径;并且关系路径中所有位置具有同等地位是不合适的,距离尾实体越近的关系应该具有更高的影响因子。
3)、目前的实体对齐方案在衡量实体对相似度时只考虑实体本身,并没有考虑实体的邻居,忽略上下文信息的作用。
大规模知识库在智能搜索、问答和推荐等各种应用中具有重要意义。多源知识融合的目标是集成来自不同来源的知识,来纠正单个来源知识的不确定性和信息覆盖率低的缺点。
时间和空间信息对于城市计算、旅游规划、移动网络资源管理等领域的各种应用是非常重要的。通过将这些信息合并到知识图中,可以有效帮助事件的重建和分析。如文献5:Gottschalk S,Demidova E.EventKG-the Hub of Event Knowledge on the Web-andBiographical Timeline Generation.In:Semantic Web.(2019)提出了时间知识图的概念,即通过时间关系将实体和事件连接起来。同时文献6:Wang P,Liu K,et al.:Incremental Mobile User Profiling:Reinforcement Learning with SpatialKnowledge Graph for Modeling Event Streams.In:KDD.(2020)中也提到了空间知识图的概念来表示空间实体之间的语义关联。
然而对于不同来源的时空知识,它们的时间和空间信息往往缺少或不完整,这限制了时空知识的使用。比方说,时空数据源(游记)由用户自己撰写,其包含丰富的空间语义信息,但往往缺乏空间之间的转换时间信息。与此同时,时空数据源(手机呼叫数据)拥有丰富的时间信息,但缺乏空间的语义信息。
发明内容
基于上述基础和问题,本发明通过时空知识图谱来建模人类轨迹中包含的多源时空知识,提出了一种多源时空知识融合方法,用于合并和对齐在多个来源传播的时空信息,通过时空知识图谱构建,知识图表示学习以及实体对齐三个部分达到多源时空知识融合的效果。
所述的多源时空知识融合方法,具体步骤如下:
步骤一、选取两种不同的时空数据源分别进行预处理,得到各自对应的时空轨迹序列;
每种时空数据源下至少对应一个用户,每个用户各自对应一个时空轨迹序列;
预处理具体为:
首先,删除无效数据,包括丢失的字段数据、重复的数据和不正确的数据;
然后,利用voronoi图,以及设置距离阈值和速度阈值对漂移数据进行过滤;并采用DECRE算法对乒乓球数据进行处理。
最后,进行停留点识别保留各用户的有效停留地点,将离开停留点的时间作为时间转移关系。
步骤二、针对每种时空数据源,利用预处理后的所有用户的轨迹序列信息,构建两个对应时空数据源的时空知识图谱;
首先,将一天的时间划为7个时间段,分别对应凌晨,清晨,早上,上午,中午,下午和晚上。
然后,针对某时空知识图谱中的用户A,从时空轨迹序列中遍历各个停留点,针对当前停留点a1和下一个停留点a2,将离开该停留点a1并前往下一停留点a2的时间归到划分的时间段中,作为三元组的时间关系;将用户A的当前有效停留地点a1和下一个有效停留地点a2分别作为实体,构造时空知识图中的三元组<实体1,时间关系,实体2>;
下一个有效停留地点a2是用户A自己的停留点或其他用户的有效停留点;从而实现了所有用户之间的时间和空间构建的拓扑图,即时空知识图谱,从中得到一条条实体与实体之间通过时间关系连接的路径。
步骤三、利用知识图表示算法对两种时空数据源进行训练学习,得到实体的最终低维向量表示;
具体为:
步骤301、首先将两个时空知识图谱中的所有实体和时间关系,分别用嵌入向量表示并随机初始化赋值。
步骤302、根据基于衰减机制的长路径的知识图表示算法构建目标函数:
目标函数包括三部分:L=L(G1)+L(G2)+Lal
其中L(G1)是对第一种时空知识图谱进行训练学习的第一目标函数;L(G2)是对第二种时空知识图谱进行训练学习的第二目标函数;Lal表示将两个时空知识图谱中对应的实体进行对齐的第三目标函数;
步骤303、对第一目标函数L(G1)和第二目标函数L(G2),分别使用随机梯度下降法训练两个时空知识图谱中的所有实体和时间关系的嵌入向量,带入通用目标函数中进行学习,使得第一和第二目标函数L(G1)和L(G2)收敛;
通用的目标函数为:
Figure BDA0002992491620000031
(h,r,t)表示时空知识图谱中的三元组<实体1,时间关系,实体2>;G是时空知识图谱中的有效三元组集合;L(h,r,t)为针对三元组设计的基于边际的损失函数;
Figure BDA0002992491620000042
其中,γ1为超参数,E(h,r,t)为三元组(h,r,t)的评分函数,E(h,r,t)=||h+r-t||;G-是时空知识图谱中无效三元组的集合;定义为G-={(h',r,t)}∪{(h,r,t')}∪{(h,r',t)},即将任意原始有效三元组(h,r,t)替换了任一实体或关系,得到的无效三元组(h',r',t')的集合;Z为归一化因子;
P(h,t)表示从实体h到实体t的关系路径p的集合。R(p|h,t)为经典模型PTransE中定义的关系路径p的可靠性;关系路径序列p={r1,...,rl};rl表示从实体h到实体t的路径经过的第l个关系;L(p,r)为针对路径p和直接关系r设计的基于边际的损失函数;
Figure BDA0002992491620000043
其中γ2为超参数,E(p,r)为关系路径的评分函数,定义为E(p,r)=||p-r||;路径表示p依据经过的关系序列p={r1,...,rl},通过迭代的方式来学习,定义如下:初始表示q0=W·[r1:r2],加入衰减因子q1=W·[(α·q0):r3],直到p=ql-2=W·[(α·ql-3):rl]。其中W∈Rd×2d为参数矩阵,d为关系向量的维度。α为衰减因子,用于衡量随着关系路径长度增长,前面关系对最终实体的影响进一步减弱;[a:b]表示两个向量的拼接操作。
步骤304、针对第三目标函数Lal,利用预先设定两时空知识图谱中的对齐实体对,带入Lal中进行学习,直至收敛得到变换函数的参数;
第三目标函数Lal具体是:将预先对齐的实体对和时间关系对分别通过变换函数,将第一种时空知识图谱中的实体和关系向量,分别转换到第二种时空知识图谱对应的向量空间中,并使得实体对和时间关系对尽量接近。
函数Lal定义为
Figure BDA0002992491620000041
其中(e,e')是预先对齐的实体对,分别对应两个时空知识图谱中的实体;Eal是预先对齐的实体对集合;Ral是预先对齐的时间关系对集合;
f1(·)和f2(·)分别为实体和关系向量的变换函数,包括以下四种,根据需要从中选择:
线性变换函数:f1(e)=W1·e,f2(r)=W2·r
加入偏置的线性变换函数:f1(e)=W1·e+b,f2(r)=W2·r+b
基于距离的变换函数:f1(e)=e,f2(r)=r
基于翻译的变换函数:f1(e)=e+b,f2(r)=r+b
其中W1和W2是d×d维的转换矩阵,b是d×1维的偏置,d为实体和关系嵌入向量的维度。
步骤305、当目标函数L的三部分都收敛时,得到两个时空知识图谱中每个实体的最终低维向量;
步骤四、针对两个时空知识图谱的实体最终低维向量,依次选择第二种时空知识图谱中的未对齐实体,将当前未对齐实体S,经过变换函数后与第一种时空知识图谱中的所有实体逐一进行相似度对比,并选择相似度最高的实体与未对齐实体S匹配成实体对;
相似度计算公式为:
discontext(e′,e)=dis(e′,f1(e))+dis(e′in,f1(e))+dis(e′out,f1(e))
e′in为实体e′的上文邻居向量的平均值,e′out为实体e′的下文邻居向量的平均值。
实体e的上文邻居集合,定义为In(e)={ej|(ej,r,e)∈G},下文邻居集合定义为Out(e)={ej|(e,r,ej)∈G}。ej为知识图谱中的满足集合定义的实体。
步骤五、当第二种时空知识图谱中的所有未对齐实体都按照相似度选择好对应的对齐实体对后,按照所有实体对齐的结果,对两种不同的时空数据源进行时空知识的融合。
具体地,将第二时空数据源中的停留点信息替换为对齐的第一时空数据源中的地点信息,得到更多能够探测用户时空行为的时空轨迹序列,达到了融合补充的目的。
本发明的优点在于:
1)、一种多源时空知识融合方法,适用于两种来源的轨迹构建的时空顺序知识图谱的融合,有效的弥补了单一时空数据源中时空知识的不完整性(时间不清晰,地点语义不明确)。
2)、一种多源时空知识融合方法,除了传统的三元组,本发明额外考虑了关系路径的重要性,将迭代表示的长关系路径表示加入到损失函数中,学习其中的推理关系。
3)、一种多源时空知识融合方法,在实体对齐计算相似度部分,充分考虑了实体邻居的作用,加入了上下文信息,更加合理。
附图说明
图1是本发明一种多源时空知识融合方法的流程图;
图2是本发明基于游记数据和CDR(呼叫记录数据)构造的时空知识图谱示意图。
具体实施方式
下面将结合附图和实施示例对本发明作进一步的详细说明。
本发明公开了一种多源时空知识融合方法,首先依托用户轨迹构建基于路径的时空知识图谱,以位置作为实体,位置之间的时间转移作为关系;然后利用时空知识图谱内部的三元组和关系路径信息,使用基于长路径的实体表示学习Long-Path-TransE(LPTransE)方法进行嵌入实体低维向量表示,通过加入实体对齐种子来学习不同知识图谱向量空间的转换向量,依据转换向量和上下文距离,根据实体的上下文信息计算实体对的相似性,对多来源的知识图进行对齐,得到所有的对齐实体,进行多源知识融合。
所述的多源时空知识融合方法,如图1所示,以一种时空数据(CDR呼叫记录数据)为例,具体步骤如下:
步骤一、选取两种不同的时空数据源分别进行预处理,得到各自对应的时空轨迹序列;
每种时空数据源下至少对应一个用户,每个用户各自对应一个时空轨迹序列;
预处理具体为:
首先,删除无效数据,包括丢失的字段数据、重复的数据和不正确的数据;
然后,利用voronoi图,以及设置距离阈值和速度阈值对漂移数据进行过滤;并采用DECRE算法对乒乓球数据进行处理。
最后,进行停留点识别保留各用户的有效停留地点,将离开停留点的时间作为时间转移关系。
步骤二、针对每种时空数据源,利用预处理后的所有用户的轨迹序列信息,分别为两个时空数据源构建基于路径的时空知识图谱。
如图2所示,为基于游记数据和CDR(呼叫记录数据)构造的时空知识图之间的融合示例。
首先,将一天的时间划为7个时间段,分别对应凌晨,清晨,早上,上午,中午,下午和晚上。
然后,针对某时空知识图谱中的用户A,从时空轨迹序列中遍历各个停留点,针对当前停留点a1和下一个停留点a2,将离开该停留点a1并前往下一停留点a2的时间归到划分的时间段中,作为三元组的时间关系;将用户A的当前有效停留地点a1和下一个有效停留地点a2分别作为实体,构造时空知识图中的三元组<实体1,时间关系,实体2>;
下一个有效停留地点a2是用户A自己的停留点或其他用户的有效停留点;从而实现了所有用户之间的时间和空间构建的拓扑图,即时空知识图谱,从中得到一条条实体与实体之间通过时间关系连接的路径。
每一个时间段代表一类关系,以时间段代替具体转移时间,构造时空知识图中的三元组<基站id1,时间转移关系,基站id2>,即实体为代表地点信息的id值,关系为对应的转移时间段。
步骤三、利用基于长路径的知识图表示算法LPTransE对两种时空数据源同时进行训练学习,得到实体的最终低维向量表示;
知识图表示算法LPTransE定义了两类评分函数,分别用于衡量知识图中实体三元组和时间关系路径的合理性。
其中,实体三元组的评分函数E(h,r,t)借助基于翻译的思想,将每个三元组(h,r,t)的关系r看做从头实体h到尾实体t的翻译向量,具体定义为:E(h,r,t)=||h+r-t||;并通过针对三元组的基于边际的损失函数L(h,r,t)来训练目标三元组的嵌入向量,定义为:
Figure BDA0002992491620000061
其中[x]+=max(0,x)返回0和x之间的最大值,G是时空知识图谱中的有效三元组集合;G是无效三元组的集合;定义为G-={(h′,r,t)}∪{(h,r,t′)}∪{(h,r′,t)},即将任意原始有效三元组(h,r,t)替换了任一实体或关系,得到的无效三元组(h′,r′,t′)的集合;γ1为超参数。
关系路径的评分函数定义为:R(p,r)=||p-r||,其主要思想为扮演同样角色的关系路径p和直接关系r应该具有相近的向量表示。
具体来说对于知识图谱中的路径,头实体h到尾实体t之间存在多条关系路径P(h,t)={p1,p2,...,pN},每一个pi可用
Figure BDA0002992491620000073
表示。路径表示依据经过的关系序列:p={r1,...,rl}通过迭代的方式来学习,即初始表示q0=W·[r1:r2],加入衰减因子q1=W·[(α·q0):r3],直到p=ql-2=W·[(α·ql-3):rl]。其中W∈Rd×2d为参数矩阵,d为关系向量的维度。α为衰减因子,用于衡量随着关系路径长度增长,前面关系对最终实体的影响进一步减弱。[a:b]表示两个向量的拼接操作。
如果一个关系路径和一个关系扮演着同样的角色,即有p∈P(h,t)且(h,r,t)∈G,那么路径的表示p应该与直接关系r相似,使用基于边际的损失函数来作为训练路径表示,定义如下:关系路径的表示学习同样借助基于边际的损失函数,定义为:
Figure BDA0002992491620000074
γ2为超参数;
将三元组和关系路径的损失函数相加,则得到了总目标函数,定义为:
Figure BDA0002992491620000071
其中R(p|h,t)为经典模型PTransE中定义的关系路径p的可靠性;Z为归一化因子。
最后,根据LPTransE同时训练两个知识图谱中的实体向量表示,同时根据对齐种子校正两个知识图谱的向量空间的轴。
具体为:
通过变换函数将两个时空知识图谱的实体嵌入转化到同一空间。通过对齐种子来训练学习变换函数的参数,其中实体对齐部分的目标函数定义为:
Figure BDA0002992491620000072
其中(e,e′)是预先对齐的实体对,分别对应两个时空知识图谱中的实体;Eal是预先对齐的实体对集合;Ral是预先对齐的时间关系对集合;f1(·)和f2(·)分别为实体和关系向量的变换函数,通过变换函数将两个时空知识图谱的实体嵌入转化到同一空间,包括以下四种,根据需要从中选择:
线性变换函数:f1(e)=W1·e,f2(r)=W2·r
加入偏置的线性变换函数:f1(e)=W1·e+b,f2(r)=W2·r+b
基于距离的变换函数:f1(e)=e,f2(r)=r
基于翻译的变换函数:f1(e)=e+b,f2(r)=r+b
其中W1和W2是d×d维的转换矩阵,b是d×1维的偏置,d为实体和关系嵌入向量的维度。
第三目标函数Lal具体是:将预先对齐的实体对和时间关系对分别通过变换函数,将第一种时空知识图谱中的实体和关系向量,分别转换到第二种时空知识图谱对应的向量空间中,并使得实体对和时间关系对尽量接近,即根据对齐种子校正两个知识图谱的向量空间的轴。
基于长路径的知识图表示算法LPTransE,以经典路径的方法PTransE为基础,加入衰减因子,用迭代的方式求得路径的嵌入表示,改进了现有方法PTransE局限于短路径的缺陷;利用LPTransE来学习两个知识图中的实体低维向量表示,既保持三元组内部的基于翻译的条件,又考虑了多步长路径与直接关系的变换。
步骤四、针对两个时空知识图谱的实体最终低维向量,依次选择第二种时空知识图谱中的未对齐实体,将当前未对齐实体S,将其经过变换函数变换后与第一种时空知识图谱中的所有实体逐一进行相似度对比,并选择相似度最高的实体与未对齐实体S匹配成实体对;
相似度计算公式为:
discontext(e′,e)=dis(e′,f1(e))+dis(e′in,f1(e))+dis(e′out,f1(e))
距离使用欧几里得距离衡量,e′in为实体e′的上文邻居向量的平均值,e′out为实体e′的下文邻居向量的平均值。
实体e的上文邻居集合定义为In(e)={ej|(ej,r,e)∈G},下文邻居集合定义为out(e)={ej|(e,r,ej)∈G};ej为知识图谱中的满足集合定义的实体。
步骤五、当第二种时空知识图谱中的所有未对齐实体都按照相似度选择好对应的对齐实体对后,按照所有实体对齐的结果,将实体表示的用户路径进行补充融合,达到时空知识融合的目的。
具体地,将第二时空数据源中的停留点信息替换为对齐的第一时空数据源中的地点信息,得到更多能够探测用户时空行为的时空轨迹序列,达到了融合补充的目的。
本发明适用于任何基于路径构造的时空知识图之间的融合,目前的知识图谱融合针对跨语言标准三元组数据,基于轨迹构建的时空顺序知识图谱几乎没有,所以现有基于文本相似度,属性相似度的实体对齐技术并不适用于时空知识图谱。
目前基于路径的实体表示大多采用随机游走的方式来生成路径,导致路径信息不准确。同时简单地组合关系向量来构造多跳路径向量,不利于嵌入更长的关系路径;并且关系路径中所有位置具有同等地位是不合适的,距离尾实体越近的关系应该具有更高的影响因子。
目前的实体对齐方案在衡量实体对相似度时只考虑实体本身,并没有考虑实体的邻居,忽略的上下文信息的作用。
本发明使用实体预测任务来测试实体表示的效果,提出的方法在时空数据集(依据游记构建的用户轨迹数据集)上优于现有的基于翻译和基于路径的表示方法。
表中标记+的为考虑上下文信息来衡量实体之间的相似性,其他为常规方法,只考虑实体对自身的相似性。结果表明,本发明提出的加入上下文信息衡量实体对相似度的方法确实提高了对齐性能。
实体表示部分:
Figure BDA0002992491620000091
实体对齐部分:
Figure BDA0002992491620000092

Claims (7)

1.一种多源时空知识融合方法,其特征在于,具体步骤如下:
首先、选取两种在时空精度和采样率方面都不同的时空数据源,对两种数据源分别进行预处理,得到各自对应的时空轨迹序列,并分别构建每个时空数据源对应的时空知识图谱;
时空知识图谱中的三元组<实体1,时间关系,实体2>;
然后、利用基于衰减机制的长路径知识图表示算法对两种时空知识图谱中的三元组分别进行训练学习,得到每个实体的最终低维向量表示;
具体为:
步骤201、首先将两个时空知识图谱中的所有实体和时间关系,分别用嵌入向量表示并随机初始化赋值;
步骤202、根据基于衰减机制的长路径的知识图表示算法构建目标函数:
目标函数包括三部分:L=L(G1)+L(G2)+Lal
其中L(G1)是对第一种时空知识图谱进行训练学习的第一目标函数;L(G2)是对第二种时空知识图谱进行训练学习的第二目标函数;Lal表示将两个时空知识图谱中对应的实体进行对齐的第三目标函数;
步骤203、对第一目标函数L(G1)和第二目标函数L(G2),分别使用随机梯度下降法训练两个时空知识图谱中的所有实体和时间关系的嵌入向量,带入通用目标函数中进行学习,使得第一和第二目标函数L(G1)和L(G2)收敛;
通用的目标函数为:
Figure FDA0002992491610000011
(h,r,t)表示时空知识图谱中的三元组<实体1,时间关系,实体2>;G是时空知识图谱中的有效三元组集合;L(h,r,t)为针对三元组设计的基于边际的损失函数;Z为归一化因子;R(p|h,t)为经典模型PTransE中定义的关系路径p的可靠性;关系路径序列p={r1,...,rl};rl表示从实体h到实体t的路径经过的第l个关系;L(p,r)为针对路径p和直接关系r设计的基于边际的损失函数;P(h,t)表示从实体h到实体t的关系路径p的集合;路径表示p依据经过的关系序列p={r1,...,rl},通过迭代的方式来学习,定义如下:初始表示q0=W·[r1:r2],加入衰减因子q1=W·[(α·q0):r3],直到p=ql-2=W·[(α·ql-3):rl];其中W∈Rd×2d为参数矩阵,d为关系向量的维度;α为衰减因子,用于衡量随着关系路径长度增长,前面关系对最终实体的影响进一步减弱;[a:b]表示两个向量的拼接操作;
步骤204、针对第三目标函数Lal,利用预先设定两时空知识图谱中的对齐实体对,带入Lal中进行学习,直至收敛得到变换函数的参数;
函数Lal定义为
Figure FDA0002992491610000012
其中(e,e′)是预先对齐的实体对,分别对应两个时空知识图谱中的实体;Eal是预先对齐的实体对集合;Ral是预先对齐的时间关系对集合;f1(·)和f2(·)分别为实体和关系向量的变换函数;
步骤205、当目标函数L的三部分都收敛时,得到两个时空知识图谱中每个实体的最终低维向量;
最后、针对两个时空知识图谱的实体最终低维向量,依次选择第二种时空知识图谱中的未对齐实体,将当前未对齐实体S,经过变换函数后与第一种时空知识图谱中的所有实体逐一进行相似度对比,并选择相似度最高的实体与未对齐实体S匹配成实体对;最终按照所有实体对齐的结果,对两种不同的时空数据源进行时空知识的融合。
2.如权利要求1所述的一种多源时空知识融合方法,其特征在于,所述每种时空数据源下至少对应一个用户,每个用户各自对应一个时空轨迹序列;
预处理具体为:
首先,删除无效数据,包括丢失的字段数据、重复的数据和不正确的数据;
然后,利用voronoi图,以及设置距离阈值和速度阈值对漂移数据进行过滤;并采用DECRE算法对乒乓球数据进行处理;
最后,进行停留点识别保留各用户的有效停留地点,将离开停留点的时间作为时间转移关系。
3.如权利要求1所述的一种多源时空知识融合方法,其特征在于,所述构建时空知识图谱的过程为:
首先,将一天24小时划为7个时间段,分别对应凌晨,清晨,早上,上午,中午,下午和晚上;然后,针对某时空知识图谱中的用户A,从时空轨迹序列中遍历各个停留点,针对当前停留点a1和下一个停留点a2,将离开该停留点a1并前往下一停留点a2的时间归到划分的时间段中,作为三元组的时间关系;将用户A的当前有效停留地点a1和下一个有效停留地点a2分别作为实体,构造时空知识图中的三元组;从而实现了所有用户之间的时间和空间构建的拓扑图,即时空知识图谱,从中得到一条条实体与实体之间通过时间关系连接的路径。
4.如权利要求1所述的一种多源时空知识融合方法,其特征在于,所述步骤204中,第三目标函数Lal具体是:将预先对齐的实体对和时间关系对分别通过变换函数,将第一种时空知识图谱中的实体和关系向量,分别转换到第二种时空知识图谱对应的向量空间中,并使得实体对和时间关系对尽量接近。
5.如权利要求4所述的一种多源时空知识融合方法,其特征在于,所述变换函数包括以下四种,根据需要从中选择:
线性变换函数:f1(e)=W1·e,f2(r)=W2·r
加入偏置的线性变换函数:f1(e)=W1·e+b,f2(r)=W2·r+b
基于距离的变换函数:f1(e)=e,f2(r)=r
基于翻译的变换函数:f1(e)=e+b,f2(r)=r+b
其中W1和W2是d×d维的转换矩阵,b是d×1维的偏置,d为实体和关系嵌入向量的维度。
6.如权利要求1所述的一种多源时空知识融合方法,其特征在于,所述相似度计算公式为:
discontext(e′,e)=dis(e′,f1(e))+dis(e′in,f1(e))+dis(e′out,f1(e))
e′in为实体e′的上文邻居向量的平均值,e′out为实体e′的下文邻居向量的平均值;实体e的上文邻居集合,定义为In(e)={ej|(ej,r,e)∈G},下文邻居集合定义为Out(e)={ej|(e,r,ej)∈G},ej为知识图谱中的满足集合定义的实体。
7.如权利要求1所述的一种多源时空知识融合方法,其特征在于,所述对两种不同的时空数据源进行时空知识的融合,具体是:将第二时空数据源中的停留点信息替换为对齐的第一时空数据源中的地点信息,得到更多能够探测用户时空行为的时空轨迹序列,达到了融合补充的目的。
CN202110320156.8A 2021-03-25 2021-03-25 一种多源时空知识融合方法 Active CN112905807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110320156.8A CN112905807B (zh) 2021-03-25 2021-03-25 一种多源时空知识融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110320156.8A CN112905807B (zh) 2021-03-25 2021-03-25 一种多源时空知识融合方法

Publications (2)

Publication Number Publication Date
CN112905807A true CN112905807A (zh) 2021-06-04
CN112905807B CN112905807B (zh) 2022-07-08

Family

ID=76106463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110320156.8A Active CN112905807B (zh) 2021-03-25 2021-03-25 一种多源时空知识融合方法

Country Status (1)

Country Link
CN (1) CN112905807B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297395A (zh) * 2021-07-08 2021-08-24 中国人民解放军国防科技大学 时空多模态混合数据处理方法、关联方法与索引方法
CN113641832A (zh) * 2021-08-16 2021-11-12 中国科学院空天信息创新研究院 基于知识图谱面向多源离散数据的林火救援路径规划方法
CN115051925A (zh) * 2021-06-18 2022-09-13 北京邮电大学 一种基于迁移学习的时空序列预测方法
CN115292523A (zh) * 2022-08-04 2022-11-04 中国科学院空天信息创新研究院 一种基于图表示学习的时空信息推理方法
CN115391565A (zh) * 2022-09-05 2022-11-25 国家基础地理信息中心 一种地表覆盖时空变化的知识图谱构建方法、装置及设备
CN118427310A (zh) * 2024-07-03 2024-08-02 湖南视觉伟业智能科技有限公司 一种面向时空知识图谱的对齐查询方法及系统
CN118427310B (zh) * 2024-07-03 2024-10-25 湖南视觉伟业智能科技有限公司 一种面向时空知识图谱的对齐查询方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332672A1 (en) * 2014-05-16 2015-11-19 Microsoft Corporation Knowledge Source Personalization To Improve Language Models
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN112417159A (zh) * 2020-11-02 2021-02-26 武汉大学 一种上下文对齐增强图注意力网络的跨语言实体对齐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332672A1 (en) * 2014-05-16 2015-11-19 Microsoft Corporation Knowledge Source Personalization To Improve Language Models
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN112417159A (zh) * 2020-11-02 2021-02-26 武汉大学 一种上下文对齐增强图注意力网络的跨语言实体对齐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MUHAO CHEN 等: "Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment", 《ARXIV:1611.03954V3》 *
XIAOHAN ZHANG 等: "A Framework of Data Fusion Through Spatio-Temporal Knowledge Graph", 《INTERNATIONAL CONFERENCE ON KNOWLEDGE SCIENCE, ENGINEERING AND MANAGEMENT》 *
XIAOJUAN ZHAO 等: "Multi-source knowledge fusion: a survey", 《2019 IEEE FOURTH INTERNATIONAL CONFERENCE ON DATA SCIENCE IN CYBERSPAC》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115051925A (zh) * 2021-06-18 2022-09-13 北京邮电大学 一种基于迁移学习的时空序列预测方法
CN115051925B (zh) * 2021-06-18 2023-07-18 北京邮电大学 一种基于迁移学习的时空序列预测方法
CN113297395A (zh) * 2021-07-08 2021-08-24 中国人民解放军国防科技大学 时空多模态混合数据处理方法、关联方法与索引方法
CN113641832A (zh) * 2021-08-16 2021-11-12 中国科学院空天信息创新研究院 基于知识图谱面向多源离散数据的林火救援路径规划方法
CN115292523A (zh) * 2022-08-04 2022-11-04 中国科学院空天信息创新研究院 一种基于图表示学习的时空信息推理方法
CN115292523B (zh) * 2022-08-04 2023-09-22 中国科学院空天信息创新研究院 一种基于图表示学习的时空信息推理方法
CN115391565A (zh) * 2022-09-05 2022-11-25 国家基础地理信息中心 一种地表覆盖时空变化的知识图谱构建方法、装置及设备
CN118427310A (zh) * 2024-07-03 2024-08-02 湖南视觉伟业智能科技有限公司 一种面向时空知识图谱的对齐查询方法及系统
CN118427310B (zh) * 2024-07-03 2024-10-25 湖南视觉伟业智能科技有限公司 一种面向时空知识图谱的对齐查询方法及系统

Also Published As

Publication number Publication date
CN112905807B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN112905807B (zh) 一种多源时空知识融合方法
CN112131404B (zh) 一种四险一金领域知识图谱中实体对齐方法
CN110826698A (zh) 一种通过上下文相关的图嵌入表示人群移动模式的方法
CN113220911B (zh) 一种农业多源异构数据的分析与挖掘方法及其应用
CN113780003A (zh) 时空数据变分编解码跨模态增强方法
CN115757715A (zh) 一种基于知识图谱表示学习的复杂问题多跳智能问答方法
CN113611356B (zh) 一种基于自监督图表征学习的药物重定位预测方法
CN115510174A (zh) 一种基于路网像素化的Wasserstein生成对抗流量数据插补方法
Zhou et al. Learning with annotation of various degrees
CN113420868A (zh) 一种基于深度强化学习的旅行商问题求解方法及求解系统
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
Luo et al. Self-supervised learning for semi-supervised temporal language grounding
CN115658927A (zh) 一种面向时序知识图谱的无监督实体对齐方法及装置
Yao et al. Goal-lbp: Goal-based local behavior guided trajectory prediction for autonomous driving
Ni et al. PSNEA: Pseudo-siamese network for entity alignment between multi-modal knowledge graphs
CN113205043A (zh) 一种基于强化学习的视频序列二维姿态估计方法
CN104156462A (zh) 基于元胞自动学习机的复杂网络社团挖掘方法
Li et al. Reinforcement learning with dual attention guided graph convolution for relation extraction
CN116467437A (zh) 面向复杂场景描述的自动流程建模方法
CN115374942A (zh) 一种基于层次化知识点的知识追踪方法
CN115480585A (zh) 一种搭载强化学习智能体的无人设备集群协同探索方法
Yu et al. UnifiedTT: Visual tracking with unified transformer
Bai et al. Embedding-based entity alignment of cross-lingual temporal knowledge graphs
Li et al. Conditional goal-oriented trajectory prediction for interacting vehicles with vectorized representation
Xi et al. Adaptive-Correlation-aware Unsupervised Deep Learning for Anomaly Detection in Cyber-physical Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant