CN114117064A - 一种基于多时间粒度的知识动态演化方法及应用 - Google Patents

一种基于多时间粒度的知识动态演化方法及应用 Download PDF

Info

Publication number
CN114117064A
CN114117064A CN202111337540.5A CN202111337540A CN114117064A CN 114117064 A CN114117064 A CN 114117064A CN 202111337540 A CN202111337540 A CN 202111337540A CN 114117064 A CN114117064 A CN 114117064A
Authority
CN
China
Prior art keywords
knowledge
time
characterization
vector
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111337540.5A
Other languages
English (en)
Other versions
CN114117064B (zh
Inventor
李天瑞
王德贤
黄维
刘佳
邓萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202111337540.5A priority Critical patent/CN114117064B/zh
Publication of CN114117064A publication Critical patent/CN114117064A/zh
Application granted granted Critical
Publication of CN114117064B publication Critical patent/CN114117064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多时间粒度的知识动态演化方法及应用。知识动态演化方法,首先将构建知识库中的知识四元组,然后将每个知识四元组向量化并拆分为三元组对应向量和时间向量,接着利用卷积网络对三元组对应向量进行初始化表征,并对时间向量进行粒度统一;然后将粒度统一的时间向量嵌入到三元组对应的表征向量中,并将其输入到三元组表征方法中进行表征;最后进行知识四元组挖掘,结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型,预测未来多个时间步的实体,实现知识四元组的动态演化。基于多时间粒度的知识动态演化方法,融合多个时间粒度的知识进行表征,可以提高模型的表征能力,更好地预测未来时刻的实体。

Description

一种基于多时间粒度的知识动态演化方法及应用
技术领域
本发明涉及人工智能和知识图谱技术领域,特别是一种基于多时间粒度的知识动态演化方法及应用。
背景技术
随着5G时代的来临,城市中的数据呈爆炸式增长,将城市中高维、异构、多模态的数据进行收集、清洗和建模分析可为解决城市中痛点、难点问题提供重要的指导意义。例如,利用深度学习算法预测城市中的人流、车流,可更好规划城市中的交通;预测城市中的空气质量和水质量,可更好地进行城市环境管理。城市具有领域广、人员多、地域大等特点,每一时刻都有大量的多源异构数据产生,因此随着时间的迁移会产生海量的城市时序数据。如何将城市中庞大数据有机的组织起来,更好的挖掘出有利于城市发展的有效模式,知识图谱是一个有效的工具。
知识图谱能将特定时间内实体间的关系相互关联,并以知识的方式存储到知识库中。知识图谱快速的知识检索能力和高效的存储机制为城市知识挖掘提供了基础保证。动态预测知识库中实体间的关系变化是城市智能研究中的重要研究问题。
(1)城市知识库构建
参考文献1“Urban multi-source spatio-temporal data analysis awareknowledge graph embedding”(Zhao,L.,Deng,H.,Qiu,L.,Li,S.,Hou,Z.,Sun,H.,&Chen,Y.(2020).Symmetry,12(2),199.)和参考文献2“Follow a guide to solve urbanproblems:the creation and application of urban knowledge graph”(Shan,S.,&Cao,B.(2017).IET Software,11(3),126-134.)介绍了城市知识图谱是解决城市中问题的有效方法,是对城市高维、异构、多源数据进行挖掘的有效工具。研究提出了建立城市知识图谱的方法及框架,阐述了城市知识获取、推理和表达的方法。实例表明,城市知识图谱具有良好的应用前景。但这些方法只挖掘出多源时空数据中的一些浅显事实,对城市更精确的分析,如交通流量分析等,还没有进行深入的研究。
(2)基于时间感知的知识图谱
参考文献3“Hyte:Hyperplane-based temporally aware knowledge graphembedding”(Dasgupta,S.S.,Ray,S.N.,&Talukdar,P.(2018).In Proceedings of the2018 conference on empirical methods in natural language processing(pp.2001-2011).),参考文献4“Towards time-aware knowledge graph completion”(Jiang,T.,Liu,T.,Ge,T.,Sha,L.,Chang,B.,Li,S.,&Sui,Z.(2016,December).In Proceedings ofCOLING 2016,the 26th International Conference on Computational Linguistics:Technical Papers(pp.1715-1724).)和参考文献5“Diachronic embedding for temporalknowledge graph completion”(Goel,R.,Kazemi,S.M.,Brubaker,M.,&Poupart,P.(2020,April).In Proceedings of the AAAI Conference on Artificial Intelligence(Vol.34,No.04,pp.3988-3995).)都是对具有时间属性的知识四元组进行表征的方法,并通过链接预测来验证模型的表征能力。但这些方法都是基于同一个时间粒度的知识四元组进行表征,它们无法对一个知识库中存在多个时间粒度的知识四元组进行表征,导致了很多重要的信息无法有效地融合到模型中,模型预测未来时刻实体或关系的准确率低,无法准确捕获知识动态演化规律。然而,在现实世界中,构建一个城市相关知识库一般都会存在多种时间粒度的知识,现有技术尚不能对多种时间粒度的知识进行表征。
发明内容
本发明的目的是提供一种基于多时间粒度的知识动态演化方法及应用。
实现本发明目的的技术方案如下:
一种基于多时间粒度的知识动态演化方法,包括:
步骤1、将知识四元组向量化,并拆分为三元组向量和时间向量;
1.1将Pq=(hs,r,te,τ)向量化为
Figure BDA0003345542230000031
其中,Pq=(hs,r,te,τ)为知识库PAll中第q个知识四元组,q∈{1,2,…,n},n为PAll中知识四元组的总数;hs为头实体,te为尾实体,r为hs和te间的关系,τ为hs与te产生r的时间;τ为多种时间粒度的任意一种;所述多种时间粒度,包括y-m-d、y-m-d-h、y-m-d-h1-h2、y-m-d-h-min和y-m-d-h-min1-min2;其中,y、m、d、h和min分别表示年、月、日、小时和分钟,h1、h2分别表示小时1、小时2,min1、min2分别表示分钟1、分钟2;hs∈E,te∈E,E表示PAll中所有实体的集合;r∈R,R表示PAll中所有实体关系的集合;τ∈Γ,Γ表示PAll中所有时间的集合;
Figure BDA0003345542230000032
|v|表示向量的长度,
Figure BDA0003345542230000033
分别对应Pq中的hs、r、te、τ;
1.2将
Figure BDA0003345542230000034
拆分为三元组向量
Figure BDA0003345542230000035
和时间向量
Figure BDA0003345542230000036
其中,
Figure BDA0003345542230000037
步骤2、对三元组向量进行初始化表征,对时间向量进行约束后融合;
2.1将
Figure BDA0003345542230000038
输入卷积神经网络,获得三元组向量的初始化表征向量
Figure BDA0003345542230000039
其中,
Figure BDA00033455422300000310
2.2将
Figure BDA00033455422300000311
的每一个分量进行表征:
Figure BDA00033455422300000312
Figure BDA00033455422300000313
Figure BDA00033455422300000314
其中,vy、vm、vd、vh和vmin分别为
Figure BDA00033455422300000315
的年、月、日、时和分钟分量,vh1和vh2分别为小时1和小时2分量,vmin1和vmin2分别为分钟1和分钟2分量;
2.3分别通过余弦函数cos(·)对表征后的年、月、日、时、分钟、小时1、小时2、分钟1和分钟2分量进行约束;
2.4融合约束后的分量,得到时间表征向量
Figure BDA0003345542230000041
步骤3、对时间表征向量
Figure BDA0003345542230000042
进行时间粒度统一,得到统一后的时间表征向量
Figure BDA0003345542230000043
其中,当
Figure BDA0003345542230000044
的时间粒度为y-m-d时,将其转化为y-m-d-h1-h2,h1=0,h2=24;当
Figure BDA0003345542230000045
的时间粒度为y-m-d-h时,将其转化为y-m-d-h1-h2,h1=h2=h;当
Figure BDA0003345542230000046
的时间粒度为y-m-d-h-min时,将其转化为y-m-d-h1-h2,h1=h2=h+min/60;当
Figure BDA0003345542230000047
的时间粒度为y-m-d-h-min1-min2时,将其转化为y-m-d-h1-h2,h1=h+min1/60,h2=h+min2/60;
步骤4、将统一后的时间表征向量嵌入到三元组向量的初始化表征向量,得到带有时间信息的知识三元组向量
Figure BDA0003345542230000048
其中,
Figure BDA0003345542230000049
表示向量的拼接;
步骤5、将知识库PAll中每个知识四元组经步骤1-4处理,得到带有时间信息知识三元组向量集{L1,L2,…Ln},再通过知识三元组表征方法进行表征;
步骤6、将实体表征信息和周期性的历史实体表征信息输入回归模型,预测得到未来时间步的实体,即演化后的知识四元组。
上述技术方案的步骤5中,所述知识三元组表征方法为Trans系列表征、DistMult表征或深度表征。
上述一种基于多时间粒度的知识动态演化方法的应用,所述知识库PAll为城市地铁流量数据的知识四元组Pstation=(hs,r,te,τ),头实体hs为地铁站点,尾实体te为站点流量;r为站点和流量的关系,包括出站或者入站;τ为对应的时间。
进一步的应用,所述知识库PAll,还包括基于所述城市地铁流量数据的POI知识四元组Ppoi=(hs,r,te,τ)和事件知识四元组Pevent=(hs,r,te,τ);其中,Ppoi=(hs,r,te,τ)的头实体hs为地铁站点,尾实体te为对应的POI,r为地铁站点周边的POI的数量;Pevent=(hs,r,te,τ)的头实体hs为地铁站点,尾实体te为对应的事件,r为地铁站点周边的事件的数量。
本发明的有益效果在于,
1、基于多时间粒度的知识动态演化方法,融合多个时间粒度的知识进行表征,可以提高模型的表征能力,更好地预测未来时刻的实体,实现知识的动态演化。
2、当基于多时间粒度的知识动态演化方法应用到具有多时间粒度特性的城市地铁流量数据演化时,具有更好的表征质量,能更好地预测未来时刻的地铁流量数据。
附图说明
图1为本发明框架结构示意图。
图2为卷积神经网络结构示意图示意。
图3为多时间粒度统一框架示意图。
图4为DistMult的表征框架示意图。
图5为实体预测框架示意图。
图6为流量(实体)预测结果图。
具体实施方式
本发明提供了一种基于多时间粒度的知识动态演化方法,包括:
步骤1:知识四元组的构建,包括:
令hs(hs∈E)为头实体,te(te∈E)为尾实体,E表示所有实体的集合,r(r∈R)为头实体hs和尾实体te间的关系,R为实体关系的集合,τ(τ∈Γ)为实体间产生关系的时间,τ存在多种时间粒度(如:y-m-d,y-m-d-h,y-m-d-h1-h2,y-m-d-h-min,y-m-d-h-min1-min2。其中,y、m、d、h和min分别表示年、月、日、小时和分钟,h1-h2和min1-min2表示时段),Γ为所有时间的集合。根据hs,r,te,τ来构建带有时间信息的知识四元组P=(hs,r,te,τ),令PAll表示知识库中所有的知识四元组。
步骤2:三元组向量初始化表征及时间向量约束表征,包括:
首先将知识库中的知识四元组Pq=(hs,r,te,τ)向量化为
Figure BDA0003345542230000061
hs,r,te,τ分别对应向量
Figure BDA0003345542230000062
其中,q表示知识四元组中的第q个四元组,|v|表示向量的长度。然后将向量化的四元组拆分为三元组(hs,r,te)对应的向量
Figure BDA0003345542230000063
和τ对应的时间向量
Figure BDA0003345542230000064
即为
Figure BDA0003345542230000065
再分别对Iq
Figure BDA0003345542230000066
进行初始化表征和时间向量约束。
Figure BDA0003345542230000067
输入到卷积神经网络,通过卷积神经网络捕获实体间的相关性,获得三元组对应向量的初始化表征
Figure BDA0003345542230000068
其中
Figure BDA0003345542230000069
对时间向量
Figure BDA00033455422300000610
进行约束,以时间格式为y-m-d-h为例,每个时间分量分别采用一个长度为|v|的向量进行表征。将时间信息y-m-d-h的四个分量初始化为
Figure BDA00033455422300000611
此外,通过余弦函数cos(·)对每个时间分量进行约束,实现时间周期性的表征约束。具体地,首先对y,m,d,h各个时间分量分别采用Iy=Iy*cos(Iy*year),Im=Im*cos(Im*month),Id=Id*cos(Id*day),Ih=Ih*cos(Ih*hour)进行约束表征,然后融合四个时间分量得到一个长度为|v|的时间表征向量
Figure BDA00033455422300000612
将知识库中所有的知识四元组都按以上步骤转化为初始化表征向量
Figure BDA00033455422300000613
和时间向量
Figure BDA00033455422300000614
其中n为知识库中知识四元组的总数。
步骤3:多时间粒度的统一,包括:
将时间向量
Figure BDA0003345542230000071
进行统一约束,把知识库中多种时间粒度统一到同一粒度。将
Figure BDA0003345542230000072
的时间信息转化为y-m-d-h1-h2的粒度来进行时间信息约束。当h1=h2时,表示为一个时间点,否则,当h1≠h2时,表示为一个时间段(h1小时到h2小时的时段)。具体地,当
Figure BDA0003345542230000073
的时间粒度为y-m-d时,将其转化为y-m-d-h1-h2,有h1=0,h2=24;当
Figure BDA0003345542230000074
的时间粒度为y-m-d-h时,将其转化为y-m-d-h1-h2,有h1=h2=h;当
Figure BDA0003345542230000075
的时间粒度为y-m-d-h-min1时,将其转化为y-m-d-h1-h2,有h1=h2=h+min/60;当
Figure BDA0003345542230000076
的时间粒度为y-m-d-h-min1-min2时,将其转化为y-m-d-h1-h2,有h1=h+min1/60,h2=h+min2/60。将
Figure BDA0003345542230000077
时间粒度统一为y-m-d-h1-h2,对应的时间向量表示为
Figure BDA0003345542230000078
由于
Figure BDA0003345542230000079
因此知识库中所有时间向量都被统一约束为
Figure BDA00033455422300000710
步骤4:带时间信息的知识三元组的嵌入表征和知识四元组的挖掘,包括:
将步骤3中统一时间粒度的向量
Figure BDA00033455422300000711
嵌入到步骤2中对应的初始化表征
Figure BDA00033455422300000712
中,得到带有时间信息的知识三元组对应向量
Figure BDA00033455422300000713
其中
Figure BDA00033455422300000714
表示向量的拼接操作。然后将所有带有时间信息的知识三元组对应向量{L1,L2,…Ln}输入到知识三元组表征方法(Trans系列表征、DistMult表征、深度表征等方法)进行表征。最后采用链接预测来验证表征性能,并结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型,预测未来多个时间步的实体,实现知识四元组的动态演化。
本发明采用交叉熵构建损失函数,如下所示:
Figure BDA0003345542230000081
这里tc表示候选实体,(hs(τ),r(τ),te(τ))表示四元组(hs,r,te,τ)的表征向量。
以下结合附图对本发明进一步说明。
本发明的整体框架结构如图1所示,主要包括4个模块,分别是知识库中知识四元组的构建模块,基于卷积神经网络的知识三元组初始化表征模块,多时间粒度统一模块,带时间信息的知识三元组的嵌入表征和知识四元组挖掘模块。
首先将构建知识库中的知识四元组P=(hs,r,te,τ);然后将每个知识四元组向量化并拆分为三元组(hs,r,te)对应向量和τ对应的时间向量,接着利用卷积网络对三元组对应向量进行初始化表征,并采用多时间粒度统一模块对时间向量进行粒度统一;然后将粒度统一的时间向量嵌入到三元组对应的表征向量中,并将其输入到DistMult表征模块中进行表征,最后进行知识四元组挖掘。分别采用链接预测来评价表征质量和结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型,预测未来多个时间步的实体,实现知识四元组的动态演化。
实施例:
一种基于多时间粒度的知识动态演化方法的应用,其步骤如下:
(1)知识四元组构建
令hs(hs∈E)为头实体,te(te∈E)为尾实体,E表示所有实体的集合,r(r∈R)为头实体hs和尾实体te间的关系,R为实体关系的集合,τ(τ∈Γ)为实体间产生关系的时间,τ存在多种时间粒度(如:y-m-d,y-m-d-h,y-m-d-h1-h2,y-m-d-h-min,y-m-d-h-min1-min2。其中y,m,d,h,min分别表示年,月,日,小时和分钟,h1-h2和min1-min2表示时段),Γ为所有时间的集合。根据hs,r,te,τ来构建带有时间信息的知识四元组P=(hs,r,te,τ),令PAll表示知识库中所有的知识四元组。
以构建基于城市地铁流量数据的知识四元组为例,令hs为头实体,用来表示地铁站点信息,te(te∈E)为尾实体用来表示出入站流量信息,E为所有实体的集合,r(r∈R)表示头实体hs和尾实体te间的关系(即站点和出入站流量的关系),R为关系的集合,τ(τ∈Γ)为实体产生关系的时间,Γ为时间的集合。基于城市地铁流量数据构建的知识四元组具有多时间粒度的特性,可利用基于多时间粒度的知识动态演化方法预测未来多个时间步的实体(即地铁流量),实现知识的动态演化。
当然,te(te∈E)为尾实体还可以用来表示外部信息(如POI、事件等),对应关系r(r∈R)表示与外部信息之间的关系,作为表征的辅助信息。
具体地,首先将地铁站点流量信息转化为知识四元组Pstation=(hs,r,te,τ)。hs为地铁站点,te为站点流量,r为站点和流量的关系:出站或者入站,τ为对应的时间;然后,通过站点对应的坐标信息,在高德地图API平台上获取在站点周边2公里之内的辅助信息,重点关注于对地铁流量有影响的POI(如:学校、商场、银行、机场、高等院校等人流影响较大的公共场所),对不同类别的POI赋予不同时段的时间属性,并将POI信息转化为和站点信息相关的知识四元组Ppoi=(hs,r,te,τ),其中hs为地铁站点,te为对应的POI(如:学校、商场、银行、机场、高等院校等),r站点周边2公里内的POI的数量;最后,对地铁周边2公里内的事件信息进行收集,并将其转化为知识四元组Pevent=(hs,r,te,τ),其中hs为地铁站点,te为对应的事件,r站点周边2公里内的事件的数量。因此,在知识库中有P∈{Pstation,Ppoi,Pevent}=PAll,其中P=(hs,r,te,τ)表示一个四元组。
(2)三元组向量初始化表征和时间向量的约束表征
首先将知识库中的知识四元组Pq=(hs,r,te,τ)向量化为
Figure BDA0003345542230000091
hs,r,te,τ分别对应向量
Figure BDA0003345542230000092
其中q表示知识四元组中的第q个四元组,|v|表示向量的长度。然后将向量化的四元组拆分为三元组(hs,r,te)对应的向量
Figure BDA0003345542230000101
和τ对应的时间向量
Figure BDA0003345542230000102
即为
Figure BDA0003345542230000103
再分别对Iq
Figure BDA0003345542230000104
进行初始化表征和时间向量约束。
Figure BDA0003345542230000105
输入到卷积神经网络,通过卷积神经网络捕获实体间的相关性,获得三元组对应向量的初始化表征
Figure BDA0003345542230000106
其中
Figure BDA0003345542230000107
对时间向量
Figure BDA0003345542230000108
进行约束,以时间格式为y-m-d-h(即为:年-月-日-时)为例,每个时间分量分别采用一个长度为|v|的向量进行表征。将时间信息y-m-d-h的四个分量初始化为
Figure BDA0003345542230000109
此外,通过余弦函数cos(·)对每个时间分量进行约束,实现时间周期性的表征约束。具体地,首先对y,m,d,h各个时间分量分别采用Iy=Iy*cos(Iy*year),Im=Im*cos(Im*month),Id=Id*cos(Id*day),Ih=Ih*cos(Ih*hour)进行约束表征,然后融合四个时间分量得到一个长度为|v|的时间表征向量
Figure BDA00033455422300001010
将知识库中所有的知识四元组都按以上步骤转化为初始化表征向量
Figure BDA00033455422300001011
和时间向量
Figure BDA00033455422300001012
其中n为知识库中知识四元组的总数。
(3)多时间粒度统一
为了对知识库中粒度不一致的时间向量
Figure BDA00033455422300001013
进行统一约束,将
Figure BDA00033455422300001014
的时间信息转化为y-m-d-h1-h2的粒度来进行时间信息约束。当h1=h2时,表示为一个时间点,否则,当h1≠h2时,表示为一个时间段(h1小时到h2小时的时段)。具体地,当
Figure BDA00033455422300001015
的时间粒度为y-m-d时,将其转化为y-m-d-h1-h2,有h1=0,h2=24;当
Figure BDA00033455422300001016
的时间粒度为y-m-d-h时,将其转化为y-m-d-h1-h2,有h1=h2=h;当
Figure BDA00033455422300001017
的时间粒度为y-m-d-h-min1时,将其转化为y-m-d-h1-h2,有h1=h2=h+min/60;当
Figure BDA00033455422300001018
的时间粒度为y-m-d-h-min1-min2时,将其转化为y-m-d-h1-h2,有h1=h+min1/60,h2=h+min2/60。将
Figure BDA0003345542230000111
时间粒度统一为y-m-d-h1-h2,对应的时间向量表示为
Figure BDA0003345542230000112
由于
Figure BDA0003345542230000113
因此知识库中所有时间向量都被统一转化为
Figure BDA0003345542230000114
(4)基于DistMult的表征和知识四元组挖掘
将(3)中统一时间粒度的向量
Figure BDA0003345542230000115
嵌入到(2)中对应的初始化表征
Figure BDA0003345542230000116
中,得到带有时间信息的知识三元组对应向量
Figure BDA0003345542230000117
其中
Figure BDA0003345542230000118
表示向量的拼接操作。然后将所有带有时间信息的知识三元组对应向量{L1,L2,…Ln}输入到DistMul中进行表征。最后采用链接预测来验证表征性能,并结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型,预测未来多个时间步的实体,实现知识四元组的动态演化。本发明采用交叉熵构建损失函数,如下所示:
Figure BDA0003345542230000119
这里tc表示候选实体,(hs(τ),r(τ),te(τ))表示四元组(hs,r,te,τ)的表征向量。
仿真实验,
本实验采用重庆市地铁流量数据,重庆市地铁流量相关的POI数据和事件数据构建城市地铁流量知识图谱来验证本发明的有效性。此外,将本发明和DE-TransE算法和无POI建模的方法进行对比。
实验一
为了评估知识四元组的表征质量,使用链接预测评价实验效果。P=(hs,r,te,τ)中的头实体和尾实体通过其他头实体和尾实体进行替换,得到伪四元组。并采用hits@5(%),hits@10(%),hits@20(%)来评估进行表征质量,表示实体正确表征的排名平均在前5,10和20名的概率。表1展示了链接预测的结果。
表1不同方法的链接预测结果
方法 hits@5(%) hits@10(%) hits@20(%)
DE-TransE 60.8 67.1 77.1
本发明-无POI 78.6 82.2 86.5
本发明 80.8 84.9 88.4
从表1可以很明显地看出,本发明的3个指标都明显好于其他算法。本发明-无POI方法结果都低于本发明的结果,证明POI数据对地铁流量有一定影响。
实验二
如图5所示将所有实体表征信息和周期性的历史实体表征信息相结合,构建一个逻辑回归模型来预测未来4个时间步(1小时)的实体(即地铁流量)。从而得到未来时时间步对应的知识四元组,实现知识库中知识的动态演化。采用均方根RMSE来评价预测性能。如图6所示。
如图6的实验结果表明,本发明预测未来时间步对应实体(流量)准确率较高。与本发明-无POI方法相比,表明了地铁站附近POI数据可以提高地铁流量的预测效果。
本发明方法准确的预测了未来多个时间步的地铁流量值,可构建多个未来时间步对应的知识四元组,有效地实现了地铁流量知识库中知识的动态演化。

Claims (4)

1.一种基于多时间粒度的知识动态演化方法,其特征在于,包括:
步骤1、将知识四元组向量化,并拆分为三元组向量和时间向量;
1.1将Pq=(hs,r,te,τ)向量化为
Figure FDA0003345542220000011
其中,Pq=(hs,r,te,τ)为知识库PAll中第q个知识四元组,q∈{1,2,…,n},n为PAll中知识四元组的总数;hs为头实体,te为尾实体,r为hs和te间的关系,τ为hs与te产生r的时间;τ为多种时间粒度的任意一种;所述多种时间粒度,包括y-m-d、y-m-d-h、y-m-d-h1-h2、y-m-d-h-min和y-m-d-h-min1-min2;其中,y、m、d、h和min分别表示年、月、日、小时和分钟,h1、h2分别表示小时1、小时2,min1、min2分别表示分钟1、分钟2;hs∈E,te∈E,E表示PAll中所有实体的集合;r∈R,R表示PAll中所有实体关系的集合;τ∈Γ,Γ表示PAll中所有时间的集合;
Figure FDA0003345542220000012
|v|表示向量的长度,
Figure FDA0003345542220000013
分别对应Pq中的hs、r、te、τ;
1.2将
Figure FDA0003345542220000014
拆分为三元组向量
Figure FDA0003345542220000015
和时间向量
Figure FDA0003345542220000016
其中,
Figure FDA0003345542220000017
步骤2、对三元组向量进行初始化表征,对时间向量进行约束后融合;
2.1将
Figure FDA0003345542220000018
输入卷积神经网络,获得三元组向量的初始化表征向量
Figure FDA0003345542220000019
其中,
Figure FDA00033455422200000110
2.2将
Figure FDA00033455422200000111
的每一个分量进行表征:
Figure FDA00033455422200000112
Figure FDA00033455422200000113
Figure FDA00033455422200000114
其中,vy、vm、vd、vh和vmin分别为
Figure FDA00033455422200000115
的年、月、日、时和分钟分量,vh1和vh2分别为小时1和小时2分量,vmin1和vmin2分别为分钟1和分钟2分量;
2.3分别通过余弦函数cos(·)对表征后的年、月、日、时、分钟、小时1、小时2、分钟1和分钟2分量进行约束;
2.4融合约束后的分量,得到时间表征向量
Figure FDA0003345542220000021
步骤3、对时间表征向量
Figure FDA0003345542220000022
进行时间粒度统一,得到统一后的时间表征向量
Figure FDA0003345542220000023
其中,当
Figure FDA0003345542220000024
的时间粒度为y-m-d时,将其转化为y-m-d-h1-h2,h1=0,h2=24;当
Figure FDA0003345542220000025
的时间粒度为y-m-d-h时,将其转化为y-m-d-h1-h2,h1=h2=h;当
Figure FDA0003345542220000026
的时间粒度为y-m-d-h-min时,将其转化为y-m-d-h1-h2,h1=h2=h+min/60;当
Figure FDA0003345542220000027
的时间粒度为y-m-d-h-min1-min2时,将其转化为y-m-d-h1-h2,h1=h+min1/60,h2=h+min2/60;
步骤4、将统一后的时间表征向量嵌入到三元组向量的初始化表征向量,得到带有时间信息的知识三元组向量
Figure FDA0003345542220000028
其中,
Figure FDA0003345542220000029
Figure FDA00033455422200000210
表示向量的拼接;
步骤5、将知识库PAll中每个知识四元组经步骤1-4处理,得到带有时间信息知识三元组向量集{L1,L2,…Ln},再通过知识三元组表征方法进行表征;
步骤6、将实体表征信息和周期性的历史实体表征信息输入回归模型,预测得到未来时间步的实体,即演化后的知识四元组。
2.如权利要求1所述的一种基于多时间粒度的知识动态演化方法,其特征在于,步骤5中,所述知识三元组表征方法为Trans系列表征、DistMult表征或深度表征。
3.如权利要求1所述的一种基于多时间粒度的知识动态演化方法的应用,其特征在于,所述知识库PAll为城市地铁流量数据的知识四元组Pstation=(hs,r,te,τ),头实体hs为地铁站点,尾实体te为站点流量;r为站点和流量的关系,包括出站或者入站;τ为对应的时间。
4.如权利要求3所述的一种基于多时间粒度的知识动态演化方法的应用,其特征在于,所述知识库PAll,还包括基于所述城市地铁流量数据的POI知识四元组Ppoi=(hs,r,te,τ)和事件知识四元组Pevent=(hs,r,te,τ);其中,Ppoi=(hs,r,te,τ)的头实体hs为地铁站点,尾实体te为对应的POI,r为地铁站点周边的POI的数量;Pevent=(hs,r,te,τ)的头实体hs为地铁站点,尾实体te为对应的事件,r为地铁站点周边的事件的数量。
CN202111337540.5A 2021-11-09 2021-11-09 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法 Active CN114117064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111337540.5A CN114117064B (zh) 2021-11-09 2021-11-09 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111337540.5A CN114117064B (zh) 2021-11-09 2021-11-09 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法

Publications (2)

Publication Number Publication Date
CN114117064A true CN114117064A (zh) 2022-03-01
CN114117064B CN114117064B (zh) 2023-05-26

Family

ID=80378684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111337540.5A Active CN114117064B (zh) 2021-11-09 2021-11-09 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法

Country Status (1)

Country Link
CN (1) CN114117064B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062159A (zh) * 2022-06-13 2022-09-16 西南交通大学 基于联邦学习的多粒度动态知识图谱嵌入模型构造方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA200401420A1 (ru) * 2004-11-23 2005-06-30 Олег Анатольевич Грибков Способ построения информационной модели системы
WO2018224634A1 (fr) * 2017-06-08 2018-12-13 Renault S.A.S Procédé et système d'identification d'au moins un objet en déplacement
CN110781316A (zh) * 2019-10-25 2020-02-11 南京航空航天大学 一种融合超平面和持续时间建模的时间感知知识表示学习方法
CN110851614A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 知识图谱的关系预测推演方法及知识图谱的动态更新方法
CN111144570A (zh) * 2019-12-27 2020-05-12 福州大学 一种联合逻辑规则和置信度的知识表示方法
WO2020097221A1 (en) * 2018-11-08 2020-05-14 Evangelos Simoudis Systems and methods for managing vehicle data
CN111489013A (zh) * 2020-03-11 2020-08-04 北京交通大学 一种基于时空多图卷积网络的交通站点流量预测方法
CN111932026A (zh) * 2020-08-27 2020-11-13 西南交通大学 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法
CN112215435A (zh) * 2020-11-02 2021-01-12 银江股份有限公司 一种基于循环自回归模型的城市拥堵传播模式的预测方法
CN112257934A (zh) * 2020-10-26 2021-01-22 辽宁工程技术大学 一种基于时空动态神经网络的城市人流预测方法
CN112395423A (zh) * 2020-09-09 2021-02-23 北京邮电大学 递归的时序知识图谱补全方法和装置
CN112507130A (zh) * 2020-12-10 2021-03-16 东南大学 一种基于多源知识图谱的三元组可信评估方法
CN112732905A (zh) * 2020-12-08 2021-04-30 银江股份有限公司 一种基于知识图谱的交通事故分析与防控方法及系统
CN112818136A (zh) * 2021-02-26 2021-05-18 福州大学 一种基于时间卷积的交互知识表示学习模型tcim的预测方法
CN112860918A (zh) * 2021-03-23 2021-05-28 四川省人工智能研究院(宜宾) 一种基于协同演化建模的时序知识图谱表示学习方法
CN113190654A (zh) * 2021-05-08 2021-07-30 北京工业大学 一种基于实体联合嵌入和概率模型的知识图谱补全方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA200401420A1 (ru) * 2004-11-23 2005-06-30 Олег Анатольевич Грибков Способ построения информационной модели системы
WO2006056213A2 (en) * 2004-11-23 2006-06-01 Oleg Anatolyevich Gribkov Information model of structures and processes, method of creating and changing such model, method of virtual machine operation
WO2018224634A1 (fr) * 2017-06-08 2018-12-13 Renault S.A.S Procédé et système d'identification d'au moins un objet en déplacement
WO2020097221A1 (en) * 2018-11-08 2020-05-14 Evangelos Simoudis Systems and methods for managing vehicle data
CN110851614A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 知识图谱的关系预测推演方法及知识图谱的动态更新方法
CN110781316A (zh) * 2019-10-25 2020-02-11 南京航空航天大学 一种融合超平面和持续时间建模的时间感知知识表示学习方法
CN111144570A (zh) * 2019-12-27 2020-05-12 福州大学 一种联合逻辑规则和置信度的知识表示方法
CN111489013A (zh) * 2020-03-11 2020-08-04 北京交通大学 一种基于时空多图卷积网络的交通站点流量预测方法
CN111932026A (zh) * 2020-08-27 2020-11-13 西南交通大学 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法
CN112395423A (zh) * 2020-09-09 2021-02-23 北京邮电大学 递归的时序知识图谱补全方法和装置
CN112257934A (zh) * 2020-10-26 2021-01-22 辽宁工程技术大学 一种基于时空动态神经网络的城市人流预测方法
CN112215435A (zh) * 2020-11-02 2021-01-12 银江股份有限公司 一种基于循环自回归模型的城市拥堵传播模式的预测方法
CN112732905A (zh) * 2020-12-08 2021-04-30 银江股份有限公司 一种基于知识图谱的交通事故分析与防控方法及系统
CN112507130A (zh) * 2020-12-10 2021-03-16 东南大学 一种基于多源知识图谱的三元组可信评估方法
CN112818136A (zh) * 2021-02-26 2021-05-18 福州大学 一种基于时间卷积的交互知识表示学习模型tcim的预测方法
CN112860918A (zh) * 2021-03-23 2021-05-28 四川省人工智能研究院(宜宾) 一种基于协同演化建模的时序知识图谱表示学习方法
CN113190654A (zh) * 2021-05-08 2021-07-30 北京工业大学 一种基于实体联合嵌入和概率模型的知识图谱补全方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LIN GONG等: "Construction and evolution analysis of a technology network for product innovative design", 《2017 12TH IEEE CONFERENCE ON INDUSTRIAL ELECTRONICS AND APPLICATIONS (ICIEA)》 *
YAOPENG LIU等: "Event detection and evolution in multi-lingual social streams", 《FRONTIERS OF COMPUTER SCIENCE VOLUME》 *
刘怀;黄建新;: "一类分布式控制系统中带有优先约束的周期性任务容错调度方法", 小型微型计算机系统 *
崔员宁;李静;沈力;申扬;乔林;薄珏;: "Duration-HyTE:基于持续时间建模的时间感知知识表示学习方法", 计算机研究与发展 *
田满鑫;寿黎但;陈珂;江大伟;陈刚;: "一种基于实体时间敏感度的知识表示方法", 软件工程 *
陈浩;李永强;冯远静;: "基于多关系循环事件的动态知识图谱推理", 模式识别与人工智能 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062159A (zh) * 2022-06-13 2022-09-16 西南交通大学 基于联邦学习的多粒度动态知识图谱嵌入模型构造方法
CN115062159B (zh) * 2022-06-13 2024-05-24 西南交通大学 基于联邦学习的多粒度事件预警动态知识图谱嵌入模型构造方法

Also Published As

Publication number Publication date
CN114117064B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
Liu et al. Contextualized spatial–temporal network for taxi origin-destination demand prediction
Yao et al. Spatial origin-destination flow imputation using graph convolutional networks
Song et al. Prediction and simulation of human mobility following natural disasters
Dickerson et al. Two-site Voronoi diagrams in geographic networks
Xiang et al. A clustering-based surrogate-assisted multiobjective evolutionary algorithm for shelter location problem under uncertainty of road networks
Zhang et al. A Traffic Prediction Method of Bicycle-sharing based on Long and Short term Memory Network.
Chu et al. Passenger demand prediction with cellular footprints
Yue et al. Recent activities in Earth data science [technical committees]
US11816179B2 (en) Mobility and transportation need generator using neural networks
Luo et al. D3P: Data-driven demand prediction for fast expanding electric vehicle sharing systems
Laha et al. Edge nodes placement in 5G enabled urban vehicular networks: A centrality-based approach
CN114757389A (zh) 一种基于联邦学习的城市交通流量时空预测方法
CN114117064A (zh) 一种基于多时间粒度的知识动态演化方法及应用
Zhang et al. Graph-based traffic forecasting via communication-efficient federated learning
CN117079148B (zh) 城市功能区的识别方法、装置、设备和介质
Liao et al. Air quality prediction by integrating mechanism model and machine learning model
CN116528282B (zh) 覆盖场景识别方法、装置、电子设备和可读存储介质
Qiu et al. RPSBPT: A route planning scheme with best profit for taxi
CN107577727A (zh) 一种群体移动行为特性分析方法
Lai et al. A subpath-based logit model to capture the correlation of routes
ABBAS A survey of research into artificial neural networks for crime prediction
Yuan et al. A novel learning approach for citywide crowd flow prediction
CN113298314A (zh) 一种考虑动态时空相关性的轨道交通客流预测方法
Ishikawa et al. Towards construction of an explanation framework for whole processes of data analysis applications: concepts and use cases
Guillermo et al. Graph Query Language (GQL)-structured Algorithms for Geospatial Intelligence on Public Transportation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant