CN114117064B - 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法 - Google Patents

一种基于多时间粒度的知识动态演化的城市地铁流量预测方法 Download PDF

Info

Publication number
CN114117064B
CN114117064B CN202111337540.5A CN202111337540A CN114117064B CN 114117064 B CN114117064 B CN 114117064B CN 202111337540 A CN202111337540 A CN 202111337540A CN 114117064 B CN114117064 B CN 114117064B
Authority
CN
China
Prior art keywords
knowledge
time
characterization
vector
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111337540.5A
Other languages
English (en)
Other versions
CN114117064A (zh
Inventor
李天瑞
王德贤
黄维
刘佳
邓萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202111337540.5A priority Critical patent/CN114117064B/zh
Publication of CN114117064A publication Critical patent/CN114117064A/zh
Application granted granted Critical
Publication of CN114117064B publication Critical patent/CN114117064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多时间粒度的知识动态演化方法及应用。知识动态演化方法,首先将构建知识库中的知识四元组,然后将每个知识四元组向量化并拆分为三元组对应向量和时间向量,接着利用卷积网络对三元组对应向量进行初始化表征,并对时间向量进行粒度统一;然后将粒度统一的时间向量嵌入到三元组对应的表征向量中,并将其输入到三元组表征方法中进行表征;最后进行知识四元组挖掘,结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型,预测未来多个时间步的实体,实现知识四元组的动态演化。基于多时间粒度的知识动态演化方法,融合多个时间粒度的知识进行表征,可以提高模型的表征能力,更好地预测未来时刻的实体。

Description

一种基于多时间粒度的知识动态演化的城市地铁流量预测 方法
技术领域
本发明涉及人工智能和知识图谱技术领域,特别是一种基于多时间粒度的知识动态演化的城市地铁流量预测方法。
背景技术
随着5G时代的来临,城市中的数据呈爆炸式增长,将城市中高维、异构、多模态的数据进行收集、清洗和建模分析可为解决城市中痛点、难点问题提供重要的指导意义。例如,利用深度学习算法预测城市中的人流、车流,可更好规划城市中的交通;预测城市中的空气质量和水质量,可更好地进行城市环境管理。城市具有领域广、人员多、地域大等特点,每一时刻都有大量的多源异构数据产生,因此随着时间的迁移会产生海量的城市时序数据。如何将城市中庞大数据有机的组织起来,更好的挖掘出有利于城市发展的有效模式,知识图谱是一个有效的工具。
知识图谱能将特定时间内实体间的关系相互关联,并以知识的方式存储到知识库中。知识图谱快速的知识检索能力和高效的存储机制为城市知识挖掘提供了基础保证。动态预测知识库中实体间的关系变化是城市智能研究中的重要研究问题。
(1)城市知识库构建
参考文献1“Urban multi-source spatio-temporal data analysis awareknowledge graph embedding”(Zhao,L.,Deng,H.,Qiu,L.,Li,S.,Hou,Z.,Sun,H.,&Chen,Y.(2020).Symmetry,12(2),199.)和参考文献2“Follow a guide to solve urbanproblems:the creation and application of urban knowledge graph”(Shan,S.,&Cao,B.(2017).IET Software,11(3),126-134.)介绍了城市知识图谱是解决城市中问题的有效方法,是对城市高维、异构、多源数据进行挖掘的有效工具。研究提出了建立城市知识图谱的方法及框架,阐述了城市知识获取、推理和表达的方法。实例表明,城市知识图谱具有良好的应用前景。但这些方法只挖掘出多源时空数据中的一些浅显事实,对城市更精确的分析,如交通流量分析等,还没有进行深入的研究。
(2)基于时间感知的知识图谱
参考文献3“Hyte:Hyperplane-based temporally aware knowledge graphembedding”(Dasgupta,S.S.,Ray,S.N.,&Talukdar,P.(2018).In Proceedings ofthe2018conference on empirical methods in natural language processing(pp.2001-2011).),参考文献4“Towards time-aware knowledge graph completion”(Jiang,T.,Liu,T.,Ge,T.,Sha,L.,Chang,B.,Li,S.,&Sui,Z.(2016,December).InProceedings of COLING 2016,the 26th International Conference on ComputationalLinguistics:Technical Papers(pp.1715-1724).)和参考文献5“Diachronic embeddingfor temporal knowledge graph completion”(Goel,R.,Kazemi,S.M.,Brubaker,M.,&Poupart,P.(2020,April).In Proceedings of the AAAI Conference on ArtificialIntelligence(Vol.34,No.04,pp.3988-3995).)都是对具有时间属性的知识四元组进行表征的方法,并通过链接预测来验证模型的表征能力。但这些方法都是基于同一个时间粒度的知识四元组进行表征,它们无法对一个知识库中存在多个时间粒度的知识四元组进行表征,导致了很多重要的信息无法有效地融合到模型中,模型预测未来时刻实体或关系的准确率低,无法准确捕获知识动态演化规律。然而,在现实世界中,构建一个城市相关知识库一般都会存在多种时间粒度的知识,现有技术尚不能对多种时间粒度的知识进行表征。
发明内容
本发明的目的是提供一种基于多时间粒度的知识动态演化的城市地铁流量预测方法。
实现本发明目的的技术方案如下:
一种基于多时间粒度的知识动态演化的城市地铁流量预测方法,包括:步骤1、将知识四元组向量化,并拆分为三元组向量和时间向量;
1.1将Pq=(hs,r,te,τ)向量化为
Figure GDA0004180773060000031
其中,Pq=(hs,r,te,τ)为知识库PAll中第q个知识四元组,q∈{1,2,…,n},n为PAll中知识四元组的总数;hs为头实体,te为尾实体,r为hs和te间的关系,τ为hs与te产生r的时间;τ为多种时间粒度的任意一种;所述多种时间粒度,包括y-m-d、y-m-d-h、y-m-d-h1-h2、y-m-d-h-min和y-m-d-h-min1-min2;其中,y、m、d、h和min分别表示年、月、日、小时和分钟,h1、h2分别表示小时1、小时2,min1、min2分别表示分钟1、分钟2;hs∈E,te∈E,E表示PAll中所有实体的集合;r∈R,R表示PAll中所有实体关系的集合;τ∈Γ,Γ表示PAll中所有时间的集合;
Figure GDA0004180773060000032
|v|表示向量的长度,/>
Figure GDA0004180773060000033
分别对应Pq中的hs、r、te、τ;
1.2将
Figure GDA0004180773060000034
拆分为三元组向量/>
Figure GDA0004180773060000035
和时间向量/>
Figure GDA0004180773060000036
其中,
Figure GDA0004180773060000037
步骤2、对三元组向量进行初始化表征,对时间向量进行约束后融合;
2.1将
Figure GDA0004180773060000038
输入卷积神经网络,获得三元组向量的初始化表征向量
Figure GDA0004180773060000039
其中,/>
Figure GDA00041807730600000310
2.2将
Figure GDA00041807730600000311
的每一个分量进行表征:
Figure GDA00041807730600000312
Figure GDA00041807730600000313
Figure GDA0004180773060000041
其中,vy、vm、vd、vh和vmin分别为
Figure GDA0004180773060000042
的年、月、日、时和分钟分量,vh1和vh2分别为小时1和小时2分量,vmin1和vmin2分别为分钟1和分钟2分量;
2.3分别通过余弦函数cos(·)对表征后的年、月、日、时、分钟、小时1、小时2、分钟1和分钟2分量进行约束;
2.4融合约束后的分量,得到时间表征向量
Figure GDA0004180773060000043
步骤3、对时间表征向量
Figure GDA0004180773060000044
进行时间粒度统一,得到统一后的时间表征向量
Figure GDA0004180773060000045
其中,当/>
Figure GDA0004180773060000046
的时间粒度为y-m-d时,将其转化为y-m-d-h1-h2,h1=0,h2=24;当/>
Figure GDA0004180773060000047
的时间粒度为y-m-d-h时,将其转化为y-m-d-h1-h2,h1=h2=h;当/>
Figure GDA0004180773060000048
的时间粒度为y-m-d-h-min时,将其转化为y-m-d-h1-h2,h1=h2=h+min/60;当/>
Figure GDA0004180773060000049
的时间粒度为y-m-d-h-min1-min2时,将其转化为y-m-d-h1-h2,h1=h+min1/60,h2=h+min2/60;
步骤4、将统一后的时间表征向量嵌入到三元组向量的初始化表征向量,得到带有时间信息的知识三元组向量
Figure GDA00041807730600000410
其中,/>
Figure GDA00041807730600000411
Figure GDA00041807730600000412
表示向量的拼接;
步骤5、将知识库PAll中每个知识四元组经步骤1-4处理,得到带有时间信息知识三元组向量集{L1,L2,…Ln},再通过知识三元组表征方法进行表征;
步骤6、将实体表征信息和周期性的历史实体表征信息输入回归模型,预测得到未来时间步的实体,即演化后的知识四元组。
所述知识库PAll为城市地铁流量数据的知识四元组Pstation=(hs,r,te,τ),头实体hs为地铁站点,尾实体te为站点流量;r为站点和流量的关系,包括出站或者入站;τ为对应的时间。
上述技术方案的步骤5中,所述知识三元组表征方法为Trans系列表征、DistMult表征或深度表征。
进一步,所述知识库PAll,还包括基于所述城市地铁流量数据的POI知识四元组Ppoi=(hs,r,te,τ)和事件知识四元组Pevent=(hs,r,te,τ);其中,Ppoi=(hs,r,te,τ)的头实体hs为地铁站点,尾实体te为对应的POI,r为地铁站点周边的POI的数量;Pevent=(hs,r,te,τ)的头实体hs为地铁站点,尾实体te为对应的事件,r为地铁站点周边的事件的数量。
本发明的有益效果在于,
1、基于多时间粒度的知识动态演化方法,融合多个时间粒度的知识进行表征,可以提高模型的表征能力,更好地预测未来时刻的实体,实现知识的动态演化。
2、当基于多时间粒度的知识动态演化方法应用到具有多时间粒度特性的城市地铁流量数据演化时,具有更好的表征质量,能更好地预测未来时刻的地铁流量数据。
附图说明
图1为本发明框架结构示意图。
图2为卷积神经网络结构示意图示意。
图3为多时间粒度统一框架示意图。
图4为DistMult的表征框架示意图。
图5为实体预测框架示意图。
图6为流量(实体)预测结果图。
具体实施方式
本发明提供了一种基于多时间粒度的知识动态演化方法,包括:
步骤1:知识四元组的构建,包括:
令hs(hs∈E)为头实体,te(te∈E)为尾实体,E表示所有实体的集合,r(r∈R)为头实体hs和尾实体te间的关系,R为实体关系的集合,τ(τ∈Γ)为实体间产生关系的时间,τ存在多种时间粒度(如:y-m-d,y-m-d-h,y-m-d-h1-h2,y-m-d-h-min,y-m-d-h-min1-min2。其中,y、m、d、h和min分别表示年、月、日、小时和分钟,h1-h2和min1-min2表示时段),Γ为所有时间的集合。根据hs,r,te,τ来构建带有时间信息的知识四元组P=(hs,r,te,τ),令PAll表示知识库中所有的知识四元组。
步骤2:三元组向量初始化表征及时间向量约束表征,包括:
首先将知识库中的知识四元组Pq=(hs,r,te,τ)向量化为
Figure GDA0004180773060000061
hs,r,te,τ分别对应向量/>
Figure GDA0004180773060000062
其中,q表示知识四元组中的第q个四元组,|v|表示向量的长度。然后将向量化的四元组拆分为三元组(hs,r,te)对应的向量/>
Figure GDA0004180773060000063
和τ对应的时间向量/>
Figure GDA0004180773060000064
即为/>
Figure GDA0004180773060000065
再分别对Iq
Figure GDA0004180773060000066
进行初始化表征和时间向量约束。
Figure GDA0004180773060000067
输入到卷积神经网络,通过卷积神经网络捕获实体间的相关性,获得三元组对应向量的初始化表征/>
Figure GDA0004180773060000068
其中/>
Figure GDA0004180773060000069
对时间向量
Figure GDA00041807730600000610
进行约束,以时间格式为y-m-d-h为例,每个时间分量分别采用一个长度为|v|的向量进行表征。将时间信息y-m-d-h的四个分量初始化为
Figure GDA00041807730600000611
此外,通过余弦函数cos(·)对每个时间分量进行约束,实现时间周期性的表征约束。具体地,首先对y,m,d,h各个时间分量分别采用Iy=Iy*cos(Iy*year),Im=Im*cos(Im*month),Id=Id*cos(Id*day),Ih=Ih*cos(Ih*hour)进行约束表征,然后融合四个时间分量得到一个长度为|v|的时间表征向量
Figure GDA00041807730600000612
将知识库中所有的知识四元组都按以上步骤转化为初始化表征向量
Figure GDA0004180773060000071
和时间向量/>
Figure GDA0004180773060000072
其中n为知识库中知识四元组的总数。
步骤3:多时间粒度的统一,包括:
将时间向量
Figure GDA0004180773060000073
进行统一约束,把知识库中多种时间粒度统一到同一粒度。将/>
Figure GDA00041807730600000716
的时间信息转化为y-m-d-h1-h2的粒度来进行时间信息约束。当h1=h2时,表示为一个时间点,否则,当h1≠h2时,表示为一个时间段(h1小时到h2小时的时段)。具体地,当/>
Figure GDA0004180773060000074
的时间粒度为y-m-d时,将其转化为y-m-d-h1-h2,有h1=0,h2=24;当/>
Figure GDA0004180773060000075
的时间粒度为y-m-d-h时,将其转化为y-m-d-h1-h2,有h1=h2=h;当/>
Figure GDA0004180773060000076
的时间粒度为y-m-d-h-min1时,将其转化为y-m-d-h1-h2,有h1=h2=h+min/60;当/>
Figure GDA0004180773060000077
的时间粒度为y-m-d-h-min1-min2时,将其转化为y-m-d-h1-h2,有h1=h+min1/60,h2=h+min2/60。将/>
Figure GDA0004180773060000078
时间粒度统一为y-m-d-h1-h2,对应的时间向量表示为/>
Figure GDA0004180773060000079
由于
Figure GDA00041807730600000710
因此知识库中所有时间向量都被统一约束为/>
Figure GDA00041807730600000711
步骤4:带时间信息的知识三元组的嵌入表征和知识四元组的挖掘,包括:
将步骤3中统一时间粒度的向量
Figure GDA00041807730600000712
嵌入到步骤2中对应的初始化表征
Figure GDA00041807730600000713
中,得到带有时间信息的知识三元组对应向量
Figure GDA00041807730600000714
其中/>
Figure GDA00041807730600000715
表示向量的拼接操作。然后将所有带有时间信息的知识三元组对应向量{L1,L2,…Ln}输入到知识三元组表征方法(Trans系列表征、DistMult表征、深度表征等方法)进行表征。最后采用链接预测来验证表征性能,并结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型,预测未来多个时间步的实体,实现知识四元组的动态演化。
本发明采用交叉熵构建损失函数,如下所示:
Figure GDA0004180773060000081
这里tc表示候选实体,(hs(τ),r(τ),te(τ))表示四元组(hs,r,te,τ)的表征向量。
以下结合附图对本发明进一步说明。
本发明的整体框架结构如图1所示,主要包括4个模块,分别是知识库中知识四元组的构建模块,基于卷积神经网络的知识三元组初始化表征模块,多时间粒度统一模块,带时间信息的知识三元组的嵌入表征和知识四元组挖掘模块。
首先将构建知识库中的知识四元组P=(hs,r,te,τ);然后将每个知识四元组向量化并拆分为三元组(hs,r,te)对应向量和τ对应的时间向量,接着利用卷积网络对三元组对应向量进行初始化表征,并采用多时间粒度统一模块对时间向量进行粒度统一;然后将粒度统一的时间向量嵌入到三元组对应的表征向量中,并将其输入到DistMult表征模块中进行表征,最后进行知识四元组挖掘。分别采用链接预测来评价表征质量和结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型,预测未来多个时间步的实体,实现知识四元组的动态演化。
实施例:
一种基于多时间粒度的知识动态演化方法的应用,其步骤如下:
(1)知识四元组构建
令hs(hs∈E)为头实体,te(te∈E)为尾实体,E表示所有实体的集合,r(r∈R)为头实体hs和尾实体te间的关系,R为实体关系的集合,τ(τ∈Γ)为实体间产生关系的时间,τ存在多种时间粒度(如:y-m-d,y-m-d-h,y-m-d-h1-h2,y-m-d-h-min,y-m-d-h-min1-min2。其中y,m,d,h,min分别表示年,月,日,小时和分钟,h1-h2和min1-min2表示时段),Γ为所有时间的集合。根据hs,r,te,τ来构建带有时间信息的知识四元组P=(hs,r,te,τ),令PAll表示知识库中所有的知识四元组。
以构建基于城市地铁流量数据的知识四元组为例,令hs为头实体,用来表示地铁站点信息,te(te∈E)为尾实体用来表示出入站流量信息,E为所有实体的集合,r(r∈R)表示头实体hs和尾实体te间的关系(即站点和出入站流量的关系),R为关系的集合,τ(τ∈Γ)为实体产生关系的时间,Γ为时间的集合。基于城市地铁流量数据构建的知识四元组具有多时间粒度的特性,可利用基于多时间粒度的知识动态演化方法预测未来多个时间步的实体(即地铁流量),实现知识的动态演化。
当然,te(te∈E)为尾实体还可以用来表示外部信息(如POI、事件等),对应关系r(r∈R)表示与外部信息之间的关系,作为表征的辅助信息。
具体地,首先将地铁站点流量信息转化为知识四元组Pstation=(hs,r,te,τ)。hs为地铁站点,te为站点流量,r为站点和流量的关系:出站或者入站,τ为对应的时间;然后,通过站点对应的坐标信息,在高德地图API平台上获取在站点周边2公里之内的辅助信息,重点关注于对地铁流量有影响的POI(如:学校、商场、银行、机场、高等院校等人流影响较大的公共场所),对不同类别的POI赋予不同时段的时间属性,并将POI信息转化为和站点信息相关的知识四元组Ppoi=(hs,r,te,τ),其中hs为地铁站点,te为对应的POI(如:学校、商场、银行、机场、高等院校等),r站点周边2公里内的POI的数量;最后,对地铁周边2公里内的事件信息进行收集,并将其转化为知识四元组Pevent=(hs,r,te,τ),其中hs为地铁站点,te为对应的事件,r站点周边2公里内的事件的数量。因此,在知识库中有P∈{Pstation,Ppoi,Pevent}=PAll,其中P=(hs,r,te,τ)表示一个四元组。
(2)三元组向量初始化表征和时间向量的约束表征
首先将知识库中的知识四元组Pq=(hs,r,te,τ)向量化为
Figure GDA0004180773060000101
hs,r,te,τ分别对应向量/>
Figure GDA0004180773060000102
其中q表示知识四元组中的第q个四元组,|v|表示向量的长度。然后将向量化的四元组拆分为三元组(hs,r,te)对应的向量/>
Figure GDA0004180773060000103
和τ对应的时间向量/>
Figure GDA0004180773060000104
即为/>
Figure GDA0004180773060000105
再分别对Iq和/>
Figure GDA0004180773060000106
进行初始化表征和时间向量约束。
Figure GDA0004180773060000107
输入到卷积神经网络,通过卷积神经网络捕获实体间的相关性,获得三元组对应向量的初始化表征/>
Figure GDA0004180773060000108
其中/>
Figure GDA0004180773060000109
对时间向量
Figure GDA00041807730600001010
进行约束,以时间格式为y-m-d-h(即为:年-月-日-时)为例,每个时间分量分别采用一个长度为|v|的向量进行表征。将时间信息y-m-d-h的四个分量初始化为/>
Figure GDA00041807730600001011
此外,通过余弦函数cos(·)对每个时间分量进行约束,实现时间周期性的表征约束。具体地,首先对y,m,d,h各个时间分量分别采用Iy=Iy*cos(Iy*year),Im=Im*cos(Im*month),Id=Id*cos(Id*day),Ih=Ih*cos(Ih*hour)进行约束表征,然后融合四个时间分量得到一个长度为|v|的时间表征向量/>
Figure GDA00041807730600001012
将知识库中所有的知识四元组都按以上步骤转化为初始化表征向量
Figure GDA00041807730600001013
和时间向量/>
Figure GDA00041807730600001014
其中n为知识库中知识四元组的总数。
(3)多时间粒度统一
为了对知识库中粒度不一致的时间向量
Figure GDA00041807730600001015
进行统一约束,将/>
Figure GDA00041807730600001016
的时间信息转化为y-m-d-h1-h2的粒度来进行时间信息约束。当h1=h2时,表示为一个时间点,否则,当h1≠h2时,表示为一个时间段(h1小时到h2小时的时段)。具体地,当/>
Figure GDA00041807730600001017
的时间粒度为y-m-d时,将其转化为y-m-d-h1-h2,有h1=0,h2=24;当/>
Figure GDA00041807730600001018
的时间粒度为y-m-d-h时,将其转化为y-m-d-h1-h2,有h1=h2=h;当/>
Figure GDA0004180773060000111
的时间粒度为y-m-d-h-min1时,将其转化为y-m-d-h1-h2,有h1=h2=h+min/60;当/>
Figure GDA0004180773060000112
的时间粒度为y-m-d-h-min1-min2时,将其转化为y-m-d-h1-h2,有h1=h+min1/60,h2=h+min2/60。将/>
Figure GDA0004180773060000113
时间粒度统一为y-m-d-h1-h2,对应的时间向量表示为
Figure GDA0004180773060000114
由于
Figure GDA0004180773060000115
因此知识库中所有时间向量都被统一转化为/>
Figure GDA0004180773060000116
(4)基于DistMult的表征和知识四元组挖掘
将(3)中统一时间粒度的向量
Figure GDA0004180773060000117
嵌入到(2)中对应的初始化表征
Figure GDA0004180773060000118
中,得到带有时间信息的知识三元组对应向量
Figure GDA0004180773060000119
其中/>
Figure GDA00041807730600001110
表示向量的拼接操作。然后将所有带有时间信息的知识三元组对应向量{L1,L2,…Ln}输入到DistMul中进行表征。最后采用链接预测来验证表征性能,并结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型,预测未来多个时间步的实体,实现知识四元组的动态演化。本发明采用交叉熵构建损失函数,如下所示:
Figure GDA00041807730600001111
这里tc表示候选实体,(hs(τ),r(τ),te(τ))表示四元组(hs,r,te,τ)的表征向量。
仿真实验,
本实验采用重庆市地铁流量数据,重庆市地铁流量相关的POI数据和事件数据构建城市地铁流量知识图谱来验证本发明的有效性。此外,将本发明和DE-TransE算法和无POI建模的方法进行对比。
实验一
为了评估知识四元组的表征质量,使用链接预测评价实验效果。P=(hs,r,te,τ)中的头实体和尾实体通过其他头实体和尾实体进行替换,得到伪四元组。并采用hits@5(%),hits@10(%),hits@20(%)来评估进行表征质量,表示实体正确表征的排名平均在前5,10和20名的概率。表1展示了链接预测的结果。
表1不同方法的链接预测结果
方法 hits@5(%) hits@10(%) hits@20(%)
DE-TransE 60.8 67.1 77.1
本发明-无POI 78.6 82.2 86.5
本发明 80.8 84.9 88.4
从表1可以很明显地看出,本发明的3个指标都明显好于其他算法。本发明-无POI方法结果都低于本发明的结果,证明POI数据对地铁流量有一定影响。
实验二
如图5所示将所有实体表征信息和周期性的历史实体表征信息相结合,构建一个逻辑回归模型来预测未来4个时间步(1小时)的实体(即地铁流量)。从而得到未来时时间步对应的知识四元组,实现知识库中知识的动态演化。采用均方根RMSE来评价预测性能。如图6所示。
如图6的实验结果表明,本发明预测未来时间步对应实体(流量)准确率较高。与本发明-无POI方法相比,表明了地铁站附近POI数据可以提高地铁流量的预测效果。
本发明方法准确的预测了未来多个时间步的地铁流量值,可构建多个未来时间步对应的知识四元组,有效地实现了地铁流量知识库中知识的动态演化。

Claims (3)

1.一种基于多时间粒度的知识动态演化的城市地铁流量预测方法,其特征在于,包括:
步骤1、将知识四元组向量化,并拆分为三元组向量和时间向量;
1.1将Pq=(hs,r,te,τ)向量化为
Figure FDA0004180773050000011
其中,Pq=(hs,r,te,τ)为知识库PAll中第q个知识四元组,q∈{1,2,…,n},n为PAll中知识四元组的总数;hs为头实体,te为尾实体,r为hs和te间的关系,τ为hs与te产生r的时间;τ为多种时间粒度的任意一种;所述多种时间粒度,包括y-m-d、y-m-d-h、y-m-d-h1-h2、y-m-d-h-min和y-m-d-h-min1-min2;其中,y、m、d、h和min分别表示年、月、日、小时和分钟,h1、h2分别表示小时1、小时2,min1、min2分别表示分钟1、分钟2;hs∈E,te∈E,E表示PAll中所有实体的集合;r∈R,R表示PAll中所有实体关系的集合;τ∈Γ,Γ表示PAll中所有时间的集合;
Figure FDA0004180773050000012
v表示向量的长度,/>
Figure FDA0004180773050000013
分别对应Pq中的hs、r、te、τ;
1.2将
Figure FDA0004180773050000014
拆分为三元组向量/>
Figure FDA0004180773050000015
和时间向量/>
Figure FDA0004180773050000016
其中,
Figure FDA0004180773050000017
步骤2、对三元组向量进行初始化表征,对时间向量进行约束后融合;
2.1将
Figure FDA0004180773050000018
输入卷积神经网络,获得三元组向量的初始化表征向量
Figure FDA0004180773050000019
其中,/>
Figure FDA00041807730500000110
2.2将
Figure FDA00041807730500000111
的每一个分量进行表征:/>
Figure FDA00041807730500000112
Figure FDA00041807730500000113
Figure FDA00041807730500000114
其中,vy、vm、vd、vh和vmin分别为
Figure FDA00041807730500000115
的年、月、日、时和分钟分量,vh1和vh2分别为小时1和小时2分量,vmin1和vmin2分别为分钟1和分钟2分量;
2.3分别通过余弦函数cos(·)对表征后的年、月、日、时、分钟、小时1、小时2、分钟1和分钟2分量进行约束;
2.4融合约束后的分量,得到时间表征向量
Figure FDA0004180773050000021
步骤3、对时间表征向量
Figure FDA0004180773050000022
进行时间粒度统一,得到统一后的时间表征向量
Figure FDA0004180773050000023
其中,当/>
Figure FDA0004180773050000024
的时间粒度为y-m-d时,将其转化为y-m-d-h1-h2,h1=0,h2=24;当/>
Figure FDA0004180773050000025
的时间粒度为y-m-d-h时,将其转化为y-m-d-h1-h2,h1=h2=h;当/>
Figure FDA0004180773050000026
的时间粒度为y-m-d-h-min时,将其转化为y-m-d-h1-h2,h1=h2=h+min/60;当/>
Figure FDA0004180773050000027
的时间粒度为y-m-d-h-min1-min2时,将其转化为y-m-d-h1-h2,h1=h+min1/60,h2=h+min2/60;
步骤4、将统一后的时间表征向量嵌入到三元组向量的初始化表征向量,得到带有时间信息的知识三元组向量
Figure FDA0004180773050000028
其中,/>
Figure FDA0004180773050000029
Figure FDA00041807730500000210
表示向量的拼接;/>
步骤5、将知识库PAll中每个知识四元组经步骤1-4处理,得到带有时间信息知识三元组向量集{L1,L2,…Ln},再通过知识三元组表征方法进行表征;
步骤6、将实体表征信息和周期性的历史实体表征信息输入回归模型,预测得到未来时间步的实体,即演化后的知识四元组;
所述知识库PAll为城市地铁流量数据的知识四元组Pstation=(hs,r,te,τ),头实体hs为地铁站点,尾实体te为站点流量;r为站点和流量的关系,包括出站或者入站;τ为对应的时间。
2.如权利要求1所述的一种基于多时间粒度的知识动态演化的城市地铁流量预测方法,其特征在于,步骤5中,所述知识三元组表征方法为Trans系列表征、DistMult表征或深度表征。
3.如权利要求1所述的一种基于多时间粒度的知识动态演化的城市地铁流量预测方法,其特征在于,所述知识库PAll,还包括基于所述城市地铁流量数据的POI知识四元组Ppoi=(hs,r,te,τ)和事件知识四元组Pevent=(hs,r,te,τ);其中,Ppoi=(hs,r,te,τ)的头实体hs为地铁站点,尾实体te为对应的POI,r为地铁站点周边的POI的数量;Pevent=(hs,r,te,τ)的头实体hs为地铁站点,尾实体te为对应的事件,r为地铁站点周边的事件的数量。
CN202111337540.5A 2021-11-09 2021-11-09 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法 Active CN114117064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111337540.5A CN114117064B (zh) 2021-11-09 2021-11-09 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111337540.5A CN114117064B (zh) 2021-11-09 2021-11-09 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法

Publications (2)

Publication Number Publication Date
CN114117064A CN114117064A (zh) 2022-03-01
CN114117064B true CN114117064B (zh) 2023-05-26

Family

ID=80378684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111337540.5A Active CN114117064B (zh) 2021-11-09 2021-11-09 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法

Country Status (1)

Country Link
CN (1) CN114117064B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062159B (zh) * 2022-06-13 2024-05-24 西南交通大学 基于联邦学习的多粒度事件预警动态知识图谱嵌入模型构造方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489013A (zh) * 2020-03-11 2020-08-04 北京交通大学 一种基于时空多图卷积网络的交通站点流量预测方法
CN112215435A (zh) * 2020-11-02 2021-01-12 银江股份有限公司 一种基于循环自回归模型的城市拥堵传播模式的预测方法
CN112257934A (zh) * 2020-10-26 2021-01-22 辽宁工程技术大学 一种基于时空动态神经网络的城市人流预测方法
CN112395423A (zh) * 2020-09-09 2021-02-23 北京邮电大学 递归的时序知识图谱补全方法和装置
CN112732905A (zh) * 2020-12-08 2021-04-30 银江股份有限公司 一种基于知识图谱的交通事故分析与防控方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA200401420A1 (ru) * 2004-11-23 2005-06-30 Олег Анатольевич Грибков Способ построения информационной модели системы
FR3067495B1 (fr) * 2017-06-08 2019-07-05 Renault S.A.S Procede et systeme d'identification d'au moins un objet en deplacement
WO2020097221A1 (en) * 2018-11-08 2020-05-14 Evangelos Simoudis Systems and methods for managing vehicle data
CN110851614A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 知识图谱的关系预测推演方法及知识图谱的动态更新方法
CN110781316A (zh) * 2019-10-25 2020-02-11 南京航空航天大学 一种融合超平面和持续时间建模的时间感知知识表示学习方法
CN111144570B (zh) * 2019-12-27 2022-06-21 福州大学 一种联合逻辑规则和置信度的知识表示方法
CN111932026B (zh) * 2020-08-27 2022-03-04 西南交通大学 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法
CN112507130B (zh) * 2020-12-10 2024-06-28 东南大学 一种基于多源知识图谱的三元组可信评估方法
CN112818136A (zh) * 2021-02-26 2021-05-18 福州大学 一种基于时间卷积的交互知识表示学习模型tcim的预测方法
CN112860918B (zh) * 2021-03-23 2023-03-14 四川省人工智能研究院(宜宾) 一种基于协同演化建模的时序知识图谱表示学习方法
CN113190654B (zh) * 2021-05-08 2024-07-09 北京工业大学 一种基于实体联合嵌入和概率模型的知识图谱补全方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489013A (zh) * 2020-03-11 2020-08-04 北京交通大学 一种基于时空多图卷积网络的交通站点流量预测方法
CN112395423A (zh) * 2020-09-09 2021-02-23 北京邮电大学 递归的时序知识图谱补全方法和装置
CN112257934A (zh) * 2020-10-26 2021-01-22 辽宁工程技术大学 一种基于时空动态神经网络的城市人流预测方法
CN112215435A (zh) * 2020-11-02 2021-01-12 银江股份有限公司 一种基于循环自回归模型的城市拥堵传播模式的预测方法
CN112732905A (zh) * 2020-12-08 2021-04-30 银江股份有限公司 一种基于知识图谱的交通事故分析与防控方法及系统

Also Published As

Publication number Publication date
CN114117064A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
Huang et al. A study of deep learning networks on mobile traffic forecasting
CN111932026B (zh) 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法
US11836605B2 (en) Meteorological big data fusion method based on deep learning
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
Yue et al. Recent activities in Earth data science [technical committees]
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
Meng et al. Automatic classification of rural building characteristics using deep learning methods on oblique photography
CN115131627A (zh) 一种轻量化植物病虫害目标检测模型的构建和训练方法
CN114117064B (zh) 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法
Qu et al. Forecasting fine-grained urban flows via spatio-temporal contrastive self-supervision
CN113468320B (zh) 地震应急信息快速可视化方法及系统
CN116108984A (zh) 基于流量-poi因果关系推理的城市流量预测方法
Rong et al. GODDAG: generating origin-destination flow for new cities via domain adversarial training
CN117057471A (zh) 一种基于图多头注意力机制的小区用电预测方法
CN117113206A (zh) 一种轻量化的大尺度多元时间序列预测模型及其训练方法
CN116993043A (zh) 一种电力设备故障溯源方法及装置
CN116050523A (zh) 一种基于混合知识图的注意力引导增强的常识推理框架
CN114911930A (zh) 一种全局与局部互补的双向注意的视频问答方法与系统
Rathnayaka et al. Specialist vs generalist: A transformer architecture for global forecasting energy time series
CN109241070B (zh) 一种基于大数据的气象数据不一致性的时间维度统一方法
Gu et al. Predicting Urban Tourism Flow with Tourism Digital Footprints Based on Deep Learning.
Claramunt et al. Geographical Information Science observatories, theoretical and methodological transitions
CN113392493B (zh) 数字地球磁层的构建及基于数字地球磁层的时空计算方法
CN113626609B (zh) 电力计量知识图谱构建方法、装置、设备和存储介质
Wang et al. Generating Dynamic Urban Traffic Based on Stochastic Origin-Destination Matrix

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant