CN111932026B - 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法 - Google Patents

基于数据融合和知识图谱嵌入的城市流量模式挖掘方法 Download PDF

Info

Publication number
CN111932026B
CN111932026B CN202010878028.0A CN202010878028A CN111932026B CN 111932026 B CN111932026 B CN 111932026B CN 202010878028 A CN202010878028 A CN 202010878028A CN 111932026 B CN111932026 B CN 111932026B
Authority
CN
China
Prior art keywords
knowledge
encoder
layer
region
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010878028.0A
Other languages
English (en)
Other versions
CN111932026A (zh
Inventor
李天瑞
刘佳
谢鹏
杜圣东
滕飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202010878028.0A priority Critical patent/CN111932026B/zh
Publication of CN111932026A publication Critical patent/CN111932026A/zh
Application granted granted Critical
Publication of CN111932026B publication Critical patent/CN111932026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据融合和知识图谱嵌入的城市流量模式挖掘方法,包括步骤:多源异构数据预处理、实体提取和关系提取、多源数据融合和城市流量模式的知识三元组挖掘。本发明的有益效果在于,构建有效的城市交通流量知识图谱,可用于对不同日期和不同时间的交通流量进行预测,或者对整个城市相同的交通流量模式进行概览。

Description

基于数据融合和知识图谱嵌入的城市流量模式挖掘方法
技术领域
本发明涉及人工智能和知识图谱技术领域,特别是一种基于数据融合和知识图谱嵌入的城市流量模式挖掘方法。
背景技术
基于大数据的智能城市技术的创新发展对城市的发展和运行带来巨大的影响。城市计算是一个对城市多源异构大数据进行收集、融合和分析的过程,对解决城市中问题是有效的和有价值的。比如利用机器学习方法预测城市交通流量、城市空气质量和水质量,和缓解城市交通拥堵等。这些方法可以对将来某些时刻的结果进行有效地预测。更智能的,一些方法可以实现实时的预测。然而,这一类方法得到的结果都是瞬时的,只能分析城市离散的状态。通常,许多的城市状态在许多时刻都是相同的,比如工作日的早高峰和晚高峰。利用城市交通流的这个特性,如瞬时性、周期性和长期性,可以有效地优化预测结果。如果城市的状态能够被保留,可以直接得到城市的预测结果根据相同的状态下的特征。幸运地是,知识图谱的知识存储和高速反馈能力,对城市的连续状态和多方面的问题进行同时研究是非常有意义的。通过构建城市知识图谱,可以对城市的知识进行有效地的存储和运用。
近年来,基于城市知识图谱构建的研究还很少。城市计算方法的优点是其能够对城市多源异构大数据进行收集、融合和分析,知识图谱的优点是其具有知识存储和高速反馈能力。结合城市计算方法和知识图谱可以对城市的知识进行有效地存储和运用。
(1)城市知识图谱构建
参考文献1“Urban multi-source spatio-temporal data analysis awareknowledge graph embedding”(L.Zhao,H.Deng,L.Qiu,S.Li,Z.Hou,H.Sun and Y.Chen,Symmetry,vol.12,no.2,pp.199-217,2020)和参考文献2“Understanding peoplelifestyles:construction of urban movement knowledge graph from GPStrajectory”(C.Zhang,N.Yuan,R.Song,X.Xie and Q.Ma,IEEE IJCAI 2017,pp.3616-3623,2017)都借助自然语言处理技术从多源时空数据的提取实体和关系,并以词的形式保存。这些方法只是将多源时空数据中浅显的事实挖掘出来,这对城市的状态分析,比如车辆量分析,空气质量分析,没有显著的贡献。因为多源时空数据通过城市计算方法可以挖掘其更深层的特征,对这些深度特征进行保存和使用可以更好地分析城市的内在状态。
(2)城市知识图谱的应用
参考文献3“Building knowledge base of urban emergency events based oncrowdsourcing of social media”(X.Zheng,H.Zhang,C.Hu,L.Mei,J.Xuan,K.Choo andV.Zhu,Concurrency and Computation:Practice and Experience,vol.28,no.15,pp.4038-4052,2016)和参考文献4“Next poi recommendation via graph embeddingrepresentation from h-deepwalk on hybrid network”(K.Yang and J.Zhu,IEEEAccess,vol.7,pp.171105-171113,2019)是构建城市特定领域的知识图谱并将其分别应用到城市应急事件的捕捉和城市特性化POI(兴趣点,Point of Interest)推荐上。这些方法虽然都构建了城市范围内的领域知识图谱并进行应用,但其都是基于文本数据构建的知识图谱,即没有根据城市相应的时空数据的深度特征构建知识图谱。此外,不断地发展的城市的知识三元组也不是固定不变的,比如知识三元组在一段时间后可能会不成立,因此这些方法没有考虑时间对知识的影响。更多的是,构建的城市知识应该不仅只能解决一个领域的问题,还应该可以解决另一个领域的城市问题,比如如何利用城市应急事件知识图谱来进行城市个性化POI推荐。
发明内容
本发明的发明目的是提供一种基于数据融合和知识图谱嵌入的城市流量模式挖掘方法。
实现本发明的技术方案如下:
基于数据融合和知识图谱嵌入的城市流量模式挖掘方法,包括:
步骤1:多源异构数据预处理,包括:
对城市地图按经纬度划分为M×N个区域,并将每条轨迹的起始点ps和到达点pe分别映射到对应的起点区域和终点区域中;
计算在不同时间点所有区域之间的迁移量,得到时间序列迁移矩阵
Figure BDA0002653229220000031
其中,|v|表示所有区域的数量,|v|=M×N,T表示时间点的数量;
计算整个时间段每个区域的流量变化量,得到区域迁移矩阵
Figure BDA0002653229220000032
计算每两个区域之间的欧氏距离,得到区域相对距离矩阵
Figure BDA0002653229220000033
利用独热编码对每个区域的POI属性进行初始化编码,计算每两个区域之间的余弦相似度,得到区域POI语义相似度矩阵
Figure BDA0002653229220000034
步骤2:实体提取和关系提取,包括:
Figure BDA0002653229220000035
输入到LSTM自编码器的编码器中,获取特定的时间段内任意两个区域的迁移特征
Figure BDA0002653229220000036
其中,k是时间序列迁移矩阵的特征维度;所述LSTM自编码器由编码器和解码器组成,其中编码器由两层LSTM层和一层线性层构成,解码器和编码器具有相同的结构;
Figure BDA0002653229220000037
输入到2D-CNN自编码器中,得到区域的迁移特征
Figure BDA0002653229220000038
其中,k2是区域迁移矩阵的特征维度;所述2D-CNN自编码器由编码器和解码器组成,其中编码器由两层2D卷积层和一层线性层构成,解码器由第一上采样层、第一2D卷积层、激活层、第二上采样层和第二2D卷积层构成;
Figure BDA0002653229220000041
输入到另一个2D-CNN自编码器中,得到区域的相对距离特征
Figure BDA0002653229220000042
Figure BDA0002653229220000043
输入到1D-CNN自编码器中,得到区域的POI语义特征
Figure BDA0002653229220000044
所述1D-CNN自编码器由两层1D卷积层和一层线性层构成,解码器由第一上采样层、第一1D卷积层、激活层、第二上采样层和第二1D卷积层构成;
步骤3:多源数据融合,包括:
Figure BDA0002653229220000045
Figure BDA0002653229220000046
进行平均融合,即
Figure BDA0002653229220000047
得到融合结果
Figure BDA0002653229220000048
再将
Figure BDA0002653229220000049
Figure BDA00026532292200000410
进行连接融合,并加上一层线性层,得到提取出的实体,即V=Linear(Concat(V0,P));其中,Linear(·)表示线性层,Concat(·)表示连接融合;
通过POI转化层将
Figure BDA00026532292200000411
转化为区域之间的POI特征迁移
Figure BDA00026532292200000412
即P′Concat(Mul(pi,P)),i=1,2,3...|V|,pi∈P;其中,pi表示区域i的POI语义特征,Mul(a,b)表示矩阵a和b对应位相乘;
Figure BDA00026532292200000413
Figure BDA00026532292200000414
进行注意力融合,并加上一层线性层,得到提取出的关系,即R=Linear(Concat(R0,R0×Attention));其中,Attention为区域的注意力值,
Figure BDA00026532292200000415
Q是查询,K和A是键值对的集合,KT表示K的转置,d是作为比例因子的键向量的维数,softmax函数将注意力得分映射到(0,1)区间内;
步骤4:城市流量模式的知识三元组挖掘,包括:
将起点区域vs和终点区域ve分别作为知识三元组的头实体和尾实体,两个区域之间的交通流量模式r作为关系,构建初始化的知识三元组<vs,r,ve>;其中,vs∈V、ve∈V和r∈R;
随机用其它区域替换头实体和尾实体,得到伪知识三元组的集合S′={(vs′,r,ve)|vs′∈V}∪{(vs,r,ve′)|ve′∈V};其中,vs′和ve′分别表示生成的伪知识三元组中随机替换的头实体和尾实体;
定义将头实体和尾实体映射到关系所在平面中的映射矩阵
Figure BDA0002653229220000051
并将矩阵Q中的每一个元素值随机初始化;利用基于平移距离的方法训练映射矩阵Q,最终得到城市流量模式的知识三元组;训练映射矩阵Q的损失函数为
Figure BDA0002653229220000052
其中,S为知识三元组的集合;γ是超参数,作为知识三元组和伪知识三元组之间的边缘;
Figure BDA0002653229220000053
是二范数;
Figure BDA0002653229220000054
是防止过拟合的正则化项;[x]+是x的正的部分,即[x]+=max{0,x}。
本发明的有益效果在于,构建有效的城市交通流量知识图谱,可用于对不同日期和不同时间的交通流量进行预测,或者对整个城市相同的交通流量模式进行概览。
附图说明
图1是本发明的框架结构图。
图2是LSTM自编码器结构图。
图3是2D-CNN自编码器结构图。
图4(a)、图4(b)、图4(c)和图4(d)为工作日的交通流量模式图。其中,图4(a)为day1,图4(b)为day2,图4(c)为day3,图4(d)为day8。
图5(a)、图5(b)为周末的交通流量模式图。其中,图5(a)为day6,图5(b)为day7。
具体实施方式
以下结合附图对本发明进一步说明。
一、构建有效的城市交通流量知识图谱:
本发明的整体框架结构如图1所示,主要包括四个模块,分别是城市大数据预处理模块,关系和实体提取模块,数据融合模块和知识三元组挖掘模块。
如图2和图3所示,本发明的关系提取和实体提取分别利用LSTM自编码器和2D-CNN自编码器提取城市多源异构数据的深层特征。图2中的LSTM表示长短期记忆网络,是一种有效处理序列数据的深度学习方法。图3中的2D-CNN表示卷积核为2D的卷积神经网络,是一种通过卷积核提取数据特征的深度学习方法。
事实三元组的构建通过构建伪知识三元组和基于平移距离的方法实现。
本发明构建的知识三元组中,实体和关系都是城市时空大数据的深层特征,它们反应了城市交通流量的本质。同时,通过知识三元组的构建将实体和关系的嵌入表示都映射到同一空间中,因此可以使用这些知识三元组进行交通流量预测等工作,还可以用于对其它城市问题的研究,比如城市区域功能划分和辅助预测空气质量等。
链接预测实验也证明,通过基于多源异构数据融合和知识图谱嵌入挖掘的知识三元组具有较低的平均排名和较高的命中率,这表示链接预测的结果比其它现有的方法好,同时证明了通过挖掘城市时空数据的深度特征作为关系和实体的有效性。
二、预测不同日期和不同时间的交通流量:
利用构建的知识三元组预测不同日期和不同时间的交通流量实验,表明了构建的知识图谱在城市流量中的应用。预测结果的均方根误差(RMSE)表明了基于城市流量模型的知识图谱预测城市的交通流量的有效性。此外,通过和不加入区域的POI特征的方法对比,表明了区域间不同时间段的流量受到区域POI特征影响,且区域POI特征可以提高流量预测结果。
三、概览整个城市相同的交通流量模式:
以关系r为研究样本,构建的知识图谱中的一些关系所在的知识中的区域头实体和区域尾实体的POI特征都和r所在知识的区域头实体和区域尾实体是类似的。把这些关系相似的知识归到一个类别中,就可以对整个区域的不同流量变化趋势进行掌控。假设r具有早高峰严重拥堵的特征,就可以提前对整个区域的和r相似的拥堵问题制定缓解策略。因此,使用聚类方法(如k-means,密度聚类)对关系集合进行聚类,从而达到对知识聚类的效果。将聚类后的关系可视化,便可以概览整个城市相同的交通流量模式。
除了上述的这些分析和应用,交通流量趋势知识图谱在实际中还有很多应用,比如城市全局流量变化分布展示,个性化路线和出行时间推荐等。
实施例:
一种基于数据融合和知识图谱嵌入的城市流量模式挖掘方法,其步骤如下:
(1)多源异构数据预处理
首先,对城市地图按经纬度划分为M×N个区域,并将每条轨迹的起始点ps和到达点pe分别映射到对应的起点区域和终点区域中。然后,通过计算在不同时间点所有区域之间的迁移量得到时间序列迁移矩阵
Figure BDA0002653229220000071
其中
Figure BDA0002653229220000072
表示所有维度为x的矩阵,如
Figure BDA0002653229220000073
表示所有维度为|v|2×T的矩阵,|vl表示所有区域的数量,且|v|=M×N,T表示时间点的数量。通过计算整个时间段每个区域的流量变化量得到区域迁移矩阵
Figure BDA0002653229220000074
接着,根据划分的M×N个区域,通过计算每两个区域之间的欧氏距离得到区域相对距离矩阵
Figure BDA0002653229220000075
最后,利用独热编码(one-hot)对每个区域的POI属性(兴趣点,Point of Interest)进行初始化编码,并通过计算每两个区域之间的余弦相似度得到区域POI语义相似度矩阵
Figure BDA0002653229220000081
(2)实体提取和关系提取
将时间序列迁移矩阵
Figure BDA0002653229220000082
输入到LSTM自编码器中,在特定的时间段内任意两个区域的迁移特征
Figure BDA0002653229220000083
被获取。其中,k是时间序列迁移矩阵的特征维度。LSTM自编码器由编码器和解码器组成,其中编码器由两层LSTM层和一个层线性层组成,解码器和编码器具有相同的结构。将区域迁移矩阵
Figure BDA0002653229220000084
输入到2D-CNN自编码器中,得到区域的迁移特征
Figure BDA0002653229220000085
其中,k2是区域迁移矩阵的特征维度。2D-CNN自编码器也由编码器和解码器组成,其中编码器由两层2D卷积层和一层线性层构成,解码器由上采样层,2D卷积层,激活层,上采样层和2D卷积层构成。将区域相对距离矩阵
Figure BDA0002653229220000086
输入到另一个2D-CNN自编码器中,得到区域的相对距离特征
Figure BDA0002653229220000087
特征维度和区域的迁移特征
Figure BDA0002653229220000088
相同,为k2。将区域POI语义相似度矩阵
Figure BDA0002653229220000089
输入到1D-CNN自编码器中,得到区域的POI语义特征
Figure BDA00026532292200000810
特征维度也为k2。1D-CNN自编码器由编码器和解码器组成,其中编码器由两层1D卷积层和一层线性层构成,解码器由上采样层,1D卷积层,激活层,上采样层和1D卷积层构成。
(3)多源数据融合
通过平均融合方法对区域的迁移特征
Figure BDA00026532292200000811
和区域的相对距离特征
Figure BDA00026532292200000812
进行平均融合,平均融合的公式为
Figure BDA00026532292200000813
然后将得到的结果
Figure BDA00026532292200000814
和区域的POI语义特性
Figure BDA00026532292200000815
进行连接融合,并加上一层线性层
V=Linear(Concat(V0,P))
其中,Linear(·)表示线性层,Concat(·)表示连接融合,V表示提取出的实体。
Figure BDA0002653229220000091
中的每一个元素pi(pi∈P)表示区域i的POI语义特征,
Figure BDA0002653229220000092
中的每一个元素rij(rij∈R0)表示区域i和区域j的迁移特征。为了对它们进行融合,通过POI转化层将区域的POI语义特征
Figure BDA0002653229220000093
转化为区域之间的POI特征迁移
Figure BDA0002653229220000094
P′=Concat(Mul(pi,P))i=1,2,3...|V|,pi∈P
其中,pi表示区域i的POI语义特征,Mul(a,b)表示矩阵a和b对应位相乘。
通过区域的迁移特征
Figure BDA0002653229220000095
和POI特征迁移
Figure BDA0002653229220000096
计算不同区域的注意力值;注意力值的计算方法为
Figure BDA0002653229220000097
其中,Q是查询,K和V是键值对的集合,KT表示K的转置,d是作为比例因子的键向量的维数,softmax函数将注意力得分映射到(0,1)区间内。
通过基于注意力机制的融合方法对区域的迁移特征
Figure BDA0002653229220000098
区域之间的POI特征迁移
Figure BDA0002653229220000099
进行融合,并加上一层线性层
R=Linear(Concat(R0,R0×Attention))
其中R表示提取出的关系。
(4)城市流量模式的知识三元组挖掘
将起点区域vs(vs∈V)和终点区域ve(ve∈V)分别作为知识三元组的头实体和尾实体,两个区域之间的交通流量模式r(r∈R)作为关系,构建初始化的知识三元组<vs,r,ve>;随机用其它区域替换头实体和尾实体,得到伪知识三元组
S′={(vs′,r,ve)|vs′∈V}∪{(vs,r,ve′)|ve′∈V}
其中,S′是伪知识三元组集合,vs′和ve′分别表示生成的伪知识三元组中随机替换的头实体和尾实体,r表示知识三元组中的关系,V表示实体集合。
定义将头实体和尾实体映射到关系所在平面中的映射矩阵
Figure BDA0002653229220000101
并将矩阵Q中的每一个元素值随机初始化;利用基于平移距离的方法训练映射矩阵Q,最终得到城市流量模式的知识三元组。
训练映射矩阵Q的损失函数为
Figure BDA0002653229220000102
其中,S为城市流量模式的知识三元组;γ是一个超参数,作为知识三元组和伪知识三元组之间的边缘;
Figure BDA0002653229220000104
是二范数;
Figure BDA0002653229220000105
是一个防止过拟合的正则化项;[x]+是x的正的部分,即[x]+=max{0,x}。
仿真实验:
为了验证本发明方法的有效性,使用成都市订单数据,成都市区域的POI数据和POI查找表进行了实验,并与现有基于矩阵分解的方法(MF-based),无POI特征建模的本文方法(本发明-无POI)和无区域可逆特征建模的本文方法(本发明-无RD)做了比较。在以下的三个对比实验中,超参数的设置为2D-CNN自编码器中编码器的卷积核使用64个3*3和128个3*3大小的卷积,解码器的尺寸缩放因子分别为8和2,卷积核使用64个3*3和1个6*6大小的卷积,优化器使用Adam,batch为125;LSTM自编码器中学习率的取值范围为[0.001,0.004],2D-CNN自编码器中学习率的取值范围为[0.1,0.4]。
实验一
为了评估区域流量模式知识三元组的构建,使用了排序程序来进行链接预测任务。使用基于平移距离的得分函数来计算链接预测结果,可以评估输入数据的质量,即实体和关系。对于每个构建的三元组,尾实体被移除并被所有的实体按顺序替换。新构成的知识三元组的得分通过
Figure BDA0002653229220000103
计算并被按升序排列。通过计算正确实体的平均排名和其排在前5、10和20位的比例hits@5、hits@10和hits@20来评估。表1展示了不同方法的链接预测结果。
表1不同方法的链接预测结果
方法 平均排名 hits@5(%) hits@10(%) hits@20(%)
MF-based 943 15.8 27.1 47.7
本发明-无POI 484 30.2 37.4 62.2
本发明-无RD 402 37.8 45.4 50.2
本发明 312 44.5 51.9 64.5
从表1可以很明显地看出,本发明在4个指标上都比其它模型好。此外,在本发明-无POI的结果中,hits@20的值远远大于hits@10的值,这表明存在一部分区域受POI特征的影响不是很大。
实验二
为了更好地评估不同模型学习到的交通流量模式,用不同的交通流量模式来训练一个逻辑回归模型来预测不同区域之间的不同时间段的流量。均方根误差(RMSE)被用来评估预测的结果。表2展示了不同方法的交通流量预测结果。由于本发明-无RD方法是用于实体提取,而交通流量预测主要是根据关系的时序特征进行预测,因此本发明-无RD方法和本发明的结果是一致的,没有在表格中展示。
表2不同方法的交通流量预测结果
方法 MF-based 本发明-无POI 本发明
RMSE 0.3209 0.2745 0.234
从表2可以很明显地看出,基于城市流量模型的知识图谱预测城市的交通流量的准确率较高。通过和本发明-无POI方法的对比,表明了区域间不同时间段的流量受到区域POI特征影响,且区域POI特征可以提高流量预测结果。
实验三
根据关系对知识进行聚类后,对相同类别的一些知识进行分析。分别在四个种类中选取了十个知识进行展示,如图4和图5所示。图4和图5展示了交通流量模式不同种类的一些实例。相对于图4中的day1,day2,day3和day8的流量模式具有很小的变化,而图5中的day6和day7变化较大。其中,对于关系类别4,每天的流量模式几乎没有变化。可以得出类别4中的流量模式不会受节假日的影响。通常,类别4中流量趋势的稳定性比其它类别的好。在工作日的交通流量趋势越稳定,其受节假日的影响越大。从图4(a),图4(b),图4(c)和图4(d)中可以看出,在day2类别1中的一个流量模式发生了变化。根据其它图中r属于种类1的结果,可以认为在day2这两个区域之间的流量模式发生了变化,即这两个区域之间可能存在某种异常情况,如交通事故导致流量模式发生变化。

Claims (1)

1.基于数据融合和知识图谱嵌入的城市流量模式挖掘方法,其特征在于,包括:
步骤1:多源异构数据预处理,包括:
对城市地图按经纬度划分为M×N个区域,并将每条轨迹的起始点ps和到达点pe分别映射到对应的起点区域和终点区域中;
计算在不同时间点所有区域之间的迁移量,得到时间序列迁移矩阵
Figure FDA0002653229210000011
其中,|v|表示所有区域的数量,|v|=M×N,T表示时间点的数量;
计算整个时间段每个区域的流量变化量,得到区域迁移矩阵
Figure FDA0002653229210000012
计算每两个区域之间的欧氏距离,得到区域相对距离矩阵
Figure FDA0002653229210000013
利用独热编码对每个区域的POI属性进行初始化编码,计算每两个区域之间的余弦相似度,得到区域POI语义相似度矩阵
Figure FDA0002653229210000014
步骤2:实体提取和关系提取,包括:
Figure FDA0002653229210000015
输入到LSTM自编码器的编码器中,获取特定的时间段内任意两个区域的迁移特征
Figure FDA0002653229210000016
其中,k是时间序列迁移矩阵的特征维度;所述LSTM自编码器由编码器和解码器组成,其中编码器由两层LSTM层和一层线性层构成,解码器和编码器具有相同的结构;
Figure FDA0002653229210000017
输入到2D-CNN自编码器中,得到区域的迁移特征
Figure FDA0002653229210000018
其中,k2是区域迁移矩阵的特征维度;所述2D-CNN自编码器由编码器和解码器组成,其中编码器由两层2D卷积层和一层线性层构成,解码器由第一上采样层、第一2D卷积层、激活层、第二上采样层和第二2D卷积层构成;
Figure FDA0002653229210000019
输入到另一个2D-CNN自编码器中,得到区域的相对距离特征
Figure FDA00026532292100000110
Figure FDA0002653229210000021
输入到1D-CNN自编码器中,得到区域的POI语义特征
Figure FDA0002653229210000022
所述1D-CNN自编码器由两层1D卷积层和一层线性层构成,解码器由第一上采样层、第一1D卷积层、激活层、第二上采样层和第二1D卷积层构成;
步骤3:多源数据融合,包括:
Figure FDA0002653229210000023
Figure FDA0002653229210000024
进行平均融合,即
Figure FDA0002653229210000025
得到融合结果
Figure FDA0002653229210000026
再将
Figure FDA0002653229210000027
Figure FDA0002653229210000028
进行连接融合,并加上一层线性层,得到提取出的实体,即V=Linear(Concat(V0,P));其中,Linear(·)表示线性层,Concat(·)表示连接融合;
通过POI转化层将
Figure FDA0002653229210000029
转化为区域之间的POI特征迁移
Figure FDA00026532292100000210
即P'=Concat(Mul(pi,P)),i=1,2,3...|V|,pi∈P;其中,pi表示区域i的POI语义特征,Mul(a,b)表示矩阵a和b对应位相乘;
Figure FDA00026532292100000211
Figure FDA00026532292100000212
进行注意力融合,并加上一层线性层,得到提取出的关系,即R=Linear(Concat(R0,R0×Attention));其中,Attention为区域的注意力值,
Figure FDA00026532292100000213
Q是查询,K和A是键值对的集合,KT表示K的转置,d是作为比例因子的键向量的维数,softmax函数将注意力得分映射到(0,1)区间内;
步骤4:城市流量模式的知识三元组挖掘,包括:
将起点区域vs和终点区域ve分别作为知识三元组的头实体和尾实体,两个区域之间的交通流量模式r作为关系,构建初始化的知识三元组<vs,r,ve>;其中,vs∈V、ve∈V和r∈R;
随机用其它区域替换头实体和尾实体,得到伪知识三元组的集合S'={(vs',r,ve)|vs'∈V}∪{(vs,r,ve')|ve'∈V};其中,vs'和ve'分别表示生成的伪知识三元组中随机替换的头实体和尾实体;
定义将头实体和尾实体映射到关系所在平面中的映射矩阵
Figure FDA0002653229210000031
并将矩阵Q中的每一个元素值随机初始化;利用基于平移距离的方法训练映射矩阵Q,最终得到城市流量模式的知识三元组;训练映射矩阵Q的损失函数为
Figure FDA0002653229210000032
其中,S为知识三元组的集合;γ是超参数,作为知识三元组和伪知识三元组之间的边缘;
Figure FDA0002653229210000033
是二范数;
Figure FDA0002653229210000034
是防止过拟合的正则化项;[x]+是x的正的部分,即[x]+=max{0,x}。
CN202010878028.0A 2020-08-27 2020-08-27 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法 Active CN111932026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010878028.0A CN111932026B (zh) 2020-08-27 2020-08-27 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010878028.0A CN111932026B (zh) 2020-08-27 2020-08-27 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法

Publications (2)

Publication Number Publication Date
CN111932026A CN111932026A (zh) 2020-11-13
CN111932026B true CN111932026B (zh) 2022-03-04

Family

ID=73308349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010878028.0A Active CN111932026B (zh) 2020-08-27 2020-08-27 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法

Country Status (1)

Country Link
CN (1) CN111932026B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650949B (zh) * 2020-12-31 2023-12-29 东北大学 基于多源特征融合协同过滤的区域poi需求识别方法
CN112950944B (zh) * 2021-02-22 2023-10-20 华为技术有限公司 交通出行需求的估计方法、装置、设备及可读存储介质
CN113408786B (zh) * 2021-05-21 2023-03-14 浙江银江智慧交通工程技术研究院有限公司 一种交通特征预测方法及系统
CN113657934A (zh) * 2021-08-16 2021-11-16 京东城市(北京)数字科技有限公司 客流量预测模型的训练方法和客流量的预测方法和装置
CN113806419B (zh) * 2021-08-26 2024-04-12 西北大学 基于时空大数据的城市区域功能识别模型及识别方法
CN113837028B (zh) * 2021-09-03 2024-05-14 广州大学 一种基于时空知识图谱的道路流量分析方法和装置
CN114117064B (zh) * 2021-11-09 2023-05-26 西南交通大学 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法
CN113821702A (zh) * 2021-11-24 2021-12-21 中国电子科技集团公司第二十八研究所 一种城市多维空间多元异构信息数据处理方法
CN115269931B (zh) * 2022-09-28 2022-11-29 深圳技术大学 基于业务驱动的轨道交通车站数据图谱系统及其构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146241A (zh) * 2018-07-12 2019-01-04 同济大学 一种数据驱动的城市公交线路健康诊断方法
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111163086A (zh) * 2019-12-27 2020-05-15 北京工业大学 一种多源异构的网络安全知识图谱构建与应用方法
CN112687102A (zh) * 2020-12-23 2021-04-20 大连理工大学 基于知识图谱和深度时空卷积的城域交通流量预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146241A (zh) * 2018-07-12 2019-01-04 同济大学 一种数据驱动的城市公交线路健康诊断方法
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111163086A (zh) * 2019-12-27 2020-05-15 北京工业大学 一种多源异构的网络安全知识图谱构建与应用方法
CN112687102A (zh) * 2020-12-23 2021-04-20 大连理工大学 基于知识图谱和深度时空卷积的城域交通流量预测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Urban big data fusion based on deep learning:An overview;Jia Liu 等;《Information Fusion》;20190610;123-133 *
Urban flow pattern mining based on multi-source heterogeneous data fusion and knowledge graph embedding;Liu J 等;《IEEE Transactions on Konwledge and Data Engineering》;20210715;1 *
Urban flow prediction from spatiotemporal data using machine learning:A survey;Xie P 等;《Information fusion》;20200110;1-12 *
一种基于序列到序列时空注意力学习的交通流预测模型;杜圣东 等;《计算机研究与发展》;20200806;第57卷(第8期);1715-1728 *
基于多源数据融合的交通知识图谱构建及应用;邹易呈;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20210215(第2期);C034-721 *
组合知识图谱和深度学习的城市交通拥堵区域预测研究;周光临;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20180815(第8期);C034-177 *

Also Published As

Publication number Publication date
CN111932026A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111932026B (zh) 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法
CN109034448B (zh) 基于车辆轨迹语义分析和深度信念网络的轨迹预测方法
Long et al. Unified spatial-temporal neighbor attention network for dynamic traffic prediction
He et al. Mining spatiotemporal association patterns from complex geographic phenomena
Wen et al. Sequence-to-sequence learning for task-oriented dialogue with dialogue state representation
Ghaemi et al. LaSVM-based big data learning system for dynamic prediction of air pollution in Tehran
CN111368095A (zh) 基于水利知识-事理耦合网络的决策支持系统架构与方法
CN106874478A (zh) 基于Spark的并行化随机标签子集多标签文本分类方法
Wang et al. Preference-based spatial co-location pattern mining
CN108492561B (zh) 一种基于矩阵分解的路网交通状态时空特征分析方法
Zhang et al. RCL-Learning: ResNet and convolutional long short-term memory-based spatiotemporal air pollutant concentration prediction model
Zhang et al. Social media meets big urban data: A case study of urban waterlogging analysis
Liao et al. Integration of GP and GA for mapping population distribution
Wu et al. Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis
CN116681176A (zh) 一种基于聚类和异构图神经网络的交通流预测方法
CN115376317A (zh) 一种基于动态图卷积和时序卷积网络的交通流预测方法
Sun et al. Tourism demand forecasting of multi-attractions with spatiotemporal grid: a convolutional block attention module model
CN115545758A (zh) 城市服务设施自适应增量选址的方法和系统
CN109241070B (zh) 一种基于大数据的气象数据不一致性的时间维度统一方法
Yang Intelligent informatization early warning analysis of agricultural economy based on support vector sequential regression model
Xiong et al. Urban road speed prediction based on multisource feature bidirectional long short-term memory.
Tian et al. Md-Pred: A Multidimensional Hybrid Prediction Model Based on Machine Learning for Hotel Booking Cancellation Prediction
CN112883133B (zh) 基于时序数据和功能演变数据的流量预测方法
Ren et al. Application of the BP neural network model in the coordinated development of tourism economic networks in the Guangdong-Hong Kong-Macao greater bay area
Chen et al. Spatio-Temporal Dynamic Multi-graph Attention Network for Ride-Hailing Demand Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant