CN111932026B

CN111932026B - 基于数据融合和知识图谱嵌入的城市流量模式挖掘方法

Info

Publication number: CN111932026B
Application number: CN202010878028.0A
Authority: CN
Inventors: 李天瑞; 刘佳; 谢鹏; 杜圣东; 滕飞
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2022-03-04
Anticipated expiration: 2040-08-27
Also published as: CN111932026A

Abstract

本发明公开了一种基于数据融合和知识图谱嵌入的城市流量模式挖掘方法，包括步骤：多源异构数据预处理、实体提取和关系提取、多源数据融合和城市流量模式的知识三元组挖掘。本发明的有益效果在于，构建有效的城市交通流量知识图谱，可用于对不同日期和不同时间的交通流量进行预测，或者对整个城市相同的交通流量模式进行概览。

Description

基于数据融合和知识图谱嵌入的城市流量模式挖掘方法

技术领域

本发明涉及人工智能和知识图谱技术领域，特别是一种基于数据融合和知识图谱嵌入的城市流量模式挖掘方法。

背景技术

基于大数据的智能城市技术的创新发展对城市的发展和运行带来巨大的影响。城市计算是一个对城市多源异构大数据进行收集、融合和分析的过程，对解决城市中问题是有效的和有价值的。比如利用机器学习方法预测城市交通流量、城市空气质量和水质量，和缓解城市交通拥堵等。这些方法可以对将来某些时刻的结果进行有效地预测。更智能的，一些方法可以实现实时的预测。然而，这一类方法得到的结果都是瞬时的，只能分析城市离散的状态。通常，许多的城市状态在许多时刻都是相同的，比如工作日的早高峰和晚高峰。利用城市交通流的这个特性，如瞬时性、周期性和长期性，可以有效地优化预测结果。如果城市的状态能够被保留，可以直接得到城市的预测结果根据相同的状态下的特征。幸运地是，知识图谱的知识存储和高速反馈能力，对城市的连续状态和多方面的问题进行同时研究是非常有意义的。通过构建城市知识图谱，可以对城市的知识进行有效地的存储和运用。

近年来，基于城市知识图谱构建的研究还很少。城市计算方法的优点是其能够对城市多源异构大数据进行收集、融合和分析，知识图谱的优点是其具有知识存储和高速反馈能力。结合城市计算方法和知识图谱可以对城市的知识进行有效地存储和运用。

(1)城市知识图谱构建

参考文献1“Urban multi-source spatio-temporal data analysis awareknowledge graph embedding”(L.Zhao,H.Deng,L.Qiu,S.Li,Z.Hou,H.Sun and Y.Chen,Symmetry,vol.12,no.2,pp.199-217,2020)和参考文献2“Understanding peoplelifestyles:construction of urban movement knowledge graph from GPStrajectory”(C.Zhang,N.Yuan,R.Song,X.Xie and Q.Ma,IEEE IJCAI 2017,pp.3616-3623,2017)都借助自然语言处理技术从多源时空数据的提取实体和关系，并以词的形式保存。这些方法只是将多源时空数据中浅显的事实挖掘出来，这对城市的状态分析，比如车辆量分析，空气质量分析，没有显著的贡献。因为多源时空数据通过城市计算方法可以挖掘其更深层的特征，对这些深度特征进行保存和使用可以更好地分析城市的内在状态。

(2)城市知识图谱的应用

参考文献3“Building knowledge base of urban emergency events based oncrowdsourcing of social media”(X.Zheng,H.Zhang,C.Hu,L.Mei,J.Xuan,K.Choo andV.Zhu,Concurrency and Computation:Practice and Experience,vol.28,no.15,pp.4038-4052,2016)和参考文献4“Next poi recommendation via graph embeddingrepresentation from h-deepwalk on hybrid network”(K.Yang and J.Zhu,IEEEAccess,vol.7,pp.171105-171113,2019)是构建城市特定领域的知识图谱并将其分别应用到城市应急事件的捕捉和城市特性化POI(兴趣点，Point of Interest)推荐上。这些方法虽然都构建了城市范围内的领域知识图谱并进行应用，但其都是基于文本数据构建的知识图谱，即没有根据城市相应的时空数据的深度特征构建知识图谱。此外，不断地发展的城市的知识三元组也不是固定不变的，比如知识三元组在一段时间后可能会不成立，因此这些方法没有考虑时间对知识的影响。更多的是，构建的城市知识应该不仅只能解决一个领域的问题，还应该可以解决另一个领域的城市问题，比如如何利用城市应急事件知识图谱来进行城市个性化POI推荐。

发明内容

本发明的发明目的是提供一种基于数据融合和知识图谱嵌入的城市流量模式挖掘方法。

实现本发明的技术方案如下：

基于数据融合和知识图谱嵌入的城市流量模式挖掘方法，包括：

步骤1：多源异构数据预处理，包括：

对城市地图按经纬度划分为M×N个区域，并将每条轨迹的起始点p_s和到达点p_e分别映射到对应的起点区域和终点区域中；

计算在不同时间点所有区域之间的迁移量，得到时间序列迁移矩阵

其中，|v|表示所有区域的数量，|v|＝M×N，T表示时间点的数量；

计算整个时间段每个区域的流量变化量，得到区域迁移矩阵

计算每两个区域之间的欧氏距离，得到区域相对距离矩阵

利用独热编码对每个区域的POI属性进行初始化编码，计算每两个区域之间的余弦相似度，得到区域POI语义相似度矩阵

步骤2：实体提取和关系提取，包括：

将

输入到LSTM自编码器的编码器中，获取特定的时间段内任意两个区域的迁移特征

其中，k是时间序列迁移矩阵的特征维度；所述LSTM自编码器由编码器和解码器组成，其中编码器由两层LSTM层和一层线性层构成，解码器和编码器具有相同的结构；

将

输入到2D-CNN自编码器中，得到区域的迁移特征

其中，k₂是区域迁移矩阵的特征维度；所述2D-CNN自编码器由编码器和解码器组成，其中编码器由两层2D卷积层和一层线性层构成，解码器由第一上采样层、第一2D卷积层、激活层、第二上采样层和第二2D卷积层构成；

将

输入到另一个2D-CNN自编码器中，得到区域的相对距离特征

将

输入到1D-CNN自编码器中，得到区域的POI语义特征

所述1D-CNN自编码器由两层1D卷积层和一层线性层构成，解码器由第一上采样层、第一1D卷积层、激活层、第二上采样层和第二1D卷积层构成；

步骤3：多源数据融合，包括：

对

和

进行平均融合，即

得到融合结果

再将

和

进行连接融合，并加上一层线性层，得到提取出的实体，即V＝Linear(Concat(V₀，P))；其中，Linear(·)表示线性层，Concat(·)表示连接融合；

通过POI转化层将

转化为区域之间的POI特征迁移

即P′Concat(Mul(p_i，P))，i＝1，2，3...|V|，p_i∈P；其中，pi表示区域i的POI语义特征，Mul(a，b)表示矩阵a和b对应位相乘；

将

和

进行注意力融合，并加上一层线性层，得到提取出的关系，即R＝Linear(Concat(R₀，R₀×Attention))；其中，Attention为区域的注意力值，

Q是查询，K和A是键值对的集合，K^T表示K的转置，d是作为比例因子的键向量的维数，softmax函数将注意力得分映射到(0，1)区间内；

步骤4：城市流量模式的知识三元组挖掘，包括：

将起点区域v_s和终点区域v_e分别作为知识三元组的头实体和尾实体，两个区域之间的交通流量模式r作为关系，构建初始化的知识三元组<v_s，r，v_e>；其中，v_s∈V、v_e∈V和r∈R；

随机用其它区域替换头实体和尾实体，得到伪知识三元组的集合S′＝{(v_s′，r，v_e)|v_s′∈V}∪{(v_s，r，v_e′)|v_e′∈V}；其中，v_s′和v_e′分别表示生成的伪知识三元组中随机替换的头实体和尾实体；

定义将头实体和尾实体映射到关系所在平面中的映射矩阵

并将矩阵Q中的每一个元素值随机初始化；利用基于平移距离的方法训练映射矩阵Q，最终得到城市流量模式的知识三元组；训练映射矩阵Q的损失函数为

其中，S为知识三元组的集合；γ是超参数，作为知识三元组和伪知识三元组之间的边缘；

是二范数；

是防止过拟合的正则化项；[x]₊是x的正的部分，即[x]₊＝max{0，x}。

本发明的有益效果在于，构建有效的城市交通流量知识图谱，可用于对不同日期和不同时间的交通流量进行预测，或者对整个城市相同的交通流量模式进行概览。

附图说明

图1是本发明的框架结构图。

图2是LSTM自编码器结构图。

图3是2D-CNN自编码器结构图。

图4(a)、图4(b)、图4(c)和图4(d)为工作日的交通流量模式图。其中，图4(a)为day1，图4(b)为day2，图4(c)为day3，图4(d)为day8。

图5(a)、图5(b)为周末的交通流量模式图。其中，图5(a)为day6，图5(b)为day7。

具体实施方式

以下结合附图对本发明进一步说明。

一、构建有效的城市交通流量知识图谱：

本发明的整体框架结构如图1所示，主要包括四个模块，分别是城市大数据预处理模块，关系和实体提取模块，数据融合模块和知识三元组挖掘模块。

如图2和图3所示，本发明的关系提取和实体提取分别利用LSTM自编码器和2D-CNN自编码器提取城市多源异构数据的深层特征。图2中的LSTM表示长短期记忆网络，是一种有效处理序列数据的深度学习方法。图3中的2D-CNN表示卷积核为2D的卷积神经网络，是一种通过卷积核提取数据特征的深度学习方法。

事实三元组的构建通过构建伪知识三元组和基于平移距离的方法实现。

本发明构建的知识三元组中，实体和关系都是城市时空大数据的深层特征，它们反应了城市交通流量的本质。同时，通过知识三元组的构建将实体和关系的嵌入表示都映射到同一空间中，因此可以使用这些知识三元组进行交通流量预测等工作，还可以用于对其它城市问题的研究，比如城市区域功能划分和辅助预测空气质量等。

链接预测实验也证明，通过基于多源异构数据融合和知识图谱嵌入挖掘的知识三元组具有较低的平均排名和较高的命中率，这表示链接预测的结果比其它现有的方法好，同时证明了通过挖掘城市时空数据的深度特征作为关系和实体的有效性。

二、预测不同日期和不同时间的交通流量：

利用构建的知识三元组预测不同日期和不同时间的交通流量实验，表明了构建的知识图谱在城市流量中的应用。预测结果的均方根误差(RMSE)表明了基于城市流量模型的知识图谱预测城市的交通流量的有效性。此外，通过和不加入区域的POI特征的方法对比，表明了区域间不同时间段的流量受到区域POI特征影响，且区域POI特征可以提高流量预测结果。

三、概览整个城市相同的交通流量模式：

以关系r为研究样本，构建的知识图谱中的一些关系所在的知识中的区域头实体和区域尾实体的POI特征都和r所在知识的区域头实体和区域尾实体是类似的。把这些关系相似的知识归到一个类别中，就可以对整个区域的不同流量变化趋势进行掌控。假设r具有早高峰严重拥堵的特征，就可以提前对整个区域的和r相似的拥堵问题制定缓解策略。因此，使用聚类方法(如k-means，密度聚类)对关系集合进行聚类，从而达到对知识聚类的效果。将聚类后的关系可视化，便可以概览整个城市相同的交通流量模式。

除了上述的这些分析和应用，交通流量趋势知识图谱在实际中还有很多应用，比如城市全局流量变化分布展示，个性化路线和出行时间推荐等。

实施例：

一种基于数据融合和知识图谱嵌入的城市流量模式挖掘方法，其步骤如下：

(1)多源异构数据预处理

首先，对城市地图按经纬度划分为M×N个区域，并将每条轨迹的起始点p_s和到达点p_e分别映射到对应的起点区域和终点区域中。然后，通过计算在不同时间点所有区域之间的迁移量得到时间序列迁移矩阵

其中

表示所有维度为x的矩阵，如

接着，根据划分的M×N个区域，通过计算每两个区域之间的欧氏距离得到区域相对距离矩阵

最后，利用独热编码(one-hot)对每个区域的POI属性(兴趣点，Point of Interest)进行初始化编码，并通过计算每两个区域之间的余弦相似度得到区域POI语义相似度矩阵

(2)实体提取和关系提取

将时间序列迁移矩阵

输入到LSTM自编码器中，在特定的时间段内任意两个区域的迁移特征

被获取。其中，k是时间序列迁移矩阵的特征维度。LSTM自编码器由编码器和解码器组成，其中编码器由两层LSTM层和一个层线性层组成，解码器和编码器具有相同的结构。将区域迁移矩阵

输入到2D-CNN自编码器中，得到区域的迁移特征

其中，k₂是区域迁移矩阵的特征维度。2D-CNN自编码器也由编码器和解码器组成，其中编码器由两层2D卷积层和一层线性层构成，解码器由上采样层，2D卷积层，激活层，上采样层和2D卷积层构成。将区域相对距离矩阵

输入到另一个2D-CNN自编码器中，得到区域的相对距离特征

特征维度和区域的迁移特征

相同，为k₂。将区域POI语义相似度矩阵

输入到1D-CNN自编码器中，得到区域的POI语义特征

特征维度也为k₂。1D-CNN自编码器由编码器和解码器组成，其中编码器由两层1D卷积层和一层线性层构成，解码器由上采样层，1D卷积层，激活层，上采样层和1D卷积层构成。

(3)多源数据融合

通过平均融合方法对区域的迁移特征

和区域的相对距离特征

进行平均融合，平均融合的公式为

然后将得到的结果

和区域的POI语义特性

进行连接融合，并加上一层线性层

V＝Linear(Concat(V₀，P))

其中，Linear(·)表示线性层，Concat(·)表示连接融合，V表示提取出的实体。

中的每一个元素p_i(p_i∈P)表示区域i的POI语义特征，

中的每一个元素r_ij(r_ij∈R₀)表示区域i和区域j的迁移特征。为了对它们进行融合，通过POI转化层将区域的POI语义特征

转化为区域之间的POI特征迁移

P′＝Concat(Mul(p_i，P))i＝1，2，3...|V|，p_i∈P

其中，p_i表示区域i的POI语义特征，Mul(a，b)表示矩阵a和b对应位相乘。

通过区域的迁移特征

和POI特征迁移

计算不同区域的注意力值；注意力值的计算方法为

其中，Q是查询，K和V是键值对的集合，KT表示K的转置，d是作为比例因子的键向量的维数，softmax函数将注意力得分映射到(0，1)区间内。

通过基于注意力机制的融合方法对区域的迁移特征

区域之间的POI特征迁移

进行融合，并加上一层线性层

R＝Linear(Concat(R₀，R₀×Attention))

其中R表示提取出的关系。

(4)城市流量模式的知识三元组挖掘

将起点区域v_s(v_s∈V)和终点区域v_e(v_e∈V)分别作为知识三元组的头实体和尾实体，两个区域之间的交通流量模式r(r∈R)作为关系，构建初始化的知识三元组<v_s，r，v_e>；随机用其它区域替换头实体和尾实体，得到伪知识三元组

S′＝{(v_s′，r，v_e)|v_s′∈V}∪{(v_s，r，v_e′)|v_e′∈V}

其中，S′是伪知识三元组集合，v_s′和v_e′分别表示生成的伪知识三元组中随机替换的头实体和尾实体，r表示知识三元组中的关系，V表示实体集合。

定义将头实体和尾实体映射到关系所在平面中的映射矩阵

并将矩阵Q中的每一个元素值随机初始化；利用基于平移距离的方法训练映射矩阵Q，最终得到城市流量模式的知识三元组。

训练映射矩阵Q的损失函数为

其中，S为城市流量模式的知识三元组；γ是一个超参数，作为知识三元组和伪知识三元组之间的边缘；

是二范数；

是一个防止过拟合的正则化项；[x]₊是x的正的部分，即[x]₊＝max{0，x}。

仿真实验：

为了验证本发明方法的有效性，使用成都市订单数据，成都市区域的POI数据和POI查找表进行了实验，并与现有基于矩阵分解的方法(MF-based)，无POI特征建模的本文方法(本发明-无POI)和无区域可逆特征建模的本文方法(本发明-无RD)做了比较。在以下的三个对比实验中，超参数的设置为2D-CNN自编码器中编码器的卷积核使用64个3*3和128个3*3大小的卷积，解码器的尺寸缩放因子分别为8和2，卷积核使用64个3*3和1个6*6大小的卷积，优化器使用Adam，batch为125；LSTM自编码器中学习率的取值范围为[0.001，0.004]，2D-CNN自编码器中学习率的取值范围为[0.1，0.4]。

实验一

为了评估区域流量模式知识三元组的构建，使用了排序程序来进行链接预测任务。使用基于平移距离的得分函数来计算链接预测结果，可以评估输入数据的质量，即实体和关系。对于每个构建的三元组，尾实体被移除并被所有的实体按顺序替换。新构成的知识三元组的得分通过

计算并被按升序排列。通过计算正确实体的平均排名和其排在前5、10和20位的比例hits@5、hits@10和hits@20来评估。表1展示了不同方法的链接预测结果。

表1不同方法的链接预测结果

方法	平均排名	hits@5(％)	hits@10(％)	hits@20(％)
					MF-based	943	15.8	27.1	47.7
本发明-无POI	484	30.2	37.4	62.2
					本发明-无RD	402	37.8	45.4	50.2
本发明	312	44.5	51.9	64.5

从表1可以很明显地看出，本发明在4个指标上都比其它模型好。此外，在本发明-无POI的结果中，hits@20的值远远大于hits@10的值，这表明存在一部分区域受POI特征的影响不是很大。

实验二

为了更好地评估不同模型学习到的交通流量模式，用不同的交通流量模式来训练一个逻辑回归模型来预测不同区域之间的不同时间段的流量。均方根误差(RMSE)被用来评估预测的结果。表2展示了不同方法的交通流量预测结果。由于本发明-无RD方法是用于实体提取，而交通流量预测主要是根据关系的时序特征进行预测，因此本发明-无RD方法和本发明的结果是一致的，没有在表格中展示。

表2不同方法的交通流量预测结果

方法	MF-based	本发明-无POI	本发明
				RMSE	0.3209	0.2745	0.234

从表2可以很明显地看出，基于城市流量模型的知识图谱预测城市的交通流量的准确率较高。通过和本发明-无POI方法的对比，表明了区域间不同时间段的流量受到区域POI特征影响，且区域POI特征可以提高流量预测结果。

实验三

根据关系对知识进行聚类后，对相同类别的一些知识进行分析。分别在四个种类中选取了十个知识进行展示，如图4和图5所示。图4和图5展示了交通流量模式不同种类的一些实例。相对于图4中的day1，day2，day3和day8的流量模式具有很小的变化，而图5中的day6和day7变化较大。其中，对于关系类别4，每天的流量模式几乎没有变化。可以得出类别4中的流量模式不会受节假日的影响。通常，类别4中流量趋势的稳定性比其它类别的好。在工作日的交通流量趋势越稳定，其受节假日的影响越大。从图4(a)，图4(b)，图4(c)和图4(d)中可以看出，在day2类别1中的一个流量模式发生了变化。根据其它图中r属于种类1的结果，可以认为在day2这两个区域之间的流量模式发生了变化，即这两个区域之间可能存在某种异常情况，如交通事故导致流量模式发生变化。