CN112906948B

CN112906948B - 一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质

Info

Publication number: CN112906948B
Application number: CN202110142859.6A
Authority: CN
Inventors: 肖竹; 方辉; 蔡成林; 蒋洪波; 陈红阳
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2023-12-22
Anticipated expiration: 2041-02-02
Also published as: CN112906948A

Abstract

本发明公开了一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质，方法为：获取城市大规模私家车的轨迹数据，从中提取每个时段私家车停留点信息并预处理；基于分布拟合模型，计算每个时段内私家车停留点的空间概率密度分布，用于表征城市区域在对应时段内的吸引力；使用历史时段内的空间概率密度分布作为训练样本，对预搭建的神经网络模型进行训练，得到城市区域吸引力预测模型；获取当前时段之前若干时段内的空间概率密度分布，使用城市区域吸引力预测模型进行滚动预测，获取得到目标预测时段内私家车停留点的空间概率密度分布，即为城市区域在目标预测时段的吸引力。本发明可以对城市区域未来时段内的吸引力提供有效准确的预测。

Description

一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质

技术领域

本发明涉及智能交通领域，尤其涉及一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质。

背景技术

随着世界范围内城市化和机动化的发展，汽车拥有量迅速增长，私家车作为一种便捷的出行方式，越来越多的人选择购买它来满足日常出行的需要，从而形成了大量的私家车行驶轨迹，特别地，出于购物、交易、工作等各种目的，人们开车到达指定区域后会停车一段时间(如熄火)，并参与相应的活动，这也暗示了城市区域对人们的吸引力。研究区域吸引力不仅有助于促进功能区管理和城市规划，也为揭示人类驾驶行为与城市生活节奏之间的关系提供了一种有前景的方式。

近年来，车辆轨迹数据吸引了越来越多的研究团体和工业界的兴趣。基于各种轨迹数据的研究，为发现人类旅游行为与城市吸引力之间的联系提供了一种可行的方法。然而，现有的基于出租车轨迹数据和智能卡数据的研究存在以下局限性。首先，为了避免交通拥堵，城市出租车出行通常是随机寻找客户，其目的地并不总是热点地区；其次，公共交通，如公交、地铁等，都有预先设定的路线和时间，停靠在固定的站点(即公交、地铁站点)。公共交通系统的客流统计数据可以描述交通高峰时段等几个特定时段的吸引力值，然而它并不适合所有时段的。此外，对于公交站点相对稀疏的区域，智能卡数据无法提供对城市区域吸引力的细粒度分析。

而驾驶私家车直接反映个人长期出行需求，私家车轨迹中的停等点(PoSs)及伴随停留行为表现出一定的聚集性。从城市空间的角度来看，很多人驾驶私家车前往特定的区域，比如城市中的工作场所或热点，然后停留一段时间，从本质上反映了城市的吸引力。受这些观察的启发，本发明通过研究私家车轨迹来解释城市区域吸引力，利用神经网络来捕获城市吸引力的时空演变。

发明内容

本发明提供一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质，使用私家车停留点的空间概率密度分布来表征城市吸引力，可以对城市区域未来时段内的吸引力提供有效准确的预测，为理解人类移动行为和城市流动性的演变提供了一个新的视角。

为实现上述技术目的，本发明采用如下技术方案：

一种基于私家车轨迹大数据的城市区域吸引力预测方法，包括以下步骤：

步骤1，获取城市大规模私家车的GPS、OBD数据，从中提取每个时段内的私家车停留点信息，并对数据进行预处理；

步骤2，基于预设计的分布拟合模型，将空间自适应地划分网格，计算每个时段内各个网格私家车停留点的空间概率密度分布，用于表征城市区域在对应时段内的吸引力；

步骤3，使用历史时段内的空间概率密度分布作为训练样本，对预搭建的神经网络模型进行训练，得到城市区域吸引力预测模型；

步骤4，获取当前时段之前若干时段内的空间概率密度分布，使用城市区域吸引力预测模型进行滚动预测，获取得到目标预测时段内私家车停留点的空间概率密度分布，即为城市区域在目标预测时段的吸引力。

在更优的技术方案中，步骤1中提取的私家车停留点信息包括车辆ID、车辆启动时间、车辆停车时间、停车经纬度，每个时段内的停留点由车辆上一段轨迹的停车时间确定；对数据预处理包括将停留点进行地图匹配和数据清洗，数据清洗是指删除含有数据缺失或数据异常的停留点信息，包括停车时间少于预设时长、适时内异常移动的轨迹数据。

在更优的技术方案中，所述预设计的分布拟合模型，采用高斯混合模型GMM、核密度估计KDE或者变分贝叶斯高斯混合模型VBGMM。

在更优的技术方案中，所述预设计的分布拟合模型采用变分贝叶斯高斯混合模型VBGMM；

首先，使用K个高斯模型组合得到高斯混合模型，来拟合私家车停留点的空间概率密度分布：

式中，P(x,y|Ω_k)表示坐标为(x,y)的停留点PoS在第k个高斯模型N(x,y|μ_k,Σ_k)中的概率密度值，Ω_k是第k个高斯模型的平均值μ_k、协方差矩阵Σ_k、权重ω_k这三个参数的简化形式；

然后，采用对数似然函数代替最大似然函数，最大限度地提高参数集的联合概率，得到最优分布模型，故每个时段内私家车停留点的空间概率密度分布的对数似然函数表达式为：

式中，z泛指引入的潜变量z_i1,z_i2,...z_ik，z_ik表示停留点i来自第k个高斯模型的概率，若为真则z_ik＝1，否则z_ik＝0，n_k表示所有N个停留点来自第k个高斯模型的概率之和；Ω指代高斯模型的三个参数：平均值μ_k、协方差矩阵Σ_k和权重ω_k，N(x,y|μ_k,Σ_k)为第k个高斯模型，N为停留点的数量；

其中，平均值μ_k、协方差矩阵Σ_k和权重ω_k这三个参数符合假设先验：权重ω_i符合狄利克雷分布权重，均值μ_k符合高斯分布，精度矩阵Σ_k符合Wishart分布；

最后，通过变分贝叶斯期望最大化计算出平均值μ_k、协方差矩阵Σ_k和权重ω_k这三个参数的最优解。

在更优的技术方案中，所述通过变分贝叶斯期望最大化计算出平均值μ_k、协方差矩阵Σ_k和权重ω_k这三个参数的最优解，包括以下两个步骤：

步骤一：将平均值μ_k、协方差矩阵Σ_k和权重ω_k这三个参数的分布代入空间概率密度分布的对数似然函数表达式，并计算期望，即得到停留点的后验概率分布为：

式中，α代表狄利克雷分布的参数，β_k,ε_k分别代表高斯分布的超参数和规模因子，ν_k,ξ_k分别表示Wishart分布的的可伸缩矩阵和自由度；

步骤二：最大化，即根据假设先验分布更新参数，使空间概率密度分布的对数似然函数收敛：

最后，得到近似后验分布Ω_k，即平均值μ_k、协方差矩阵Σ_k和权重ω_k这三个参数。

在更优的技术方案中，所述预搭建的神经网络模型，采用基于LSTM的循环神经网络模型，具体包括：全连接层、循环神经网络层，dropout层以及输出层，其中循环神经网络层包含两个，dropout层位于输出层之前，比率选为0.5。

在更优的技术方案中，所述预搭建的神经网络模型的相关参数为：优化器为“Adam”；损失为“MSE”；度量采用“accuracy”；选择“ReLU”为激活函数。

一种设备，包括处理器和存储器；其中：所述存储器用于存储计算机指令；所述处理器用于执行所述存储器存储的计算机指令，具体执行上述任一技术方案所述的方法。

一种计算机存储介质，用于存储程序，所述程序被执行时，用于实现上述任一技术方案所述的方法。

有益效果

本发明的有益效果为：(1)预处理私家车轨迹提取停留点PoS数据，设计变分贝叶斯高斯混合模型(VBGMM)来推导PoSs的密度分布，并将其与区域吸引力的变化联系起来。(2)通过在GMM中加入变分贝叶斯推理，避免陷入局部最优，可以有效地计算PoS的概率密度，从而表示城市吸引力。(3)建立了一个基于LSTM网络的深度学习模型，它是一种特殊的递归神经网络(RNN)的实现，避免了RNN的梯度消失和梯度爆炸问题，学习时间上的空间特征从而捕获区域吸引力的演变。

附图说明

图1为本发明的基于私家车轨迹的区域吸引力预测的流程示意图；

图2(a)、(b)分别为PoSs在深圳、广州地区的点分布，(c)、(d)分别为PoSs在深圳、广州地区的基于期望最大化算法的高斯混合模型分布，(e)、(f)分别为PoSs在深圳、广州地区的基于变分贝叶斯期望最大化算法的高斯混合模型分布；

图3表示本发明对于训练集和测试集的选择过程，横轴表示小时，纵轴表示周，一个虚线三角形围成的数据表示一次输入；

图4表示不同方法预测2018年5月31日14:00深圳地区的吸引力3D结果，(a)、(b)、(c)、(d)、(e)、(f)分别表示真实值、线性回归(LR)、多项式回归(PR)、支持向量回归(SVR)、长短时序列(LSTM)以及本发明提出的模型；

图5表示不同方法预测2018年5月31日14:00深圳地区的吸引力2D结果，(a)、(b)、(c)、(d)、(e)、(f)分别表示真实值、线性回归(LR)、多项式回归(PR)、支持向量回归(SVR)、长短时序列(LSTM)以及本发明提出的模型，线框为应该注意的部分；

图6表示不同方法预测2018年8月30日14:00广州地区的吸引力3D结果，(a)、(b)、(c)、(d)、(e)、(f)分别表示真实值、线性回归(LR)、多项式回归(PR)、支持向量回归(SVR)、长短时序列(LSTM)以及本发明提出的模型；

图7表示不同方法预测2018年8月30日14:00广州地区的吸引力2D结果，(a)、(b)、(c)、(d)、(e)、(f)分别表示真实值、线性回归(LR)、多项式回归(PR)、支持向量回归(SVR)、长短时序列(LSTM)以及本发明提出的模型，线框以及圆圈为应该注意的部分。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

本实施例提供一种基于私家车轨迹大数据的城市区域吸引力预测方法，参考图1所示，基于私家车轨迹大数据，从中提取了私家车停留点数据，采用高斯混合模型用来拟合停留点PoSs的空间分布，其中加入了变分推断来使高斯混合模型的参数选择达到最优，并且降低计算复杂度，最后得到空间概率密度分布，这里PoSs的空间概率密度分布就是城市区域吸引力。接着本发明利用神经网络算法来捕获吸引力分布的时空演变，即长短期记忆(LTSM)和dropout，首先将数据分割为训练集、验证集和测试集，再按时间步长将训练集和验证集喂入神经网络中，神经网络通过相应的激活函数选择对历史信息进行记忆、对现有信息进行更新和输出来优化模型，再将测试集输入训练好的神经网络中进行预测，输出最终的城市区域吸引力分布结果。具体包括以下步骤：

通过使用车辆定位和状态估计技术，将收集到的轨迹数据按单次行程(trip)存储在数据集中，每次行程包含车辆ID、起止时间、起止位置、行程里程、行程时间、油耗等信息。此外，还包括这些行程中的驾驶状态，如车辆速度、转向方向，点火熄火状态，从而可以直接筛选出私家车的停留点。考虑到数据的完整性和可用性，本发明删除了含有缺失ID信息、停车少于三分钟以及短时间内异常移动的轨迹数据，之后根据车辆ID和停车时间进行排序，以一小时为时间间隔，从私家车轨迹数据集中提取PoSs信息。

城市区域中某地区的停留点PoSs越多，说明该地区对居民的吸引力就越大,即空间概率密度分布密度越大，可以表示为A∝P，A表示吸引力，P表示空间概率密度分布。在空间域中，吸引力区域聚集在功能区的中心，其在功能区的强度从中心向周边边缘递减。此外，根据城市区域的空间关系，将PoSs分布看作是几个不同参数的高斯模型的组合，如商业区和住宅区等。受此启发，本发明使用高斯混合模型(GMM)来拟合城市区域PoSs的密度分布，即表征区域吸引力，它可以表示如下：

假设有K个高斯模型的混合，P(x,y|Ω_k)表示坐标为(x,y)的PoS在第k个高斯模型N(x,y|μ_k,Σ_k)中的概率密度值，Ω_k是第k个高斯模型的三个参数：平均值μ_k、协方差矩阵Σ_k、权重ω_k的简化形式。为了更加准确的计算Ω_k的值并且减少计算量，本发明采用对数似然函数代替最大似然函数，最大限度地提高参数集的联合概率，得到最优分布模型。引入潜变量z_i1,z_i2,...z_ik来表示每个停留点i来自第k个高斯模型的概率，若为真则z_ik＝1，否则z_ik＝0。因此包含N个PoSs的数据集，其空间分布的对数似然函数可以表示为：

由于上述对数似然函数的求和，导数的计算非常耗费计算资源。而采用EM迭代算法得到的传统GMM参数极易陷入局部最优。所以本发明将变分贝叶斯推理应用到GMM中，具体来说，假设先验三个参数:权重ω_i符合狄利克雷分布权重，均值μ_k符合高斯分布，精度矩阵Σ_k符合Wishart分布:

ω_i～Dir(ω_i|α)

μ_k～N(μ_k|β_k,(ε_k∑_k)^-1)

∑_k～W(∑_k|ν_k,ξ_k)

式中，α代表狄利克雷分布的参数，β_k,ε_k分别代表高斯分布的超参数和规模因子，ν_k,ξ_k分别表示Wishart分布的矩阵和自由。然后通过变分贝叶斯期望最大化计算出这些参数的最优解(VBEM)，它是EM的扩展，包括以下两个步骤：

步骤一：计算期望，即PoS的后验概率分布：

步骤二：最大化，即根据先验假设分布更新参数，使对数似然函数收敛:

最后，得到近似后验分布Ω_k，使模型证据(包括先验)的下界最大化，而不是数据似然函数，从而避免陷入局部最优的情况。

利用历史已知的数据按步骤1和步骤2进行处理得到历史时段内的空间概率密度分布，作为对预搭建的神经网络模型进行训练的训练样本，以得到城市区域吸引力预测模型。

其中，所述预搭建的神经网络模型，采用基于LSTM的循环神经网络模型，具体包括：全连接层、循环神经网络层，dropout层以及输出层，其中循环神经网络层包含两个，dropout层位于输出层之前，比率选为0.5。

LSTM包括遗忘门、输入门、输出门。遗忘门是根据当前的输入值和以前的输出值来决定是否丢弃当前输入信息。当区域吸引力变化较大时，为了避免对输入数据的依赖，要求以一定的概率遗忘部分的值。输入门决定了需要存储哪些新信息，它包含两个部分。首先它决定哪些值需要更新，其次，它创建新值作为候选值，而不是丢弃的值。另外，基于区域吸引力的不断变化，当前时刻区域吸引力的输出会影响历史区间的输出和输入，所以输出门通过两个激活函数来确定输出值。训练数据集滑动输入T_input和T_output，其中输入步长为n，对应的输出步长为1，滑入步长为5。然后使用递归神经网络对数据进行拟合，包括两层LSTMs和一个稠密层。此外，由于吸引力的变化并不表现为简单的线性关系，本发明选择ReLU为激活函数(AC)，它实现的稀疏模型能够更好地挖掘相关特征，对训练数据进行拟合，而且能够识别非线性因素。在使用激活函数之前，该值应该在0到1之间标准化，因为区域吸引力不存在负值。

在将训练样本输入之前进行归一化处理，然后放入LSTM中进行训练。模型的相关参数为：优化器为“Adam”；损失为“MSE”；度量采用“accuracy”；选择“ReLU”为激活函数。

为了实现多步预测，按照步骤1和步骤2获取当前时段之前n个时段(按照步长n)的空间概率密度分布，构成长度为n的空间概率密度分布序列，并输入训练得到的城市区域吸引力预测模型得到预测值，再将预测值放在输入序列的末尾进行更新，并预测下一个预测值，……，直到预测得到目标时段内私家车停留点的空间概率密度分布，即为城市区域在目标预测时段的吸引力。

本发明选择在深圳市和广州市采集到的数据进行实验。包括2018年4月至5月两个月8:00-18:00之间的私家车轨迹数据，共计56077次出行。先将区域划分为73x 137格，计算每个格的区域吸引力。用于训练的样本为400,040个，用于验证的样本为80,008个，用于测试的样本为60,006个。神经网络的相关参数如下：优化器为“Adam”；损失为“MSE”；度量采用“accuracy”；选择“ReLU”为激活函数，模型训练的批大小为512。实验选用MSE(mean squareerror，均方误差)、RMSE(root mean square error，均方根误差)、MAE(mean absoluteerror，平均绝对误差)、KL(Kullback-Leibler，KL散度)和R2(R-Square，卡方值)五个评价指标对实验结果进行评估：

p_i和分别表示真实值和预测值，/>为样本的均值。

本发明从三维视图的角度观察城市区域吸引力模型的性能。在图2(c)、(d)中，传统EM算法的高斯混合模型在建模区域吸引力时表现出了更多的尖峰和毛刺，这与现实的分布并不相符。而在图2(d)、(f)中，本发明设计了VBGMM方法来估计代表区域吸引力的PoS的概率密度，通过从参数的分布中寻找最优解，更好地建模了区域吸引力。在此基础上，为了捕获时间特征，即区域吸引力随时间的演化过程，本发明提出了一个LSTM-dropout方法来实现区域吸引力的预测，该方法捕获了区域吸引力的演化。根据可视化结果本发明所提方法均优于其他方法。图4、图5表示了三维可视化深圳市罗湖区的预测结果，在图4(a)中可以看到几个区域的峰值，这是由于火车站、多个大型商业广场之间的区域吸引力存在相互作用。基于LR和PR的吸引力预测结果中，单峰突出，导致周边区域弱化。SVR方法中，由于前区吸引力被后区错误的峰值减弱，误差较大。由于吸引力的分布呈现出复杂的非线性未知关系，LSTM算法和提出的方法包含一个多层神经网络，具有较高的学习记忆能力和快速找到最优解的能力。与其它一些简单的单层神经网络方法相比，它接近于任意非线性函数。但是因为二维分布预测要比典型的一维值预测复杂，大型神经网络耗时长，容易过拟合。因此，由于提出的方法增加了随机删除神经元的dropout，使得网络减少，训练阶段加快，从而获得更好的性能。

本发明所提出的方法在所有设置下均优于其他现有模型，在一系列指标MSE,RMSE,and MAE上对比传统的LSTM模型分别提高了218.40％，78.44％，和53.02％。综上，本发明的模型在可视化和量化分析方面均优于其他方法。

以下表格为本发明实验中所使用的数据样本示例以及指标比较，其中表1为本发明的所使用的私家车轨迹大数据样本示例；表2为本发明的模型在深圳数据集上，与LR、PR、SVR、LSTM的误差比较，其度量标准包括MSE、RMSE、MAE、KL、R2；表3为本发明的模型在广州数据集上，与LR、PR、SVR、LSTM的误差比较，其度量标准包括MSE、RMSE、MAE、KL、R2。

表1

ObjectID	StartTime	StopTime	StopLon	StopLat
					103284	2018/4/4 19:24	2018/4/5 6:44	114.1144	22.533
104783	2018/5/25 10:30	2018/5/27 14:27	114.0966	22.56981
					104814	2018/6/8 11:05	2018/6/15 15:14	114.0625	22.53711

表2

	MSE	RMSE	MAE	KL	R2
						LR	0.10069	0.31732	0.21330	0.04846	0.58228
PR	0.09646	0.31058	0.20983	inf	0.61035
						SVR	0.14197	0.37679	0.28131	0.19175	0.51853
LSTM	0.07425	0.27249	0.17426	0.02914	0.87588
						Proposed	0.02332	0.15271	0.11386	0.04204	0.93480

表3

	MSE	RMSE	MAE	KL	R2
						LR	0.01296	0.11386	0.08632	inf	0.68733
PR	0.00729	0.08537	0.05720	inf	0.78611
						SVR	0.00835	0.09139	0.06579	inf	0.63921
LSTM	0.00748	0.08649	0.05868	inf	0.79848
						Proposed	0.00504	0.07099	0.04913	0.04192	0.87757

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种基于私家车轨迹大数据的城市区域吸引力预测方法，其特征在于，包括以下步骤：

所述预设计的分布拟合模型采用变分贝叶斯高斯混合模型VBGMM；

式中，P(x,y|Ω_k)表示坐标为(x,y)的停留点PoS在第k个高斯模型N(x,y|μ_k,∑_k)中的概率密度值，Ω_k是第k个高斯模型的平均值μ_k、协方差矩阵∑_k、权重ω_k这三个参数的简化形式；

式中，z泛指引入的潜变量z_i1,z_i2,...z_ik，z_ik表示停留点i来自第k个高斯模型的概率，若为真则z_ik＝1，否则z_ik＝0，n_k表示所有N个停留点来自第k个高斯模型的概率之和；Ω指代高斯模型的三个参数：平均值μ_k、协方差矩阵∑_k和权重ω_k，N(x,y|μ_k,∑_k)为第k个高斯模型，N为停留点的数量；

其中，平均值μ_k、协方差矩阵∑_k和权重ω_k这三个参数符合假设先验：权重ω_i符合狄利克雷分布权重，均值μ_k符合高斯分布，精度矩阵∑_k符合Wishart分布；

最后，通过变分贝叶斯期望最大化计算出平均值μ_k、协方差矩阵∑_k和权重ω_k这三个参数的最优解；

2.根据权利要求1所述的方法，其特征在于，步骤1中提取的私家车停留点信息包括车辆ID、车辆启动时间、车辆停车时间、停车经纬度，每个时段内的停留点由车辆上一段轨迹的停车时间确定；对数据预处理包括将停留点进行地图匹配和数据清洗，数据清洗是指删除含有数据缺失或数据异常的停留点信息，包括停车时间少于预设时长、适时内异常移动的轨迹数据。

3.根据权利要求1所述的方法，其特征在于，所述预设计的分布拟合模型，采用高斯混合模型GMM、核密度估计KDE或者变分贝叶斯高斯混合模型VBGMM。

4.根据权利要求1所述的方法，其特征在于，所述通过变分贝叶斯期望最大化计算出平均值μ_k、协方差矩阵∑_k和权重ω_k这三个参数的最优解，包括以下两个步骤：

步骤一：将平均值μ_k、协方差矩阵∑_k和权重ω_k这三个参数的分布代入空间概率密度分布的对数似然函数表达式，并计算期望，即得到停留点的后验概率分布为：

式中，α代表狄利克雷分布的参数，β_k,ε_k分别代表高斯分布的超参数和规模因子，ν_k，ξ_k分别表示Wishart分布的可伸缩矩阵和自由度；

最后，得到近似后验分布Ω_k，即平均值μ_k、协方差矩阵∑_k和权重ω_k这三个参数。

5.根据权利要求1所述的方法，其特征在于，所述预搭建的神经网络模型，采用基于LSTM的循环神经网络模型，具体包括：全连接层、循环神经网络层，dropout层以及输出层，其中循环神经网络层包含两个，dropout层位于输出层之前，比率选为0.5。

6.根据权利要求5所述的方法，其特征在于，所述预搭建的神经网络模型的相关参数为：优化器为“Adam”；损失为“MSE”；度量采用“accuracy”；选择“ReLU”为激活函数。

7.一种设备，其特征在于，包括处理器和存储器；其中：所述存储器用于存储计算机指令；所述处理器用于执行所述存储器存储的计算机指令，具体执行如权利要求1-6任一所述的方法。

8.一种计算机存储介质，其特征在于，用于存储程序，所述程序被执行时，用于实现如权利要求1-6任一所述的方法。