CN112598165A

CN112598165A - 基于私家车数据的城市功能区转移流量预测方法及装置

Info

Publication number: CN112598165A
Application number: CN202011452777.3A
Authority: CN
Inventors: 肖竹; 刘晨曦; 王东; 刘代波; 蒋洪波
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-04-02
Anticipated expiration: 2040-12-11
Also published as: CN112598165B

Abstract

本发明公开了一种城市功能区转移流量预测方法及装置，其方法为：首先，采集城市中私家车的GPS和OBD数据，从中提取私家车的停留点数据，根据经纬度信息为所有停留点数据匹配POI语义标签；然后，根据停留点数据统计每个时间片段内位于各功能区的转移流量，并构建功能区域之间的流量转移矩阵，进而构建训练样本和预测样本；最后，使用训练样本对预设的转移流量预测模型进行训练，训练后即可用于对预测样本在目标时间段的车辆转移流量进行预测。本发明的预测模型捕获了训练样本的时间相关性和时空相关性，预测功能区之间的转移流量，且预测准确率高。

Description

基于私家车数据的城市功能区转移流量预测方法及装置

技术领域

本发明主要涉及城市计算和智能交通领域，尤其涉及基于私家车数据的城市功能区转移流量预测方法及装置。

背景技术

为高效满足日常需求，越来越多的人通过开私家车在不同类别的功能区之间移动，从而在各功能区之间产生转移流量。准确的预测功能区之间的转移流量，对于兴趣点POI推荐、城市规划和交通管制等应用具有重要的指导意义。

近些年来，如何挖掘城市功能区并分析和预测功能区之间的转移流量，已逐渐受到国内外学者的重视，成为城市计算领域的一大研究热点。现有技术通过挖掘轨迹数据发现城市功能区，而在此基础之上继续研究功能区之间的移动性的工作比较少。而在这些现有技术中，采用的都是一些比较传统的聚类方法(k-均值、基于密度的噪声应用空间聚类DBSCAN)。这些传统的方法都需要繁琐的数据处理和复杂的参数选择过程，并且没有考虑到空间中地理的关联性以及丢失了轨迹数据中比较重要的时间维度的信息。因此，如何利用轨迹中完整的空间和时间信息挖掘城市功能区且预测功能区之间的转移流量是十分必要的。

发明内容

本发明提供一种基于私家车数据的城市功能区转移流量预测方法及装置，利用私家车轨迹中完整的空间和时间信息，从中挖掘城市功能区并预测功能区之间的转移流量，预测准确率高。

为实现上述技术目的，本发明采用如下技术方案：

基于私家车数据的城市功能区转移流量预测方法，包括以下步骤：

步骤1，采集城市中私家车在预设历史时间段内的GPS和OBD数据，从中提取私家车的停留点数据，所述停留点数据至少包括经纬度信息和时间戳；另外还采集该城市的POI数据，所述POI数据中包括经纬度信息和POI语义标签；

步骤2，利用POI数据并根据经纬度信息为所有停留点数据匹配POI语义标签，并为匹配POI语义标签后的停留点数据进行聚类，根据聚类簇得到N个功能区；

步骤3，将预设历史时间段划分为num₁个时间片段，每个时间片段的时间长度为L；根据停留点数据统计每个时间片段内位于各功能区的转移流量，所述转移流量是指车辆持续的转移行为的数量；

针对每个时间片段，均以N个功能区分别作为行和列构建N×N的转移流量矩阵，且转移流量矩阵中的每一项代表功能区的转移流量；将得到的num₁个转移流量矩阵，时序化为序列长度为num₁的转移流量图像时间序列；

步骤4，使用转移流量图像时间序列对预设的转移流量预测模型进行训练；

步骤5，按照与预设历史时间段内的转移流量图像时间序列相同的获取方法，获取当前预设时间段内的转移流量图像时间序列，使用步骤4中训练得到的转移流量预测模型对目标时间段的转移流量进行预测。

在更优的技术方案中，步骤2中所述的利用POI数据并根据经纬度信息为所有停留点数据匹配POI语义标签，采用概率生成模型实现，具体过程为：

将每个私家车用户的停留点向量化为F＝{s₁,s₂,...,s_j,...}，其中s_i是以距离阈值r为半径范围内中的POI的数量与城市中POI总数的比率；设F符合高斯混合分布，则为F匹配POI语义标签的过程为：

其中，F_j为第j个停留点的特征向量；

m是一个计数器，表示从第一个停留点开始，N为停留点的总个数，

p表示概率密度：

c为POI的语义标签；

u_c为语义标签c的均值；

Σ_c为语义标签c的协方差矩阵

γ(F_j,c)为输出的匹配结果，表示F中不同的停留点及其对应的语义标签；

N(F|u,Σ)为高斯混合分布的概率密度函数；

采用最大期望EM算法计算融合过程的参数最大似然估计，选择最大似然估计中最大的POI作为停留点的语义标签，EM算法的具体过程如下：

式中，π_c为计算得到的最大似然估计。

在更优的技术方案中，步骤2中所述的利用POI数据并根据经纬度信息为所有停留点数据匹配POI语义标签，具体为：选择与停留点距离最近的POI类型，作为该停留点的语义标签。

在更优的技术方案中，采用基于密度的空间聚类算法对停留点数据进行聚类。

在更优的技术方案中，根据聚类簇得到N个功能区具体为：设聚类得到N'个簇，计算每个簇的POI分布，然后将POI分布相同且距离小于预设距离阈值的簇合并为一个功能区，最终得到N个功能区。

在更优的技术方案中，所述预设的转移流量预测模型包括时间特征提取器和空间特征提取器；转移流量图像时间序列输入至时间特征提取器，由时间特征提取器从转移流量图像时间序列中提取时间特征，并将提取的时间特征输入至空间特征提取器，由空间特征提取器提取时空特征，输出包括时空特征的特征图，即为转移流量预测模型输出的转移流量图像。

在更优的技术方案中，所述时间特征提取器采用时间注意力网络，所述时间注意力网络的计算公式为：

A_t＝F_fc(A₀,W)＝σ(g(A₀,W))＝σ(W₂ξ(W₁A₀))

M_w＝F_scale(S_w,A_t)＝A_t·S_w

其中，S_w为输入的转移流量图像时间序列，F_p为池化函数，A₀为池化函数的输出，C为转移流量图像的行数，W为S_w中转移流量图像的个数，S_w(i,j)为S_w中第j个转移流量图像的第i行；F_fc为一个全连接层，用于归一化；A_t为全连接层F_fc的输出，σ()为sigmoid激活函数，g()和ξ()分别为两个不同的聚合函数，W、W₁、W₂均为权重向量；F_scale为升维函数。

在更优的技术方案中，所述空间特征提取器采用3D卷积神经网络，3D卷积神经网络包括输入层、卷积层、池化层、全连接层以及输出层，其中所述卷积层包括2层结构为3×1×1的空间卷积核，2层结构为1×3×3的时间卷积核和2层结构为3×1×3的时空卷积核；

在训练迭代过程中引用Dropout方法来缓解网络过分拟合；

所述卷积层和全连接层中使用Adam梯度下降算法，对卷积层和全连接层的参数进行优化。

在更优的技术方案中，使用转移流量图像时间序列对预设的转移流量预测模型进行训练，具体为：

从转移流量图像时间序列中任意截取num₂+1个转移流量图像，前num₂个转移流量图像作为输入样本，最后1个转移流量图像作为输出标签，即得到1个训练样本；循环该步骤，直到得到num₁-num₂个不同的训练样本；使用num₁-num₂个不同的训练样本对预设的转移流量预测模型进行训练；

使用训练得到的转移流量预测模型对目标时间段的转移流量进行预测，具体为：

(1)选择以当前时间为终点、时间长度为num₂*L的时间段作为当前预设时间段，按步骤1和步骤3相同方法获取当前预设时间段对应的预测样本，将预测样本输入至步骤4中训练得到的转移流量预测模型，输出当前时间的下一时间片段对应的转移流量图像；

(2)将预测样本中第一个转移流量图像从预测样本中删除，并将上一步得到的转移流量图像添加到预测样本的最后，构成新的预测样本，将新的预测样本输入至步骤4中训练得到的转移流量预测模型，输出当前预测样本对应时间段的下一时间片段的转移流量图像；

(3)重复步骤(2)，直到得到目标时间段的转移流量图像。

基于私家车数据的城市功能区转移流量预测装置，包括：

停留点数据提取模块，用于：采集城市中私家车在预设历史时间段内的GPS和OBD数据，从中提取私家车的停留点数据，所述停留点数据至少包括经纬度信息和时间戳；另外还采集该城市的POI数据，所述POI数据中包括经纬度信息和POI语义标签；

功能区识别模块，用于：利用POI数据并根据经纬度信息为所有停留点数据匹配POI语义标签，并为匹配POI语义标签后的停留点数据进行聚类，根据聚类簇得到N个功能区；

训练数据获取模块，用于：将预设历史时间段划分为num₁个时间片段，每个时间片段的时间长度为L，根据停留点数据统计每个时间片段内位于各功能区的转移流量，所述转移流量是指车辆持续的转移行为的数量；

模型训练模块，用于：使用转移流量图像时间序列对预设的转移流量预测模型进行训练；

转移流量预测模块，用于：按照与预设历史时间段内的转移流量图像时间序列相同的获取方法，获取当前时间预设时间段内的转移流量图像时间序列，使用步骤4中训练得到的转移流量预测模型对目标时间段的转移流量进行预测。

有益效果

本发明通过从车辆轨迹数据中提取数据量少、价值高的停留点数据，避免了现有技术中由于时空轨迹数据庞大使得时空轨迹数据分析任务日趋繁重的问题；通过挖掘私家车的停留点数据能够高效地分析城市交通状况；通过将预定区域划分为多个功能区，对预定时间段内功能区之间的车辆转移流量进行统计，并将统计的结果转为转移矩阵，有利于全局感知城市区域内的交通状况变化的过程；通过预测模型对输入的多帧图像数据进行训练，能够准确地预测未来转移流量的演变趋势，便于管理部门有依据地检查异常转移流量；通过训练后的预测模型对预测样本进行预测，能够满足短时预测的需求，并且大大降低了模型训练的代价，增加了预测的有效性和可靠性。

附图说明

图1为本发明实施例所述方法的流程示意图；

图2为本发明实施例所述的转移流量矩阵，矩阵的行和列分别代表了不同功能区，矩阵中的每一项代表功能区的转移流量；

图3为本发明实施例所述的时间注意力网络的具体结构；

图4为本发明实施例所述的时空卷积神经网络的具体结构；

图5(a)和(b)分布为在长沙和深圳数据上，预测步长T增加，本发明提出的方法在MAE指标上的性能；

图5(c)和(d)分布为在长沙和深圳数据上，预测步长T增加，本发明提出的方法在RMSE指标上的性能；

图6(a)、(c)和(e)为分别长沙数据集在不同迭代次数下的损失loss、MAE和RMSE曲线；

图6(b)、(d)和(f)为分别长沙数据集在不同迭代次数下的损失loss、MAE和RMSE曲线；

图7为基于深圳市宝安区划分的21个功能区；

图8(a)为深圳市宝安区的21个功能区转移流量的真实值，图8(b)为深圳市宝安区的21个功能区转移流量的预测值。

具体实施方式

本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

本发明提供一种基于私家车数据的城市功能区转移流量预测方法，参考图1所示，包括以下步骤：

所述时间戳为车辆启动时间或车辆熄火时间，城市的POI数据通过百度地图的逆地理编码技术技术采集得到。

步骤2中所述的利用POI数据并根据经纬度信息为所有停留点数据匹配POI语义标签，可以采用距离最近原则确定语义标签：选择与停留点距离最近的POI类型，作为该停留点的语义标签。或者采用概率生成模型实现POI语义标签匹配，具体过程为：

其中，F_j为第j个停留点的特征向量；

p表示概率密度：

c为POI的语义标签；

u_c为语义标签c的均值；

Σ_c为语义标签c的协方差矩阵

N(F|u,Σ)为高斯混合分布的概率密度函数；

式中，π_c为计算得到的最大似然估计。

在本实施例中，采用基于密度的空间聚类算法(Density-Based SpatialClustering of Applications with Noise,DBSCAN)对停留点数据进行聚类。DBSCAN为现有技术，本实施例不作详细解释。

另外，根据聚类簇得到N个功能区具体为：设聚类得到N'个簇，计算每个簇的POI分布，然后将POI分布相同且距离小于预设距离阈值的簇合并为一个功能区，最终得到N个功能区。

针对每个时间片段，均以N个功能区分别作为行和列构建N×N的转移流量矩阵，如图2所示中的N＝8，且转移流量矩阵中的每一项代表功能区的转移流量；将得到的num₁个转移流量矩阵，时序化为序列长度为num₁的转移流量图像时间序列。

所述预设的转移流量预测模型包括时间特征提取器和空间特征提取器；转移流量图像时间序列输入至时间特征提取器，由时间特征提取器从转移流量图像时间序列中提取时间特征，并将提取的时间特征输入至空间特征提取器，由空间特征提取器提取时空特征，输出包括时空特征的特征图，即为转移流量预测模型输出的转移流量图像。

所述时间特征提取器采用时间注意力网络，时间注意力网络的具体结构如图3所示，所述时间注意力网络的计算公式为：

A_t＝F_fc(A₀,W)＝σ(g(A₀,W))＝σ(W₂ξ(W₁A₀))

M_w＝F_scale(S_w,A_t)＝A_t·S_w

所述空间特征提取器采用3D卷积神经网络，如图4所示，3D卷积神经网络包括输入层、卷积层、池化层、全连接层以及输出层，其中所述卷积层包括2层结构为3×1×1的空间卷积核，2层结构为1×3×3的时间卷积核和2层结构为3×1×3的时空卷积核；

所述3D卷积神经网络利用转移流量图像时间序列进行训练的计算式为：

其中，

表示为第i层的第j个特征映射位于(p,q,r)上的神经元与第i-1层中第m个特征映射之间的链接权重；

m是第i-1层映射到第i层的之间的连接索引；

为3D卷积的输出值；

P_i是第i层3D卷积核的空间第一维度的大小；

Q_i是第i层3D卷积核的空间第二维度的大小；

R_i是第i层3D卷积核的时间维度大小；

为激活函数；

b_ij为第i层的第j个特征的偏置项。

使用转移流量图像时间序列对预设的转移流量预测模型进行训练，具体为：

从转移流量图像时间序列中任意截取num₂+1个转移流量图像，前num₂个转移流量图像作为输入样本，最后1个转移流量图像作为输出标签，即得到1个训练样本；循环该步骤，直到得到num₁-num₂个不同的训练样本；使用num₁-num₂个不同的训练样本对预设的转移流量预测模型进行训练。

在训练迭代过程中引用Dropout方法来缓解网络过分拟合，其中Dropout的计算过程如下：

其中，r为概率向量；

v⁽ⁱ⁾是第i个神经元的激活值，是第i个神经元的激活值经过dropout后的输出值；

步骤5，按照与预设历史时间段内的转移流量图像时间序列相同的获取方法，获取当前预设时间段内的转移流量图像时间序列，使用步骤4中训练得到的转移流量预测模型对目标时间段的转移流量进行预测；具体为：

(3)重复步骤(2)，直到得到目标时间段的转移流量图像。

本发明还提供一种基于私家车数据的城市功能区转移流量预测装置，包括：

本发明选择在长沙市和深圳市采集到的数据进行实验作为本发明实施例。实验数据的前80％的数据作为训练集，后20％作为测试集；Adam算法作为模型的优化器；设置学习率的初始值为0.0015，模型每迭代1000次自动衰减初始的90％；模型训练的批大小为64；实验设置了早停策略，当测试集的损失等于训练集的损失时，模型训练达到最优，即停止训练，防止模型过拟合。实验选用RMSE(root mean square error，均方根误差)和MAE(meanabsolute error，平均绝对误差)两个评价指标对实验结果进行评估：

其中

为预测的转移矩阵，M为真实的转移矩阵。

RMSE和MAE能够很好的表示本发明的保护框架所提供的保护的误差，以及稳定性。

本发明选择预测不同的时间步长T，即输入的转移流量图像个数num₂，来验证提出方法的性能。在图5中，随着预测步长的增加，提出的方法的预测误差逐渐减小，具有实用的小样本学习能力。表1和表2分别显示了两个数据集中所有方法的RMSE和MAE。传统的方法HA，LASSO，SO-SVR和GBRT方法的结果取平均值。对于所有深度学习模型，至少训练和测试每个模型十次。与其他对比算法相比，提出的方法性能出了更高的性能，其次是3D CNN，然后是ConvLSTM。由于难以捕获复杂的非线性时空依赖性和语义信息，传统的机器学习方法预测性能较低。HA使用历史平均值作为预测，而不考虑时空依赖性。传统的基于回归的方法(如LASSO，BO-SVR和GBRT)在深圳数据集上性能良好，但其效果比最简单的前馈神经网络差。LSTM对时间依赖性进行建模，但是输入和输出之间的时间跨度越长，有效的预测越困难。将ConvLSTM与Multi-LSTM进行比较，ConvLSTM中的卷积单元学习空间相关性。ConvLSTM无法同步建模时空相关性。3D CNN的整体性能也更好，但是在提取全局时间特征方面很弱。

本发明所提出的方法在所有设置下均优于所有对比算法模型。与深圳数据集上每种设置的最佳对比算法的结果相比，在MAE指标上，平均性能约提高了53％；在RMSE指标上，平均性能约提高了48.7％。在长沙数据集上，与最佳的对比算法结果相比，在MAE指标上，平均性能约提高了11.3％；在RMSE指标上，平均性能约提高了6.7％。

图6分别描述了在两个数据集上训练和测试期间的损失。图6(a)，(c)和(e)显示了深圳数据集的误差。模型迭代480次时收敛，最好的结果是迭代至479次。图6(b)，(d)和(f)显示了长沙数据集的误差。与深圳数据集相比，长沙数据集的整体误差相对较大，但收敛速度更快，在220次迭代内达到了全局最优值，最好的效果是第214次迭代。

在图7中，数字1-3代表消费类型的三个功能区；4-7号代表公园类型的四个功能区；数字8代表教育类别的功能区；9-11代表专业机构类型的三个功能区；12-15代表办公类型的四个功能区；16-19代表公寓类型的四个功能区；数字20代表交通类型的功能区；数字21代表运动健康类型的功能区。

图8显示了2018年9月18日上午9:00:00至9:59:59的图7中的功能区的转移流量分布。本发明可视化了不同功能区之间私家车用户的转移分布和预测结果。与图8(a)相比，提出模型的预测结果图8(b)接近事实的分布。综上，本发明的模型在定量和定性分析方面均表现出色。

以下表1为本发明实施例在深圳数据集上，与HA,LASSO,BO-SVR,GBRT,FNN,Multi-LSTM,ConvLSTM,3D CNN的误差比较。

表1

以下表2为本发明实施例在长沙数据集上，与HA,LASSO,BO-SVR,GBRT,FNN,Multi-LSTM,ConvLSTM,3D CNN的误差比较。

表2

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.基于私家车数据的城市功能区转移流量预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤2中所述的利用POI数据并根据经纬度信息为所有停留点数据匹配POI语义标签，采用概率生成模型实现，具体过程为：

其中，F_j为第j个停留点的特征向量；

p表示概率密度：

c为POI的语义标签；

u_c为语义标签c的均值；

Σ_c为语义标签c的协方差矩阵

N(F|u,Σ)为高斯混合分布的概率密度函数；

式中，π_c为计算得到的最大似然估计。

3.根据权利要求1所述的方法，其特征在于，步骤2中所述的利用POI数据并根据经纬度信息为所有停留点数据匹配POI语义标签，具体为：选择与停留点距离最近的POI类型，作为该停留点的语义标签。

4.根据权利要求1所述的方法，其特征在于，采用基于密度的空间聚类算法对停留点数据进行聚类。

5.根据权利要求1所述的方法，其特征在于，根据聚类簇得到N个功能区具体为：设聚类得到N'个簇，计算每个簇的POI分布，然后将POI分布相同且距离小于预设距离阈值的簇合并为一个功能区，最终得到N个功能区。

6.根据权利要求1所述的方法，其特征在于，所述预设的转移流量预测模型包括时间特征提取器和空间特征提取器；转移流量图像时间序列输入至时间特征提取器，由时间特征提取器从转移流量图像时间序列中提取时间特征，并将提取的时间特征输入至空间特征提取器，由空间特征提取器提取时空特征，输出包括时空特征的特征图，即为转移流量预测模型输出的转移流量图像。

7.根据权利要求5所述的方法，其特征在于，所述时间特征提取器采用时间注意力网络，所述时间注意力网络的计算公式为：

A_t＝F_fc(A₀,W)＝σ(g(A₀,W))＝σ(W₂ξ(W₁A₀))

M_w＝F_scale(S_w,A_t)＝A_t·S_w

8.根据权利要求1所述的方法，其特征在于，所述空间特征提取器采用3D卷积神经网络，3D卷积神经网络包括输入层、卷积层、池化层、全连接层以及输出层，其中所述卷积层包括2层结构为3×1×1的空间卷积核，2层结构为1×3×3的时间卷积核和2层结构为3×1×3的时空卷积核；

在训练迭代过程中引用Dropout方法来缓解网络过分拟合；

9.根据权利要求1所述的方法，其特征在于，使用转移流量图像时间序列对预设的转移流量预测模型进行训练，具体为：

(3)重复步骤(2)，直到得到目标时间段的转移流量图像。

10.基于私家车数据的城市功能区转移流量预测装置，其特征在于，包括：