CN112559585A

CN112559585A - 交通时空序列单步预测方法、系统及存储介质

Info

Publication number: CN112559585A
Application number: CN202011391966.4A
Authority: CN
Inventors: 邝砾; 颜学谨; 杨海洋; 张欢
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-26

Abstract

本发明公开了一种交通时空序列单步预测方法、系统及存储介质，使用3D卷积神经网络提取时空特征，未割裂时间特征和空间特征时之间的联系；同时，本发明将交通时空序列的多模态数据之间的影响纳入考虑范围，利用多任务学习提取各模态之间的关联，提高了预测精度。

Description

交通时空序列单步预测方法、系统及存储介质

技术领域

本发明涉及基于3D卷积神经网络和多任务学习的时空序列预测方法，特别是一种交通时空序列单步预测方法、系统及存储介质。

背景技术

时空序列预测问题可包含交通预测、气象预测、人流预测等，本质上，这些问题是相似的，都是根据历史序列预测未来一定时间范围内的相关时空状态。

时间序列方法，尤其是类ARIMA模型，最先被应用于时空序列预测。Hamed 等人(M.M.Hamed,H.R.Al-Masaeid,and Z.M.B.Said,“Short-term prediction of trafficvolume in urban arterials,”J.Transp.Eng.,vol.121,no.3,pp.249–254,1995.) 提出使用ARIMA模型来预测城市主干道的交通量。以此为始，研究人员将各种 ARIMA的变体(B.M.Williams,“Multivariate vehicular traffic flow prediction: evaluation ofARIMAX modeling,”Transp.Res.Rec.,vol.1776,no.1,pp.194–200, 2001)应用于交通方面的预测以提高预测性能。另一方面，机器学习方法也被广泛应用于该领域，Wu等人(C.-H.Wu,J.-M.Ho,and D.-T.Lee,“Travel-time prediction with support vectorregression,”IEEE Trans.Intell.Transp.Syst.,vol.5, no.4,pp.276–281,2004.)将支持向量回归应用于行车时间预测，Zheng等人(W. Zheng,D.-H.Lee,and Q.Shi,“Short-term freeway traffic flow prediction:Bayesian combined neural networkapproach,”J.Transp.Eng.,vol.132,no.2,pp.114–121, 2006.)提出结合贝叶斯与神经网络的模型，对高速公路短期交通流进行预测。 Kuang等人(W.Zheng,D.-H.Lee,and Q.Shi,“Short-term freeway traffic flow prediction:Bayesian combined neural networkapproach,”J.Transp.Eng.,vol.132, no.2,pp.114–121,2006.)提出了一个两层模型，将代价敏感的贝叶斯网络和加权k近邻模型相结合来预测交通事故的持续时间。这些方法侧重于交通数据的时间相关性，而忽略了交通数据的空间相关性。然而，当前区域的交通状况不仅受到相邻区域的影响，还可能会受到更远区域的影响。

深度学习在各领域取得的成功也推动了其在时空序列预测上的应用。CNN 已经可以有效地从图像中提取特征。因此，通过将时空序列视为图像，许多研究者自然而然地开始使用CNN来进行时空序列预测。Ma等人(X.Ma,H.Yu,Y. Wang,and Y.Wang,“Large-scaletransportation network congestion evolution prediction using deep learningtheory,”PLoS One,vol.10,no.3,p.e0119044,2015.) 将城市分成许多小网格，将城市交通速度转换成图像，并使用CNN预测交通速度。Zhang等人(J.Zhang,Y.Zheng,D.Qi,R.Li,and X.Yi,“DNN-based prediction model for spatio-temporal data,”in Proceedingsof the 24th ACM SIGSPATIAL International Conference on Advances in GeographicInformation Systems,2016,p. 92.)使用CNN建模时间依赖和空间依赖预测交通流、自行车租借。随后，Zhang 等人(J.Zhang,Y.Zheng,and D.Qi,“Deep spatio-temporalresidual networks for citywide crowd flows prediction,”in Thirty-First AAAIConference on Artificial Intelligence,2017.)利用残差神经网络、基于参数矩阵的融合机制和外部信息来提高预测人群流动的性能。这些研究更多地关注交通数据的空间相关性。而对于时间相关性的建模，只是简单的将CNN通过神经网络提取的特征进行融合，并没有充分利用时间相关性。

另一方面，RNN及其变体，即LSTM和GRU在序列任务中的成功使得许多研究者基于它们来预测时空序列。Zhao等人(Z.Zhao,W.Chen,X.Wu,P.C.Y. Chen,and J.Liu,“LSTMnetwork:a deep learning approach for short-term traffic forecast,”IETIntell.Transp.Syst.,vol.11,no.2,pp.68–75,2017.)提出采用级联 LSTM，其中横向维度表示时域的变化，纵向维度表示不同观测点的指标，结合起点-终点的相关矩阵，获取时空相关性，用于预测交通流。Xu等人(J.Xu,R. Rahmatizadeh,L.

and D.Turgut,“Real-time prediction of taxi demand using recurrent neural networks,”IEEETrans.Intell.Transp.Syst.,vol.19,no.8,pp. 2572–2581,2017.)利用LSTM和混合密度网络预测纽约市出租车需求。该模型首先预测出租车需求的整体概率分布，然后利用该概率分布确定每个区域的出租车需求。这些研究更侧重于时间相关性的捕获，数据的空间相关性没有被充分利用。

为了充分利用时空相关性，许多研究者将CNN和RNN相结合来预测时空序列。Wu等人(Y.Wu and H.Tan,“Short-term traffic flow forecasting with spatial-temporalcorrelation in a hybrid deep learning framework,”arXiv Prepr.arXiv1612.01022,2016.)利用将道路作为一个向量，将其输入一维CNN获取交通流的空间相关性，然后利用两个LSTM挖掘交通流的短期变异性和周期性。 Yu等人(H.Yu,Z.Wu,S.Wang,Y.Wang,and X.Ma,“Spatiotemporal recurrent convolutional networks fortraffic prediction in transportation networks,”Sensors,vol. 17,no.7,p.1501,2017.)提出利用深度CNN提取空间特征，再将其反馈到叠加 LSTM中进行大规模交通网络流量预测。Yao等人(H.Yao et al.,“Deep multi-view spatial-temporal network fortaxi demand prediction,”in Thirty-Second AAAI Conference on ArtificialIntelligence,2018.)认为将CNN应用于整个城市的图像会影响预测的准确性，为此，他们利用局部CNN来捕捉空间相关性，并引入了结合LSTM的语义视图来预测出租车需求。虽然这两种情况都考虑了时空相关性，但这些研究将时空相关性的相互作用分离开来。

交通时空序列的单步预测指的是根据给定的历史数据，预测下一个时间戳的序列状况。单步预测模型需要接受最新的历史数据作为输入，因此对数据的收集、处理、存储和发布有较高的时间要求，更适用于待预测时间间隔较大、对预测的时效性要求不高的应用场景。例如，出租车需求预测可以为空车的路径规划、乘客的出行安排、出租车公司的调度安排提供参考建议，由于车辆的行驶需要耗费一定的时间，因此这类任务的待预测时间间隔通常都大于20分钟，使得模型可以及时的获得最新历史数据，不断做出准确预测。

目前效果较好的时空序列预测方法主要是结合CNN和RNN及其变体(即 LSTM或GRU)的模型。在数据预处理阶段，该类模型首先会将时空序列数据处理为网格数据；之后，该数据被送入到CNN进行下采样，以捕获空间关联，并编码为向量；随后，再将所得到的向量输入到RNN或其变体中，抽取时间特征，并编码为新向量；最后，结合外部信息，使用全连接神经网络对下一时间戳的时空序列进行预测。

这类方法通常会存在以下问题：(1)这类方法割裂了时间关联和空间关联的相互作用。2D-CNN的卷积核只能在空间维度上移动，捕获空间信息。与此同时，对网格数据进行卷积时必然会损失部分信息，经过多层卷积后，所得表征向量已经丢失了部分时间信息，RNN的性能不能得到充分利用，最终导致预测精度的下降。(2)这类方法没有充分利用数据各模态之间的关联。交通时空序列的信息通常以多各信息呈现，这些信息之间存在相互影响。如图1(a)～图1(c)所示，出租车需求预测问题中，大量的空车可能激发路人的打车欲望；车流量预测问题中，道路的车流量可以分为南向流量和北向流量，复杂的路网环境下，二者可能会相互转化；道路车辆速度预测问题中，司机在十字路口的决策会影响到南向车速和北向车速。因此，打车需求预测和下车需求预测、南向流量预测和北向流量预测、南向车辆速度预测和北向车辆速度预测共同组成了原预测问题，并且相互影响。现有研究通常使用不同的2D卷积核分别捕获它们的空间关联，而不考虑各模态之间的联系，这也影响到了时空序列预测的精度。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种交通时空序列单步预测方法，提高预测精度。

为解决上述技术问题，本发明所采用的技术方案是：一种交通时空序列单步预测方法，包括以下步骤：

1)获取原始交通时空数据，并对所述原始交通时空数据进行预处理，得到三个时间片段X_closeness、K_period及X_trend；

2)将所述三个时间片段按模态分别拆分为

和

共计3n份子数据，将所述

分别对应输入到三个第一3D卷积神经网络中，得到3n个时空特征张量拉伸为向量x₁，x₂，...，x_3n；n为数据的模态；

3)按时间顺序，将所述3n个向量x₁，x₂，...，x_3n分别作为3n个LSTM的输入，得到输出h₁，h₂，...，h_3n，利用h₁，h₂，...，h_3n得到基于注意力机制的LSTM的输出s₁，s₂，...，s_3n；将s₁，s₂，...，s_3n重塑为一个三维张量 X⁰，将X⁰作为第二3D卷积神经网络的输入，将第二3D卷积神经网络的输出拉伸为向量

4)获取外部信息，将所述外部信息处理为向量，并获取该向量在t时刻的特征向量

5)拼接g_t和e_t，得到q_t，将q_t送至全连接神经网络，得到最终的输出，

即t时刻的时空序列X_t。

现有方法通常使用CNN和RNN分别捕获空间关联和时间关联，这割裂了二者之间的联系，此外，现有方法没有考虑到时空序列数据各模态之间的相互影响并加以利用。针对以上问题，在第一步从历史数据中抽取了与待预测时间戳高相关的历史数据，进而在第二步使用3D卷积神经网络同时提取历史数据的时间关联和空间关联，并结合多任务学习使3D卷积模块得以充分训练并抑制过拟合；在第三步使用基于注意力机制的LSTM和3D残差卷积进行特征嵌入，充分挖掘各模态之间、各部分历史数据之间的关联；在最后一步，结合天气、日期等异构的外部信息对交通时空序列进行单步预测，从而极大地提高了预测精度。

步骤1)中，对所述原始交通时空数据进行预处理的具体实现过程包括：

第一步，获取原始数据，原始数据包含ID、事件发生时间、事件发生地点的经纬度，以出租车需求数据为例，每一条数据包括行程ID、上车时间、上车经纬度、下车时间、下车经纬度；第二步，设定经度跨度λ_lng和纬度跨度λ_lat；将城市划分为I×J个大小一致的网格，其中

grid(i，j) 表示第i行、第j列的网格；i＜I且j＜J；P_A(lng_A，lat_A)为A点坐标，即城市最西南角的坐标；P_B(lng_B，lat_B)为B点坐标，即城市最东北角的坐标；第三步，设λ_time为单位时间长度，t_start为原始数据的起始时间点，t_end为原始数据的最后一个时间点，根据公式

将所述原始交通时空数据按时间分为T个部分；第四步，生成时空序列X_1：T＝[X₁，X₂，X₃，...，X_T-1，X_T]。其中X_t代表第t个时间段内的时空序列状况，由n×I×J个网格组成，n代表数据的模态，通过过统计

内事件发生的次数(视任务而定)可确定每个网格即grid(i，j)的值。

利用所述时空序列X_1：T＝[X₁，X₂，X₃，...，X_T-1，X_T]获得t时刻三个时间片段X_closeness、X_period及X_trend：

邻近时间戳

其中

C代表临近时间戳序列的长度，C为常数，X_closeness表示与预测目标X_t最邻近的L_c个时间戳的序列；

周期时间戳

其中L_p为参数且

P代表周期时间戳序列的长度，X_period表示与预测目标X_t相距24小时的L_p个时间戳的序列；

趋势时间戳

其中L_t为参数且

X_trend表示与预测目标X_t相距一个星期的L_t个时间戳的序列。

时空数据通常呈现明显的周期性：以半小时为尺度，前后时刻之间的状况关联较大；以天为尺度，波峰之间、波谷之间的状况息息相关；以7天为尺度，相隔一周的两天时刻数据状况相同。本发明获取的时间数据精准，可以准确反映交通数据真实情况，进而可以提高预测精度。

步骤2)中，所述第一3D卷积神经网络为3D-CNN神经网络；所述3D-CNN 神经网络包括依次连接的三个卷积层；优选地，第一卷积层的输入帧数为1，输出帧数为16，卷积核尺寸为3×4×4，卷积核移动步长为1×2×2；第二卷积层的输入帧数为16，输入帧数为32，卷积核尺寸为3×4×4，卷积核移动步长为2×2×2；第三卷积层的输入帧数为32，输入帧数为64，卷积核尺寸为3×4×4，该层的卷积方式为扩张卷积，参数为2×2×2；优选地，每一卷积层、第二卷积层、第三卷积层后均各依次连接有归一化层以及LeakyReLU层；优选地，所述LeakyReLU 层参数为0.2。从输入的角度看，上述过程使N个模态的数据共享同一个网络结构，相当于“扩充”了数据；从模型的调度看，每1轮训练中每个3D-CNN都通过了N份数据，在梯度下降时参数也能得到更多的更新；从结果来看，在这一步初步捕获了各模态之间的关联。

s₁，s₂，...，s_3n的获取过程包括：

A)第t次迭代时，计算每一个h_i与t-1次迭代时LSTM的输出s_t-1的相似程度e_t，i；i＝1，2，......，3n；

B)通过softmax函数对e_t，i进行归一化，使各部分权重和为1，即得到各个h_i的权重；

C)通过对h_i加权求和得到下一次迭代时LSTM的输入context_i，进而得到第t次迭代时LSTM的输出s_t；

D)重复步骤A)～步骤C)，迭代3n次，得到基于注意力机制的LSTM 的输出为s₁，s₂，...，s_3n。

首先，X_closeness、X_period、X_trend与X_T+1并不一样，但有较强关联。例如，如果待预测的X_t+1的时间戳落在星期六，X_closeness和X_trend的时间戳也会落在星期六，但X_period则包含了星期五的数据，因此不能对三部分历史数据一视同仁。其次，历史数据的各模态对X_t+1各模态的贡献不一。以出租车打车需求预测为例，如果某区域空闲出租车较多，可能激发人们的打车欲望，因此历史下车需求会对预测结果产生影响，但其影响仍然不及历史打车需求，即各模态对预测结果的影响不一。最后，各模态之间可能存在时序关系。以车辆流入、流出量预测为例，在拥堵状态下，对某些路段而言，一辆车的驶入意味着另一辆车的驶离，极端状况下甚至可能没有车辆流入、流出的情况，这使得该预测问题的两个模态之间产生了时序关系，需要模型捕获这种关联，本发明的方法可以准确捕获这种关联，从而可以提高预测精度。

本发明所述第二3D卷积神经网络为3D-ResNet；所述3D-ResNet包括多个卷积层，每个卷积层后均依次连接有归一化层及LeakyReLU层；卷积层的卷积核尺寸为3。较之普通的3D-CNN，ResNet通过短路连接来增加网络的深度，并且能够有效地学习到特征。

本发明还提供了一种交通时空序列单步预测系统，包括：

数据采集模块，用于获取原始交通时空数据，并对所述原始交通时空数据进行预处理，得到三个时间片段X_closeness、X_period及X_trend；

第一3D卷积神经网络A，输入为

输出为第一时空特征张量；

第一3D卷积神经网络B，输入为

输出为第二时空特征张量；

第一3D卷积神经网络C，输入为

输出为第三时空特征张量；

第一拉伸单元，用于将第一时空特征张量、第二时空特征张量、第三时空特征张量合并后拉伸为向量x₁，x₂，...，x_3n；

第一LSTM，输入分别为x₁，x₂，...，x_3n，对应的输出分别为h₁，h₂，...，h_3n；

第二LSTM，输入分别为h₁，h₂，...，h_3n，对应的输出分别为s₁，s₂，...，s_3n；

第二3D卷积神经网络，输入为三维张量X⁰，其中三维张量X⁰通过 s₁，s₂，...，s_3n重塑得到；

第二拉伸单元，用于将第二3D卷积神经网络的输出拉伸为向量

外部信息获取单元，用于将所述外部信息处理为向量，并获取该向量在t时刻的特征向量

全连接神经网络，输入为拼接g_t和e_t后得到的q_t，输出为t时刻的时空序列X_t；

其中，

和

分别为三个时间片段按模态拆分后得到的子数据；n为数据的模态。

本发明还提供了一种交通时空序列单步预测系统，其包括计算机设备；所述计算机设备被配置或编程为用于执行本发明所述方法的步骤。

作为一个发明构思，本发明还提供了一种计算机存储介质，其存储有程序；所述程序被配置为用于执行本发明所述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：本发明使用3D卷积神经网络提取时空特征，未割裂时间特征和空间特征时之间的联系；同时，本发明将交通时空序列的多模态数据之间的影响纳入考虑范围，利用多任务学习提取各模态之间的关联，提高了预测精度。

附图说明

图1(a)、图1(b)、图1(c)分别为出租车上下车情况、同一道路南北向交通流量、不同道路南北向交通流量；

图2为本发明原始交通时空数据空间划分示意图；

图3为本发明实施例基于3D卷积神经网络和多任务学习的时空序列预测方法原理图；

图4为本发明实施例2015/3/1至2015/3/10日北京市4个区域的出租车需求量曲线图；

图5为本发明实施例了X_closeness、X_period和X_trend之间的关系图；

图6为本发明实施例2015/3/1至2015/3/10日北京市3个区域的出租车打车、下车需求量曲线图；

图7为3D卷积与2D卷积示意图；

图8为多任务学习与3D卷积提取时空特征原理图；

图9为3D-CNN的网络结构图；

图10为基于注意力机制的LSTM进行特征嵌入原理图；

图11为本发明实施例用于特征提取的3D-ResNet的模块结构图；

图12为本发明实施例L_c对实验结果的影响示意图；

图13为L_p对实验结果的影响示意图；

图14为L_t对实验结果的影响示意图；

图15为本发明实施例与不同预测方法的对比结果图；

图16为本发明实施例模型各变体的实验结果图。

具体实施方式

由于传感器或智能终端收集的原始数据不能被深度学习算法直接处理，因此首先需要对原始数据进行预处理，而在算法中也涉及了一些数学符号，为了方便描述，首先阐述所提出算法时需要用到的定义，这些定义参考了文献(J.Zhang， Y.Zheng，and D.Qi，“Deep spatio-temporal residual networks for citywide crowd flows prediction，”in Thirty-First AAAI Conference on Artificial Intelligence，2017.及 X.Shi andD.-Y.Yeung，“Machine learning for spatiotemporal sequence forecasting： Asurvey，”arXiv Prepr.arXiv1808.06865，2018.)。

定义1-1(空间划分)grid(i，j)。如图2所示，设左下角的A点坐标为 P_A(lng_A，lat_A)，右上角的B点坐标为P_B(lng_B，lat_B)，将城市划分为I×J个大小一致的网格，设λ_lat和λ_lng分别表示每个网格的纬度跨度和经度跨度，其中

设grid(i，j)表示第i行、第j列的网格(i＜I并且j＜J)，其中

定义1-2(时间划分)T。设λ_time为单位时间长度，t_start为数据的起始时间点，t_end为数据的最后一个时间点，那么

定义1-3(时空序列)X_1：T＝[X₁，X₂，X₃，...，X_T-1，X_T]，为长度为T的时间序列，

称为时空序列的一帧，其中n为数据的模态。以

表示数据的第i个模态，而

中每一个grid(i，j)的值则根据任务而定。

定义1-4(外部信息)ε_t，表示t时间段内的外部信息，根据任务而定。

问题3-1在t+1时刻，给定纬度跨度λ_lat，经度跨度λ_lng，单位时间长度λ_time、历史时空序列数据X_1：t，外部信息ε_t+1，预测t+1时刻的时空序列数据

可以表示为下式，

即在给定历史数据和外部信息的条件下，求出t+1时间戳最可能出现的交通时空序列状况

本发明基于3D卷积神经网络和多任务学习的时空序列预测方法，其框架如图3所示。本发明将时空序列数据的各个模态都纳入预测范围，充分考虑了时间、空间和各模态之间的相互影响。

如图3，本发明主要用到了三个模型：3D卷积神经网络(3D-CNN)、基于注意力机制的LSTM和3D残差卷积神经网络(3D-ResNet)。首先，在数据预处理阶段，本发明从历史数据中抽出与待预测时间戳高相关的三部分历史时空序列。然后，利用多任务学习，将多模态时空序列数据的各个模态视为相关任务，各模态共享同一个网络结构，而3部分数据则训练3个3D-CNN，在未割裂时间关联和空间关联的情况下提取各模态的时空特征得到6个时空特征向量。之后，将6 个时空特征送入到基于注意力机制的LSTM中分配权重并嵌入到新的张量中，进一步使用3D-ResNet捕获多模态之间的相互影响，得到时空信息特征向量。最后，选取了日期、时间点和节假日等外部信息，利用全连接神经网络编码为外部信息向量，与时空信息向量结合，同时预测时空序列在下个时间戳时各个模态的具体状态。

时空数据预处理

首先需要将原始数据处理为深度学习算法所能处理的网格数据，并进行标准化操作，此举是为了使算法更好的收敛。数据预处理可以描述为以下步骤：第一步，获取原始数据，原始数据包含ID、事件发生时间、事件发生地点的经纬度，以出租车需求数据为例，每一条数据包括行程ID、上车时间、上车经纬度、下车时间、下车经纬度；第二步，首先根据定义1-1确定网格数据的经度跨度和纬度跨度，随后根据定义1-2确定数据的时间跨度，进而根据定义1-3生成时空序列数据X_1:T；第三步，进行数据标准化操作。

在使用梯度下降算法更新参数求解最优问题时，如果一直沿着当前坐标点梯度的反方向更新参数，那么函数将在最短迭代步数内得到最优解。以两个参数的情况为例，如果未进行标准化，那么其优化空间可能呈椭圆形，在迭代时梯度会偏离最小值方向，走“之”字形路线，导致训练时间过长，甚至不收敛；相反，数据标准化后的优化空间会呈圆形，可以较快地收敛到最小值。总而言之，数据标准化是一种线性变换，其作用是消除量纲，加速优化过程，使算法更容易收敛得到最优值。标准化公式如下所示，

其中，x为定义1-3中

的网格的值，μ和σ分别是训练集中所有x的均值和方差，x’为标准化之后的值。经过标准化后，定义1-3中时空序列的X_1:T所有的值的均值为0，标准差为1。

在经过标准化处理后，我们从历史时空序列中抽取与待预测时间戳高相关的历史数据。如图4所示，横轴为时间戳，时间间隔为30分钟，纵轴为需求量。可以观察到数据呈现明显的周期性：以半小时为尺度，波峰之间的需求状况息息相关；以天为尺度，3月2日各区域的需求与3月3日各区域的需求基本相同；以一周为尺度，3月1日各区域的需求与3月7日、3月8日基本相同。因此，我们对历史数据进行划分，从中抽取出三个时间片段，分别定义如下：

(1)邻近时间戳，

其中C为参数且

C代表临近时间戳序列的长度，该符号表示与预测目标X_T+1最邻近的L_c个时间戳的序列。

(2)周期时间戳，

其中L_p为参数且

P代表周期时间戳序列的长度，该符号表示与X_T相距24小时的L_p个时间戳的序列。

(3)趋势时间戳

其中L_t为参数且

P代表周期时间戳序列的长度，该符号表示与 X_T相距一个星期的L_t个时间戳的序列。

图5展示了X_closeness、K_period和X_trend之间的关系。如果待预测时间戳为周一的5点，设L_c＝L_p＝L_t＝4，那么X_closeness则为当日1点到4点的数据，X_period为周日(即前一天)2点至5点的数据，X_trend为上周一2点至5点的数据。基于多任务学习的时空特征提取

根据定义1-3，时空序列的一帧X_t可以视为形状为(N，I，J)的三维张量，其中 N是序列的模态数量，I和J分别为城市的经度跨度和纬度跨度。那么X_closeness、 X_period和X_trend则可以分别视为形状为(N，L_c，I，J)、(N，L_p，I，J)和(N，L_t，I，J)的四维张量，所增加的一维可以看作是该数据的深度。本发明所要预测的X_T+1可以视为形状为(N，1，I，J)的四维张量。

如图6所示，本发明对2015/3/1至2015/3/10日北京市3个区域grid(16，16)、 grid(17，16)及grid(20，20)的出租车打车、下车需求量进行了可视化。可以观察到，打车需求曲线与下车需求曲线几乎重合，因此可以认为该时空序列数据的两个模态存在相互关联，针对该特性，我们提出使用多任务学习使各模态数据共享网络结构来捕获这种关联。

本发明所使用的多任务学习可以两个角度来阐述。以X_closeness为例，本发明将之拆分为N个四维向量，分别表示X_closeness的N个模态。一方面，由于预测目标也有N个模态，本发明以多任务学习的方法对它们同时进行预测；另一方面， N个模态具有相关性，那么可以把它们看作N个相关任务，不论这些任务之间是正相关还是负相关，都可以为彼此的特征提取和预测提供信息，为提升预测精度起到辅助作用。此外，由于N个任务共享时空特征提取部分的模型网络结构，不论输入的模态数量是多少，都不必在该处增加网络参数，这样做不仅减少了计算开销，也提升了可扩展性，而且可以抑制过拟合、提升模型健壮性。简而言之，通过在相关任务之间共享网络结构，多任务学习可以使本章所提出的模型同时抽取多个模态的时空特征，并且具有更好的泛化性能。

事实上，我们可以把时空序列的历史数据视为一个“视频”，该“视频”的宽度和高度分别为I和J，而每一“帧”都有N个通道。在视频生成问题中，从时间角度来看，视频的前一帧和后一帧必然会有关联；从空间角度来看，视频每一帧的各像素点之间也存在着复杂关联。类似的，在时空序列中，历史序列会对未来序列产生极大的影响，而各地区之间也会相互影响。受到3D-CNN在人体动作识别和视频分析方面取得的成功的鼓舞，本章利用3D-CNN进行时空特征的提取。当然，视频生成与时空序列预测也有不同之处：在视频中，通常只有邻近像素点才会产生较大的相互影响，距离较远的像素点之间可能毫无关联；而公共交通设施、城市规划则使得时空序列预测问题截然不同，纵然远隔整座城市，两个地区却可能因为相似的区位特点、城市规划而产生类似的序列或相互影响。

如图7所示，以形状为

的X_closeness为例，2D-CNN的卷积核仅在特征图的宽和高(即I和J)两个维度上移动，从而提取空间特征。然而，时空序列还具有时间上的依赖，前一时间戳与下一时间戳息息相关，2D卷积核在忽略了这种时空依赖的同时对时空序列按时间顺序逐一进行卷积，必然会损失一些时间信息，后续的RNN“巧妇难为无米之炊”，导致精度的降低。而3D-CNN更是适合捕获时空序列中的时空依赖关系，其卷积核则会在特征图的宽、高、深(即I、 J、L_c)三个维度上移动。实际上，L_c是由历史序列各模态按照时间先后顺序堆叠而成，因此特征图可以看作为具有时间维度、空间维度(宽和高)的数据，当 3D-CNN在特征图上移动时，可以同时捕获时间关联和空间关联，与此同时并没有割裂二者之间的关联。

具体来说，使用多任务学习和3D卷积提取时刻特征可描述为以下步骤。第一步，将数据预处理部分得到的X_closeness、X_period和X_trend三部分历史数据按模态分别拆分为

和

共计 3n份子数据，形状均为

第二步，构建3个3层的3D-CNN来获得复杂的时空特征，每个3D-CNN的结构如图8所示。第三步，以X_closeness为例，依次将

输入到对应的3D-CNN中，X_period和X_trend的处理方式相同。第四步，将上一步骤得到的3n个时空特征张量拉伸为向量x₁，x₂，...，x_3n。

如图9展示了3D-CNN的网络结构。其中，第一层的输入帧数为1，输出帧数为16，卷积核尺寸为3×4×4，卷积核移动步长为1×2×2。第二层的输入帧数为 16，输入帧数为32，卷积核尺寸为3×4×4，卷积核移动步长为2×2×2。第三层的输入帧数为32，输入帧数为64，卷积核尺寸为3×4×4，在此引入了扩张卷积，其参数为2×2×2，不仅减小了特征图的大小，而且捕获了远距离地区之间的依赖。所有卷积层中，我们对卷积运算中的输入张量进行补零，补零一方面保证了在卷积运算中多次覆盖张量的边缘，以此关注到城市的边缘，充分捕捉整个城市中各个区域之间的相互作用。所有卷积层后都紧随着填了一个实例归一化层以及参数为0.2的LeakyReLU层。

如下公式可以总结本发明的时空特征提取过程

X^l＝f(W^l*X^l-1+b^l)#(8)

其中*表示卷积操作；f(·)为标准化及LeakyReLU激活函数，即f(z)＝ max(0，BN(z))；W^l和b^l为第l层的可学习参数；X⁰则为

或

中的一个。

3D-CNN较之2D-CNN的提升的代价是参数量的增加，这也意味着训练难度的增加，而多任务学习的引入恰好缓解了该问题。从输入的角度来看，我们使N个模态的数据共享同一个网络结构，相当于“扩充”了数据；从模型的调度看，每1 轮训练中每个3D-CNN都通过了N份数据，在梯度下降时参数也能得到更多的更新；从结果来看，我们在这一步初步捕获各模态之间的关联。由此，我们结合多任务学习与3D-CNN充分地挖掘了时间、空间之间的关联，得到时空特征。使用基于注意力机制的LSTM进行特征嵌入

前一部分借助多任务学习初步捕获了各模态之间的关联，并提取了各部分历史数据的时空特征。尽管基于已提取的时空特征可以直接预测X_t+1，但X_closeness、 X_period及X_trend对预测X_t+1的贡献并不一定是均等的。针对该问题，进一步处理了各部分历史数据之间、各模态之间的关系。

首先，X_closeness、X_period及X_trend与X_T+1并不一样有较强关联。例如，如果待预测的X_t+1的时间戳落在星期六，X_closeness和X_trend的时间戳也会落在星期六，但X_period则包含了星期五的数据，因此不能对三部分历史数据一视同仁。其次，历史数据的各模态对X_t+1各模态的贡献不一。以出租车打车需求预测为例，如果某区域空闲出租车较多，可能激发人们的打车欲望，因此历史下车需求会对预测结果产生影响，但其影响仍然不及历史打车需求，即各模态对预测结果的影响不一。最后，各模态之间可能存在时序关系。以车辆流入、流出量预测为例，在拥堵状态下，对某些路段而言，一辆车的驶入意味着另一辆车的驶离，极端状况下甚至可能没有车辆流入、流出的情况，这使得该预测问题的两个模态之间产生了时序关系，需要模型捕获这种关联。

基于注意力机制的LSTM进行特征嵌入如图10所示，可以概括为以下步骤：

第一步，借助LSTM的特性来处理各模态之间的时序关系。按照时间顺序把得到的3n个时空特征向量x₁，x₂，...，x_3n分别作为3n个LSTM的输入，得到输出 h₁，h₂，...，h_3n。LSTM的输入层、隐藏层维度均为32。LSTM通常被用来处理时间序列，可以捕获长时间依赖，不易产生梯度消失的问题。

e_t，i＝a(s_t-1，h_i)#(9)

第二步，引入了另一层基于注意力机制的LSTM，为各模态历史数据分配权重。如图10所示，在t时刻，首先计算每一个h_i与t-1时刻的输出s_t-1的相似程度e_t,i，其计算公式如(9)～(11)式所示，其中a(·)为一维卷积运算；随后，通过softmax函数对e_t,i进行归一化，使各部分权重和为1，即得到了各个h_i的权重；最后，通过对h_i加权求和得到下一个时间步的输入context_i，进而得到t时刻的输出s_t。最终，基于注意力机制的LSTM的输出为s₁,s₂,…,s_3n，均为向量。

第三步，使用3D-ResNet以充分捕获各模态数据之间的关联和时空关联，将历史数据编码为向量。较之普通的3D-CNN，ResNet通过短路连接来增加网络的深度，并且能够有效地学习到特征。我们在此设置了1个3D-ResNet模块，其结构如图11所示，卷积核尺寸为3，边缘填补一圈0，卷积层后接实例归一化层及参数为0.2的LeakyReLU层。具体来说，首先把s₁，s₂，...，s_3n堆叠在一起，并重塑为一个三维张量X⁰；随后，X⁰作为3D-ResNet的输入，其计算公式如下

其中，

为3D-ResNet单元，θ为可学习的参数。最后，把3D-ResNet的输出拉伸为向量

融合外部特征的时空序列预测

时空序列数据的预测还与一些外部因素相关，如天气、日期等。从直观上看，天气对出行影响最大，人们更倾向于在雨天打车甚至不出行，而在晴朗的天气可能更倾向于步行。这些选择都将会被传感器或智能终端记录，最终反映到交通流量、人流量、出租车需求等时空数据上。同样，日期和时间也会影响各类时空数据，在工作日，我们有固定的出行路线，而在节假日，我们有各种各样的选择和不同的习惯。本发明收集了如表1-1所示的外部信息，以辅助预测任务，提高精度。

表1-1外部信息

时空序列单步预测的步骤如下：

第一步，处理外部信息。表1-1的外部信息可以分为两类，一类是数值数据，例如风速、温度或湿度；另一类是类别数据，如星期几、假日或天气。对于数值数据，直接将它们进行归一化，并将叠加为一个向量

对于分类数据，对之进行独热编码(One-hotencode)，并将它们堆叠为另一个向量

最终，将以上外部信息的向量堆叠为一个向量，输入到一个两层的全连接神经网络中，得到t时刻外部信息的特征向量

具体来说，计算公式如下

其中

为Hadamard乘法，

表示向量的拼接操作，F(·)是一个两层全连接神经网络，而

和

部是可学习的参数。

第二步，进行预测。基于特征提取和嵌入，即可进行最后的预测。首先，将历史数据中抽取的特征g_t与外部信息特征e_t拼接

其中

为向量拼接操作，且

然后，把q_t送至全连接神经网络中，以得到最终的输出

X_t+1＝f(Wq_t+b)#(14)

其中W和b为可学习参数，f(·)为ReLU激活函数。

现有研究通常以均方误差(MSE)为损失函数，然而，均方误差对离群点较为敏感，会产生较大的值，反之则在非离群点上产生较小误差。另一方面，绝对值偏差(MAE)则对任何样本产生相同的损失，对离群点不敏感。鉴于时空序列数据中经常会产生较大的值，如出租车需求的突然爆发、人流量因事故突然激发等，本发明使用了Smooth L1损失函数，其公式如下

其中

实验结果与分析

本发明实验运行的本地软件环境和硬件环境如表1-2所示.

表1-2实验软件环境

评价指标

为了评价预测值与真实值之间的差异，本发明两部分实验的评价指标都是均方根误差(root mean square error，RMSE)，其计算公式如下

其中，

为预测值，x为真实值，Z为所有待预测值的总数量。RMSE越小则表明算法的准确性越高。

数据集介绍

本实验所使用的数据集为公开数据集TaxiBJ，该数据集分为了四个时间段： 2013年7月1日至2013年10月30日，2014年3月1日至2014年6月30日， 2015年3月1日至2015年6月30日，2015年11月1日至2016年4月10日，包含了这些时间段内北京出租车GPS轨迹数据及天气数据。数据已通过前期处理成尺寸为22459×2×32×32的网格数据，时间间隔为30分钟。与文献(L.Bai，L. Yao，S.Kanhere，X.Wang，and Q.Sheng，“Stg2seq：Spatial-temporalgraph to sequence model for multi-step passenger demand forecasting，”arXivPrepr. arXiv1905.10069，2019.)保持一致，本发明选取2015年3月1日至2015年6月 30日作为实验数据，6月10日至6月20日的数据作为验证集，最后10天的数据作为测试集，其余部分为训练集。该数据集的基本情况如表1-3所示。

表1-3 TaxiBJ数据集的基本情况

超参数对实验结果的影响及分析

超参数指的是在在模型学习前设定的参数，它们不能通过训练得到。实验使用Adam作为优化器，学习率设置为0.0008，并使用了正则化，正则化参数为 0.0001，其它为默认参数。实验的batch size为32，模型在训练约80轮后可以在验证集上取得最佳效果，数据经过了标准化。

L_c对实验结果的影响。x_cloness为最接近待预测序列的历史数据，本发明首先固定L_p＝L_t＝1，以验证x_cloness的影响。如图12所示，随着L_c的增加，RMSE 呈先减后增的趋势，当L_c＝5时RMSE降到最低。对模型而言，L_c的增加意味着数据的增加，计算速度也会随之变缓，为了保证后续参数调整的方便，本发明最终选择了L_c＝3。

L_p对实验结果的影响。我们固定L_c＝3，L_t＝1以验证L_p的影响，如图13 所示，当L_p＝3时RMSE最低。x_period为带预测时间戳前一天的历史数据，在实际情况中，待预测时间点可能时工作日，而x_period可能落在休息日，反之亦然。本发明设置了基于注意力机制的LSTM模块，以消除这种情况对预测精度的影响，但最终决定预测效果上限的仍然时数据，故该参数设置为L_p＝3较为合适。

L_t对实验结果的影响，如图14所示。我们固定L_c＝L_p＝3，和asdx_trend为待预测时间戳上一周同时刻数据，不论待预测时间戳是工作日还是休息日，x_trend都可以为预测提供一定的参考。随着L_t的增加，RMSE呈上升趋势，因此本发明选择L_t＝1。

对比实验及分析

与文献(L.Bai，L.Yao，S.Kanhere，X.Wang，and Q.Sheng，“Stg2seq： Spatial-temporal graph to sequence model for multi-step passenger demandforecasting，”arXiv Prepr.arXiv1905.10069，2019.)的实验部分相同，我们选择如下算法作为比较对象，以验证本发明方法的有效性：

(1)历史平均(Historical Average，HA)：该方法通过计算历史数据中同一天、同一时刻的平均值来得到预测结果。

(2)线性回归(Ordinary Linear Regression，OLR)即最简单的线性回归方法。

(3)XGBoost(T.Chen and C.Guestrin，“Xgboost：A scalable tree boostingsystem，”in Proceedings of the 22nd acm sigkdd international conference onknowledge discovery and data mining，2016，pp.785-794.)：是boosting算法的一种实现，通过将多棵CART决策树以新的策略集成从而形成更强大的学习器，因较高的精度和较快的运算速度而广受欢迎。

(4)DeepST(J.Zhang，Y.Zheng，and D.Qi，“Deep spatio-temporal residualnetworks for citywide crowd flows prediction，”in Thirty-First AAAI Conferenceon Artificial Intelligence，2017.)：基于深层神经网络的时空序列数据预测模型，由时空组件和全局组件组成，分别捕获时空依赖和全局信息。

(5)ResST-Net(ResST-Net)：该方法改进于DeepST，使用残差神经网络框架来模拟时空序列数据的邻近性、趋势性和周期性特征，最后根据数据动态汇总三个残差神经网络的输出，进一步结合外部因素，预测交通流量。

(6)DMVST-Net(H.Yao et al.，“Deep multi-view spatial-temporal networkfor taxi demand prediction,”in Thirty-Second AAAI Conference on ArtificialIntelligence, 2018.)：该模型包括三个组件：LSTM时间组件、CNN空间视图和语义视图(对具有相似时间模式的区域之间的相关性进行建模)，在出租车需求预测上取得了较好的效果。

(7)ConvLSTM(X.Shi,Z.Chen,and H.Wang,“Convolutional LSTM Network,” inNips,2015,pp.2–3.)：该方法通过将全连接LSTM的全连接层修改为卷积层，从而将LSTM与CNN结合，使其可以直接总用于网格数据。

(8)FCL-Net(J.Ke,H.Zheng,H.Yang,and X.M.Chen,“Short-term forecastingof passenger demand under on-demand ride services:A spatio-temporal deeplearning approach,”Transp.Res.Part C Emerg.Technol.,vol.85,pp.591–608,2017.)：该模型由ConvLSTM、LSTM和CNN堆叠融合而成，并结合随机森林算法，对出租车供需进行预测。

(9)FlowFlexDP(J.Chu et al.,“Passenger demand prediction with cellularfootprints,”in 2018 15th Annual IEEE International Conference on Sensing,Communication,and Networking(SECON),2018,pp.1–9.)：该模型从移动网络数据中提取人群流量数据和出租车历史订单数据，采用图卷积神经网络对城市中任意形状和大小区域的出租车需求进行预测。

(10)DCRNN(Y.Li,R.Yu,C.Shahabi,and Y.Liu,“Diffusion convolutionalrecurrent neural network:Data-driven traffic forecasting,”arXiv Prepr.arXiv1707.01926,2017.)：该方法使用了扩张卷积递归神经网络(diffusionConvolutional Neural Network,DCRNN)，利用图上的双向随机游动来捕获空间依赖关系，利用定时采样的编解码器结构来捕获时间依赖关系。

(11)STGCN(B.Yu,H.Yin,and Z.Zhu,“Spatio-temporal graph convolutionalnetworks:A deep learning framework for traffic forecasting,”arXiv Prepr.arXiv1709.04875,2017.)：该模型完全由图卷积神经网络构成，通过对多尺度交通网络进行建模，从而捕获全面的时空相关性。

(12)STG2Seq(L.Bai,L.Yao,S.Kanhere,X.Wang,and Q.Sheng,“Stg2seq:Spatial-temporal graph to sequence model for multi-step passenger demandforecasting,”arXiv Prepr.arXiv1905.10069,2019.)：该方法基于图卷积神经网络建立了对长期编码器、短期编码器及基于注意力机制的输出模块，对动态的时空信息进行建模。

图15展示了不同预测方法之间的对比。我们可以观察到，非深度学习模型的效果相较于深度学习模型而言，预测效果更差，其中表现最佳的非深度学习模型XGBoost比之表现较差的深度学习模型所取得的RMSE高2.36。这些非深度学习模型无法捕获非线性的时空关联，因此效果较差。DeepST、ResST-Net、 DMVST-Net及ConvLSTM均为基于CNN或LSTM的传统深度学习模型，它们利用CNN捕获空间关联，利用LSTM捕获时间关联，融入了天气、节假日、地区语义等信息。这些方法通过CNN捕获空间关联，再通过LSTM捕获时间关联，割裂了时间关联与空间关联之间的联系，因此本发明所提出的模型相较于以上四个方法分别提升8.09％、4.65％、7.58％以及10.44％。图神经网络方兴未艾，也被引入了时空序列预测任务中。本发明所对比的FCL-Net、FlowFlexDP，DCRNN， STGCN、STG2Seq均为基于图神经网络的模型，图神经网络可以对不规则区域进行建模，以地区历史数据的相似度作为图的边权重，天然地融入了地区语义信息。本发明所提出地模型相较于最先进地STG2Seq降低了2.44％的RMSE，而相对于其它模型则分别使RMSE降低了7.43％、13.88％、18.19％以及11.94％。

为了验证模型各组件的有效性，本发明对所提出模型进行拆解得到不同的模型变体：(1)全连接神经网络(Fully Connected Neural Network，FC)；(2)卷积神经网络与全连接神经网络(CNN-FC)，在全连接神经网络前加入了3D-CNN，以提取时空特征；(3)多任务卷积神经网络与全连接神经网络(MT-CNN-FC)，数据将按模态输入到3D-CNN中，并将其输出数据在深度维度上堆叠输入到另一个3D-CNN中，最后连接FC；(4)MT-3-CNN-FC，与前一变体相比，邻近性、趋势性、周期性三部分数据分别对应一个3D-CNN；(5)MT-3-Res-FC，与前一变体不同之处在于，后一个3D-CNN替换为了3D-ResNet，该变体也等价于本章所提出模型去掉LSTM部分；(6)L1，使用L1损失函数训练的模型；(7)SL1，使用SmoothL1损失函数训练的模型。

图16展示了模型各变体的实验结果。FC是最简单的深度学习模型，其效果优于性能最好的传统机器学习模型XGBoost，所得的RMSE为19.82。3D-CNN 的加入使模型可以在未割裂时间关联和空间关联的情况下捕获时空关联，相较于FC，CNN-FC提升了2.6％。进一步，在3D-CNN中加入了多任务学习的 MT-CNN-FC使RMSE降低了0.6，这也说明利用两个任务的相关性提升了预测效果。随后，本发明在MT-3CNN-FC中为三部分不同数据设置了对应的CNN模块，在MT-3-Res-FC将后一个3D-CNN替换为了3D-ResNet，分别使RMSE降低了0.03及1.02。最后，我们对比了不同损失函数的结果，发现以Smooth L1 为损失函数的训练的模型效果最好。

Claims

1.一种交通时空序列单步预测方法，其特征在于，包括以下步骤：

2)将所述三个时间片段按模态分别拆分为

和

共计3n份子数据，将所述

3)按时间顺序，将所述3n个向量x₁，x₂，...，x_3n分别作为3n个LSTM的输入，得到输出h₁，h₂，...，h_3n，利用h₁，h₂，...，h_3n得到基于注意力机制的LSTM的输出s₁，s₂，...，s_3n；将s₁，s₂，...，s_3n重塑为一个三维张量X⁰，将X⁰作为第二3D卷积神经网络的输入，将第二3D卷积神经网络的输出拉伸为向量

5)拼接g_t和e_t，得到q_t，将q_t送至全连接神经网络，得到最终的输出，即t时刻的时空序列X_t。

2.根据权利要求1所述的交通时空序列单步预测方法，其特征在于，步骤1)中，对所述原始交通时空数据进行预处理的具体实现过程包括：

第一步，获取原始交通时空数据，所述原始交通时空数据包含ID、事件发生时间、事件发生地点的经度和纬度；第二步，设定经度跨度λ_lng和纬度跨度λ_lat；将城市划分为I×J个大小一致的网格，其中

grid(i，j)表示第i行、第j列的网格；i＜I且j＜J；P_A(lng_A，lat_A)为A点坐标，即城市最西南角的坐标；P_B(lng_B，lat_B)为B点坐标，即城市最东北角的坐标；设λ_time为单位时间长度，t_start为原始交通时空数据的起始时间点，t_end为原始数据的最后一个时间点，根据公式

将所述原始交通时空数据按时间分为T个部分；第三步，生成时空序列X_1：T＝[X₁，X₂，X₃，...，X_T-1，X_T]；其中X_t代表第t个时间段内的时空序列状况，1≤t≤T，

由n×I×J个网格组成，n代表数据的模态，通过统计

内事件发生的次数确定X_1：T中每个网格即grid(i，j)的值。

3.根据权利要求2所述的交通时空序列单步预测方法，其特征在于，步骤1)中，三个时间片段X_closeness、X_period及X_trend的获取过程包括：

邻近时间戳

其中0＜L_c＜T，

周期时间戳

其中L_p为参数且0≤L_p＜T-24/λ_time，

趋势时间戳

其中L_t为参数且0≤L_t＜T-24*7/λ_time，

X_trend表示与预测目标X_t相距一个星期的L_t个时间戳的序列。

4.根据权利要求1所述的交通时空序列单步预测方法，其特征在于，步骤2)中，所述第一3D卷积神经网络为3D-CNN神经网络；所述3D-CNN神经网络包括依次连接的三个卷积层；优选地，第一卷积层的输入帧数为1，输出帧数为16，卷积核尺寸为3×4×4，卷积核移动步长为1×2×2；第二卷积层的输入帧数为16，输入帧数为32，卷积核尺寸为3×4×4，卷积核移动步长为2×2×2；第三卷积层的输入帧数为32，输入帧数为64，卷积核尺寸为3×4×4，该层的卷积方式为扩张卷积，参数为2×2×2。

5.根据权利要求4所述的交通时空序列单步预测方法，其特征在于，所述第一卷积层、第二卷积层、第三卷积层后均各依次连接有归一化层以及LeakyReLU层；优选地，所述LeakyReLU层参数为0.2。

6.根据权利要求1所述的交通时空序列单步预测方法，其特征在于，步骤2)中，s₁，s₂，...，s_3n的获取过程包括：