CN112559585A - 交通时空序列单步预测方法、系统及存储介质 - Google Patents
交通时空序列单步预测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112559585A CN112559585A CN202011391966.4A CN202011391966A CN112559585A CN 112559585 A CN112559585 A CN 112559585A CN 202011391966 A CN202011391966 A CN 202011391966A CN 112559585 A CN112559585 A CN 112559585A
- Authority
- CN
- China
- Prior art keywords
- time
- data
- space
- sequence
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 80
- 239000013598 vector Substances 0.000 claims description 48
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000000737 periodic effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 7
- 230000002123 temporal effect Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 241000287107 Passer Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000029305 taxis Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种交通时空序列单步预测方法、系统及存储介质,使用3D卷积神经网络提取时空特征,未割裂时间特征和空间特征时之间的联系;同时,本发明将交通时空序列的多模态数据之间的影响纳入考虑范围,利用多任务学习提取各模态之间的关联,提高了预测精度。
Description
技术领域
本发明涉及基于3D卷积神经网络和多任务学习的时空序列预测方法,特别 是一种交通时空序列单步预测方法、系统及存储介质。
背景技术
时空序列预测问题可包含交通预测、气象预测、人流预测等,本质上,这些 问题是相似的,都是根据历史序列预测未来一定时间范围内的相关时空状态。
时间序列方法,尤其是类ARIMA模型,最先被应用于时空序列预测。Hamed 等人(M.M.Hamed,H.R.Al-Masaeid,and Z.M.B.Said,“Short-term prediction of trafficvolume in urban arterials,”J.Transp.Eng.,vol.121,no.3,pp.249–254,1995.) 提出使用ARIMA模型来预测城市主干道的交通量。以此为始,研究人员将各种 ARIMA的变体(B.M.Williams,“Multivariate vehicular traffic flow prediction: evaluation ofARIMAX modeling,”Transp.Res.Rec.,vol.1776,no.1,pp.194–200, 2001)应用于交通方面的预测以提高预测性能。另一方面,机器学习方法也被广 泛应用于该领域,Wu等人(C.-H.Wu,J.-M.Ho,and D.-T.Lee,“Travel-time prediction with support vectorregression,”IEEE Trans.Intell.Transp.Syst.,vol.5, no.4,pp.276–281,2004.)将支持向量回归应用于行车时间预测,Zheng等人(W. Zheng,D.-H.Lee,and Q.Shi,“Short-term freeway traffic flow prediction:Bayesian combined neural networkapproach,”J.Transp.Eng.,vol.132,no.2,pp.114–121, 2006.)提出结合贝叶斯与神经网络的模型,对高速公路短期交通流进行预测。 Kuang等人(W.Zheng,D.-H.Lee,and Q.Shi,“Short-term freeway traffic flow prediction:Bayesian combined neural networkapproach,”J.Transp.Eng.,vol.132, no.2,pp.114–121,2006.)提出了一个两层模型,将代价敏感的贝叶斯网络和加 权k近邻模型相结合来预测交通事故的持续时间。这些方法侧重于交通数据的时 间相关性,而忽略了交通数据的空间相关性。然而,当前区域的交通状况不仅受 到相邻区域的影响,还可能会受到更远区域的影响。
深度学习在各领域取得的成功也推动了其在时空序列预测上的应用。CNN 已经可以有效地从图像中提取特征。因此,通过将时空序列视为图像,许多研究 者自然而然地开始使用CNN来进行时空序列预测。Ma等人(X.Ma,H.Yu,Y. Wang,and Y.Wang,“Large-scaletransportation network congestion evolution prediction using deep learningtheory,”PLoS One,vol.10,no.3,p.e0119044,2015.) 将城市分成许多小网格,将城市交通速度转换成图像,并使用CNN预测交通速 度。Zhang等人(J.Zhang,Y.Zheng,D.Qi,R.Li,and X.Yi,“DNN-based prediction model for spatio-temporal data,”in Proceedingsof the 24th ACM SIGSPATIAL International Conference on Advances in GeographicInformation Systems,2016,p. 92.)使用CNN建模时间依赖和空间依赖预测交通流、自行车租借。随后,Zhang 等人(J.Zhang,Y.Zheng,and D.Qi,“Deep spatio-temporalresidual networks for citywide crowd flows prediction,”in Thirty-First AAAIConference on Artificial Intelligence,2017.)利用残差神经网络、基于参数矩阵的融合机制和外部信息来 提高预测人群流动的性能。这些研究更多地关注交通数据的空间相关性。而对于 时间相关性的建模,只是简单的将CNN通过神经网络提取的特征进行融合,并没有充分利用时间相关性。
另一方面,RNN及其变体,即LSTM和GRU在序列任务中的成功使得许 多研究者基于它们来预测时空序列。Zhao等人(Z.Zhao,W.Chen,X.Wu,P.C.Y. Chen,and J.Liu,“LSTMnetwork:a deep learning approach for short-term traffic forecast,”IETIntell.Transp.Syst.,vol.11,no.2,pp.68–75,2017.)提出采用级联 LSTM,其中横向维度表示时域的变化,纵向维度表示不同观测点的指标,结合 起点-终点的相关矩阵,获取时空相关性,用于预测交通流。Xu等人(J.Xu,R. Rahmatizadeh,L.and D.Turgut,“Real-time prediction of taxi demand using recurrent neural networks,”IEEETrans.Intell.Transp.Syst.,vol.19,no.8,pp. 2572–2581,2017.)利用LSTM和混合密度网络预测纽约市出租车需求。该模型 首先预测出租车需求的整体概率分布,然后利用该概率分布确定每个区域的出租 车需求。这些研究更侧重于时间相关性的捕获,数据的空间相关性没有被充分利 用。
为了充分利用时空相关性,许多研究者将CNN和RNN相结合来预测时空 序列。Wu等人(Y.Wu and H.Tan,“Short-term traffic flow forecasting with spatial-temporalcorrelation in a hybrid deep learning framework,”arXiv Prepr.arXiv1612.01022,2016.)利用将道路作为一个向量,将其输入一维CNN获取交 通流的空间相关性,然后利用两个LSTM挖掘交通流的短期变异性和周期性。 Yu等人(H.Yu,Z.Wu,S.Wang,Y.Wang,and X.Ma,“Spatiotemporal recurrent convolutional networks fortraffic prediction in transportation networks,”Sensors,vol. 17,no.7,p.1501,2017.)提出利用深度CNN提取空间特征,再将其反馈到叠加 LSTM中进行大规模交通网络流量预测。Yao等人(H.Yao et al.,“Deep multi-view spatial-temporal network fortaxi demand prediction,”in Thirty-Second AAAI Conference on ArtificialIntelligence,2018.)认为将CNN应用于整个城市的图像会 影响预测的准确性,为此,他们利用局部CNN来捕捉空间相关性,并引入了结 合LSTM的语义视图来预测出租车需求。虽然这两种情况都考虑了时空相关性, 但这些研究将时空相关性的相互作用分离开来。
交通时空序列的单步预测指的是根据给定的历史数据,预测下一个时间戳的 序列状况。单步预测模型需要接受最新的历史数据作为输入,因此对数据的收集、 处理、存储和发布有较高的时间要求,更适用于待预测时间间隔较大、对预测的 时效性要求不高的应用场景。例如,出租车需求预测可以为空车的路径规划、乘 客的出行安排、出租车公司的调度安排提供参考建议,由于车辆的行驶需要耗费 一定的时间,因此这类任务的待预测时间间隔通常都大于20分钟,使得模型可 以及时的获得最新历史数据,不断做出准确预测。
目前效果较好的时空序列预测方法主要是结合CNN和RNN及其变体(即 LSTM或GRU)的模型。在数据预处理阶段,该类模型首先会将时空序列数据 处理为网格数据;之后,该数据被送入到CNN进行下采样,以捕获空间关联, 并编码为向量;随后,再将所得到的向量输入到RNN或其变体中,抽取时间特 征,并编码为新向量;最后,结合外部信息,使用全连接神经网络对下一时间戳 的时空序列进行预测。
这类方法通常会存在以下问题:(1)这类方法割裂了时间关联和空间关联的 相互作用。2D-CNN的卷积核只能在空间维度上移动,捕获空间信息。与此同时, 对网格数据进行卷积时必然会损失部分信息,经过多层卷积后,所得表征向量已 经丢失了部分时间信息,RNN的性能不能得到充分利用,最终导致预测精度的 下降。(2)这类方法没有充分利用数据各模态之间的关联。交通时空序列的信息 通常以多各信息呈现,这些信息之间存在相互影响。如图1(a)~图1(c)所 示,出租车需求预测问题中,大量的空车可能激发路人的打车欲望;车流量预测 问题中,道路的车流量可以分为南向流量和北向流量,复杂的路网环境下,二者 可能会相互转化;道路车辆速度预测问题中,司机在十字路口的决策会影响到南 向车速和北向车速。因此,打车需求预测和下车需求预测、南向流量预测和北向 流量预测、南向车辆速度预测和北向车辆速度预测共同组成了原预测问题,并且 相互影响。现有研究通常使用不同的2D卷积核分别捕获它们的空间关联,而不 考虑各模态之间的联系,这也影响到了时空序列预测的精度。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种交通时空序 列单步预测方法,提高预测精度。
为解决上述技术问题,本发明所采用的技术方案是:一种交通时空序列单步 预测方法,包括以下步骤:
1)获取原始交通时空数据,并对所述原始交通时空数据进行预处理, 得到三个时间片段Xcloseness、Kperiod及Xtrend;
3)按时间顺序,将所述3n个向量x1,x2,...,x3n分别作为3n个LSTM的 输入,得到输出h1,h2,...,h3n,利用h1,h2,...,h3n得到基于注意力机 制的LSTM的输出s1,s2,...,s3n;将s1,s2,...,s3n重塑为一个三维张量 X0,将X0作为第二3D卷积神经网络的输入,将第二3D卷积神经网 络的输出拉伸为向量
5)拼接gt和et,得到qt,将qt送至全连接神经网络,得到最终的输出,
即t时刻的时空序列Xt。
现有方法通常使用CNN和RNN分别捕获空间关联和时间关联,这割裂了 二者之间的联系,此外,现有方法没有考虑到时空序列数据各模态之间的相互影 响并加以利用。针对以上问题,在第一步从历史数据中抽取了与待预测时间戳高 相关的历史数据,进而在第二步使用3D卷积神经网络同时提取历史数据的时间 关联和空间关联,并结合多任务学习使3D卷积模块得以充分训练并抑制过拟合; 在第三步使用基于注意力机制的LSTM和3D残差卷积进行特征嵌入,充分挖掘 各模态之间、各部分历史数据之间的关联;在最后一步,结合天气、日期等异构 的外部信息对交通时空序列进行单步预测,从而极大地提高了预测精度。
步骤1)中,对所述原始交通时空数据进行预处理的具体实现过程包括:
第一步,获取原始数据,原始数据包含ID、事件发生时间、事件发生地点 的经纬度,以出租车需求数据为例,每一条数据包括行程ID、上车时间、上车 经纬度、下车时间、下车经纬度;第二步,设定经度跨度λlng和纬度跨度λlat; 将城市划分为I×J个大小一致的网格,其中grid(i,j) 表示第i行、第j列的网格;i<I且j<J;PA(lngA,latA)为A点坐标,即城市最西 南角的坐标;PB(lngB,latB)为B点坐标,即城市最东北角的坐标;第三步,设λtime为单位时间长度,tstart为原始数据的起始时间点,tend为原始数据的最后一个时 间点,根据公式将所述原始交通时空数据按时间分为T个部分; 第四步,生成时空序列X1:T=[X1,X2,X3,...,XT-1,XT]。其中Xt代表第t个时间段 内的时空序列状况,由n×I×J个网格组成,n代表数据的模态,通过过统计内事件发生的次 数(视任务而定)可确定每个网格即grid(i,j)的值。
利用所述时空序列X1:T=[X1,X2,X3,...,XT-1,XT]获得t时刻三个时间片段Xcloseness、Xperiod及Xtrend:
时空数据通常呈现明显的周期性:以半小时为尺度,前后时刻之间的状况 关联较大;以天为尺度,波峰之间、波谷之间的状况息息相关;以7天为尺度, 相隔一周的两天时刻数据状况相同。本发明获取的时间数据精准,可以准确反映 交通数据真实情况,进而可以提高预测精度。
步骤2)中,所述第一3D卷积神经网络为3D-CNN神经网络;所述3D-CNN 神经网络包括依次连接的三个卷积层;优选地,第一卷积层的输入帧数为1,输 出帧数为16,卷积核尺寸为3×4×4,卷积核移动步长为1×2×2;第二卷积层的输 入帧数为16,输入帧数为32,卷积核尺寸为3×4×4,卷积核移动步长为2×2×2; 第三卷积层的输入帧数为32,输入帧数为64,卷积核尺寸为3×4×4,该层的卷 积方式为扩张卷积,参数为2×2×2;优选地,每一卷积层、第二卷积层、第三卷 积层后均各依次连接有归一化层以及LeakyReLU层;优选地,所述LeakyReLU 层参数为0.2。从输入的角度看,上述过程使N个模态的数据共享同一个网络结 构,相当于“扩充”了数据;从模型的调度看,每1轮训练中每个3D-CNN都通过 了N份数据,在梯度下降时参数也能得到更多的更新;从结果来看,在这一步初 步捕获了各模态之间的关联。
s1,s2,...,s3n的获取过程包括:
A)第t次迭代时,计算每一个hi与t-1次迭代时LSTM的输出st-1的相 似程度et,i;i=1,2,......,3n;
B)通过softmax函数对et,i进行归一化,使各部分权重和为1,即得到 各个hi的权重;
C)通过对hi加权求和得到下一次迭代时LSTM的输入contexti,进而 得到第t次迭代时LSTM的输出st;
D)重复步骤A)~步骤C),迭代3n次,得到基于注意力机制的LSTM 的输出为s1,s2,...,s3n。
首先,Xcloseness、Xperiod、Xtrend与XT+1并不一样,但有较强关联。例如, 如果待预测的Xt+1的时间戳落在星期六,Xcloseness和Xtrend的时间戳也会落在星 期六,但Xperiod则包含了星期五的数据,因此不能对三部分历史数据一视同仁。 其次,历史数据的各模态对Xt+1各模态的贡献不一。以出租车打车需求预测为例, 如果某区域空闲出租车较多,可能激发人们的打车欲望,因此历史下车需求会对 预测结果产生影响,但其影响仍然不及历史打车需求,即各模态对预测结果的影 响不一。最后,各模态之间可能存在时序关系。以车辆流入、流出量预测为例, 在拥堵状态下,对某些路段而言,一辆车的驶入意味着另一辆车的驶离,极端状 况下甚至可能没有车辆流入、流出的情况,这使得该预测问题的两个模态之间产 生了时序关系,需要模型捕获这种关联,本发明的方法可以准确捕获这种关联, 从而可以提高预测精度。
本发明所述第二3D卷积神经网络为3D-ResNet;所述3D-ResNet包括多个 卷积层,每个卷积层后均依次连接有归一化层及LeakyReLU层;卷积层的卷积 核尺寸为3。较之普通的3D-CNN,ResNet通过短路连接来增加网络的深度,并 且能够有效地学习到特征。
本发明还提供了一种交通时空序列单步预测系统,包括:
数据采集模块,用于获取原始交通时空数据,并对所述原始交通时空数据进 行预处理,得到三个时间片段Xcloseness、Xperiod及Xtrend;
第一拉伸单元,用于将第一时空特征张量、第二时空特征张量、第三时空特 征张量合并后拉伸为向量x1,x2,...,x3n;
第一LSTM,输入分别为x1,x2,...,x3n,对应的输出分别为h1,h2,...,h3n;
第二LSTM,输入分别为h1,h2,...,h3n,对应的输出分别为s1,s2,...,s3n;
第二3D卷积神经网络,输入为三维张量X0,其中三维张量X0通过 s1,s2,...,s3n重塑得到;
全连接神经网络,输入为拼接gt和et后得到的qt,输出为t时刻的时空序列Xt;
本发明还提供了一种交通时空序列单步预测系统,其包括计算机设备;所述 计算机设备被配置或编程为用于执行本发明所述方法的步骤。
作为一个发明构思,本发明还提供了一种计算机存储介质,其存储有程序; 所述程序被配置为用于执行本发明所述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:本发明使用3D卷积神经网 络提取时空特征,未割裂时间特征和空间特征时之间的联系;同时,本发明将交 通时空序列的多模态数据之间的影响纳入考虑范围,利用多任务学习提取各模态 之间的关联,提高了预测精度。
附图说明
图1(a)、图1(b)、图1(c)分别为出租车上下车情况、同一道路南北向 交通流量、不同道路南北向交通流量;
图2为本发明原始交通时空数据空间划分示意图;
图3为本发明实施例基于3D卷积神经网络和多任务学习的时空序列预测方 法原理图;
图4为本发明实施例2015/3/1至2015/3/10日北京市4个区域的出租车需求 量曲线图;
图5为本发明实施例了Xcloseness、Xperiod和Xtrend之间的关系图;
图6为本发明实施例2015/3/1至2015/3/10日北京市3个区域的出租车打车、 下车需求量曲线图;
图7为3D卷积与2D卷积示意图;
图8为多任务学习与3D卷积提取时空特征原理图;
图9为3D-CNN的网络结构图;
图10为基于注意力机制的LSTM进行特征嵌入原理图;
图11为本发明实施例用于特征提取的3D-ResNet的模块结构图;
图12为本发明实施例Lc对实验结果的影响示意图;
图13为Lp对实验结果的影响示意图;
图14为Lt对实验结果的影响示意图;
图15为本发明实施例与不同预测方法的对比结果图;
图16为本发明实施例模型各变体的实验结果图。
具体实施方式
由于传感器或智能终端收集的原始数据不能被深度学习算法直接处理,因此 首先需要对原始数据进行预处理,而在算法中也涉及了一些数学符号,为了方便 描述,首先阐述所提出算法时需要用到的定义,这些定义参考了文献(J.Zhang, Y.Zheng,and D.Qi,“Deep spatio-temporal residual networks for citywide crowd flows prediction,”in Thirty-First AAAI Conference on Artificial Intelligence,2017.及 X.Shi andD.-Y.Yeung,“Machine learning for spatiotemporal sequence forecasting: Asurvey,”arXiv Prepr.arXiv1808.06865,2018.)。
定义1-1(空间划分)grid(i,j)。如图2所示,设左下角的A点坐标为 PA(lngA,latA),右上角的B点坐标为PB(lngB,latB),将城市划分为I×J个大小 一致的网格,设λlat和λlng分别表示每个网格的纬度跨度和经度跨度,其中
设grid(i,j)表示第i行、第j列的网格(i<I并且j<J),其中
定义1-2(时间划分)T。设λtime为单位时间长度,tstart为数据的起始时间 点,tend为数据的最后一个时间点,那么
定义1-3(时空序列)X1:T=[X1,X2,X3,...,XT-1,XT],为长度为T的时间序列,称为时空序列的一帧,其中n为数据的模态。以表示 数据的第i个模态,而中每一个grid(i,j)的值则根据任务而定。
定义1-4(外部信息)εt,表示t时间段内的外部信息,根据任务而定。
本发明基于3D卷积神经网络和多任务学习的时空序列预测方法,其框架如 图3所示。本发明将时空序列数据的各个模态都纳入预测范围,充分考虑了时间、 空间和各模态之间的相互影响。
如图3,本发明主要用到了三个模型:3D卷积神经网络(3D-CNN)、基于 注意力机制的LSTM和3D残差卷积神经网络(3D-ResNet)。首先,在数据预处 理阶段,本发明从历史数据中抽出与待预测时间戳高相关的三部分历史时空序列。 然后,利用多任务学习,将多模态时空序列数据的各个模态视为相关任务,各模 态共享同一个网络结构,而3部分数据则训练3个3D-CNN,在未割裂时间关联 和空间关联的情况下提取各模态的时空特征得到6个时空特征向量。之后,将6 个时空特征送入到基于注意力机制的LSTM中分配权重并嵌入到新的张量中, 进一步使用3D-ResNet捕获多模态之间的相互影响,得到时空信息特征向量。最后,选取了日期、时间点和节假日等外部信息,利用全连接神经网络编码为外部 信息向量,与时空信息向量结合,同时预测时空序列在下个时间戳时各个模态的 具体状态。
时空数据预处理
首先需要将原始数据处理为深度学习算法所能处理的网格数据,并进行标准 化操作,此举是为了使算法更好的收敛。数据预处理可以描述为以下步骤:第一 步,获取原始数据,原始数据包含ID、事件发生时间、事件发生地点的经纬度, 以出租车需求数据为例,每一条数据包括行程ID、上车时间、上车经纬度、下 车时间、下车经纬度;第二步,首先根据定义1-1确定网格数据的经度跨度和纬 度跨度,随后根据定义1-2确定数据的时间跨度,进而根据定义1-3生成时空序 列数据X1:T;第三步,进行数据标准化操作。
在使用梯度下降算法更新参数求解最优问题时,如果一直沿着当前坐标点梯 度的反方向更新参数,那么函数将在最短迭代步数内得到最优解。以两个参数的 情况为例,如果未进行标准化,那么其优化空间可能呈椭圆形,在迭代时梯度会 偏离最小值方向,走“之”字形路线,导致训练时间过长,甚至不收敛;相反,数 据标准化后的优化空间会呈圆形,可以较快地收敛到最小值。总而言之,数据标 准化是一种线性变换,其作用是消除量纲,加速优化过程,使算法更容易收敛得 到最优值。标准化公式如下所示,
在经过标准化处理后,我们从历史时空序列中抽取与待预测时间戳高相关的 历史数据。如图4所示,横轴为时间戳,时间间隔为30分钟,纵轴为需求量。 可以观察到数据呈现明显的周期性:以半小时为尺度,波峰之间的需求状况息息 相关;以天为尺度,3月2日各区域的需求与3月3日各区域的需求基本相同; 以一周为尺度,3月1日各区域的需求与3月7日、3月8日基本相同。因此, 我们对历史数据进行划分,从中抽取出三个时间片段,分别定义如下:
图5展示了Xcloseness、Kperiod和Xtrend之间的关系。如果待预测时间戳为周 一的5点,设Lc=Lp=Lt=4,那么Xcloseness则为当日1点到4点的数据,Xperiod为周日(即前一天)2点至5点的数据,Xtrend为上周一2点至5点的数据。 基于多任务学习的时空特征提取
根据定义1-3,时空序列的一帧Xt可以视为形状为(N,I,J)的三维张量,其中 N是序列的模态数量,I和J分别为城市的经度跨度和纬度跨度。那么Xcloseness、 Xperiod和Xtrend则可以分别视为形状为(N,Lc,I,J)、(N,Lp,I,J)和(N,Lt,I,J)的四维 张量,所增加的一维可以看作是该数据的深度。本发明所要预测的XT+1可以视为 形状为(N,1,I,J)的四维张量。
如图6所示,本发明对2015/3/1至2015/3/10日北京市3个区域grid(16,16)、 grid(17,16)及grid(20,20)的出租车打车、下车需求量进行了可视化。可以观察 到,打车需求曲线与下车需求曲线几乎重合,因此可以认为该时空序列数据的两 个模态存在相互关联,针对该特性,我们提出使用多任务学习使各模态数据共享 网络结构来捕获这种关联。
本发明所使用的多任务学习可以两个角度来阐述。以Xcloseness为例,本发明 将之拆分为N个四维向量,分别表示Xcloseness的N个模态。一方面,由于预测目 标也有N个模态,本发明以多任务学习的方法对它们同时进行预测;另一方面, N个模态具有相关性,那么可以把它们看作N个相关任务,不论这些任务之间是 正相关还是负相关,都可以为彼此的特征提取和预测提供信息,为提升预测精度 起到辅助作用。此外,由于N个任务共享时空特征提取部分的模型网络结构,不 论输入的模态数量是多少,都不必在该处增加网络参数,这样做不仅减少了计算 开销,也提升了可扩展性,而且可以抑制过拟合、提升模型健壮性。简而言之, 通过在相关任务之间共享网络结构,多任务学习可以使本章所提出的模型同时抽取多个模态的时空特征,并且具有更好的泛化性能。
事实上,我们可以把时空序列的历史数据视为一个“视频”,该“视频”的宽度 和高度分别为I和J,而每一“帧”都有N个通道。在视频生成问题中,从时间角度 来看,视频的前一帧和后一帧必然会有关联;从空间角度来看,视频每一帧的各 像素点之间也存在着复杂关联。类似的,在时空序列中,历史序列会对未来序列 产生极大的影响,而各地区之间也会相互影响。受到3D-CNN在人体动作识别 和视频分析方面取得的成功的鼓舞,本章利用3D-CNN进行时空特征的提取。 当然,视频生成与时空序列预测也有不同之处:在视频中,通常只有邻近像素点 才会产生较大的相互影响,距离较远的像素点之间可能毫无关联;而公共交通设 施、城市规划则使得时空序列预测问题截然不同,纵然远隔整座城市,两个地区 却可能因为相似的区位特点、城市规划而产生类似的序列或相互影响。
如图7所示,以形状为的Xcloseness为例,2D-CNN的卷积核仅在特 征图的宽和高(即I和J)两个维度上移动,从而提取空间特征。然而,时空序列 还具有时间上的依赖,前一时间戳与下一时间戳息息相关,2D卷积核在忽略了 这种时空依赖的同时对时空序列按时间顺序逐一进行卷积,必然会损失一些时间 信息,后续的RNN“巧妇难为无米之炊”,导致精度的降低。而3D-CNN更是适 合捕获时空序列中的时空依赖关系,其卷积核则会在特征图的宽、高、深(即I、 J、Lc)三个维度上移动。实际上,Lc是由历史序列各模态按照时间先后顺序堆 叠而成,因此特征图可以看作为具有时间维度、空间维度(宽和高)的数据,当 3D-CNN在特征图上移动时,可以同时捕获时间关联和空间关联,与此同时并没 有割裂二者之间的关联。
具体来说,使用多任务学习和3D卷积提取时刻特征可描述为以下步骤。第 一步,将数据预处理部分得到的Xcloseness、Xperiod和Xtrend三部分历史数据按模 态分别拆分为和共计 3n份子数据,形状均为第二步,构建3个3层的3D-CNN来获得复杂 的时空特征,每个3D-CNN的结构如图8所示。第三步,以Xcloseness为例,依次 将输入到对应的3D-CNN中,Xperiod和Xtrend的处理方式 相同。第四步,将上一步骤得到的3n个时空特征张量拉伸为向量x1,x2,...,x3n。
如图9展示了3D-CNN的网络结构。其中,第一层的输入帧数为1,输出帧 数为16,卷积核尺寸为3×4×4,卷积核移动步长为1×2×2。第二层的输入帧数为 16,输入帧数为32,卷积核尺寸为3×4×4,卷积核移动步长为2×2×2。第三层的 输入帧数为32,输入帧数为64,卷积核尺寸为3×4×4,在此引入了扩张卷积, 其参数为2×2×2,不仅减小了特征图的大小,而且捕获了远距离地区之间的依赖。 所有卷积层中,我们对卷积运算中的输入张量进行补零,补零一方面保证了在卷 积运算中多次覆盖张量的边缘,以此关注到城市的边缘,充分捕捉整个城市中各 个区域之间的相互作用。所有卷积层后都紧随着填了一个实例归一化层以及参数 为0.2的LeakyReLU层。
如下公式可以总结本发明的时空特征提取过程
Xl=f(Wl*Xl-1+bl)#(8)
3D-CNN较之2D-CNN的提升的代价是参数量的增加,这也意味着训练难度 的增加,而多任务学习的引入恰好缓解了该问题。从输入的角度来看,我们使N个 模态的数据共享同一个网络结构,相当于“扩充”了数据;从模型的调度看,每1 轮训练中每个3D-CNN都通过了N份数据,在梯度下降时参数也能得到更多的更 新;从结果来看,我们在这一步初步捕获各模态之间的关联。由此,我们结合多 任务学习与3D-CNN充分地挖掘了时间、空间之间的关联,得到时空特征。 使用基于注意力机制的LSTM进行特征嵌入
前一部分借助多任务学习初步捕获了各模态之间的关联,并提取了各部分历 史数据的时空特征。尽管基于已提取的时空特征可以直接预测Xt+1,但Xcloseness、 Xperiod及Xtrend对预测Xt+1的贡献并不一定是均等的。针对该问题,进一步处理 了各部分历史数据之间、各模态之间的关系。
首先,Xcloseness、Xperiod及Xtrend与XT+1并不一样有较强关联。例如,如果 待预测的Xt+1的时间戳落在星期六,Xcloseness和Xtrend的时间戳也会落在星期六, 但Xperiod则包含了星期五的数据,因此不能对三部分历史数据一视同仁。其次, 历史数据的各模态对Xt+1各模态的贡献不一。以出租车打车需求预测为例,如果 某区域空闲出租车较多,可能激发人们的打车欲望,因此历史下车需求会对预测 结果产生影响,但其影响仍然不及历史打车需求,即各模态对预测结果的影响不 一。最后,各模态之间可能存在时序关系。以车辆流入、流出量预测为例,在拥 堵状态下,对某些路段而言,一辆车的驶入意味着另一辆车的驶离,极端状况下 甚至可能没有车辆流入、流出的情况,这使得该预测问题的两个模态之间产生了 时序关系,需要模型捕获这种关联。
基于注意力机制的LSTM进行特征嵌入如图10所示,可以概括为以下步骤:
第一步,借助LSTM的特性来处理各模态之间的时序关系。按照时间顺序把 得到的3n个时空特征向量x1,x2,...,x3n分别作为3n个LSTM的输入,得到输出 h1,h2,...,h3n。LSTM的输入层、隐藏层维度均为32。LSTM通常被用来处理时 间序列,可以捕获长时间依赖,不易产生梯度消失的问题。
et,i=a(st-1,hi)#(9)
第二步,引入了另一层基于注意力机制的LSTM,为各模态历史数据分配权 重。如图10所示,在t时刻,首先计算每一个hi与t-1时刻的输出st-1的相似程 度et,i,其计算公式如(9)~(11)式所示,其中a(·)为一维卷积运算;随后, 通过softmax函数对et,i进行归一化,使各部分权重和为1,即得到了各个hi的权 重;最后,通过对hi加权求和得到下一个时间步的输入contexti,进而得到t时 刻的输出st。最终,基于注意力机制的LSTM的输出为s1,s2,…,s3n,均为向量。
第三步,使用3D-ResNet以充分捕获各模态数据之间的关联和时空关联,将 历史数据编码为向量。较之普通的3D-CNN,ResNet通过短路连接来增加网络 的深度,并且能够有效地学习到特征。我们在此设置了1个3D-ResNet模块,其 结构如图11所示,卷积核尺寸为3,边缘填补一圈0,卷积层后接实例归一化层 及参数为0.2的LeakyReLU层。具体来说,首先把s1,s2,...,s3n堆叠在一起,并 重塑为一个三维张量X0;随后,X0作为3D-ResNet的输入,其计算公式如下
时空序列数据的预测还与一些外部因素相关,如天气、日期等。从直观上看, 天气对出行影响最大,人们更倾向于在雨天打车甚至不出行,而在晴朗的天气可 能更倾向于步行。这些选择都将会被传感器或智能终端记录,最终反映到交通流 量、人流量、出租车需求等时空数据上。同样,日期和时间也会影响各类时空数 据,在工作日,我们有固定的出行路线,而在节假日,我们有各种各样的选择和 不同的习惯。本发明收集了如表1-1所示的外部信息,以辅助预测任务,提高精 度。
表1-1外部信息
时空序列单步预测的步骤如下:
第一步,处理外部信息。表1-1的外部信息可以分为两类,一类是数值数据, 例如风速、温度或湿度;另一类是类别数据,如星期几、假日或天气。对于数值 数据,直接将它们进行归一化,并将叠加为一个向量对于分类数据, 对之进行独热编码(One-hotencode),并将它们堆叠为另一个向量最 终,将以上外部信息的向量堆叠为一个向量,输入到一个两层的全连接神经网络 中,得到t时刻外部信息的特征向量具体来说,计算公式如下
Xt+1=f(Wqt+b)#(14)
其中W和b为可学习参数,f(·)为ReLU激活函数。
现有研究通常以均方误差(MSE)为损失函数,然而,均方误差对离群点较 为敏感,会产生较大的值,反之则在非离群点上产生较小误差。另一方面,绝对 值偏差(MAE)则对任何样本产生相同的损失,对离群点不敏感。鉴于时空序 列数据中经常会产生较大的值,如出租车需求的突然爆发、人流量因事故突然激 发等,本发明使用了Smooth L1损失函数,其公式如下
其中
实验结果与分析
本发明实验运行的本地软件环境和硬件环境如表1-2所示.
表1-2实验软件环境
评价指标
为了评价预测值与真实值之间的差异,本发明两部分实验的评价指标都是均 方根误差(root mean square error,RMSE),其计算公式如下
数据集介绍
本实验所使用的数据集为公开数据集TaxiBJ,该数据集分为了四个时间段: 2013年7月1日至2013年10月30日,2014年3月1日至2014年6月30日, 2015年3月1日至2015年6月30日,2015年11月1日至2016年4月10日, 包含了这些时间段内北京出租车GPS轨迹数据及天气数据。数据已通过前期处 理成尺寸为22459×2×32×32的网格数据,时间间隔为30分钟。与文献(L.Bai,L. Yao,S.Kanhere,X.Wang,and Q.Sheng,“Stg2seq:Spatial-temporalgraph to sequence model for multi-step passenger demand forecasting,”arXivPrepr. arXiv1905.10069,2019.)保持一致,本发明选取2015年3月1日至2015年6月 30日作为实验数据,6月10日至6月20日的数据作为验证集,最后10天的数 据作为测试集,其余部分为训练集。该数据集的基本情况如表1-3所示。
表1-3 TaxiBJ数据集的基本情况
超参数对实验结果的影响及分析
超参数指的是在在模型学习前设定的参数,它们不能通过训练得到。实验使 用Adam作为优化器,学习率设置为0.0008,并使用了正则化,正则化参数为 0.0001,其它为默认参数。实验的batch size为32,模型在训练约80轮后可以在 验证集上取得最佳效果,数据经过了标准化。
Lc对实验结果的影响。xcloness为最接近待预测序列的历史数据,本发明首先 固定Lp=Lt=1,以验证xcloness的影响。如图12所示,随着Lc的增加,RMSE 呈先减后增的趋势,当Lc=5时RMSE降到最低。对模型而言,Lc的增加意味着 数据的增加,计算速度也会随之变缓,为了保证后续参数调整的方便,本发明最 终选择了Lc=3。
Lp对实验结果的影响。我们固定Lc=3,Lt=1以验证Lp的影响,如图13 所示,当Lp=3时RMSE最低。xperiod为带预测时间戳前一天的历史数据,在实 际情况中,待预测时间点可能时工作日,而xperiod可能落在休息日,反之亦然。 本发明设置了基于注意力机制的LSTM模块,以消除这种情况对预测精度的影 响,但最终决定预测效果上限的仍然时数据,故该参数设置为Lp=3较为合适。
Lt对实验结果的影响,如图14所示。我们固定Lc=Lp=3,和asdxtrend为 待预测时间戳上一周同时刻数据,不论待预测时间戳是工作日还是休息日,xtrend都可以为预测提供一定的参考。随着Lt的增加,RMSE呈上升趋势,因此本发明 选择Lt=1。
对比实验及分析
与文献(L.Bai,L.Yao,S.Kanhere,X.Wang,and Q.Sheng,“Stg2seq: Spatial-temporal graph to sequence model for multi-step passenger demandforecasting,”arXiv Prepr.arXiv1905.10069,2019.)的实验部分相同,我们选择如 下算法作为比较对象,以验证本发明方法的有效性:
(1)历史平均(Historical Average,HA):该方法通过计算历史数据中同一天、 同一时刻的平均值来得到预测结果。
(2)线性回归(Ordinary Linear Regression,OLR)即最简单的线性回归方法。
(3)XGBoost(T.Chen and C.Guestrin,“Xgboost:A scalable tree boostingsystem,”in Proceedings of the 22nd acm sigkdd international conference onknowledge discovery and data mining,2016,pp.785-794.):是boosting算法的一种 实现,通过将多棵CART决策树以新的策略集成从而形成更强大的学习器,因较 高的精度和较快的运算速度而广受欢迎。
(4)DeepST(J.Zhang,Y.Zheng,and D.Qi,“Deep spatio-temporal residualnetworks for citywide crowd flows prediction,”in Thirty-First AAAI Conferenceon Artificial Intelligence,2017.):基于深层神经网络的时空序列数据预测模型,由时空组件和全局组件组成,分别捕获时空依赖和全局信息。
(5)ResST-Net(ResST-Net):该方法改进于DeepST,使用残差神经网络框架 来模拟时空序列数据的邻近性、趋势性和周期性特征,最后根据数据动态汇总三 个残差神经网络的输出,进一步结合外部因素,预测交通流量。
(6)DMVST-Net(H.Yao et al.,“Deep multi-view spatial-temporal networkfor taxi demand prediction,”in Thirty-Second AAAI Conference on ArtificialIntelligence, 2018.):该模型包括三个组件:LSTM时间组件、CNN空间视图和语义视图(对具有相似时间模式的区域之间的相关性进行建模),在出租车需求预测上取得了 较好的效果。
(7)ConvLSTM(X.Shi,Z.Chen,and H.Wang,“Convolutional LSTM Network,” inNips,2015,pp.2–3.):该方法通过将全连接LSTM的全连接层修改为卷积层, 从而将LSTM与CNN结合,使其可以直接总用于网格数据。
(8)FCL-Net(J.Ke,H.Zheng,H.Yang,and X.M.Chen,“Short-term forecastingof passenger demand under on-demand ride services:A spatio-temporal deeplearning approach,”Transp.Res.Part C Emerg.Technol.,vol.85,pp.591–608,2017.):该模 型由ConvLSTM、LSTM和CNN堆叠融合而成,并结合随机森林算法,对出租 车供需进行预测。
(9)FlowFlexDP(J.Chu et al.,“Passenger demand prediction with cellularfootprints,”in 2018 15th Annual IEEE International Conference on Sensing,Communication,and Networking(SECON),2018,pp.1–9.):该模型从移动网络数 据中提取人群流量数据和出租车历史订单数据,采用图卷积神经网络对城市中任 意形状和大小区域的出租车需求进行预测。
(10)DCRNN(Y.Li,R.Yu,C.Shahabi,and Y.Liu,“Diffusion convolutionalrecurrent neural network:Data-driven traffic forecasting,”arXiv Prepr.arXiv1707.01926,2017.):该方法使用了扩张卷积递归神经网络(diffusionConvolutional Neural Network,DCRNN),利用图上的双向随机游动来捕获空间依 赖关系,利用定时采样的编解码器结构来捕获时间依赖关系。
(11)STGCN(B.Yu,H.Yin,and Z.Zhu,“Spatio-temporal graph convolutionalnetworks:A deep learning framework for traffic forecasting,”arXiv Prepr.arXiv1709.04875,2017.):该模型完全由图卷积神经网络构成,通过对多尺度交 通网络进行建模,从而捕获全面的时空相关性。
(12)STG2Seq(L.Bai,L.Yao,S.Kanhere,X.Wang,and Q.Sheng,“Stg2seq:Spatial-temporal graph to sequence model for multi-step passenger demandforecasting,”arXiv Prepr.arXiv1905.10069,2019.):该方法基于图卷积神经网络建 立了对长期编码器、短期编码器及基于注意力机制的输出模块,对动态的时空信 息进行建模。
图15展示了不同预测方法之间的对比。我们可以观察到,非深度学习模型 的效果相较于深度学习模型而言,预测效果更差,其中表现最佳的非深度学习模 型XGBoost比之表现较差的深度学习模型所取得的RMSE高2.36。这些非深度 学习模型无法捕获非线性的时空关联,因此效果较差。DeepST、ResST-Net、 DMVST-Net及ConvLSTM均为基于CNN或LSTM的传统深度学习模型,它们 利用CNN捕获空间关联,利用LSTM捕获时间关联,融入了天气、节假日、地 区语义等信息。这些方法通过CNN捕获空间关联,再通过LSTM捕获时间关联, 割裂了时间关联与空间关联之间的联系,因此本发明所提出的模型相较于以上四 个方法分别提升8.09%、4.65%、7.58%以及10.44%。图神经网络方兴未艾,也 被引入了时空序列预测任务中。本发明所对比的FCL-Net、FlowFlexDP,DCRNN, STGCN、STG2Seq均为基于图神经网络的模型,图神经网络可以对不规则区域 进行建模,以地区历史数据的相似度作为图的边权重,天然地融入了地区语义信 息。本发明所提出地模型相较于最先进地STG2Seq降低了2.44%的RMSE,而 相对于其它模型则分别使RMSE降低了7.43%、13.88%、18.19%以及11.94%。
为了验证模型各组件的有效性,本发明对所提出模型进行拆解得到不同的模 型变体:(1)全连接神经网络(Fully Connected Neural Network,FC);(2)卷积 神经网络与全连接神经网络(CNN-FC),在全连接神经网络前加入了3D-CNN, 以提取时空特征;(3)多任务卷积神经网络与全连接神经网络(MT-CNN-FC), 数据将按模态输入到3D-CNN中,并将其输出数据在深度维度上堆叠输入到另 一个3D-CNN中,最后连接FC;(4)MT-3-CNN-FC,与前一变体相比,邻近性、 趋势性、周期性三部分数据分别对应一个3D-CNN;(5)MT-3-Res-FC,与前一 变体不同之处在于,后一个3D-CNN替换为了3D-ResNet,该变体也等价于本章 所提出模型去掉LSTM部分;(6)L1,使用L1损失函数训练的模型;(7)SL1, 使用SmoothL1损失函数训练的模型。
图16展示了模型各变体的实验结果。FC是最简单的深度学习模型,其效果 优于性能最好的传统机器学习模型XGBoost,所得的RMSE为19.82。3D-CNN 的加入使模型可以在未割裂时间关联和空间关联的情况下捕获时空关联,相较于FC,CNN-FC提升了2.6%。进一步,在3D-CNN中加入了多任务学习的 MT-CNN-FC使RMSE降低了0.6,这也说明利用两个任务的相关性提升了预测 效果。随后,本发明在MT-3CNN-FC中为三部分不同数据设置了对应的CNN模 块,在MT-3-Res-FC将后一个3D-CNN替换为了3D-ResNet,分别使RMSE降 低了0.03及1.02。最后,我们对比了不同损失函数的结果,发现以Smooth L1 为损失函数的训练的模型效果最好。
Claims (10)
1.一种交通时空序列单步预测方法,其特征在于,包括以下步骤:
1)获取原始交通时空数据,并对所述原始交通时空数据进行预处理,得到三个时间片段Xcloseness、Kperiod及Xtrend;
3)按时间顺序,将所述3n个向量x1,x2,...,x3n分别作为3n个LSTM的输入,得到输出h1,h2,...,h3n,利用h1,h2,...,h3n得到基于注意力机制的LSTM的输出s1,s2,...,s3n;将s1,s2,...,s3n重塑为一个三维张量X0,将X0作为第二3D卷积神经网络的输入,将第二3D卷积神经网络的输出拉伸为向量
5)拼接gt和et,得到qt,将qt送至全连接神经网络,得到最终的输出,即t时刻的时空序列Xt。
2.根据权利要求1所述的交通时空序列单步预测方法,其特征在于,步骤1)中,对所述原始交通时空数据进行预处理的具体实现过程包括:
第一步,获取原始交通时空数据,所述原始交通时空数据包含ID、事件发生时间、事件发生地点的经度和纬度;第二步,设定经度跨度λlng和纬度跨度λlat;将城市划分为I×J个大小一致的网格,其中 grid(i,j)表示第i行、第j列的网格;i<I且j<J;PA(lngA,latA)为A点坐标,即城市最西南角的坐标;PB(lngB,latB)为B点坐标,即城市最东北角的坐标;设λtime为单位时间长度,tstart为原始交通时空数据的起始时间点,tend为原始数据的最后一个时间点,根据公式将所述原始交通时空数据按时间分为T个部分;第三步,生成时空序列X1:T=[X1,X2,X3,...,XT-1,XT];其中Xt代表第t个时间段内的时空序列状况,1≤t≤T,由n×I×J个网格组成,n代表数据的模态,通过统计 内事件发生的次数确定X1:T中每个网格即grid(i,j)的值。
4.根据权利要求1所述的交通时空序列单步预测方法,其特征在于,步骤2)中,所述第一3D卷积神经网络为3D-CNN神经网络;所述3D-CNN神经网络包括依次连接的三个卷积层;优选地,第一卷积层的输入帧数为1,输出帧数为16,卷积核尺寸为3×4×4,卷积核移动步长为1×2×2;第二卷积层的输入帧数为16,输入帧数为32,卷积核尺寸为3×4×4,卷积核移动步长为2×2×2;第三卷积层的输入帧数为32,输入帧数为64,卷积核尺寸为3×4×4,该层的卷积方式为扩张卷积,参数为2×2×2。
5.根据权利要求4所述的交通时空序列单步预测方法,其特征在于,所述第一卷积层、第二卷积层、第三卷积层后均各依次连接有归一化层以及LeakyReLU层;优选地,所述LeakyReLU层参数为0.2。
6.根据权利要求1所述的交通时空序列单步预测方法,其特征在于,步骤2)中,s1,s2,...,s3n的获取过程包括:
A)第t次迭代时,计算每一个hi与t-1次迭代时LSTM的输出st-1的相似程度et,i;i=1,2,......,3n;
B)通过softmax函数对et,i进行归一化,使各部分权重和为1,即得到各个hi的权重;
C)通过对hi加权求和得到下一次迭代时LSTM的输入contexti,进而得到第t次迭代时LSTM的输出st;
D)重复步骤A)~步骤C),迭代3n次,得到基于注意力机制的LSTM的输出为s1,s2,...,s3n。
7.根据权利要求1~6所述的交通时空序列单步预测方法,其特征在于,所述第二3D卷积神经网络为3D-ResNet;所述3D-ResNet包括多个卷积层,每个卷积层后均依次连接有归一化层及LeakyReLU层;优选地,所述卷积层的卷积核尺寸为3。
8.一种交通时空序列单步预测系统,其特征在于,包括:
数据采集模块,用于获取原始交通时空数据,并对所述原始交通时空数据进行预处理,得到三个时间片段Xcloseness、Xperiod及Xtrend;
第一拉伸单元,用于将第一时空特征张量、第二时空特征张量、第三时空特征张量合并后拉伸为向量x1,x2,...,x3n;
第一LSTM,输入分别为x1,x2,...,x3n,对应的输出分别为h1,h2,...,h3n;
第二LSTM,输入分别为h1,h2,...,h3n,对应的输出分别为s1,s2,...,s3n;
第二3D卷积神经网络,输入为三维张量X0,其中三维张量X0通过s1,s2,...,s3n重塑得到;
全连接神经网络,输入为拼接gt和et后得到的qt,输出为t时刻的时空序列Xt;
9.一种交通时空序列单步预测系统,其特征在于,包括计算机设备;所述计算机设备被配置或编程为用于执行权利要求1~7之一所述方法的步骤。
10.一种计算机存储介质,其特征在于,其存储有程序;所述程序被配置为用于执行权利要求1~7之一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391966.4A CN112559585A (zh) | 2020-12-02 | 2020-12-02 | 交通时空序列单步预测方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391966.4A CN112559585A (zh) | 2020-12-02 | 2020-12-02 | 交通时空序列单步预测方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112559585A true CN112559585A (zh) | 2021-03-26 |
Family
ID=75047233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011391966.4A Pending CN112559585A (zh) | 2020-12-02 | 2020-12-02 | 交通时空序列单步预测方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559585A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393120A (zh) * | 2021-06-11 | 2021-09-14 | 国网北京市电力公司 | 能源消耗数据的确定方法及装置 |
CN113865603A (zh) * | 2021-08-30 | 2021-12-31 | 东风柳州汽车有限公司 | 共享无人车路径规划方法、装置、设备及存储介质 |
TWI791349B (zh) * | 2021-12-16 | 2023-02-01 | 永豐商業銀行股份有限公司 | 分行據點的選址方法和選址裝置 |
CN113865603B (zh) * | 2021-08-30 | 2024-06-07 | 东风柳州汽车有限公司 | 共享无人车路径规划方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540199A (zh) * | 2020-04-21 | 2020-08-14 | 浙江省交通规划设计研究院有限公司 | 一种基于多模态融合和图注意力机制的高速交通流预测方法 |
CN111710154A (zh) * | 2020-05-15 | 2020-09-25 | 湖州师范学院 | 一种高速公路交通流量预测方法 |
CN111815956A (zh) * | 2020-09-11 | 2020-10-23 | 浙江高速信息工程技术有限公司 | 一种高速公路交通流量预测方法 |
CN112004197A (zh) * | 2020-08-06 | 2020-11-27 | 重庆邮电大学 | 一种基于车辆轨迹预测的异构车联网切换方法 |
-
2020
- 2020-12-02 CN CN202011391966.4A patent/CN112559585A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540199A (zh) * | 2020-04-21 | 2020-08-14 | 浙江省交通规划设计研究院有限公司 | 一种基于多模态融合和图注意力机制的高速交通流预测方法 |
CN111710154A (zh) * | 2020-05-15 | 2020-09-25 | 湖州师范学院 | 一种高速公路交通流量预测方法 |
CN112004197A (zh) * | 2020-08-06 | 2020-11-27 | 重庆邮电大学 | 一种基于车辆轨迹预测的异构车联网切换方法 |
CN111815956A (zh) * | 2020-09-11 | 2020-10-23 | 浙江高速信息工程技术有限公司 | 一种高速公路交通流量预测方法 |
Non-Patent Citations (1)
Title |
---|
LI KUANG ETAL.: "Predicting Taxi Demand Based on 3D Convolutional Neural Network and Multi-task Learning", HTTPS://WWW.MDPI.COM/2072-4292/11/11/1265, pages 1 - 15 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393120A (zh) * | 2021-06-11 | 2021-09-14 | 国网北京市电力公司 | 能源消耗数据的确定方法及装置 |
CN113865603A (zh) * | 2021-08-30 | 2021-12-31 | 东风柳州汽车有限公司 | 共享无人车路径规划方法、装置、设备及存储介质 |
CN113865603B (zh) * | 2021-08-30 | 2024-06-07 | 东风柳州汽车有限公司 | 共享无人车路径规划方法、装置、设备及存储介质 |
TWI791349B (zh) * | 2021-12-16 | 2023-02-01 | 永豐商業銀行股份有限公司 | 分行據點的選址方法和選址裝置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tekouabou et al. | Improving parking availability prediction in smart cities with IoT and ensemble-based model | |
Du et al. | Deep irregular convolutional residual LSTM for urban traffic passenger flows prediction | |
Veres et al. | Deep learning for intelligent transportation systems: A survey of emerging trends | |
CN109697852B (zh) | 基于时序交通事件的城市道路拥堵程度预测方法 | |
Miglani et al. | Deep learning models for traffic flow prediction in autonomous vehicles: A review, solutions, and challenges | |
Hou et al. | Interactive trajectory prediction of surrounding road users for autonomous driving using structural-LSTM network | |
Chu et al. | Deep multi-scale convolutional LSTM network for travel demand and origin-destination predictions | |
Ranjan et al. | City-wide traffic congestion prediction based on CNN, LSTM and transpose CNN | |
Xu et al. | Real-time prediction of taxi demand using recurrent neural networks | |
Yin et al. | Multi-stage attention spatial-temporal graph networks for traffic prediction | |
He et al. | STANN: A spatio–temporal attentive neural network for traffic prediction | |
CN112508173A (zh) | 交通时空序列多步预测方法、系统及存储介质 | |
Kim et al. | Graph convolutional network approach applied to predict hourly bike-sharing demands considering spatial, temporal, and global effects | |
Li et al. | Graph CNNs for urban traffic passenger flows prediction | |
CN111582559B (zh) | 一种到达时间的预估方法及装置 | |
CN110570035B (zh) | 同时建模时空依赖性和每日流量相关性的人流量预测系统 | |
Lu et al. | Lane-level traffic speed forecasting: A novel mixed deep learning model | |
He et al. | STNN: A spatio-temporal neural network for traffic predictions | |
Chen et al. | A multiscale-grid-based stacked bidirectional GRU neural network model for predicting traffic speeds of urban expressways | |
Bai et al. | Deep spatial–temporal sequence modeling for multi-step passenger demand prediction | |
CN112559585A (zh) | 交通时空序列单步预测方法、系统及存储介质 | |
Hua et al. | Forecasting usage and bike distribution of dockless bike‐sharing using journey data | |
Xu et al. | A deep learning based multi-block hybrid model for bike-sharing supply-demand prediction | |
CN114692984A (zh) | 基于多步耦合图卷积网络的交通预测方法 | |
CN113112793A (zh) | 一种基于动态时空相关性的交通流预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |