CN109919358B

CN109919358B - 一种基于神经网络时空注意力机制的实时站点流量预测方法

Info

Publication number: CN109919358B
Application number: CN201910097165.8A
Authority: CN
Inventors: 金蓓弘; 崔艳玲
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2021-03-02
Anticipated expiration: 2039-01-31
Also published as: CN109919358A

Abstract

本发明涉及一种基于神经网络时空注意力机制的实时站点流量预测方法，属于智能交通领域。本发明构造了一个基于编码器‑解码器的神经网络模型，该模型可以捕获站点乘客流量间的时间和空间关系。具体的，在编码器中，本发明应用空间注意力机制去获取站点间的流量相关性，在解码器中，本发明应用时间注意力机制去获取流量间的时间依赖关系。更进一步，解码器融合了额外的因素，比如兴趣点和时间特征。基于这样的时空注意力机制，本发明不仅可以准确地预测站点流量，而且具有可解释性。

Description

一种基于神经网络时空注意力机制的实时站点流量预测方法

技术领域

本发明属于智能交通领域，特别涉及基于神经网络时空注意力机制的实时站点流量预测方法。

背景技术

短时交通流预测是智能交通系统研究和应用中的重要组成部分。为了协助交通管理和控制以提升交通运行效率，包括路径规划、信号灯控制等，以各种各样的数据为输入，有大量的交通流预测方法被提出。

在时间序列分析领域，ARIMA(自回归差分移动平均模型，Auto-RegressiveIntegrated Moving Average)及其变种space-time ARIMA和seasonal ARIMA被用于短时交通流预测。除了类ARIMA模型，其他线性模型例如高斯过程(Gaussian process)也被提出用于交通流预测(Zhou J,Tung A K H.Smiler:A semi-lazy time series predictionsystem for sensors.In Proceedings of the 2015ACM International Conference onManagement of Data.2015,1871-1886)。然而，这些方法通常基于一些先验假设并且被预设成具有简单明显的结构。鉴于交通流的复杂性和非线性特点，这些线性方法在交通流预测时效果并不好。此外，上述技术都是分别预测每个目标路段的交通流量，不能反映交通网络的复杂性和强相关性。因此，交通流的精确建模和预测仍然是一个尚未完全解决的难题。

研究人员也付出大量精力用不同的机器学习方法进行交通流预测，比如k近邻(k-Nearest Neighbor)、随机森林(Random Forest)、梯度提升回归树(Gradient BoostingRegression Tree)和支持向量回归(Support Vector Regression)(Hu J,Gao P,Yao Y,etal.Traffic flow forecasting with particle swarm optimization and supportvector regression.In Proceedings of the IEEE 17th International Conference onIntelligent Transportation Systems.2014,2267-2268)等。一些工作应用了贝叶斯网络(Bayesian network)、马尔科夫随机场(Markov random field)、张量分解或者矩阵分解(Gong Y,Li Z,Zhang J,et al.Network-wide Crowd Flow Prediction of SydneyTrains via Customized Online Non-negative Matrix Factorization.In Proceedingsof the 27th ACM International Conference on Information and KnowledgeManagement.2018,1243-1252)等。

近年来，深层学习在某些领域取得了相当优异的性能，因而引起了学术界和工业界的广泛关注。一些用于交通流预测的深层学习方法，如叠加式自动编码器(stackedauto-encoders)、深度置信网络(deep belief network)和深度残差网络(deep residualnetworks)等被提出并显示出良好性能(Zhang J,Zheng Y,Qi D.Deep Spatio-TemporalResidual Networks for Citywide Crowd Flows Prediction.In Proceedings of the31st Association for the Advancement of Artificial Intelligence,2017,1655-1661)。其主要原因是深度学习算法能够适应交通流序列的非线性部分。另一方面，一些深度学习模型，如长短期记忆(Long Short-Term Memory,LSTM)网络和门控递归单元(GatedRecurrent Unit,GRU)网络是专门针对时间序列设计的，它们也可以用于处理交通流。然而，这些最近的研究均没有考虑对交通流具有显著影响的交通网络。因此，它们不能利用到整个网络的空间信息。

迄今为止，人们已经进行了大量的研究来解决交通流预测问题，并且涉及不同学科的各种技术。然而，很难说哪一个明显优于其他的。眼下并没有一项研究可以全面地应对交通流预测中的所有挑战。

发明内容

本发明技术解决的问题：通过挖掘站点流量的时间和空间依赖关系，提供一种基于神经网络时空注意力机制的实时站点流量预测方法，实现准确、实时的站点流量预测。

为实现上述目的，本发明提供一种基于神经网络时空注意力机制的实时站点流量预测方法，其特点在于构造了一个基于编码器-解码器的神经网络模型，在编码器中，应用空间注意力机制去获取站点间的流量相关性，在解码器中，应用时间注意力机制去获取流量间的时间依赖关系。进一步的，在解码器融合了额外的因素，比如兴趣点和时间特征。从而实现准确实时的站点客流量预测。

本发明的技术解决方案：一种基于神经网络时空注意力机制的实时站点流量预测方法，实现步骤如下：

(1)将时间窗口中站点和相关站点的历史客流量数据输入编码器中，得到时间窗口中每个时间片的隐状态向量；

(2)以步骤(1)的输出，解码器上一步的输出以及额外因素为输入，解码器计算未来下一个时间区间的客流量值。

所述步骤(1)的具体实现如下：

(11)编码器采用深度LSTM网络结构；

(12)以当前时间之前T个时间片作为时间窗口，获取当前时间窗口内的所有站点流量值；

(13)对于时间窗口内的每个时间片，对每个站点i，将站点i的相关站点流量输入到空间注意力模块中，得到加权后的相关站点流量值；

(14)在每个时间步，LSTM网络以加权后的相关站点流量值和站点i的流量值为输入，输出LSTM单元的隐藏状态。

所述步骤(2)的具体实现如下：

(21)解码器采用深度LSTM网络结构；

(22)将步骤(14)中的隐藏状态输入到时间注意力模块中，得到加权后的编码器隐藏状态，这些隐藏状态加权求和得到上下文向量；

(23)对额外因素进行融合，额外因素包含三部分：POI(兴趣点，Point ofInterest)特征，站点ID，时间特征。POI特征是站点周围一定范围内的不同类别的POI数量的密度，时间特征包含流量发生在一周中的哪一天、一天中的哪个时间片。站点ID和时间特征是类别型的，需要经过嵌入(embedding)层降维成低维向量。将这三个因素拼接成向量，得到时间步t′的额外因素ex_t′；

(24)将步骤(22)和(23)的输出以及解码器上一步的预测值一起作为解码器当前步的输入，经过LSTM网络运算得到当前步的隐状态；

(25)将隐状态和上下文向量做线性变换，得到未来时间区间的预测值；

(26)将预测值和真实值之间的平均平方误差作为上述神经网络模型的损失函数，并用Adam优化算法训练该模型。

所述(11)中的编码器采用的LSTM网络被设置为q层，LSTM单元的函数功能如下：

令编码器在时间片t的输入为

其中

为站点i在时间片t的乘客流，

为步骤(13)的输出。编码器时间步t的隐藏状态h_t由下面的非线性函数计算：

f_e为LSTM单元的函数表示，其由下式组成：

h_t＝o_t⊙tanh(s_t)

其中

是编码器前一个隐状态h_t-1和当前输入

的拼接，f_t、i_t、o_t是LSTM单元中的忘记门(Forget Gate)、输入门(Input Gate)、输出门(Output Gate)对应的函数，W_f,W_i,W_o,W_s和b_f,b_i,b_o,b_s是要学习的参数，其中W_f,W_i,W_o,W_s是编码器LSTM单元的输入线性变换矩阵，b_f,b_i,b_o,b_s是编码器LSTM单元的输入线性变换偏倚。σ是激励函数，被设置为tanh，⊙表示元素相乘。

所述(13)中的空间注意力模块如下：

在预测站点i的上车客流量时，i的相关站点是其邻近站点，当预测i的下车客流量时，i的相关站点是其上游站点。给定站点i的相关站点k(邻近或者上游)在时间窗口内的流量值，即

按如下方法计算其对站点i的影响权重：

其中[h_t-1；s_t-1]是编码器前一个隐状态h_t-1和单元状态s_t-1的拼接，v_e,W_e,U_e,b_e是要学习的参数。权重系数

评估了时间t步第k个相关站点流量的重要性。基于权重系数，空间注意力机制模块的输出由下式计算得出：

其中

为i的第k个相关站点在时间步t的流量值。

和

构成了编码器在时间t步的输入，即(14)步中的输入。

所述(21)中解码器采用的LSTM网络被设置为q层，LSTM单元的函数功能如下：

令解码器在时间t′步的输入为

其中c_t′是上下文向量，由(22)步计算得到，

是解码器在上一个时间步的输出，ex_t′是额外因素编码组成的向量，由(23)步计算得到。解码器在时间步t′的隐藏状态h′_t′由下面的非线性函数计算：

非线性函数f_d为LSTM单元的函数表示，由下式组成：

h′_t′＝o′_t′⊙tanh(s′_t′)

其中

是解码器上一个隐状态h′_t′-1和解码器输入的拼接，f′_t、i′_t、o′_t是LSTM单元中的忘记门(Forget Gate)、输入门(Input Gate)、输出门(Output Gate)对应的函数，W′_f,W_i′,W_o′,W_s′和b′_f,b′_i,b′_o,b′_s是要学习的参数，其中W′_f,W_i′,W_o′,W_s′是解码器LSTM单元的输入线性变换矩阵，b′_f,b′_i,b′_o,b′_s是解码器LSTM单元的输入线性变换偏倚。σ是激励函数tanh，⊙表示元素相乘。

所述(22)中时间注意力机制模块如下：

在解码器的时间步t′，给定编码器在时间窗口内的每一步的输出即h₁,h₂,...h_T，那么，编码器的每个隐状态h_k的权重系数

由下式计算：

其中，[h′_t′-1,s′_t′-1]是解码器的前一个隐状态h′_t′-1和单元状态s′_t′-1的拼接，v_g,W_g,U_g,b_g是要学习的参数。

基于编码器的隐状态，由下式计算出上下文向量，即，上下文向量为编码器的所有隐状态的加权和：

所述(25)中，预测值的计算方法如下：

矩阵W_m将上下文向量和隐状态的拼接[c_t′；h′_t′]转换成和解码器隐状态具有相同的大小，权重向量v_y和偏倚b_m,b_y是要学习的参数。

所述(26)中损失函数为：

其中M是训练数据中不同的时间片数，对于第j个时间片，

和

分别是第i个车站第k的预测区间的真实值和预测值，θ是所有要学习的参数。

本发明与现有技术相比的优点在于：

(1)本发明构造了一个编码器-解码器神经网络来预测每个站点的上下车客流量。

(2)在编码器中，应用空间注意力机制来获取公共交通系统中站点间流量的复杂的空间关系。

(3)在解码器中设计了一个时间注意力机制来建模乘客流动态的时间属性。更进一步的，时间注意力机制的输出和额外的因素(比如POI数据)进行了融合。

(4)本发明是首次在大城市范围的公交通系统中，应用时空注意力机制的深度神经网络模型来预测乘客流量的方法。

附图说明

图1为本发明方法对应的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图及实施例对本发明作进一步的详细描述。

本实施例采用Python程序设计语言，能在主流计算机系统平台上运行。本实施例使用的操作系统为CentOS 6.3，要求CPU为Intel Core i7，内存要求8G及以上，硬盘空间要求16G及以上，GPU为NVIDIA Tesla V100，显存16G。

本发明基于Tensorflow 1.9.0框架(Abadi M,Barham P,Chen J,etal.2016.Tensorflow:a system for large-scale machine learning[C].OSDI.16:265-283.)实现了本发明内容，以Adam优化算法(Kingma D P,Ba J.2014.Adam:A method forstochastic optimization[J].arXiv preprint arXiv:1412.6980.)作为梯度下降算法，求解神经网络模型中的所有要学习的参数θ。

编码器中的LSTM单元使用tf.contrib.rnn.BasicLSTMCell类，在定义好的LSTM单元上包裹dropout，本实施例中使用tf.nn.rnn_cell.DropoutWrapper。在前向传播的时候，dropout机制是让一些神经元的激活值以一定的概率p停止工作，这样可以使模型的泛化性更强。由于随机性，使得参数不用每一次迭代训练时，都一起更新、互相产生关联和影响，这样弱化了各个特征之间过多的相互作用，减少了隐层节点间的相互作用，使得模型不会太依赖某些局部的特征，缓解过拟合。重复定义q个LSTM单元，并将这q个LSTM单元形成的列表放入tf.contrib.rnn.MultiRNNCell，形成编码器的网络结构。

解码器的网络结构与编码器类似，定义q个LSTM单元，形成列表放入tf.contrib.rnn.MultiRNNCell中，即可得到解码器的网络结构。实施例中采用的模型的配置参数如表1所示。

表1模型配置参数设置

基于表1中的模型的配置参数设置，要学习的所有的神经网络中的参数θ及其维度大小如表2所示。

表2模型训练时要学习的参数

参数	张量各维度	描述
			v<sub>y</sub>	64,1	预测流量线性变换矩阵
b<sub>y</sub>	1	预测流量线性变换偏倚
			station_embed_matrix	6644,12	每个车站映射成低维向量
day_embed_matrix	2,2	工作日/非工作日映射成低维向量
			slice_embed_matrix	64,6	一天中每个时间片映射成低维向量
U<sub>e</sub>	8,8	空间注意力机制中相关站点的变换矩阵
			v<sub>e</sub>	8	空间注意力机制中的相似度计算向量
W<sub>e</sub>	256,8	空间注意力机制中[h<sub>t-1</sub>；s<sub>t-1</sub>]的变换矩阵
			b<sub>e</sub>	8	空间注意力机制中的偏倚
W<sub>f</sub>(1),W(1)<sub>i</sub>,W<sub>o</sub>(1),W<sub>s</sub>(1)	均为76,64	编码器第一层LSTM单元的输入线性变换矩阵
			b<sub>f</sub>(1),b<sub>i</sub>(1),b<sub>o</sub>(1),b<sub>s</sub>(1)	均为64	编码器第一层LSTM单元的输入线性变换偏倚
W<sub>f</sub>(2),W(2)<sub>i</sub>,W<sub>o</sub>(2),W<sub>s</sub>(2)	均为128,64	编码器第二层LSTM单元的输入线性变换矩阵
			b<sub>f</sub>(2),b<sub>i</sub>(2),b<sub>o</sub>(2),b<sub>s</sub>(2)	均为64	编码器第二层LSTM单元的输入线性变换偏倚
U<sub>g</sub>	64,64	时间注意力机制中编码器隐状态的变换矩阵
			v<sub>g</sub>	64	时间注意力机制中的相似度计算向量
W<sub>g</sub>	256,64	时间注意力机制中[h′<sub>t′-1</sub>,s′<sub>t′-1</sub>]的变换矩阵
			b<sub>g</sub>	64	时间注意力机制中的偏倚
W′<sub>f</sub>(1),W<sub>i</sub>′(1),W<sub>o</sub>′(1),W<sub>s</sub>′(1)	均为163,64	解码器第一层LSTM单元的输入线性变换矩阵
			b′<sub>f</sub>(1),b′<sub>i</sub>(1),b′<sub>o</sub>(1),b′<sub>s</sub>(1)	均为64	解码器第一层LSTM单元的输入线性变换偏倚
W′<sub>f</sub>(2),W<sub>i</sub>′(2),W<sub>o</sub>′(2),W<sub>s</sub>′(2)	均为128,64	解码器第二层LSTM单元的输入线性变换矩阵
			b′<sub>f</sub>(2),b′<sub>i</sub>(2),b′<sub>o</sub>(2),b′<sub>s</sub>(2)	均为64	解码器第二层LSTM单元的输入线性变换偏倚
W<sub>m</sub>	128,64	上下文向量和隐状态的拼接[c<sub>t′</sub>；h′<sub>t′</sub>]的线性变换矩阵
			b<sub>m</sub>	64	上下文向量和隐状态的拼接[c<sub>t′</sub>；h′<sub>t′</sub>]的线性变换偏倚

本实施例中的POI数据包含北京市的1,264,750个兴趣点，每个POI记录包含4个属性，即，POI名字，地址，位置(经度，纬度)，POI类别。POI共有14种类别：科教文化服务，汽车服务，风景名胜，公司企业，体育休闲服务，住宿服务，购物服务，商务住宅，金融保险服务，政府机构及社会团体，餐饮服务，交通设施服务&道路附属设施，医疗保健服务，公共设施&生活服务。

本发明实施例中的刷卡数据采用的是北京市交通运行监测调度中心(Transportation Operations Coordination Center，TOCC)提供的一卡通刷卡数据。收集了从2017年10月9日至12月31日共84天的数据，包括9.28亿条刷卡记录。

一条刷卡记录包含：一卡通ID，交易时间，进站线路编号，进站站点编号，进站时间，出站线路编号，出站站点编号。

目前北京市有280个地铁站，6364个公交车站，总共为6644个站点。以15分钟作为一个时间片，本实施例预测这6644个站点在将来的6个时间区间的乘客流量。

实施例中，将84天的数据依照比例9:2:1划分成了不相交的训练集、验证集和测试集。即，以前63天的数据作为训练集，以接着的14天数据作为验证集，以后7天的数据作为测试集。得到训练样本数为26,788,608，验证样本数为5,953,024，测试样本数为2,976,512。模型在所有训练数据上执行一遍梯度下降算法被称为一轮，最大轮数被设置为12。

表2中列出的要学习的参数个数总共为238,917个，在模型训练开始时，首先随机初始化这些参数。每一轮开始时，将训练样本随机划分到大小为256的批数据中，得到104,643个批数据。当一个批的训练数据输入模型中时，对批数据中的每个训练样本，首先利用空间注意力机制计算样本对应的站点i的相关站点流量加权后的结果，并计算编码器在每个时间步的输出隐状态，然后利用时间注意力机制计算加权求和的编码器隐状态，即上下文向量，并计算解码器在每个时间步的输出隐状态，接着根据解码器隐状态和上下文向量计算模型在未来的6个时间区间的预测值，进而计算预测值和真实值之间的平均平方误差，把该误差作为神经网络模型的损失函数值，并使用Adam优化算法作为梯度下降算法，对模型中所有要学习的参数θ(即表2中的参数)进行更新，从而形成更新了参数θ的模型。

104,643个批数据依次输入模型，执行上述过程，简言之，每一次，一个批的训练数据均在被上一批数据更新了参数θ的模型上执行，并对参数θ进行迭代更新。当所有的批数据执行完，即完成了模型的一轮迭代。共执行了12轮，每一轮模型的初始参数θ为上一轮结束时模型的参数。在每一轮模型训练得到的参数θ下，将验证数据输入模型中，首先计算模型在验证数据集上的预测值，然后计算模型在验证数据集上的损失函数值，即为模型在验证数据集上的误差。在训练模型的12轮迭代过程中，在验证数据集上取得最小误差的模型及其参数被保存起来。本发明实施例训练模型所花费的时间约为29.5小时。

用测试集模仿实时数据流场景，当获取到一个时间片内(即当前时间之前15分钟内)的所有站点的上下车客流量数据时，首先为每个车站产生测试样本数据，然后把保存的训练好的模型加载入内存，计算所有测试样本数据的预测值，得到每个车站在未来的6个时间区间的预测值。实时场景下，本发明实施例预测每个时间片所有站点的客流量需要花费5秒钟的时间，可以满足实际应用需求。

本实施例在测试数据集上的预测误差，即MAE(平均绝对误差)、RMSE(均方根误差)分别为8、24，这表示每15分钟的预测误差分别不多于8、24位乘客。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于神经网络时空注意力机制的实时站点流量预测方法，其特征在于，实现步骤如下：

(2)以步骤(1)的输出、解码器上一步的输出以及额外因素的编码为输入，解码器计算未来下一个时间区间的客流量值；

所述步骤(1)中，编码器的设计包括以下步骤：

(11)编码器采用深度LSTM网络结构；

(14)在每个时间步，LSTM网络以加权后的相关站点流量值和站点i的流量值为输入，输出LSTM单元的隐藏状态；

所述步骤(2)中，解码器的设计包括以下步骤：

(21)解码器采用深度LSTM网络结构；

(22)将步骤(14)中的隐藏状态输入到时间注意力模块中，得到加权后的编码器隐藏状态，隐藏状态加权求和得到上下文向量；

(23)对额外因素进行融合，额外因素包含三部分：POI特征，站点ID，时间特征，POI特征是站点周围一定范围内的不同类别的POI数量的密度，时间特征是站点发生某个流量的时间类别信息，包含流量发生在一周中的哪一天、一天中的哪个时间片；站点ID和时间特征是类别型的，需要经过嵌入层降维成低维向量，将这三个因素拼接成向量，得到时间步t′的额外因素ex_t′；

(26)将预测值和真实值之间的平均平方误差作为上述神经网络模型的损失函数，并用Adam优化算法训练该模型；

所述步骤(11)中，LSTM网络结构设置为q层，LSTM单元的函数功能为：

令编码器在时间片t的输入为

其中

为站点i在时间片t的乘客流量，

为步骤(13)的输出，编码器时间步t的隐藏状态h_t由下面的非线性函数计算：

f_e为LSTM单元的函数表示，其由下式组成：

h_t＝o_t⊙tanh(s_t)

其中

是编码器前一个隐状态h_t-1和当前输入

的拼接，f_t、i_t、o_t是LSTM单元中的忘记门、输入门、输出门对应的函数，W_f,W_i,W_o,W_s和b_f,b_i,b_o,b_s是要学习的参数，其中W_f,W_i,W_o,W_s是编码器LSTM单元的输入线性变换矩阵，b_f,b_i,b_o,b_s是编码器LSTM单元的输入线性变换偏倚，σ是激励函数，被设置为tanh，⊙表示元素相乘。

2.根据权利要求1所述的一种基于神经网络时空注意力机制的实时站点流量预测方法，其特征在于：所述步骤(13)中，空间注意力机制具体实现如下：

在预测站点i的上车客流量时，i的相关站点是其邻近站点，当预测i的下车客流量时，i的相关站点是其上游站点，给定站点i的邻近或者上游站点k在时间窗口内的流量值，即

按如下方法计算其该站点k对站点i的影响权重：

其中[h_t-1；s_t-1]是编码器前一个隐状态h_t-1和单元状态s_t-1的拼接，v_e,W_e,U_e,b_e是要学习的参数，权重系数

评估了时间t步第k个相关站点流量的重要性，基于权重系数，空间注意力机制模块的输出由下式计算得出：

其中Ne是邻近站点个数，

为站点i的第k个相关站点在时间步t的流量值，

和

构成了编码器在时间t步的输入。

3.根据权利要求1所述的一种基于神经网络时空注意力机制的实时站点流量预测方法，其特征在于：所述步骤(21)中，LSTM网络被设置为q层，LSTM单元的函数功能为：

令解码器在时间t′步的输入为

其中c_t′是上下文向量，由步骤(22)计算得到，

是解码器在上一个时间步的输出，ex_t′是额外因素编码组成的向量，由步骤(23)计算得到，解码器在时间步t′的隐藏状态h′_t′由下面的非线性函数计算：

非线性函数f_d为LSTM单元的函数表示，由下式组成：

h′_t′＝o′_t′⊙tanh(s′_t′)

其中

是解码器上一个隐状态h′_t′-1和解码器输入的拼接，f′_t、i′_t、o′_t是LSTM单元中的忘记门、输入门、输出门对应的函数，W′_f,W_i′,W′_o,W_s′和b′_f,b′_i,b′_o,b′_s是要学习的参数，其中W′_f,W_i′,W′_o,W_s′是解码器LSTM单元的输入线性变换矩阵，b′_f,b′_i,b′_o,b′_s是解码器LSTM单元的输入线性变换偏倚，σ是激励函数tanh，⊙表示元素相乘。

4.根据权利要求1所述的一种基于神经网络时空注意力机制的实时站点流量预测方法，其特征在于：所述步骤(22)中，时间注意力机制具体实现如下：

在解码器的时间步t′，给定编码器在时间窗口内的每一步的输出即h₁,h₂,...h_T，则编码器的每个隐状态h_k的权重系数

由下式计算：

其中，[h′_t′-1,s′_t′-1]是解码器的前一个隐状态h′_t′-1和单元状态s′_t′-1的拼接，v_g,W_g,U_g,b_g是要学习的参数；

5.根据权利要求1所述的一种基于神经网络时空注意力机制的实时站点流量预测方法，其特征在于：所述步骤(25)中，预测值的计算方法如下：

矩阵W_m将上下文向量和隐状态的拼接[c_t′；h′_t′]转换成和解码器隐状态具有相同的大小，权重v_y和偏倚b_m,b_y是要学习的参数。

6.根据权利要求2所述的一种基于神经网络时空注意力机制的实时站点流量预测方法，其特征在于：所述步骤(26)中损失函数为：

其中M是训练数据中不同的时间片数，对于第j个时间片，

和

分别是第i个车站第k个预测区间的真实值和预测值，θ是所有要学习的参数。