CN113505536A

CN113505536A - 一种优化的基于时空图卷积网络的交通流预测模型

Info

Publication number: CN113505536A
Application number: CN202110776014.2A
Authority: CN
Inventors: 张红; 赵圆梦; 陈林龙; 曹洁; 阚苏南; 赵天信
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-10-15

Abstract

本发明涉及一种优化的基于时空图卷积网络的交通流预测模型，交通流预测定义为对特定的路网结构，根据历史记录的几个时间步长的交通流数据来预测未来几个时间步长的交通流数据，模型建立包括：空间相关性建模；通过模型训练得到的自适应邻接矩阵来表示图的结构；时间相关性建模，GRU的门和隐藏状态的计算过程是全连接操作，使用GCN对其进行替换；TPA机制的引入；Loss function，设计和训练模型的目的是最小化道路节点的模型预测值和真实值之间的误差。本发明提高短时交通流准确预测精度，增强了模型分析图结构的数据的能力，可以保证充分挖掘交通流的时空依赖性，从而提高短时交通流的预测精度和模型的收敛速度。

Description

一种优化的基于时空图卷积网络的交通流预测模型

技术领域

本发明涉及交通流预测技术领域，具体是指一种优化的基于时空图卷积网络的交通流预测模型。

背景技术

短时交通流预测是智能交通系统至关重要的一环，准确的短时交通流预测可以对交通管理部门的决策提供有力的依据，同时也可以让司机选择更通畅的出行路线，从而缓解交通压力。然而由于交通流复杂的时空依赖性难以分析，交通流的预测问题一直是一个难题。

随着深度学习的发展，研究人员们开始尝试使用深度神经网络来解决交通流的时空依赖性难以分析的问题。长短时记忆网络(LSTM)，门控递归单元(GRU)都属于循环神经网络(RNN)的改进形式，它们都继承了RNN的循环机制，并减少了RNN的过拟合与欠拟合的缺陷。因此它们都可以很好的处理时间依赖性。Ma等人和Fu等人分别提出基于LSTM和GRU的预测方法。这类模型会根据时间步将输入的交通流数据拆分，一步一步地分析交通流的时间依赖性，但忽略了空间依赖性。为了能同时分析时间依赖性和空间依赖性，Liu等人提出了基于卷积LSTM(Conv-LSTM)的预测方法。该方法使Conv-LSTM分析交通流的时空依赖性。

ConventionalNetwork(CNN)是基于平移不变性原理提出来的，它不适合处理于非欧式的路网数据。所以CNN在分析交通流的空间依赖性问题上表现得不理想。

近年来，随着图卷积网络(GCN)的研究成果越来越多，因此人们开始使用GCN来预测交通流。Yu等人结合一维CNN和GCN提出时空卷积块(ST-ConvBlock)，时空卷积块的工作原理是使用多通道的GCN分析交通流的空间依赖性，又用一维卷积分析时间依赖性。Zhang等人提出了Structure Learning Convolution(SLC)框架，可以将传统的CNN扩展到图领域并学习图结构来预测交通流。Zheng等人使用图注意力网络构建自动编码机提出了graphmulti-attention network(GMAN)。以上模型都是将时间依赖性与空间依赖性分开分析的，这样做无论先分析时间和空间依赖性其中的哪个，都会对另一个的分析造成负面影响。

将GCN与RNN的变体结合，然后同时分析时交通流的空依赖性也是热门研究内容。(Li,et al.2017)将扩散卷积与GRU结合，并将模型设计为自动编码器的结构，提出扩散卷积递归神经网络(DCRNN)的预测方法。Zhao等人将GCN与GRU结合，提出T-GCN。Zhu等人在结合GCN与GRU的基础上考虑了外部因素例如天气和surrounding POIs对交通流的影响提出AST-GCN模型。Yu等人使用dynamic time warping算法根据时间序列的相似度构造节点之间的邻接矩阵，并提出模型3D-TGCN模型。上述方法都没有考虑到不同隐藏层节点在所有时间步下的输出对预测结果的影响大小的不同。

由于难以充分分析交通流的时空依赖性，传统方法在预测任务中表现出的性能不高。准确又及时的交通流预测对日益发展的智能交通系统具有重要意义。

发明内容

本发明要解决的技术问题是，提供一种优化的基于时空图卷积网络的交通流预测模型。

为解决上述技术问题，本发明提供的技术方案为：一种优化的基于时空图卷积网络的交通流预测模型，交通流预测定义为对特定的路网结构，根据历史记录的几个时间步长的交通流数据来预测未来几个时间步长的交通流数据，模型建立包括：

空间相关性建模，使用GCN提取交通流的空间依赖性，GCN将节点的一阶邻居节点的信息的卷积操作来替换CNN中的卷积操作以捕获图的空间特性；

通过模型训练得到的自适应邻接矩阵来表示图的结构；

时间相关性建模，GRU的门和隐藏状态的计算过程是全连接操作，使用GCN对其进行替换；

TPA机制的引入；

Loss function，设计和训练模型的目的是最小化道路节点的模型预测值和真实值之间的误差。

进一步的，所述交通流预测表示为等式(1)

其中，

表示未来几个时间步长的交通流数据的预测值，表示为等式(2)；G＝(V，E，A)代表路网的图结构；V表示节点的集合，将每个记录交通流数据的传感器看作一个节点，V＝{V₁，V₂，...，V_n}，n表示所记录的道路节点的数量；E表示边的集合；A表示路网的邻接矩阵；X是特征矩阵，表示用于预测的历史交通流数据，表示为等式(3)；f表示通过训练得到的函数映射；

其中，P表示要预测的时间步的个数，F表示对映射f输入的历史记录的时间步的个数。

进一步的，所述空间相关性建模表示形式如等式(4)所示

其中，A∈R^n×n表示图的邻接矩阵，I_N表示单位矩阵，D表示A的度矩阵；Θ∈R^n×m，b∈R^m分别表示需要训练的权重参数和偏置参数，σ表示激活函数。

进一步的，所述自适应邻接矩阵表示为：

其中，softmax和ReLU表示激活函数，Nv₁∈R^n×e和Nv₂∈R^e×n表示源节点嵌入和目标节点嵌入，Nv₁乘以Nv₂可以得到源节点和目标节点之间的权重；ReLU函数用于消除节点之间的弱连接，softmax函数用于将自适应邻接矩阵归一化，应用的图卷积表示为：

f(X)＝σ((I_N+softmax(ReLU(Nv₁Nv₂)))XΘ+b) (6)。

进一步的，替换后的GCN表达形式为：

其中，u_t，r_t表示在时间步t时的更新门和重置门，h_t表示模型在时间t时输出的隐藏状态，X_t表示在时间步t时输入的交通流数据，Θ_u，Θ_r，Θ_c，b_u，b_r，b_c是需要训练的权重和偏置参数。

进一步的，所述的TPA机制中，h₁，hx，...，h_F∈R^m是模型在每一步输出的隐藏状态向量，H_i，j表示隐藏状态矩阵的第i行第j列的元素，k表示卷积滤波器的个数，卷积滤波器的尺寸为1×(F-1)，TPA机制的具体步骤如下：

1)使用一维卷积处理隐藏状态的时间模式，表示为等式(8)

利用k个卷积滤波器对模型的每个节点在前F-1个时间步输出的隐藏状态进行加权求和，得到隐藏状态矩阵的时间模式矩阵H^C，

表示第i个节点和第j个卷积滤波器作用的结果值；

2)另query＝h_t，key＝H^C，Scoring Function如等式(9)所示

3)将Scoring Function得到的值归一化，得到注意力权重，如等式(10)所示

4)利用注意力权重，对H^C每行做加权求和，得到上下文向量V_F如等式(11)所示

5)最后将上下文向量V_F和h_F拼接后使用全连接层得到更新后的状态向量h′_F，TPA仅计算前F-1个时间步对最后一个时间步的隐藏状态向量的得分，最终得到的V_F代表每个节点的Temporal Pattern。

进一步的，使用的损失函数如等式(12)所示

第一项用于计算二者的误差，第二项是为了防止过拟合而添加的一个正则化，其中，λ是一个需要人为设置的超参数，W表示模型中的所有需要训练的参数所拼成的参数矩阵。

本发明具有如下优点：(1)本文使用GC替换GRU中计算门和隐藏状态的过程。这么做即保留了GRU的门控机制和循环机制，又减少了GRU在门计算过程中的全连接操作对图数据产生的过拟合现象，从而让模型同时分析时间依赖性和空间依赖性。

(2)考虑到了不同节点对预测结果的影响大小不同，本文引入Temporal PatternAttention(TPA)机制，TPA对改进过的GRU的输出进行加权，来计算不同隐藏层节点在所有时间步的隐藏状态对预测结果的重要程度，从而提高对时空依赖性分析的准确性。

(3)我们使用了两个真实的数据集来评估我们提出的模型。实验结果表明，与所有Baseline相比，ASTPAGCN的短时预测效果是最好的。

附图说明

图1是本发明模型结构图，(a)ASTPAGCN的整体结构，(b)使用GCN替换线性乘法后的GRU单元的细节。

图2是本发明中Temporal Pattern Attention的具体细节图。

图3是本发明中不同卷积滤波器个数下的模型预测性能比较。

图4是本发明中T-GCN和ASTPAGCN预测效果对比。

图5是本发明中模型的收敛情况。

具体实施方式

下面结合实施例对本发明做进一步的详细说明。

模型的整体结构如图1所示。图1的(a)部分表示模型的整体结构，图1的(b)部分表示ASTAGCN模型的隐藏层的具体细节。

交通流预测的定义：

交通流预测可以理解为，对特定的路网结构，根据历史记录的几个时间步长的交通流数据来预测未来几个时间步长的交通流数据，可以表示为等式(1)。

其中，

表示未来几个时间步长的交通流数据的预测值，可以表示为等式(2)。G＝(V，E，A)代表路网的图结构。V表示图的节点的集合，我们将每个记录交通流数据的传感器看作图中的一个节点，V＝{V₁，V₂，...，V_n}，n表示所记录的道路节点的数量。E表示图中的边的集合，对于不同的数据集我们使用了不同的方法计算边的值，具体的计算方法在3.1小节展开。A表示路网的邻接矩阵。X是特征矩阵，表示用于预测的历史交通流数据，可以表示为等式(3)。f表示通过训练得到的函数映射。

其中，P表示要预测的时间步的个数。F表示对映射f输入的历史记录的时间步的个数。

空间相关性建模：

本文使用GCN来提取交通流的空间依赖性。GCN可以将节点的一阶邻居节点的信息的卷积操作来替换CNN中的卷积操作以捕获图的空间特性。其表示形式如等式(4)所示。

其中，A∈R^n×n表示图的邻接矩阵，I_N表示单位矩阵，D表示A的度矩阵。Θ∈R^n×m，b∈R^m分别表示需要训练的权重参数和偏置参数，σ表示激活函数。

然而在在交通流预测领域，大部分对于GCN的研究所使用的图结构都是根据交通路网中传感器在路网中的位置人工预定义的。这种方法非常的直观，但其实人工定义的图结构只能反映出路网中各个传感器的实际地理位置的相关性，并不能反映出交通流量的相关性。这影响了模型对交通流空间依赖性的提取，从而降低了模型的预测精度。

因此本文使用可以通过模型训练得到的自适应邻接矩阵来表示图的结构(Wu，etal.2019)，可以表示为：

其中，softmax和ReLU表示激活函数，Nv₁∈R^n×e和Nv₂∈R^e×n表示源节点嵌入和目标节点嵌入，Nv₁乘以Nv₂可以得到源节点和目标节点之间的权重；ReLU函数用于消除节点之间的弱连接，softmax函数用于将自适应邻接矩阵归一化。最后本文应用的图卷积表示为：

f(X)＝σ((I_N+softmax(ReLU(Nv₁Nv₂)))XΘ+b) (6)

时间相关性建模：

准确分析交通流的时间依赖性是保障其预测精度的另一重要步骤。GRU作为RNN的变体，可以解决RNN的梯度消失和梯度爆炸问题。与LSTM一样，GRU也是通过门控机制来维持长期信息的有效性。但是GRU的参数更少，因此收敛速度更快，在数据集较小的时候表现出的性能更好。GRU的门和隐藏状态的计算过程是全连接操作，在处理图数据时会引发过拟合现象，为了减少这种过拟合对预测效果带来的负面影响，我们使用GCN对其做了替换，如图1所示，替换后的表达形式为：

其中，u_t，r_t表示在时间步t时的更新门和重置门，h_t表示模型在时间t时输出的隐藏状态。X_t表示在时间步t时输入的交通流数据。Θ_u，Θ_r，Θ_c，b_u，b_r，b_c是需要训练的权重和偏置参数。

Temporal Pattern Attention机制的引入：

目前交通流预测领域已经广泛应用Attention机制，具体做法是使用其计算模型在每个时间步的隐藏状态对预测结果的重要程度。本文采用的TPA机制如图2所示。其中，h₁，h₂，...，h_F∈R^m是模型在每一步输出的隐藏状态向量，H_i，j表示隐藏状态矩阵的第i行第j列的元素，k表示卷积滤波器的个数，卷积滤波器的尺寸为1×(F-1)。TPA机制的具体步骤如下：

使用一维卷积处理隐藏状态的时间模式，如等式(8)所示。

利用k个卷积滤波器对模型的每个节点在前F-1个时间步输出的隐藏状态进行加权求和，得到隐藏状态矩阵的时间模式矩阵H^C。

表示第i个节点和第j个卷积滤波器作用的结果值。

另query＝h_t，key＝H^C，Scoring Function如等式(9)所示。

将Scoring Function得到的值归一化，得到注意力权重，如等式(10)所示。

利用注意力权重，对H^C每行做加权求和，得到上下文向量V_F如等式(11)所示。

最后将上下文向量V_F和h_F拼接后使用全连接层得到更新后的状态向量h_F。

TPA仅计算前F-1个时间步对最后一个时间步的隐藏状态向量的得分，最终得到的V_F代表每个节点的Temporal Pattern。

Loss function：

设计和训练模型的目的是最小化道路节点的模型预测值

和真实值Y之间的误差。ASTPAGCN使用的损失函数如等式(12)所示。

实验结果

数据集：

为了验证ASTPAGCN模型的预测性能，本文采用两个记录了平均速度的数据集来说明问题：SZ-taxi数据集和Los-loop数据集。Los-loop数据集是从洛杉矶告诉公路上选取的207个传感器在2012年3月1日至3月7日所采集到的数据，时间间隔为5分钟。SZ-taxi记录了深圳市罗湖区的156条主要道路从2015年1月1日至2015年1月31日的出租车轨迹，时间间隔为15分钟。

评价指标：

为了评估模型的预测性能，我们使用以下三个指标来评估模型的预测值和真实值之间的差距：

平均绝对误差(MAE)：

均方根误差(RMSE)：

Coefficient of Determination(R²)：

前两个指标表示模型的预测值和真实值之间的差异，因此它们的值越小表示预测性能越好。第三个指标表示模型的预测值和真实值之间的相关性，因此它的值越大表示预测性能越好。

参数设置：

将两个数据集的前80％的样本用于训练，后20％的样本用于测试评估模型的预测性能。在模型的训练过程中，将学习率设置为0.001，batch size设置为32，迭代次数为2000次，λ设为0.0015。

为了达到最高的预测精度，我们对不同的数据集设置不同的隐藏层节点数和TPA卷积滤波器数。对于Los-loop数据集，隐藏层节点数为64，卷积滤波器个数为4。对于SZ-taxi数据集，隐藏层节点数为100，卷积滤波器个数为2。

对于TPA机制中的卷积滤波器个数，我们在两个数据集中分别设置[1,2,3,4,5,6]个卷积滤波器，进行实验。实验结果如图3所示，横轴表示卷积滤波器的数量，纵轴表示不同的参数指标根据卷积滤波器个数所发生的变化。图3(a)、图3(b)、图3(c)分别展示了在Los-loop数据集下，不同的卷积滤波器数量的RMSE、MAE和R2的结果，可以看出在卷积滤波器数量为4时模型的预测效果最好。图3(c)、图3(d)、图3(e)分别展示了在SZ-taxi数据集下，不同的卷积滤波器数量的RMSE、MAE和R²的结果，可以看出在卷积滤波器数量为2时模型的预测效果最好。

对比实验：

我们将使用以下6种模型作为baseline与ASTPAGCN进行比较：

(1)历史平均模型(HA)，它使用历史时期的平均交通信息作为预测。

(2)自回归综合移动平均模型(ARIMA)，将交通流随时间推移而形成的数据序列视为一个随机序列，用一定的数学模型来近似描述这个序列。

(3)支持向量回归模型(SVR)，是支持向量机模型(SVM)的改进，用于分析输入和输出的关系做出回归预测。

(4)图卷积网络(GCN)，它使用一介切比雪夫多项等式作为卷积核。图的邻接矩阵是预定义的。

(5)门控循环神经网络(GRU)，节点数、学习率等超参数的设置与ASTPAGCN相同。

(6)T-GCN模型，将GRU中的计算门和隐藏状态的全连接层替换为GCN，节点数、学习率等超参数的设置与ASTPAGCN相同。

3.5实验结果及分析

表1和表2分别展示了在Los-loop数据集和SZ-taxi数据集下，不同baseline和ASTPAGCN模型的预测效果。

表1

表2

从表1中可以看出，ASTPAGCN模型在各个时间步的预测任务下，预测效果比所有的baseline更好。例如在15min下的预测任务中，ASPTAGCN模型的RMSE值比HA、ARIMA、SVR、GRU、T-GCN分别低了32.44％、49.94％、16.32％、35.47％、3.64％、1.92％，R2值比HA、ARIMA、SVR、GRU、T-GCN分别高了21.97％、34643.35％、6.93％、26.93％、1.28％、0.6％。其中T-GCN是交通流预测方法的最新研究之一，ASPTAGCN在各个预测时间步的预测中与T-GCN的性能指标对比如图4所示。图4(a)、图4(b)、图4(c)分别表示在各个时间步的预测任务下的RMSE、MAE、R²的值的对比。由图4可以看出在每个时间步的预测任务中，ASTPAGCN的预测效果均比T-GCN的预测效果好。

出现这种情况的原因主要是因为HA，ARIMA，SVR模型处理时间序列的能力不强，GRU只考虑了交通流的时间依赖性，GCN只考虑到了交通流的空间依赖性，T-GCN没有考虑到模型中的每个节点的在所有时间步的隐藏状态对预测结果的影响大小不同。

对于表2所呈现的结果，ASTPAGCN在SZ-taxi数据集上的表现不如T-GCN，是因为SZ-taxi数据集中缺失数据过多造成的。

除此之外，在模型收敛性方面，ASTPAGCN和T-GCN在迭代过程中的RMSE值如图5所示。T-GCN在Los-loop数据集中收敛到表2所示的效果需要迭代5000次，而ASPTAGCN迭代了2000次，比T-GCN少了3000次，这表明ASTPAGCN模型的更容易收敛。

结论：

综上所述，为提高短时交通流准确预测精度，本文提出了ASTPAGCN模型。为了使模型能同时分析交通流的时间依赖性和空间依赖性，本文将GRU中计算门和隐藏状态的过程中的线性乘法替换为GC，这样做即保留了GRU的门控机制和循环机制又引入了GC减少GRU在处理图数据时计算门和隐藏状态过程中的过拟合现象，增强了模型分析图结构的数据的能力，从而分析交通流的时空依赖性。同时，为避免人为设置的邻接矩阵的不准确降低预测精度，本文使用自适应邻接矩阵让模型自主地学习图结构。在此基础上，考虑到不同隐藏层节点在所有时间步下的输出对最终预测结果的重要性不同，本文采用TPA机制对不同节点的输出训练权值并进行加权。最后本文使用两个数据集对模型进行了测试，结果表明：与其他传统模型相比，ASTPAGCN模型可以保证充分挖掘交通流的时空依赖性，从而提高短时交通流的预测精度和模型的收敛速度。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。