CN114330671A

CN114330671A - 一种基于Transformer时空图卷积网络的交通流预测方法

Info

Publication number: CN114330671A
Application number: CN202210009238.5A
Authority: CN
Inventors: 郑林江; 陈逸灵; 刘卫宁; 孙棣华
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-12

Abstract

本发明涉及一种基于Transformer时空图卷积网络的交通流预测方法，属于交通流预测技术领域，包括以下步骤：根据路网部署的探测器及其之间的连通性和欧氏距离构造静态邻接矩阵；对探测器所采集到的交通流原始数据按指定时间间隔进行合并；对数据集采用最大最小方法进行归一化处理，并构建交通流时空图，将数据集分为训练集和测试集；构造基于Transformer时空图卷积网络预测模型；将训练集数据作为输入，训练预测模型；利用训练完成的时空图卷积网络预测模型对测试集进行交通流预测，并根据预测结果和实际交通数据，对预测误差进行评价分析。相比传统方法而言，本方法可以有效提取交通流数据中的时空相关性，更加充分地挖掘交通流数据中的信息，提升其预测精度。

Description

一种基于Transformer时空图卷积网络的交通流预测方法

技术领域

本发明属于交通流预测技术领域，涉及一种基于Transformer时空图卷积网络的交通流预测方法。

背景技术

随着城市化建设的推进，我国的机动车保有量不断攀升，截止2021年12月，机动车保有量达到3.93亿，世界第一。交通拥堵逐渐成为主要的社会问题之一。智能交通系统的应用发展有助于缓解交通拥堵，而交通流预测则是保证智能交通系统有效性的关键之一。准确的交通流预测尤其是长期预测一方面能够帮助出行者提前获得未来交通信息，制定更好的出行计划；另一方面帮助管理者制定合理的交通诱导方案，提高交通运行效率，从而缓解交通拥堵。因此准确的长期交通流预测至关重要。

交通流预测方法主要分为三类：时序分析方法、机器学习方法和深度学习方法。由于交通流数据是由部署的检测器按固定时间间隔生成的连续时间序列数据。早期主要利用自回归综合移动平均(ARIMA)、卡尔曼滤波等时间序列分析方法进行预测。但它们都基于线性假设，并要求数据是平滑的。而实际的交通流数据通常是非线性的，这使得时序分析方法很难得到满意的结果。

机器学习如向量自回归(VAR)和支持向量回归(SVR)等方法对交通数据进行特征工程建模，揭示数据中的非线性关系，然后不断调整和优化模型参数，预测交通趋势。但是机器学习的建模工作需要专业的人来设计并具有一定的难度。而且上述两类方法都只考虑了时间信息，忽略了空间信息对准确预测的重要性。

深度学习可以自动提取更复杂的特征，在交通流预测中引起了广泛的关注。现有研究表明基于循环神经网络(RNN)的方法，如长短期记忆网络(LSTM)比上述的时序分析方法和机器学习方法取得了更好的效果。为了同时学习交通数据的时空相关性，融合卷积神经网络(CNN)和RNN的方法被采用。然而，CNN不能处理非欧几里德数据，导致路网包含的空间信息丢失。因此，时空图卷积网络框架被广泛应用于交通流预测。其中，图的节点是交通探测器，边和权值由探测器之间的连通性和欧氏距离确定。为此，部分学者提出将图卷积网络(GCN)引入交通流预测领域，利用时空卷积同时捕获时空相关性。还有学者通过构造自适应邻接矩阵进一步捕获空间相关性，同时采用时间卷积网络(TCN)来捕获时间相关性。

尽管上述方法在交通流预测方面取得了良好效果，但实际上受道路结构和等级、天气变化以及突发事故等因素的影响，交通流数据的空间相关性是动态变化的，然而现有方法都很难捕获到这种空间动态变化。而且对于长期预测而言，基于RNN的方法存在梯度消失或爆炸的问题；基于CNN的方法受到有限接受域的限制。虽然TCN实现了指数增长的接收域。但是堆叠的卷积层仍会降低模型的性能。因此，现有的方法对长期预测也有一定的困难。Transformer利用高度并行的自注意机制实现了高效的序列学习，可以从输入序列中自适应地捕获长期时间依赖关系。

发明内容

有鉴于此，本发明的目的在于提供一种基于Transformer时空图卷积网络的交通流预测方法，设计新的基于Transformer时空图卷积网络模型(Transformer basedSpatial-Temporal Graph Convolution Network,Trans-STGCN)，设计结构多头自注意模块，提取路网拓扑结构信息；设计动态演化图卷积模块，为每个时间片学习一个新的图，并利用自注意机制自适应地动态调整节点之间的相关强度；设计时间多头自注意模块和时间位置嵌入，提取时间相关性。并通过优化Transformer结构，使得Trans-STGCN有更准确的长期预测能力。本方法能够更好地提取时空相关性，并能提高预测精度。

为达到上述目的，本发明提供如下技术方案：

一种基于Transformer时空图卷积网络的交通流预测方法，该方法包括以下步骤：

S1、根据路网部署的探测器及其之间的连通性和欧氏距离构造静态邻接矩阵；

S2、对探测器所采集到的交通流原始数据按指定时间间隔进行合并；

S3、构建交通流时空图G＝(V,E,A)，并对数据集采用最大最小方法进行归一化处理，将数据集分为训练集和测试集；

S4、构造基于Transformer时空图卷积网络预测模型Trans-STGCN(Transformerbased Spatial-Temporal Graph Convolution Network,Trans-STGCN)；所述的预测模型以Transformer为基干网络，其包含多个残差块、层归一化块、时间位置嵌入、动态演化图卷积模块和多头自注意模块。所述多头自注意模块包括一个结构多头自注意模块和一个时间多头自注意模块。在每个动态演化图卷积模块和多头自注意模块的末尾串行所述残差块和层归一化块。所述残差块用于避免有效交通流数据特征的丢失；所述层归一化块用于加速模型的训练过程，使其更快的收敛；所述结构多头自注意模块用于提取路网拓扑结构信息；所述时间位置嵌入和时间多头自注意模块用于提取交通流数据长期时间相关性；所述动态演化图卷积模块用于提取交通流数据空间相关性；

S5、训练预测模型：将训练集作为时空图卷积网络预测模型的输入，求解模型最优参数从而完成模型训练；

S6、利用训练完成的时空图卷积网络预测模型对测试集进行交通流预测，并根据预测结果和实际交通数据，对预测误差进行评价分析。

进一步，在步骤S1中，具体包括：将部署的探测器作为图的节点；探测器之间的道路连通则对应节点之间用边连接；静态邻接矩阵的权重由两个探测器之间的距离计算，

其中a_ij表示v_i和v_j两个传感器之间的权重，

表示探测器之间的距离，σ是距离的标准差，得到一个带权重的静态邻接矩阵A∈R^N×N。

进一步，在步骤S2中，具体包括：获取N个探测器相同时间范围内的交通流数据，原始交通流量数据为探测器在一定时间间隔内经过的车辆数；指定时间间隔为5分钟，某时刻的交通流数据指的是从此时刻开始经过指定时间间隔(例如5分钟)的交通流数据；数据集形式如下所示：

其中

表示t时刻所有节点的交通流数据，

为节点i在t时刻的交通流数据，T为以5分钟为单位的时间序列的长度。

进一步，在步骤S3中，具体包括：交通流时空图G＝(V,E,A)在时间片t上的交通流数据用矩阵

表示，其中，V为N个节点的集合，E为两个节点之间的边的集合，A是静态邻接矩阵；

最大最小归一化计算表达式为：

其中，minX_t和maxX_t分别为t时刻交通流数据中的最小值与最大值，

为节点i在t时刻进行归一化操作后的交通流数据；预测未来T_f时刻交通流量时，选取前T_p个时间间隔交通流作为输入，即：取t-T_p+1，t-T_p+2，…，t时刻的交通流量作为网络输入：

其中，T_f表示预测的未来时间长度，T_p表示输入的历史时间长度，t为当前时刻。

进一步，在步骤S4中，所述构造基于Transformer时空图卷积网络预测模型具体包括：在输入进入到编码器/解码器之前，增加一个结构多头自注意模块来提取路网拓扑结构信息；然后用独热编码代替正弦余弦位置编码，用时间多头自注意模块代替Transformer原来的多头自注意块，来提取交通流数据的长期时间相关性；去掉Transformer原有的前馈神经网络层，替换成一个动态演化图卷积模块，进行空间相关性提取。

进一步，所述步骤S4具体包括以下步骤：

S41、结构多头自注意模块的设计与实现：

将输入矩阵

通过线性投影转换成高维表示

将X′通过权重矩阵转换为索引Q^S、键K^S和值V^S，计算公式如下：

其中，

和

为对应的权重矩阵；

加入邻接矩阵计算注意力权重，计算公式如下：

score＝softmax(a(Q^S,K^S))＝softmax(σ(Aα^T[Q^S,K^S]))

其中

是权值向量，A是带权静态邻接矩阵，[·,·]为连接操作，σ(·)为非线性激活函数，a(Q^S,K^S)是索引Q^S与键K^S的相似性，score表示特征之间的注意力权重；

将score与值V^S相乘得到一个头的自注意向量head_i：

head＝scoreV^S

最终结构多头自注意结果为：

其中，h是注意力头的个数，

为最终的输出权重矩阵；

S42、时间位置嵌入的设计与实现：

将结构多头自注意模块的输出X^S和历史w周中同一天的T_f个流量记录X_g以及历史d天的T_f个流量记录X_l连接得到一个N×(w*T_f+d*T_f+T_p)的新序列[X^S,X_g,X_l]，其中，[·]表示连接操作，X^S为结构多头自注意模块的输出，T_p为输入的历史时间长度，T_f为预测的时间长度；

使用独热编码对X^S，X_g和X_l进行时间位置编码，将编码结果连接得到一个时间位置嵌入向量TE；然后把时间位置嵌入向量TE加入上述新序列作为编码器/解码器的输入，即

其中，

表示逐位相加操作；

S43、时间多头自注意模块的设计与实现：

将包含空间结构信息和时间位置信息的输入X⁽⁰⁾通过权重矩阵转换为索引Q^T、键K^T和值V^T；

计算相对位置向量，当在计算h_j对h_i的注意力特征的时候，考虑时间i与时间j之间的相对位置距离；设置最大截取距离m，当相对距离大于m后，相对位置距离就都等于m；h_i和h_j之间的相对位置关系可表示为

和

在注意力机制中加入相对位置信息，计算公式如下：

head＝score(V^T+rp^V)

得到时间多头自注意模块的结果为：

其中，h是注意力头的个数，

为最终的输出权重矩阵；

将得到的时间多头自注意结果进行残差连接和层归一化操作，层归一化计算公式如下：

其中，E(·)表示期望，Var(·)表示方差，∈为很小的一个数，用于避免除0；

然后进行残差连接操作，X⁽⁰⁾+LN(H)；

对于第l层编码器(解码器)，输入X^(l-1)，对所有节点进行时间多头自注意后，得到输出

S44、动态演化图卷积模块的设计与实现：

使用门控循环单元(GRU)来演化GCN参数，即W_t＝GRU(H_t,W_t-1)；GRU计算过程如下：

Z_t＝sigmoid(W_ZX_t+U_ZH_t-1+B_Z)

R_t＝sigmoid(W_RX_t+U_RH_t-1+B_R)

其中，为了更容易地识别GRU的功能，使用X_t，H_t-1，和H_t作为局部变量名代替H_t，W_t和W_t-1，⊙表示点乘；输入为节点特征矩阵H_t(即时间多头自注意模块经过残差连接和层归一化后的输出)和上一个时间片的GCN参数W_t-1，输出为当前时间的GCN参数W_t；在本方法中，使用DEGCU(Dynamic Evolving Graph Convolution Unit)指代动态演化图卷积操作；

对时间多头自注意模块的输出进行矩阵相乘和softmax非线性激活计算，得到空间自注意力矩阵S_t，计算公式如下：

其中，S_ij表示节点i与节点j之间的相关强度,

为时间多头自注意模块的输出；

生成两个静态随机初始节点嵌入E₁和

将S_t分别与E₁和E₂相乘得到源节点嵌入DE₁和目标节点嵌入DE₂，计算公式如下：

然后利用节点之间的相似度计算动态邻接矩阵DA，计算公式如下：

其中，γ是控制激活函数饱和率的超参数，DA^t∈R^N×N为t时刻的动态邻接矩阵；

将静态邻接矩阵与动态邻接矩阵分别用于动态演化图卷积操作，得到：

并利用

和

计算一个门控值δ，计算公式如下：

其中，f₁和f₂是分别应用在

和

上的线性投影；

最后动态演化卷积模块的输出由门控值δ对

和

进行加权得到，计算公式如下：

将动态演化卷积模块的输出进行残差连接和层归一化处理(同步骤S43中所述操作)。

进一步，在步骤S5中，训练预测模型包括：

选择目标函数，将训练集作为时空图卷积网络预测模型的输入，求解模型最优参数从而完成模型训练；

在训练过程中，将历史数据经过结构多头自注意模块提取空间结构信息，并加入时间位置信息后得到的新输入X⁽⁰⁾输入编码器，编码器通过L个编码器层将输入序列X⁽⁰⁾映射到中间表示序列X^(L)，解码器采用L个解码器层生成预测结果

其中解码器输入为X^(L)和历史真实数据；使用平均绝对误差(MAE)作为损失函数，计算公式如下：

其中，

为模型预测输出，y为实际交通流数据，n为样本数量，并通过反向模式自动微分和Adam对模型进行优化。

进一步，在步骤S6中，具体包括：

在测试过程中，输入解码器的历史真实数据被模型本身生成的预测值所取代，解码器输入为X^(L)和所有之前生成的

将最终的预测结果进行反标准化操作，转换为真实交通流数据，以便对预测误差进行评价分析；采用以下的评价标准对预测误差进行评价分析：

1)平均绝对误差(MAE)：

2)均方根误差(RMSE)：

3)平均绝对百分误差(MAPE)：

其中，

为模型预测输出，y为实际交通流数据，n为样本数量；平均绝对误差、平均绝对百分误差和均方根误差越小，表示模型预测结果的精度越高。

本发明的有益效果在于：

本发明提出的一种基于Transformer时空图卷积网络的交通流预测方法，旨在提高交通流量预测的精度。空间维度上，通过结构多头自注意模块提取路网拓扑结构信息；进一步地，通过动态演化图卷积模块，利用图卷积和门控循环单元(GRU)为每个时间片提取动态空间相关性，同时采用自注意力机制构造动态邻接矩阵，使得模型能自适应地动态调整节点之间的相关强度。在时间维度上，通过时间位置嵌入和时间多头自注意模块提取长期时间相关性。相比传统方法而言，所述预测方法可以有效提取交通流数据中的时空相关性，更加充分地挖掘交通流数据中的信息，故能提升其预测精度。此外，所述方法使用了残差连接和层归一化，一定程度上避免了有效交通流数据特征的丢失并提高了预测的精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述方法的流程图；

图2为本发明的Trans-STGCN的模型结构图；

图3为动态演化图卷积单元示意图；

图4为动态演化图卷积模块示意图；

图5为本发明Trans-STGCN模型的交通流数据预测结果图。

具体实施方式

下面结合附图对本发明技术方案进行详细说明。

图1为本发明所述方法的流程图，如图1所示，本发明提供的一种基于Transformer时空图卷积网络的交通流预测方法，具体按照如下步骤实现：

步骤1：根据路网部署的探测器及其之间的连通性和欧氏距离构造静态邻接矩阵的步骤具体包括：将部署的探测器作为图的节点；探测器之间的道路连通则对应节点之间用边连接；静态邻接矩阵的权重由两个探测器之间的距离计算，

其中a_ij表示v_i和v_j两个传感器之间的权重，

表示探测器之间的距离，σ是距离的标准差。得到一个带权重的静态邻接矩阵A∈R^N×N。

步骤2：对探测器所采集到的交通流原始数据按指定时间间隔进行合并。获取N个探测器相同时间范围内的交通流数据，原始交通流量数据为探测器在一定时间间隔内经过的车辆数。所述的指定时间间隔为5分钟，下述某时刻的交通流数据指的是从此时刻开始经过指定时间间隔(例如5分钟)的交通流数据。数据集形式如下所示：

其中

表示t时刻所有节点的交通流数据，

步骤3：构建交通流时空图G＝(V,E,A)，对数据采用最大最小方法进行归一化处理，并将数据集分为训练集和测试集。交通流时空图G＝(V,E,A)在时间片t上的交通流数据用矩阵

表示。其中，V为N个节点的集合，E为两个节点之间的边的集合，A是静态邻接矩阵。

最大最小归一化计算表达式为：

为节点i在t时刻进行归一化操作后的交通流数据。本发明中，预测未来T_f时刻交通流量时，选取前T_p个时间间隔交通流作为输入，即：取t-T_p+1，t-T_p+2，…，t时刻的交通流量作为网络输入：

步骤4：如图2所示，图2为本发明的Trans-STGCN的模型结构图，本发明实施例提供的Trans-STGCN，在标准Transformer的基础上进行改进。具体地，本发明在输入进入到编码器/解码器之前，增加了一个结构多头自注意模块来提取路网拓扑结构信息。然后用独热编码代替正弦余弦位置编码，用时间多头自注意模块代替Transformer原来的多头自注意块，来提取交通流数据的长期时间相关性。另外，本发明去掉Transformer原有的前馈神经网络层，替换成一个动态演化图卷积模块，进行空间相关性提取。

4.1：结构多头自注意模块的设计与实现。

将输入矩阵

通过线性投影转换成高维表示

其中，

和

为对应的权重矩阵。

加入邻接矩阵计算注意力权重，计算公式如下：

Score＝softmax(a(Q^S,K^S))＝softmax(σ(Aα^T[Q^S,K^S]))

其中

是权值向量，A是带权静态邻接矩阵，[·,·]为连接操作，σ(·)为非线性激活函数，a(Q^S,K^S)是索引Q^S与键K^S的相似性，score表示特征之间的注意力权重。

将score与值V^S相乘得到一个头的自注意向量head_i：

head＝scoreV^S

最终结构多头自注意结果为：

其中，h是注意力头的个数，

为最终的输出权重矩阵。

4.2：时间位置嵌入的设计与实现。

将结构多头自注意模块的输出X^S和历史w周中同一天的T_f个流量记录X_g以及历史d天的T_f个流量记录X_l连接得到一个N×(w*T_f+d*T_f+T_p)的新序列[X^S,X_g,X_l]，其中，[·]表示连接操作，X^S为结构多头自注意模块的输出，T_p为输入的历史时间长度，T_f为预测的时间长度。

其中，

表示逐位相加操作。

4.3：时间多头自注意模块的设计与实现。

将包含空间结构信息和时间位置信息的输入X⁽⁰⁾通过权重矩阵转换为索引Q^T、键K^T和值V^T。

计算相对位置向量。当在计算h_j对h_i的注意力特征的时候，考虑时间i与时间j之间的相对位置距离。设置最大截取距离m，当相对距离大于m后，相对位置距离就都等于m。h_i和h_j之间的相对位置关系可表示为

和

在注意力机制中加入相对位置信息，计算公式如下：

head＝score(V^T+rp^V)

得到时间多头自注意模块的结果为：

其中，h是注意力头的个数，

为最终的输出权重矩阵。

将得到的时间多头自注意结果进行残差连接和层归一化操作。层归一化计算公式如下：

其中，E(·)表示期望，Var(·)表示方差，∈为很小的一个数，用于避免除0。

然后进行残差连接操作，X⁽⁰⁾+LN(H)。

4.4：动态演化图卷积模块的设计与实现。

图3为动态演化图卷积单元示意图，图4为动态演化图卷积模块示意图，如图3、图4所示，本设计为了捕获动态空间相关性，使用GRU来演化GCN参数，即W_t＝GRU(H_t,W_t-1)。GRU计算过程如下：

Z_t＝sigmoid(W_ZX_t+U_ZH_t-1+B_Z)

R_t＝sigmoid(W_RX_t+U_RH_t-1+B_R)

其中，为了更容易地识别GRU的功能，使用X_t，H_t-1，和H_t作为局部变量名代替H_t，W_t和W_t-1，⊙表示点乘。输入为节点特征矩阵H_t(即时间多头自注意模块经过残差连接和层归一化后的输出)和上一个时间片的GCN参数W_t-1，输出为当前时间的GCN参数W_t。在本设计中，使用DEGCU(Dynamic Evolving Graph Convolution Unit)指代动态演化图卷积操作。

其中，S_ij表示节点i与节点j之间的相关强度，

为时间多头自注意模块的输出。

生成两个静态随机初始节点嵌入E₁和

其中，γ是控制激活函数饱和率的超参数，DA^t∈R^N×N为t时刻的动态邻接矩阵。

并利用

和

计算一个门控值δ，计算公式如下：

其中，f₁和f₂是分别应用在

和

上的线性投影。

最后动态演化卷积模块的输出由门控值δ对

和

进行加权得到，计算公式如下：

将动态演化卷积模块的输出进行残差连接和层归一化处理(同4.3中所述操作)。

对于第l层编码器，输入H^(l-1)，对所有节点进行动态演化图卷积后，得到输出

步骤5：训练所述预测模型。

选择目标函数，将训练集作为时空图卷积网络预测模型的输入，求解模型最优参数从而完成模型训练。

其中解码器输入为X^(L)和历史真实数据。本设计使用平均绝对误差(MAE)作为损失函数，计算公式如下：

其中，

为模型预测输出，y为实际交通流数据，n为样本数量。并通过反向模式自动微分和Adam对模型进行优化。

步骤6：利用训练完成的时空图卷积网络预测模型对测试集进行交通流预测，并根据预测结果和实际交通数据，对预测误差进行评价分析。

将最终的预测结果进行反标准化操作，转换为真实交通流数据，以便对预测误差进行评价分析。在本实施例中，采用以下的评价标准对预测误差进行评价分析：

1)平均绝对误差(MAE)：

2)均方根误差(RMSE)：

3)平均绝对百分误差(MAPE)：

其中，

为模型预测输出，y为实际交通流数据，n为样本数量。平均绝对误差、平均绝对百分误差和均方根误差越小，表示模型预测结果的精度越高。

实施例：

1)选取实验数据

选取美国加州运输机构(CalTrans)性能测量系统(PeMS)每30秒实时采集一次的数据作为数据集。原始的交通流数据被聚合成5分钟的间隔，包含Dstrict08共170个探测器在2016年7月1号到2016年8月31号的数据。将前43天的数据作为训练集，进行模型参数训练。后19天的数据作为测试集，进行预测。

2)参数确定

在建立模型过程中，涉及的主要参数有：编码器/解码器层数L、历史交通流数据量T_p、预测交通流数据量T_f、模型维度d_model、最大截取距离m、历史天数d、历史周数w、卷积核K、自注意头个数h、控制激活函数饱和率参数γ，各参数设定如表1所示。

参数

设定值

参数

设定值

参数

设定值

参数

设定值

参数

设定值

L

4

Tp

12

Tf

12

dmodel

64

m

2

d

1

w

1

K

3

h

8

γ

3

表1

3)实验结果

选取6个基线方法(ARIMA、SVR、FC-LSTM、STGCN、GMAN、ASTGNN)和本发明提出的方法一起进行交通流预测任务。结果见表2。

方法	MAE	RMSE	MAPE(％)
				ARIMA	25.73	45.30	19.88
SVR	24.99	36.05	17.39
				FC-LSTM	24.71	34.66	18.50
STGCN	18.01	11.32	28.44
				GMAN	14.66	22.89	9.47
ASTGNN	12.72	22.60	8.78
				Trans-STGCN(ours)	12.63	22.45	8.68

表2

根据表2可知，我们的STDE-GCN相比于现有的预测方法均表现出优越的性能。另外，本发明也选取了一个探测器一天的预测结果与真实值进行了可视化处理，结果如图5所示。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Transformer时空图卷积网络的交通流预测方法，其特征在于：该方法包括以下步骤：

S3、构建交通流时空图G＝(V，E，A)，并对数据集采用最大最小方法进行归一化处理，将数据集分为训练集和测试集；

S4、构造基于Transformer时空图卷积网络预测模型Trans-STGCN(Transformer basedSpatial-TemporalGraph Convolution Network，Trans-STGCN)；

2.根据权利要求1所述的一种基于Transformer时空图卷积网络的交通流预测方法，其特征在于：在步骤S1中，具体包括：将部署的探测器作为图的节点；探测器之间的道路连通则对应节点之间用边连接；静态邻接矩阵的权重由两个探测器之间的距离计算，

其中a_ij表示v_i和v_j两个传感器之间的权重，

3.根据权利要求2所述的一种基于Transformer时空图卷积网络的交通流预测方法，其特征在于：在步骤S2中，具体包括：获取N个探测器相同时间范围内的交通流数据，原始交通流量数据为探测器在一定时间间隔内经过的车辆数；指定时间间隔为5分钟，某时刻的交通流数据指的是从此时刻开始经过指定时间间隔的交通流数据；数据集形式如下所示：

其中

表示t时刻所有节点的交通流数据，

4.根据权利要求3所述的一种基于Transformer时空图卷积网络的交通流预测方法，其特征在于：在步骤S3中，具体包括：交通流时空图G＝(V，E，A)在时间片t上的交通流数据用矩阵

最大最小归一化计算表达式为：

5.根据权利要求4所述的一种基于Transformer时空图卷积网络的交通流预测方法，其特征在于：在步骤S4中，所述构造基于Transformer时空图卷积网络预测模型具体包括：在输入进入到编码器/解码器之前，增加一个结构多头自注意模块来提取路网拓扑结构信息；然后用独热编码代替正弦余弦位置编码，用时间多头自注意模块代替Transformer原来的多头自注意块，来提取交通流数据的长期时间相关性；去掉Transformer原有的前馈神经网络层，替换成一个动态演化图卷积模块，进行空间相关性提取。

6.根据权利要求5所述的一种基于Transformer时空图卷积网络的交通流预测方法，其特征在于：所述步骤S4具体包括以下步骤：

S41、结构多头自注意模块的设计与实现：

将输入矩阵

通过线性投影转换成高维表示

其中，

和

为对应的权重矩阵；

加入邻接矩阵计算注意力权重，计算公式如下：

score＝softmax(a(Q^S，K^S))＝softmax(σ(Aα^T[Q^S，K^S]))

其中

是权值向量，A是带权静态邻接矩阵，[·，·]为连接操作，σ(·)为非线性激活函数，a(Q^S，K^S)是索引Q^S与键K^S的相似性，score表示特征之间的注意力权重；

将score与值V^S相乘得到一个头的自注意向量head_i：

head＝scoreV^S

最终结构多头自注意结果为：

其中，h是注意力头的个数，

为最终的输出权重矩阵；

S42、时间位置嵌入的设计与实现：

将结构多头自注意模块的输出X^S和历史w周中同一天的T_f个流量记录X_g以及历史d天的T_f个流量记录X_l连接得到一个N×(w*T_f+d*T_f+T_p)的新序列[X^S，X_g，X_l]，其中，[·]表示连接操作，X^S为结构多头自注意模块的输出，T_p为输入的历史时间长度，T_f为预测的时间长度；

其中，

表示逐位相加操作。

S43、时间多头自注意模块的设计与实现：

和

在注意力机制中加入相对位置信息，计算公式如下：

head＝score(V^T+rp^V)

得到时间多头自注意模块的结果为：

其中，h是注意力头的个数，

为最终的输出权重矩阵；

然后进行残差连接操作，X⁽⁰⁾+LN(H)；

对于第l层编码器(解码器)，输入X^(l-1)，对所有节点进行时间多头自注意后，得到输

S44、动态演化图卷积模块的设计与实现：

使用GRU来演化GCN参数，即W_t＝GRU(H_t，W_t-₁)；GRU计算过程如下：

Z_t＝sigmoid(W_zX_t+U_ZH_t-1+B_z)

R_t＝sigmoid(W_RX_t+U_RH_t-1+B_R)

其中，为了更容易地识别GRU的功能，使用X_t，H_t-1，和H_t作为局部变量名代替H_t，W_t和W_t-1，⊙表示点乘；输入为节点特征矩阵H_t和上一个时间片的GCN参数W_t-1，输出为当前时间片的GCN参数W_t；在本方法中，使用DEGCU(Dynamic Evolving Graph Convolution Unit)指代动态演化图卷积操作；