CN116092294A

CN116092294A - 一种基于Transformer与图注意力网络的高速公路交通流量预测方法

Info

Publication number: CN116092294A
Application number: CN202310194728.1A
Authority: CN
Inventors: 姜聪; 宋云; 邓泽林
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-05-09

Abstract

本发明涉及一种基于Transformer与图注意力网络的高速公路交通流量预测方法，该交通流量预测模型包含图注意力网络与Transformer网络。图注意力网络用于捕获交通流量的空间相关性，Transformer用于捕获交通流量的时间相关性，利用线性层输出每一步的预测结果。该模型将交通流量划分为近期流量、日周期流量、周周期流量，对交通流量的周期性显式建模。此外，该模型将天气因素引入该预测模型中用于动态地调整不同时间片之间的依赖程度。图注意力网络中使用注意力机制结合预定义邻接矩阵对交通流量的空间相关性动态建模。使用Transformer网络对交通流量的时间相关性进行建模，提高长期预测的精度。本发明中涉及的交通流量预测方法基于数据驱动，无需人工特征工程设计，实施起来更加灵活。

Description

一种基于Transformer与图注意力网络的高速公路交通流量预测方法

技术领域

本发明涉及一种基于Transformer与图注意力网络的高速公路交通流量预测方法。

背景技术

智能交通系统是智慧城市中重要的一部分，能够帮助实现高效的交通管理。交通流量预测作为智能交通系统中不可或缺的一部分，为优化交通资源的调度提供了必要的参考，特别是在交通量大、行车速度快的高速公路上。由于高速公路相对封闭，一旦发生拥堵，将严重影响通行能力。交通流量是反映公路状况的一项基本量度。如果能够提前准确预测，据此，交通管理部门将能够更合理地引导车辆，提升高速公路网的运行效率。交通流量预测是交通资源控制、优化的基础，在智能交通系统中起着重要作用，受到国内外学者的广泛关注。

目前，各大高速公路都部署了大量传感器、高清摄像头等信息收集设备。这些设备能不断收集关于交通的时间序列数据(交通流量信息、交通速度信息等)，为交通流量预测提供了可靠的数据来源。天气因素也是影响交通情况的一个重大因素，目前天气预测的精度已经达到可以作为交通预测数据来源的标准。

交通预测是智能交通系统中的一个基本问题，在过去的几十年里引起了广泛的研究关注。早期的工作通常基于线性时间序列分析方法。如，基于统计学方法的历史平均法HA、自回归移动平均模型ARIMA、基于机器学习的K邻近算法(K-Nearest Neighbor,KNN)、支持向量回归(Support Vector Regression,SVR)等。早期的统计学方法通常基于独立性假设、线性假设等，但实际上交通演变是一个复杂的非线性且动态的过程，并不满足这些假设；机器学习方法能够建模相对更加复杂的非线性数据，相比统计学方法取得了更好的预测效果；近年来，深度学习的迅速发展将交通流量预测的研究发展推向一个更高层级的阶段；深度学习方法能够从大量的交通流量数据中挖掘出时间依赖性与空间依赖性，现如今大量的传感器、摄像头等设备采集的大量交通数据能满足深度学习的数据需求。深度学习方法不需要大量的人工设计，仅仅从交通流量数据中挖掘潜在的关联，在交通流量预测方面取得了不错的成绩。

具体地，给定一个长度为T的历史交通信号矩阵X∈R^N×T×C及该区域对应时间段的天气数据P∈R^(T+T′)×1，交通流量预测的目标是建立一个模型将X与P作为输入然后输出未来T′个时间步的交通流量矩阵Y′∈R^N×T′×C。其中N表示交通路网节点数量，C表示交通特征数量，如果仅仅将交通流量数据输入模型则C＝1，T′表示预测的时长。

发明内容

本发明的目的是提供一种基于Transformer与图注意力网络的高速公路交通流量预测方法，将天气因素和交通流量数据结合起来建模交通流量数据复杂的时间特征与空间特征，提高交通流量预测精度。

本发明解决上述问题的技术方案如下：一种基于Transformer与图注意力网络的高速公路交通流量预测方法，其特征在于：利用图注意力网络(Graph attention neuralnetwork,GAT)获取交通流量数据的空间特征；利用Transformer模型获取交通流量数据的时间特征；利用不同周期的数据对数据进行周期性建模；利用天气信息调整交通节点之间的时间、空间关联强度。

本发明提供的这种基于Transformer与图注意力网络的高速公路交通流量预测方法，过程如下：

步骤1：获取原始交通数据集与天气数据集并对其进行预处理，按照6:2:2的比例将整个数据集划分成训练集、验证集、测试集。

步骤2：将训练集数据按照小时、天、周处理，得到近期、日周期、周周期三种周期数据。

步骤3：基于图注意力网络、Transformer、线性变换等构建交通流量预测模型。

步骤4：使用步骤2获得的训练集、验证集输入步骤3构建的交通流量预测模型进行训练。

步骤5：采用步骤4训练后的交通流量预测模型对步骤1中的测试集进行交通流量预测，并采用平均绝对误差(mean absolute error,MAE)，均方根误差(root mean squareerror,RMSE)和平均绝对百分比误差(mean absolute percentage error,MAPE)作为评估标准。

步骤1所述的交通数据预处理，具体过程如下：

1)收集目标区域交通数据采集装置采集的交通流量数据并获取对应地区的天气数据；检查数据完整性情况并将交通流量数据每5分钟聚合一次处理成大小为N×T×C的交通信号矩阵；其中N表示交通路网中数据采集点数量，T表示时间片数量，C＝3表示交通数据的特征数量，其中特征包括交通流量、交通速度、道路占有率。

2)对1)中得到的交通流量矩阵的缺省值采用线性插值方法进行补全；对交通流量矩阵进行标准化，得到标准化的交通流量矩阵。

3)将天气数据按照5分钟聚合一次处理成长度为(T+T′)的向量P并进行量化。具体地，将天气根据影响交通的程度划分为5个等级分别由1，2，3，4，5表示并对上述五种等级分别量化为1，0.8，0.6，0.5，0.3。比如大雾视为严重影响交通等级记为等级5，天气晴朗便于出行记为等级1.

4)将2)、3)中得到的标准化交通流量矩阵和标准天气向量划分成训练集、验证集、测试集。具体地，将60％的数据划分为训练集，20％划分为验证集，剩余20％划分为测试集。

步骤2所述的将训练集划分成三种周期数据。具体过程如下：

定义预测时长为T_p，采样频率为p，数据起始点为t₀。近期数据X_r、日周期数据X_d、周周期数据T_w的数据长度分别定义为T_r、T_d和T_w，需要注意的是T_r、T_d和T_w都是T_p的整数倍；近期数据、日周期数据、周周期数据分别由式(1),(2),(3)表示。

步骤3所述的基于图卷注意力网络、Transformer，卷积神经网络等构建交通流量预测模型具体如下：

交通流量预测模型包括：图注意力网络、Transformer、周期融合层以及基于卷积神经网络的预测层。预测过程如下：

将三个周期的数据分别输入图注意力网络用于提取交通流量的空间特征，随后为图注意力网络的输出添加时间位置嵌入并输入Transformer的编码层与解码层，最后将三个周期的输出进行融合输入卷积网络层得到最后的预测结果。

所述的图注意力网络提取交通流量的空间相关性信息，过程如下：

图注意力网络采用式(4)定义的空域图卷积神经网络，如下所示。

其中，A_d表示交通路网的动态邻接矩阵，

是A_d的度矩阵；X表示标准化的交通流量矩阵；σ表示Relu激活函数；W和b表示可学习的权重矩阵和偏置向量，X_G为图卷积的输出结果。

式(4)中的邻接矩阵A_d动态建模是提取交通流量的空间相关性信息的关键，本发明中采用静态邻接矩阵与空间注意力计算得到的节点互相关联矩阵相乘得到，如式(8)所示。

具体地，输入模型的交通流量数据被聚合成了多个时间片，在模型中将每个时间片的交通流量数据在空间维度进行注意力计算得到各个节点之间的注意力得分

公式表达如式(5)。

Q_s＝K_s＝W_lX_t+b_l (6)

其中，

为注意力得分，Q_s、K_s分别为交通流量经过线性层后得到的查询向量与键向量，

表示

的转置矩阵，d为特征维度；W_l与b_l为可学习的权重矩阵与偏置向量；A是预定义邻接矩阵，A_d表示动态邻接矩阵。

用于图注意力网络中的动态邻接矩阵由

与由节点之间的地理距离计算得到的预定义静态邻接矩阵A相乘得到，预定义邻接矩阵与动态邻接矩阵公式表达如式(7)与式(8)所示。

A_i,j＝1/distance(i,j) (7)

其中，distance(i，j)表示节点i与节点j之间的地理距离；A是预定义邻接矩阵，A_d表示动态邻接矩阵，⊙表示哈达玛积。

图注意力网络层公式表达如式(9)所示。

步骤3所述的采用Transformer捕获时间相关性信息，具体如下：

Transformer中采用时间注意力机制捕获时间相关性，并使用量化后的天气数据调整各个时间片之间的关联程度。由于注意力机制公平对待每个数据，导致忽略了数据之间的顺序信息，而顺序信息对时空数据预测而言非常重要。所以在输入Transformer之前必须对数据添加时间位置嵌入。具体如式(10)与式(11)所示。

X′_s[i，：]＝X_s[i，：]+e_tp (10)

其中，e_tp为时间位置嵌入编码，t表示不同的时间步，d表示特征维度；X′_s为添加时间位置编码后的交通流量矩阵。

Transformer的编码器在时间维度采用多头注意力机制捕获时间相关性公式如式(13)所示。并堆叠多个编码层与图注意力网络捕获时空相关性。

att_mh＝head₁+head₂+…+head_h (13)

Q_t＝K_t＝V_t＝Linear(X′_s) (14)

其中Q_t∈R^T×N、K_t∈R^T×N、V_t∈R^T×N分别表示时间维度的查询向量、键向量与值向量，P∈R^T×1为量化后的天气数据向量，head_i是第i个头的输出，Linear()表示线性变换，d为特征维度，softmax()是非线性激活函数，att_mh即为多头注意力层的输出矩阵。

将att_mh∈R^N×T添加残差连接与归一化后输入图注意力网络进一步捕获空间相关性后即为Transformer网络编码器的输出。

Transformer中的解码层与编码器结构相似，但是在解码器中为了防止将未来需要的真实数据输入模型中采用遮罩矩阵对解码器的输入进行部分屏蔽处理，具体如下：

将未来目标时间步的数据X^d经过多头注意力计算后与一个遮罩矩阵Mask进行相加再经过softmax函数将未知的部分变为0，达到屏蔽未知信息的作用。Mask是一个下三角全为0，上三角全为负无穷的矩阵，所以经过softmax函数之后负无穷的部分变为0。公式表达如式(15。

Y′＝softmax(X^d+Mask) (15)

其中，Y′表示遮罩矩阵层的输出，Mask表示遮罩矩阵，softmax是归一化函数。

解码器中依次包括图多头时间注意力层、遮罩矩阵层、多头时间注意力层、图注意力网络层并且每一层之间都有残差连接及归一化。编码器的输出作为查询向量Q与键向量K输入多头时间注意力层，而值向量V是经过上一步遮罩矩阵处理后的数据。通过堆叠多个解码器来捕获交通流量数据的时空相关性。

分别将近期数据、日周期数据、周周期数据输入三个结构相同的编码器分别得到Y′_r、Y′_d、Y′_w，并进入周期融合层进行特征融合，周期融合层采用门控机制对三个周期的数据进行融合，如式(16)所示。

Y″＝sigmoid(Y′_r)⊙Y′_r+sigmoid(Y′_d)⊙Y′_d+sigmoid(Y′_w)⊙Y′_w (16)

其中，Y″为周期融合层的输出特征矩阵，Y′_r、Y′_d、Y′_w分别是三个周期编码器输出的特征矩阵；⊙表示哈达玛积，sigmoid()是非线性激活函数。

经过图注意力网络、编码器、周期融合层、解码器后采用线性层将解码器的输出映射成预测数据，如式(17)所示。每次预测出的值将作为解码器的输入用于预测下一个时间片的交通流量。

其中，

即为预测值，W′与B为可学习的权重矩阵与偏置向量。

步骤4所述的将训练集、验证集输入交通流量预测模型进行训练，具体过程如下：

训练过程中采用L1损失函数进行损失计算，采用Adam作为优化器。

训练过程中使用训练集对原始交通流量预测进行训练，然后使用验证集对训练后的模型进行评估，直到训练后的模型收敛。

步骤5：所述的采用步骤4训练后的交通流量预测模型对步骤1中的测试集进行交通流量预测并评估，具体如下：

1)将交通流量预测模型的模式从训练模式修改为评估模式。

2)交通流量预测模型加载训练过程中保存的最佳参数模型，并将测试集中的数据输入模型进行交通流量预测并采用MAE、RMSE和MAPE进行评估。

本发明中提出的交通流量预测模型使用图注意力网络动态捕获交通流量的空间相关性。将图注意力网络嵌入Transformer框架中使得Transformer能够同时捕获时间相关性和空间相关性。Transformer的强大序列数据处理能力能够捕获序列数据的长期依赖，从而使得该模型在长期预测方面相比其他预测模型更具优势，对周期性显式建模也使得该模型对于交通流量的周期性更加敏感，提高预测精度。此外，本交通流量预测模型引入天气因素对交通节点之间的依赖程度进行动态调整，预测模型更加先进。

附图说明

图1为本发明涉及的交通流量预测模型的结构示意图；

图2为本发明涉及的一种基于Transformer和图注意力神经网络的交通流量预测方法总流程图；

图3为本发明涉及的基于Transformer和图注意力神经网络的交通流量预测模型训练流程图；

图4为本发明涉及的最终预测流程图；

具体实施方式

以下结合附图并对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明涉及的交通流量预测模型的结构示意图；图2为本发明涉及的一种基于Transformer和图注意力神经网络的交通流量预测方法总流程图；图3为本发明涉及的基于Transformer和图注意力神经网络的交通流量预测模型训练流程图；图4为本发明涉及的最终预测流程图；如图1，2，3，4所示，一种基于时间注意力循环图卷积神经网络的交通流量预测方法的具体步骤如下：

步骤1：对原始交通流量数据与天气数据进行预处理，具体如下：

1)收集目标区域交通数据采集装置采集的交通流量数据；检查数据完整性情况并使用线性插值补全缺省数据；将数据处理成大小为N×T的交通流量矩阵；其中N表示交通路网中数据采集点数量，T表示时间片数量；将天气数据根据天气情况进行量化并按每5分钟聚合一次，最终得到的长度为T的天气数据向量P。

2)对1)中得到的交通流量矩阵的缺省值采用线性插值方法进行补全；对交通流量矩阵进行标准化，得到标准化的交通流量矩阵；

3)将得到的标准化交通流量矩阵数据与天气数据划分成训练集、验证集、测试集。具体而言，将60％的数据划分为训练集，20％划分为验证集，剩余20％划分为测试集。将交通流量数据的训练集划分成近期数据、日周期数据、周周期数据。

步骤2：构建基于Transformer和图注意力网络的交通流量预测模型，并加载训练参数文件初始化模型。

步骤3：加载训练集、验证集数据初始化模型参数准备开始训练；将近期数据、日周期数据、周周期数据并行输入图注意力层并添加位置嵌入，随后输入编码器。

步骤4：如图3所示对模型进行训练，训练集分批次输入交通流量预测模型开始第一轮训练，具体如下(近期数据、日周期数据、周周期数据独立训练过程完全一样，下面统一称作交通流量数据X)：

1)首先交通流量数据X与预定义邻接矩阵A输入图卷积层。

2)X经过线性变换得到查询向量Q_s与键向量K_s并计算注意力得分，经过Relu()和softmax()函数得到第一轮节点关联矩阵

随后将

与预定义邻接矩阵A相乘得到第一轮训练的动态邻接矩阵。

3)根据公式(9)计算得到图注意力层的输出。

4)为图注意力层的输出添加位置嵌入；

5)将带有位置信息的图注意力层的输出输入编码器，经过多个堆叠的编码器后得到三种周期的编码数据Y′_r、Y′_d、Y′_w。

6)将Y′_r、Y′_d、Y′_w输入周期融合层，按照公式(16)进行周期特征融合得到Y′。

7)将Y′经过线性变换得到解码中器的查询向量Q与键向量K。

8)将未来的数据X^d添加位置编码后经过多头时间注意力层然后经过遮罩矩阵层，如公式(15)。并通过线性层变换为解码器的值向量V。

9)将解码器中的查询向量Q、键向量K、值向量V输入解码器中的多头时间注意力层与图注意力层，并在每层之间进行残差连接与归一化。数据经过多个叠加的解码器后输入线性层，得到下一个时间片的交通流量预测值。

10)将新得到的预测值作为解码器的输入更新解码器值向量V，循环执行8)与9)直到得到目标预测长度的预测值。

11)将预测值与真实值进行对比，采用L1损失作为损失函数计算损失，采用Adam作为优化器。

步骤5：预测模型反向传播更新模型参数。

步骤6：将验证集数据输入第一轮训练后的模型进行验证，计算验证集预测值与真实值之间的误差，当误差缩小时保存交通流量预测模型的训练参数文件。在验证阶段不进行反向传播，仅仅计算损失。

步骤7：循环步骤4至步骤6，直至当前训练轮数大于设置的最大训练轮数停止训练，并输出最佳参数文件相关信息。

步骤8：如图4所示，对测试集数据进行交通流量预测，具体如下：

1)将预测模型从训练模式更改为预测模式加载模型，加载训练过程中保存的最佳参数文件初始化模型；

2)加载测试集数据并输入模型，进行预测。

3)根据真实流量值计算预测值的平均绝对误差MAE、均方根误差RMSE、平均绝对百分比误差MAPE并输出。

4)保存交通流量数据测试集的预测数据文件。

以上所述仅为本发明的较佳实施例子，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer与图注意力网络的高速公路交通流量预测方法，其特征在于：交通流量预测模型结构包括图注意力网络块与Transformer网络模块，并将图注意力网络块嵌入Transformer中。图注意力网络块使用注意力机制结合预定义邻接矩阵动态地捕获交通流量的空间相关性。使用Transformer模型并引入天气因素捕获交通流量的时间相关性，并对交通流量的周期性进行显式建模。

图注意力模块中使用自注意力计算各个交通节点之间的关联关系，并结合根据地理距离构建的预定义邻接矩阵动态生成交通节点动态邻接矩阵用于捕获交通流量中的空间相关性。Transformer网络模块分为编码器与解码器用于捕获交通流量中的时间相关性。将交通流量数据分为近期流量、日周期流量、周周期流量分别训练后融合能有效捕获交通流量的周期性。

所述的交通流量预测方法，包括如下步骤：

步骤1：对原始交通流量数据预处理，包括使用线性插值法补齐数据中的缺失值，将交通流量数据按照6:2:2的比例划分为训练集、测试集与验证集，将训练集划分为近期数据、日周期数据、周周期数据。并将天气数据量化成与交通流量数据长度相同的向量。

步骤2：使用图注意力网络捕获基于步骤1处理后的交通流量数据序列的空间相关性，如式(1)所示。

其中，X是预处理后的交通流量矩阵，X_s为图注意力网络输出的特征矩阵；Relu为非线性激活函数；

与A分别为图注意力网络中的注意力相关矩阵与预定义邻接矩阵，

为

的度矩阵；⊙为哈达玛积；W与b为可学习的权重矩阵与偏置向量。

步骤3：基于步骤2输出的带有空间特征的交通流量序列数据，添加时间位置编码，式(2)中的X′_s即为添加时间位置编码后的数据。

X′_s[t,:]＝X_s[t,:]+e_tp (2)

其中，e_tp为时间位置编码，t为不同的时间点，d是特征维度；X′_s表示添加时间位置编码后的交通流量特征矩阵。

步骤4：将添加位置编码后的数据X′_s输入Transformer网络的编码器。编码器结构包括多头时间注意力层、图注意力网络层，并在每一层之间都添加残差连接与归一化。其中图注意力网络层与式(1)所述图注意力网络相同。多头时间注意力层公式如(4)-(6)所示。

其中，att_mh即为多头时间注意力层的输出，head_i表示第i个注意力头的输出；Linear()表示线性网络层，Q_t、K_t、V_t分别表示注意力机制中的查询向量、键向量与值向量；softmax为非线性激活函数；P为量化后的天气向量。

步骤5：将多头注意力层的输出att_mh添加残差连接并归一化后输入图注意层进一步捕获交通数据的空间相关性后即为Transformer编码器的输出。

步骤6：将Transformer编码器的输出经过线性层后作为查询向量与键向量输入Transformer网络的解码器。解码器中依次包括图多头时间注意力层、遮罩矩阵层、多头时间注意力层、图注意力网络层并且每一层之间都有残差连接及归一化。编码器的输出作为查询向量Q与键向量K输入多头时间注意力层，而值向量V是经过上一步遮罩矩阵处理后的数据。通过堆叠多个解码器来捕获交通流量数据的时空相关性。遮罩矩阵层用于屏蔽未来数据，如式(7)所示。

Y′＝softmax(X^d+Mask) (7)

其中，X^d为Transformer解码器的输入数据，Mask为遮罩矩阵；Y′为Transformer解码器中遮罩矩阵层的输出矩阵。

步骤7：将Y′作为值向量与编码层的输出经过线性变换后作为查询向量和键向量一并输入解码器中的多头时间注意力层，然后经过和图注意网络层得到解码器的输出。每一次编码器的预测值将作为下一次预测的输入。

步骤8：将近期数据X_r、日周期数据X_d、周周期数据X_w三种周期数据分别独立输入图注意力层与Transformer网络的编码器中得到三种周期数据的编码器输出然后通过周期融合层进行融合后再作为查询向量和键向量输入Transformer的解码器。

2.根据权利要求1所述的一种基于Transformer与图注意力网络的高速公路交通流量预测方法，其特征在于：步骤1中的数据预处理包括对原始数据丢失部分进行线性插值、将原始数据归一化、根据交通网络中各个节点的距离计算预定义邻接矩阵以及将数据划分成训练集、验证集和测试集。具体来说，将60％划分为训练集，20％的数据划分为验证集，20％的数据划分为测试集。并将训练集划分为近期数据、日周期数据与周周期数据。具体划分方式如式子(8)-(10)所示，其中X_r、X_d、X_w分别表示近期数据、日周期数据与周周期数据。预定义邻接矩阵A是根据交通节点之间的欧氏距离计算得到，如式(11)。

A_i,j＝1/distance(i,j) (11)

其中，distance(i,j)表示交通节点i和j之间的距离；X_r、X_d、X_w分别为近期数据、日周期数据、周周期数据；q为每天的采样次数，t₀训练集中第一个时间点，T_p为预测时长；T_r、T_d、T_w分别表示近期、日周期、周周期的截取长度且T_d与T_w都是T_p的整数倍。

3.根据权利要求1所述的一种基于Transformer与图注意力网络的高速公路交通流量预测方法，其特征在于：步骤2中的图注意力网络采用注意力集中制与预定义邻接矩阵动态计算交通路网邻接矩阵。具体地，将交通流量数据X经过线性层变换为查询向量Q与键向量K然后计算注意力系数

然后与预定义邻接矩阵相乘作为动态邻接矩阵A_d，如式(12)-(14)所示。

Q_s＝K_s＝W_lX_t+b_l (13)

其中，

表示

4.根据权利要求1所述的一种基于Transformer与图注意力网络的高速公路交通流量预测方法，其特征在于：步骤3中需要在输入Transformer的编码器之前添加时间位置嵌入，其目的在于为每个数据标注时间顺序，使得注意力计算中不会平等对待对所有位置的数据，如式(15)。

X′_s[i,:]＝X_s[i,:]+e_tp (15)

其中，e_tp为时间位置嵌入编码，i表示不同的时间步，d表示特征维度；X′_s为添加时间位置编码后的交通流量矩阵。

5.根据权利要求1所述的一种基于Transformer与图注意力网络的高速公路交通流量预测方法，其特征在于：Transformer网络的编码器由多头时间注意力层与图注意力层串联构成，且在每一次之间都有残差连接与归一化操作。Transformer网络的解码器由多头时间注意力层、遮罩矩阵层、时间注意力层与图注意力层串联构成，并且每一层之间都有残差连接和归一化操作，并且输入解码器的查询向量与键向量由编码器的输出经过线性变换得到，而值向量由已预测出的交通流量值经过多头时间自注意力层与遮罩矩阵层得到。

6.根据权利要求1所述的一种基于Transformer与图注意力网络的高速公路交通流量预测方法，其特征在于：该预测模型将交通流量的周期性显式建模，将不同的周期数据分别输入编码器捕获时空相关性，然后使用周期融合层对不同尺度的周期性进行融合，周期融合层如式(15)所示。

Y′＝sigmoid(Y′_r)⊙Y′_r+sigmoid(Y′_d)⊙Y′_d+sigmoid(Y′_w)⊙Y′_w (15)

其中，sigmoid为非线性激活函数，Y′三个周期融合后的时空特征矩阵。

该预测模型可以根据实际情况堆叠更多的编码器与解码器来学习交通数据的时空相关性，并且在数据量特别多的情况下可以划分更多不同周期输入编码器更加精细化建模周期性，需要注意的是每个周期的数据量不能太少否则由于数据量不足很可能导致无法学习到准确的时空相关性。