CN115587454A

CN115587454A - 基于改进Transformer模型的交通流量长时预测方法及系统

Info

Publication number: CN115587454A
Application number: CN202211301168.7A
Authority: CN
Inventors: 张珣; 李金�; 张学君; 吴立杰; 梁义珂
Original assignee: China Institute of Water Resources and Hydropower Research; Beijing Technology and Business University
Current assignee: China Institute of Water Resources and Hydropower Research; Beijing Technology and Business University
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-10

Abstract

本发明公布了一种基于改进Transformer模型的交通流量长时预测方法及系统，包括：数据预处理模块、时空交通流量长时预测模型构建模块、在线预测模块；构建时空交通流量长时预测模型，模型采用多层编解码器结构，编码器每一层包括卷积注意力模块和图注意力模块，用于建模交通数据的非线性时间相关性和动态空间相关性；解码器每一层利用交叉注意力机制对历史数据进行特征转换；编码器对历史交通数据进行编码后，输入给解码器每层的交叉注意力模块中，通过交叉注意力机制参考历史数据做出判断，将历史交通特征转换为未来表征，建立历史和未来时间之间的直接关系，缓解长时交通流量预测的误差积累，提高长时交通流量预测的准确性。

Description

基于改进Transformer模型的交通流量长时预测方法及系统

技术领域

本发明涉及交通流量预测技术领域，特别地涉及一种基于改进的Transformer模型的交通流量长时预测模型方法及系统。

背景技术

近年来，在智能交通系统中交通流预测目的是实现交通流的实时控制和引导，它是实现智能交通系统的关键和基础，比如拥堵管理、车辆动态路线引导、公交管理、出行者信息系统、突发事件检测系统等都需要参考指定路段交通流状况。

交通预测的研究领域自70年代末问世以来，已经有了长足的发展。早期的研究主要使用统计的方法来分析历史交通量数据，具有代表性的时间序列分析模型如整合移动平均自回归模型(ARIMA)和向量自回归模型(VAR)。由于无法对交通网络的空间特征进行建模，这种统计模型不能扩展用于大规模交通预测。为了在交通预测中实现更高级的特征学习，机器学习模型被应用于解决交通感知数据中的非线性和时空相关性。用于交通预测的经典机器学习模型包括K近邻(KNN)、支持向量机模型(SVM)和隐马尔可夫模型(HMM)。这些模型提供了比统计模型更好的结果，但是很大程度上依赖手工提取的特征。深度学习在交通预测领域以先进的表现取得了显著成就，得力于图形处理单元(GPU)和并行计算基础设施的发展，深度学习模型可以在数毫秒内执行城市范围的交通预测任务。由于其强大的特征学习能力，越来越多的研究致力于开发基于深度神经网络的交通预测方法，与传统的机器学习方法相比，它们能够在不依赖人工干预的情况下获得更好的性能。

交通流量预测可分为短时预测和长时预测，自上世纪90年代初以来，已有大量关于短时交通流量预测的研究，然而长时的交通流量预测并没有引起太多的关注。长时预测的目标是预测大于一小时甚至更长时间的交通流量，准确的长时预测结果可指导交通管理机构适当地交通干预，避免潜在的交通拥堵，从而确保运营效率。相较于短时预测，提供更高精度的长时预测可以为提高有限交通管理资源的效率提供更多的参考，对科学管理交通具有重要意义。对于交通流量的预测方式主要有两种，一是单步预测，即一次性输出待预测时间段的交通流量，由于交通系统的动态性无法直接准确预测出长时间的交通流量，这种方式在长时预测时局限性较大；二是多步预测，模型会将已预测的结果作为历史数据，来重新作为模型新的输入，从而逐步输出预测，这种多步预测方式则会由于已预测出的错误结果而导致误差积累问题。而现有的多步预测方法难以处理在捕获交通流量在时间维度和空间维度上相关性的同时，解决交通流量长时预测中误差积累的技术问题，难以实现交通流量更长时间的准确预测。

发明内容

为了解决上述技术问题，本发明提供一种基于改进的Transformer模型的交通流量长时预测方法及系统。通过构建交通流量长时预测模型，将历史交通特征转换为未来表征，建立交通流量在历史和未来时间之间的关系，以缓解误差积累问题，提高长时交通流量预测的准确性。

本发明针对现有方法在挖掘数据的长时特征方面所存在的问题，基于卷积注意力机制、图注意力网络和交叉注意力机制，对Transformer模型结构进行改进，构建的交通流量长时预测模型包括：输入层、编码器、解码器和输出层。其中，编码器包括卷积注意力模块和图注意力模块，解码器除了卷积注意力模块和图注意力模块，还包括编-解码交叉注意力融合模块。模型采用卷积注意力机制，模型编码器和解码器的前馈层采用图注意力网络。编码器和解码器之间加入交叉注意力机制的编-解码融合模块，模型每输出预测前都通过交叉注意力机制参考历史数据来做出判断，由此提高长时交通流量预测的准确性。

以下先对本发明的技术术语进行解释。

卷积注意力(Conv-Attention)：由于卷积操作可以用来捕捉局部信息，所以卷积注意力为解决注意力机制中局部上下文不敏感问题而被提出。卷积注意力属于注意力机制的一种变体，利用一维卷积代替Q(Query，查询矩阵)和K(Key，关键字矩阵)的线性变换，用来捕捉局部特征。

图注意力(Graph-Attention)：图注意力是用自注意力机制来实现，用自注意力机制代替图卷积神经网络中的矩阵分解和求逆等运算，以此来建模数据的空间相关性。

交叉注意力(Cross-Attention)：交叉注意力由自注意力机制改进得来，其Q(Query，查询矩阵)和K(Key，关键字矩阵)分别来自于不同的矩阵，计算两个矩阵元素之间的注意力得分，注意力得分乘以一个矩阵元素获得V(Value，值矩阵)，就得到了另一个矩阵元素在该矩阵元素特征空间中的表示。

多头注意力(Multi-Head Attention)：多头注意力就是在多个不同的特征空间中建立不同的投影信息。将输入矩阵进行不同的投影，得到许多输出矩阵后，将其拼接在一起得到最终输出。

残差连接和层归一化(Add&Norm)：本发明在Transformer模型中的编码器和解码器的每个模块都加入了残差设计和层归一化操作，目的是解决梯度消失问题和权重矩阵的退化问题，并加快收敛。

本发明的技术方案为：

本发明提出一种基于改进的Transformer模型的时空交通流量长时预测模型(Long-term Spatial-Temporal Network based Transformer,LSTNT)，模型采用多层的编-解码器结构，编码器部分每一层由一个卷积注意力模块和一个图注意力模块构成，分别用来建模交通数据的非线性时间相关性和动态空间相关性。在每一个解码层中利用交叉注意力机制来对历史数据进行特征转换，编码器对历史交通数据进行编码后，输入给解码器每一层的交叉注意力模块中，使模型每输出预测前都通过交叉注意力机制参考历史数据来做出判断，用来将历史交通特征转换为未来表征，建立历史和未来时间步骤之间的直接关系，以缓解误差积累的问题，提高长时交通流量预测的准确性。包括如下步骤：

步骤S1：数据预处理

步骤S11：将历史时间的交通流量数据集根据邻近时间周期、日周期和周周期进行划分，得到邻近时间特征矩阵X_h、日周期特征矩阵X_d，周周期特征矩阵X_w

将获取到的交通数据在时间轴上的不同位置进行划分，分为邻近时间周期、日周期和周周期三种时间尺度，分别得到邻近时间特征矩阵X_h、日周期特征矩阵X_d，周周期特征矩阵X_w，作为邻近时间、日周期、周周期数据输入。

步骤S12：历史交通特征矩阵拼接

将邻近时间特征矩阵X_h、日周期特征矩阵X_d，周周期特征矩阵X_w，拼接在一起，得到一系列历史时刻的交通信号矩阵X。

步骤S13：特征矩阵映射高维空间

将特征矩阵X做一个线性变换，将低维的特征矩阵映射到更高维的特征空间中。

步骤S14：加入交通流量信息的位置编码

加入位置编码可以加强位置信息在使时间序列建模中起到作用，让越邻近的观测结果越有影响。

步骤S2：通过卷积注意力模块捕获交通流量的局部时间特征

编码器使用多头卷积注意力机制动态捕捉给定序列的局部时间信息，根据元素序列得到查询矩阵Q、关键字矩阵K、值矩阵V，后通过线性变换映射到不同的表示空间中，再进行注意力函数计算，卷积操作用来捕获局部信息，最后将多头卷积注意力的输出进行拼接，并做线性变换。

步骤S3：通过图注意力模块建模交通流量的空间相关性

为捕获时空交通数据的动态空间依赖，在每个时间片上都利用图注意力网络计算节点之间的关联强度。将所有节点的输入特征进行一个可学习的线性变换，节点共享线性变换的参数矩阵。注意力函数计算权重系数，加入非线性激活函数运算得到不同节点之间的注意力相关系数，每个系数对应的节点特征加权求和再经过一层激活函数。对多个独立的图注意力机制采用平均法取代多头注意力的拼接操作，最终捕获多种空间关系。

步骤S4：通过编-解码融合模块将交通流量历史特征转为未来表征

编码器将历史交通数据进行编码后，输出给解码器每一解码层中的编解码融合模块，融合模块的另一部分输入来自解码器中的卷积注意力模块的输出。多个编-解码层堆叠得到编-解码器，采用交叉注意力机制对输入历史数据进行查询，将历史交通特征转换为未来表征。

步骤S5：模型输出得到预测结果

将编-解码融合模块的输出输入到解码器图注意力模块中，最后将解码器图注意力模块的输出经过一次线性变换，得到最终的预测结果。

本发明具体实施时，利用上述方法实现了一种基于改进Transformer模型的时空交通流量长时预测系统，包括：数据预处理模块、时空交通流量长时预测模型构建模块、在线预测模块；

数据预处理模块用于划分交通流量历史时间数据集、拼接历史交通特征矩阵、将特征矩阵映射到高维空间，并加入位置编码；

时空交通流量长时预测模型构建模块用于构建预测模型；包括卷积注意力模块、图注意力模块、编-解码交叉注意力融合模块；其中，卷积注意力模块用于捕获交通流量的局部时间特征；图注意力模块用于表示交通流量的空间相关性；编-解码交叉注意力融合模块用于将交通流量历史特征转为未来表征；

在线预测模块用于输出交通流量长时预测结果。

与现有技术相比，本发明的有益效果是：

1、本发明构建一种基于改进的Transformer的时空交通流量长时预测模型，模型基于Transformer的结构，采用卷积注意力机制，用来捕获捕获局部相关性，并采用图注意力网络作为前馈层，以建模时空交通数据的空间相关性，用来捕获空间相关性。从而解决了Transformermer模型中没有考虑交通流量连续数据中固有的局部信息，即无法捕捉到交通数据中的局部趋势性的技术难题。

2、本发明构建的时空交通流量长时预测模型在每一个解码层中利用交叉注意力机制来对历史数据进行特征转换，编码器对历史交通数据进行编码后，输入给解码器每一层的交叉注意力模块中，模型每输出预测前都通过交叉注意力机制参考历史数据来做出判断，建立历史和未来时间步骤之间的直接关系，以缓解误差积累的问题。模型可更好的应对长时交通流量预测任务，提高了长时交通流量预测的准确性。

附图说明

为了更清楚地阐述本发明现有技术中的技术方案或实施例，下面将简单地介绍实施例中需要使用的附图，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的交通长时流量预测方法的流程框图。

图2是本发明实施例构建的一种交通流量长时流量预测模型结构图。

图3是本发明实施例提供的自注意力和卷积注意力对比图。

图4是本发明实施例构建的一种编-解码器融合模块结构图。

图5是本发明实施例提供的交叉注意力机制结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提出一种基于改进的Transformer模型的时空交通流量长时预测模型方法，图1所示为本发明具体实施交通长时流量预测方法的流程。图2是本发明实施例构建的一种交通流量长时预测模型结构图，模型基于Transformer的结构进行改进，首先自注意力机制采用了可捕获局部相关性的卷积注意力机制，并将图注意力网络作为前馈曾，用来捕获空间相关性。在每一个解码层中利用交叉注意力机制来对历史数据进行特征转换，编码器对历史交通数据进行编码后，输入给解码器每一层的交叉注意力模块中，模型每输出预测前都通过交叉注意力机制参考历史数据来做出判断，模型可更好的应对长时交通流量预测任务，提高了长时交通流量预测的准确性。

本发明所述方法具体实施包括5个执行步骤。交通流量长时预测方法及系统过程中执行这5个步骤，如图1所示，通过步骤S1进行历史时间数据的预处理，将历史数据集进行划分、拼接、升维及加入位置编码；构建基于改进的Transformer的时空交通流量长时预测模型，包括卷积注意力模块、图注意力模块、编-解码交叉注意力融合模块，且在在每个模块后都使用残差连接和层归一化(Add&Norm)。在步骤S2、S3、S4和S5中进行时空交通流量长时预测模型的训练、预测和输出，数据输入编码器与解码器的卷积注意模块获取局部相关性，后通过图注意力模块捕获空间相关性，编-解码融合模块融合来自解码器图注意力模块和解码器卷积注意力模块的两部分数据，再经过解码器图注意力模块输出预测结果：

步骤S1：数据预处理

对历史时间数据集进行划分，交通数据特征矩阵拼接，将特征矩阵映射高维空间，最后加入位置编码。

步骤S11：历史时间数据集的划分，分别得到按不同时间周期划分的历史交通数据特征矩阵；

历史数据集是有先验知识的交通路网的多变量时间序列数据，交通路网预定义为邻接矩阵，表示为加权图G＝(V,E,A)。V是节点的集合，节点表示交通路网上的不同位置(如人工检测点，道路传感器，交通路口等)，预测目标为节点的交通流量值特征(如车流量，人流量，交通拥堵数据等)；E是节点之间边的集合；A∈R^N×N是邻接矩阵，其中每个元素a_ij表示节点i和j之间的边权重，权重定义为道路网络节点的距离。多变量时间序列可以表示为图G上的信号，记为特征张量x∈R^N×F×T。其中，N为交通节点数，F为交通流量值特征数，T为时间片个数。

将获取到的交通数据在时间轴上的不同位置进行划分，分为邻近时间周期、日周期和周周期三种时间尺度，作为邻近时间数据、日周期数据、周周期数据的输入，分别得到邻近时间交通数据

日周期交通数据

周周期交通数据

其中N为交通节点数，F为交通流量值特征数，T_h，T_d，T_w分别为邻近时间周期、日周期和周周期的时间片个数，由于不同时间周期选取的时间尺度不同，即不同时间周期的时间片个数可以不同，所以区分表示为T_h，T_d，T_w。

例如，如要预测周二早7点到8点的交通流量，周周期可截取上周二(前一周)早7点到8点的交通数据；日周期可截取本周一(前一天)早7点到8点的交通数据；邻近时间是截取周二早5点到7点(待预测的前两个小时)的交通数据。单个时间片的时间步长为5分钟，则周周期时间片T_w为12，日周期时间片T_d为12，邻近时间时间片T_h为24。

步骤S12：对历史交通数据特征矩阵进行拼接：

将邻近时间特征矩阵X_h、日周期特征矩阵X_d和周周期特征矩阵X_w拼接在一起，得到一系列历史时刻的交通信号矩阵X，将其作为构建的时空交通流量长时预测模型的输入。其中邻近时间特征矩阵X_h表示待预测时间段前T_h个时间片的特征矩阵，表示为：

其中t表示预测时刻；日周期特征矩阵X_d表示过去d天的交通记录的T_p个时间片，

周周期特征矩阵X_w表示过去d天的交通记录的T_p个时间片，

对上述三个时间尺度的特征矩阵进行拼接得到模型的输入。计算公式如下：

其中，T_o＝w*T_p+d*T_p+T_h为拼接后特征矩阵的时间片个数；conacte表示特征矩阵拼接操作。

例如，预测未来一个小时的交流流量，即12个时间片，(时间步长5分钟)，如果考虑待预测过去两小时，以及过去三天和过去两周该时间段的交通状况，则X_h∈R^N×F×24，X_d∈R^N ^×F×3*12，X_w∈R^N×F×2*12。

步骤S13：将特征矩阵进行线性变换映射到高维空间；

在将历史交通信号特征矩阵X作为模型输入前，要做一个线性变换，将低维的特征矩阵映射到更高维的特征空间中，做线性变换是为了让模型可以在更大的空间中去学习不同特征之间的相关性。计算公式如下：

其中，

为转置后的历史交通信号特征矩阵，

为线性变换的参数矩阵，

为线性变换即特征映射后的历史交通信号特征矩阵；dk为归一化系数；To为拼接后的时间片个数；

步骤S14：对交通流量特征矩阵加入位置编码

考虑矩阵中各元素之间的距离影响，提高序列位置信息在建模中的作用，对线性变换后的历史交通信号特征矩阵

的时间纬度进行位置编码，位置编码公式如下：

其中，位置编码

为二维矩阵，t表示时间片的位置；d表示节点特征的位置。上述公式表示在每个时间片的特征的偶数位置添加sin变量，奇数位置添加cos变量，根据sin和cos的运算规则可以得出不同位置向量的相对位置规则，以此来填满整个PE矩阵，然后加入到经过特征映射的特征矩阵

中，每个节点都加入相同的位置编码。计算公式如下：

其中，

为加入位置编码后的历史交通信号特征向量矩阵。

步骤S2～S5构建基于改进的Transformer的时空交通流量长时预测模型并进行训练。如图2所示，时空交通流量长时预测模型包括卷积注意力模块、图注意力模块、编-解码交叉注意力融合模块。其中，编码器包括卷积注意力模块和图注意力模块，解码器除了卷积注意力模块和图注意力模块，还包括编-解码交叉注意力融合模块。数据输入编码器与解码器的卷积注意模块获取局部相关性，后通过图注意力模块捕获空间相关性，编-解码融合模块融合来自解码器图注意力模块和解码器卷积注意力模块的两部分数据，再经过解码器图注意力模块输出预测结果。

步骤S2：采用卷积注意力模块捕获局部时间特征：

本发明设计的编码器使用多头卷积注意力机制动态捕捉给定的加入位置编码后的历史交通信号特征向量矩阵序列的局部时间信息，用卷积操作可以用来捕捉局部信息，如图3所示，利用一维卷积代替查询矩阵Q和关键字矩阵K的线性变换，计算公式如下：

MHConv_Att(Q,K,V)＝Concat(head₁,...,head_h)W^O

其中，MHConv_Att表示多头卷积注意力；Concat表示将单头卷积注意力按特征维度进行拼接，head_i表示h个卷积注意力头中的第i个，i∈[1,...,h]；

表示第i个卷积注意力头的卷积核，该卷积核在每个交通节点上共享；“*”表示卷积运算；采用多头卷积注意力是为了捕捉到历史交通信号多种不同的局部时间信息；参数矩阵W^O用于将多头注意力拼接后再做一次线性变换。

步骤S3：采用图注意力模块建模空间相关性

为捕获时空交通数据的动态空间依赖，在每个时间片上都利用图注意力网络计算交通节点之间的关联强度。首先设所有交通节点的输入特征为h＝{h₁,h₂,...,h_N}，h∈R^N×F，其中N为节点个数，F为输入的节点的交通流量特征个数，h_i∈R^F表示第i个节点的输入。设所有节点的输出特征为h′＝{h′₁,h′₂,...,h′_N}，h′∈R^N×F′，F′为输出的交通节点的特征个数，h′∈R^F′表示第i个节点的输出。为了获得足够的表达能力，要将输入特征转换成个更高层次的特征，做一个可学习的线性变换。将线性变换的参数矩阵W∈R^F′×F应用于这些节点，每个节点共享参数矩阵。然后再利用注意力函数a计算两节点之间的注意力权重。计算公式如下：

e_ij＝a(Wh_i，Wh_i) ＝a^T[Wh_i||Wh_i]

其中，e_ij是一个标量，表示交通节点i对交通节点j之间的权重，j∈N_i，N_i表示图中节点i的邻域，即交通路网中节点i有道路相连的那些节点，将没有道路的边权重置为负数。W是输入的F个特征与输出的F′个特征之间的线性变换权重矩阵。注意力函数a是一个单层的前馈神经网络，a∈R^2F′表示该网络的权重向量，是可学习的参数。||表示按特征维度拼接。

为了使系数易于在不同节点之间进行比较，使用softmax函数对i的所有邻居节点j分别进行归一化。为保证更好地学习到非线性，在计算权重后加入LeaKyReLU非线性激活函数，得到注意力系数。计算公式如下：

其中，exp为底数为e的指数运算；e_ik表示节点i与N_i中一个节点k的权重。

通过上面运算得到了不同节点之间的注意力相关系数。每个系数对应的节点的特征加权求和，再经过一层激活函数，获得每个节点最终特征表示。为捕获多种空间关系，采用多头注意力，多个独立的图注意力机制的拼接操作在本发明中采用平均法，从而避免了拼接操作所需的众多参数。计算公式如下：

其中，

是第k个注意力机制a^k计算出的注意力系数；W^k是a^k对节点特征输入做线性变换的权重矩阵；最终输出h_i′的维度变为K×F′；σ是非线性激活函数。

步骤S4：编-解码器融合模块

如图2交通流量长时预测模型结构图所示，编码器将历史交通数据进行编码后，输出给解码器每一解码层中的编解码融合模块，融合模块的另一部分输入来自解码层中卷积注意模块的输出。

如图4的编-解码器融合模块结构图所示，多个编-解码层堆叠得到编-解码器，采用交叉注意力机制，解码层的输入经过卷积注意力模块后输入编-解码融合模块中，根据交叉注意力机制对历史数据交通特征进行查询，然后将历史的交通特征转换为未来的表征。

如图5的交叉注意力机制结构图，计算融合模块两部分输入的注意力得分，K和V来自编码器的输出序列x_d，Q来自于解码层中卷积注意力模块的输出x_h，将注意力得分乘以V，得到x_h在x_d的特征空间中的表示。计算公式如下：

其中，CD_d→h(x_h,x_d)表示利用交叉注意力机制重组邻近时间的特征；Y′为交叉注意力机制融合模块的输出，表示融合历史特征的未来表征；d_m为计算注意力得分的归一化系数；

表示待训练的参数矩阵。

步骤S5：模型输出得到预测结果

编-解码器融合模块的输出输入到解码器图注意力模块中，最后将解码器图卷积模块的输出经过一次线性变换，得到最终的预测结果。

通过上述步骤，可以由输入的一系列历史时刻的交通流量数据，得到预测的未来T_P个时间片的交通流量特征

从而实现交通流量的长时预测。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于改进Transformer模型的交通流量长时预测方法，构建时空交通流量长时预测模型，模型采用多层的编解码器结构，编码器的每一层由一个卷积注意力模块和一个图注意力模块构成，用于建模交通数据的非线性时间相关性和动态空间相关性；在解码器的每一层中利用交叉注意力机制对历史数据进行特征转换；编码器对历史交通数据进行编码后，输入给解码器每一层的交叉注意力模块中，通过交叉注意力机制参考历史数据做出判断，将历史交通特征转换为未来表征，建立历史和未来时间之间的直接关系，用以缓解长时交通流量预测的误差积累，提高长时交通流量预测的准确性；包括如下步骤：

步骤S1：数据预处理

步骤S11：将历史时间的交通流量数据集根据邻近时间周期、日周期和周周期进行划分，得到邻近时间特征矩阵X_h、日周期特征矩阵X_d，周周期特征矩阵X_w；

将获取到的交通数据在时间轴上的不同位置进行划分，分为邻近时间、日周期和周周期三种时间尺度，分别得到邻近时间特征矩阵X_h、日周期特征矩阵X_d，周周期特征矩阵X_w；邻近时间周期的时间片个数、日周期的时间片个数和周周期的时间片个数分别为T_h、T_d、T_w；

步骤S12：历史交通特征矩阵拼接

将邻近时间特征矩阵X_h、日周期特征矩阵X_d，周周期特征矩阵X_w，拼接在一起，得到一系列历史时刻的交通信号特征矩阵X；

步骤S13：特征矩阵进行线性变换映射到高维空间；

将特征矩阵X进行线性变换，将低维的特征矩阵映射到更高维的特征空间中，得到线性变换后的历史交通信号特征矩阵

步骤S14：加入交通流量信息的位置编码：对

的时间纬度进行位置编码；表示为：

其中，

为加入位置编码后的历史交通信号特征向量矩阵；位置编码

为二维矩阵；t表示时间片的位置；d表示节点特征的位置；

构建时空交通流量长时预测模型；包括：

步骤S2：通过卷积注意力模块捕获交通流量的局部时间特征；

编码器通过采用多头卷积注意力机制动态捕捉历史交通信号特征序列的局部时间信息，根据元素序列得到查询矩阵、关键字矩阵、值矩阵，后通过线性变换映射到不同的表示空间中，再进行注意力函数计算；通过卷积操作捕获局部信息；最后将多头卷积注意力的输出进行拼接，并进行线性变换；表示为：

MHConv_Att(Q,K,V)＝Concat(head₁,...,head_h)W^O

表示第i个卷积注意力头的卷积核，该卷积核在每个交通节点上共享；“*”表示卷积运算；参数矩阵W^O用于将多头注意力拼接后再做一次线性变换；

步骤S3：通过图注意力模块建模交通流量的空间相关性；

在每个时间片上均利用图注意力网络计算节点之间的关联强度；将所有节点的输入特征进行可学习的线性变换，节点共享线性变换的参数矩阵；采用注意力函数计算权重系数，加入非线性激活函数运算，得到不同节点之间的注意力相关系数，每个系数对应的节点特征加权求和再经过一层激活函数；对多个独立的图注意力机制采用平均法取代多头注意力的拼接操作，最终捕获多种空间关系；包括：

首先设所有交通节点的输入特征为h＝{h₁,h₂,...,h_N}，h∈R^N×F，其中N为节点个数，F为输入的节点的交通流量特征个数，h_i∈R^F表示第i个节点的输入；设所有节点的输出特征为h′＝{h′₁,h′₂,...,h′_N}，h′∈R^N×F′，F′为输出的交通节点的特征个数，h′∈R^F′表示第i个节点的输出；

将输入特征转换成个更高层次的特征，进行可学习的线性变换；将线性变换的参数矩阵W∈R^F′×F应用于交通节点，每个交通节点共享参数矩阵；再利用注意力函数a计算两个交通节点之间的注意力权重；计算公式为：

e_ij＝a(Wh_i，Wh_i)

＝a^T[Wh_i||Wh_i]

其中，e_ij是一个标量，表示交通节点i对交通节点j之间的权重，j∈N_i，N_i表示图中节点i的邻域，即交通路网中节点i有道路相连的节点；将没有道路的边权重置为负数；W是输入的F个特征与输出的F′个特征之间的线性变换权重矩阵；注意力函数a是一个单层的前馈神经网络，a∈R^2F′表示该网络的权重向量，是可学习的参数；||表示按特征维度拼接；

使用softmax函数对i的所有邻居节点j分别进行归一化；在计算权重后加入LeaKyReLU非线性激活函数，得到注意力系数；计算公式为：

其中，exp为底数为e的指数运算；e_ik表示节点i与N_i中一个节点k的权重；

得到不同节点之间的注意力相关系数对应的节点的特征加权求和，再经过一层激活函数，获得每个节点最终特征表示；

采用多头注意力，将多个独立的图注意力机制进行拼接，用以捕获多种空间关系；

步骤S4：通过编-解码融合模块将交通流量历史特征转为交通流量未来表征；

解码器每一解码层中的编-解码融合模块的输入分别为通过编码器对历史交通数据进行编码后输出的数据和解码层中卷积注意力模块输出的数据；编-解码融合模块根据交叉注意力机制将历史的交通流量特征转换为未来表征，包括：

计算编-解码融合模块两部分输入的注意力得分，表示为：

其中，K和V来自编码器的输出序列x_d，Q来自于解码层中卷积注意力模块的输出x_h，将注意力得分乘以V，得到x_h在x_d的特征空间中的表示；CD_d→h(x_h,x_d)表示利用交叉注意力机制重组邻近时间的特征；Y′为交叉注意力机制融合模块的输出，表示融合历史特征的未来表征；d_m为计算注意力得分的归一化系数；

表示待训练的参数矩阵；

步骤S5：模型输出得到预测结果

将编-解码融合模块的输出再输入到解码器图注意力模块中，最后将解码器图注意力模块的输出经过一次线性变换，得到预测结果；

通过上述步骤，实现基于改进Transformer模型的交通流量长时预测。

2.如权利要求1所述基于改进Transformer模型的交通流量长时预测方法，其特征是，步骤S11对历史时间数据集进行划分，包括：

历史数据集采用交通路网的多变量时间序列数据；交通路网定义为邻接矩阵，表示为加权图G＝(V,E,A)；V是交通节点集合，交通节点表示交通路网上的不同位置；E是节点之间边的集合；A∈R^N×N是邻接矩阵，其中每个元素a_ij表示节点i和j之间的边权重，权重定义为交通节点的距离；多变量时间序列表示为G上的信号，记为特征张量x∈R^N×F×T；其中，N为交通节点数，F为交通流量值特征数，T为时间片个数；

将获取到的交通数据在时间轴上根据不同的时间尺度进行划分，时间尺度包括邻近时间、日周期和周周期；分别得到邻近时间交通数据矩阵