CN116311921A

CN116311921A - 一种基于多空间尺度时空Transformer的交通速度预测方法

Info

Publication number: CN116311921A
Application number: CN202310182427.7A
Authority: CN
Inventors: 张悦; 刘佰龙; 安计勇; 张磊; 梁志贞; 杨林
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-23

Abstract

本发明公开了一种基于多空间尺度时空Transformer的交通速度预测方法，属于交通预测规划技术领域。预测方法包括：将预处理后的路段传感器速度序列数据依次输入多尺度空间特征提取模块、交通时空特征提取模块以及预测模块，逐步实现多尺度动态空间结构和静态路网结构的特征提取、精准建模时空依赖以及预测未来一段时间的交通速度。本发明多尺度空间特征提取模块能够全面且有针对的提取空间特征，在提高预测精度的同时减少了大量无用计算。另外，交通时空特征提取模块根据交通特性以及数据的相对位置信息选择更有价值的历史数据以进行充分的时空特征提取，解决了提取时空依赖时存在的丢失相对位置信息的问题。

Description

一种基于多空间尺度时空Transformer的交通速度预测方法

技术领域

本发明涉及交通预测规划技术领域，尤其涉及一种基于多空间尺度时空Transformer的交通速度预测方法。

背景技术

交通系统是现代城市最重要的基础设施之一，支撑着数百万人的日常通勤和出行。随着城市化和人口增长，交通系统变得更加复杂。基于交通预测的早期干预被视为提高交通系统效率和缓解交通相关问题的关键。

现有交通数据的预测方法都是以整个交通网络为尺度来对空间结构建模的，即将大量的传感器节点放在一个交通图中做特征提取。一些模型基于传感器节点之间的距离构建了空间图，并将图卷积直接作用在空间图上提取空间域中有意义的模式和特征。这种将传感器视为全部相连的做法虽然可以充分提取空间关系，但是会造成过度提取的问题，导致引入了更多的噪声和大量无用信息。有些模型以距离阈值的方式定义传感器之间的连接关系，将传感器网络建模为加权有向图，并提出扩散卷积来捕获空间依赖性。但是这种方法仍然是以一整个交通网络为尺度，这不利于准确且有针对性的提取空间结构特征。随着Transformer的快速发展，一些模型使用空间Transformer来提取全局的空间结构特征，计算每一个传感器之间的依赖关系。虽然取得了不错的效果，但在提取空间结构时仍存在尺度单一、计算大量无用信息的问题。另外，现有模型在对交通速度数据建模时并没有考虑时空数据的先后关系以及相对位置信息，然而对于交通速度预测来说，这是非常重要的，因为交通速度数据是时间序列数据，而每个时间步之间的影响是不同的，比如对于一个时间步来说，其前一个时间步对他的影响会比前两个时间步对他的影响要大，另外，当前时间步是不受后面时间步的影响的。所以如何进行准确的时空建模，也是需要解决的一大问题。

发明内容

技术问题：本发明的目的是要克服现有技术中的不足之处，提供一种基于多空间尺度时空Transformer的交通速度预测方法，以解决因交通系统空间结构复杂、时空依赖关系有严格先后顺序而导致现存的交通数据预测无法精准且快速的预测交通数据的问题。

技术方案：本发明于多空间尺度时空Transformer的交通速度预测方法，利用城市交通速度数据设计预测模型，实现全面且有针对的提取空间特征、精准建模时空依赖特征和预测未来一段时间的交通速度；所述预测模型包括多尺度空间特征提取模块、交通时空特征提取模块和预测模块；包括如下步骤：

步骤1、对获取到的路段传感器速度序列数据进行预处理：包括处理传感器节点数据以及生成样本集合，得到预处理后的速度样本集和路网的带权邻接矩阵；

步骤2、将步骤1处理后的数据输入多尺度空间特征提取模块，得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据；

步骤3、将步骤2得到的提取过空间结构特征的速度数据经过交通时空特征提取模块进行时空依赖关系的构建，得到具有精准时空依赖的速度数据；

步骤4、将步骤3得到的具有精准时空依赖的速度数据X_ST输入预测模块进行多步预测，以预测未来一段时间的交通速度；同时使用损失函数训练所述交通速度预测模型，逐步训练优化参数以实现对城市交通速度的准确预测。

所述处理传感器节点数据以及生成样本集合；

所述传感器节点数据是指从道路传感器获取到的一段时间内的平均车速信息，处理传感器节点数据的方法为：将传感器数据每5分钟聚合一次，采用线性插值法填充缺失值，最后将填充完缺失值的传感器数据使用z-score方法归一化，得到交通数据集；所述线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法；所述z-score方法是一个实测值与平均数的差再除以标准差的过程，通过z-score方法能够将不同量级的数据转化为统一量度的z-score分值；

所述生成样本集合的方法为：

定义一个长度为l的滑动窗口，移动步长为1；使该滑动窗口在数据集[x₁,…,x_T]上滑动，得到所有数据样本的集合H＝[X₁,…,X_h,…,X_T-l+1]，其中

将所有数据样本依次进行特征提取与预测，特征提取与预测的过程一致，均依次经过多尺度空间特征提取模块、交通时空特征提取模块以及预测模块。

所述交通数据集包括速度数据以及由传感器节点之间的距离确定的带权邻接矩阵，所述交通数据集中的速度数据是时间序列数据，表示为

其中，/>

是N个传感器节点在时间步t的观测值，将观测值表示为交通图G＝(V,E,W)，其中，V表示传感器节点的集合，|V|＝N；E表示边的集合，/>

表示交通图G的带权邻接矩阵；其中，邻接矩阵以及边的权重是根据传感器所在位置之间的距离决定的，边的权重矩阵W是根据连通关系构造的邻接矩阵，对于传感器i与传感器j来说，w_ij＝d_ij；其中，w_ij表示传感器i与传感器j之间的权重，d_ij是传感器i与传感器j之间的距离。

步骤2中，所述多尺度空间特征提取模块包括节点特征提取层、区域特征提取层、道路特征提取层、静态路网特征提取层以及融合层；将步骤1得到的速度数据样本分别输入各特征提取层来分别提取节点层面、区域层面和道路层面三个尺度的动态空间结构特征以及静态的路网结构特征；之后将三个尺度的动态特征以及静态的特征数据输入融合层来进行融合，得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据；多尺度空间特征提取模块能够全面且有针对的提取空间特征，在提高预测精度的同时减少大量无用信息的计算；

多尺度空间特征提取模块的提取过程为：

首先,以速度样本X_h为例，将速度样本X_h先经过一层1×1的卷积层来扩充特征通道数，得到扩充特征通道之后的数据

其中：Conv表示卷积操作；

将

并行输入传感器节点特征提取层、区域特征提取层、道路特征提取层以及静态特征提取层，分别得到节点层面的特征S_node、区域层面的特征S_area、道路层面的特征S_road以及静态的路网结构特征S_static；之后将上述特征输入融合层来将三个尺度的动态特征以及静态的特征融合，得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据X_S：

X_S＝Fusion(S_node,S_area,S_road,S_static)

其中：Fusion表示融合层的融合操作。

所述节点特征提取层，对每个传感器节点都有自己独特的交通特征，不需要去聚合其他传感器节点的特征，所以在节点特征提取层仅对原始的输入特征进行特征提取；

首先，对扩充特征通道数后的速度样本

进行层标准化(layer normalization，LN)操作，保证数据中特征的稳定性；

其次，再经过一层前馈神经网络用来提取非线性特征，所述前馈神经网络由两层线性层与一个非线性激活函数组成；

最后，为了防止梯度消失，在特征提取后加入了带有残差连接的层标准化操作，得到传感器节点层面的特征值S_node，提取过程表示如下：

其中，LN表示层标准化操作，用于保证数据稳定性；Linear表示线性层，用于扩张和缩小数据的维度；ReLU是非线性激活，用于学习数据的非线性特征。

所述区域特征提取层包括区域位置嵌入单元、区域多头自注意力单元、前馈神经网络单元；

首先，采用可学习的空间位置嵌入矩阵来学习节点之间的动态位置关系，并将其融入到原始数据中；

其次，将经过位置嵌入后的数据输入区域多头自注意力单元来学习不同方面的特征；

最后再经过前馈神经网络单元以提取更深层的特征；

所述区域位置嵌入单元的嵌入过程为：

使用一个可学习的空间位置嵌入矩阵

来学习节点之间的动态位置关系，R^area初始化为带有权重的邻接矩阵W，得到位置嵌入后的数据/>

其中，F为一个1×1的卷积层，用于将动态的位置信息融入到输入数据中去；

所述区域多头自注意力单元的特征提取过程为：

在区域多头自注意力单元中使用了

个注意力头来学习不同方面的特征，之后将每个注意力头的结果聚合起来；在每个注意力头中，对输入数据

进行空间特征提取，其中，/>

并行计算，特征提取过程为：

首先，为N个传感器节点序列训练三个潜在子空间，包括查询子空间Q_area、键子空间K_area和值子空间V_area：

其中，

分别是Q_area,K_area,V_area的可学习权重矩阵；

其次，计算节点之间的注意力分数，在计算区域注意力分数时对节点进行了筛选，只计算其区域范围内的注意力分数，筛选过程如下：

其中，

表示/>

在查询子空间中对应的值，/>

表示/>

在键子空间中对应的值，/>

表示矩阵的转置；d_k表示K_area的维度，/>

用于防止梯度消失以及出现的输入值过大的问题；B_ij表示筛选变量，当节点j在节点i的区域范围内时，B_ij的值为0，反之置为负无穷：

其中R_i表示以节点i为中心，根据给定的距离阈值K所确定的区域范围内所有其他节点的集合；

再次，将得到的注意力分数用激活函数softmax将注意力分数映射到[0,1]范围内，以确保它们在整个序列中总和为1，之后与对应的值子空间相乘相加，得到提取过区域特征的数据M_area：

最后，使用带有残差连接的层标准化操作来稳定该单元的输出，得到提取过区域空间特征的数据M′_area：

其中：LN表示层标准化操作，用于保证数据稳定性；

所述前馈神经网络单元的特征提取过程为：

前馈神经网络由两层线性层与一个非激活函数组成；为了防止梯度消失，在特征提取后加入了带有残差连接的层标准化操作来稳定输出，得到提取过区域空间特征的数据S_area：

S_area＝LN(Linear(ReLU(Linear(M′_area)))+M′_area)

其中：LN表示层标准化操作，用于保证数据稳定性；Linear表示线性层，用于扩张和缩小数据的维度；ReLU是非线性激活函数，用于学习数据的非线性特征。

所述道路特征提取层，先将输入数据

经过线性映射层，投影出不同于区域提取层的三个子空间，包括查询子空间Q_road、键子空间K_road和值子空间V_road：

其中：

分别是Q_road,K_road,V_road的可学习权重矩阵；

其次，计算节点之间的相关性分数，使用稀疏自注意力来提取空间特征；由Q_road与K_road先经过点积计算得到注意力分数集合S^road：

其中:(K_road)^T表示矩阵K_road的转置；在得到的注意力分数集合S^road中选择最高的几个注意力分数与对应的值子空间相乘，得到提取过道路特征的数据M_road：

M_road＝F_top-p(S^road)V

其中，F_top-p表示筛选函数，用于从S^road中按数值大小选取top-p个注意力分数保持原值，其他注意力分数均置为0；

然后，使用带有残差连接的层标准化操作来稳定该单元的输出，得到提取过道路空间特征的数据M′_road：

其中：LN表示层标准化操作，用于保证数据稳定性；

最后，再将提取过道路空间特征的数据M′_road输入前馈神经网络单元以学习数据的非线性特征；所述前馈神经网络单元由两层线性层与一个非线性激活函数组成；为了防止梯度消失，在特征提取后加入了带有残差连接的层标准化操作来稳定输出，得到提取过道路空间特征的数据S_road：

S_road＝LN(Linear(ReLU(Linear(M′_road)))+M′_road)

所述静态空间特征提取层，利用图卷积操作聚集来自相邻节点的信息来提取交通路网的静态特征S_static；

静态空间特征提取层的提取过程如下：

其中，

是输入数据，/>

是具有附加自连接的邻接矩阵；/>

是/>

的度矩阵，W_static是可训练权重矩阵，σ是激活函数；

所述融合层的融合过程为：

融合层利用门控机制(gating mechanism)来融合多空间尺度的动态特征以及静态的空间特征，先根据要融合的数据计算门g，之后用数据计算门g算出通过加权的方式有选择性的处理输入数据，数据计算门g表示为：

g＝sigmoid(f_node(S_node)+f_area(S_area)+f_road(S_road)+f_static(S_static))

其中：f_node、f_area、f_road和f_static分别是将S_node、S_area、S_road和S_static转换为一维向量的线性函数；所述门控机制利用转换门和进位门来分别表示通过转换输入和进位输出产生了多少输出；融合了多尺度动态空间结构以及静态路网结构特征的速度数据X_S表示为：

X_S＝g(S_node)+g(S_area)+g(S_road)+(1-g)(S_static)。

步骤3中，所述交通时空特征提取模块包括交通时间位置嵌入层、多头自注意力层以及前馈神经网络层；交通时空特征提取模块首先将提取过空间特征的速度数据X_S输入交通时间位置嵌入层来学习数据中对应时间的先后位置关系，之后经过多头自注意力层学习数据中的时空特征，最后输入前馈神经网络层学习数据之间非线性的依赖关系；

所述交通时间位置嵌入层的嵌入过程为：

由于绝对位置嵌入的方法会丢失一些位置信息，所以序列注入相对位置信息，并且在之后计算注意力分数时加入一个可训练的表示相对位置的参数；

提取过空间特征的速度数据

的数据长度为l，它们之间共存在2l-1种相对位置关系，相对位置关系表RPR表示为：

RPR＝[-l+1,…,-2,-1,0,1,2,…,l-1]；

其中，

与/>

之间的相对位置关系为a_ij＝j-i∈RPR；之后为2l-1种相对位置关系分别生成对应的权重矩阵，其中a_ij对应的权重向量为W_i-j；由于交通数据是有高度时间流动性的数据，未来的时间不会影响到之前时间步的数据走向，所以将RPR中表示未来的值的权重向量置为0，即W_i-j＝0，i-j＜0；

所述多头自注意力层的特征提取过程为：

在多头自注意力层中使用了

个注意力头来学习不同方面的特征，之后将每个注意力头的结果聚合起来；在每个注意力头中，对输入数据X_S进行时空特征提取，时空特征提取过程为：

首先，为

训练查询子空间Q_T、键子空间K_T和值子空间V_T：

其中，/>

分别是Q_T,K_T,V_T的可学习权重矩阵；

其次，计算节点之间的依赖关系，由

经过点积计算得到：

其中，

表示矩阵/>

的转置；d_k表示K_T的维度，/>

用于防止梯度消失以及出现的输入值过大的问题；W_i-j是表示序列之间相对位置的权重矩阵；

再次，与对应的值子空间相乘，得到提取过时间依赖关系的数据M_T：

M_T＝S^TV_T

其中，S^T包含

表示序列中所有时间步之间的注意力分数；

最后，使用带有残差连接的层标准化操作来稳定该单元的输出，得到提取过时间依赖特征之后的数据M′_T：

M′_T＝LN(X_S+M_T)

其中：LN表示层标准化操作，用于保证数据稳定性；

所述前馈神经网络单元的特征提取过程为：

前馈神经网络由两层线性层与一个非线性激活函数组成，为了防止梯度消失，在特征提取后加入了带有残差连接的层标准化操作来稳定输出，得到具有精准时间依赖的交通速度数据X_ST：

X_ST＝LN(Linear(ReLU(Linear(M′_T)))+M′_T)

步骤4中，所述的预测模块由两个经典卷积层组成，第一个卷积层用来将时间步维度降维，第二个卷积层是对特征维度进行降维；最终得到未来T_τ个时间步的交通数据，T_τ表示预测未来时间步的个数；得到预测数据Y：

其中：Conv表示卷积操作；

预测后，采用Huber损失函数来进行调优：

其中，Huber损失函数是一个用于回归问题的带参损失函数，δ表示调节鲁棒性的参数，当预测偏差小于δ时，采用平方误差；当预测偏差大于δ时，采用线性误差；

表示预测值，Y表示真实值。

有益效果，由于采用了上述技术方案，本发明利用多尺度空间特征提取、交通时空特征提取和预测三个模块；在多尺度空间特征提取模块中，分别从节点层面、道路层面和区域层面三个尺度来提取交通动态的空间结构特征。其中，对于道路层面和区域层面的提取，分别设计了相应的筛选器来有针对的建模空间结构。另外，在道路层面和区域层面模块中使用了图卷积神经网络来提取静态的路网特征。最后在本模块中设计了融合层来将各个尺度的空间特征融合。在交通时空特征提取模块中，将速度数据的相对位置信息以及由于交通特有的周期性所带来的相对权重信息考虑在内，以在提取时空依赖时选择利用更有价值的历史数据。预测模块对提取过时空特征的数据进行多步预测，以预测未来指定时间步的交通速度。相比其他交通数据预测模型，本发明具备明显的优势，不仅解决了因交通系统空间结构复杂、时空依赖关系有严格先后顺序而导致现存的交通速度预测方法无法精准且快速的预测交通速度的问题，而且具备以下优点：

多尺度空间特征提取模块能够全面且有针对的提取空间特征，在提高预测精度的同时减少了大量无用计算；另外，交通时空特征提取模块根据交通特性以及数据的相对位置信息选择更有价值的历史数据以进行充分的时空特征提取，解决了提取时空依赖时存在的丢失相对位置信息的问题。

附图说明

图1为本发明基于多空间尺度时空Transformer的交通速度预测方法的流程图。

图2为本发明基于多空间尺度时空Transformer的交通速度预测方法的结构图。

具体实施方式

下面结合附图对本发明的实施例作进一步的描述：

本发明的一种基于多空间尺度时空Transformer的交通速度预测方法，利用城市交通速度数据设计预测模型，实现全面且有针对的提取空间特征、精准建模时空依赖特征和预测未来一段时间的交通速度；所述预测模型包括多尺度空间特征提取模块(Multi-scale spatial feature extraction，MCS)、交通时空特征提取模块(Traffic TimeWise，TTW)和预测模块；包括如下步骤：

步骤1、首先，对获取到的路段传感器速度序列数据进行预处理：包括处理传感器节点数据以及生成样本集合，得到预处理后的速度样本集和路网的带权邻接矩阵；

步骤1中，所述处理传感器节点数据以及生成样本集合；

所述生成样本集合的方法为：

定义一个长度为l的滑动窗口，移动步长为1；使该滑动窗口在数据集[x₁,...,x_T]上滑动，得到所有数据样本的集合H＝[X₁,...,X_h,...,X_T-l+1]，其中

其中，/>

多尺度空间特征提取模块的提取过程为：

其中：Conv表示卷积操作；

将

X_S＝Fusion(S_node,S_area,S_road,S_static)

其中：Fusion表示融合层的融合操作。

首先，对扩充特征通道数后的速度样本

最后再经过前馈神经网络单元以提取更深层的特征；

所述区域位置嵌入单元的嵌入过程为：

使用一个可学习的空间位置嵌入矩阵

所述区域多头自注意力单元的特征提取过程为：

在区域多头自注意力单元中使用了

进行空间特征提取，其中，/>

并行计算，特征提取过程为：

其中，

分别是Q_area,K_area,V_area的可学习权重矩阵；

其中，

表示/>

在查询子空间中对应的值，/>

表示/>

在键子空间中对应的值，/>

表示矩阵的转置；d_k表示K_area的维度，/>

其中：LN表示层标准化操作，用于保证数据稳定性；

所述前馈神经网络单元的特征提取过程为：

S_area＝LN(Linear(ReLU(Linear(M′_area)))+M′_area)

所述道路特征提取层，先将输入数据

其中：

分别是Q_road,K_road,V_road的可学习权重矩阵；/>

M_road＝F_top-p(S^road)V

其中：LN表示层标准化操作，用于保证数据稳定性；

S_road＝LN(Linear(ReLU(Linear(M′_road)))+M′_road)

静态空间特征提取层的提取过程如下：

其中，

是输入数据，/>

是具有附加自连接的邻接矩阵；/>

是/>

的度矩阵，W_static是可训练权重矩阵，σ是激活函数；

所述融合层的融合过程为：

g＝sigmoid(f_node(S_node)+f_area(S_area)+f_road(S_road)+f_static(S_static))

X_S＝g(S_node)+g(S_area)+g(S_road)+(1-g)(S_static)。

所述交通时间位置嵌入层的嵌入过程为：

提取过空间特征的速度数据

RPR＝[-l+1，…，-2，-1，0，1，2，…，l-1]；

其中，

与/>

所述多头自注意力层的特征提取过程为：

在多头自注意力层中使用了

首先，为

训练查询子空间Q_T、键子空间K_T和值子空间V_T：

其中，/>

分别是Q_T,K_T,V_T的可学习权重矩阵；

其次，计算节点之间的依赖关系，由

与/>

经过点积计算得到：

其中，

表示矩阵/>

的转置；d_k表示K_T的维度，/>

M_T＝S^TV_T

其中，S^T包含

表示序列中所有时间步之间的注意力分数；

M′_T＝LN(X_S+M_T)

其中：LN表示层标准化操作，用于保证数据稳定性；

所述前馈神经网络单元的特征提取过程为：

X_ST＝LN(Linear(ReLU(Linear(M′_T)))+M′_T)

其中：Conv表示卷积操作；

预测后，采用Huber损失函数来进行调优：

表示预测值，Y表示真实值。

基于多空间尺度时空Transformer的交通速度预测方法的应用：在某地的一个高速公路交通数据集PeMSD7(M)上进行验证。这些数据集由Caltrans性能测量系统(PeMS)每30秒实时收集一次，时间范围为某年的5月和6月的工作日，交通速度预测步骤如下：

步骤4、将步骤3得到的具有精准时空依赖的速度数据输入预测模块进行多步预测，以预测未来一段时间的交通速度；同时使用损失函数训练所述交通速度预测模型，逐步训练优化参数以实现对城市交通速度的准确预测。

步骤5、实验环境及超参数设定：

所依赖的深度学习框架为PyTorch 1.10.0，编程语言为Python 3.6；所有实验均在搭载NVIDIA Tesla P40的计算机上进行，其深度学习加速环境为CUDA 10.2，cuDNN10.2；使用Adam优化器对所提出的模型进行了50个epochs的平均绝对误差损失训练，batchsize为32；初始学习率为0.01，每五个epochs以0.7的速率减少；距离阈值K设置为7000；预测时间步Tτ设置为12。