CN116311921A - 一种基于多空间尺度时空Transformer的交通速度预测方法 - Google Patents

一种基于多空间尺度时空Transformer的交通速度预测方法 Download PDF

Info

Publication number
CN116311921A
CN116311921A CN202310182427.7A CN202310182427A CN116311921A CN 116311921 A CN116311921 A CN 116311921A CN 202310182427 A CN202310182427 A CN 202310182427A CN 116311921 A CN116311921 A CN 116311921A
Authority
CN
China
Prior art keywords
data
layer
road
space
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310182427.7A
Other languages
English (en)
Inventor
张悦
刘佰龙
安计勇
张磊
梁志贞
杨林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202310182427.7A priority Critical patent/CN116311921A/zh
Publication of CN116311921A publication Critical patent/CN116311921A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于多空间尺度时空Transformer的交通速度预测方法,属于交通预测规划技术领域。预测方法包括:将预处理后的路段传感器速度序列数据依次输入多尺度空间特征提取模块、交通时空特征提取模块以及预测模块,逐步实现多尺度动态空间结构和静态路网结构的特征提取、精准建模时空依赖以及预测未来一段时间的交通速度。本发明多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少了大量无用计算。另外,交通时空特征提取模块根据交通特性以及数据的相对位置信息选择更有价值的历史数据以进行充分的时空特征提取,解决了提取时空依赖时存在的丢失相对位置信息的问题。

Description

一种基于多空间尺度时空Transformer的交通速度预测方法
技术领域
本发明涉及交通预测规划技术领域,尤其涉及一种基于多空间尺度时空Transformer的交通速度预测方法。
背景技术
交通系统是现代城市最重要的基础设施之一,支撑着数百万人的日常通勤和出行。随着城市化和人口增长,交通系统变得更加复杂。基于交通预测的早期干预被视为提高交通系统效率和缓解交通相关问题的关键。
现有交通数据的预测方法都是以整个交通网络为尺度来对空间结构建模的,即将大量的传感器节点放在一个交通图中做特征提取。一些模型基于传感器节点之间的距离构建了空间图,并将图卷积直接作用在空间图上提取空间域中有意义的模式和特征。这种将传感器视为全部相连的做法虽然可以充分提取空间关系,但是会造成过度提取的问题,导致引入了更多的噪声和大量无用信息。有些模型以距离阈值的方式定义传感器之间的连接关系,将传感器网络建模为加权有向图,并提出扩散卷积来捕获空间依赖性。但是这种方法仍然是以一整个交通网络为尺度,这不利于准确且有针对性的提取空间结构特征。随着Transformer的快速发展,一些模型使用空间Transformer来提取全局的空间结构特征,计算每一个传感器之间的依赖关系。虽然取得了不错的效果,但在提取空间结构时仍存在尺度单一、计算大量无用信息的问题。另外,现有模型在对交通速度数据建模时并没有考虑时空数据的先后关系以及相对位置信息,然而对于交通速度预测来说,这是非常重要的,因为交通速度数据是时间序列数据,而每个时间步之间的影响是不同的,比如对于一个时间步来说,其前一个时间步对他的影响会比前两个时间步对他的影响要大,另外,当前时间步是不受后面时间步的影响的。所以如何进行准确的时空建模,也是需要解决的一大问题。
发明内容
技术问题:本发明的目的是要克服现有技术中的不足之处,提供一种基于多空间尺度时空Transformer的交通速度预测方法,以解决因交通系统空间结构复杂、时空依赖关系有严格先后顺序而导致现存的交通数据预测无法精准且快速的预测交通数据的问题。
技术方案:本发明于多空间尺度时空Transformer的交通速度预测方法,利用城市交通速度数据设计预测模型,实现全面且有针对的提取空间特征、精准建模时空依赖特征和预测未来一段时间的交通速度;所述预测模型包括多尺度空间特征提取模块、交通时空特征提取模块和预测模块;包括如下步骤:
步骤1、对获取到的路段传感器速度序列数据进行预处理:包括处理传感器节点数据以及生成样本集合,得到预处理后的速度样本集和路网的带权邻接矩阵;
步骤2、将步骤1处理后的数据输入多尺度空间特征提取模块,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;
步骤3、将步骤2得到的提取过空间结构特征的速度数据经过交通时空特征提取模块进行时空依赖关系的构建,得到具有精准时空依赖的速度数据;
步骤4、将步骤3得到的具有精准时空依赖的速度数据XST输入预测模块进行多步预测,以预测未来一段时间的交通速度;同时使用损失函数训练所述交通速度预测模型,逐步训练优化参数以实现对城市交通速度的准确预测。
所述处理传感器节点数据以及生成样本集合;
所述传感器节点数据是指从道路传感器获取到的一段时间内的平均车速信息,处理传感器节点数据的方法为:将传感器数据每5分钟聚合一次,采用线性插值法填充缺失值,最后将填充完缺失值的传感器数据使用z-score方法归一化,得到交通数据集;所述线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法;所述z-score方法是一个实测值与平均数的差再除以标准差的过程,通过z-score方法能够将不同量级的数据转化为统一量度的z-score分值;
所述生成样本集合的方法为:
定义一个长度为l的滑动窗口,移动步长为1;使该滑动窗口在数据集[x1,…,xT]上滑动,得到所有数据样本的集合H=[X1,…,Xh,…,XT-l+1],其中
Figure BDA0004102681100000021
Figure BDA0004102681100000022
将所有数据样本依次进行特征提取与预测,特征提取与预测的过程一致,均依次经过多尺度空间特征提取模块、交通时空特征提取模块以及预测模块。
所述交通数据集包括速度数据以及由传感器节点之间的距离确定的带权邻接矩阵,所述交通数据集中的速度数据是时间序列数据,表示为
Figure BDA0004102681100000023
其中,/>
Figure BDA0004102681100000024
是N个传感器节点在时间步t的观测值,将观测值表示为交通图G=(V,E,W),其中,V表示传感器节点的集合,|V|=N;E表示边的集合,/>
Figure BDA0004102681100000025
表示交通图G的带权邻接矩阵;其中,邻接矩阵以及边的权重是根据传感器所在位置之间的距离决定的,边的权重矩阵W是根据连通关系构造的邻接矩阵,对于传感器i与传感器j来说,wij=dij;其中,wij表示传感器i与传感器j之间的权重,dij是传感器i与传感器j之间的距离。
步骤2中,所述多尺度空间特征提取模块包括节点特征提取层、区域特征提取层、道路特征提取层、静态路网特征提取层以及融合层;将步骤1得到的速度数据样本分别输入各特征提取层来分别提取节点层面、区域层面和道路层面三个尺度的动态空间结构特征以及静态的路网结构特征;之后将三个尺度的动态特征以及静态的特征数据输入融合层来进行融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少大量无用信息的计算;
多尺度空间特征提取模块的提取过程为:
首先,以速度样本Xh为例,将速度样本Xh先经过一层1×1的卷积层来扩充特征通道数,得到扩充特征通道之后的数据
Figure BDA0004102681100000031
Figure BDA0004102681100000032
其中:Conv表示卷积操作;
Figure BDA0004102681100000033
并行输入传感器节点特征提取层、区域特征提取层、道路特征提取层以及静态特征提取层,分别得到节点层面的特征Snode、区域层面的特征Sarea、道路层面的特征Sroad以及静态的路网结构特征Sstatic;之后将上述特征输入融合层来将三个尺度的动态特征以及静态的特征融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS
XS=Fusion(Snode,Sarea,Sroad,Sstatic)
其中:Fusion表示融合层的融合操作。
所述节点特征提取层,对每个传感器节点都有自己独特的交通特征,不需要去聚合其他传感器节点的特征,所以在节点特征提取层仅对原始的输入特征进行特征提取;
首先,对扩充特征通道数后的速度样本
Figure BDA0004102681100000034
进行层标准化(layer normalization,LN)操作,保证数据中特征的稳定性;
其次,再经过一层前馈神经网络用来提取非线性特征,所述前馈神经网络由两层线性层与一个非线性激活函数组成;
最后,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作,得到传感器节点层面的特征值Snode,提取过程表示如下:
Figure BDA0004102681100000035
其中,LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活,用于学习数据的非线性特征。
所述区域特征提取层包括区域位置嵌入单元、区域多头自注意力单元、前馈神经网络单元;
首先,采用可学习的空间位置嵌入矩阵来学习节点之间的动态位置关系,并将其融入到原始数据中;
其次,将经过位置嵌入后的数据输入区域多头自注意力单元来学习不同方面的特征;
最后再经过前馈神经网络单元以提取更深层的特征;
所述区域位置嵌入单元的嵌入过程为:
使用一个可学习的空间位置嵌入矩阵
Figure BDA0004102681100000041
来学习节点之间的动态位置关系,Rarea初始化为带有权重的邻接矩阵W,得到位置嵌入后的数据/>
Figure BDA0004102681100000042
Figure BDA0004102681100000043
其中,F为一个1×1的卷积层,用于将动态的位置信息融入到输入数据中去;
所述区域多头自注意力单元的特征提取过程为:
在区域多头自注意力单元中使用了
Figure BDA0004102681100000044
个注意力头来学习不同方面的特征,之后将每个注意力头的结果聚合起来;在每个注意力头中,对输入数据
Figure BDA0004102681100000045
进行空间特征提取,其中,/>
Figure BDA0004102681100000046
并行计算,特征提取过程为:
首先,为N个传感器节点序列训练三个潜在子空间,包括查询子空间Qarea、键子空间Karea和值子空间Varea
Figure BDA0004102681100000047
其中,
Figure BDA0004102681100000048
分别是Qarea,Karea,Varea的可学习权重矩阵;
其次,计算节点之间的注意力分数,在计算区域注意力分数时对节点进行了筛选,只计算其区域范围内的注意力分数,筛选过程如下:
Figure BDA0004102681100000049
其中,
Figure BDA00041026811000000410
表示/>
Figure BDA00041026811000000411
在查询子空间中对应的值,/>
Figure BDA00041026811000000412
表示/>
Figure BDA00041026811000000413
在键子空间中对应的值,/>
Figure BDA00041026811000000414
表示矩阵的转置;dk表示Karea的维度,/>
Figure BDA00041026811000000415
用于防止梯度消失以及出现的输入值过大的问题;Bij表示筛选变量,当节点j在节点i的区域范围内时,Bij的值为0,反之置为负无穷:
Figure BDA00041026811000000416
其中Ri表示以节点i为中心,根据给定的距离阈值K所确定的区域范围内所有其他节点的集合;
再次,将得到的注意力分数用激活函数softmax将注意力分数映射到[0,1]范围内,以确保它们在整个序列中总和为1,之后与对应的值子空间相乘相加,得到提取过区域特征的数据Marea
Figure BDA00041026811000000417
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过区域空间特征的数据M′area
Figure BDA0004102681100000051
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过区域空间特征的数据Sarea
Sarea=LN(Linear(ReLU(Linear(M′area)))+M′area)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
所述道路特征提取层,先将输入数据
Figure BDA0004102681100000052
经过线性映射层,投影出不同于区域提取层的三个子空间,包括查询子空间Qroad、键子空间Kroad和值子空间Vroad
Figure BDA0004102681100000053
其中:
Figure BDA0004102681100000054
分别是Qroad,Kroad,Vroad的可学习权重矩阵;
其次,计算节点之间的相关性分数,使用稀疏自注意力来提取空间特征;由Qroad与Kroad先经过点积计算得到注意力分数集合Sroad
Figure BDA0004102681100000055
其中:(Kroad)T表示矩阵Kroad的转置;在得到的注意力分数集合Sroad中选择最高的几个注意力分数与对应的值子空间相乘,得到提取过道路特征的数据Mroad
Mroad=Ftop-p(Sroad)V
其中,Ftop-p表示筛选函数,用于从Sroad中按数值大小选取top-p个注意力分数保持原值,其他注意力分数均置为0;
然后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过道路空间特征的数据M′road
Figure BDA0004102681100000056
其中:LN表示层标准化操作,用于保证数据稳定性;
最后,再将提取过道路空间特征的数据M′road输入前馈神经网络单元以学习数据的非线性特征;所述前馈神经网络单元由两层线性层与一个非线性激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过道路空间特征的数据Sroad
Sroad=LN(Linear(ReLU(Linear(M′road)))+M′road)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
所述静态空间特征提取层,利用图卷积操作聚集来自相邻节点的信息来提取交通路网的静态特征Sstatic
静态空间特征提取层的提取过程如下:
Figure BDA0004102681100000061
其中,
Figure BDA0004102681100000062
是输入数据,/>
Figure BDA0004102681100000063
是具有附加自连接的邻接矩阵;/>
Figure BDA0004102681100000064
是/>
Figure BDA0004102681100000065
的度矩阵,Wstatic是可训练权重矩阵,σ是激活函数;
所述融合层的融合过程为:
融合层利用门控机制(gating mechanism)来融合多空间尺度的动态特征以及静态的空间特征,先根据要融合的数据计算门g,之后用数据计算门g算出通过加权的方式有选择性的处理输入数据,数据计算门g表示为:
g=sigmoid(fnode(Snode)+farea(Sarea)+froad(Sroad)+fstatic(Sstatic))
其中:fnode、farea、froad和fstatic分别是将Snode、Sarea、Sroad和Sstatic转换为一维向量的线性函数;所述门控机制利用转换门和进位门来分别表示通过转换输入和进位输出产生了多少输出;融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS表示为:
XS=g(Snode)+g(Sarea)+g(Sroad)+(1-g)(Sstatic)。
步骤3中,所述交通时空特征提取模块包括交通时间位置嵌入层、多头自注意力层以及前馈神经网络层;交通时空特征提取模块首先将提取过空间特征的速度数据XS输入交通时间位置嵌入层来学习数据中对应时间的先后位置关系,之后经过多头自注意力层学习数据中的时空特征,最后输入前馈神经网络层学习数据之间非线性的依赖关系;
所述交通时间位置嵌入层的嵌入过程为:
由于绝对位置嵌入的方法会丢失一些位置信息,所以序列注入相对位置信息,并且在之后计算注意力分数时加入一个可训练的表示相对位置的参数;
提取过空间特征的速度数据
Figure BDA0004102681100000071
的数据长度为l,它们之间共存在2l-1种相对位置关系,相对位置关系表RPR表示为:
RPR=[-l+1,…,-2,-1,0,1,2,…,l-1];
其中,
Figure BDA0004102681100000072
与/>
Figure BDA0004102681100000073
之间的相对位置关系为aij=j-i∈RPR;之后为2l-1种相对位置关系分别生成对应的权重矩阵,其中aij对应的权重向量为Wi-j;由于交通数据是有高度时间流动性的数据,未来的时间不会影响到之前时间步的数据走向,所以将RPR中表示未来的值的权重向量置为0,即Wi-j=0,i-j<0;
所述多头自注意力层的特征提取过程为:
在多头自注意力层中使用了
Figure BDA0004102681100000074
个注意力头来学习不同方面的特征,之后将每个注意力头的结果聚合起来;在每个注意力头中,对输入数据XS进行时空特征提取,时空特征提取过程为:
首先,为
Figure BDA00041026811000000714
训练查询子空间QT、键子空间KT和值子空间VT
Figure BDA0004102681100000075
Figure BDA0004102681100000076
其中,/>
Figure BDA0004102681100000077
分别是QT,KT,VT的可学习权重矩阵;
其次,计算节点之间的依赖关系,由
Figure BDA0004102681100000078
经过点积计算得到:
Figure BDA0004102681100000079
其中,
Figure BDA00041026811000000710
表示矩阵/>
Figure BDA00041026811000000711
的转置;dk表示KT的维度,/>
Figure BDA00041026811000000712
用于防止梯度消失以及出现的输入值过大的问题;Wi-j是表示序列之间相对位置的权重矩阵;
再次,与对应的值子空间相乘,得到提取过时间依赖关系的数据MT
MT=STVT
其中,ST包含
Figure BDA00041026811000000713
表示序列中所有时间步之间的注意力分数;
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过时间依赖特征之后的数据M′T
M′T=LN(XS+MT)
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非线性激活函数组成,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到具有精准时间依赖的交通速度数据XST
XST=LN(Linear(ReLU(Linear(M′T)))+M′T)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
步骤4中,所述的预测模块由两个经典卷积层组成,第一个卷积层用来将时间步维度降维,第二个卷积层是对特征维度进行降维;最终得到未来Tτ个时间步的交通数据,Tτ表示预测未来时间步的个数;得到预测数据Y:
Figure BDA0004102681100000081
其中:Conv表示卷积操作;
预测后,采用Huber损失函数来进行调优:
Figure BDA0004102681100000082
其中,Huber损失函数是一个用于回归问题的带参损失函数,δ表示调节鲁棒性的参数,当预测偏差小于δ时,采用平方误差;当预测偏差大于δ时,采用线性误差;
Figure BDA0004102681100000083
表示预测值,Y表示真实值。
有益效果,由于采用了上述技术方案,本发明利用多尺度空间特征提取、交通时空特征提取和预测三个模块;在多尺度空间特征提取模块中,分别从节点层面、道路层面和区域层面三个尺度来提取交通动态的空间结构特征。其中,对于道路层面和区域层面的提取,分别设计了相应的筛选器来有针对的建模空间结构。另外,在道路层面和区域层面模块中使用了图卷积神经网络来提取静态的路网特征。最后在本模块中设计了融合层来将各个尺度的空间特征融合。在交通时空特征提取模块中,将速度数据的相对位置信息以及由于交通特有的周期性所带来的相对权重信息考虑在内,以在提取时空依赖时选择利用更有价值的历史数据。预测模块对提取过时空特征的数据进行多步预测,以预测未来指定时间步的交通速度。相比其他交通数据预测模型,本发明具备明显的优势,不仅解决了因交通系统空间结构复杂、时空依赖关系有严格先后顺序而导致现存的交通速度预测方法无法精准且快速的预测交通速度的问题,而且具备以下优点:
多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少了大量无用计算;另外,交通时空特征提取模块根据交通特性以及数据的相对位置信息选择更有价值的历史数据以进行充分的时空特征提取,解决了提取时空依赖时存在的丢失相对位置信息的问题。
附图说明
图1为本发明基于多空间尺度时空Transformer的交通速度预测方法的流程图。
图2为本发明基于多空间尺度时空Transformer的交通速度预测方法的结构图。
具体实施方式
下面结合附图对本发明的实施例作进一步的描述:
本发明的一种基于多空间尺度时空Transformer的交通速度预测方法,利用城市交通速度数据设计预测模型,实现全面且有针对的提取空间特征、精准建模时空依赖特征和预测未来一段时间的交通速度;所述预测模型包括多尺度空间特征提取模块(Multi-scale spatial feature extraction,MCS)、交通时空特征提取模块(Traffic TimeWise,TTW)和预测模块;包括如下步骤:
步骤1、首先,对获取到的路段传感器速度序列数据进行预处理:包括处理传感器节点数据以及生成样本集合,得到预处理后的速度样本集和路网的带权邻接矩阵;
步骤1中,所述处理传感器节点数据以及生成样本集合;
所述传感器节点数据是指从道路传感器获取到的一段时间内的平均车速信息,处理传感器节点数据的方法为:将传感器数据每5分钟聚合一次,采用线性插值法填充缺失值,最后将填充完缺失值的传感器数据使用z-score方法归一化,得到交通数据集;所述线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法;所述z-score方法是一个实测值与平均数的差再除以标准差的过程,通过z-score方法能够将不同量级的数据转化为统一量度的z-score分值;
所述生成样本集合的方法为:
定义一个长度为l的滑动窗口,移动步长为1;使该滑动窗口在数据集[x1,...,xT]上滑动,得到所有数据样本的集合H=[X1,...,Xh,...,XT-l+1],其中
Figure BDA0004102681100000091
Figure BDA0004102681100000092
将所有数据样本依次进行特征提取与预测,特征提取与预测的过程一致,均依次经过多尺度空间特征提取模块、交通时空特征提取模块以及预测模块。
所述交通数据集包括速度数据以及由传感器节点之间的距离确定的带权邻接矩阵,所述交通数据集中的速度数据是时间序列数据,表示为
Figure BDA0004102681100000093
其中,/>
Figure BDA0004102681100000094
是N个传感器节点在时间步t的观测值,将观测值表示为交通图G=(V,E,W),其中,V表示传感器节点的集合,|V|=N;E表示边的集合,/>
Figure BDA0004102681100000095
表示交通图G的带权邻接矩阵;其中,邻接矩阵以及边的权重是根据传感器所在位置之间的距离决定的,边的权重矩阵W是根据连通关系构造的邻接矩阵,对于传感器i与传感器j来说,wij=dij;其中,wij表示传感器i与传感器j之间的权重,dij是传感器i与传感器j之间的距离。
步骤2、将步骤1处理后的数据输入多尺度空间特征提取模块,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;
步骤2中,所述多尺度空间特征提取模块包括节点特征提取层、区域特征提取层、道路特征提取层、静态路网特征提取层以及融合层;将步骤1得到的速度数据样本分别输入各特征提取层来分别提取节点层面、区域层面和道路层面三个尺度的动态空间结构特征以及静态的路网结构特征;之后将三个尺度的动态特征以及静态的特征数据输入融合层来进行融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少大量无用信息的计算;
多尺度空间特征提取模块的提取过程为:
首先,以速度样本Xh为例,将速度样本Xh先经过一层1×1的卷积层来扩充特征通道数,得到扩充特征通道之后的数据
Figure BDA0004102681100000101
Figure BDA0004102681100000102
其中:Conv表示卷积操作;
Figure BDA0004102681100000103
并行输入传感器节点特征提取层、区域特征提取层、道路特征提取层以及静态特征提取层,分别得到节点层面的特征Snode、区域层面的特征Sarea、道路层面的特征Sroad以及静态的路网结构特征Sstatic;之后将上述特征输入融合层来将三个尺度的动态特征以及静态的特征融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS
XS=Fusion(Snode,Sarea,Sroad,Sstatic)
其中:Fusion表示融合层的融合操作。
所述节点特征提取层,对每个传感器节点都有自己独特的交通特征,不需要去聚合其他传感器节点的特征,所以在节点特征提取层仅对原始的输入特征进行特征提取;
首先,对扩充特征通道数后的速度样本
Figure BDA0004102681100000104
进行层标准化(layer normalization,LN)操作,保证数据中特征的稳定性;
其次,再经过一层前馈神经网络用来提取非线性特征,所述前馈神经网络由两层线性层与一个非线性激活函数组成;
最后,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作,得到传感器节点层面的特征值Snode,提取过程表示如下:
Figure BDA0004102681100000105
其中,LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活,用于学习数据的非线性特征。
所述区域特征提取层包括区域位置嵌入单元、区域多头自注意力单元、前馈神经网络单元;
首先,采用可学习的空间位置嵌入矩阵来学习节点之间的动态位置关系,并将其融入到原始数据中;
其次,将经过位置嵌入后的数据输入区域多头自注意力单元来学习不同方面的特征;
最后再经过前馈神经网络单元以提取更深层的特征;
所述区域位置嵌入单元的嵌入过程为:
使用一个可学习的空间位置嵌入矩阵
Figure BDA0004102681100000111
来学习节点之间的动态位置关系,Rarea初始化为带有权重的邻接矩阵W,得到位置嵌入后的数据/>
Figure BDA0004102681100000112
Figure BDA0004102681100000113
其中,F为一个1×1的卷积层,用于将动态的位置信息融入到输入数据中去;
所述区域多头自注意力单元的特征提取过程为:
在区域多头自注意力单元中使用了
Figure BDA0004102681100000114
个注意力头来学习不同方面的特征,之后将每个注意力头的结果聚合起来;在每个注意力头中,对输入数据
Figure BDA0004102681100000115
进行空间特征提取,其中,/>
Figure BDA0004102681100000116
并行计算,特征提取过程为:
首先,为N个传感器节点序列训练三个潜在子空间,包括查询子空间Qarea、键子空间Karea和值子空间Varea
Figure BDA0004102681100000117
其中,
Figure BDA0004102681100000118
分别是Qarea,Karea,Varea的可学习权重矩阵;
其次,计算节点之间的注意力分数,在计算区域注意力分数时对节点进行了筛选,只计算其区域范围内的注意力分数,筛选过程如下:
Figure BDA0004102681100000119
其中,
Figure BDA00041026811000001110
表示/>
Figure BDA00041026811000001116
在查询子空间中对应的值,/>
Figure BDA00041026811000001111
表示/>
Figure BDA00041026811000001112
在键子空间中对应的值,/>
Figure BDA00041026811000001113
表示矩阵的转置;dk表示Karea的维度,/>
Figure BDA00041026811000001114
用于防止梯度消失以及出现的输入值过大的问题;Bij表示筛选变量,当节点j在节点i的区域范围内时,Bij的值为0,反之置为负无穷:
Figure BDA00041026811000001115
其中Ri表示以节点i为中心,根据给定的距离阈值K所确定的区域范围内所有其他节点的集合;
再次,将得到的注意力分数用激活函数softmax将注意力分数映射到[0,1]范围内,以确保它们在整个序列中总和为1,之后与对应的值子空间相乘相加,得到提取过区域特征的数据Marea
Figure BDA0004102681100000121
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过区域空间特征的数据M′area
Figure BDA0004102681100000122
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过区域空间特征的数据Sarea
Sarea=LN(Linear(ReLU(Linear(M′area)))+M′area)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
所述道路特征提取层,先将输入数据
Figure BDA0004102681100000123
经过线性映射层,投影出不同于区域提取层的三个子空间,包括查询子空间Qroad、键子空间Kroad和值子空间Vroad
Figure BDA0004102681100000124
其中:
Figure BDA0004102681100000125
分别是Qroad,Kroad,Vroad的可学习权重矩阵;/>
其次,计算节点之间的相关性分数,使用稀疏自注意力来提取空间特征;由Qroad与Kroad先经过点积计算得到注意力分数集合Sroad
Figure BDA0004102681100000126
其中:(Kroad)T表示矩阵Kroad的转置;在得到的注意力分数集合Sroad中选择最高的几个注意力分数与对应的值子空间相乘,得到提取过道路特征的数据Mroad
Mroad=Ftop-p(Sroad)V
其中,Ftop-p表示筛选函数,用于从Sroad中按数值大小选取top-p个注意力分数保持原值,其他注意力分数均置为0;
然后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过道路空间特征的数据M′road
Figure BDA0004102681100000127
其中:LN表示层标准化操作,用于保证数据稳定性;
最后,再将提取过道路空间特征的数据M′road输入前馈神经网络单元以学习数据的非线性特征;所述前馈神经网络单元由两层线性层与一个非线性激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过道路空间特征的数据Sroad
Sroad=LN(Linear(ReLU(Linear(M′road)))+M′road)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
所述静态空间特征提取层,利用图卷积操作聚集来自相邻节点的信息来提取交通路网的静态特征Sstatic
静态空间特征提取层的提取过程如下:
Figure BDA0004102681100000131
其中,
Figure BDA0004102681100000132
是输入数据,/>
Figure BDA0004102681100000133
是具有附加自连接的邻接矩阵;/>
Figure BDA0004102681100000134
是/>
Figure BDA0004102681100000135
的度矩阵,Wstatic是可训练权重矩阵,σ是激活函数;
所述融合层的融合过程为:
融合层利用门控机制(gating mechanism)来融合多空间尺度的动态特征以及静态的空间特征,先根据要融合的数据计算门g,之后用数据计算门g算出通过加权的方式有选择性的处理输入数据,数据计算门g表示为:
g=sigmoid(fnode(Snode)+farea(Sarea)+froad(Sroad)+fstatic(Sstatic))
其中:fnode、farea、froad和fstatic分别是将Snode、Sarea、Sroad和Sstatic转换为一维向量的线性函数;所述门控机制利用转换门和进位门来分别表示通过转换输入和进位输出产生了多少输出;融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS表示为:
XS=g(Snode)+g(Sarea)+g(Sroad)+(1-g)(Sstatic)。
步骤3、将步骤2得到的提取过空间结构特征的速度数据经过交通时空特征提取模块进行时空依赖关系的构建,得到具有精准时空依赖的速度数据;
步骤3中,所述交通时空特征提取模块包括交通时间位置嵌入层、多头自注意力层以及前馈神经网络层;交通时空特征提取模块首先将提取过空间特征的速度数据XS输入交通时间位置嵌入层来学习数据中对应时间的先后位置关系,之后经过多头自注意力层学习数据中的时空特征,最后输入前馈神经网络层学习数据之间非线性的依赖关系;
所述交通时间位置嵌入层的嵌入过程为:
由于绝对位置嵌入的方法会丢失一些位置信息,所以序列注入相对位置信息,并且在之后计算注意力分数时加入一个可训练的表示相对位置的参数;
提取过空间特征的速度数据
Figure BDA0004102681100000141
的数据长度为l,它们之间共存在2l-1种相对位置关系,相对位置关系表RPR表示为:
RPR=[-l+1,…,-2,-1,0,1,2,…,l-1];
其中,
Figure BDA0004102681100000143
与/>
Figure BDA0004102681100000144
之间的相对位置关系为aij=j-i∈RPR;之后为2l-1种相对位置关系分别生成对应的权重矩阵,其中aij对应的权重向量为Wi-j;由于交通数据是有高度时间流动性的数据,未来的时间不会影响到之前时间步的数据走向,所以将RPR中表示未来的值的权重向量置为0,即Wi-j=0,i-j<0;
所述多头自注意力层的特征提取过程为:
在多头自注意力层中使用了
Figure BDA0004102681100000145
个注意力头来学习不同方面的特征,之后将每个注意力头的结果聚合起来;在每个注意力头中,对输入数据XS进行时空特征提取,时空特征提取过程为:
首先,为
Figure BDA0004102681100000146
训练查询子空间QT、键子空间KT和值子空间VT
Figure BDA0004102681100000147
Figure BDA0004102681100000148
其中,/>
Figure BDA0004102681100000149
分别是QT,KT,VT的可学习权重矩阵;
其次,计算节点之间的依赖关系,由
Figure BDA00041026811000001410
与/>
Figure BDA00041026811000001411
经过点积计算得到:
Figure BDA00041026811000001412
其中,
Figure BDA00041026811000001413
表示矩阵/>
Figure BDA00041026811000001414
的转置;dk表示KT的维度,/>
Figure BDA00041026811000001415
用于防止梯度消失以及出现的输入值过大的问题;Wi-j是表示序列之间相对位置的权重矩阵;
再次,与对应的值子空间相乘,得到提取过时间依赖关系的数据MT
MT=STVT
其中,ST包含
Figure BDA00041026811000001416
表示序列中所有时间步之间的注意力分数;
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过时间依赖特征之后的数据M′T
M′T=LN(XS+MT)
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非线性激活函数组成,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到具有精准时间依赖的交通速度数据XST
XST=LN(Linear(ReLU(Linear(M′T)))+M′T)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
步骤4、将步骤3得到的具有精准时空依赖的速度数据XST输入预测模块进行多步预测,以预测未来一段时间的交通速度;同时使用损失函数训练所述交通速度预测模型,逐步训练优化参数以实现对城市交通速度的准确预测。
步骤4中,所述的预测模块由两个经典卷积层组成,第一个卷积层用来将时间步维度降维,第二个卷积层是对特征维度进行降维;最终得到未来Tτ个时间步的交通数据,Tτ表示预测未来时间步的个数;得到预测数据Y:
Figure BDA0004102681100000151
其中:Conv表示卷积操作;
预测后,采用Huber损失函数来进行调优:
Figure BDA0004102681100000152
其中,Huber损失函数是一个用于回归问题的带参损失函数,δ表示调节鲁棒性的参数,当预测偏差小于δ时,采用平方误差;当预测偏差大于δ时,采用线性误差;
Figure BDA0004102681100000153
表示预测值,Y表示真实值。
基于多空间尺度时空Transformer的交通速度预测方法的应用:在某地的一个高速公路交通数据集PeMSD7(M)上进行验证。这些数据集由Caltrans性能测量系统(PeMS)每30秒实时收集一次,时间范围为某年的5月和6月的工作日,交通速度预测步骤如下:
步骤1、对获取到的路段传感器速度序列数据进行预处理:包括处理传感器节点数据以及生成样本集合,得到预处理后的速度样本集和路网的带权邻接矩阵;
步骤2、将步骤1处理后的数据输入多尺度空间特征提取模块,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;
步骤3、将步骤2得到的提取过空间结构特征的速度数据经过交通时空特征提取模块进行时空依赖关系的构建,得到具有精准时空依赖的速度数据;
步骤4、将步骤3得到的具有精准时空依赖的速度数据输入预测模块进行多步预测,以预测未来一段时间的交通速度;同时使用损失函数训练所述交通速度预测模型,逐步训练优化参数以实现对城市交通速度的准确预测。
步骤5、实验环境及超参数设定:
所依赖的深度学习框架为PyTorch 1.10.0,编程语言为Python 3.6;所有实验均在搭载NVIDIA Tesla P40的计算机上进行,其深度学习加速环境为CUDA 10.2,cuDNN10.2;使用Adam优化器对所提出的模型进行了50个epochs的平均绝对误差损失训练,batchsize为32;初始学习率为0.01,每五个epochs以0.7的速率减少;距离阈值K设置为7000;预测时间步Tτ设置为12。

Claims (10)

1.一种基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:利用城市交通速度数据设计预测模型,实现全面且有针对的提取空间特征、精准建模时空依赖特征和预测未来一段时间的交通速度;所述预测模型包括多尺度空间特征提取模块、交通时空特征提取模块和预测模块;包括如下步骤:
步骤1、对获取到的路段传感器速度序列数据进行预处理:包括处理传感器节点数据以及生成样本集合,得到预处理后的速度样本集和路网的带权邻接矩阵;
步骤2、将步骤1处理后的数据输入多尺度空间特征提取模块,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;
步骤3、将步骤2得到的提取过空间结构特征的速度数据经过交通时空特征提取模块进行时空依赖关系的构建,得到具有精准时空依赖的速度数据;
步骤4、将步骤3得到的具有精准时空依赖的速度数据XST输入预测模块进行多步预测,以预测未来一段时间的交通速度;同时使用损失函数训练所述交通速度预测模型,逐步训练优化参数以实现对城市交通速度的准确预测。
2.根据权利要求1所述的基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:步骤1中,所述处理传感器节点数据以及生成样本集合;
所述传感器节点数据是指从道路传感器获取到的一段时间内的平均车速信息,处理传感器节点数据的方法为:将传感器数据每5分钟聚合一次,采用线性插值法填充缺失值,最后将填充完缺失值的传感器数据使用z-score方法归一化,得到交通数据集;所述线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法;所述z-score方法是一个实测值与平均数的差再除以标准差的过程,通过z-score方法能够将不同量级的数据转化为统一量度的z-score分值;
所述生成样本集合的方法为:
定义一个长度为l的滑动窗口,移动步长为1;使该滑动窗口在数据集[x1,...,xT]上滑动,得到所有数据样本的集合H=[X1,...,Xh,...,XT-l+1],其中
Figure FDA0004102681090000011
Figure FDA0004102681090000012
将所有数据样本依次进行特征提取与预测,特征提取与预测的过程一致,均依次经过多尺度空间特征提取模块、交通时空特征提取模块以及预测模块。
3.根据权利要求2所述的基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:所述交通数据集包括速度数据以及由传感器节点之间的距离确定的带权邻接矩阵,所述交通数据集中的速度数据是时间序列数据,表示为
Figure FDA0004102681090000013
其中,/>
Figure FDA0004102681090000014
是N个传感器节点在时间步t的观测值,将观测值表示为交通图G=(V,E,W),其中,V表示传感器节点的集合,|V|=N;E表示边的集合,/>
Figure FDA0004102681090000021
表示交通图G的带权邻接矩阵;其中,邻接矩阵以及边的权重是根据传感器所在位置之间的距离决定的,边的权重矩阵W是根据连通关系构造的邻接矩阵,对于传感器i与传感器j来说,wij=dij;其中,wij表示传感器i与传感器j之间的权重,dij是传感器i与传感器j之间的距离。
4.根据权利要求1所述的基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:
步骤2中,所述多尺度空间特征提取模块包括节点特征提取层、区域特征提取层、道路特征提取层、静态路网特征提取层以及融合层;将步骤1得到的速度数据样本分别输入各特征提取层来分别提取节点层面、区域层面和道路层面三个尺度的动态空间结构特征以及静态的路网结构特征;之后将三个尺度的动态特征以及静态的特征数据输入融合层来进行融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少大量无用信息的计算;
多尺度空间特征提取模块的提取过程为:
首先,以速度样本Xh为例,将速度样本Xh先经过一层1×1的卷积层来扩充特征通道数,得到扩充特征通道之后的数据
Figure FDA0004102681090000022
Figure FDA0004102681090000023
其中:Conv表示卷积操作;
Figure FDA0004102681090000024
并行输入传感器节点特征提取层、区域特征提取层、道路特征提取层以及静态特征提取层,分别得到节点层面的特征Snode、区域层面的特征Sarea、道路层面的特征Sroad以及静态的路网结构特征Sstatic;之后将上述特征输入融合层来将三个尺度的动态特征以及静态的特征融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS
XS=Fusion(Snode,Sarea,Sroad,Sstatic)
其中:Fusion表示融合层的融合操作。
5.根据权利要求4所述的一种基于多空间尺度时空Transformer的交通速度预测方法,特征在于:所述节点特征提取层,对每个传感器节点都有自己独特的交通特征,不需要去聚合其他传感器节点的特征,所以在节点特征提取层仅对原始的输入特征进行特征提取;
首先,对扩充特征通道数后的速度样本
Figure FDA0004102681090000025
进行层标准化(layer normalization,LN)操作,保证数据中特征的稳定性;
其次,再经过一层前馈神经网络用来提取非线性特征,所述前馈神经网络由两层线性层与一个非线性激活函数组成;
最后,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作,得到传感器节点层面的特征值Snode,提取过程表示如下:
Figure FDA0004102681090000031
其中,LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活,用于学习数据的非线性特征。
6.根据权利要求4所述的基于多空间尺度时空Transformer的交通速度预测方法,特征在于:
所述区域特征提取层包括区域位置嵌入单元、区域多头自注意力单元、前馈神经网络单元;
首先,采用可学习的空间位置嵌入矩阵来学习节点之间的动态位置关系,并将其融入到原始数据中;
其次,将经过位置嵌入后的数据输入区域多头自注意力单元来学习不同方面的特征;
最后再经过前馈神经网络单元以提取更深层的特征;
所述区域位置嵌入单元的嵌入过程为:
使用一个可学习的空间位置嵌入矩阵
Figure FDA0004102681090000032
来学习节点之间的动态位置关系,Rarea初始化为带有权重的邻接矩阵W,得到位置嵌入后的数据/>
Figure FDA0004102681090000033
Figure FDA0004102681090000034
其中,F为一个1×1的卷积层,用于将动态的位置信息融入到输入数据中去;
所述区域多头自注意力单元的特征提取过程为:
在区域多头自注意力单元中使用了
Figure FDA0004102681090000035
个注意力头来学习不同方面的特征,之后将每个注意力头的结果聚合起来;在每个注意力头中,对输入数据
Figure FDA0004102681090000036
进行空间特征提取,其中,/>
Figure FDA0004102681090000037
并行计算,特征提取过程为:
首先,为N个传感器节点序列训练三个潜在子空间,包括查询子空间Qarea、键子空间Karea和值子空间Varea
Figure FDA0004102681090000038
其中,
Figure FDA0004102681090000039
分别是Qarea,Karea,Varea的可学习权重矩阵;
其次,计算节点之间的注意力分数,在计算区域注意力分数时对节点进行了筛选,只计算其区域范围内的注意力分数,筛选过程如下:
Figure FDA0004102681090000041
其中,
Figure FDA0004102681090000042
表示/>
Figure FDA0004102681090000043
在查询子空间中对应的值,/>
Figure FDA0004102681090000044
表示/>
Figure FDA0004102681090000045
在键子空间中对应的值,/>
Figure FDA0004102681090000046
表示矩阵的转置;dk表示Karea的维度,/>
Figure FDA0004102681090000047
用于防止梯度消失以及出现的输入值过大的问题;Bij表示筛选变量,当节点j在节点i的区域范围内时,Bij的值为0,反之置为负无穷:
Figure FDA0004102681090000048
其中Ri表示以节点i为中心,根据给定的距离阈值K所确定的区域范围内所有其他节点的集合;
再次,将得到的注意力分数用激活函数softmax将注意力分数映射到[0,1]范围内,以确保它们在整个序列中总和为1,之后与对应的值子空间相乘相加,得到提取过区域特征的数据Marea
Figure FDA0004102681090000049
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过区域空间特征的数据M′area
Figure FDA00041026810900000410
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过区域空间特征的数据Sarea
Sarea=LN(Linear(ReLU(Linear(M′area)))+M′area)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
7.根据权利要求4所述的一种基于多空间尺度时空Transformer的交通速度预测方法,特征在于:所述道路特征提取层,先将输入数据
Figure FDA00041026810900000411
经过线性映射层,投影出不同于区域提取层的三个子空间,包括查询子空间Qroad、键子空间Kroad和值子空间Vroad
Figure FDA00041026810900000412
其中:
Figure FDA00041026810900000413
分别是Qroad,Kroad,Vroad的可学习权重矩阵;
其次,计算节点之间的相关性分数,使用稀疏自注意力来提取空间特征;由Qroad与Kroad先经过点积计算得到注意力分数集合Sroad
Figure FDA0004102681090000051
其中:(Kroad)T表示矩阵Kroad的转置;在得到的注意力分数集合Sroad中选择最高的几个注意力分数与对应的值子空间相乘,得到提取过道路特征的数据Mroad
Mroad=Ftop-p(Sroad)V
其中,Ftop-p表示筛选函数,用于从Sroad中按数值大小选取top-p个注意力分数保持原值,其他注意力分数均置为0;
然后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过道路空间特征的数据M′road
Figure FDA0004102681090000052
其中:LN表示层标准化操作,用于保证数据稳定性;
最后,再将提取过道路空间特征的数据M′road输入前馈神经网络单元以学习数据的非线性特征;所述前馈神经网络单元由两层线性层与一个非线性激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过道路空间特征的数据Sroad
Sroad=LN(Linear(ReLU(Linear(M′road)))+M′road)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
8.根据权利要求4所述的一种基于多空间尺度时空Transformer的交通速度预测方法,特征在于:所述静态空间特征提取层,利用图卷积操作聚集来自相邻节点的信息来提取交通路网的静态特征Sstatic
静态空间特征提取层的提取过程如下:
Figure FDA0004102681090000053
其中,
Figure FDA0004102681090000054
是输入数据,/>
Figure FDA0004102681090000055
是具有附加自连接的邻接矩阵;/>
Figure FDA0004102681090000056
是/>
Figure FDA0004102681090000057
的度矩阵,Wstatic是可训练权重矩阵,σ是激活函数;
所述融合层的融合过程为:
融合层利用门控机制(gating mechanism)来融合多空间尺度的动态特征以及静态的空间特征,先根据要融合的数据计算门g,之后用数据计算门g算出通过加权的方式有选择性的处理输入数据,数据计算门g表示为:
g=sigmoid(fnode(Snode)+farea(Sarea)+froad(Sroad)+fstatic(Sstatic))
其中:fnode、farea、froad和fstatic分别是将Snode、Sarea、Sroad和Sstatic转换为一维向量的线性函数;所述门控机制利用转换门和进位门来分别表示通过转换输入和进位输出产生了多少输出;融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS表示为:
XS=g(Snode)+g(Sarea)+g(Sroad)+(1-g)(Sstatic)。
9.根据权利要求1所述的基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:
步骤3中,所述交通时空特征提取模块包括交通时间位置嵌入层、多头自注意力层以及前馈神经网络层;交通时空特征提取模块首先将提取过空间特征的速度数据XS输入交通时间位置嵌入层来学习数据中对应时间的先后位置关系,之后经过多头自注意力层学习数据中的时空特征,最后输入前馈神经网络层学习数据之间非线性的依赖关系;
所述交通时间位置嵌入层的嵌入过程为:
由于绝对位置嵌入的方法会丢失一些位置信息,所以序列注入相对位置信息,并且在之后计算注意力分数时加入一个可训练的表示相对位置的参数;
提取过空间特征的速度数据
Figure FDA0004102681090000061
的数据长度为l,它们之间共存在2l-1种相对位置关系,相对位置关系表RPR表示为:
RPR=[-l+1,…,-2,-1,0,1,2,…,l-1];
其中,
Figure FDA0004102681090000062
与/>
Figure FDA0004102681090000063
之间的相对位置关系为aij=j-i∈RPR;之后为2l-1种相对位置关系分别生成对应的权重矩阵,其中aij对应的权重向量为Wi-j;由于交通数据是有高度时间流动性的数据,未来的时间不会影响到之前时间步的数据走向,所以将RPR中表示未来的值的权重向量置为0,即Wi-j=0,i-j<0;
所述多头自注意力层的特征提取过程为:
在多头自注意力层中使用了
Figure FDA0004102681090000064
个注意力头来学习不同方面的特征,之后将每个注意力头的结果聚合起来;在每个注意力头中,对输入数据XS进行时空特征提取,时空特征提取过程为:
首先,为
Figure FDA0004102681090000065
训练查询子空间QT、键子空间KT和值子空间VT
Figure FDA0004102681090000066
Figure FDA0004102681090000067
其中,/>
Figure FDA0004102681090000068
分别是QT,KT,VT的可学习权重矩阵;
其次,计算节点之间的依赖关系,由
Figure FDA0004102681090000071
与/>
Figure FDA0004102681090000072
经过点积计算得到:
Figure FDA0004102681090000073
其中,
Figure FDA0004102681090000074
表示矩阵/>
Figure FDA0004102681090000075
的转置;dk表示KT的维度,/>
Figure FDA0004102681090000076
用于防止梯度消失以及出现的输入值过大的问题;Wi-j是表示序列之间相对位置的权重矩阵;
再次,与对应的值子空间相乘,得到提取过时间依赖关系的数据MT
MT=STVT
其中,ST包含
Figure FDA0004102681090000077
表示序列中所有时间步之间的注意力分数;
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过时间依赖特征之后的数据M′T
M′T=LN(XS+MT)
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非线性激活函数组成,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到具有精准时间依赖的交通速度数据XST
XST=LN(Linear(ReLU(Linear(M′T)))+M′T)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
10.根据权利要求1所述的基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:
步骤4中,所述的预测模块由两个经典卷积层组成,第一个卷积层用来将时间步维度降维,第二个卷积层是对特征维度进行降维;最终得到未来Tτ个时间步的交通数据,Tτ表示预测未来时间步的个数;得到预测数据Y:
Figure FDA0004102681090000078
其中:Conv表示卷积操作;
预测后,采用Huber损失函数来进行调优:
Figure FDA0004102681090000079
其中,Huber损失函数是一个用于回归问题的带参损失函数,δ表示调节鲁棒性的参数,当预测偏差小于δ时,采用平方误差;当预测偏差大于δ时,采用线性误差;
Figure FDA0004102681090000081
表示预测值,Y表示真实值。
CN202310182427.7A 2023-03-01 2023-03-01 一种基于多空间尺度时空Transformer的交通速度预测方法 Pending CN116311921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310182427.7A CN116311921A (zh) 2023-03-01 2023-03-01 一种基于多空间尺度时空Transformer的交通速度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310182427.7A CN116311921A (zh) 2023-03-01 2023-03-01 一种基于多空间尺度时空Transformer的交通速度预测方法

Publications (1)

Publication Number Publication Date
CN116311921A true CN116311921A (zh) 2023-06-23

Family

ID=86831793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310182427.7A Pending CN116311921A (zh) 2023-03-01 2023-03-01 一种基于多空间尺度时空Transformer的交通速度预测方法

Country Status (1)

Country Link
CN (1) CN116311921A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597657A (zh) * 2023-07-17 2023-08-15 四川省商投信息技术有限责任公司 基于人工智能的城市交通预测方法、设备及介质
CN117456736A (zh) * 2023-12-22 2024-01-26 湘江实验室 基于多尺度时空动态交互网络的交通流量预测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597657A (zh) * 2023-07-17 2023-08-15 四川省商投信息技术有限责任公司 基于人工智能的城市交通预测方法、设备及介质
CN117456736A (zh) * 2023-12-22 2024-01-26 湘江实验室 基于多尺度时空动态交互网络的交通流量预测方法
CN117456736B (zh) * 2023-12-22 2024-03-12 湘江实验室 基于多尺度时空动态交互网络的交通流量预测方法

Similar Documents

Publication Publication Date Title
CN110070713B (zh) 一种基于双向嵌套lstm神经网络的交通流预测方法
CN111612243B (zh) 交通速度预测方法、系统及存储介质
CN116311921A (zh) 一种基于多空间尺度时空Transformer的交通速度预测方法
CN111292525B (zh) 基于神经网络的交通流预测方法
CN113487061A (zh) 一种基于图卷积-Informer模型的长时序交通流量预测方法
CN111126680A (zh) 一种基于时间卷积神经网络的道路断面交通流量预测方法
Yu et al. A special event-based K-nearest neighbor model for short-term traffic state prediction
CN112289034A (zh) 基于多模态时空数据的深度神经网络鲁棒交通预测方法
Lin et al. A spatial-temporal hybrid model for short-term traffic prediction
CN110083125B (zh) 一种基于深度学习的机床热误差建模方法
CN111862592B (zh) 一种基于rgcn的交通流预测方法
CN109492817A (zh) 一种封闭区域内未来泊位需求数量短时预测方法
CN107704970A (zh) 一种基于Spark的需求侧负荷预测方法
CN112634608B (zh) 一种区域交通流量预测方法及系统
CN114495507B (zh) 融合时空注意力神经网络和交通模型的交通流预测方法
CN112966871A (zh) 基于卷积长短期记忆神经网络的交通拥堵预测方法及系统
CN116681176B (zh) 一种基于聚类和异构图神经网络的交通流预测方法
CN113554466A (zh) 一种短期用电量预测模型构建方法、预测方法和装置
Kang et al. Urban traffic travel time short-term prediction model based on spatio-temporal feature extraction
CN116307152A (zh) 时空交互式动态图注意力网络的交通预测方法
CN114596726B (zh) 基于可解释时空注意力机制的停车泊位预测方法
CN108053646B (zh) 基于时间敏感特征的交通特征获取方法、预测方法及系统
Yu et al. A novel discussion on two long-term forecast mechanisms for hydro-meteorological signals using hybrid wavelet-NN model
CN115482666B (zh) 基于数据融合的多图卷积神经网络交通预测方法
CN116797274A (zh) 一种基于Attention-LSTM-LightGBM的共享单车需求量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination