CN112801404A

CN112801404A - 一种基于自适应空间自注意力图卷积的交通预测方法

Info

Publication number: CN112801404A
Application number: CN202110186065.XA
Authority: CN
Inventors: 张勇; 林锋; 胡永利; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-14
Filing date: 2021-02-14
Publication date: 2021-05-14
Anticipated expiration: 2041-02-14
Also published as: CN112801404B

Abstract

一种基于自适应空间自注意力图卷积的交通预测方法属于交通领域和深度学习领域，提出一种自适应空间自注意力图卷积网络(ASSAGCN)用于交通预测。ASSAGCN的由2个残差块堆叠而成。每个残差块由一个图卷积模块(GCN)、一个多头空间自注意力模块(MHSSA)、一个门控融合模块(GF)和一个多感受野空洞因果卷积模块(MRDCC)构成。其中GCN基于连通性对路网的局部空间相关性进行建模；MHSSA用于捕获路网的隐含空间相关性，同时还能从全局聚合各个节点的信息；GF对GCN和MHSSA的输出进行融合；MRDCC用于建模时间相关性。输入层采用一个简单的全连接层将输入映射到一个高维空间提高模型的表达能力，输出层采用2个1×1的卷积层。本发明能够捕获到路网中潜在的空间相关性，适应路网结构的动态变化。

Description

一种基于自适应空间自注意力图卷积的交通预测方法

技术领域

本发明属于交通领域和深度学习领域，具体涉及交通状况预测。

背景技术

随着智能交通系统的快速发展，城市交通预测越来越受到人们的关注。准确、及时的交通预测，有助于出行者合理地规划出行路线，也有助于缓解交通拥堵，提高交通运行效率，对城市交通规划、交通管理和交通控制具有重要意义。然而，由于交通数据表现出复杂的时空相关性，交通预测问题一直是交通领域中一个具有挑战性的研究课题。

作为一种典型的时空预测问题，交通预测已经被研究了几十年。早期的交通预测方法主要是基于统计模型或简单的机器学习模型。统计模型中最具代表性的方法是自回归综合移动平均法(ARIMA)、向量自回归法(VAR)和卡尔曼滤波(KF)，这些方法依赖于序列数据的平稳假设，然而在现实中这种假设往往是不成立的。此外，这些方法忽略了路网的空间相关性，因此预测精度较低。机器学习模型中最具代表性的方法包括K最近邻法(KNN)和支持向量回归(SVR)，这些方法的预测性能很大程度上依赖于特征工程，而且没有考虑交通数据的空间相关性，不能充分挖掘大量交通数据之间复杂的时空模式，极大地限制了它们的性能。

近年来，深度学习在许多具有挑战性的学习任务中取得了突破性进展，受到这些工作的启发，越来越多的研究者将深度学习应用于交通预测中。Yu等人使用深度信念网络(DBN)进行短期交通速度预测；Jia等人提出了一种DBN与多层感知器(MLP)结合的速度预测模型；Lv等人采用堆叠自动编码器(SAE)提取交通特征，用于交通流预测。循环神经网络(RNN)及其变体(LSTM,GRU)也常被用于时间序列预测问题。Yan等人使用长短期记忆网络(LSTM)对66个路段的交通速度进行建模，然后利用该模型预测每个路段的出行时间；Fu等人使用门控循环单元(GRU)来预测短期交通流。然而，这些模型将来自不同道路的交通序列视为独立的数据流，没有利用交通数据中的空间信息，预测精度不高。为了同时捕获到交通数据的时间相关性和空间相关性，研究者们将循环神经网络(RNN)和卷积神经网络(CNN)相结合。Ma等人将交通数据当作图像来处理，利用CNN建模空间相关性，并利用RNN建模时间相关性。Yu等人将CNN与LSTM结合用于交通速度预测。然而，CNN只适合于处理欧式空间中的数据(如图像、视频等)，而交通数据是一种典型的图结构数据，CNN不能有效地对交通路网的复杂拓扑结构进行建模。近几年图卷积神经网络(GCN)已经成为一个越来越活跃的研究领域，GCN将卷积算子从欧式空间的数据推广到图结构数据，在分子特征提取、人体动作识别、文本分类、点云分类等许多领域都取得了显著的效果。考虑到路网的图结构，一些研究者们利用GCN对路网的拓扑结构进行建模。Li等人提出了扩散卷积用于捕获空间相关性，为了同时捕获到时间相关性，他们用扩散卷积代替GRU中的全连接层，并采用机器翻译中的seq2seq结构进行交通速度预测。尽管取得了比较好的预测效果，但是循环神经网络在计算下一时刻的隐含状态时需要用到上一时刻的隐含状态，不便于并行计算，模型训练非常耗时，而且用seq2seq结构进行多步预测在解码阶段采用的是一种step-by-step的方式，这会造成误差积累。为了克服循环神经网络计算速度慢的问题，Yu等人提出了时空图卷积网络(STGCN)，将谱图卷积和1D卷积相结合，利用1D卷积建模时间相关性，虽然提高了计算速度，但普通的1D卷积没有考虑到输入序列时间上的先后顺序，而且采用的是预定义的邻接矩阵，无法对隐含的空间相关性进行建模。最近Wu等人提出了GraphWaveNet，他们采用可学习的邻接矩阵建模隐含的空间相关性，在建模时间相关性方面，他们采用空洞因果卷积，不仅增大了感受野而且考虑了输入时间序列的顺序。尽管取得了比较好的预测效果，但这种可学习的邻接矩阵在模型训练完成后便固定下来了，无法适应路网拓扑结构的动态变化。

尽管图卷积在交通预测任务中取得了显著的效果，但在建模空间相关性方面仍然存在一些值得研究的问题。首先，路网的拓扑结构可能会受到某些因素的影响而发生变化(例如某地举行马拉松、或者道路结冰亦或者是某路段发生交通事故导致这些路段暂时封锁)，而现有的方法无论是基于预定义的邻接矩阵或者是采用可学习的邻接矩阵都无法捕捉到路网结构的动态变化。其次，由于图卷积只能堆叠有限层，因此只能聚合有限范围内的邻居节点信息，而无法建模全局空间相关性。对于大规模的图，仅采用图卷积效果不太理想。

发明内容

考虑到图卷积在空间上感受野有限以及路网中存在潜在的空间相关性，本发明将图卷积和多头空间自注意力机制相结合，提出了一种自适应空间自注意力图卷积网络(ASSAGCN)，不仅能够捕获到路网中潜在的空间相关性，同时还能从全局聚合各个节点的信息，此外，由于自注意力机制中节点的相关性是根据输入数据计算得到的，因此可以很好地适应路网结构的动态变化。

本发明提出一种自适应空间自注意力图卷积网络(ASSAGCN)用于交通预测。ASSAGCN的模型结构如图1所示，它由2个残差块堆叠而成。每个残差块由一个图卷积模块(GCN)、一个多头空间自注意力模块(MHSSA)、一个门控融合模块(GF)和一个多感受野空洞因果卷积模块(MRDCC)构成。其中图卷积模块基于连通性对路网的局部空间相关性进行建模；多头空间自注意力模块用于捕获路网的隐含空间相关性，同时还能从全局聚合各个节点的信息；门控融合模块对GCN和MHSSA的输出进行融合；多感受野空洞因果卷积模块用于建模时间相关性。此外，输入层采用一个简单的全连接层将输入映射到一个高维空间提高模型的表达能力，输出层采用2个1×1的卷积层，其中第1个1×1的卷积层用于对特征维度进行衰减，第2个1×1的卷积层用于对时间序列的长度进行变换，使得模型能够适用于不同时长的交通预测。

本发明所提出方法的具体步骤如下：

1.数据预处理

本发明在PEMSD4和PEMSD8数据集上进行实验。PEMSD4数据集包含了2018年1月1日至2018年2月28日旧金山湾区307个环形检测器的交通数据(包括流量、速度、车道占用率)。PEMSD8数据集包含了2016年7月1日至2016年8月31日圣贝纳迪诺地区170个环形检测器收集的交通数据(包括流量、速度、车道占用率)。原始数据包括两部分，一部分是交通数据，另一部分是各个传感器之间的距离。数据预处理包括切分数据集制作训练、验证和测试样本以及图的构建。

1.1训练、验证和测试样本的制作

为了使训练过程更加稳定首先对原始数据进行归一化处理：

其中m是原始数据X的平均值，σ_x是原始数据X的标准差，X′是归一化后的数据。然后将归一化后的数据按6：2：2的比例切分成3部分。对切分后的3部分分别采用窗口滑动的方式沿着时间维度滑动得到训练集、验证集和测试集，本发明利用一小时的历史交通数据预测未来一小时的交通状况，因此时间窗口的大小取24，前面12个时间步作为输入，后面12个时间步作为标签。

1.2图的构建

图的构建也就是邻接矩阵的构建，原始数据是传感器之间的距离，采用阈值高斯核的方式进行处理得到邻接矩阵A，即：

其中，A_i，j表示邻接矩阵A的第i行第j列的元素，d_i，j表示节点(即传感器)v_i和v_j之间的距离，σ_d表示各节点间距离的标准差，ε是设定的阈值，实验中设置为0.1。

2.ASSAGCN模型构建

基于图卷积的交通预测就是根据历史交通数据和路网的拓扑结构来预测未来的交通状况，它可以用下式来定义：

{X_t+1，X_t+2…X_t+M}＝f(X_t-F+1，X_t-F+2…X_t，A) (3)

其中，X_t+1，X_t+2…X_t+M表示未来交通数据序列，X_t-F+1，X_t-F+2…X_t表示历史交通数据序列，M，F分别表示要预测的未来交通数据序列的长度和输入的历史交通数据序列的长度，t表示当前时刻，A是由公式(2)计算得到的路网的邻接矩阵，f表示交通预测模型。因此，交通预测问题可以描述为：给定历史交通数据序列X_t-F+1，X_t-F+2…X_t和路网的邻接矩阵A，需要找到一个函数f(即交通预测模型)将它们映射为未来交通数据序列X_t+1，X_t+2…X_t+M。交通预测的关键问题是对时空相关性进行建模，本发明提出的自注意力图卷积网络采用3个核心的模块来建模时空相关性，分别是：图卷积模块(GCN)、多头空间自注意力模块(MHSSA)和多感受野空洞因果卷积模块(MRDCC)。其中GCN和MHSSA分别用于建模局部空间相关性和全局空间相关性，MRDCC用于建模时间相关性。

2.1全连接层FC进行特征映射

为了提高表达能力，首先利用全连接层(FC)将归一化后的数据映射到高维空间，

即：

X^FC＝W_IX_I+b_I (4)

其中，X_I表示全连接层的输入，W_I表示全连接层的权重矩阵，b_I表示偏置，W_I和b_I是可学习的参数，是在模型训练时中通过最小化化损失函数来迭代更新的，迭代更新方式将在模型训练部分说明。X^FC表示全连接层的输出。

2.2空间相关性建模

现有的基于图卷积的交通预测方法大都只是基于路段的连通性来聚合节点信息。事实上，路网中各路段之间的空间相关性是非常复杂的。一个路段的交通状况不仅受到与其在空间上连通的路段的影响，同时还受其他因素(如功能区)的影响。两个距离很远的路段，即使它们没有通过道路相连通他们的交通状况也可能表现出相似的规律，例如两个距离很远路段如果都在办公区附近，那么它们在工作日的早高峰和晚高峰时段流量都会很大，而在周末流量都很小。因此，本发明从两方面考虑空间相关性：路段之间的连通性(即局部空间相关性)和交通状况模式相似性(即隐含的空间相关性)。利用GCN根据路段之间的连通性从局部来聚合节点信息，利用多头空间自注意力机制根据不同路段交通状况的模式相似性从全局来聚合节点信息。

(1)局部空间相关性

为了捕获局部空间相关性，本发明采用切比雪夫多项式的图卷积聚合邻居节点的信息，在谱理论中，图是用它的归一化拉普拉斯矩阵L来表示的：

其中，I_N是N×N的单位矩阵，N表示节点数，A是由公式(2)计算得到的邻接矩阵。D是度矩阵，它是一个对角矩阵，对角线元素为

A_ij是邻接矩阵A的第i行j列的元素。切比雪夫多项式形式的图卷积定义为：

其中，Θ*_G表示对图G中的信号x进行图卷积操作，

是缩放后的归一化拉普拉斯矩阵，λ_max是L的最大特征值，θ_k(k＝0，1，…K)是切比雪夫多项式的第k项的系数，它是可学习的参数，是在模型训练过程中通过优化损失函数不断迭代更新的，具体迭代更新过程在模型训练部分会详细说明。

的k阶切比雪夫多项式递归的定义为：

采用k阶切比雪夫多项式可以聚合k阶邻居节点的信息。式(6)是对于一维图信号而言的，它也可以推广到多维图信号，首先将式(6)简记为：

其中，

表示式公式(6)中的

那么对于多维图信号的图卷积可定义为：

其中，C_i，C_o分别表示输入通道数和输出通道数，即输入特征维度和输出特征维度，X_i表示第i个输入通道特征，Y_j表示第j个输出通道特征，Θ_ij表示在计算第j个输出通道时对第i个输入通道进行的图卷积操作。

(2)全局空间相关性

为了从全局建模空间相关性，同时考虑到路网结构的动态变化和路网中隐含空间相关性，本发明采用空间自注意力机制来聚合邻居节点的信息。空间自注意力机制的计算步骤如下：

1)对每个节点的特征向量用3个不同的矩阵W^Q，W^K，W^V进行映射，得到3个向量Query，Key，Value，Query和Key的维度为d_k，Value的维度为d_v。其中W^Q，W^K，W^V是可学习的参数矩阵，是在模型训练过程中通过优化损失函数不断迭代更新的，具体迭代更新过程在模型训练会详细介绍。用d表示节点特征向量的维度，则W^Q和W^K的形状为d×d_k，W^V的形状为d×d_v。

2)将每个节点的Query向量与所有节点的Key向量作内积，并经过softmax函数进行归一化得到该节点与所有节点的Attention Score。softmax函数可以将一个向量的各个元素压缩到0-1之间。softmax函数定义如下：

其中，z_i表示向量的第i维，K表示向量的维度。为了使得训练时梯度更加稳定，在进行softmax归一化之前先除以一个缩放因子

避免进入softmax函数梯度较小的区域。其中d_k就是前面提到的Query和Key的维度。

3)根据该节点与所有节点的注意力分数(Attention Score)对各个节点的Value向量进行加权求和。

如果用N×d的矩阵X表示N个节点的特征向量矩阵，那么上述步骤可以简单的表示为矩阵相乘的形式：

Q＝XW^Q (10)

K＝XW^K (11)

V＝XW^V (12)

其中，Q的形状为N×d_k，它表示N个节点的Query向量构成的矩阵；K的形状为N×d_k，它表示N个节点的Key向量构成的矩阵；V的形状为N×d_v，，它表示N个节点的Value向量构成的矩阵。值得注意的是，空间自注意力机制是在空间维度聚合节点信息，对于输入时间序列，不同时间步之间参数是共享的。

为了提高模型的的表达能力，本发明采用多头空间自注意力机制，它能够同时在多个不同的特征子空间聚合信息，不同的子空间表达了不同的隐含空间相关性。多头空间自注意力机制是通过将Query，Key，Value进行n次(n即head的数量，实验时设置为4)线性映射，得到多组不同的子空间表示，然后在每一组上执行注意力机制，然后将它们拼接起来再做一次线性映射得到最终结果，空间多头自注意力机制可以用下式表达：

Multihead＝Concat(h₁，h₂，…，h_n)W^O (15)

其中，h_i表示第i组自注意力机制的输出，n表示head的数量，Multihead表示多头自注意力机制的输出，Concat表示对张量沿着特征维进行拼接操作

是第i组线性映射矩阵，W^O是对拼接后的结果经行映射的矩阵，这些都是可学习的参数，是在模型训练过程中通过优化损失函数不断迭代更新的，具体迭代更新过程后续会详细交代。

空间多头自注意力机制能够根据输入数据中各个节点的特征学习到节点之间的隐含空间相关性，由于节点之间的注意力分数是根据输入动态计算的，因此当路网的拓扑结构发生变化时它也能够捕捉到；另外，由于空间自注意力集中聚合了所有节点的信息，因此它也能够从全局捕获路网的空间相关性。

(3)基于门控机制的局部和全局空间信息融合

本发明采用门控机制融合局部空间信息和全局空间信息，门控机制用于学习两种空间信息的重要程度，然后基于学习到的权重融合这两种信息。门控融合模块GF用下式表示：

其中

表示第l个图卷积模块的输出，

表示第l个多头空间自注意力模块的输出，W₁，W₂是映射矩阵，b是偏置，它们都是可学习的参数，是在模型训练过程中通过优化损失函数不断迭代更新的，更新迭代过程在后续模型训练部分会详细交代。g表示门的输出，σ表示sigmoid激活函数，定义如下：

⊙表示哈达玛乘积，即对应位置元素相乘，H^(l)是两种空间信息融合后的结果。

2.3基于多感受野空洞因果卷积的时间相关性建模

在建模时间相关性这一方面，以往基于深度学习的模型大多采用循环神经网络(RNN)及其变体(LSTM和GRU)，而RNN感受野有限，不能捕获长期的时间相关性，输入序列过长时存在信息遗忘问题；另一方面，由于RNN在计算下一步的隐含状态时需要用到上一步的隐含状态，因此不便于并行计算，模型训练非常耗时，若采用RNN构成的seq2seq模型进行多步预测，则在解码器中必须采用step-by-step的方式，这不仅耗时而且存在误差积累的问题；此外，RNN对时间特征的突变有延迟响应，尤其是早晚高峰。考虑到RNN的这些弊端，本发明采用空洞因果卷积(DCC)建模时间相关性。空洞因果卷积结合了因果卷积和空洞卷积的优点，因果卷积是一种时间维度上的卷积操作，因果卷积可以用图2直观地表示，它保持了输入时间序列的先后顺序，即对于下一层t时刻的值，只依赖于上一层t时刻及其之前时刻的值。

如果仅采用因果卷积捕获时间相关性，那么在建模长期的时间相关性时需要堆叠很多层才能获得较大的感受野，为了解决这一问题，将空洞卷积的思想引入因果卷积中构成图3所示的空洞因果卷积。空洞卷积通过以一定的步长跳过一些值来扩大感受野，与普通的因果卷积相比，它不需要堆叠太多层就能获得比较大的感受野，解决了循环神经网络在输入序列过长时存在的信息遗忘问题，有利于捕获长期的时间相关性。同时也避免了循环神经网络对时间特征的突变的延迟响应问题。

节点i在t时刻第q个通道的输出值y_i，t，q可由下式表示：

其中，w_k，p，q是卷积核中的元素，x_{i，t-d(k-1)，p}是输入特征中的元素，d表示扩张率，τ表示卷积核大小，P表示输入通道数。用S表示输出通道数，那么需要S组卷积核，这S组卷积核的参数可表示为一个形状为τ×P×S的张量Wτ^×P×S，它是可学习的参数，是在模型训练过程中通过最小化损失函数不断迭代更新的，迭代更新过程在模型训练部分会详细介绍。值得注意的是，为了保持输入时间序列的长度不变，需要对输入序列两端补0，但是两端补0又会使得输出序列变长，因此在进入下一层之前需要对序列末端进行裁剪；另外，空洞因果卷积是在时间维度上进行的，对于不同的节点卷积核参数是共享的。用形状为N×F×P的张量H表示N个节点F个时间步的特征，*d表示扩张率为d的空洞因果卷积操作，则对H的空洞因果卷积操作记作：

O＝W_*d (20)

其中，O是卷积后的结果。为了进一步扩大感受野，本发明堆叠多层空洞因果卷积，每层的扩张率以指数方式增长，第l层的扩张率为：

d^(l)＝2^l-1 (21)

那么第l层的输出可表示为：

其中，ReLU表示修正线性单元，它是神经网络中常用的一种激活函数，定义如下：

不同的层可以得到不同感受野的输出，浅层可以捕获到短期的时间相关性，深层可以捕获到长期的时间相关性，各层的输出沿着特征维度拼接，然后经过一个1×1的卷积层改变通道数。这样就构成了一种多感受野空洞因果卷积(MRDCC)，MRDCC可以用下式表示：

O＝Conv(Concat(O¹，O²，…，O^c)) (24)

其中，Concat表示沿着特征维度进行拼接，Conv表示1×1的卷积层，O是MRDCC的输出，c表示空洞因果卷积的层数。

2.4训练和验证

训练模型之前首先需要设定好超参数，实验中涉及到的超参数有batchsize、节点数、输入特征维度、输入时间序列长度、输出时间序列长度、切比雪夫多项式的阶数、图卷积模块输入层、隐含层、输出层的维度、多头自注意力模块的输入维度、key和value的维度以及head的数量。batchsize对实验结果影响不大，如果GPU显存不够用可设置小一点，实验中我们设置为64；节点数取决于数据集，例如PEMSD4数据集包含307个传感器的数据应设置为307，PEMSD8数据集包含170个传感器的数据应设置为170；PEMSD4和PEMSD8包含流量、速度、车道占用率3种特征，这里我们进行交通流预测，只用到流量这1种特征，因此输入特征维度设置为1；由于我们利用1小时的历史流量数据预测未来1小时的交通流，因此输入时间序列长度和输出时间序列长度均设置为12；切比雪夫多项式的阶数、图卷积模块输入层、隐含层、输出层的维度、多头自注意力模块的输入维度、key和value的维度以及head的数量都是需要进行多次实验不断调整的，在我们的实验中，经过多次调整，最终确定了一组比较好的参数如下：切比雪夫多项式的阶数取2，图卷积模块输入层、隐含层、输出层的维度分别取为16、64、128，多头自注意力模块的输入维度、key和value的维度、head的数量分别取为16、128、128、4。

损失函数采用L1损失，多步预测的L1损失定义如下：

其中，L1是关于W_θ的函数，W_θ代表模型中全部的可学习参数，包括公式(4)中的W_I和b_I，公式(6)中的θ_k，公式(14)中的

和

公式(16)中的W₁，W₂和b以及空洞因果卷积中S组卷积核参数W^τ×P×s。训练模型的目的就是要不断迭代更新W_θ使L1达到最小，X_：，i和

分别表示时间步i所有节点的标签和预测值。

模型训练和验证过程如下：

1)从训练集中取出一批样本，根据公式(4)计算映射后的特征X^FC

2)根据公式(8)对X^FC进行两层图卷积操作得到

根据公式(14)、(15)对X^FC进行运算得到

然后根据公式(16)、(17)对

和

进行融合得到H⁽¹⁾。

3)根据公式(22)、(24)对融合后的特征H⁽¹⁾进行空洞因果卷积操作得到第1个残差块的输出O⁽¹⁾。

4)根据公式(8)对O⁽¹⁾进行两层图卷积操作得到

根据公式(14)、(15)对O⁽¹⁾进行运算得到

然后根据公式(16)、(17)对

和

进行融合得到H⁽²⁾。

5)根据公式(22)、(24)对融合后的特征H(2)进行空洞因果卷积操作得到第2个残差块的输出O(²)。

6)对空洞因果卷积后的结果O⁽²⁾进行两次1×1的卷积，首先对特征维度进行卷积将特征维数变为1，然后对时间维度进行卷积得到预测结果

。

7)根据公式(25)计算损失，并按以下方式更新模型中所有可学习的参数W_θ：

其中，η表示学习率，实验中取0.001。

表示损失函数L1对可学习参数W_θ求偏导数。8)循环以上步骤1)-7)，直到所有训练样本都取完就完成了一轮训练。

9)一轮训练完成后在验证集上执行步骤1)-6)并根据公式(25)计算验证损失。

10)不断执行上述训练和验证过程，将每轮的验证损失与前一轮相比，如果验证损失连续20次都没有下降就停止训练并保存模型。

附图说明

图1ASSAGCN模型结构

图2因果卷积

图3空洞因果卷积

图4本发明与DCRNN的预测结果对比

具体实施方式

加载训练过程中保存的模型，根据述训练过程中的步骤1)-4)得到预测结果，然后对预测结果进行反归一化：

其中，

是预测结果，σ_x和m分别表示样本标准差和平均值，与式(1)含义相同，

表示反归一化后的结果。然后计算平均绝对误差MAE、均方根误差RMSE和平均绝对百分比误差MAPE这3种性能指标，3种性能指标定义如下：

其中，X_i，

分别表示真实值和预测值中的第i个元素，n表示元素总数。

我们利用1小时的历史数据预测未来1小时的交通流，与STGCN、ASTGCN、DCRNN这3种模型进行了对比，在两个数据集上的实验结果如下表所示：

表1本发明与STGCN、ASTGCN、DCRNN在PEMSD4数据集上的对比

表2本发明与STGCN、ASTGCN、DCRNN在PEMSD8数据集上的对比

从上表可以看到，除了MAPE这一指标在PEMSD8数据集上比DCRNN差，其他指标都比3种对比模型好，为了分析MAPE这一指标比DCRNN差的原因，我们选择一个节点对本发明的预测结果和DCRNN的预测结果进行可视化的对比分析。

从图4中框出的部分可以看到，DCRNN的预测误差大都集中在高峰时段，从MAPE的定义式(30)可以看到，这一指标一种相对误差，由于分母是真实的交通流，而DCRNN的预测误差主要来自高峰时段，这就解释了DCRNN的MAPE比本发明低的原因。尽管DCRNN的MAPE比本发明低，但事实上本发明在高峰时段的预测效果比DCRNN要好。

Claims

1.一种基于自适应空间自注意力图卷积的交通预测方法，其特征在于：

1)数据预处理

原始数据包括两部分，一部分是交通数据，交通数据包括流量；另一部分是各个传感器之间的距离；数据预处理包括切分数据集制作训练、验证和测试样本以及图的构建；

1.1训练、验证和测试样本的制作

为了使训练过程更加稳定首先对原始数据进行归一化处理：

其中m是原始数据X的平均值，σ_x是原始数据X的标准差，X′是归一化后的数据；然后将归一化后的数据按6：2：2的比例切分成3部分；对切分后的3部分分别采用窗口滑动的方式沿着时间维度滑动得到训练集、验证集和测试集，利用一小时的历史交通数据预测未来一小时的交通状况，因此时间窗口的大小取24，前面12个时间步作为输入，后面12个时间步作为标签；

1.2图的构建

其中，A_i,j表示邻接矩阵A的第i行第j列的元素，d_i,j表示节点即传感器v_i和v_j之间的距离，σ_d表示各节点间距离的标准差，ε是设定的阈值，设置为0.1；

2)ASSAGCN模型构建

基于图卷积的交通预测就是根据历史交通数据和路网的拓扑结构来预测未来的交通状况，用下式来定义：

{X_t+1,X_t+2…X_t+M}＝f(X_t-F+1,X_t-F+2…X_t,A) (3)

其中，X_t+1,X_t+2…X_t+M表示未来交通数据序列，X_t-F+1,X_t-F+2…X_t表示历史交通数据序列，M，F分别表示要预测的未来交通数据序列的长度和输入的历史交通数据序列的长度，t表示当前时刻，A是由公式(2)计算得到的路网的邻接矩阵，f表示交通预测模型；因此，交通预测问题描述为：给定历史交通数据序列X_t-F+1,X_t-F+2…X_t和路网的邻接矩阵A，需要找到一个函数f即交通预测模型将它们映射为未来交通数据序列X_t+1,X_t+2…X_t+M；

提出的自注意力图卷积网络采用3个核心的模块来建模时空相关性，分别是：图卷积模块(GCN)、多头空间自注意力模块(MHSSA)和多感受野空洞因果卷积模块(MRDCC)；其中GCN和MHSSA分别用于建模局部空间相关性和全局空间相关性，MRDCC用于建模时间相关性；

2.1全连接层FC进行特征映射

为了提高表达能力，首先利用全连接层(FC)将归一化后的数据映射到高维空间，即：

X^FC＝W_IX_I+b_I (4)

其中，X_I表示全连接层的输入，W_I表示全连接层的权重矩阵，b_I表示偏置，W_I和b_I是可学习的参数，是在模型训练时中通过最小化化损失函数来迭代更新的，迭代更新方式将在模型训练部分说明；X^FC表示全连接层的输出；

2.2空间相关性建模

从两方面考虑空间相关性：路段之间的连通性即局部空间相关性和交通状况模式相似性即隐含的空间相关性；利用GCN根据路段之间的连通性从局部来聚合节点信息，利用多头空间自注意力机制根据不同路段交通状况的模式相似性从全局来聚合节点信息；

(1)局部空间相关性

为了捕获局部空间相关性，采用切比雪夫多项式的图卷积聚合邻居节点的信息，在谱理论中，图是用它的归一化拉普拉斯矩阵L来表示的：

其中，I_N是N×N的单位矩阵，N表示节点数，A是由公式(2)计算得到的邻接矩阵；D是度矩阵，它是一个对角矩阵，对角线元素为

A_ij是邻接矩阵A的第i行j列的元素；切比雪夫多项式形式的图卷积定义为：

其中，Θ*G表示对图G中的信号x进行图卷积操作，

是缩放后的归一化拉普拉斯矩阵，λ_max是L的最大特征值，θ_k(k＝0,1,…K)是切比雪夫多项式的第k项的系数，它是可学习的参数，是在模型训练过程中通过优化损失函数不断迭代更新的，具体迭代更新过程在模型训练部分说明；

的k阶切比雪夫多项式递归的定义为：

采用k阶切比雪夫多项式聚合k阶邻居节点的信息；式(6)是对于一维图信号而言的，它也推广到多维图信号，首先将式(6)简记为：

其中，

表示式公式(6)中的

那么对于多维图信号的图卷积定义为：

其中，C_i，C_o分别表示输入通道数和输出通道数，即输入特征维度和输出特征维度，X_i表示第i个输入通道特征，Y_j表示第j个输出通道特征，Θ_ij表示在计算第j个输出通道时对第i个输入通道进行的图卷积操作；

(2)全局空间相关性

采用空间自注意力机制来聚合邻居节点的信息；空间自注意力机制的计算步骤如下：

1)对每个节点的特征向量用3个不同的矩阵W^Q，W^K，W^V进行映射，得到3个向量Query，Key，Value，Query和Key的维度为d_k，Value的维度为d_v；其中W^Q，W^K，W^V是可学习的参数矩阵，是在模型训练过程中通过优化损失函数不断迭代更新的，具体迭代更新过程在模型训练会详细介绍；用d表示节点特征向量的维度，则W^Q和W^K的形状为d×d_k，W^V的形状为d×d_v；

2)将每个节点的Query向量与所有节点的Key向量作内积，并经过softmax函数进行归一化得到该节点与所有节点的Attention Score；softmax函数将一个向量的各个元素压缩到0-1之间，softmax函数定义如下：

其中，z_i表示向量的第i维，K表示向量的维度；为了使得训练时梯度更加稳定，在进行softmax归一化之前先除以一个缩放因子

避免进入softmax函数梯度较小的区域，其中d_k就是前面提到的Query和Key的维度；

3)根据该节点与所有节点的注意力分数(Attention Score)对各个节点的Value向量进行加权求和；

如果用N×d的矩阵X表示N个节点的特征向量矩阵，那么上述步骤简单的表示为矩阵相乘的形式：

Q＝XW^Q (10)

K＝XW^K (11)

V＝XW^V (12)

其中，Q的形状为N×d_k，它表示N个节点的Query向量构成的矩阵；K的形状为N×d_k，它表示N个节点的Key向量构成的矩阵；V的形状为N×d_v，它表示N个节点的Value向量构成的矩阵，空间自注意力机制是在空间维度聚合节点信息，对于输入时间序列，不同时间步之间参数是共享的；

采用多头空间自注意力机制，不同的子空间表达了不同的隐含空间相关性；多头空间自注意力机制是通过将Query，Key，Value进行n次线性映射得到n组不同的子空间表示，然后在每一组上执行注意力机制，然后将它们拼接起来再做一次线性映射得到最终结果，空间多头自注意力机制用下式表达：

h_i＝Attention(XW_i ^Q,XW_i ^K,XW_i ^V) (14)

Multihead＝Concat(h₁,h₂,…,h_n)W^O (15)

其中，h_i表示第i组自注意力机制的输出，n表示head的数量，Multihead表示多头自注意力机制的输出，Concat表示对张量沿着特征维进行拼接操作，W_i ^Q，W_i ^K，W_i ^V是第i组线性映射矩阵，W^O是对拼接后的结果经行映射的矩阵，这些都是可学习的参数，是在模型训练过程中通过优化损失函数不断迭代更新的，具体迭代更新过程后续会详细交代；

(3)基于门控机制的局部和全局空间信息融合

采用门控机制融合局部空间信息和全局空间信息，门控机制用于学习两种空间信息的重要程度，然后基于学习到的权重融合这两种信息；门控融合模块GF用下式表示：

其中

表示第l个图卷积模块的输出，

表示第l个多头空间自注意力模块的输出，W₁，W₂是映射矩阵，b是偏置，它们都是可学习的参数，是在模型训练过程中通过优化损失函数不断迭代更新的，更新迭代过程在后续模型训练部分会详细交代；g表示门的输出，σ表示sigmoid激活函数，定义如下：

⊙表示哈达玛乘积，即对应位置元素相乘，H^(l)是两种空间信息融合后的结果；

2.3基于多感受野空洞因果卷积的时间相关性建模

将空洞卷积的思想引入因果卷积中构成空洞因果卷积；

节点i在t时刻第q个通道的输出值y_i,t,q由下式表示：

其中，w_k,p,q是卷积核中的元素，x_i,t-d(k-1),p是输入特征中的元素，d表示扩张率，τ表示卷积核大小，P表示输入通道数；用S表示输出通道数，那么需要S组卷积核，这S组卷积核的参数可表示为一个形状为τ×P×S的张量W^τ×P×S，它是可学习的参数，是在模型训练过程中通过最小化损失函数不断迭代更新的，迭代更新过程在模型训练部分会详细介绍；值得注意的是，为了保持输入时间序列的长度不变，需要对输入序列两端补0，但是两端补0又会使得输出序列变长，因此在进入下一层之前需要对序列末端进行裁剪；另外，空洞因果卷积是在时间维度上进行的，对于不同的节点卷积核参数是共享的；用形状为N×F×P的张量H表示N个节点F个时间步的特征，*d表示扩张率为d的空洞因果卷积操作，则对H的空洞因果卷积操作记作：

O＝W_*dH (20)

其中，O是卷积后的结果；为了进一步扩大感受野，堆叠多层空洞因果卷积，每层的扩张率以指数方式增长，第l层的扩张率为：

d^(l)＝2^l-1 (21)

那么第l层的输出可表示为：

不同的层得到不同感受野的输出，浅层捕获到短期的时间相关性，深层捕获到长期的时间相关性，各层的输出沿着特征维度拼接，然后经过一个1×1的卷积层改变通道数；这样就构成了一种多感受野空洞因果卷积(MRDCC)，MRDCC用下式表示：

O＝Conv(Concat(O¹,O²,…,O^c)) (24)

其中，Concat表示沿着特征维度进行拼接，Conv表示1×1的卷积层，O是MRDCC的输出，c表示空洞因果卷积的层数；

2.4训练和验证

训练模型之前首先需要设定好超参数，进行交通流预测，只用到流量这1种特征，因此输入特征维度设置为1；由于我们利用1小时的历史流量数据预测未来1小时的交通流，因此输入时间序列长度和输出时间序列长度均设置为12；切比雪夫多项式的阶数取2，图卷积模块输入层、隐含层、输出层的维度分别取为16、64、128，多头自注意力模块的输入维度、key和value的维度、head的数量分别取为16、128、128、4；

损失函数采用L1损失，多步预测的L1损失定义如下：

其中，L1是关于W_θ的函数，W_θ代表模型中全部的可学习参数，包括公式(4)中的W_I和b_I，公式(6)中的θ_k，公式(14)中的W_i ^Q，W_i ^K和W_i ^V，公式(16)中的W₁，W₂和b以及空洞因果卷积中S组卷积核参数W^τ×P×S；要不断迭代更新W_θ使L1达到最小，X_:,i和