CN115620510A

CN115620510A - 一种基于自适应窗口注意力提取时空依赖的交通流预测方法

Info

Publication number: CN115620510A
Application number: CN202211023169.XA
Authority: CN
Inventors: 刘宴兵; 赵雪; 肖云鹏; 李暾; 刘欣萍; 龚佳明
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2023-01-17
Anticipated expiration: 2042-08-25
Also published as: CN115620510B

Abstract

本发明属于智能交通应用技术领域，具体涉及一种基于自适应窗口注意力提取时空依赖的交通流预测方法，包括获取交通路网的图结构基本信息及其交通流数据，对交通流数据进行预处理；获取交通路网中各卡口节点的流量单元时空特征集合；构建交通流量预测模型，其包括时间依赖模块、时空依赖模块和预测模块；采用多头注意力机制构建时间依赖模块得到各卡口节点的时间依赖特征；在时空依赖模块引入自适应窗口，以各卡口节点的时间依赖特征作为输入得到各卡口节点的时空依赖特征；将各卡口节点的时空依赖特征输入预测模块得到预测结果；本发明引入自适应窗口，采用局部注意力和全局注意力结合的机制挖掘相邻卡口之间的相关性，实现准确实时的交通流预测。

Description

一种基于自适应窗口注意力提取时空依赖的交通流预测方法

技术领域

本发明属于智能交通应用技术领域，具体涉及一种基于自适应窗口注意力提取时空依赖的交通流预测方法。

背景技术

21世纪，经济与科技的快速发展使得人们可选择的出行方式逐渐增多，代步工具也五花八门，道路上大大小小的车辆平铺开来。各种交通工具的出现也促进了人们远距离出行的需求。有限的城市资源承载着过多人的衣食住行，导致交通拥塞，资源紧缺，环境污染等问题都为治理城市现代化建设带来严峻的挑战。新一代的智能交通是大势所趋。

智能交通系统(Intelligent Traffic System，ITS)是指在较完善的基础设施(包括道路、港口、机场和通信)之上，将先进的信息技术、数据通讯传输技术、电子传感技术、电子控制技术以及计算机处理技术等有效地集成运用于整个交通运输管理体系，从而建立起一种在大范围、全方位发挥作用的实时、准确、高效的综合运输和管理系统。越来越多的国家开始关注智慧城市的建设，融合大数据、互联网、人工智能等高新技术打造智能交通。

利用AI人工智能大数据技术对采集到的这些海量数据进行融合、分析，更快捷、精确的预测未来交通情况是创建现代化智能城市迫切的需求。在新型交通运输领域的发展中，交通流的预测任务不仅可以及时进行拥塞预警、还可以由此判断出交通异常等，在智能交通管控和交通诱导中起着十分关键的作用。

近年来，越来越多的学者基于数据驱动的理念对交通流量预测进行研究。现有的交通流预测研究方法主要包含以下几类：传统的统计方法，使用数学统计模型；机器学习方法，在少量样本数据上自训练出可以解决问题的公式、深度学习的方法，挖掘大量数据中深度隐含的时空相关性。还有一些研究人员使用组合模型的方法，分别捕捉交通数据的时间相关性和空间相关性后再融合特征进行预测。但是，在真实的交通环境中，交通数据具有更强的时空相关性，即时间空间交叉状态下的相关性，影响预测精度。为解决该问题，可将时空数据按照时间步信息切片拼接为长文本，通过提取上下文之间的依赖关系来捕捉时空相关性。Qiming Zhang等人的《VSA:Learning Varied-Size Window Attention in VisionTransformers》提出了可变大小窗口注意力(VSA)建模长期依赖关系，从不同窗口捕获丰富的上下文，并促进重叠窗口之间的信息交换。结合当前智能交通已有的研究情况，交通流量预测仍存在以下挑战：

1.时空相关性的共同特征表示：时空关系不仅仅受道路连通性影响，还包括由于交通流和间接连接的城市路段的共同模式和相互依赖性而出现的远程点之间的联系。原始数据仅仅是单一的流量数据，不足以表达时空交叉状态下特征的真实分布。

2.流量单元之间关系复杂多样：复杂的路网结构拓扑连接关系导致不同时间维度里，各个监测点之间的耦合关联不断发生变化。捕捉这种时空交叉的相关性是交通预测的一大难题。

3.流量单元集信息量过大：将流量单元之间的关系类比为字间关系，依照时间维度拼接成文本，提取时空相关性。由于全局卡口数量多，流量单元集大，产生的文本过长会增加模型的遗忘能力，降低模型的准确性。

发明内容

针对以上问题，本文提出一种基于自适应窗口注意力提取时空依赖的交通流预测模型。本发明聚焦于流量单元之间的时空相关性，引入位置表示构建流量单元间的复杂关系，结合transformer对卡口流量之间的长期时间依赖关系进行建模，引入自适应窗口的注意力机制对流量单元之间的时空相关性进行捕捉，最后构建交通流量预测模型。

一种基于自适应窗口注意力提取时空依赖的交通流预测方法，包括以下步骤：

S1.获取交通路网的图结构基本信息及其交通流数据，并对交通流数据进行预处理；

S2.完成预处理后，采用STVvec方法获取交通路网中各卡口节点的流量单元时空特征集合；

S3.基于transformer构建交通流量预测模型，该交通流量预测模型包括时间依赖模块、时空依赖模块和预测模块；

S4.采用多头注意力机制构建时间依赖模块，并引入查询子空间、关键子空间和值子空间三个潜在子空间获取多种时间依赖关系；将各卡口节点的流量单元时空特征集合作为时间依赖模块的输入，得到各卡口节点的时间依赖特征；

S5.在时空依赖模块引入自适应窗口，以各卡口节点的时间依赖特征作为输入，得到各卡口节点的时空依赖特征；

S6.将各卡口节点的时空依赖特征输入预测模块，得到预测结果。

进一步的，步骤S1的具体过程包括：

S11.获取交通路网的图结构基本信息G(V,E,A)，V＝{v₁,v₂,...,v_N}表示交通路网中的卡口节点集合；

表示卡口节点之间的连通性，如果在空间上卡口节点v_i与卡口节点v_j直接相连，则e_ij＝1，表示两个卡口节点之间存在边；否则e_ij＝0，表示两个卡口节点之间不存在边；

表示邻接矩阵，a_ij表示卡口节点v_i与卡口节点v_j之间的关系强度，若卡口节点v_i与卡口节点v_j在地理上没有密切关系，则a_ij＝0；

S12.获取该交通路网的交通流数据，并对其进行清洗；

S13.对清洗后的交通流数据按照时间片进行划分，一个时间片中的交通流数据组成一个交通流量组，

表示第t个时间片的交通流量组，

表示第t个时间片中卡口节点v_i的流量单元；

S14.获取每个时间片中的附加信息，TP_t＝{tp_t1,tp_t2,...,tp_tM}表示第t个时间片的附加信息集合，tp_tM表示第t个时间片的第M个附加信息。

进一步的，采用STVvec方法获取交通路网的任一时间片中任一卡口节点上的流量单元时空特征集合的具体过程包括：

S21.采用Word-Embedding编码对卡口节点v_i在时间片t的流量单元

进行词向量化，得到卡口节点v_i上流量单元

在时间片t的词嵌入特征

S22.通过结构化深度网络嵌入方法重构交通路网的图结构基本信息，得到卡口节点v_i上流量单元

在时间片t的位置嵌入特征

S23.根据时间片t的附加信息及其相邻时间片信息得到时间片t的时间嵌入特征

每个时间片上所有卡口节点的流量单元的时间嵌入特征相同；即得到卡口节点v_i上流量单元

在时间片t的时间嵌入特征

S24.将卡口节点v_i上流量单元

在时间片t的词嵌入特征

位置嵌入特征

与时间嵌入特征

融合得到卡口节点v_i上流量单元

在时间片t的时空特征；

S25.重复步骤S21-S24得到卡口节点v_i在不同时间片上流量单元的时空特征，将卡口节点v_i所有时间片的流量单元的时空特征组成卡口节点v_i的流量单元时空特征集合。

进一步的，步骤S22获取卡口节点v_i上流量单元

在时间片t的位置嵌入特征的过程包括：

S221.将卡口节点v_i初始化为向量，将初始化向量经过K层非线性函数变换映射到表示空间，得到表示空间向量；每层非线性函数变换的隐藏表示为：

σ表示sigmod激活函数，

表示卡口节点v_i的初始化向量，

表示经过第k层非线性函数变换后的隐藏表示，W^(k)表示第k层非线性函数变换的权重矩阵，b^(k)表示第k层非线性函数变换的偏差；

S222.将表示空间向量映射到重构空间，通过反转编码器计算得到与卡口节点v_i的初始化向量大小一致的位置嵌入特征

其中，设计重构损失函数计算重构损失反向传播，表示为：

其中，

表示输入数据，即卡口节点的初始化向量集合，

表示重构数据，即卡口节点位置嵌入特征集合，⊙表示哈达玛积，B表示惩罚权重矩阵，F表示F范数，α表示控制一阶损失的参数，x_i表示卡口节点v_i的表示空间向量，x_j表示卡口节点v_j的表示空间向量，ν表示控制过拟合的参数，L_reg表示防止过拟合的L2正则表达式。

进一步的，步骤S23根据时间片t的附加信息及其相邻时间片信息得到时间片t的时间嵌入特征的过程为：

S231.通过one-hot编码处理时间片t的附加信息TP_t，得到长度为N_m的附加信息向量；采用M个可学习矩阵将附加信息向量转换为长度为dg的时间属性向量，表示为：

S232.获取时间片t的前后时间片关系，采用positional embedding获取相对时间向量，表示为：

S233.将时间片t的时间属性向量与相对时间向量串联并进行线性变换，得到时间片t的时间嵌入特征

表示为：

其中，

表示时间片t的时间属性向量，

表示时间片t的相对时间向量，R^dg表示dg维的向量，pos表示该时间片相对整个历史交通流里所有时间片的位置。

进一步的，在时间依赖模块中，采用STE函数替换多头注意力机制的共享参数机制，并为每头注意力创建一个带有隐藏层的多层感知器，表示为：

其中，X表示时间依赖模块的输入，即卡口节点的流量单元时空特征集合，

和

均为可学习参数。

进一步的，在时空依赖模块中，引入自适应窗口进行学习的过程为：

S51.首先将该模块的输入特征平分成大小一样的不重叠窗口，表示为：

其中w是预定义的窗口大小，r表示第r个窗口，N表示卡口节点个数，D表示时间片数量，X′^ST表示时空依赖模块的输入特征；

S52.对划分后的每个窗口进行线性操作得到对应的查询子空间，表示为：

S53.将预定义的窗口大小和位置作为参考，获取目标窗口在长宽两个方向的缩放比例和偏移大小；

S54.基于不同的目标窗口提取各卡口节点的时空依赖特征。

本发明的有益效果：

针对大多研究是将时间依赖和空间依赖进行结合预测，忽略了时空交叉对交通流带来的影响。本发明提供了一种基于自适应窗口注意力提取时空依赖的交通流预测方法，该方法中基于transformer搭建了交通流量预测模型，并通过以下改进来捕捉时空交叉状态下的交通流关系：

在数据表示模块，使用SDNE图嵌入结合时间嵌入进行交通流的时空共同表征。

引入自适应窗口，利用局部注意力和全局注意力结合的方式捕捉跨时间维度的时空依赖，也就是不同时间片上的空间依赖。捕获更多的隐藏特征，挖掘更深的时空特征。进而更加准确的进行交通流量预测。

附图说明

图1为本发明实施例的流程示意图；

图2为本发明实施例的STVvec算法表示时空特征示意图；

图3为本发明实施例的时间序列预测示意图；

图4为本发明实施例的时空联合预测示意图；

图5为本发明实施例的STVTN模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于自适应窗口注意力提取时空依赖的交通流预测方法，如图5所示，包括以下步骤：

S5.在时空依赖模块引入自适应窗口，以各卡口节点的时间依赖向量作为输入，得到各卡口节点的时空依赖特征；

在一实施例中，采用如图1所示的流程进行具体分析，通过输入交通路网的基本信息及交通流数据到预测模型，输出未来几个时间步的交通流量信息。

主要包括三大步骤：

STEP1.在线获取数据：

获取一个交通路网的基本信息G(V,E,A)，V＝{v₁,v₂,...,v_n}表示地理空间上的交通路网中的卡口节点集合，v_i表示第i个卡口节点；

表示卡口节点之间的连通性，如果在地理空间上卡口节点v_i与卡口节点v_j直接相连，则e_ij＝1，表示两个卡口节点之间存在边；如果在空间上卡口节点v_i与卡口节点v_j没有直接相连，则e_ij＝0，表示两个卡口节点之间不存在边；对于每一个卡口节点v_j，基于它与其他各卡口节点之间的欧氏距离，通过高斯核构造邻接矩阵

a₁＝{a_i1,...,a_iN}，a_ij表示卡口节点v_i与卡口节点v_j之间的关系强度，通常通过两个节点的地理接近度来测量，若卡口节点v_i与卡口节点v_j在地理上没有密切关系，则a_ij＝0；

获取该交通路网的交通流数据，即该交通路网上不同时间步里的各个卡口的流量数据，本实施中设定该交通路网的交通流数据共有D个时间步和N个卡口；

具体地，对获取的交通流数据中的重复数据、无效数据进行清洗，从而有有利于数据分析，将清洗后的交通流数据按照时间步切分为D个时间片，一个时间片的流量数据为一个交通流量组Gu，相当于一个句子，该时间片中的一个卡口节点的交通流量U，相当于这个句子中的一个字。第t,t＝{1,2,...,D}个时间片的交通流量组表示为

表示第t个时间片中卡口节点v_N的流量单元。

同时获取每个时间片流量当下的附加信息，包括一周中的第几天，一天中的第几个时辰，一个时辰里的第几个时间片等M个附加信息，第t个时间片的附加信息集合表示为TP_t＝{tp_t1,tp_t2,...,tp_tM}，tp_tM表示第t个时间片的第M个附加信息，tp_tM∈{1,2,...,N_m}，N_m表示时间片的状态数。

STEP2.获取时空表征：

参照Bert模型里字词的表示，利用文本向量和位置向量的思想，设计STVvec(Spatial-Temporal Vehicle-flux to vector)的方法表示卡口流量之间复杂的数据关系，其中每个节点的信息包括卡口自身流量信息的词嵌入，空间位置信息的嵌入和时间信息的嵌入。

在一实施例中，以时间片t中的卡口节点v_i为例，采用STVvec方法获取其时空表征的过程包括：

S21.将卡口节点v_i的自身流量

看做一个字，采用Word-Embedding编码进行词向量化，其映射关系表示为：

表示时间片t中的卡口节点v_i流量信息的向量表示(即卡口节点v_i上流量单元

在时间片t的词嵌入特征)；

S22.对于交通路网的空间位置信息，本实施例使用一种结构化深度网络嵌入方法，叫SDNE；将交通路网的图结构信息G(V,E,A)输入到图嵌入SDNE模型中，可以得到新的路网图结构；其位置映射函数表示为：

表示卡口节点v_i位置信息的向量表示(即卡口节点v_i上流量单元

在时间片t的位置嵌入特征)，同一卡口节点的位置信息的向量表示相同，具体地说，同一卡口节点在不同时间片的流量单元的位置嵌入特征相同；

S23.对于每个时间片的时间信息，除了当下时间相关信息之外，还有与其他时间片的相对先后顺序信息；将每个时间片的交通流量组作为一个整体，从当下时间相关信息和相对先后顺序信息两方面嵌入，获得映射关系

表示时间片t的时间信息的向量表示(即卡口节点v_i上流量单元

在时间片t的时间嵌入特征)；

S24.将交通流向量

卡口位置信息向量

时间片信息向量

融合，通过线性变换，最终得到同时包含时间关系和空间关系的时空向量(即卡口节点v_i上流量单元

在时间片t的时空特征)，表示为：

具体地，通过重复S21-S24能够得到卡口节点v_i在不同时间片上流量单元的时空特征，卡口节点v_i所有时间片的流量单元的时空特征共同组成卡口节点v_i的流量单元时空特征集合。

具体地，步骤S22获取卡口节点v_i在时间片t的位置嵌入特征的过程，如图2所示，包括：

S221.将卡口节点v_i初始化为一个向量

将初始化向量

经过K层非线性函数变换映射到表示空间，得到表示空间向量；每层非线性函数变换的隐藏表示为：

表示经过第k层非线性函数变换后的隐藏表示，W^(k)表示第k层非线性函数变换的权重矩阵，b^(k)表示第k层非线性函数变换的偏差，σ表示sigmod激活函数；

S222.经过K次变换得到了表示空间向量

将表示空间向量映射到重构空间，通过反转编码器计算得到与卡口节点v_i的初始化向量

大小一致的位置嵌入特征

针对隐藏的各卡口之间的间接联系，利用路网中卡口之间的连接关系及权重信息，重建每个卡口与其他卡口的邻域结构相似度，来保留二阶相似性，捕捉非线性路网拓扑结构信息，对路网重新建模。在训练过程中，重构阶段设计有最小化重建损失用来捕获数据流形，从而保持样本间的相似性，同时考虑到两个节点在地理上没有密切关系的情况，借鉴拉普拉斯特征映射的思想，相似顶点在嵌入空间映射到很远的地方时会产生惩罚，加重了对非零元素重构误差的惩罚。该目标损失函数为：

其中，

表示输入数据，即卡口节点的初始化向量集合，

表示重构数据，即卡口节点位置嵌入特征集合。

表示一个惩罚权重矩阵，是为了加重非0元素的惩罚构建的，它是一个和X^Init相同维度的矩阵。

同时，针对一部分在邻接矩阵上有明显关系的卡口节点对，我们可以获得它们的成对相似性，即一阶邻近性。引入监督分量，利用一阶邻近度作为监督信息来细化潜在空间中的表示。该目标损失函数为：

结合上述一阶和二阶邻近，损失函数设计如下：

⊙表示哈达玛积(Hadamard product)矩阵的一类计算，F表示F范数，α表示控制一阶损失的参数，x_i表示卡口节点v_i的表示空间向量，x_j表示卡口节点v_j的表示空间向量，ν表示控制过拟合的参数，L_reg表示防止过拟合的L2正则表达式。

具体地，如图2所示，步骤S23根据时间片t的附加信息及其相邻时间片信息得到时间片t的时间嵌入特征的过程为：

S232.为加强临近时间片之间的联系，获取时间片t的前后时间片关系，采用自然语言中的positional embedding获取相对时间向量，时间片t的相对时间向量表示为：

表示为：

其中，

表示时间片t的时间属性向量，

表示时间片t的相对时间向量，R^dg表示一个dg维的向量，pos表示该时间片相对整个历史交通流里所有时间片的位置。

STEP3.建立模型：

为了提取流量单元之间更多的隐藏信息，即同一卡口节点在不同时间片的流量单元之间的隐藏信息；同一时间片上不同卡口节点的流量单元之间的隐藏信息；以及不同时间片不同的卡口节点上流量单元的隐藏信息，本模型从时间依赖、空间依赖、时空依赖三个方面入手，其中空间和时空依赖联合捕捉。本发明利用擅于捕捉长期依赖的transformer模型，构建一种交通流量预测模型STVTN。该模型分为时间依赖模块、时空依赖模块和预测模块，其中时空依赖模块同时关注同时间步的空间依赖和跨时间步的时空依赖。

具体地，本实施构建的时间依赖模块结构如图3所示，采用多头注意力机制对时间依赖性建模，先提取每个卡口节点的流量在时间序列上的变化，表示为

表示卡口节点v_i在不同时间片上的流量单元时空特征集合，并采用滑动窗口来选取相关值，滑动窗口的大小为时间片的个数D。

使用前馈神经网络将滑动窗口中的流量单元时空特征集合

投影到高维潜在子空间，在高维潜在子空间中动态计算时间依赖性，为每个时间节点训练三个潜在子空间，包括查询子空间Q^T∈R^D×dk、关键子空间K^T∈R^D×dk和值子空间V^T∈R^D×dv，其中dk＝dv＝dg/H，H是注意力头的个数。

由于多头注意力机制中的所有时间位置的参数是共享的，这种共享机制忽略了交通状态不同时间上存在的动态变化，故本实施例使用相关STE函数替换共享参数机制，将Q^T、K^T和V^T的学习与特定时空条件相互联系，为每个注意力头创建一个带有隐藏层的多层感知器，表示为：

和

均为可学习参数。每个注意力头通过上述公式生成三个映射矩阵W_q∈R^dg×dk、W_k∈R^dg×dk和W_v∈R^dg×dv，用于转换得出Q^T、K^T和V^T，其表示为：

多头注意力计算如下：

其中，W⁰是可学习参数。

以上多头注意力机制通过引入多对子空间来学习多种时间依赖模式，能够从来自各种潜在子空间的不同隐藏时间依赖关系进行建模学习节点特征。此外，引入残差连接和层归一化用于更好地学习深度网络。收集每个节点的输出得Y^T∈R^N×D×dg，将其作为下一模块时空依赖提取的输入X^T＝Y^T。

在一实施例中，在时空依赖模块，为了捕捉随时间变化的隐藏空间依赖，本发明通过学习将每个节点的输入特征投影到高维潜在子空间的线性映射来实现高维潜在子空间中的训练和建模。同时，为了捕捉跨时间维度的空间依赖，将时间依赖模块的输出与交通流量单元的时空向量串联，经过一个卷积层，得出更强时间依赖的向量集合X′^ST＝G_t([X^T,X^ST])，

G_t是一个1×1的卷积层。

对X′^ST建模时空依赖。对每一个时间片上的每一个节点，不仅捕获与同一个时间片上其他节点之间的关系，还通过滑动窗口来捕获不同时间片上的各节点之间的联系。另外，为了平衡长距离依赖的捕捉能力和性能，在此引入自适应窗口，来学习每个节点对跨不同时间步长的其他节点的依赖。

具体地，时空依赖模块的具体过程，如图4所示，包括：

S321.窗口自适应。我们通过时间片叠加，使用注意力机制学习不同时间片上各个节点之间的关系，若采用手工制作的固定大小窗口设计，会限制建模长期依赖关系和适应跨不同时间步数的能力。例如一些卡口节点和邻近卡口节点物理距离远，则其受跨多个时间步的影响大，反之影响小。为解决该问题，我们引入不同大小的窗口注意力，来自适应的调整窗口的大小。

S322.首先将该模块的输入特征X′^ST平分成大小一样的不重叠窗口,即

其中w是预定义的窗口大小，r表示第r个窗口。

S323.对每个窗口进行线性操作得到对应的查询子空间

S324.将预定义的窗口大小和位置作为参考，来估计目标窗口在长宽两个方向上的缩放比例和偏移大小。首先对

使用核大小和步长与窗口大小一样的平均池化操作，并附加LeakyRelu激活层。进一步使用1×1的卷积层，输出S_w,O_w∈R^2×H，分别表示缩放比例矩阵和偏移量矩阵，这两个矩阵都是2×H矩阵，矩阵的两行数值分别表示在水平和垂直方向上的缩放比例和偏移量，其中2表示长宽两个方向，H表示注意力头的个数：

其中，

表示映射乘法；

S325.生成的窗口称为目标窗口。基于注意力的不同大小窗口，提取特征。我们首先基于特征X′^ST进行线性操作获取特征索引和值，K,V∈R^N×D×dg，即：

学习将每个节点的输入特征投影到高维潜在子空间的线性映射来实现高维潜在子空间中的训练和建模。根据缩放比例和偏移量在K和V上进行特征提取，分别均匀采样C个特征，投影到高维潜在子空间中，获得K_w,v,V_w,v∈R^C×H×dg′用作查询令牌Q_w的索引和值。其中C＝w×w，H是注意力头的个数，dg′是每个头的通道尺寸。然后利用多头注意力机制计算如下：

是注意后的特征，MultiHead代表多头自注意力操作和时间依赖模块的多头注意力机制相同。在注意力计算过程中，利用相对位置嵌入将空间信息编码到特征中。将提取的特征重塑回窗口形状，即

并添加了输入特征

对每个窗口分别重复相同的操作，然后将所有窗口中生成的特征串联起来，以恢复输入特征的形状。然后使用FFN模块细化提取的特征。

为了桥接不同窗口之间的连接，在两个相邻transformer层之间使用了移位操作。因此，随着层的顺序堆叠，模型的感受野逐渐扩大。局部注意力和全局注意力相结合来提取时空特征。时空依赖模块输出Y^ST∈R^N×D×dg。

在一实施例中，预测模块利用两个经典卷积层根据来自最后一个时空块的时空特征进行多步预测。它的输入是一个二维张量Y^ST→X″^ST∈R^N×dg，它由时间步t的N个节点的dg维时空特征组成。N个节点的T个未来交通状况的多步预测Y∈R^N×T为：

采用平均绝对损失来训练模型。损失函数为：

L＝||Y-Y^gt||₁

其中Y^gt∈R^N×T是地面实况交通流量。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。