CN114493034A

CN114493034A - 一种面向区域流量预测的时空全局语义表示学习方法

Info

Publication number: CN114493034A
Application number: CN202210135460.XA
Authority: CN
Inventors: 高旻; 赵亮; 王宗威; 郭林昕; 周魏; 熊庆宇; 赵泉午
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-05-13
Anticipated expiration: 2042-02-14
Also published as: CN114493034B

Abstract

本发明涉及一种面向区域流量预测的时空全局语义表示学习方法，S1建立面向区域流量预测的时空全局语义表示学习模型ST‑GSP，ST‑GSP包括依次排列的语义流编码器、transformer编码器和融合过程；语义流编码器对不同距离的空间依赖关系和外部因素的影响进行编码；transformer编码器用于捕获不同尺度的时间依赖关系之间的相关性；融合过程融合了历史表示和未来时间间隔上的外部因素，以获取最终的表示；S2采用自监督学习的方法对ST‑GSP进行训练；S3将待预测时间点之前的历史数据输入训练好的ST‑GSP，ST‑GSP的输出即为待预测时间点的流量。本发明方法利用了更详细的时间信息作为位置编码，增强了对区域流量预测的准确性。

Description

一种面向区域流量预测的时空全局语义表示学习方法

技术领域

本发明涉及区域流量预测技术领域，特别涉及时空全局语义表示学习方法进行面向区域流量预测。

背景技术

区域流量预测在智能交通管理、出行优化和公共安全等方面具有巨大的应用潜力。例如，当热点事件发生时，政府部门可以通过区域流量预测得到区域流量的演化，提前进行交通分流，防止致命踩踏等危险事故的发生。而网约车平台(如优步、滴滴)也可以通过区域流量预测，提前规划网约车的行驶路线，提高司机的接单量。废旧家电回收平台也可以通过区域流量预测，提前安排有相应资质的回收人员，提高回收人员的接单率并降低顾客的等待时间。

区域流量预测问题是基于历史流量信息，预测在给定时间间隔内特定区域的流入(进入区域的人群数量)和流出(离开区域的人群数量)。首先，区域流动受到空间依赖性的影响。每个区域的流量都受到相邻区域的影响，同时由于受到地铁、出租车等公共交通工具的影响，该区域的流量也会受到较远区域的影响。除空间相互作用外，区域流动还受到多尺度时间依赖关系的影响。在以往的研究中，时间依赖关系通常分为三个尺度:时间临近性、周期和趋势，如图1所示。其中时间临近性是指一个地区的交通流量受最近的时间间隔的影响。周期是指在连续的工作日中，某些交通状况(如早高峰)是相似的，每24小时重复一次。趋势是指一些交通状况随着季节的变化而变化(例如，随着冬季的到来，早高峰发生的时间更晚)。此外，天气条件等外部因素对区域流量有显著的影响。例如，雷雨可以减少一些地区的区域流量。因此，要预测各区域的流量，需要挖掘不同区域的时空演化以及复杂外部因素的影响。

近年来，随着深度神经网络在计算机视觉和自然语言处理方面的成功应用，受此启发，研究人员将深度学习技术应用于区域流量预测，并取得了良好的效果。如图1(a)所示，现有的许多研究将时间依赖关系按尺度进行划分，然后将其划分为单独的模块处理。一般来说，他们在每个单独的模块中使用卷积神经网络(CNN)结构来捕捉空间依赖关系，然后利用循环神经网络(RNN)结构捕获单尺度的时间依赖关系，并融合不同模块的结果来捕获全局的时间依赖关系。此外，还通常设计一个子网络来捕捉外部因素对区域流量的影响。但是，由于该方法只考虑了不同尺度的时间依赖关系单独的对预测目标的影响，而忽略了不同尺度的时间依赖关系之间的相关性，因此会失去部分全局的时间依赖关系。

发明内容

针对现有技术存在的上述问题，本发明要解决技术问题如何尽可能准确的预测区域流量。

为解决上述技术问题，本发明采用如下技术方案：一种面向区域流量预测的时空全局语义表示学习方法，包括如下步骤：

S1：建立面向区域流量预测的时空全局语义表示学习模型ST-GSP，所述ST-GSP包括依次排列的语义流编码器、transformer编码器和融合过程三部分；

所述语义流编码器对不同距离的空间依赖关系和外部因素的影响进行编码；

所述transformer编码器用于捕获不同尺度的时间依赖关系之间的相关性；

所述融合过程融合了历史表示和未来时间间隔上的外部因素，以获取最终的表示；

S2：采用自监督学习的方法对ST-GSP进行训练；

S3：将待预测时间点之前的历史数据输入训练好的ST-GSP，ST-GSP的输出即为待预测时间点的流量。

作为优选，所述S1中语义流编码器包括ResNet和多层感知器两个组件，所述ResNet叠加R层的残差单元，每个残差单元由两层卷积层组成，并省略了池化层；

所述多层感知器由两个全连接层和激活函数组成。

作为优选，所述S1中语义流编码器的编码过程如下：

S111：对于给定的历史流向地图，将每个流向地图送入卷积，如下公式(1)所示：

其中*表示卷积操作，f是激活函数，

和

是可学习的参数，

表示一个历史流向地图；

S112：将外部因素向量E_t输入多层感知器来提取特征，如下公式(1)所示：

M_t＝f(f(E_t·W₁+b₁)·W₂+b₂)#(2)

其中W₁和W₂分别是两个权重，b₁和b₂分别是两个偏置，f是激活函数，

是外部因素的特征表示，将M_t重塑得到向量M′_t，

S113：将

和M′_t相加，并将总和输入ResNet，如下公式所示：

其中

是残差函数，

包括第r个残差单元中的所有可学习参数，*表示卷积操作，f是激活函数，

和

是可学习的参数，

为

和M′_t相加的和没有实际含义，

是第l个残差单元的输出，

是第r+1个残差单元的输出；

S114：将

重塑为向量

然后使用全连接层进行降维：

其中

是在特定时间间隔t的语义流量嵌入，d_model是嵌入维度；W₃和b₃分别是权重和偏置；

S115：给定时间近邻性的输入流向图

周期的输入流向图

和趋势的输入流向图

三个尺度的时间依赖关系的流量输入及其对应的外部因素E，采用S111-S114的方法分别对应的得到时间近邻性的语义流嵌入

周期的语义流嵌入

和趋势的语义流嵌入

作为优选，所述S1中transformer编码器由交替的MSA层和MLP块组成；

在每个MLP块之前应用层归一化LN，并在每个MLP块之后应用残差连接；

所述MLP有两层，且使用GELU激活。

作为优选，所述S1中transformer编码器的编码过程如下：

S121：多头自注意MSA中对于输入的长度为H的序列

中的每个元素，计算序列中所有值V的加权和，然后并行运行k个被称为“头”的自注意操作，并投影它们的联合输出：

[Q，K，V]＝zU_qkv#(5)

MSA＝[SA₁(z)，SA₂(z)，...，SA_k(z)]U_msa#(7)

其中

Q、K和V分别表示多头自注意MSA中查询、键和值分别打包得到的矩阵；

S122：将F_pre和语义流嵌入序列[F^c，F^p，F^q]连接起来，然后将生成的序列作为transformer编码器的输入：

z₀＝[F_pre，F^c，F^p，F^q]

z_n＝LN(MSA(z_n-1)+z_n-1) n＝1，...，N#(8)

z_n＝LN(MLP(z_n)+z_n) n＝1，...，N

其中

作为优选，所述S1中融合过程由两个主要部分组成：全连接层和多层感知器；第一个模块即全连接层将表示与未来时间间隔的历史表示合并，第二个模块即多层感知器将表示与外部因素融合。

如权利要求6所述的面向区域流量预测的时空全局语义表示学习方法，其特征在于：所述S1中融合过程的具体步骤如下：

在第一个模块中，对transformer编码器的所有输出进行合并，并对其进行降维；

首先扁平化z_N，然后一个全连接层将扁平化的z_N重塑得到z′_N，

公式如下：

其中W₄和b₄是权重和偏置，

是一种考虑全局时间依赖性的表示；

在第二个模块中，使用多层感知器提取未来时间区间的外部因素特征，生成外部表示M_T，然后将

与M_T合并，公式如下：

其中tanh是激活函数，

将

重塑得到

即为预测的区域流量。

作为优选，所述S2中采用自监督学习的方法对ST-GSP进行训练，具体过程如下：

所述ST-GSP的训练包括预训练和微调两个阶段；

S201：构建初始训练集D：D中的每个实例由序列(X_t，{X^c，X^p，X^q})和序列(E_t，E^c，E^p，E^q)构成，其中X_t为预测目标，

包含l个近邻流量图，

包含d个周期流量图，

包含w个趋势流量图，序列(E_t，E^c，E^p，E^q)是序列(X_t，{X^c，X^p，X^q})所对应的外部因素；S202：对ST-GSP中的参数进行初始化，并对ST-GSP进行预训练；

S211：令s＝当前迭代次数％(l+1)；

S212：初始训练集D中包括多个实例，每个实例中的序列(X_t，{X^c，X^p，X^q})由

表示，j＝1，2...J，g＝1，2...G，j表示一个序列中的元素，g表示序列的序号；

在第g个实例中选择第j＝s+1个元素作为预测目标；

将第g个实例中第s+1个元素外其余所有元素的输入流向图和所对应的外部因素构成第g个预训练样本，第g个实例中选择第j＝s+1个元素的值为第g个预训练样本的真实值；

所有预训练样本构成预训练样本集D₁；

S213：从D₁中随机采样b个预训练样本；

S214：将b个预训练样本输入ST-GSP中，得到b个预训练样本的对应的预测值，使用公式(11)计算b个预训练样本对应的预测损失，再计算b个预测损失的平均值作为当前迭代次数的预测损失：

其中，X_t表示训练样本对应的真实值，

为ST-GSP模型输出的预测值；

根据当前迭代次数的损失反向传播更新ST-GSP的参数；

S215：是否达到预训练的最大迭代次数，如果达到预训练最大迭代次数，则将当前ST-GSP作为次优ST-GSP，并执行S221，如果没有达到预训练最大迭代次数，则返回S211；

S221：将初始训练集D中第g个实例中选择第1个元素即X_t作为预测目标；

将第g个实例中第1个元素外其余所有元素的输入流向图和所对应的外部因素构成第g个微调训练样本，第g个实例中选择第1个元素的值为第g个预训练样本的真实值；

所有微调训练样本构成微调训练样本集D₂；

S222：从D₂中随机采样b个微调训练样本；。

S223：将b个微调训练样本输入次优ST-GSP中，得到b个微调训练样本的对应的预测值，再采用公式(11)计算b个预测损失的平均值作为当前迭代次数的预测损失；

根据当前迭代次数的损失反向传播更新次优ST-GSP的参数；

S224：是否达到微调训练的最大迭代次数，如果达到微调训练最大迭代次数，则将当前次优ST-GSP作为最优ST-GSP；，如果没有达到预训练最大迭代次数，则返回S221。

作为优选，所述S3预测待预测时间点的流量的过程如下：获取待预测时间点前面一段时间内的历史数据，从该历史数据中划分出三个尺度的输入流向图和每个尺度对应外部因素作为最优ST-GSP的输入，最优ST-GSP的输出即是预测待预测时间点的流量。

相对于现有技术，本发明至少具有如下优点：

1.本发明方法利用了更详细的时间信息作为位置编码，增强了对区域流量预测的准确性。

2.本发明利用自监督学习方法使模型学习到了区域流量序列的深度双向表示。

3.本发明还可以应用到逆向物流中废旧家电的时空流量预测。

附图说明

图1为图1：(a)通过不同的模块捕获不同时间尺度的依赖关系后再进行后期融合。(b)对不同时间尺度上的依赖关系进行早期融合。

图2中左图：提出的面向区域流量预测的时空全局语义表示学习模型(ST-GSP)的结构。

分别表示时间临近性、周期和趋势的输入流向图。E指相应的外部因素。l，d，w分别表示时间临近性、周期和趋势的长度。图2中右图：语义流编码器(SFE)的架构。F是语义流嵌入。

图3为ST-GSP模型整体的自我监督学习程序。ST-GSP架构被用于预训练和微调。[PRE]是一个可学习的嵌入。只使用预训练模型中的transformer编码器的参数和可学习嵌入的[PRE]的参数对微调模型进行初始化。在微调过程中，对所有参数都进行微调。

图4为TaxiBJ数据集上的多头自注意力热图。

图5为训练ST-GSP时构建训练集的流程简图。

图6为ST-GSP的训练流程简图。

具体实施方式

下面对本发明作进一步详细说明。

现有的方法在整合时空信息方面取得了一定的成功，但现有模型在时间维度上缺乏对全局信息和位置信息的充分考虑，这一问题可总结为以下三方面：a)模型没有考虑时间轴上的相对位置信息，导致流向图中的位置特征没有被有效的学习到。b)忽略了不同尺度的时间依赖关系之间的相关性，导致全局信息表达不准确。c)这些模型对时间序列末尾的流向图进行了预测，而没有预测时间序列末尾之前的更多的流向图，导致在学习过程中忽略了部分时间特征。

基于上面的论述，本发明提出了一种面向区域流量预测的时空全局语义表示学习方法，该方法构建了模型ST-GSP，使用模型ST-GSP解决了背景技术中的几个问题，具体而言，针对该问题的a)方面，本发明设计了一个提取时间的相对位置信息的语义流编码器。此外，编码器在每个时间间隔捕获区域流量的空间依赖性和外部因素。对于该问题的b)方面，本发明利用多头自注意力机制，同时对不同尺度的时间依赖关系进行建模，该机制可以学习全局的时间依赖关系。而对于问题的c)方面，受自监督学习的启发，本发明在时间序列上对一个区域流向图进行掩码操作，并对其进行预测，以预训练一个深度双向学习模型从其上下文捕捉表示。

为了同时考虑不同尺度的时间依赖关系之间的相关性，就必须在早期对不同尺度的时间依赖关系进行融合，如图1(b)所示。现有的方法大多使用RNN结构来捕获时间依赖关系，该方法对捕获单尺度时间依赖关系有效，但不适用于多尺度时间依赖关系的捕获。因为对于单尺度的时间依赖关系而言，其时间间隔是固定的(如1小时、1天、1周)，但是当同时处理多尺度的时间依赖关系时，时间间隔并不一定是相同的，如图1(b)中，就同时存在着三个不同的时间间隔。因此，需要一种有效的方法来捕获不同尺度的时间依赖关系。

本发明提出了一种新的面向区域流量预测的时空全局语义表示学习模型(ST-GSP)，该模型能够有效地学习到区域流的全局时间依赖关系。

具体来说，本发明设计了一个由ResNet和多层感知器组成的语义流编码器来对区域范围内的空间相关性和外部因素的影响进行建模。为了捕获不同尺度的时间依赖关系的相关性，本发明采用多头自注意力机制对全局时间依赖关系进行建模。此外，本发明探讨了自监督学习在区域流量预测中的应用。本发明在预训练阶段对部分区域流序列进行掩码操作，然后对其进行重构。本发明希望通过这种预训练方法，模型能够学习到区域流量序列的深度双向表示。

定义：

区域划分：根据不同的粒度、语义意义和道路网络，有许多的方法可以将城市划分为不同的区域。在这项研究中，本发明根据前人的工作，依据经纬度将城市划分为h×w的非重叠网格地图，地图上的每个矩形网格代表城市中的一个不同区域。

城市流量：利用GPS或者手机信号，可以方便地获取区域中人群或车辆的轨迹数据。在每个时间间隔内，本发明可以通过人群或车辆的轨迹计算出进入或离开给定区域的人群或车辆的数量，分别称为流入和流出。为方便起见，本发明将第t个时间间隔处的区域流向图表示为一个三维张量X_t∈R^2×h×w，其中第一个通道为流入，第二个通道为流出，(h，w)表示网格地图中对应的区域。

外部因素：区域流量容易受到天气条件、事件等外部因素的影响。此外，时间信息也很重要，而以前的大多数工作只使用了周内语义(即一周里的星期几)。为了更详细地表达区域流量在时间轴上的位置信息，本发明在时间信息中增加了天内语义(即一天里的几点钟)和月内语义(即一个月的几号)。具体来说，将温度和风速用最小-最大值线性归一化表示压缩到范围[0，1]之间。然后本发明将天内语义、周内语义、月内语义以及其他的外部影响因素用One-Hot编码分别编码为二进制向量。最后，本发明将所有外部数据整合到一个一维向量。在接下来的部分中，第t个时间间隔内的外部因素向量被表示为E_t。

区域流量预测：给定一系列对区域流量的历史观测数据{X₁，X₂，…，X_t-1}以及外部因素{E₁，E₂，…，E_t}，本发明的目标是预测未来时间间隔内的区域流量。

一种面向区域流量预测的时空全局语义表示学习方法，包括如下步骤：

所述融合过程融合了历史表示和未来时间间隔上的外部因素，以获取最终的表示。

S2：采用自监督学习的方法对ST-GSP进行训练。

具体的，所述S1中语义流编码器包括ResNet和多层感知器两个组件，所述ResNet叠加L层的残差单元，每个残差单元由两层卷积层组成，并省略了池化层；所述多层感知器由两个全连接层和激活函数组成。

在每个时间间隔，每个区域的流量都会受到附近区域和远处区域的影响。此外，区域流量也容易受到外界因素的影响。比如暴雨会导致流量骤降；节假日期间，流量会比平时多。因此，本发明设计了语义流编码器，该编码器能够捕捉空间依赖关系和外部因素的影响。语义流编码器结构如图2右侧所示，其输出是语义流嵌入。

具体地说，语义流编码器由两个主要组件组成：ResNet和多层感知器。通过叠加L层的残差单元，ResNet可以捕捉任意区域之间的空间相关性，每个残差单元由两层卷积层组成。本发明省略了池化层以保持空间分辨率。

对于外部因素的影响，本发明考虑了天气、节假日以及其他更详细的时间信息，包括天内语义、周内语义、月内语义、工作日/周末和昼/夜。详细的时间信息可以表示流向地图在时间轴上的位置。本发明还利用多层感知器提取外部因素向量E_t的特征。

具体的，所述S1中语义流编码器的编码过程如下：

其中*表示卷积操作，f是激活函数，

和

是可学习的参数，

表示一个历史流向地图。

M_t＝f(f(E_t·W₁+b₁)·W₂+b₂)#(2)

是外部因素的特征表示，将M_t重塑得到向量M′_t，

S113：将

和M′_t相加，并将总和输入ResNet，如下公式所示：

其中

是残差函数(两个“SELU+卷积”的组合)，

和

是可学习的参数，

为

和M′_t相加的和没有实际含义，

是第l个残差单元的输出，

是第r+1个残差单元的输出。

S114：将

重塑为向量

然后使用全连接层进行降维：

其中

是在特定时间间隔t的语义流量嵌入，d_model是嵌入维度；W₃和b₃分别是权重和偏置。

S115：给定时间近邻性的输入流向图

周期的输入流向图

和趋势的输入流向图

周期的语义流嵌入

和趋势的语义流嵌入

具体的，所述S1中transformer编码器由交替的MSA层和MLP块组成；在每个MLP块之前应用层归一化LN，并在每个MLP块之后应用残差连接；所述MLP有两层，且使用GELU激活。

在时间依赖建模方面，现有的神经网络包括RNN和LSTM只能捕获短期的时间依赖，而对长期依赖的学习效率较低，这可能会对区域流量预测产生很大影响。为了解决这一问题，以往的工作利用严格的周期性，将时间临近性视为短期时间依赖，将周期和趋势视为长期依赖，并对这些输入分量分别进行处理以提取特征。然后将这些特征结合起来进行区域流量预测。然而，这些方法忽略了不同尺度的时间依赖之间的相关性。

为了捕捉不同尺度之间的全局时间依赖性，并受多头自注意机制优势的启发，本发明引入了一种多层双向transformer编码器来学习任意两个时间间隔之间在时间尺度上的关系。

本发明在序列

前添加一个可学习的嵌入，其在transformer编码器输出的状态用作未来时间间隔的语义流嵌入的表示。为了利用序列的顺序，以前的工作通常注入有关序列中的相对或绝对位置的信息。但是，本发明没有显式地使用位置编码，因为外部因素包含详细的时间信息，并且本发明的语义流编码器可以从外部因素中学习位置编码。

标准的qkv自注意(SA)函数可以描述为将查询和一组键-值对映射到输出的过程。在实践中，查询、键和值被打包到矩阵Q、K和V中。多头自注意(MSA)是SA的扩展。MSA允许模型在不同位置联合关注来自不同表示子空间的信息。对于输入的长度为H的序列

中的每个元素，本发明计算序列中所有值V的加权和。然后本发明并行运行k个被称为“头”的自注意操作，并投影它们的联合输出。为了在更改k，D_k时保持计算和参数数量不变，通常将其设置为d_model/k。

具体的，所述S1中transformer编码器的编码过程如下：

S121：多头自注意MSA中对于输入的长度为H的序列

[Q，K，V]＝zU_qkv#(5)

MSA＝[SA₁(z)，SA₂(z)，...，SA_k(z)]U_msa#(7)

其中

Q、K和V分别表示多头自注意MSA中查询、键和值分别打包得到的矩阵。

z₀＝[F_pre，F^c，F^p，F^q]

z_n＝LN(MSA(z_n-1)+z_n-1) n＝1，...，N#(8)

z_Nn＝LN(MLP(z_n)+z_n) n＝1，...，N

其中

具体的，所述S1中融合过程由两个主要部分组成：全连接层和多层感知器；第一个模块即全连接层将表示与未来时间间隔的历史表示合并，第二个模块即多层感知器将表示与外部因素融合。

具体的，所述S1中融合过程的具体步骤如下：

公式如下：

其中W₄和b₄是权重和偏置，

是一种考虑全局时间依赖性的表示。

在第二个模块中，使用多层感知器提取未来时间区间的外部因素特征，生成外部表示M_T，由于未来时间间隔T的天气信息是未知的，本发明使用时间间隔T-1的近似天气。然后将

与M_T合并，公式如下：

其中tanh是激活函数，

将

重塑得到

即为预测的区域流量。

所述S2中采用自监督学习的方法对ST-GSP进行训练，所述ST-GSP的训练包括预训练和微调两个阶段；预训练任务是流向地图重建，ST-GSP架构则分别用于预训练和微调。具体地说，对于每个回合，从序列中循环掩蔽一个流向地图，该流向地图由贴近度和预测目标组成。也就是说，将其语义流嵌入替换为一个可学习的嵌入F_pre，然后对掩蔽流图进行预测。预测目标处的流向地图总是被F_pre替换。对于微调，只需要使用预先训练的参数来初始化transformer编码器和在ST-GSP中的可学习嵌入F_pre，并使用来自预测任务的数据对所有参数进行微调。通过自监督学习可以提高深度双向transformer编码器的表示能力。

具体的，采用自监督学习的方法对ST-GSP进行训练的具体过程如下：

包含l个近邻流量图，

包含d个周期流量图，

包含w个趋势流量图，序列(E_t，E^c，E^p，E^q)是序列(X_t，{X^c，X^p，X^q})所对应的外部因素。

S202：对ST-GSP中的参数进行初始化，并对ST-GSP进行预训练；

S211：令s＝当前迭代次数％(l+1)；

表示，j＝1，2…J，g＝1，2…G，j表示一个序列中的元素，g表示序列的序号；

在第g个实例中选择第j＝s+1个元素作为预测目标；

所有预训练样本构成预训练样本集D₁；

S213：从D₁中随机采样b个预训练样本；

其中，X_t表示训练样本对应的真实值，

为ST-GSP模型输出的预测值；在预训练阶段，X_t表示预训练样本对应的真实值，

为ST-GSP模型输出的预训练样本的预测值；在微调阶段，X_t表示微调训练样本对应的真实值，

为ST-GSP模型输出的微调训练样本的预测值。

根据当前迭代次数的损失反向传播更新ST-GSP的参数；

S215：是否达到预训练的最大迭代次数，如果达到预训练最大迭代次数，则将当前ST-GSP作为次优ST-GSP，并执行S221(即对次优ST-GSP进行微调)，如果没有达到预训练最大迭代次数，则返回S211；

所有微调训练样本构成微调训练样本集D₂；

S222：从D₂中随机采样b个微调训练样本；。

S223：将b个微调训练样本输入次优ST-GSP中，得到b个微调训练样本的对应的预测值，再采用公式(11)计算b个预测损失的平均值作为当前迭代次数的预测损失；；

根据当前迭代次数的损失反向传播更新次优ST-GSP的参数；

S224：是否达到微调训练的最大迭代次数，如果达到微调训练最大迭代次数，则将当前次优ST-GSP作为最优ST-GSP；如果没有达到预训练最大迭代次数，则返回S221。

具体的，所述S3预测待预测时间点的流量的过程如下：

获取待预测时间点前面一段时间内的历史数据，从该历史数据中划分出三个尺度的输入流向图和每个尺度对应外部因素作为最优ST-GSP的输入，最优ST-GSP的输出即是预测待预测时间点的流量。

实验验证：

在实验中，首先在两个具有不同类型流量的真实数据集上进行实验，以评估本发明方法的性能。其次，进行了消融研究，以证明本发明方法建立的模型中每个组件的有效性。第三，本发明研究了超参数是如何影响本发明模型的性能。最后，本发明举例说明transformer编码器的注意力矩阵，以解释全局时间依赖的有效性。

实验设置

1.数据集

本发明在两个广泛用于区域流量预测的数据集上进行了实验：TaxiBJ和BikeNYC。这两个数据集的详细信息如表1所示。

表1：两个数据的描述信息

TaxiBJ。该数据集由北京4个不同时期的34000多辆出租车的GPS轨迹数据生成。该数据集共包含22459张可用流向地图，大小为2×32×32，每个流向地图每半小时统计一次流入和流出。外部因素包括天气条件，温度，风速，以及41个类别的假期。本发明选取过去28天的数据作为测试数据，其他几天作为训练数据。

BikeNYC。此数据集由来自NYC自行车的GPS轨迹数据生成。该数据集共包含4392个可用流向地图，大小为2×16×8，每个流向地图每小时统计一次流入和流出。本发明使用最近10天的数据进行测试，其他时间用于训练。

2.基线

本发明将ST-GSP模型与以下baselines进行比较:

HA：历史平均(HA)简单地通过对对应时段的历史流量进行平均来预测未来流量，例如周五上午8：30-9：00，其对应时段均为所有历史星期五上午8：30-9：00之间的历史时段。

ARIMA：自回归综合移动平均(ARIMA)是一种著名的时间序列模型，它利用过去的时间序列数据来预测未来的趋势。利用该模型分别对各地区的流入和流出进行了预测。

SARIMA：季节ARIMA(SARIMA)是ARIMA的变体，它考虑季节性条件。

VAR：向量自回归(VAR)是一种著名的多元模型，它能够捕捉多个时间序列之间的成对关系。

Deepst：这是一个基于深度神经网络(DNN)的模型，它利用三个时间特性和外部因素预测区域流量。

ST-ResNet：这是Deepst的高级版本，它进一步使用基于卷积的残差网络对每个区域之间的空间相关性进行建模。

ATFM：ATFM由两个与卷积层相连的渐进式卷积长期短期记忆(ConvLSTM)单元组成，用于预测区域流量。

3.实现细节

本发明的ST-GSP模型是使用PyTorch在NVIDIA RTX 3090上实现的。在评价过程中，本发明使用Min-Max归一化方法将区域流量调整到[-1，1]，并将预测值重新调整到正常值。本发明使用16个大小为3×3、步长为1的滤波器设置所有卷积，ResNet中的激活函数为SELU。本发明在TaxiBJ数据集上使用12个残差单元，在BikeNYC数据集上使用两个残差单元。在transformer编码器中，本发明使用了两层和八头。时间临近性长度、周期长度和趋势长度分别设置为3、1、1。小批批量大小为32，初始学习率在前50个回合为2e^-4，在50回合之后为e^-4，在70回合之后为5e^-5，在80回合之后为2e^-5，在90回合之后为e^-5。本发明通过ADam优化来优化网络参数。

4.评估指标

本发明使用平均绝对值误差(MAE)和均方误差(RMSE)来评估模型的性能。

其中，

和x_t分别表示预测流向地图以及其表示，z表示测试集中所有样本的数量。

表2：不同方法在TaxIBJ和BikeNYC两个数据集上的性能比较。本发明的方法在两个数据集上都优于现有的最先进的方法。

5.与基线的比较

表2展示了本发明模型分别在TaxiBJ和BikeNYC数据集上的七种不同模型进行比较的结果。每列的最佳结果以粗体突出显示。RMSE或MAE的值越低，表示性能越好。结果表明，本发明的ST-GSP模型在两个数据集上都显著优于RMSE和MAE中的所有竞争基线。这证明了本发明模型的有效性。

具体来说，传统模型的性能更差。HA通过平均历史流量来预测未来流量，这种简单的方法在两个数据集上的性能都最差。ARIMA、SARIMA和VAR都考虑了时间序列的线性关系，并取得了一些进展。然而，ARIMA、SARIMA和VAR的性能仍然很差。这是因为这些方法只基于线性时间序列模型，忽略了区域间的空间依赖性。由于DeepST、ST-ResNet和ATFM能够学习非线性时空关系的深度学习模型，采用了深度学习技术，它们的性能更好。本发明的方法优于DeepST、ST ResNet和ATFM。在TaxiBJ数据集上，与最佳模型相比，本发明的方法将RMSE从15.32降低到14.72。在BikeNYC上，本发明的方法也提高了预测准确度，并将RMSE从5.84降低到了5.71。实验结果表明，本发明提出的方法优于所有竞争对手，具有显著的优势。

6.消融研究

本发明模型主要由三个组件组成：语义流编码器、transformer编码器和融合过程。此外，使用自监督学习来提高深度双向变压器编码器的表示能力。为了评估每个组件的贡献，在TaxiBJ数据集上实现了本发明模型的六个变体：

ST-GSP-w/o-Ext：从语义流编码器中删除多层感知器，并直接将流表示作为语义流嵌入。

·ST-GSP-w/o-Time：从外部因素中删除时间信息。

·ST-GSP-w/o-ResNet：在语义流编码器中直接使用全连接层替换ResNet，然后结合外部因素生成语义流嵌入。

·ST-GSP-w/o-TransformerCoder：采用语义流嵌入F_t作为输入并学习双向LSTM层的时间表示

·ST-GSP-w/o-Fusion：直接使用F_pre的transformer编码器输出端的状态

作为预测流量表示

·ST-GSP/ST-GSP+SSL：利用自监督学习/不用自监督学习，使用本发明提出的模型预测未来的区域流量。

表3：模型的不同变体在TaxiBJ数据集上的结果

实验结果如表3所示。ST-GSP-w/o-EXt表现出最差的性能，与ST-GSP相比，其对应的RMSE值升高了1.65。这一现象表明，在本发明的方法中，外部因素是最重要的。这是因为外部因素作为语义信息，对于语义流嵌入是必不可少的，而外部因素中的时间信息在transformer编码器中被视为位置编码。与ST-GSP相比，变体ST-GSP-w/o-Time对应的RMSE值高出了0.97。这验证了时间信息的有效性。变体ST-GSP-w/o-TransformerEncoder的RMSE为15.21。这证明了多头自注意模型优于双向LSTM模型，因为双向LSTM模型不能有效地建模全局时间依赖性。本发明还探讨了仅直接使用全连接层来建模空间依赖关系，这使得RMSE高出了0.39。因此，各区域之间的全球空间依赖性不容忽视。另一个重要的观察结果是ST-GSP优于ST-GSP-w/o-Fusion，这表明本发明提出的融合策略有助于提高预测性能。总的来说，ST-GSP通过联合使用所有组件优于所有变体。此外，自监督学习被证明是有效的，它将RMSE降低了0.1。这种现象表明，通过自监督学习，transformer编码器的表示能力得到了提高。

7.多头自注意力分析

为了说明transformer编码器是否真的捕获了动态全局时间依赖关系，将F_pre的注意力矩阵可视化，注意力矩阵是transformer编码器最后一层的输出，如图4所示。

具体来说，本发明在一天中选择六个测试点(图中的六个小标题)及其对应的历史值

横轴表示transformer编码器的输入，纵轴表示transformer编码器的注意力头。表格中间的针对每个输入的F_pre的注意力权重值。本发明观察到，每个测试数据的注意力矩阵是不同的，这证明transformer编码器可以对动态全局时间依赖关系进行建模。此外，本发明观察到在大多数情况下，F_pre对自身的权重最大，说明可学习的嵌入F_pre学习了预测流向图的表示。另外，F_pre对每个注意力头的时间临近性、周期和趋势的注意力权重不同，这一现象表明transformer编码器共同关注了来自于不同表示子空间的信息。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。