CN115146844A

CN115146844A - 一种基于多任务学习的多模式交通短时客流协同预测方法

Info

Publication number: CN115146844A
Application number: CN202210735909.6A
Authority: CN
Inventors: 张金雷; 杨立兴; 杨咏杰; 金广垠; 李小红; 李树凯; 高自友
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-10-04

Abstract

本发明公开了一种基于多任务学习的多模式交通短时客流协同预测方法。该方法包括：获取目标区域内三种交通模式的客流数据，包括地铁和公交的进站客流时间序列，以及出租车的流入时间序列：将获取的三种模式的客流时间序列输入到经训练的预测模型，输出后续时间段三种交通模式的流入客流信息。本发明协同考虑地铁、出租车和公交三种交通方式的进站客流并分别准确地预测不同交通方式的未来时段客流，实现对区域内多模式交通短时客流的准确预测。

Description

一种基于多任务学习的多模式交通短时客流协同预测方法

技术领域

本发明涉及交通客流预测技术领域，更具体地，涉及一种基于多任务学习的多模式交通短时客流协同预测方法。

背景技术

随着“出行即服务”(MaaS)的盛行，协同考虑多种交通模式已经成为研究热点。然而，开展多模式交通短时客流预测存在困难。首先，由于融合多种交通模式，导致其客流数据的时空特征极为复杂。其次，多模式交通客流具有差异大、波动大的特点，致使多模式交通客流难以准确预测。

近年来，随着人工智能技术与大数据的快速发展，涌现出许多针对短时客流预测的新思路、新方法。由于短时客流预测的本质是一种时间序列预测任务，与交通流预测等预测任务相似，鉴于此，下文针对国内外交通领域相关的时间序列预测模型进行综述。现有的预测模型主要划分为四类：传统的数理统计预测模型、基于机器学习的预测模型、基于深度学习的预测模型、基于多任务学习的预测模型。

传统的数理统计预测模型通常将客流或交通流视为时间序列数据，多种类型的模型被广泛应用到短时客流或交通流的预测中。例如ARIMA(差分整合移动平均自回归模型)、历史平均模型、逻辑回归模型、卡尔曼滤波模型等。然而，传统的数理统计预测模型只能获取数据的一部分信息，无法充分获取数据中的时空特性，因此，该类预测模型的预测精度提升空间有限。

基于机器学习的预测模型被广泛的应用至与交通相关的时间序列预测任务中，并实现较高的预测精度，例如贝叶斯网络、K近邻模型、支持向量机等。相较于传统的数理统计模型而言，机器学习模型取得了更好的预测结果和更高的预测精度，但在处理庞大复杂的数据时，这些模型的预测精度可能会有所下降。此外，大部分基于机器学习的模型只适用于预测单个站点或区域，很难适用于全网层面的客流预测或基于多任务学习的预测。

基于深度学习的预测模型被广泛应用于交通领域。在早期阶段，通常将深度神经网络和循环神经网络(RNN)应用于客流和交通流的预测。作为RNN的一个典型代表模型，长短时记忆网络(LSTM)十分适合处理时间序列预测任务。然而，该类模型无法捕获数据的空间特征。此外，LSTM模型无法并行执行，导致训练模型的时间较长。随着卷积神经网络(CNN)的广泛应用，基于CNN的预测模型能够全面获取蕴藏在交通数据中的空间特征。由于CNN处理数据的方式，该模型在处理交通数据时很可能会导致拓扑信息丢失，致使预测精度下降。图卷积神经网络(GCN)能够充分地获取站点或区域之间的时空相关性，但该类模型都是针对特定的任务或者特定的交通模式构建，也称为单任务学习模型。实际上，一种交通模式的客流很可能会受到其他交通模式的影响，而基于单任务学习构建的模型无法考虑多种交通模式的影响，致使在某些场景中，预测精度较低。

基于多任务学的预测模型能够同时考虑多种不同的任务。例如，基于GCN的多任务学习模型用于交通路网上的出租车需求预测，该模型将局部关系图和全局关系图视为两种不同的任务，通过多任务学习实现对出租车需求的预测。又如，通过将城市划分为若干区域，并进行区域分类，将不同类别的区域的客流预测任务视为不同任务，实现基于多任务学习的短时客流预测。但在已有研究中，将不同交通模式的客流统一视为一个区域的客流，该模型的目标是进行区域的短时客流预测，未能分别考虑不同交通模式，分别预测不同交通模式的未来客流。

综上，目前关于多模式交通短时客流预测存在如下问题：1)缺乏分别考虑地铁、公交及出租车三种不同交通模式的客流预测的方案，无法协同地预测多种交通模式未来进站客流；2)每种交通模式在工作日的客流规律较为相似，但不同交通模式的客流规律之间存在较大差异，如何合理的建模从而协同考虑不同交通模式也是既有问题之一；3)不同的交通模式客流数据不同，需要考虑如何组织数据结构。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于多任务学习的多模式交通短时客流协同预测方法。该方法包括以下步骤：

获取目标区域内三种交通模式的客流数据，包括地铁和公交的进站客流时间序列，以及出租车的流入时间序列；

将获取的三种交通模式的进站客流时间序列输入到经训练的预测模型，输出后续时间段三种交通模式的流入客流信息。

在一个实施例中，所述预测模型包括改进的Transformer层、二维卷积层和全连接层，其中，改进的Transformer层针对输入客流数据计算信息矩阵，该信息矩阵反映不同交通模式间的关联信息，每个元素代表相应交通模式的历史客流对目标交通模式客流的影响；二维卷积层采用单位卷积操作对所述信息矩阵进行处理；二维卷积层的输出与输入到改进的Transformer层的客流数据经由残差连接融合，进而输入至全连接层；全连接层输出地铁、公交及出租车三种交通模式的未来进站客流信息。

在一个实施例中，所述改进的Transformer层包含Conv-Transformer层、第一线性层、第二线性层和多头注意力机制层，Conv-Transformer层通过卷积操作计算查询向量Q；第一线性层和第二线性层利用矩阵乘法分别计算键向量K以及值向量V；多头注意力机制层用于将自注意力机制并行执行m次后，将不同自注意力机制层的结果进行拼接融合，输入至全连接层获取最终的历史客流数据的时空相关性矩阵，其中m代表自注意力机制的层数。

与现有技术相比，本发明的优点在于，提出基于多任务学习的多模式交通短时客流预测模型Res-Transformer(或称基于残差连接的转换器网络)，协同考虑地铁、公交和出租车三种交通方式的进站客流，并分别预测不同交通方式的未来时段客流，实现对区域内多模式交通短时客流的准确预测。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的自注意力机制的计算过程示意图；

图2是根据本发明一个实施例的得分矩阵原理示意图；

图3是根据本发明一个实施例的多头注意力机制示意图；

图4是根据本发明一个实施例的不同注意点的得分矩阵示意图；

图5是根据本发明一个实施例的不同多头注意力机制层的得分矩阵示意图；

图6是根据本发明一个实施例的残差网络的框架示意图；

图7是根据本发明一个实施例的基于残差连接的转换器(Res-Transformer)的框架示意图；

图8是根据本发明一个实施例的基于卷积的转换器(Conv-Transformer)的结构示意图；

图9是根据本发明一个实施例的基于多任务学习的多模式交通短时客流协同预测方法的整体框架示意图；

图10是根据本发明一个实施例的西直门和望京区域的交通客流示意图；

图11是根据本发明一个实施例的超参数调试结果示意图；

图12是根据本发明一个实施例的预测结果示意图；

附图中，heads-注意点；Bus-公交；Taxi-出租车；Subway-地铁；Conv2D-二维卷积；Linear-线性化层；Batch Size-每批数据量的大小。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提出的基于多任务学习的多模式交通短时客流预测方法，通过将不同交通模式未来进站客流的预测视为不同任务，实现多种交通模式未来进站客流的协同预测。进一步地，基于多任务学习提出了新颖的预测模型Res-Transformer，并通过真实数据集进行验证，能够准确地预测所选区域的未来进站客流，有利于实际应用。

在下文中，将分别描述对多模式交通短时客流预测问题进行定义、Transformer模型、残差网络、Res-Transformer模型以及实验案例等。

一、问题定义

定义1(区域级别交通模式信息)：令S_block、B_block、C_blcok分别代表所选定区域内地铁和公交的进站客流时间序列，以及出租车的流入时间序列。由于不同交通方式的运营时间不同，以地铁运营时间为基准，选取数据跨度为5：00-23：00，共18小时或1080分钟。设定时间粒度为30分钟，故一天共可划分为18*60/30个时间段。进站客流时间序列如下式所示。

S_block＝(s_t-L,s_t-(L-1),…,s_t-1) (1)

B_block＝(b_t-L,b_t-(L-1),…,b_t-1) (2)

C_block＝(c_t-L,c_t-(L-1),…,c_t-1) (3)

其中，s_t∈R¹,b_t∈R¹,c_t∈R¹分别表示第t个时间段，地铁和公交的进站客流时间序列，以及出租车的流入时间序列，L表示历史时间段的长度。可将所选区域内同一种交通模式对应的所有站点的进站客流进行求和，并将结果视为该区域该交通模式的进站客流，故s_t,b_t,c_t均为该时刻对应客流值。

问题定义：给定三种交通模式的历史客流数据，多模式交通短时客流预测任务旨在寻找一个函数F(·)，该函数将历史L个时间段的地铁、公交及出租车的进站客流，映射为未来第t个时间段三种交通方式的进站客流，如下式所示。

上式(4)也可简化表示，令X_t-1∈R^3×L表示函数的输入，Y_t∈R^3×1表示输出，则可简化表示为下式。

Y_t＝F(X_t-1) (5)

二、Transformer模型

Transformer模型通常用于自然语言处理。Transformer的一大特点是该模型由多头注意力机制和前向传播神经网络构成，其中多头注意力机制由多个自注意力机制构成。

在本发明实施例中，自注意力机制的输入为三个与进站客流相关的向量，即查询向量Q、键向量K以及值向量V。自注意力机制对上述三个向量计算，从而获取不同交通模式客流数据的时空相关性，提取蕴含在客流数据中的关联信息。假设历史时间段的长度为L，地铁、公交及出租车的客流输入可表述为X∈R^3×L。自注意力机制中包含三个权重矩阵，即

分别用于计算查询向量Q、键向量K和值向量V。图1展示了Q、K、V的计算过程。自注意力机制可以被定义为一个函数，表示为：

其中，

用于缩放乘积结果，Softmax(·)是激活函数，能够将输入映射至区间(0，1)。值得注意的是，

代表三种交通模式历史进站客流的得分矩阵。该得分矩阵反映不同交通模式的历史进站客流对未来进站客流数据的影响程度。

参见图2所示，假设自注意力机制的输出为P∈R^3×3，其中P的第一行为P₁代表地铁对应的输出结果。在得分矩阵中，方块的颜色越深，代表该交通模式在该时段的客流对未来客流的影响程度越高。例如，在结果P₁中，地铁的历史客流数据对地铁的未来客流数据的影响占据主导地位，其影响因子为0.70。此外，出租车与公交相比，出租车的历史客流数据对地铁未来客流的影响更加显著。

考虑到仅使用一层自注意力机制难以捕获蕴含在不同交通模式之间的联系以及客流数据的时空相关性。优选地，将多层自注意力机制集合，从而形成多头注意力机制。在多头注意力机制中，每一层自注意力机制代表一个注意点(head)，不同的注意点会关注数据中不同的特征。如图3所示，假设输入为X∈R^3×L，多头注意力机制旨在将自注意力机制并行执行m次，其中m是超参数，代表自注意力机制的层数。通过m次并行后，将不同自注意力机制层的结果进行拼接融合，输入至全连接层获取最终的历史客流数据的时空相关性矩阵。

为阐明多头注意力机制，在一个示例中，从数据集中筛选出西直门周边的数据，对原始的Transformer模型进行训练，获取了8个不同注意点的得分矩阵。依据得分矩阵的定义可知，每组输入的客流数据对应着若干组得分矩阵，为便于观察，仅选取一组得分矩阵进行分析。参见图4所示，共有8个得分矩阵，每个矩阵由9个块构成，其中每个块分别表示某种交通模式的历史客流数据对另一种交通模式未来客流数据的影响程度。图4中，块的颜色越深代表影响程度越大，依据每个矩阵中块的颜色可以发现，不同的注意点捕获客流数据中不同的特征。例如，对于2号注意点和3号注意点，即heads＝＝2和heads＝＝3，这两个得分矩阵的样式看似一个“十”字样式，且“十”字位置的格子颜色相较于其余格子而言颜色更深，表明出租车的历史客流显著影响地铁、公交和出租车这三类交通模式的未来客流，占据主导地位。此外，地铁、公交和出租车的历史客流数据对出租车的未来客流数据都有较大的影响。与上述情况相反，对于6号注意点而言，也是一个“十”字样式，“十”字位置的格子较其余格子而言颜色更浅，即得到了与2号、3号注意点完全相反的结果。由此进一步证明，单一的注意点只能提取多模式交通客流数据的局部信息，无法全面捕获不同交通模式蕴含的信息与特征。因此，为全面获取客流数据中蕴含的时空相关性以及不同交通模式之间的联系，使用多头注意力机制是必要的。

上述分析表明了使用多头注意力机制的必要性，但与单一的注意点相同，仅使用一层多头注意力机制层所能获取蕴含在客流数据内的信息是有限的。因此，为全面捕获蕴含在数据中时空相关性以及不同交通模式的关联，需要使用若干层多头注意力机制层。如图5所示，由4层多头注意力机制层所获取的一组得分矩阵，其中每层的多头注意力机制都有2个注意点。由图5可知，不同的层捕获客流数据中截然不同的信息。

三、残差网络模型

残差网络(Residualnetwork，ResNet)的新颖之处在于，通过引入残差连接(Shortcutconnection)能够有效防止因网络过深而导致的梯度消失、梯度爆炸、过拟合等问题。ResNet的框架如图6所示。通过残差链接，原始的客流数据与经过二维卷积神经网络层处理后的数据求和汇总，该操作有助于模型更好地获取客流数据时空相关性。对于多模式交通短时客流预测而言，由于二维卷积神经网络中的卷积操作，该网络能够捕获在不同时间段，不同交通模式之间的关联信息。然而在某些情况下，很可能由于不同交通模式之间关联过弱而导致关联信息无法被获取，即在数值上非常小，致使模型在训练过程中丢失信息导致模型难以训练。通过将原始输入与处理后数据求和，残差连接使得模型更加稳定，从而能够充分捕获多模式交通的联系，不会出现梯度爆炸、梯度消失等问题，同时也使得模型的训练更加简单。因此，残差网络对于多模式交通短时客流预测至关重要。

四、Res-Transformer模型

本发明基于Transformer和ResNet框架，设计了Res-Transformer模型。该模型主要包括改进的Transformer层和残差连接。Res-Transformer框架如图7所示。由于Transformer模型能够有效准确地捕捉蕴藏在多模式交通客流数据中的时空相关性，该模型在Res-Transformer模型中起到至关重要的作用。Li等(Li S,Jin X,Xuan Y,etal.Enhancing the Locality and Breaking the Memory Bottleneck of Transformeron Time Series Forecasting[J].Conference and Workshop on NeuralInformationProcessing Systems,2019,32.)首次修改Transformer的基本结构用于时间序列预测问题。其主要贡献在于，提出卷积自注意力机制(Convolutionalself-attention)，该机制对查询向量Q和键向量K的计算方式进行修改，利用卷积操作替换原始的矩阵乘法。受到该研究的启发，本发明实施例提出改进的Transformer层，如图8所示。对于改进的Transformer层，多模式交通的历史客流数据被分别输入三个不同的层中，分别计算Q、K、V。具体地，第一层是Conv-Transformer层，用于计算查询向量Q。Conv-Transformer的框架与原始的Transformer框架相同，创新点在于Conv-Transformer层通过用卷积操作计算三种向量，而不是利用矩阵乘法计算。与原始的矩阵乘法计算方法相比，卷积操作更适合处理多模式交通的历史客流数据，并且能够更加全面、充分地获取不同交通模式之间的关联信息。其余两层(Linear)分别用于计算K和V，计算方法与原始的Transformer相同。

获取Q、K、V之后，三个向量被输入至多头注意力机制层中用于获取输入历史客流数据中的时空相关性。其中，共有N层多头注意力机制层，最后一层的输出是一个矩阵，该矩阵称为信息矩阵。信息矩阵携带不同交通模式间的关联信息，其中的每一个元素分别代表该交通模式的历史客流对目标交通模式客流的影响。由于信息矩阵中每个元素所在位置具有特殊含义，因此每个元素的位置对预测多模式交通未来客流具有极为重要的意义。考虑到单位卷积操作可以保持矩阵原有的形状，并且有效地捕获信息矩阵中每个元素的关联信息，选择二维卷积神经网络层对信息矩阵进一步处理，防止信息矩阵中携带的信息丢失。通过残差连接，二维卷积神经网络层处理后的信息矩阵与原始客流数据求和汇总，最终被输入至全连接层。全连接层对所有信息及特征进行汇总和整合，获取三种交通方式的未来进站客流。

参见图9所示，所提供的基于多任务学习的多模式交通短时客流协同预测方法的整体框架包括数据预处理和预测模型两部分。具体而言，首先对数据进行预处理，筛选出目标区域，并从数据中提取出目标区域内对应三种交通模式的客流数据。例如，可采用滑动时间窗对数据进行处理，并生成模型的输入P∈R^batch×3×L，其中L代表历史时间段的长度，batch表示批处理大小。接下来，将处理好的数据输入至Res-Transformer中，利用X_t-1预测未来一个时间段t中三种交通模式的进站客流Y_t。

综上，所提供的Res-Transformer模型主要包括：若干个由Conv-Transformer层和多头注意力机制构成的改进的Transformer层，能够提取多模式交通客流数据的时空特征；残差连接用于提取多模式交通之间的关联信息，同时避免梯度消失、梯度爆炸和过拟合。

五、实验案例分析

为进一步验证本发明的效果，利用真实数据集对模型进行验证，并利用消融实验证明模型各组成部分的有效性。以下将详细介绍模型使用的数据集、评价指标及损失函数、基准模型、模型参数设置以及结果分析。

1)数据集介绍

实验基于地铁、公交和出租车的数据集开展，数据的时间跨度为2016年2月29日至2016年4月3日(约一个月)，且只考虑工作日的数据。依据下述原则划分区域：对于地铁而言，一个区域只对应一个地铁站，该地铁站的进站客流序列即为区域的进站客流序列；对于公交而言，以地铁站为中心，筛选距离地铁站1000米范围内的所有公交车站，并将所有公交车站的进站客流求和，构成公交的进站客流序列；对于出租车而言，以地铁站为网格中心，筛选3×3的网格作为出租车的对应区域，如图10所示的西直门和望京区域，并将网格数据求和汇总，形成出租车的进站客流序列。依据数据集筛选出西直门和望京区域的地铁、公交和出租车三种交通模式的进站客流。由于三种交通模式的运营时间不同，为统一便于数据对齐可以选择地铁的运营时间为基准，即5：00-23：00(18小时或1080分钟)，对三种交通模式的数据进行筛选。设定的时间粒度为30分钟，故一天共有36个时间段，此外，所有数据都通过max-min归一化至区间(-1，1)。

2)评价指标及损失函数

例如，选择均方根误差(Root mean square error，RMSE)、加权平均绝对百分比误差(Weighted mean absolute percentage error，WMAPE)及平均绝对误差(Mean squareerror，MAE)作为模型表现的评价指标，其定义如下。

其中，y_i为预测值，

为真实值，m为输入客流序列的总长度。

此外，可使用均方误差(MSE)计算每种交通模式的损失。多任务学习的损失函数定义为三种交通模式的损失求和，表示为：

其中，

和

分别代表，第i种交通模式在第j个时间段对应客流的真实值和预测值，m为输入客流序列的总长度。

3)基准模型

在实验中，将所提出的Res-Transformer模型与以下几个模型进行对比，以证明有效性。所有的模型在一台带有i7-8700K处理器(12M缓存，频率最高4.7GHz)，32GB运行内存，以及NVIDIA GeForce GTX 3070显卡的台式机进行运算。

反向传播神经网络(BPNN)：作为传统的机器学习模型，BPNN由若干全连接层构成。所使用的BPNN包含三层全连接层，神经元的个数分别为128、32和3。输入为三种交通模式历史12个时间段的进站客流数据，输出为未来一个时间段三种交通模式的进站客流。

一维卷积神经网络(CNN-1D)：使用的CNN-1D模型包括一层一维卷积层，其中滤波器个数为16，卷积核大小为3，stride为1，padding为1。三种交通模式被视为三个不同的通道，并输入至CNN-1D进行处理。CNN-1D的处理结果被输入至两层全连接层，用于获取未来的进站客流，其神经元个数分别为64和3。

二维卷积神经网络(CNN-2D)：使用了普通的二维卷积层以及三层全连接层构建CNN-2D模型。其中，对于二维卷积层，卷积核大小为3×3，stride为1，padding为1，滤波器个数为8。与CNN1-1D不同，CNN-2D将三种交通模式视为一个矩阵，因此输入的通道数为1；对于全连接层，其神经元个数分别为64、32和3。

长短时记忆网络(LSTM)：使用的LSTM模型由三个隐藏层构成，每个隐藏层都有32个神经元。此外，模型使用四层全连接层用于处理LSTM的处理结果，其神经元个数分别为128、64、32和3。该模型的输入与BPNN相同。

ConvLSTM：使用的ConvLSTM模型由三层ConvLSTM层以及三层全连接层组成。具体而言，对于ConvLSTM层，每层ConvLSTM层中包含一层二维卷积层，该二维卷积层滤波器的个数均设置为64；对于全连接层，其神经元个数分别为64、32和3。该模型的输入与CNN-2D相同。

ST-ResNet：使用的ST-ResNet模型中共有一个残差块，其中包括两层二维卷积层，滤波器的个数均为8，卷积核的大小为3×3，stride为1，padding为1。此外，模型还包括四层全连接层，其神经元个数分别为128、64、32和3。该模型的输入与CNN-2D相同。

Transformer：使用6个相同的层构成Transformer模型的编码层(Encoder)。对每一层而言，注意点的个数为8，权重矩阵的维度d_Q、d_K及d_V均设定为32。Transformer的处理结果被输入至四层全连接层中，其神经元的个数分别为128、64、32和3。该模型的输入与BPNN相同。

4)模型参数设定及超参数调试

对于Res-Transformer而言，历史的进站客流首先被输入至四层改进的Transformer层，用于获取信息矩阵。改进的Transformer中，前向传播神经网络由两层全连接层构成，用于信息矩阵的降维。其中，第一层全连接层的神经元个数为128，第二层全连接层神经元的个数为历史时间段的长度。值得注意的是，在实验中，将历史时间段的长度视为超参数。进一步，信息矩阵被输入至两层二维卷积神经网络层，其中卷积核(Kernel)大小为3×3，stride为1，padding为1，滤波器(Filter)个数为8。通过残差连接，处理后的信息矩阵与原始输入相加汇总，并输入至4层全连接层，用于获取未来时间段的客流数据，其中，全连接层内的神经元个数分别为128、64、32和3。除上述参数外，Res-Transformer还存在4个超参数需要考虑，即权重矩阵的维度d_q、d_k及d_v、历史时间段的长度、改进的Transformer层中注意点的个数以及batch的大小。对于权重矩阵的维度d_Q、d_K及d_V，例如设定集合(4、8、12、16、20、24、28、32)，在集合内寻找最优值。对于改进的Transformer层中的注意点，例如设定搜索区间为[2，10]，步长为1。对于历史时间段的长度，例如设定搜索区间为[5，15]，步长为1。对于batch的大小，例如设置集合(2，4，8，16，32，64，128)，在集合内寻找最优值。超参数调试结果如图11所示。对于权重矩阵的维度d_Q、d_K及d_V，最优值为12；对于历史时间段的长度，最优值为12；对于改进的Transformer层中注意点的个数，最优值为4；对于batch而言最优值为4。

5)实验结果分析

实验结果参见表1-2，其中表1对应西直门区域(XZM)、表2对应望京区域(WJ)。

表1区域级别多模式交通短时客流预测模型结果比较

表2区域级别多模式交通短时客流预测模型结果比较

由上表1和2可知，对于所有交通模式而言，即表格最后一列。在两个数据集上，BPNN在所有模型中表现最差。与之相比，CNN-1D和LSTM的表现优于BPNN。基于CNN-2D的预测模型，即ConvLSTM、CNN-2D、ResNet，表现要优于上述模型。Transformer模型的结果在上述所有模型中取得了最好的结果。而本发明提出的Res-Transformer相较于所有基准模型而言，取得最低的误差，并且预测精度最高。此外，Res-Transformer模型的客流预测结果如图12所示，其中左侧三幅图对应西直门区域，右侧三幅图对应望京区域。

为进一步证明Res-Transformer模型的有效性，利用西直门数据集开展消融实验。依据控制变量原则，改变了Res-Transformer的部分结构和框架，共构建五个不同的模型，并利用RMSE、MAE及WMAPE作为评价指标，结果参见表3。五个模型的具体细节如下。

Res-Transformer(A)：该模型利用全连接层替换Res-Transformer模型中用于计算Q的Conv-Transformer层。

Res-Transformer(B)：该模型移除Res-Transformer模型中的残差连接及二维卷积神经网络层，即仅使用改进的Transformer层和全连接层。

Res-Transformer(C)：该模型移除Res-Transformer模型中二维卷积神经网络层。

Res-Transformer(D)：该模型移除Res-Transformer模型中残差链接部分。

Res-Transformer(E)：该模型使用四层原始的Transformer的编码层，替换改进的Transformer层，其余部分与Res-Transformer一致。

表3区域级别消融实验结果比较

由表3可知，对于Res-Transformer(A)和Res-Transformer(C)而言，这两种模型的预测误差远高于Res-Transformer，由此证明二维卷积的重要性。对于Res-Transformer(B)而言，实验结果表明改进的Transformer层单独使用效果不佳，即携带不同交通模式关联信息及时空相关性的信息矩阵不能直接输入全连接层，用于客流预测，需要由二维卷积神经网络层进一步处理。对于Res-Transformer(D)而言，该实验结果表明如果移除Res-Transformer中的残差连接，模型的预测误差将会略微上升。对于Res-Transformer(E)而言，该模型采用了Res-Transformer模型的框架，使用原始的Transformer的编码层替换改进的Transformer层。该模型在五个消融实验模型中取得最低的预测误差，此外，与表2相比，该模型的预测误差低于原始的Transformer。由此证明，Res-Transformer的框架能够显著提升模型的预测精度。然而上述所有模型的预测误差均高于本节所提出的模型。

从案例分析结果可以看出，Res-Transformer在多模式交通短时客流预测误差上都有显著下降，下面依据表1和表2对三个评价指标分别加以说明。由于该模型的所有参数调整均是基于西直门数据集进行的，除望京区域中的公交进站客流预测之外，Res-Transformer模型均取得最低的预测误差。

在西直门区域：对于RMSE而言，地铁进站客流从286.89下降至251.57，出租车进站客流从222.92下降至173.70，公交进站客流从143.81下降至136.30，所有交通模式汇总从225.60下降至193.25。对于MAE而言，地铁进站客流从215.36下降至183.69，出租车进站客流从171.51下降至136.30，公交进站客流从111.62下降至99.13，所有交通模式汇总从166.16下降至139.71。对于WMAPE而言，地铁进站客流从11.78％下降至10.00％，出租车进站客流从7.45％下降至5.92％，公交进站客流从10.94％下降至9.71％，所有交通模式汇总从9.68％下降至8.12％。

在望京区域，对于RMSE而言，地铁进站客流从200.04下降至196.50，出租车进站客流从225.60下降至85.54，所有交通模式汇总从140.19下降至130.14。对于MAE而言，地铁进站客流从132.30下降至113.42，出租车进站客流从134.55下降至106.75，所有交通模式汇总从95.86下降至73.81。对于WMAPE而言，地铁进站客流从15.63％下降至13.01％，出租车进站客流从9.28％下降至9.06％，所有交通模式汇总从14.68％下降至11.36％。

综上所述，本发明提出的基于多任务学习的多模式交通短时客流预测模型，通过将不同交通模式未来进站客流的预测视为不同任务，实现多种交通模式未来进站客流的协同预测。进一步地，基于多任务学习提出了新颖的预测模型Res-Transformer，并通过真实数据集进行验证，能够准确地预测所选区域地未来进站客流，并具有鲁棒性和有效性，对多模式交通系统的管理具有一定的指导意义。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于多任务学习的多模式交通短时客流协同预测方法，包括以下步骤：

获取目标区域内三种交通模式的客流数据，包括地铁和公交的进站客流时间序列，以及出租车的流入时间序列，表示为：

S_block＝(s_t-L,s_t-(L-1),…,s_t-1)

B_block＝(b_t-L,b_t-(L-1),…,b_t-1)

C_block＝(c_t-L,c_t-(L-1),…,c_t-1)

将获取的三种交通模式的进站客流时间序列输入到经训练的预测模型，输出后续时间段三种交通模式的流入客流信息，所述预测模型输入和输出之间的映射关系表示为：

其中，s_t∈R¹,b_t∈R¹,c_t∈R¹分别表示第t个时间段，地铁、公交及出租车的进站客流数据，L表示历史时间段的长度，F(·)表示映射函数。

2.根据权利要求1所述的方法，其特征在于，所述预测模型包括改进的Transformer层、二维卷积层和全连接层，其中，改进的Transformer层针对输入客流数据计算信息矩阵，该信息矩阵反映不同交通模式间的关联信息，每个元素代表相应交通模式的历史客流对目标交通模式客流的影响；二维卷积层采用单位卷积操作对所述信息矩阵进行处理；二维卷积层的输出与输入到改进的Transformer层的客流数据经由残差连接融合，进而输入至全连接层；全连接层输出地铁、公交及出租车三种交通模式的未来流入客流信息。

3.根据权利要求2所述的方法，其特征在于，所述改进的Transformer层包含Conv-Transformer层、第一线性化层、第二线性化层和多头注意力机制层，Conv-Transformer层通过卷积操作计算查询向量Q；第一线性化层和第二线性化层利用矩阵乘法分别计算键向量K以及值向量V；多头注意力机制层用于将自注意力机制并行执行m次后，将不同自注意力机制层的结果进行拼接融合，输入至全连接层获取最终的历史客流数据的时空相关性矩阵，其中m代表自注意力机制的层数。

4.根据权利要求3所述的方法，其特征在于，对于所述多头注意力机制层，每一层自注意力机制代表一个注意点，不同的注意点用于关注历史客流数据中不同的特征，每组输入的历史客流数据对应着多组得分矩阵，每个矩阵包含9个块，每个块表示一种交通模式的历史客流数据对另一种交通模式未来客流数据的影响程度。

5.根据权利要求3所述的方法，其特征在于，自注意力机制的计算表示为：

其中

用于缩放乘积结果，Softmax(·)是激活函数，用于将输入映射至区间(0，1)，

代表三种交通模式历史进站客流的得分矩阵。

6.根据权利要求1所述的方法，其特征在于，所述获取目标区域内地铁、公交及出租车三种交通模式的进站客流时间序列包括：

对于地铁模式，一个区域只对应一个地铁站，将该地铁站的进站客流序列作为区域的进站客流序列；对于公交模式，以地铁站为中心，筛选距离地铁站设定范围内的所有公交车站，并将所有公交车站的进站客流求和，构成公交的进站客流序列；对于出租车模型，以地铁站为网格中心，筛选设定网格范围作为出租车的对应区域，并将网格数据求和汇总，形成出租车的流入客流序列。

7.根据权利要求1所述的方法，其特征在于，输入到经训练的所述预测模型的三种交通模式的进站客流时间序列根据以下步骤获得：

选择地铁的运营时间为基准，确定需要进行客流数据统计的时间范围；

对地铁、公交及出租车三种交通模式的数据进行筛选，获得对应的客流数据；

以设定的时间粒度将所述时间范围划分为多个时间段；

对于各时间段内的客流数据，将所有数据都归一化至区间(-1，1)。

8.根据权利要求1所述的方法，其特征在于，训练所述预测模型的损失函数表示为：

其中，

和

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。