CN115631631B

CN115631631B - 一种基于双向蒸馏网络的交通流量预测方法与装置

Info

Publication number: CN115631631B
Application number: CN202211419913.8A
Authority: CN
Inventors: 马宇晴; 刘祥龙; 刘卫; 高雅君
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-04-07
Anticipated expiration: 2042-11-14
Also published as: CN115631631A

Abstract

本发明公开了一种基于双向蒸馏网络的交通流量预测方法与装置。在该交通流量预测方法中，包括如下步骤：从交通流量的训练数据集中随机采样至少一个交通流量时空序列；同时建立前向网络交通流量预测模型和反向网络交通流量预测模型，并在两个交通流量预测模型之间以知识蒸馏的方式构建双向复杂时空动态；利用层级特定的元适配器对前向网络交通流量预测模型和反向网络交通流量预测模型中不同层级的短期空间交互信息进行精细调整，使双向蒸馏网络完全收敛；基于双向蒸馏网络中的前向网络交通流量预测模型，获得针对当前输入的交通流量时空序列的未来预测结果。

Description

一种基于双向蒸馏网络的交通流量预测方法与装置

技术领域

本发明涉及一种基于双向蒸馏网络的交通流量预测方法，同时涉及相应的交通流量预测装置，属于智能交通技术领域。

背景技术

交通流量预测对于交通管理和公共安全而言具有重要意义。如果能够准确预测一个地区的交通流量变化情况，就可以利用交通管制、警告、提前疏散等应急机制，减少或防止各类交通事故和危害公共安全的事件发生。此外，高效的交通管控、匝道计量和许多其他交通管理策略也是物联网（IoT）的重要组成部分。但是，交通流量的预测同时受区域间交通、事件、天气等多种复杂因素影响，具有很大的挑战性，在实践中仍然是一个长期存在的研究课题。

现有技术中，有人将长短期记忆网络（LSTM）和门控循环单元（GRU）等循环神经网络引入到交通流量预测中，这有利于对交通流量时空序列数据中的长期时间依赖性进行建模。例如，在专利号为ZL 202011119621.3的中国发明专利中，公开了一种基于内嵌注意力机制的循环神经网络的交通流量预测方法，包括如下步骤：获取各检测站点的历史交通流量数据；将数据处理成以τ为时间间隔的连续等时长的数据集；将数据集按照各检测站点的空间分布排列成交通流量数据矩阵；将交通流量数据矩阵分割为样本数据集；利用内嵌注意力机制的循环神经网络模型提取数据集之间的时空特征；采用单层全连接网络预测得到下一时刻的交通流量预测结果。

但是，此类现有技术虽然增强了交通流量预测模型的性能，但有两个潜在的缺陷使它们无法获得更好的结果。一方面，它们只沿时间序列模拟前向的交通流量变化动态，而不考虑反向信息。而从直觉上看，人类既可以前向推理，也可以后向推理，有时后向推理会带来更多的洞见。人类有了向后推理和向前推理的能力，就可以充分理解给定历史数据中的双向动态，同时考虑前向推理和回溯理性进行预测。另一方面，交通流量预测模型中不同层次的空间相互作用呈现出不同的学习复杂性，它们不适合共享相似的学习范式。与高层的抽象语义交互相比，浅层的空间相关性更容易学习，简单地对每一层采用相同的学习范式会降低交通流量预测模型的预测性能。

发明内容

本发明所要解决的首要技术问题在于提供一种基于双向蒸馏网络的交通流量预测方法。

本发明所要解决的另一技术问题在于提供一种基于双向蒸馏网络的交通流量预测装置。

为实现上述发明目的，本发明采用下述的技术方案：

根据本发明实施例的第一方面，提供一种基于双向蒸馏网络的交通流量预测方法，包括如下步骤：

S1，从交通流量的训练数据集中随机采样至少一个交通流量时空序列；

S2，同时建立前向网络交通流量预测模型和反向网络交通流量预测模型，并在两个交通流量预测模型之间以知识蒸馏的方式构建双向复杂时空动态；

S3，利用层级特定的元适配器对前向网络交通流量预测模型和反向网络交通流量预测模型中不同层级的短期空间交互信息进行精细调整，使双向蒸馏网络完全收敛；

S4，基于所述双向蒸馏网络中的前向网络交通流量预测模型，获得针对当前输入的交通流量时空序列的未来预测结果。

其中较优地，在训练过程中，为所述前向网络交通流量预测模型和所述反向网络交通流量预测模型中的各层赋予初始相同的学习率，然后迭代执行步骤S1和步骤S2。

其中较优地，根据总损失函数

更新所述双向蒸馏网络的网络参数，使交通流量预测模型初步收敛；然后，迭代执行步骤S1和步骤S3，交替优化网络参数和元参数，直至交通流量预测模型最终完全收敛。

其中较优地，所述总损失函数

的计算公式如下：

其中，

为蒸馏损失函数，

为重建损失函数。

其中较优地，所述重建损失函数

采用如下公式计算：

其中，X_t是t时刻的真实交通流量数据；X’_t是前向网络交通流量预测模型预测的t时刻交通流量数据；

是反向网络交通流量预测模型预测的t时刻交通流量数据。

其中较优地，所述蒸馏损失函数

采用如下公式计算：

其中，

是前向网络交通流量预测模型预测的

时刻交通流量数据；

是前向网络交通流量预测模型预测的

时刻的潜在表征；

是反向网络交通流量预测模型预测的

时刻的潜在表征；

是反向网络交通流量预测模型预测的

时刻交通流量数据。

其中较优地，在步骤S2中，前向网络交通流量预测模型将交通流量时空序列

按时间顺序依次输入，根据

时刻的交通流量数据

，历史记忆函数

和历史隐藏状态函数

，输出

时刻的交通流量预测函数

：

其中，

表示前向网络交通流量预测模型；

表示卷积层，作用在于将潜在表征函数

投影到

时刻，指定区域内的交通流量预测函数

。

其中较优地，在步骤S2中，反向网络交通流量预测模型依次输入交通流量时空序列

，回溯前置条件

并结合历史记忆函数

和历史隐藏状态函数

，输出

时刻的潜在表征函数

：

其中，

表示反向网络交通流量预测模型；

表示卷积层，作用在于将潜在表征函数

投影到

时刻，指定区域内的交通流量预测函数

。

其中较优地，在步骤S3中，所述元适配器根据所述前向网络交通流量预测模型和所述反向网络交通流量预测模型中不同层级的学习复杂度对每一层生成相应的学习率，利用每一层的学习率对不同层级的短期空间交互信息进行精细调整。

根据本发明实施例的第二方面，提供一种基于双向蒸馏网络的交通流量预测装置，包括处理器和存储器，所述处理器读取所述存储器中的计算机程序，用于执行上述的交通流量预测方法。

与现有技术相比较，本发明所提供的基于双向蒸馏网络的交通流量预测方法与装置首次从知识转移的角度对跨越时空的交通流量预测任务进行建模，以知识蒸馏的方式构建双向复杂时空动态，并通过元学习方式细化多层级的空间相关性。它有效地捕获了交通流量时空序列的长期时间相关性和短期空间相关性，在推理过程中与基线模型相比，可以在不增加额外计算量的情况下有效提高交通流量预测的准确性。

附图说明

图1为本发明提供的交通流量预测方法中，双向蒸馏网络的生成过程流程图；

图2为本发明实施例中，基于双向蒸馏网络的交通流量预测装置示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

目前，在交通流量预测任务中，公认性能表现较好的是时空序列预测模型PredRNN-V2（关于PredRNN-V2模型的详细介绍，可以参阅链接：https://arxiv.org/abs/2103.09504）。因此，本发明实施例中也采用该时空序列预测模型PredRNN-V2作为基线模型。

在此基础上，本发明实施例首先生成一个用于交通流量预测的双向蒸馏神经网络模型（简称为双向蒸馏网络）。该双向蒸馏网络从知识转移的角度对跨越时空的交通流量预测任务进行建模，以知识蒸馏的方式构建双向复杂时空动态，并通过元学习方式细化多层级的空间相关性。在本发明的一个实施例中，该双向蒸馏网络包括前向网络交通流量预测模型和反向网络交通流量预测模型两部分。在前向网络交通流量预测模型和反向网络交通流量预测模型中，分别包含4个ST-LSTM叠加层和1个卷积层，它们之间的连接关系可以参考现有的PredRNN-V2模型，在此就不赘述了。

参见图1所示，上述双向蒸馏网络的生成过程至少包括如下步骤：S1，从交通流量的训练数据集中随机采样至少一个交通流量时空序列；S2，同时建立前向网络交通流量预测模型和反向网络交通流量预测模型，并在两个交通流量预测模型之间以知识蒸馏的方式构建双向复杂时空动态；S3，利用层级特定的元适配器对前向网络交通流量预测模型和反向网络交通流量预测模型中不同层级的短期空间交互信息进行精细调整，使双向蒸馏网络完全收敛。

下面，分别对每个步骤的具体实施过程进行说明：

首先，在步骤S1中，从交通流量的训练数据集中随机采样一个交通流量时空序列

，分别供双向蒸馏网络中的前向网络交通流量预测模型和反向网络交通流量预测模型使用。其中，

为双向蒸馏网络中，前向网络交通流量预测模型输入的交通流量时空序列，

为当前时刻

输入的特定空间区域内各个位置的交通流量数据，

为前向网络交通流量预测模型所要预测的交通流量时空序列。

类似地，将上述的交通流量时空序列

反转，得到

。其中，

为双向蒸馏网络中，反向网络交通流量预测模型输入的交通流量时空序列，

为反向网络交通流量预测模型所要预测的交通流量时空序列。

接下来，在步骤S2中，同时建立前向网络交通流量预测模型和反向网络交通流量预测模型，分别对未来和过去的交通流量变化进行双向推理；然后，构建蒸馏损失函数和重建损失函数，指导两个交通流量预测模型在保证自身预测准确性的同时，相互协作进行知识迁移。在知识迁移的过程中，一个交通流量预测模型不仅能够保持其自身的交通流量时空建模能力，而且能够学习另一个交通流量预测模型的输出结果和特征表示。

在本发明的一个实施例中，上述步骤S2中的双向推理过程，具体包括如下步骤：

前向推理：将交通流量时空序列

按时间顺序依次输入前向网络交通流量预测模型，根据t时刻的交通流量数据X_t，历史记忆函数

和历史隐藏状态函数

，输出t+1时刻的交通流量预测函数

：

其中，

表示前向网络交通流量预测模型，

表示一个卷积层，它的作用在于将潜在表征函数

投影到

时刻，指定区域内的交通流量预测函数

。

反向推理：将交通流量时空序列

以相反的顺序依次输入反向网络交通流量预测模型，回溯前置条件

并结合历史记忆函数

和历史隐藏状态函数

，输出

时刻的潜在表征函数

：

其中，

表示反向网络交通流量预测模型；

表示一个卷积层，它的作用在于将潜在表征函数

投影到

时刻，指定区域内的交通流量预测函数

。

在本发明的一个实施例中，所构建的蒸馏损失函数

采用如下公式计算：

其中，

是前向网络交通流量预测模型预测的

时刻交通流量数据；

是前向网络交通流量预测模型预测的

时刻的潜在表征；

是反向网络交通流量预测模型预测的

时刻的潜在表征；

是反向网络交通流量预测模型预测的

时刻交通流量数据。

上述蒸馏损失函数

的作用在于促使前向网络交通流量预测模型和反向网络交通流量预测模型分别输出的交通流量预测函数和潜在表征函数分别互相逼近。

相应地，所构建的重建损失函数

采用如下公式计算：

其中，

是

时刻的真实交通流量数据；

是前向网络交通流量预测模型预测的

时刻交通流量数据；

是反向网络交通流量预测模型预测的

时刻交通流量数据。

上述重建损失函数

的作用在于保证交通流量预测模型输出的交通流量预测函数的真实性和准确性，对每个交通流量预测模型预测的交通流量进行约束，使其接近于真实值。

在此基础上，整个双向蒸馏网络中的总损失函数

通过如下公式计算：

进一步地，在步骤S3中，层级特定的元适配器根据前向网络交通流量预测模型和反向网络交通流量预测模型中不同层级的学习复杂度对每一层生成相应的学习率，利用每一层的学习率对不同层级的短期空间交互信息进行精细调整，从而使双向蒸馏网络完全收敛。

在本发明的一个实施例中，针对每一层生成相应的学习率，包括如下的具体步骤：

以前向网络交通流量预测模型为例，将前向网络交通流量预测模型第

层（

）所对应的学习率（元参数）表示为

。经过一次梯度更新后的网络参数

可以表示为：

其中，

为总损失函数

针对各个网络参数的梯度。

第

层的元学习器根据不同层的学习经验进一步训练学习率：

其中

为对学习率

进行更新的更新步长，

是一个损失函数，其灵感来自于一个归纳偏置，即较浅层的学习更容易，在后续的微调中应该拥有较慢的学习率。在本发明的一个实施例中，用如下公式表示这种归纳偏置过程，并对学习率（元参数）进行正则化处理：

其中，超参数

，以保证浅层学习率小于上层学习率。在本发明的一个实施例中，超参数

可以优选设置为2。

反向网络交通流量预测模型也可以采用同样的方式进行学习。经过多次迭代更新，获得适合每一层的学习率。

接下来，利用元适配器生成的每一层级特定的学习率

、

，对前向网络交通流量预测模型和反向网络交通流量预测模型中不同层级的网络参数

、

进行针对性的更新：

通过上述步骤，可以使双向蒸馏网络中的不同层级的网络参数和元参数经过精细调整，可以更加有效地捕获交通流量时空序列中的短期空间交互信息，从而使预测的交通流量更加准确。

利用上述步骤S1～S3所获得的双向蒸馏网络在训练过程中，首先为前向网络交通流量预测模型和反向网络交通流量预测模型中的各层赋予初始相同的学习率（元参数），然后迭代执行步骤S1和步骤S2，并通过总损失函数

更新双向蒸馏网络的网络参数，使交通流量预测模型初步收敛。然后，迭代执行步骤S1和步骤S3，交替优化网络参数和元参数，直至交通流量预测模型最终完全收敛。双向蒸馏网络的网络参数根据层级特定的学习复杂性进行更新，而元参数则朝着最优收敛方向优化。在本发明的一个实施例中，在训练过程中采用两个不同的Adam优化器分别更新网络参数和元参数，其中元参数初始化为

，并以

的学习率进行优化，当元参数大于

或小于0时进行裁剪。

相应地，上述双向蒸馏网络在用于交通流量预测时，由于无法直接获得未来的交通流量数据，仅执行上述步骤S1和步骤S2中的前向推理过程（即执行步骤S4：基于双向蒸馏网络中的前向网络交通流量预测模型进行推理），获得针对当前输入的交通流量时空序列的未来预测结果，不再执行反向推理过程。因此，本发明实施例所提供的基于双向蒸馏网络的交通流量预测方法与上述基线模型如PredRNN-V2相比，并不会增加额外的计算量。

为了验证本发明实施例提供的交通流量预测方法的实际效果，发明人在具有剧烈时空流动的真实交通流量预测任务场景上进行落地使用。具体地，发明人选取了北京出租车在2013年7月1日至2013年10月30日、2014年3月1日至2014年6月30日、2015年3月1日至2015年6月30日以及2015年11月1日至2016年4月10日四个时间段的交通流量数据，数据中每一帧包含大小为32×32的两个通道，表示同一区域内各个位置的输入流量和输出流量。不同帧之间的时间间隔为30分钟，随着时间的推移呈现出剧烈和不均匀的变化。为了和其他方法进行公平的比较，本发明使用过去2小时的4帧作为输入来预测未来2小时的4帧。每一帧预测结果和真实值之间的均方误差如表1所示：

表 1

从表1中可以看到，本发明在真实交通流量预测任务场景可以取得较为优异的表现，具有较好的实用价值。

在上述基于双向蒸馏网络的交通流量预测方法的基础上，本发明进一步提供一种基于双向蒸馏网络的交通流量预测装置。如图2所示，该交通流量预测装置包括一个或多个处理器21和存储器22。其中，存储器22与处理器21耦接，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器21执行，使得所述一个或多个处理器21实现上述实施例中基于双向蒸馏网络的交通流量预测方法。

其中，处理器21用于控制该基于双向蒸馏网络的交通流量预测装置的整体操作，以完成上述基于双向蒸馏网络的交通流量预测方法的全部或部分步骤。在本发明的实施例中，该处理器21优选为GPU（图形处理单元），但也可以是FPGA（现场可编程逻辑门阵列）、ASIC（专用集成电路）、DSP（数字信号处理器）等。存储器22用于存储各种类型的数据以支持在该基于双向蒸馏网络的交通流量预测方法的操作，这些数据例如可以包括用于在该基于双向蒸馏网络的交通流量预测装置上操作的任何应用程序或方法的指令，以及应用程序相关的数据。

该存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、磁存储器、快闪存储器等。

在一个示例性实施例中，基于双向蒸馏网络的交通流量预测装置具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现，用于执行上述基于双向蒸馏网络的交通流量预测方法，并达到如上述方法一致的技术效果。一种典型的实施例为计算机。具体地说，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、公安卡口检查设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在另一个示例性实施例中，本发明还提供一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任意一个实施例中的基于双向蒸馏网络的交通流量预测方法的步骤。例如，该计算机可读存储介质可以为包括程序指令的存储器，上述程序指令可由基于双向蒸馏网络的交通流量预测装置的处理器执行以完成上述基于双向蒸馏网络的交通流量预测方法，并达到如上述方法一致的技术效果。

上面对本发明所提供的基于双向蒸馏网络的交通流量预测方法与装置进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于双向蒸馏网络的交通流量预测方法，其特征在于包括如下步骤：

S 1，从交通流量的训练数据集中随机采样至少一个交通流量时空序列；

S2，同时建立前向网络交通流量预测模型和反向网络交通流量预测模型，并在两个交通流量预测模型之间以知识蒸馏的方式构建双向复杂时空动态；其中，将交通流量时空序列x_in＝{X₁,…,X_T}按时间顺序依次输入前向网络交通流量预测模型，根据t时刻的交通流量数据X_t，历史记忆函数C_t-1和历史隐藏状态函数H_t-1，输出t+1时刻的交通流量预测函数X^′ _t+1：