CN112257918A

CN112257918A - 基于内嵌注意力机制的循环神经网络的交通流量预测方法

Info

Publication number: CN112257918A
Application number: CN202011119621.3A
Authority: CN
Inventors: 吕宜生; 魏泽兵; 李志帅; 刘皓; 王飞跃
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-22
Anticipated expiration: 2040-10-19
Also published as: CN112257918B

Abstract

本发明属于智能交通领域，具体涉及了一种基于内嵌注意力机制的循环神经网络的交通流量预测方法，旨在解决现有技术无法在保持相同或提升预测精度和预测效果的同时，减少模型训练参数、缩短模型训练耗时的问题。本发明包括：获取各检测站点的历史交通流量数据；将数据处理成以τ为时间间隔的连续等时长的数据集；将数据集按照各检测站点的的空间分布排列成交通流量数据矩阵；将交通流量数据矩阵分割为样本数据集；利用内嵌注意力机制的循环神经网络模型提取数据集之间的时空特征；采用单层全连接网络预测得到下一时刻的交通流量预测结果。本发明在保证预测准确度的同时，极大缩小了模型的训练参数量、节约了计算资源、缩短了训练耗时。

Description

基于内嵌注意力机制的循环神经网络的交通流量预测方法

技术领域

本发明属于智能交通领域，具体涉及了一种基于内嵌注意力机制的循环神经网络的交通流量预测方法。

背景技术

准确、实时的交通流预测对于缓解交通拥堵、规划出行路径至关重要，如何实现更准确的、高效的交通流预测一直是国内外的研究重点。随着深度学习的快速发展，LSTM、GRU等模型逐渐被广泛应用于交通预测，LSTM、GRU等模型凭借其循环的机制能很好的挖掘交通流量数据之间的时空特征，在交通流量预测中表现出比较优异的性能。但是，LSTM、GRU模型由于其单元内部多个“门结构”的特征，导致其训练参数量大，训练过程耗费时间长，占用更多的计算资源。特别是在针对大规模路网的交通流量预测任务时，用常规的LSTM、GRU方法需要巨大的计算资源保障，而且会耗费更长的训练时间。

RNN模型可以挖掘历史数据和下一阶段的数据之间的关联性，在每个字的前后有语义联系的自然语言处理中，或者在视频图像处理中，或者在气象观测数据、股票交易数据以及交通数据预测方面可以起到很好的效果，并且RNN模型的参数相对较小，因而将RNN模型应用到交通流量预测中已成为一种趋势。然而单纯采用RNN模型进行交通流量预测，无法提取数据中与当前任务目标更关键的隐藏特征，因而，预测精度和预测效果还未能达到预期。

注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。为此，本发明将注意力机制嵌入RNN模型中，在保留循环机制优势的同时，利用注意力机制在ARNN单元内部对提取到的隐藏特征进行加权，在给模型每一时间步的学习过程中指定一个学习重点的同时，也可以在时间维度上扩展注意力元素，使模型关注重点信息进行学习，在维持相同或稍优预测准确度的同时，相比LSTM与GRU训练参数分别减少了50％和30％，使得模型资源消耗更少，训练耗时更短。

发明内容

为了解决现有技术中的上述问题，即在使用循环神经网络时，现有技术无法在保持相同或提升预测准确度的同时，减少模型训练参数、缩短模型训练耗时的问题，本发明提供了一种基于内嵌注意力机制的循环神经网络的交通流量预测方法，该方法包括：

步骤S10，获取待预测站点所处路段各检测点的历史交通流量数据；

步骤S20，将所述历史交通流量数据以设定时间间隔τ划分并进行数据累加，获得连续等时长的历史交通流量数据集合；

步骤S30，将所述历史数据集合按照路段各检测点的空间分布排列，获得历史交通流量数据矩阵；

步骤S40，将注意力机制嵌入RNN神经网络构建隐藏时空关系特征提取模型，并通过时间窗口将所述历史交通流量数据矩阵分割为长度为κ的n个样本数据，获得样本数据集；

步骤S50，基于所述样本数据集，通过所述隐藏时空关系特征提取模型提取数据集之间的隐藏时空关系特征；

步骤S60，基于所述数据集之间的隐藏时空关系特征，通过单层全连接网络预测获得所述待预测站点下一时刻的交通流量预测结果。

在一些优选的实施例中，步骤S20包括：

步骤S21，将所述历史交通流量数据以设定时间间隔τ划分，获得划分后的数据段集合；

步骤S22，分别对所述数据段集合中的数据段进行数据累加，获得连续等时长的历史交通流量数据集合。

在一些优选的实施例中，所述历史交通流量数据矩阵，其表示为：

其中，

表示第i个检测站点的历史交通流量数据，

表示第i个检测站点划分的第j个时间间隔τ内的历史交通流量数据的累加。

在一些优选的实施例中，所述隐藏时空关系特征提取模型，其内部转换函数的公式表示为：

α_i＝softmax(s_i)

其中，w_h、w_s为权重矩阵参数；b_h、b_s为对应的偏置参数；tanh为双曲正切激活函数；x_t代表t时刻的输入数据；

代表基于t时刻输入数据所提取的t时刻临时隐藏状态；s_i代表注意力层的隐藏状态，其中i∈[1,2,3,…,m]，表示沿特征维度展开的m个向量；α_i代表注意力权重；h_t和h_t-1分别代表t时刻和t-1时刻隐藏层状态，包含对应输入数据之间的隐藏时空关系特征；μ代表可选择的激活函数；λ代表可训练的残差链接权重参数。

在一些优选的实施例中，步骤S60中通过单层全连接网络预测获得所述待预测站点下一时刻的交通流量预测结果，其方法为：

其中，σ为sigmoid激活函数；w、b分别为全连接预测层的权重矩阵与偏置；；

为对应预测值；h_t为t时刻模型隐藏层状态，包含对应输入数据之间的隐藏时空关系特征。

在一些优选的实施例中，所述时空关系特征提取模型，其训练集与测试集相较于样本数据集的比例关系为：

数据数量大于设定阈值时，训练集与测试集的比例关系为7:3；

数据数量小于设定阈值时，训练集与测试集的比例关系为9:1。

在一些优选的实施例中，所述样本数据的长度κ为所述隐藏时空关系特征提取模型的输入数据序列长度。

本发明的另一方面，提出了一种基于内嵌注意力机制的循环神经网络的交通流量预测系统，该系统包括以下模块：

数据获取模块，用于获取待预测站点所处路段各检测点的历史交通流量数据；

数据划分模块，用于将所述历史交通流量数据以设定时间间隔τ划分并进行数据累加，获得连续等时长的历史交通流量数据集合；

数据排布模块，用于将所述历史数据集合按照路段各检测点的空间分布排列，获得历史交通流量数据矩阵；

模型构建模块，用于将注意力机制嵌入RNN神经网络构建隐藏时空关系特征提取模型；

数据分割模块，用于根据所述隐藏时空关系特征提取模型的输入数据序列长度κ，通过时间窗口将所述历史交通流量数据矩阵分割为长度为κ的n个样本数据，获得样本数据集；

隐藏时空特征关系提取模块，用于基于所述样本数据集，通过所述隐藏时空关系特征提取模型提取数据集之间的隐藏时空关系特征；

预测模块，用于基于所述数据集之间的隐藏时空关系特征，通过单层全连接网络预测获得所述待预测站点下一时刻的交通流量预测结果。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于内嵌注意力机制的循环神经网络的交通流量预测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于内嵌注意力机制的循环神经网络的交通流量预测方法。

本发明的有益效果：

(1)本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法，在传统循环神经网络的基础上，在其单元内部引入注意力机制，此方法在保留循环机制提取序列数据特征优势的同时，利用注意力机制在模型单元内部对提取到的隐藏特征进行加权，在给模型每一时间步的学习过程中指定一个学习重点的同时，也可以在时间维度上扩展注意力元素，使模型关注重点信息进行学习，加快了模型的训练效率，并且能保证相近甚至更优的预测精度和预测效果。

(2)本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法，其参数相比LSTM模型和GRU模型分别减少50％和30％，因而模型计算资源消耗更少，训练耗时更短。

(3)本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法，输入模型的时间序列数据较短，一定程度上避免了梯度消失和梯度爆炸发生，由此能更好地体现本发明方法的优势。

(4)本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法，采用了加权残差连接，使模型的梯度可以直接部分回传到上一时间步，缓解了梯度消失和梯度爆炸。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法的流程示意图；

图2是本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法一种实施例的模型内部单元结构图；

图3是本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法一种实施例的模型内部单元执行机制示例图；

图4是本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法一种实施例的模型中注意力机制的工作效应示例图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于内嵌注意力机制的循环神经网络的交通流量预测方法，本方法为了减少模型训练参数，节约计算资源，并进一步缩短训练耗时，在传统循环神经网络(RNN,Recurrent Neural Network)的基础上，在其单元内部引入注意力机制，构建了一种内嵌注意力机制的循环神经网络模型(ARNN,Attention Recurrent Neural Network)，此方法在保留循环机制的同时，利用注意力机制在ARNN单元内部对提取到的隐藏特征进行加权，在给模型在每一时间步的学习过程中指定一个学习重点的同时，也在时间维度上扩展了注意力元素，使模型关注重点信息进行学习。

ARNN模型结合了注意力机制与循环神经网络的优点，用此方法进行交通流量预测时，相比RNN循环神经网络，ARNN具有更高的预测准确度和更优的预测效果；相比LSTM方法，ARNN的训练参数减少了50％，消耗更少的计算资源，耗费更少的训练时间，且预测效果能够相近甚至有时优于LSTM；相比GRU，ARNN的训练参数减少了30％，计算资源消耗更少，训练耗时更短，而且能够保持相近甚至更优的预测精度和预测效果。

另外，本发明的ARNN模型在交通流量预测任务中，输入模型的时间序列数据较短，一定程度上避免了梯度消失和梯度爆炸发生，而且，本发明内部所使用的加权残差连接结构，也能够进一步缓解梯度消失和梯度爆炸问题，由此能更好地体现本方法的优势。

本发明的一种基于内嵌注意力机制的循环神经网络的交通流量预测方法，该方法包括：

为了更清晰地对本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于内嵌注意力机制的循环神经网络的交通流量预测方法，包括步骤S10-步骤S60，各步骤详细描述如下：

步骤S10，获取待预测站点所处路段各检测点的历史交通流量数据。

获取的历史交通流量数据在模型训练中可作为训练集，而在模型应用中可作为测试集，也可以按照一定的比例划分为训练集和测试集，本发明一个实施例中，根据数据量的大小进行不同比例的训练集和测试集的划分：

在数据数量大于设定阈值时，将训练集与测试集根据比例7:3进行划分；

在数据数量小于设定阈值时，将训练集与测试集根据比例9:1进行划分。

在数据数量较少，很难支撑模型训练时，还可以通过一些方法提高样本的利用率，从而实现模型的训练，例如：简单交叉验证法、K折交叉验证法、留一法等等，本发明在此不一一详述。

步骤S20，将所述历史交通流量数据以设定时间间隔τ划分并进行数据累加，获得连续等时长的历史交通流量数据集合。

本发明一个实施例中，设定时间间隔τ＝5min。

步骤S30，将所述历史数据集合按照路段各检测点的空间分布排列，获得历史交通流量数据矩阵，如式(1)所示：

其中，

表示第i个检测站点的历史交通流量数据，

步骤S40，将注意力机制嵌入RNN神经网络构建隐藏时空关系特征提取模型，并通过时间窗口将所述历史交通流量数据矩阵分割为长度为κ的n个样本数据，获得样本数据集。

样本数据的长度κ根据隐藏时空关系特征提取模型的输入数据序列长度确定，其长度一致。

步骤S50，基于所述样本数据集，通过所述隐藏时空关系特征提取模型提取数据集之间的隐藏时空关系特征。

利用内嵌注意力机制的循环神经网络模型(Attention Recurrent NeuralNetwork,ARNN)作为隐藏时空关系特征提取模型，提取数据集之间的时空特征，其内部转换函数的公式表示如式(2)、式(3)、式(4)和式(5)所示：

α_i＝softmax(s_i) (4)

本发明一个实施例中，μ可选择tanh双曲正切激活函数、leaky激活函数、relu激活函数中的一种，在其他实施例中，也根据根据具体需求选择其他激活函数，本发明在此不一一详述。

如图2所示，为本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法一种实施例的模型内部单元结构图，包括两个双曲正切激活函数模块(tanh)，一个分类函数模块(softmax)和一个加权残差链接结构，单元的输入为当前时间节点的输入(x_t)和上一个时间节点的隐藏状态输出(h_t-1)，输出为当前时刻的隐藏层状态(h_t)，

和s分别为特征提取层的隐藏状态和注意力单元的隐藏状态，α为注意力单元输出的注意力权重。

如图3所示，为本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法一种实施例的模型内部单元执行机制示例图，其执行过程具体如下：

在t时刻，ARNN单元接收t-1时刻的隐藏状态输出h_t-1以及t时刻的输入x_t，通过与转移矩阵w_h计算来捕捉t时刻的输入x_t与前t-1时刻输入数据集之间的隐藏时空关系，并得到此时刻的一个临时隐藏状态

同时，以t-1时刻的隐藏状态输出h_t-1以及t时刻的输入数据x_t为输入，通过训练一层全连接网络，来得到隐藏状态h_t-1相对t时刻输入x_t的评分s，s由softmax函数计算得到权重α，α即表示上一时刻隐藏状态h_t-1相对t时刻输入x_t的重要程度。如图4所示，为本发明基于内嵌注意力机制的循环神经网络的交通流量预测方法一种实施例的模型中注意力机制的工作效应示例图，计算得到上一时刻隐藏状态h_t-1相对t时刻输入x_t的重要程度α后，通过对

加权得到t时刻的加权后的隐藏状态，并通过与残差链接部分求和得到t时刻最终的隐藏状态h_t。

在利用ARNN模型挖掘得到各站点历史交通流量之间的时空特征后，基于特征h_t，通过式(6)获取下一时刻的交通流量预测结果：

本发明构建基于内嵌注意力机制的循环神经网络作为隐藏时空关系特征提取模型，并进行交通流量预测，相比现有的基于LSTM、GRU的预测方法，该方法的模型具有更少的训练参数，在节约了计算资源的同时，能够训练得更快，同时也能得到相近甚至优于LSTM模型和GRU模型的预测效果。

本发明第二实施例的基于内嵌注意力机制的循环神经网络的交通流量预测系统，该系统包括以下模块：

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于内嵌注意力机制的循环神经网络的交通流量预测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于内嵌注意力机制的循环神经网络的交通流量预测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于内嵌注意力机制的循环神经网络的交通流量预测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于内嵌注意力机制的循环神经网络的交通流量预测方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于内嵌注意力机制的循环神经网络的交通流量预测方法，其特征在于，步骤S20包括：

3.根据权利要求2所述的基于内嵌注意力机制的循环神经网络的交通流量预测方法，其特征在于，所述历史交通流量数据矩阵，其表示为：

其中，

表示第i个检测站点的历史交通流量数据，

4.根据权利要求1所述的基于内嵌注意力机制的循环神经网络的交通流量预测方法，其特征在于，所述隐藏时空关系特征提取模型，其内部转换函数的公式表示为：

α_i＝softmax(s_i)

代表基于t时刻输入数据所提取的t时刻临时隐藏状态；s_i代表注意力层的隐藏状态，其中i∈[1，2，3，...，m]，表示沿特征维度展开的m个向量；α_i代表注意力权重；h_t和h_t-1分别代表t时刻和t-1时刻隐藏层状态，包含对应输入数据之间的隐藏时空关系特征；μ代表可选择的激活函数；λ代表可训练的残差链接权重参数。

5.根据权利要求1所述的基于内嵌注意力机制的循环神经网络的交通流量预测方法，其特征在于，步骤S60中通过单层全连接网络预测获得所述待预测站点下一时刻的交通流量预测结果，其方法为：

6.根据权利要求1所述的基于内嵌注意力机制的循环神经网络的交通流量预测方法，其特征在于，所述时空关系特征提取模型，其训练集与测试集相较于样本数据集的比例关系为：

7.根据权利要求1所述的基于内嵌注意力机制的循环神经网络的交通流量预测方法，其特征在于，所述样本数据的长度κ为所述隐藏时空关系特征提取模型的输入数据序列长度。

8.一种基于内嵌注意力机制的循环神经网络的交通流量预测系统，其特征在于，该系统包括以下模块：

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于内嵌注意力机制的循环神经网络的交通流量预测方法。

10.一种处理装置，包括：

处理器，适于执行各条程序；

以及存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-7任一项所述的基于内嵌注意力机制的循环神经网络的交通流量预测方法。