CN115206092B

CN115206092B - 一种基于注意力机制的BiLSTM和LightGBM模型的交通预测方法

Info

Publication number: CN115206092B
Application number: CN202210656651.0A
Authority: CN
Inventors: 许坤波; 石运; 郝苏申; 李猛; 王云霞
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2023-09-19
Anticipated expiration: 2042-06-10
Also published as: CN115206092A

Abstract

本发明公开了一种基于注意力机制的BiLSTM网络和LightGBM模型的交通预测方法，采用增加了注意力机制的BiLSTM网络和LightGBM模型，通过同时捕获交通路网的时间依赖性即交通流的局部时间变化趋势和空间依赖性即拓扑空间结构，通过历史时间步的交通流量预测未来时间步的各个路段的交通流量，由此准确预测道路网络的交通流。本发明方法能够有效预测交通流的时空变化特征和规律，预测精度高，提升了交通流预测效果。

Description

一种基于注意力机制的BiLSTM和LightGBM模型的交通预测方法

技术领域

本发明涉及智能交通技术领域，具体涉及一种基于注意力机制的BiLSTM网络和LightGBM模型的交通预测方法。

背景技术

交通流预测被认为是发展智能交通网络的最关键和高需求的措施。它的可靠性不仅是目前为止最好的预警技术，而且有助于缓解拥堵、提供备用路线引导、有效的交通管理以及采取先进的安全措施。它也有助于建立一个基础设施网络，既能满足当前需求，又能满足未来需求，以避免交通混乱、人力不足和系统开发成本上升。可以使用网络中过去的流量行为历史来估计流量。例如，它取决于模式，包括工作日、周末、高峰时间和深夜，以及特定日期重大事件和天气条件的交通情况。为了研究、分析和预测这种模式，交通流由每小时车辆数、车道密度和车速组成。城市交通行为的不确定性导致了对精确预测方法的需求。

目前已有很多交通预测模型，以往的短期交通流预测方法大致可分为三类：参数方法、非参数方法和混合方法。参数方法包括时间序列方法和卡尔曼滤波。基于时间序列方法的广泛使用的模型是自回归综合移动平均(ARIMA)模型及其许多变体，如(KARIMA)、子集ARIMA、季节ARIMA(SARIMA)。然而，由于交通流的随机性和非线性性，这些技术只考虑交通流的时间变化，从而提供不令人满意的预测性能。非参数方法包括k-最近邻(k-NN)方法、支持向量回归(SVR)和人工神经网络(ANN)。然而，已有研究表明，用于交通流预测的k-NN方法并不优于时间序列方法。此外，传统的基于机器学习的方法利用人工构建的特征来捕捉交通流的特征，这不足以获得准确的预测性能。此外，早期基于工作的神经网络通常使用浅层网络或只有一个隐藏层的网络，这也无法捕捉交通流的不确定性和复杂非线性。

发明内容

1.所要解决的技术问题：

针对上述技术问题，本发明提供一种基于注意力机制的BiLSTM网络和LightGBM模型的交通预测方法，通过改变决策树算法的决策规则，LightGBM在不进行转换的情况下为分类特征提供直接的本地支持，准确预测城市道路网络的交通流；能够实现同时捕获城市交通路网的时间依赖性和空间依赖性从而提高交通预测精度。

2.技术方案：

一种基于注意力机制的BiLSTM网络和LightGBM模型的交通预测方法，其特征在于：包括以下步骤：

步骤一：对采集到的原始交通数据进行预处理，根据预处理后的交通流数据生成城市交通网络中节点的交通流属性特征矩阵；所述原始交通数据包括位于高速公路和市区的传感器收集的各个路段的交通流特征；所述交通流特征包括各个路段的日期及时间、车道内车辆的平均速度、每小时通过的车辆数、车道内车辆的密度；所述节点的属性特征矩阵为以路段作为节点，用特征矩阵的方式记录节点的交通流特征；

步骤二：构建城市交通网络拓扑结构图；结合节点的属性特征矩阵，根据城市交通网络的连接属性从而构建城市交通网络拓扑结构图；

步骤三：对表示路段之间的连接情况的邻接矩阵A进行标准化处理；

步骤四：通过添加了注意力机制的BiLSTM网络获取交通网中各交通节点处的交通流特征及每个时间步对该点的贡献进行分配每个时间步的相应权重，并输出该交通节点处的交通流特征的加权和；

步骤五：对步骤四中输出的每个时间步的隐藏状态及其对应的加权和作为数据集，然后将每个数据集输入到相应的LightGBM个体中进行预测其下一时间步数据集；根据其预测的结果与历史上对应的时间步的结果进行比对从而实现训练LightGBM模型；，在训练过程中采用激活TPE对训练进行优化，并且通过KCV验证预测的结果的准确性，最终得到基于注意力机制的BiLSTM网络和LightGBM模型；

步骤六：将待预测的交通流的路段信息，输入步骤五生成的模型中，获得最终的预测。

进一步地，步骤二具体包括：将交通网络拓扑结构图表示为G，G＝(V,E,A)；将每条路段看作图中的一个节点；V表示路段节点的集合，集合中的每个节点均为其对应的属性特征矩阵；E表示路段的边的集合；路段之间的连通情况由邻接矩阵A∈R^n*n表示，所述邻接矩阵A由0和1组成，0表示两条路段之间不相连，1表示两条路段之间相连，A_ij＝1表示路段v_i和v_j是相连的，A_ij＝0，则表示路段v_i和v_j不相连；

则城市交通网络拓扑结构图具体表示为如下式(1)：

进一步地，步骤三中对邻接矩阵A进行标准化处理为：

(2)式中，I为单位对角度矩阵，其除对角线上的元素外，其他元素均为0；A’为标准化后的邻接矩阵；D’表示对邻接矩阵A进行构造对角度矩阵的。

进一步地，步骤四具体包括以下步骤：

S41：构建基于BiLSTN网络的城市交通网络模块；

所述基于双向LSTM网络的城市交通网络模块包括多个双向LSTM的结构；每个双向LSTM的结构包含两个上下堆叠的单向LSTM，其中的前向通道为单向LSTM用于将数据向前传递，后向通道为单向LSTM用于将数据向后传递；将历史上的周期性交通流特征分别输入双向LSTM的结构，且通过前向通道与后向通道分别输出该通道的隐藏状态H并将输出的两个通道的隐藏状态结合起来作为双向LSTM的结构的输出；

其中，表示具有日周期性的交通流历史特征序列；/>表示具有周周期性的交通流历史特征序列，如下式表示：

公式(3)和(4)中，t^d表示日周期中最后一天中与时间t相同的时刻，t^ω表示周周期数据中上周期时间t的同一时刻；t^d-n表示日周期中第d天t-n时刻；表示日周期中的第d天t-n时刻的交通流特征；t^w-n表示周周期中第w周t-n时刻；/>表示周周期数据中的第w周t-n时刻的交通流特征；

S42：构建增加注意力机制的BiLSTN网络模型；将BiLSTM网络输出带有时序信息的隐形状态输入至注意力层，注意力层根据每一时间步对预测时间点的贡献程度不同为其训练出对应的一组权重向量集，并对该权重向量集与其对应的输入进行加权求和作为注意力层的输出；所述一组权重向量集中的每各权重向量分别对应其每个时间步中的每个交通流特征的权重；具体包括步骤S421至S423：

S421：预设BiLSTM中时间步长，每一个时间步中包含的m个隐形状态历史数据中，流动序列包括T个时间步，则将T个时间步的每个时间步的隐形状态经过训练，得到每个隐形状态的权重集，表示为s＝(s₁，s₂，··，s_m)^T，其中的时间步t的权重St如下式(5)，其中t≤m：

(5)式中，s₁，s₂，··，s_m表示在第一时间步长中m个隐藏特征的对应的权重；V_s、W_ls和W_hs均为预设的可学习的参数；

S422：计算的第k个时间步的注意值β_k，k≤T,如下式：

(6)式中S_k表示第k个时间步中各个交通流属性的权重；

S423：对每个时间步的BiLSTM层的输出经过注意力层后输出每个时间步的加权和H_t ^s，如下式：

(7)式中，表示对输入的第T个时间步的所有的隐藏状态的求出的加权和；表示输入该时间步的隐藏状态。

进一步地，步骤五中的训练LightGBM模型采用迭代训练的方法，直至其迭代次数达到预设值或者预测的果达到预设的准确度；所述迭代训练训练过程描述为如下式(9)：

公式(9)中,是第i个数据集在第tth次迭代时的预测值；f_t(x_i)表示对应树的残差；则每个新预测由其残差和前一预测生成。

进一步地，步骤六中的将待预测的交通流的路段信息，输入步骤五生成的模型中，获得最终的预测，其中的最终的预测如下式：

公式(10)中，为最终生成的交通流量预测值；/>表示模型中每个交通流特征的预测值。3.有益效果：

本发明提出了一种基于注意力机制的BiLSTM网络和LightGBM模型，在提取周期性特征方面，首先，在长短期记忆(LSTM)网络的基础上，我们开发了一个基于注意力的BiLSTM模块来提取空间和短期的时间特征。注意力机制被适当设计，通过自动分配不同的权重来区分不同时间的流量序列。与现有技术相比，在预测交通流方面，考虑到LightGBM具有能找到最佳的特征分割点，同时减少样本和特征数量等上述优点，以及在处理复杂的时间序列任务方面有着强大的能力，因此，本发明方法能够有效预测交通流的时空变化特征和规律，预测精度高，提升了交通流预测效果。

附图说明

图1为本发明方法的流程框图

图2为本发明中的BiLSTM网络结构框图；

图3为本发明中的增加注意力机制的BiLSTM网络结构框图；

图4为本发明的整体网络结构框图。

具体实施方式

下面结合附图对本发明进行具体的说明。

如附图1至附图4所示，本发明具体实施采用某城区公路上一个月时间段的交通流量数据，采用基于注意力机制的BiLSTM网络和LightGBM模型的交通预测方法进行交通流预测，具体实施步骤如下：

1)对采集到的原始交通数据进行预处理，将预处理后的数据集中的交通信息作为节点的属性特征。

2)针对城市交通网络的连接属性构建一个城市交通网络拓扑结构图G，G＝(V,E,A)，将每条路段看作图中的一个节点，V表示路段节点的集合，E表示边的集合，路段之间的连通情况由邻接矩阵A∈R^n*n表示，邻接矩阵A由0和1组成，0表示两条路段之间不相连，1表示两条路段之间相连，A_ij＝1表示路段v_i和v_j是相连的，A_ij＝0，则表示路段v_i和v_j不相连。城市交通网络拓扑结构图具体表示如下式(1)：

3)对邻接矩阵A进行标准化处理，具体计算如下：

其中，I是单位矩阵，是对角度矩阵,除对角线上的元素外，其他元素均为0,n表示路段节点的个数。对邻接矩阵进行标准化可以提升预测精度以及模型的收敛速度。

4)通过添加了注意力机制的BiLSTM网络获取交通流的特征及相应权重：

将BiLSTM网络的输出层上添加了注意力层，依据每一时间步对待预测时间点的贡献程度不同，为每一时间步训练出一组权重向量，将双向LSTM网络的输出与注意力权重进行加权求和作为模型最后的输出结果。比如BiLSTM中时间步长设置为5，每一个时间步中包含4个属性，模型经过训练，会对这些特征分别计算出相应权重，每个时间步t的BiLSTM的输出被计算为LSTM网络的输出的加权和，具体表示为：

其中，其中n+1是流动序列的长度，β_k是时间步长t-(k-1)的时间注意值。s＝(s₁，s₂，··，s_n+1)^T表示交通流序列中各部分的重要性，V_s、W_xs和W_hs是可学习的参数，是LSTM网络的隐藏输出。从(4)和(5)，我们可以看到，时间步t的注意值β取决于当前时间步t及其前n个时间步的输入/>和隐藏变量/>注意值β也可以被视为流量选择门的激活。这组闸门控制每个流进入LSTM网络的信息量。激活值越大，流量对最终预测结果的贡献越重要。

5)参数优化并进行线性转化生成交通流量预测：

对步骤4中得到的带有时空依赖性的各个时刻的输出状态H进行线性转化，然后所有个体都将被输入到相应的LightGBM模型中训练，同时激活TPE和KCV，调整优化参数，并验证准确性，最后通过求和重构子预测，获得最终预测得到各个路段的预测结果。

Hyperopt用于在搜索空间中进行串行和并行优化，这些搜索空间可能包括重新估值、离散和条件维度，使用名为Parzen估计树(TPE)的算法进行调整。通过转换生成过程、配置空间X的描述，TPE模型p(x|y)用非参数密度取代配置之前的分布。由TPE建模的p(x|y)可以得到：

TPE的每次迭代时间不仅可以在样本中线性缩放而且，通过维持已排序的观察变量，优化维度的数量也是如此。

6)计算实际交通流量与预测值的损失：

在训练过程中，我们设置了一个损失函数来更新模型中的参数，其中包含均方误差(MSE)、1个权重正则化和2个权重正则化。损失函数的定义如下：

其中λ₁、λ₂为正则化参数，ω为权重。在损失函数中，MSE被定义为预测交通流和真实交通流的均方误差：

其中F_p是预测交通流，F_t是真实交通流，n是数据集的大小。

7)进行模型评估：

为了进一步验证本发明方法的可行性和有效性，进行实验。使用基于python的深度学习库tensorflow1.8搭建交通预测模型。

模型验证：

本验证例使用某城区大部分车道进出口一个月的交通流量作为实验数据，该数据集是由相关交通部门实时采集的，实验选取340个作为研究对象，每隔5分钟计算一次交通流量。实验数据主要分为两个部分：一是描述城市路网拓扑结构的邻接矩阵，矩阵中的数值表示路段之间的连接关系；二是描述路段上交通流量的特征矩阵。在具体实验中，训练集占总数据的80％，测试集占总数据的20％。

将数据输入到图3所示的交通预测模型中，得到各个路段的预测结果，然后将预测结果与传统方法进行对比，通过使用平均绝对误差(MAE)，均方根误差(RMSE)，R2决定系数对预测结果进行评估，验证预测精度；具体计算如下：

(1)平均绝对误差(MAE):

(2)均方根误差(RMSE):

(3)R²决定系数:

其中，y_i和分别表示实际交通流量和预测流量，R²的值越大模型预测效果越好，平均绝对误差(MAE)和均方根误差(RMSE)的值越小模型预测效果越好。

实验结果如表1所示。

表1本发明方法与传统方法的预测结果对比

从表1中可以看出，本发明提出的基于注意力机制的BiLSTM网络和LightGBM模型在与BP神经网络模型(BPNN)、时间序列模型(LSTM)、支持向量机模型(SVR)、随机森林模型(RF)以及XGBoost模型的比较中，评价指标MAE，RMSE和R²都取得了明显的优势，取得了一个比较满意的预测结果。实验对比综合说明本发明提出的基于注意力机制的BiLSTM网络和LightGBM交通预测方法的科学性和精确性。

本发明基于注意力机制的BiLSTM网络和LightGBM模型，BiLSTM模型中添加注意力机制，使得模型能够对不同时间步赋予不同权重的关注它能够对道路网络的空间相关性和时间相关性进行建模，通过BiLSTM-Attention模型来捕获路网的空间依赖性，提取路网的空间相关特征，再将带有空间相关特征的时间序列输入到LightGBM模型中捕获路网的时间相关性。最后，通过线性转化生成各个路段的交通预测结果。在具体实施中，将所提模型与BP神经网络模型(BPNN)、时间序列模型(LSTM)、支持向量机模型(SVR)、随机森林模型(RF)以及XGBoost模型进行了实验对比，实验结果表明本发明所提出的基于注意力机制的BiLSTM网络和LightGBM的交通预测方法在交通流的预测中取得了明显的优势。

虽然本发明已以较佳实施例公开如上，但它们并不是用来限定本发明的，任何熟习此技艺者，在不脱离本发明之精神和范围内，自当可作各种变化或润饰，因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。

Claims

1.一种基于注意力机制的BiLSTM网络和LightGBM模型的交通预测方法，其特征在于：包括以下步骤：

步骤五：对步骤四中输出的每个时间步的隐藏状态及其对应的加权和作为数据集，然后将每个数据集输入到相应的LightGBM个体中进行预测其下一时间步数据集；根据其预测的结果与历史上对应的时间步的结果进行比对从而实现训练LightGBM模型；在训练过程中采用激活TPE对训练进行优化，并且通过KCV验证预测的结果的准确性，最终得到基于注意力机制的BiLSTM网络和LightGBM模型；

步骤六：将待预测的交通流的路段信息，输入步骤五生成的模型中，获得最终的预测；

步骤二具体包括：将交通网络拓扑结构图表示为G，G＝(V,E,A)；将每条路段看作图中的一个节点；V表示路段节点的集合，集合中的每个节点均为其对应的属性特征矩阵；E表示路段的边的集合；路段之间的连通情况由邻接矩阵A∈R^n*n表示，所述邻接矩阵A由0和1组成，0表示两条路段之间不相连，1表示两条路段之间相连，A_ij＝1表示路段v_i和v_j是相连的，A_ij＝0，则表示路段v_i和v_j不相连；

则城市交通网络拓扑结构图具体表示为如下式(1)：

步骤三中对邻接矩阵A进行标准化处理为：

(2)式中，I为单位对角度矩阵，其除对角线上的元素外，其他元素均为0；A’为标准化后的邻接矩阵；D’表示对邻接矩阵A进行构造对角度矩阵的；

步骤四具体包括以下步骤：

S41：构建基于BiLSTN网络的城市交通网络模块；

所述BiLSTN网络的城市交通网络模块包括多个双向LSTM的结构；每个双向LSTM的结构包含两个上下堆叠的单向LSTM，其中的前向通道为单向LSTM用于将数据向前传递，后向通道为单向LSTM用于将数据向后传递；将历史上的周期性交通流特征分别输入双向LSTM的结构，且通过前向通道与后向通道分别输出该通道的隐藏状态H并将输出的两个通道的隐藏状态结合起来作为双向LSTM的结构的输出；

(5)式中，s₁，s₂，··，s_m表示在第一时间步长中m个隐藏特征的对应的权重；W_ls和W_hs均为预设的可学习的参数；/>为BiLSTM网络的隐藏输出；

S422：计算的第k个时间步的注意值β_k，k≤T,如下式：

(6)式中S_k表示第k个时间步中各个交通流属性的权重；

S423：对每个时间步的BiLSTM层的输出经过注意力层后输出每个时间步的加权和如下式：

(7)式中，表示对输入的第T个时间步的所有的隐藏状态的求出的加权和；/>表示输入该时间步的隐藏状态；

步骤五中的训练LightGBM模型采用迭代训练的方法，直至其迭代次数达到预设值或者预测的效果达到预设的准确度；所述迭代训练训练过程描述为如下式(9)：

公式(9)中,是第i个数据集在第th次迭代时的预测值；f_t(x_i)表示对应树的残差；则每个新预测由其残差和前一预测生成；

步骤六中的将待预测的交通流的路段信息，输入步骤五生成的模型中，获得最终的预测，其中的最终的预测如下式：

公式(10)中，为最终生成的交通流量预测值；/>表示模型中每个交通流特征的预测值。