CN111815046B

CN111815046B - 基于深度学习的交通流量预测方法

Info

Publication number: CN111815046B
Application number: CN202010641340.8A
Authority: CN
Inventors: 金尚泰; 董煦宸
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2024-03-22
Anticipated expiration: 2040-07-06
Also published as: CN111815046A

Abstract

本发明提供了一种基于深度学习的交通流量预测方法，包括：通过检测器采集交通流量数据信息，将交通信息的离散特征向量输入至DeepFM中的FM部分，得到具有离散特征间隐含关系的FM输出向量；将前t个时刻的当前检测器截面信息序列特征向量输入至基于检测器聚类标签的具有多层LSTM编码器的LSTM模型，得到LSTM输出向量；将前t个时刻的上游检测器各个车道的信息序列特征向量和所述的LSTM输出向量输入至注意力模型，得到具有当前检测器截面与上游各个车道之间的流量变化关系的注意力模型输出向量；根据FM输出向量和注意力模型输出向量对交通流量进行预测。该方法可以有效地提高短时交通流量预测的准确性。

Description

基于深度学习的交通流量预测方法

技术领域

本发明涉及交通控制领域，尤其涉及一种基于深度学习的交通流量预测方法。

背景技术

近年来，随着城市常驻人口和汽车保有量飞速增长。导致城市交通问题越来越复杂。准确的交通流量预测能够提高交通诱导的准确性和交通控制的有效性。

现有技术中短时流量预测的方法大致可分为参数型和非参数型预测。其中参数方法进行预测包括随机方法和时间序列，典型的方式有卡尔曼滤波和自回归算法等，最为经典常用的参数方法是ARIMA(Autoregressive Integrated Moving Average Model,自回归整数移动平均模型)，同时也有多种基于ARIMA模型进行改进的算法，如加入不同外部输入的ARIMAX或Seasonal ARIMA。在对模型运算效率要求较高的场景下，相较于非参数方法，参数方法更加具有优势，这是由于参数方法不需要大量的时间去训练预测模型。非参数方法包括部分传统机器学习模型如K-Nearest Neighbors(KNN)和Support Vector Machine(SVM)等，神经网络模型如Artificial Neural Networks(ANN)以及近几年使得预测性能极大提高的深度神经网络模型。

由于交通流量变化具有非线性的同时也具有很强的随机性，上述单一的非参数模型容易陷入过拟合的情况。于是研究人员将目光转向多模型融合方式对交通流量进行预测，多模型融合方法可以将多个模型的优势融合起来，通过组合预测模型或作为数据预处理的方法，提高最终预测结果的准确率。如使用小波优化的神经网络使用Morlet小波基函数作为神经网络的中间层激活函数，利用小波变换的特点，提高了模型预测准确度。ZhangH等提出了一种混合模型，采用多种方式对交通特征进行挖掘预测，通过光谱分析、时间序列、统计理论分析等方式，不但构建了一个流量预测模型，还说明了建立动态模型的必要性。

随着各类深层神经网络的不断发展，学者开始尝试通过深度神经网络自动学习交通数据中所含有的特征。Hua Y等提出了一种基于Long Short Term Memory Network(LSTM)的改进网络结构，通过随机连接神经元的方式降低了模型的训练成本，但也牺牲了一定的预测精度；Polson N G等通过深度神经网络对芝加哥实际流量进行预测，并在试验中分别比较了特殊时间及天气因素对模型的影响，得到了较好的效果；Huang W等使用了基于受限玻尔兹曼机(RBM)的深度信念网络(DBN)以非监督的方式自动学习交通特征，在输出层采用改进的Multitask Learning(MTL)的模型，提高了模型准确率及泛化能力；Lv Y等使用了Stacked Auto Encoder(SAE)模型与，用深度学习的方式获得样本特征，并将编码后的训练特征使用逻辑回归模型作为分类器进行分类，这与传统机器学习提取特征的方式产生了本质的区别，由人工特征转变为由深度神经网络自动编码，得到了一定的预测精度；DuanY同样是基于SAE网络结构，作者通过时间维度对数据进行分桶，提高各个特殊时段模型预测的准确率。Yang H F等人在SAE的基础上，针对网络结构中最为重要的超参数选择方式进行改进，提出了一种将SAE与Levenberg Marquardt(LM)算法相结合的预测结构，以模型的方式确定深度神经网络的超参数，提高了模型的准确率以及预测精度。这些方法都依赖于大量的数据来训练预测模型，使得模型能更好的拟合交通流量非线性变化的特征，得到了一定的预测精度。针对于交通流量序列具有周期性这一特点，部分学者开始利用LSTM网络结构对交通时间序列进行挖掘。Zhao等提出了一种基于LSTM的交通流量预测模型，利用LSTM中记忆单元组成的二维网络来同时考虑交通序列信息的时空相关性，进行预测性能的验证。

由于交通系统是一个复杂大系统，具有道路关系复杂、流量变化非线性和变化具有随机性的特点，现有的基于参数的短时流量预测方法等传统方法往往都是针对路网中某些检测器截面进行分析，在处理短时流量预测时存在主观因素强且预测精度差等局限性。因此亟需一种可提高预测准确度的交通流量预测方法。

发明内容

本发明提供了一种基于深度学习的交通流量预测方法，以解决现有技术问题中的缺陷。

为了实现上述目的，本发明采取了如下技术方案。

一种基于深度学习的交通流量预测方法，包括：

通过检测器采集交通流量数据信息，并将所述的交通数据信息划分为离散特征和连续特征，所述的连续特征包括：前t个时刻上游检测器各个车道的信息序列；前t个时刻检测器截面信息序列和每个检测器每天的历史信息序列，t为正整数；

对所述的离散特征处理得到交通流量数据信息的离散特征向量，将所述的交通信息的离散特征向量输入至DeepFM中的FM(FactorizationMachine，因子分解机)部分，得到具有离散特征间隐含关系的FM输出向量；

对当前检测器的前t个时刻检测器截面信息序列处理得到前t个时刻的当前检测器截面信息序列特征向量，并将所述的前t个时刻的当前检测器截面信息序列特征向量输入至基于检测器聚类标签的具有多层LSTM(LongShortTermMemoryNetwork，长短时记忆网络)编码器的LSTM模型，得到LSTM输出向量；

将前t个时刻的上游检测器各个车道的信息序列处理得到的前t个时刻的上游检测器各个车道的信息序列特征向量和所述的LSTM输出向量输入至注意力模型，得到具有当前检测器截面与上游各个车道之间的流量变化关系的注意力模型输出向量；

根据所述FM输出向量和所述的注意力模型输出向量对交通流量进行预测。

优选地，基于检测器聚类标签的具有多层LSTM编码器的LSTM模型，根据以下步骤得到：

S21将所述的每个检测器每天的历史信息序列，输入共享参数的LSTM模型中训练，得到训练好的基于共享参数的LSTM模型,根据训练好的基于共享参数的LSTM模型对路网中所有检测器每天的历史交通信息序列分别进行编码，得到不同检测器节点不同日期的历史交通信息向量；

S22从不同检测器节点不同日期的历史交通信息向量中选取多个交通信息向量作为本次聚类的多个聚类中心；

S23根据不同检测器节点不同日期的历史交通信息向量与每个聚类中心的余弦相似度，分别计算不同检测器节点不同日期的历史交通信息向量与每个本次聚类中心的余弦相似度，将最大的余弦相似度对应的本次聚类中心作为不同检测器节点不同日期的历史交通信息向量在本次聚类中归属的聚类中心；

S24将每个不同检测器节点不同日期的历史交通信息向量与各自归属的聚类中心的余弦相似度之和作为本次聚类总得分；

S25重新选取聚类中心，并重复步骤S24得到聚类总得分并与上一次的聚类总得分比较，为当前检测器确定当日的聚类标签：

判断本次聚类总得分与上次聚类总得分的变化是否小于设定阈值；

若判断结果为小于设定阈值，则根据本次聚类结果判断交通状态，根据交通状态为当前检测器确定当日的聚类标签；

若判断结果为不小于预设值，则重新聚类，直至相邻两次聚类总得分的变化小于设定阈值，根据最后一次的聚类结果判断交通状态，根据交通状态为当前检测器确定当日的聚类标签；

S26根据所述的当前检测器当日的聚类标签，初始化具有多层LSTM编码器的LSTM模型，得到基于检测器聚类标签的具有多层LSTM编码器的LSTM模型。

优选地，将所述的每个检测器每天的历史信息序列，输入共享参数的LSTM模型中训练，得到训练好的基于共享参数的LSTM模型，包括：

对所述的每个检测器每天的历史信息序列进行两两配对，得到所述检测器的交通信息序列对；

根据工作日交通流量模式与休息日交通流量模式的差异，为检测器的交通信息序列对设置标签，得到具有标签的交通信息序列对作为训练样本；

通过所述训练样本对基于共享参数的LSTM模型进行训练，得到训练好的基于共享参数的LSTM模型。

优选地，根据工作日交通流量模式与休息日交通流量模式的差异，为检测器的交通信息序列对设置标签，得到具有标签的交通信息序列对作为训练样本，包括：

为同一检测器的工作日的交通信息序列与休息日的交通信息序列配对而成的交通信息序列对设置标签为“0”；

为同一检测器的两个工作日的交通信息序列或两个休息日的交通信息序列配对而成的交通信息序列对设置标签为“1”。

优选地，从不同检测器节点不同日期的历史交通信息向量中选取多个交通信息向量作为本次聚类的多个聚类中心，包括：

判断本次聚类是否是初次聚类；

若判断结果为初次聚类，则从所有交通信息向量中随机选取若干交通信息向量作为本次聚类中心；

若判断结果为非初次聚类，则根据对于上次聚类形成的任一聚类集，根据该聚类集的所有交通信息向量，计算中心向量，作为本次聚类中心。

优选地，多个聚类中心的数量为3或4或5。

优选地，交通状态包括：交通流量、速度、占有率在工作日和休息日的变化模式，所述的变化模式包括早高峰、晚高峰、除早高峰外的白天的变化模式。

优选地，根据所述FM输出向量和所述的注意力模型输出向量对交通流量进行预测，包括：

将所述的FM输出向量和所述的注意力模型输出向量合并；

将合并后的向量输入至(Linear Regression，LR)模型，根据LR模型的输出结果对交通流量进行预测，进而对整个路网交通流量进行预测。

优选地，对所述的离散特征处理得到交通流量数据信息的离散特征向量，包括：对离散特征的数值依次进行one-hot编码处理和向量化处理，得到检测器的交通信息离散特征向量，所述的离散特征包括：检测器节点编号I_{station_id}，高速路编号I_{freeway_id}，高速路方向I_direction，上游检测器编号I_{upstream_station_id}，检测器至路段起始点距离I_{abs_postmail}，检测器截面车道数I_lanes，时间戳I_time，是否为休息日I_weekend；

所述的对所述的前t个时刻当前检测器截面信息序列处理得到前t个时刻的当前检测器截面信息序列特征向量，通过对所述的前t个时刻当前检测器截面的交通信息序列进行向量化处理得到，所述的前t个时刻当前检测器截面的交通信息序列包括：检测器截面总流量I_flow,T，检测器截面平均速度I_{avg_speed,T}，检测器截面平均占有率I_{avg_occ,T}，检测器截面车道i流量I_flow,i,T，检测器截面车道i平均速度I_{avg_speed,i,T}，检测器截面车道i平均占有率I_{avg_occ,i,T}，检测器截面上游车道i流量I_{upstream_flow,i,T}，检测器截面上游车道i平均速度I_{upstream_speed,i,T}，检测器截面上游车道i平均占有率I_{upstream_occ,i,T}。

由上述本发明的基于深度学习的交通流量预测方法提供的技术方案可以看出，本发明的方法通过结合DeepFM的FM结构部分、注意力机制和LSTM结构，从时间和空间两个方面学习交通流量变化的周期性和空间连通性信息，对不同检测器节点学习不同的数据变化规律，有效地提高了交通流量预测的准确性；并在改进的聚类算法结果基础上，在保证预测精度的前提下，有效地压缩了预测模型参数数量；最终改善了现有技术中的主观因素强且预测精度差的问题，提高了交通诱导的准确性和交通控制的有效性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于深度学习的交通流量预测方法流程示意图；

图2是本实施例的基于共享参数的LSTM模型示意图；

图3为同一检测器的交通信息序列的聚类结果仿真图；

图4为利用聚类结果生成不同的LSTM的结构示意图；

图5是基于Cluster-Attention-LSTM的短时交通流预测模型示意图；

图6是基于Cluster-Attention-LSTM的短时交通流预测流程图；

图7为DeepFM网络结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤和/或操作，但是并不排除存在或添加一个或多个其他特征、整数、步骤和/或操作的组。应该理解，这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且并不构成对本发明实施例的限定。

实施例

本实施例中的流量为交通流量，指在单位时间内，通过某个交通检测器的车辆数，采样间隔在本文中同意采用5分钟。交通流量是度量路网中交通状态度量的重要指标，在交通流量已知的情况下，交通管理者就能及时采取相应的控制手段，交通使用者也可以避免交通拥堵，提前规划出行路线。本实施例中使用的短时交通流量可表示为：

其中q表示交通流量，T表示采样间隔，N表示单位时间内通过检测器截面的车辆总数。

速度可以反映车辆在路网中行驶的快慢程度，通常来说速度的大小于流量成负相关。在交通领域中，平均速度有两种含义：时间平均速度和区间平均速度，在本文中采用时间平均速度，有：

其中，N表示单位时间内用过检测器截面的车辆总数，u_i表示第i辆车通过截面时的速度。

区间平均速度表示车辆在单位长度内所消耗的平均时间：

其中M为单位长度，t_i为第i辆车通过单位长度所消耗的时间。

在本文中所述的平均占有率为时间占有率，时间占有率表示道路检测截面有车存在的时间与采样间隔之间的比值。可描述为：

其中t为采样间隔内检测截面有车的时间总和。占有率可以描述路段的饱和状态，如占有率持续增加，交通流量下降，则交通容易出现拥堵。

图1为本发明实施例提供的一种基于深度学习的交通流量预测方法流程示意图，参照图1，该方法包括：

S1通过检测器采集交通流量数据信息，将交通数据信息划分为离散特征和连续特征。

离散特征如下表1所示：

表1

其中，检测器至路段起始点距离I_{abs_postmail}提供了检测器在整条高速路上的绝对位置。另外，由于高速路交叉口少的特性，每条高速路相对较为独立，因此本实施例中上游检测都属于同一路段。

连续特征包括：前t个时刻上游检测器各个车道的信息序列；前t个时刻当前检测器截面信息序列和每个检测器每天的历史信息序列，t为正整数。

当前检测器截面信息序列如下表2所示：

表2

其中，下角标T表示在时间周期T内所获得的数据序列，这一类特征为序列特征，在输入中以时间序列的形式表现，时间序列长度为超参数。I_{upstream_flow,i,T}，I_{upstream_speed,i,T}，I_{upstream_occ,i,T}都是由检测器在高速路上的相对位置所构造出来的，由于交通流量变化具有空间连通性的特点，因此选择将这些序列特征加入到训练样本中供模型学习。

S2对离散特征处理得到交通流量数据信息的离散特征向量，将交通信息的离散特征向量输入至DeepFM中的FM(FactorizationMachine，因子分解机)部分，得到具有离散特征间隐含关系的FM输出向量。

对离散特征处理得到交通流量数据信息的离散特征向量，包括：对离散特征的数值依次进行one-hot编码处理和向量化处理，得到检测器的交通信息离散特征向量。

one-hot编码处理：

对于所有离散特征，全部采用one-hot编码，即将数值转化为一个由0和1组成的向量，例如一个有5个不同数值组成的特征，编码1可以转化为一个5维的向量：(0,1,0,0,0)，如果样本数量为N，则输入是一个N*5的矩阵。

除了消除离散数据本身所带有的偏差以外，这样编码以矩阵的形式输入可以将查找操作转化为矩阵运算操作，这样可以利用GPU(Graphics Processing Unit,图形处理器)对矩阵运算问题进行加速。矩阵运算可以描述为下式(1)所示：

其中，emb(·)表示对输入的向量化，W为向量化矩阵，I_onehot为编码后的输入，进行矩阵相乘后，矩阵的第0行表示one-hot第0行(第0条样本)所对应的W中的向量，这是由于one-hot编码稀疏矩阵的特性：只有对应列为1，其余元素都为0。

由于检测器可能存在失灵或交通信息可能在传输的过程中丢失，因此，在获得的数据中存在很多空数据的情况。为了保证准确性，本实施例将对确实数据进行填充。填充内容为缺失数据检测器以7天为间隔，历史数据的均值。

向量化处理：

本实施例对所有采集交通流量数据信息进行向量化处理，提高向量维度，提取数据信息量。

(1)Embedding层

Embedding层即是对特征进行向量化的过程，embedding层需要人为规定向量化维度k，对于每个离散特征输入来说embedding层会随机初始化一个M*k的矩阵，其中M为离散特征含有类别的数量，例如对于检测器节点编号，将随机初始化为一个1999*k的矩阵，随后输出每个检测器所对应的随机向量。

对于连续字段输入来说，每一维特征都对应一个大小为1*k的向量，与离散特征不同之处在于，输出为连续特征分别乘以随机向量中的每个元素。

利用FM部分，可以挖掘交通高维离散信息，学习路网中检测器各自的流量变化特点。

在交通流量预测这样的场景中，特征与特征之间隐含着时间、空间的信息，例如：不同检测器节点与时间戳之间是否存在联系，不同检测器节点与路段之间是否存在联系。因此本实施例利用因子分解机对特征进行交叉的过程，就是对这样的隐含信息进行挖掘。

因子分解机可以理解为一种高阶的矩阵分解方法，模型通过embedding层与特征交叉这两种机制，解决了多维特征组合的问题，同时利用矩阵运算的特点提高了运算效率。

出于这样的考虑，基于因子分解机的交通流量预测模型和以描述为下式(2)所示：

其中，O_flow,t+1为下一时刻输入样本节点的预测流量，w₀∈R为模型整体偏置值，与传统线性回归一致，为模型一阶线性部分，n为第t时刻输入I_input,t中特征个数。I_input,t表示所有输入特征，如I_{station_id}、I_flow,t等。

公式(2)中的最后一部分为二阶交叉部分，其中＜v_i,v_j＞表示两向量v_i与v_j点积：

矩阵V中的行向量v_i表示输入特征I_input,i,t在第t采样时刻值所对应的embedding层向量。

对于看似简单因子分解机模型，主要有两个优点：

1)相较于直接加入二阶交叉特征，因子分解机首先将输入经过embedding层进行向量化，这样对于模型可以学习到任意两个特征组合后的结果，即使这样的特征组合在训练样本中没有出现。

公式(4)描述了人工添加二阶交叉特征的形式，这样的形式与SVM模型中的多项式核函数是完全等价的，但一旦遇到一种特征组合没有在训练样本中出现时，即I_input,i, _tI_input,j,t＝0时，模型无法学习到相应的信息w_i,j。而在因子分解机中每个特征都有对应的向量，对于新的特征组合依然能够学习到相应的权重，这也是因子分解机模型泛化能力强的根本原因。

2)其次是因子分解机可以在很大程度上减少计算量，公式(2)中第三项如果直接计算的时间复杂度是O(k*n²)，但可以通过数学变化将其降为O(k*n)，下面对第三项进行改写：

经过公式(5)的改写，计算的时间复杂度由O(k*n²)被降为O(k*n)。另外，对于公式中的第一个平方项，可以理解为向量v_i先逐位相加，再分别对每位求平方和，这可以理解为所有输入经过embedding层后向量累加再求内积。此时如果我们将流量预测模型抽象为：

O_flow,t+1＝FM(I_discrete,I_continuous) (6)

其中，I_discrete包含了所有离散特征，I_continuous包含了所有连续特征，不难发现，离散特征往往都是固定的，如检测器编号、路段方向等描述检测器的基本信息，这部分在预测的过程中完全提前计算好来提高计算效率，这是因为：

在短时交通流量预测这一问题上，本实施例利用DeepFM结构对交通流量数据做进一步的挖掘，得到下式(8)所示：

O_flow,t+1＝LinearRegression(concat(O_fm,O_deep)) (8)

图7为DeepFM网络结构图，如图7所示，分为三个主要部分：embedding层、FM部分与Deep部分。离散特征与连续特征输入到模型中后，经过embedding层向量化后，FM部分与Deep部分共享这些输入向量。最后，FM部分与Deep部分输出向量连接后使用线性回归得出对下一时刻的交通流量预测值。

其中，DeepFM与直接使用FM不同之处在于：FM部分的输出不再将输出向量进行累加，具体如下式(9)所示：

其中，concat(·,·)表示两相连直接相连，式中Order_1∈Rⁿ，Order_2∈R^k，于是O_fm∈R^n+k，n为输入特征数量，k为二阶交叉向量维度。

同样地，Deep部分输出如下式(10)所示：

O_deep＝W^(l)a^(l-1)+b^(l) (10)

其中，l表示Deep部分第l层，a^(l-1)表示第l-1层输出向量。由于FM部分与Deep部分共享输入向量，因此当l＝0时，有：

a⁽⁰⁾＝vI_input,t (11)

线性回归如下式(7)所示：

y＝wx+b (12)

根据式(8)得到下式(13)：

O_flow,t+1＝W_lr·concat(O_fm,O_deep)+b_lr (13)

本实施例利用FM部分，能够更好的对样本中的高维离散信息进行挖掘，为不同检测器、不同时间点的流量变化进行刻画。并通过将Deep部分输出向量替换为注意力模型输出向量，进一步挖掘了交通流量的周期性变化以及当前检测器与上游检测器的关系。

S3对当前检测器的前t个时刻检测器截面信息序列处理得到前t个时刻的当前检测器截面信息序列特征向量，并将前t个时刻的当前检测器截面信息序列特征向量输入至基于检测器聚类标签的具有多层LSTM(LongShortTermMemoryNetwork，长短时记忆网络)编码器的LSTM模型，得到LSTM输出向量。

对前t个时刻当前检测器截面信息序列处理得到前t个时刻的当前检测器截面信息序列特征向量，通过对前t个时刻当前检测器截面的交通信息序列进行向量化处理得到。

基于检测器聚类标签的具有多层LSTM编码器的LSTM模型根据以下步骤得到：

S31将每个检测器每天的历史信息序列，输入共享参数的LSTM模型中训练，得到训练好的基于共享参数的LSTM模型。根据训练好的基于共享参数的LSTM模型对路网中所有检测器每天的历史交通信息序列分别进行编码，得到不同检测器节点不同日期的历史交通信息向量。

将每个检测器每天的历史信息序列，输入共享参数的LSTM模型中训练，得到训练好的基于共享参数的LSTM模型，包括：

对每个检测器每天的历史信息序列进行两两配对，得到检测器的交通信息序列对；根据工作日交通流量模式与休息日交通流量模式的差异，为检测器的交通信息序列对设置标签，得到具有标签的交通信息序列对作为训练样本；通过训练样本对基于共享参数的LSTM模型进行训练，得到训练好的基于共享参数的LSTM模型。

其中，基于共享参数的LSTM模型具有两组参数共享的编码器，每组编码器具有若干LSTMCell，LSTMCell采用已有LSTM结构即可。

图2是本实施例的基于共享参数的LSTM模型结构示意图，如图2所示。本实施例将同一检测器不同日期历史交通信息序列两两配对，构成训练样本。示意性地，将历史一周内某一检测器的交通信息序列两两配对，工作日与休息日配对构成负样本(标签记为0)，工作日与工作日、休息日与休息日配对构成正样本(标签记为1)，例如：周一第0号检测器与周二第0号检测器组成正样本，周一第0号检测器与周六第0号检测器组成负样本。构建完成的样本S可以描述为：S＝(I_d1,s,I_d2,s),d1≠d2。其中，I_d1,s表示日期为d1、检测器编号为s的交通信息序列。模型输入为所构建的样本，两个信息序列I_d1,s,I_d2,s输入到基于LSTMCell的编码器中进行编码，图2中I⁰ _d1,s表示编码器d1的第0个时间点输入。因为两个信息序列的样本空间都是一致的，所以两个LSTM编码器中的参数都是共享的，使得样本在编码后，仍然具有可比性。

S32从不同检测器节点不同日期的历史交通信息向量中选取多个交通信息向量作为本次聚类的多个聚类中心。

判断本次聚类是否是初次聚类；

具体地：若判断结果为非初次聚类，则遍历所有交通信息向量，分别与上次聚类中心比较余弦相似度，选取余弦相似度最大的聚类中心作为该交通信息向量的聚类标签；遍历完成后，对于所有属于同一聚类标签的交通信息向量形成聚类集，并计算中心向量，作为本次聚类中心。

优选地，多个聚类中心的数量为3或4或5。

S33根据不同检测器节点不同日期的历史交通信息向量与每个聚类中心的余弦相似度，分别计算所述不同检测器节点不同日期的历史交通信息向量与每个本次聚类中心的余弦相似度，将最大的余弦相似度对应的本次聚类中心作为不同检测器节点不同日期的历史交通信息向量在本次聚类中归属的聚类中心。

根据不同检测器节点不同日期的历史交通信息向量样本与初始的聚类中心的每个历史交通信息向量样本的余弦相似度，训练基于共享参数LSTM的K-Means模型，确定将最大余弦相似度对应的聚类中心作为不同检测器节点不同日期的历史交通信息向量样本对应归属的聚类中心。

S34将每个不同检测器节点不同日期的历史交通信息向量与各自归属的聚类中心的余弦相似度之和作为本次聚类总得分，包括：

实施时，可以按照聚类集，先计算每个聚类集中的历史交通信息向量与其聚类中心的余弦相似度。需要说明的是，在应用时，在LSTMCell输出上增加单位化和放大系数，保证模型收敛，具体地说，在LSTM模型中的两组共享参数的编码器对历史交通信息序列对中的两个历史交通信息序列分别进行编码处理，输出两个交通信息向量后，可以对两个交通信息向量分别进行单位化处理，然后对单位化处理后的两个交通信息向量进行余弦相似度计算。在进行余弦相似度计算后，可以对余弦相似度进行放大处理，例如放大10倍，得到相似度评分，并将该相似度评分应用于前述步骤，在计算过程中替换余弦相似度。

通过unit模块将输出向量转化为单位向量。对两个编码出的交通信息向量在单位化后计算余弦相似度，得到两个信息序列的相似性评分，本实施例中将余弦相似度乘以放大系数amplification后，代入sigmoid函数中，得到最终分数，最终分数可以由公式如下式(14)所示：

其中，n为输出层向量维度大小。

时间序列编码器可由公式描述为：O_encoder,d＝unit(W_Oa_d,T+b_O)d＝1,2，其中，unit表示对输出向量进行单位化，W_O，b_O分别为LSTMCell输出层权重、偏置参数，d为时间序列编码器编号，a_d,T表示编码器d在最后一个时间点T的输出。优选地，放大系数amplification为10。

应用时，利用构建完成的样本，训练图2的基于共享参数的LSTM模型，使得模型能够学习到不同模式之间的区别，最后以相似度的形式体现。通过利用共享参数的LSTM模型学习路网中某一检测器不同的流量变化模式后，基于路网中不具有空间连通性的任意检测器都可能具有状态变化的相似性，可以将所学习的结果扩展到整个路网中的任意两检测器序列构成的样本。本实施例利用共享参数的LSTM网络结构构建一种对于交通信息序列判断相似度的方法，利用周期时间内检测器断面所有的序列信息，融合流量、速度占有率等数据，使得相似度的判断更加准确、可解释。

需要说明的是，基于检测器聚类标签的具有多层LSTM编码器的LSTM模型是已学习了检测器交通流量序列的不同流量特点的模型。

S35重新选取聚类中心，并重复步骤S34得到聚类总得分并与上一次的聚类总得分比较，为当前检测器确定当日的聚类标签。

若判断结果为不小于预设值，则重新聚类，直至相邻两次聚类总得分的变化小于设定阈值，根据最后一次的聚类结果判断交通状态，根据交通状态为当前检测器确定当日的聚类标签。

交通状态包括：交通流量、速度、占有率在工作日和休息日的变化模式，变化模式包括早高峰、晚高峰、除早高峰外的白天的变化模式。

S36根据当前检测器当日的聚类标签，初始化具有多层LSTM编码器的LSTM模型，得到基于检测器聚类标签的具有多层LSTM编码器的LSTM模型。

基于相似度的方法，本实施例对交通检测器节点进行聚类，步骤包括：(1)根据历史经验数据确定聚类中心数量C。(2)利用训练完成的LSTMCell对检测器节点每天的交通信息序列进行编码，并单位化，输出记为O_encoder,i，其中i表示第i个样本。(3)在所有样本中随机选取C个向量作为聚类中心的初始化向量：cluster center＝{O_c；c＝1,2,3,...,C}。(4)遍历所有样本O_encoder,i，对每个O_encoder,i向量分别计算与向量O_c之间的余弦复杂度cosin_score，取得分最高的聚类中心为样本的聚类标签。(5)对每个聚类标签计算相应样本向量的中心向量：其中，N′为属于聚类标签c的样本数，O_encoder,n为聚类标签为c的样本向量。并计算模型总得分：

(6)重复步骤(2)-(5)直到模型总得分变化小于设定值。

图3为同一检测器的交通信息序列的聚类结果仿真图，如图3所示，4、5、11、12、18、19、25、26日为周末，除了14，18日数据缺失，其余都被聚类模型判别为一类数据变化模式，说明交通流量变化具有周期性。

本实施例利用检测器的上述聚类结果，为当前检测器确定当日的聚类标签，如第s号检测器在周一的聚类标签由该检测器所有周一的样本聚类结果共同决定，聚类标签取所有结果中出现最多的标签值。然后根据聚类标签与LSTM参数的对应关系，找到对应的一组LSTM参数，并利用找到的一组LSTM参数，初始化具有多层LSTM编码器的LSTM模型，图4为利用聚类结果生成不同的LSTM的结构示意图，如图4所示，利用初始化后的具有多层LSTM编码器的LSTM模型，对当前检测器的交通流量序列进行处理，得到可体现交通状态变化模式的LSTM输出向量。

S4将前t个时刻的上游检测器各个车道的信息序列处理得到的前t个时刻的上游检测器各个车道的信息序列特征向量和所述的LSTM输出向量输入至注意力模型，得到具有当前检测器截面与上游各个车道之间的流量变化关系的注意力(Attention)模型输出向量。

通过步骤S3和步骤S4的可以在挖掘流量随时间变化趋势的基础上，使得模型学习到上游检测点和当前检测器流量之间的关系。

S5根据FM输出向量和注意力模型输出向量对交通流量进行预测。

根据FM输出向量和所述的注意力模型输出向量对交通流量进行预测，包括：

将所述的FM输出向量和所述的注意力模型输出向量进行向量合并，将合并后的向量输入至线性回归单元，根据LR模型的输出结果对交通流量进行预测，进而对整个路网交通流量进行预测。

具体地，图5是采用本实施例方法的基于Cluster-Attention-LSTM的短时交通流预测模型示意图，图6是采用本实施例方法的基于Cluster-Attention-LSTM的短时交通流预测流程图，如图5和图6所示，具体步骤包括：

1)获取相应的交通流量数据集，并将样本特征划分为连续特征与离散特征两部分。

(1)离散特征

为了表明路网的连通性和每个检测器节点所在的相对位置，本实施例采用的离散特征可以包括：检测器节点编号I_{station_id}，高速路编号I_{freeway_id}，高速路方向I_direction，上游检测器编号I_{upstream_station_id}，检测器至路段起始点距离(km)I_{abs_postmail}，检测器截面车道数I_lanes，时间戳(H:m:s)I_time，是否为休息日(Boolean)I_weekend。其中，检测器至路段起始点距离I_{abs_postmail}提供了检测器在整条高速路上的绝对位置。

(2)序列特征

本实施例采用的序列特征包括：检测器截面总流量(n/5min)I_flow,T，检测器截面平均速度(km/h)I_{avg_speed,T}，检测器截面平均占有率(％)I_{avg_occ,T}，检测器截面车道i流量(n/5min)I_flow,i,T，检测器截面车道i平均速度(km/h)I_{avg_speed,i,T}，检测器截面车道i平均占有率(％)I_{avg_occ,i,T}，检测器截面上游车道i流量(n/5min)I_{upstream_flow,i,T}，检测器截面上游车道i平均速度(km/h)I_{upstream_speed,i,T}，检测器截面上游车道i平均占有率(％)I_{upstream_occ,i,T}。其中，下角标T表示在时间周期T内所获得的数据序列，这一类特征为序列特征，在输入中以时间序列的形式表现，时间序列长度为超参数。I_{upstream_flow,i,T}，I_{upstream_speed,i,T}，I_{upstream_occ,i,T}都是由检测器在高速路上的相对位置所构造出来的，根据交通流量变化具有空间连通性的特点，将这些序列特征加入到训练样本中供模型学习。

2)对连续、离散特征分别进行相应的预处理，对离散特征进行One-hot变换，为连续特征填充缺失值。

3)对于连续特征，分别抽取：(1)前t个时刻上游检测器各个车道的信息序列；(2)前t个时刻当前检测器截面信息序列；(3)样本中每个检测器每天的历史信息序列。

4)对于离散特征，将向量化后的数据输入到FM部分，从宏观路网上挖掘检测器之间的关系，以及不同时间节点的流量特点。

5)将每天的检测器历史信息序列构造样本对，输入基于共享参数LSTM的K-Means模型中训练，为每个检测器确定聚类结果。

通过聚类可以为预测模型提供交通信息状态的历史数据，在限制模型参数量的情况下，提高模型准确率。

6)利用步骤S5中的聚类结果，初始化多层LSTM编码器，并以向量化后的当前检测器截面信息序列作为输入。

7)上游检测器各个车道的信息序列和LSTM编码器输出结果为输入，构建注意力模型，获取微观空间上的交通特性。

利用注意力模型当前检测器节点与上游检测器车道进行挖掘。重新对输入进行描述为：

LSTM的输入如下式(15)所示：

I_{current_station}＝{I_flow,t-5,...,I_flow,t,I_{avg_speed,t-5},...,I_{avg_speed_t},...,

I_{avg_occ,t-5},...,I_{avg_occ,t}} (15)

LSTM的输出如下式(16)所示：

O_LSTM,m＝LSTM(embedding(I_{current_station})) (16)

其中，m为输入样本所对应的聚类标签，即不同聚类标签的样本会使用不用的LSTM参数进行学习、预测。

为了挖掘当前检测器与上游不同车道之间的关系，基于注意力模型，计算LSTM输出与上游不同车道不同时刻交通信息向量的关系：

注意力模型的输入如下式(17)所示：

I_{upstream_station}＝{I_{upstream_flow,i,t},...,I_{upstream_speed,i,t},...,I_{upstream_occ,i,t}...}(17)

此时，

其中，在上式中，i为上游检测器截面车道编号，为I_{upstream_station}在向量化后的维度。输出O_softmax,m为1*d_k的向量，向量中的每个元素可理解为上游车道与O_LSTM,m之间的相关性评分。

注意力模型的输出O_Attention如下式(18)所示：

其中，m为输入样本所对应的聚类标签；O_Attention∈R^emb_size，emb_size为设定的输出向量大小，O_Attention则为Attention模块最终输出向量，emb(·)表示对输入进行。

利用LSTM结构获取交通信息序列的周期性变化，并将注意力模型与LSTM模型结合，利用交通具有空间连通性的特点，深入挖掘潜在的流量变化，减少闸道所带来的短时数据波动。

8)将步骤7)的输出向量O_Attention与FM输出向量O_fm合并，由线性回归单元给出最终的预测结果O_flow,t+1，即根据最近t时刻的交通流量信息预测下一时刻，即t+1时刻的交通流量如下式(19)所示：

O_flow,t+1＝LinearRegression(O_fm,O_Attention)

＝W_lr·concat(O_fm,O_Attention)+b_lr (19)

其中，LinearRegression(·，·)表示对两向量合并后进行线性回归，W_lr为线性回归权重矩阵，W_lr为线性回归部分偏置值，conca悔(·，·)表示对两向量合并。

下表3为将本发明实施例的方法与其他基线模型的方法的预测结果对比，所使用的数据集为美国加州交通运输部PeMS(The California Department of TransportationPerformance Measurement System)系统中，洛杉矶城区所有高速路主干道交通检测器所采集到的交通信息；其中共1999个独立检测器节点，每个检测器节点都会以5分钟为采样间隔对交通信息进行采样、处理。

表3

如上表3所示，本实施例的交通流量预测方法相较于其他基线模型，RMSE在数值上最高减少12.34，MAE在数值最高减少11.3615；RMSE与MAE的差值也减小了0.7411；这说明本发明实施例提出的交通流量预测模型不但在整体上提高了预测准确率，而且提高了对数据的异常波动的适应能力。

另外，与普通K-Means方法相比，RMSE、MAE以及RMSE与MAE的差值均减小，这说明在交通流量预测模型中采用本发明实施例的聚类方法，对交通流量预测模型带来的提升更大。

本领域技术人员应能理解上述输入框的应用类型仅为举例，其他现有的或今后可能出现的输入框应用类型如可适用于本发明实施例，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度学习的交通流量预测方法，其特征在于，包括：

通过检测器采集交通流量数据信息，并将交通流量数据信息划分为离散特征和连续特征，所述的连续特征包括：前t个时刻上游检测器各个车道的信息序列；前t个时刻检测器截面信息序列和每个检测器每天的历史信息序列，t为正整数；

对所述的离散特征处理得到交通流量数据信息的离散特征向量，将交通流量数据信息的离散特征向量输入至DeepFM中的FM(FactorizationMachine，因子分解机)部分，得到具有离散特征间隐含关系的FM输出向量；

根据所述FM输出向量和所述的注意力模型输出向量对交通流量进行预测；

所述的基于检测器聚类标签的具有多层LSTM编码器的LSTM模型，根据以下步骤得到：

S21将所述的每个检测器每天的历史交通信息序列，输入共享参数的LSTM模型中训练，得到训练好的基于共享参数的LSTM模型,根据训练好的基于共享参数的LSTM模型对路网中所有检测器每天的历史交通信息序列分别进行编码，得到不同检测器节点不同日期的历史交通信息向量；

若判断结果为不小于预设阈值，则重新聚类，直至相邻两次聚类总得分的变化小于设定阈值，根据最后一次的聚类结果判断交通状态，根据交通状态为当前检测器确定当日的聚类标签；

2.根据权利要求1所述的方法，其特征在于，所述的将所述的每个检测器每天的历史交通信息序列，输入共享参数的LSTM模型中训练，得到训练好的基于共享参数的LSTM模型，包括：

对所述的每个检测器每天的历史交通信息序列进行两两配对，得到所述检测器的交通信息序列对；

3.根据权利要求2所述的方法，其特征在于，所述的根据工作日交通流量模式与休息日交通流量模式的差异，为检测器的交通信息序列对设置标签，得到具有标签的交通信息序列对作为训练样本，包括：

4.根据权利要求1所述的方法，其特征在于，所述从不同检测器节点不同日期的历史交通信息向量中选取多个交通信息向量作为本次聚类的多个聚类中心，包括：

判断本次聚类是否是初次聚类；

5.根据权利要求1所述的方法，其特征在于，所述多个聚类中心的数量为3或4或5。

6.根据权利要求1所述的方法，其特征在于，所述的交通状态包括：交通流量、速度、占有率在工作日和休息日的变化模式，所述的变化模式包括早高峰、晚高峰、除早高峰外的白天的变化模式。

7.根据权利要求1所述的方法，其特征在于，所述根据所述的FM输出向量和所述的注意力模型输出向量对交通流量进行预测，包括：

将所述的FM输出向量和所述的注意力模型输出向量合并；

将合并后的向量输入至LR(Linear Regression)模型，根据LR模型的输出结果对交通流量进行预测，进而对整个路网交通流量进行预测。

8.根据权利要求1所述的方法，其特征在于，所述的对所述的离散特征处理得到交通流量数据信息的离散特征向量，包括：对离散特征的数值依次进行one-hot编码处理和向量化处理，得到检测器的交通信息离散特征向量，所述的离散特征包括：检测器节点编号I_{station_id}，高速路编号I_{freeway_id}，高速路方向I_direction，上游检测器编号I_{upstream_station_id}，检测器至路段起始点距离I_{abs_postmail}，检测器截面车道数I_lanes，时间戳I_time，是否为休息日I_weekend；