CN111508240A

CN111508240A - 一种基于混合特征挖掘的交通流量预测方法

Info

Publication number: CN111508240A
Application number: CN202010603955.1A
Authority: CN
Inventors: 黄倩; 季玮; 宋晓峰; 李道勋; 季欣凯; 吴戡
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-08-07
Anticipated expiration: 2040-06-29
Also published as: CN111508240B

Abstract

本发明公开了一种基于混合特征挖掘的交通流量预测方法，在该方法中，在交通流量数据的基础上引入混合特征数据，具体包括时间特征数据和交通态势特征数据，根据交通流量预测目标从混合特征中挖掘出相应的重要性高且特征之间差异大、相互独立的特征，而剔除相关性低、冗余重复的特征，将挖掘出的特征结合交通流量数据作为模型输入，构建交通流量预测模型，通过模型实现交通流量预测。在实现丰富特征引入的同时，构建了复杂度更低、解释性更强的预测模型，显著提升了模型的预测精准度。

Description

一种基于混合特征挖掘的交通流量预测方法

技术领域

本发明涉及智能交通技术领域，尤其涉及一种基于混合特征挖掘的交通流量预测方法。

背景技术

近年来，智慧交通飞速发展，使用交通预测模型对未来交通状态进行预测，通过提前预知交通状态，促使交通管理者尽早采取有效的交通管控手段，提升交通运输效率和出行体验。现有的交通状态预测模型大多使用历史交通流量信息对未来交通状态进行预测，而缺乏其他的有效信息，使得流量预测的精准度达到一个瓶颈，难以继续提升。

针对以上问题，本发明提出了一种基于混合特征挖掘的交通流量预测方法，在交通流量数据的基础上引入混合特征，具体包括时间特征，交通态势特征等。根据交通流量预测目标从混合特征中挖掘出相应的重要性高且特征之间差异大、相互独立的特征，而去除相关性低、冗余重复的特征，将挖掘出的特征结合交通流量数据作为模型输入。在实现丰富特征引入的同时，构建了复杂度更低、解释性更强的预测模型，显著提升了模型的预测精准度。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于混合特征挖掘的交通流量预测方法，解决现有的交通状态预测模型大多使用历史交通流量信息对未来交通状态进行预测，而缺乏其他的有效信息，使得流量预测的精准度达到一个瓶颈，难以继续提升的问题，在交通流量的基础上引入了混合特征，具体包括时间特征，交通态势特征。根据交通流量预测目标从混合特征中挖掘出相应的重要性高且特征之间差异大、相互独立的特征，将挖掘出的特征结合交通流量数据作为模型输入。在实现丰富特征引入的同时，构建了复杂度更低、解释性更强的预测模型，显著提升了模型的预测精准度。

本发明的目的是通过以下技术方案来实现的：一种基于混合特征挖掘的交通流量预测方法，该方法包括以下步骤：

步骤（1）：构建多维初始化原始数据；

初始化原始数据由多维数据组成，包括交通流量数据和混合特征数据，所述交通流量数据为车流量或车速数据；所述混合特征数据包括时间数据和交通态势数据；多维数据中，假设某个当前时间点是T，预测T+t ₁, T+t ₂,…, T+t _K的K个时间点的交通流量，则多维数据具体获取方式如下：

1.1）交通流量数据为T时刻之前的Y个小时的历史数据和相应的预测T+t ₁, T+t ₂,…, T+t _K的K个时间点的交通流量数据；历史数据的采样时间间隔均匀，时间间隔为

，采样交通流量数据量为

；

1.2）所述混合特征数据，其中时间数据与要预测的未来交通流量的时间点T+t _i相关，为对应的具体时间戳，1≤i≤K，且为整数；交通态势数据反映道路状况，为采样历史Y小时时间内是否发生交通事故、事故等级、拥堵程度以及拥堵持续时长；

步骤（2）：解析步骤（1）中得到的混合特征数据，并将解析后的特征数据向量化；具体步骤如下：

2.1）对混合特征数据中的时间数据进行分解；将时间数据分解为离散值数据特征；

2.2）将交通态势特征数据分解为离散值数据特征和拥挤持续时长的连续值数据特征，所述离散值数据特征包括是否发生交通事故、事故等级和拥堵程度；

2.3）将分解后的数据特征向量化，对连续值数据特征进行标准化，均值为0，方差为1，离散值数据特征独热化one-hot编码，此处特征向量化能够提升特征挖掘效率；

步骤（3）：计算分解并向量化后的特征数据的重要性，将重要性小于设定阈值

的特征去除，具体步骤如下：

3.1）采用简单纯随机抽样方法，将所有数据作为总样本，从M个总样本中不重复抽样出N个样本，使得抽样样本随机包含分解并向量化后的特征数据；N值范围为：

3.2）使用抽样出的N个样本数据构建最大深度为D的提升树tree booster，深度D根据样本数据量大小和各个特征数据的取值特点进行调整；

3.3）分别计算每一个特征数据在提升树中的重要性；使用重要性指标total_gain，即根据某特征数据在每次分裂节点带来的总增益，计算该特征数据的重要性得分；

3.4）将数据特征按步骤3.3）中计算得到的重要性得分排序，去除重要性得分小于阈值

的特征数据，

设置方法如下：

设重要性得分平均数为μ，重要性得分方差为

，x _j为第j个特征数据的重要性得分，0 ≤j≤总特征数据数J，则有：

则

设置为，

其中系数

表示的含义是，当系数取值为

时，重要性得分取值落在以下区间的概率为

：

式中，

为重要性得分最大值；即有

的重要性得分大于等于

的数据特征被保留，

的重要性得分小于

的数据特征被剔除；系数

及相应的

应根据实际应用中重要性取值分布情况进行调整；

步骤（4）：对保留下来的特征数据，计算两两特征之间的最大互信息系数，根据最大互信息系数取值分布情况，按实际需求选取阈值；将最大互信息系数大于阈值的两个特征，删除重要性得分小的那个特征，即去除重复冗余特征；

步骤（5）：重新构建数据；将步骤（4）最终保留下来的混合特征数据和交通流量数据组合成数据集；

步骤（6）：构建基于GRU的交通流量预测模型，将步骤（5）构建的数据集中的特征数据和历史交通流量数据作为模型的输入，模型的输出为相应的要预测的交通流量数据；具体步骤如下：

6.1）模型的输入维度即为特征数据和历史流量数据的综合维度H；

6.2）模型的输出维度即为要预测的K个时间点的流量数据的维度K；

6.3）构建基于GRU时序预测模型，模型层数为N_layers，隐藏层个数为N_hidden_units，输入维度为H，输出维度为K；

6.4）设计模型损失函数为L2损失函数，优化器为Adam优化器；

6.5）训练预测模型使模型损失函数最小，反复迭代直至模型完全收敛，同时根据测试集测试性能优化模型超参数；

6.6）使用训练好的模型对实际道路未来K个时间点的交通流量进行预测。

进一步地，步骤2.1）中，将时间数据分解为离散值数据特征，具体包括年、月、日、小时、分钟、秒钟、年度第几周、年度第几天、本月第几周、本月第几天、星期几、第几季度和一天中的时间段，所述一天中的时间段包括凌晨、早晨、上午、中午、下午、傍晚、晚上和深夜。

进一步地，步骤（4）具体过程如下：

4.1）对步骤3.4）中保留下来的特征数据，将任意两两特征进行组合，组合数量为C；

4.2）将组合中的特征之间的关系离散在二维空间中，并使用散点图来表示；

4.3）将二维空间在X,Y方向分别划分为一定的区间数，穷举所有的划分尺度；对划分尺度进行约束，即对在X,Y方向上的划分格子个数（b _x，b _y），对任意的b _x，b _y满足：

其中b _max表示在X,Y方向上的划分格子个数的乘积的最大值，N为样本数量，b _max设置为样本数量的0.6次方；计算出所有划分尺度数为P；

4.4）对所有的划分尺度数P遍历每个划分尺度即划分格子个数（b _x，b _y）的所有网格化划分方案，分别计算各个划分方案的互信息值，求出互信息值的最大值为最大化信息值MI，并对最大互信息值进行归一化，得到MI _norm；

4.5）计算出每个划分尺度的MI _norm，选择MI _norm值的最大值为最大互信息系数MIC；

4.6）重复步骤4.2）~4.5），分别计算出C个两两特征组合的最大互信息系数MIC；若大的 MIC 取值范围是a1~1.0，小的MIC取值范围是0~a2，则将阈值

设置为a1，最大互信息系数 MIC大于

的删除重要性小的那个特征。

进一步地，步骤4.4）具体步骤如下：

a）对所有的

划分方案，Q为所有可能的划分方案数，分别计算方案

的互信息值，

，划分方案将网格划分成多个分区，方案

的互信息值用散点落在各个网格中的联合概率来计算，计算公式为：

其中，

即为散点同时落在某个分区中的概率，

即为散点落在某分区水平方向网格的概率，

即为散点落在某分区垂直方向网格的概率，

即为对散点落在各个分区X，Y方向做积分；

b）求所有划分方案互信息值的最大值，得出最大互信息值MI；

c）对最大互信息值MI进行归一化；归一化公式：

其中，

即为当前划分尺度在X,Y方向上的划分格子个数b _x，b _y的最小值。

进一步地，步骤（5）中，对交通流量数据做归一化，并将重新构建的数据按8：2的比例划分成训练集和测试集。

进一步地，步骤（6.3）中，构建基于GRU的时序预测模型，第一层输入为历史交通流量数据，将隐藏层最后一层最后一个step的输出序列和输入特征数据序列进行拼接，并添加一层神经元个数为N_fc_units全连接层，最后输出层大小即为预测的K个时间点的流量数据的维度大小K。

本发明的有益效果：本发明考虑除交通流量外引入了包含时间特征、交通态势特征的混合特征数据，并对混合特征数据进行特征挖掘，获得重要性高且特征差异大、相互独立的特征进行交通流量预测，实现了引入更加丰富的特征构建了复杂度更低、解释性更强的预测模型，显著提高了模型的执行效率和预测精准度。在实际工程中由于构建的流量预测模型的高精度和低复杂度而得到了很好的应用。

附图说明

图1是基于混合特征挖掘的交通状态预测方法流程图；

图2是混合特征数据解析示意图；

图3是模型输入输出数据组成示意图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的一种基于混合特征挖掘的交通流量预测方法，流程如图1所示，该方法包括以下步骤：

步骤（1）：构建多维初始化原始数据；

，采样交通流量数据量为

；

步骤（2）：解析步骤（1）中得到的混合特征数据，如图2所示，并将解析后的特征数据向量化；具体步骤如下：

2.1）对混合特征数据中的时间数据进行分解；将时间数据分解为离散值数据特征；具体包括年、月、日、小时、分钟、秒钟、年度第几周、年度第几天、本月第几周、本月第几天、星期几、第几季度和一天中的时间段，所述一天中的时间段包括凌晨、早晨、上午、中午、下午、傍晚、晚上和深夜。

的特征去除，具体步骤如下：

的特征数据，

设置方法如下：

设重要性得分平均数为μ，重要性得分方差为

则

设置为，

其中系数

表示的含义是，当系数取值为

时，重要性得分取值落在以下区间的概率为

：

式中，

为重要性得分最大值；即有

的重要性得分大于等于

的数据特征被保留，

的重要性得分小于

的数据特征被剔除；系数

及相应的

应根据实际应用中重要性取值分布情况进行调整；系数

常用的取值有整数[1,2,3]。

步骤（4）：对保留下来的特征数据，计算两两特征之间的最大互信息系数，根据最大互信息系数取值分布情况，按实际需求选取阈值；将最大互信息系数大于阈值的两个特征，删除重要性得分小的那个特征，即去除重复冗余特征；具体过程如下：

4.4）对所有的划分尺度数P遍历每个划分尺度即划分格子个数（b _x，b _y）的所有网格化划分方案，分别计算各个划分方案的互信息值，求出互信息值的最大值为最大化信息值MI，并对最大互信息值进行归一化，得到MI _norm；具体步骤如下：

a）对所有的

划分方案，Q为所有可能的划分方案数，分别计算方案

的互信息值，

，划分方案将网格划分成多个分区，方案

其中，

即为散点同时落在某个分区中的概率，

即为散点落在某分区水平方向网格的概率，

即为散点落在某分区垂直方向网格的概率，

即为对散点落在各个分区X，Y方向做积分；

c）对最大互信息值MI进行归一化；归一化公式：

其中，

设置为a1，最大互信息系数 MIC大于

的删除重要性小的那个特征。

步骤（5）：重新构建数据；将步骤（4）最终保留下来的混合特征数据和交通流量数据组合成数据集；对交通流量数据做归一化，并将重新构建的数据按8：2的比例划分成训练集和测试集。

6.3）构建基于GRU时序预测模型，模型层数为N_layers，隐藏层个数为N_hidden_units，输入维度为H，输出维度为K；基于GRU的时序预测模型的第一层输入为历史交通流量数据，将隐藏层最后一层最后一个step的输出序列和输入特征数据序列进行拼接，并添加一层神经元个数为N_fc_units全连接层，最后输出层大小即为预测的K个时间点的流量数据的维度大小K。

6.4）设计模型损失函数为L2损失函数，优化器为Adam优化器；

本发明的具体应用实施例：本发明采集G92高速连续6个卡口双向交通流量数据作为研究对象，采集了2020年3月份至5月份的带时间戳的交通流量数据和交通态势数据。本次应用举例的交通流量数据为卡口通过的车流量数据，车流量数据的采样时间间隔为5分钟，时间特征数据为预测的第一个时间点的时间戳，交通态势数据为是否发生交通事故、事故等级、拥堵程度以及拥堵持续时长。车流量预测模型预测未来15分钟、30分钟、60分钟、120分钟共四个时间点的车流量数据。

具体实施过程如下：

1）将混合特征数据中的时间特征数据和交通态势特征数据进行分解和向量化，向量化可提升后续特征挖掘效率；

2）计算分解后的数据特征的重要性，将重要性小于设定阈值

的特征去除，

设置为：

即此次，重要性得分平均数为μ，重要性得分方差为

，系数

取值设置为1，重要性得分大于等于

的数据特征被保留，重要性得分小于

的数据特征被剔除。

3）对保留下来的数据特征，计算两两数据特征之间的最大互信息系数，计算得出MIC取值分布分两个阶段，较大的取值范围是0.91~1.0，较小的MIC取值范围是0~0.35，则可以将阈值

设置为0.91，即两两特征间的MIC大于等于0.91时，删除重要性较小的那个特征。

4）将保留下来的特征数据和车流量数据组合成数据集，按8：2比例划分成训练集和测试集。

5）模型输入输出构成如图3所示，输入包括历史流量数据和特征数据，输出为预测流量数据。特征数据维度为54（注意这里是特征向量化后的维度）。历史流量数据为连续采样的96个车流量数据，维度为96。输出维度为要预测的未来15分钟、30分钟、60分钟、120分钟共四个时间点的车流量数据，维度为4。采用标准归一化方法对车流量数据进行归一化。

6）构建GRU交通流量预测模型，第一层输入维度大小为96，输出维度大小为4，模型层数N_layers设置为4，隐藏层个数N_hidden_units设置为256，最后一层最后一个step拼接的特征数据维度大小为54，全连接层神经元个数N_fc_units设置为512。损失函数为L2损失函数，优化器为Adam优化器，初始学习率为0.02。搭建基于TensorFlow的网络模型，使用训练数据训练模型反复迭代直至模型完全收敛。

7）将训练好的模型使用tensor sever部署在云服务器端，对G92高速路段卡口的流量进行实时预测，预测精准度相比无混合特征数据的预测模型提升了4.94%，且模型在只搭载了CPU的服务器端的平均运行时长为16毫秒。

可以观察到本发明构建的模型在提高了预测精准度的同时，具有优秀的实时性能，在实际工程中为实现高精度高实时性的交通流量预测带来重大效益。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于混合特征挖掘的交通流量预测方法，其特征在于，该方法包括以下步骤：

步骤（1）：构建多维初始化原始数据；

1.1）交通流量数据为T时刻之前的Y个小时的历史数据和相应的预测T+t ₁, T+t ₂,…, T +t _K的K个时间点的交通流量数据；历史数据的采样时间间隔均匀，时间间隔为

，采样交通流量数据量为

；

的特征去除，具体步骤如下：

的特征数据，

设置方法如下：

设重要性得分平均数为μ，重要性得分方差为

，x _j为第j个特征数据的重要性得分，0≤j≤总特征数据数J，则有：

则

设置为，

其中系数

表示的含义是，当系数取值为

时，重要性得分取值落在以下区间的概率为

：

式中，

为重要性得分最大值；即有

的重要性得分大于等于

的数据特征被保留，

的重要性得分小于

的数据特征被剔除；系数

及相应的

应根据实际应用中重要性取值分布情况进行调整；

6.4）设计模型损失函数为L2损失函数，优化器为Adam优化器；

2.根据权利要求1所述的一种基于混合特征挖掘的交通流量预测方法，其特征在于，步骤2.1）中，将时间数据分解为离散值数据特征，具体包括年、月、日、小时、分钟、秒钟、年度第几周、年度第几天、本月第几周、本月第几天、星期几、第几季度和一天中的时间段，所述一天中的时间段包括凌晨、早晨、上午、中午、下午、傍晚、晚上和深夜。

3.根据权利要求1所述的一种基于混合特征挖掘的交通流量预测方法，其特征在于，步骤（4）具体过程如下：

设置为a1，最大互信息系数 MIC大于

的删除重要性小的那个特征。

4.根据权利要求3所述的一种基于混合特征挖掘的交通流量预测方法，其特征在于，步骤4.4）具体步骤如下：

a）对所有的

划分方案，Q为所有可能的划分方案数，分别计算方案

的互信息值，

，划分方案将网格划分成多个分区，方案

其中，

即为散点同时落在某个分区中的概率，

即为散点落在某分区水平方向网格的概率，

即为散点落在某分区垂直方向网格的概率，

即为对散点落在各个分区X，Y方向做积分；

c）对最大互信息值MI进行归一化；归一化公式：

其中，

5.根据权利要求1所述的一种基于混合特征挖掘的交通流量预测方法，其特征在于，步骤（5）中，对交通流量数据做归一化，并将重新构建的数据按8：2的比例划分成训练集和测试集。

6.根据权利要求1所述的一种基于混合特征挖掘的交通流量预测方法，其特征在于，步骤（6.3）中，构建基于GRU的时序预测模型，第一层输入为历史交通流量数据，将隐藏层最后一层最后一个step的输出序列和输入特征数据序列进行拼接，并添加一层神经元个数为N_fc_units全连接层，最后输出层大小即为预测的K个时间点的流量数据的维度大小K。