CN113379099B

CN113379099B - 一种基于机器学习与copula模型的高速公路交通流自适应预测方法

Info

Publication number: CN113379099B
Application number: CN202110482097.4A
Authority: CN
Inventors: 张帅宇; 傅惠; 罗旭彬; 陈扬航; 姚奕鹏
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-06-03
Anticipated expiration: 2041-04-30
Also published as: CN113379099A

Abstract

本发明公开了一种基于机器学习与copula模型的高速公路交通流自适应预测方法，将一条待预测的高速公路按匝道口划分成许多小段，设计一种“算法择优器”模型，该模型储存多种预测算法，给每个小路段都分配一个模型，然后利用历史数据经过训练和测试，模型能够依据最近的训练结果选择最好的预测算法，从而克服了单个模型预测效果存在的瓶颈。同时，本发明从交通流点预测模型的的预测值与真实值的相关性出发，利用copula函数的相关性理论，得到在某一预测值条件下，计算实际值的条件概率分布，进而转移到误差的条件概率分析中，后再将误差分布估计转化为交通流预测的不确定性估计，从而更好的捕捉交通流的随机性，大大提高预测精度。

Description

一种基于机器学习与copula模型的高速公路交通流自适应预测方法

技术领域

本发明涉及交通流预测的技术领域，尤其涉及到一种基于机器学习与copula模型的高速公路交通流自适应预测方法。

背景技术

对于智能交通系统而言，可靠、精准的实时交通流预测是缓解交通拥堵、实现交通管理、交通控制、交通诱导、提高道路运营效率等的必要前提。交通流预测是诱导有效交通管理、缓解交通拥堵的基础。交通流具有周期性、随机性、时间相关性和空间相关性。准确预测交通流，掌握交通流动态变化趋势是ITS的关键步骤，对缓解交通拥堵、指定可靠的交通控制与引导策略、研究车路协同和自动驾驶具有重要意义。经验表明，预先预测交通状态的监测管理往往不如现场部署措施有效，而现场布置措施所获得的效益更加明显；因此利用大数据进行交通流预测已成为交通预测最热门的研究课题。

目前，高速公路交通流预测技术大致包括三种主要的方法：线性统计、非线性理论和机器学习方法。基于线性统计的预测方法起步较早，主要采用时间序列方法进行交通流预测，包括回归模型(AR)、移动平均模型(MA)、自回归移动平均模型(ARIMA)和卡尔曼滤波等方法。其中，文献[1]Okutani I,Stephanedes Y J.Dynamic prediction of trafficvolume through Kalman filtering theory[J].Transportation Research Part B:Methodological,1984,18(1):1-11.首次将卡尔曼理论模型应用于交通流预测，并在卡尔曼滤波理论的基础上，提出了两种预测误差较小的短期交通流预测模型；随后，一些研究者将卡尔曼滤波理论与其他方法相结合，建立了各种混合预测方法。统计模型具有计算简单、易于操作的优点，然而，对于复杂的非线性交通流数据，其变化特征无法完全捕捉，导致预测精度较低。为了克服这一缺点，相关学者开始探索非参数方法的应用，经典的非线性预测模型主要包括混沌理论模型和小波分析模型等。其中，文献[2]Frazier C,Kockelman KM.Chaos theory and transportation systems:instructive example[J].Transportation Research Record,2004,1897(1):9-17.将混沌理论应用于交通系统，证明了该方法的预测性能优于非线性最小二乘方法。近年来，随着机器学习方法的兴起，学者们开始探索机器学习方法和深度学习在交通流预测技术中的应用。其中，文献[3]El-SayedH,Sankar S,Daraghmi Y A,et al.Accurate traffic flow prediction inheterogeneous vehicular networks in an intelligent transport system using asupervised non-parametric classifier[J].Sensors,2018,18(6):1696.研究了异构车联网环境下的交通流特性，改进了支持向量机方法。实验结果表明，改进的支持向量机预测精度较高，优于其他交通流预测方法。

通过对现有的高速公路预测研究方法的总结与归纳，得到以下两点问题：①大多数研究的做法都是希望单一算法解决一整条高速公路交通流预测的问题，而实际情况是高速公路不同路段之间的道路通行能力不不尽相同的。②高速公路交通流具有很强的非线性和随机性，在不同时段也呈现出不同的变化规律。

发明内容

本发明的目的在于克服现有技术的不足，提供一种能提高泛化能力、更好地捕捉交通流的随机性的基于机器学习与copula模型的高速公路交通流自适应预测方法。

为实现上述目的，本发明所提供的技术方案为：

一种基于机器学习与copula模型的高速公路交通流自适应预测方法，包括以下步骤：

S1、采集待预测交通流的高速公路的历史数据，然后将待预测交通流的高速公路按匝道口划分为多个路段，分别对每个路段的历史数据进行预处理；

S2、将每个路段已经过预处理的历史数据分为机器学习训练数据集、机器学习测试数据集、误差修正模型训练数据集、模型评价验证集；

S3、设计储存多种预测算法的机器学习模型，并分配给每个路段；

S4、利用每个路段的机器学习训练数据集和机器学习测试数据集对每个路段的机器学习模型进行训练和测试，使每个路段的机器学习模型均能依据最近的训练结果选择最好的预测算法；

S5、对每个路段均分配预测误差修正模型，利用对应路段的误差修正模型训练数据集对对应的预测误差修正模型进行训练；

S6、将模型评价验证集中的数据输入进已选择最好的预测算法的机器学习模型中，得到每个路段的预测结果；

S7、将模型评价验证集中的数据输入进对应的已训练好的预测误差修正模型，得到每个路段对应的修正后的预测误差；

S8、将每个路段的预测结果和修正后的预测误差进行相加，得到每个路段最终的预测结果；

S9、将每个路段最终的预测结果连接在一起，得到整条高速公路交通流的预测结果。

进一步地，所述步骤S1中，采集高速公路的历史数据以及对每个路段的历史数据进行预处理的具体步骤如下：

1)收集高速公路线路信息、路段信息以及高速龙门架检测器数据、收费站ETC数据存储于大数据平台Hadoop中；

2)通过Hive数据库观察数据情况，并进行数据的异常处理；

3)计算包括每个路段每五分钟的平均速度、密度、流量在内的交通流参数；

4)在得到每个路段每五分钟的速度、流量和密度信息后，匹配出同一时刻包括温度、湿度和降雨量在内的天气信息，构成特征矩阵储存起来；

5)将特征矩阵进行归一化操作，归一化公式为：

式(5)中，Z(x)表示归一化后的交通流数据，E(x)表示样本数据中的均值，σ(x)表示样本数据集的方差，x表示待归一化的历史交通流数据。

进一步地，所述步骤2)中，进行数据的异常处理的具体步骤如下：

2-1)对于出现漏检情况的车辆，基于Dijkstra最短路径算法找出连接两个相邻检测器的最短检测器序列；

2-2)对于重复检测的情况，将同一检测器在设定阈值内多次检测出同一车辆的较晚的数据点保留，其余数据删除；

2-3)对于包括数据源中的时间、车辆类型、检测器ID在内的数据标签作统一格式处理。

进一步地，所述步骤3)的具体步骤如下：

采用空间平均速度算法计算平均速度，公式如下：

式(1)中，L为路段长度，n为统计间隔内车辆数量，T为统计间隔内所有车辆总通行时间；

构建平衡方程，获取路段内累计车辆数，对路段累计车辆数进行推导，结合路段长度，即可推算出密度，平衡方程表达如下：

N(t)＝N(t-1)+N_i(t)-N₀(t) (2)

式(2)中，N(t)代表第t时段开始道路累计车辆，N_i(t),N₀(t)为第t时段内道路流入\出车辆数；

对于每段高速道路，在每个时段对路段状态基于平衡方程做推导，即可得到所有时段路段内的累计车辆数；基于如下密度计算公式，即可获取道路密度：

对单位时间间隔内道路首末段经过检测器的车辆数进行平均，即可获取道路流量，公式如下：

式(4)中q为时间t道路流量，q₀和q_e分别为时间t路段首末端检测器流量。

进一步地，所述步骤S4的具体步骤如下：

S4-1、通过交叉验证算法，训练每个路段中多个储存了不同预测算法的模型；

S4-2、将机器学习测试数据集输入进每个已经训练好的模型中得到多个预测结果，然后利用最小损失函数计算结果；

S4-3、将损失函数最小的模型作为对象保存。

进一步地，所述步骤S5中，对对应的预测误差修正模型进行训练时，包括：

利用Kendall、Spearman、Pearson三种方法对步骤S6得到的预测结果

和模型评价验证集中标签的真实值y进行相关性分析；

使用核密度估计、正态、对数正态和韦伯分布对各变量的分布进行拟合；

根据AIC准则对各分布进行拟合优度检验；

以正态Copula，Clayton-Copula和t-Copula为Copula函数，采用基于经验函数的BFGS参数估计法分别估计出正态Copula，Clayton-Copula和t-Copula函数的参数值，并计算估计出的Copula函数与经验函数的平方欧氏距离，以欧氏距离最小为依据，选择拟合优度最佳的Copula函数，则

的联合概率密度分布函数为：

式(8)中，f(x)表示y的边缘分布函数，

表示

的边缘概率密度函数；

代表相应的Copula概率密度函数。

进一步地，所述步骤S7中，过程包括

令预测值

则实际值条件下的概率密度函数如以下公式表示：

由

可得到预测误差的条件概率密度函数，如下公式：

因此求得不同分位数下的预测误差

即修正后的预测误差，其中q表示不中的分位数。

与现有技术相比，本方案原理及优点如下：

本方案首先将一条待预测的高速公路按匝道口划分成许多小段，设计一种“算法择优器”模型，该模型储存多种预测算法，给每个小路段都分配一个模型，然后利用历史数据经过训练和测试，模型能够依据最近的训练结果选择最好的预测算法，从而克服了单个模型预测效果存在的瓶颈，更好地提高了预测算法的泛化能力。同时，本方案从交通流点预测模型的的预测值与真实值的相关性出发，利用copula函数的相关性理论，得到在某一预测值条件下，计算实际值的条件概率分布，进而转移到误差的条件概率分析中，后再将误差分布估计转化为交通流预测的不确定性估计，从而更好的捕捉交通流的随机性，大大提高预测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于机器学习与copula模型的高速公路交通流自适应预测方法的原理流程图；

图2为多算法选择流程图；

图3为5％与95％分位数下的预测曲线示例图；

图4为本发明在高速公路拥堵控制方面的应用示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所述，本实施例所述的一种基于机器学习与copula模型的高速公路交通流自适应预测方法，包括以下步骤：

S1、采集待预测交通流的高速公路的历史数据，然后将待预测交通流的高速公路按匝道口划分为多个路段，分别对每个路段的历史数据进行预处理；具体步骤如下：

2)通过Hive数据库观察数据情况，并进行数据的异常处理,包括：

3)计算包括每个路段每五分钟的平均速度、密度、流量在内的交通流参数；计算过程如下：

采用空间平均速度算法计算平均速度，公式如下：

N(t)＝N(t-1)+N_i(t)-N₀(t) (2)

式(2)中，N(t)代表第t时段开始道路累计车辆，N_i(t)，N₀(t)为第t时段内道路流入\出车辆数；

5)将特征矩阵进行归一化操作，归一化公式为：

S3、设计储存多种预测算法(XGboost、SVR、RandomForest、LinearRegression等)的机器学习模型，并分配给每个路段；

S4、利用每个路段的机器学习训练数据集和机器学习测试数据集对每个路段的机器学习模型进行训练和测试，使每个路段的机器学习模型均能依据最近的训练结果选择最好的预测算法；具体步骤如下：

S4-3、将损失函数最小的模型作为对象保存。

S5、对每个路段均分配预测误差修正模型，利用对应路段的误差修正模型训练数据集对对应的预测误差修正模型进行训练；具体包括：

利用Kendall、Spearman、Pearson三种方法对步骤S6得到的预测结果

和模型评价验证集中标签的真实值y进行相关性分析；

根据AIC准则对各分布进行拟合优度检验；

的联合概率密度分布函数为：

式(8)中，f(x)表示y的边缘分布函数，

表示

的边缘概率密度函数；

代表相应的Copula概率密度函数。

S7、将模型评价验证集中的数据输入进对应的已训练好的预测误差修正模型，得到每个路段对应的修正后的预测误差；过程包括：

令预测值

则实际值条件下的概率密度函数如以下公式表示：

由

可得到预测误差的条件概率密度函数，如下公式：

因此求得不同分位数下的预测误差

即修正后的预测误差，其中q表示不中的分位数。

S8、将每个路段的预测结果和修正后的预测误差进行相加，得到每个路段最终的预测结果，即

实施例具有如下优点：

从模型结构的角度看，本实施例采用一种多算法、多路段的的混合模型，以路段前面N个时刻已知的数据，预测未来时刻路段的交通流参数(速度、密度)，并且每个路段均储存从历史数据训练好的最优算法，模型会动态切换每个路段的最优算法从而得到最优算法组合，混合模型包括机器学习中的大部分模型(如：XGboost、SVR、RandomForest、LinearRegression等)。利用广州市机场高速公路作为研究对象(三元里-白云机场)，根据匝道口将高速路分为不同的路段，这里将一个小路段看作一个Node，那么整体的多算法选择流程如下图2所示，每个Node都能在众多算法中选出一个效果最优的，而且Node与Node之间的选择是独立的。

在每个Node得到最优的机器学习算法之后，将最优模型预测的交通流预测值和真实值的相依关系进行了系统分析，在某一预测值条件下建立了条件Copula模型，并利用该模型再结合区间估计的相关理论得到不同置信水平下的概率区间预测结果，实验证明条件Copula模型能够准确有效地进行交通流的概率区间预测，提高了概率区间预测结果的精度，为以后的交通领域相关预测提供了新思路。

从模型应用的角度看，本实施例从高速公路交通流的不确定性问题的角度进行考虑，提供了交通流参数(速度、密度)概率区间预测(如图3所示)，为交通管理决策者提供了更好的信息参考。

从概率区间预测的角度看，该预测结果可以应用于高速公路交通拥堵控制中(如图4所示)，实时监控与预测道路交通流密度，当道路车辆的预测的密度大于临界密度点Q_critical的概率大于50％时，启动系统预警；当道路车辆的预测的密度大于临界密度点Q_critical的概率大于80％时，启动高速公路控制策略，及时避免交通拥堵的发生。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。