CN109598933B

CN109598933B - 一种基于数据驱动的k邻近非参数回归的交通流预测方法

Info

Publication number: CN109598933B
Application number: CN201811503475.7A
Authority: CN
Inventors: 张登银; 陈肯; 丁飞; 严嘉赟
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2021-09-03
Anticipated expiration: 2038-12-10
Also published as: CN109598933A

Abstract

本发明公开了一种基于数据驱动的k邻近非参数回归的交通流预测方法，基于两步数据搜索算法开发，首先在非预测时间段内，从历史数据库中寻找和识别候选输入数据去与当前状态近似，然后在预测点处从候选输入数据中识别用于预测的最佳决策输入数据，最后利用最佳决策输入数据通过预测算法生成预测。本算法可以有效地减少用于搜索历史数据的时间，从而降低系统预测过程中的执行时间，提高了预测系统的预测效率，同时也保准了系统预测的准确率。

Description

一种基于数据驱动的k邻近非参数回归的交通流预测方法

技术领域

本发明是应用于城市短时车流量预测，涉及到智能交通系统(ITS)和车流预测模型研究的实际应用，属于智能交通系统和车联网领域。

背景技术

时间序列交通流状态的演变通常是混沌系统，其中时间的发展状态确定了给定的初始条件。KNN方法基本上依赖于历史数据中包含的大量信息来决定输入和输出，因而没有任何统计假设，也不是公式人工进行推测。由于理论和实践优势，KNN在智能交通领域已成为一种有前途的预测模型，基于KNN方法的预测方法在预测可靠性方面至少与参数/或非线性模型的性能相媲美。

尽管如此，但数据驱动的缺点一在动态智能交通系统这种以时间为准则的系统中KNN较长的执行时间，导致了KNN预测方法的效率低。因为为了建立最佳的历史数据集，大部分时间是用来搜索过去的情况中包含的丰富的历史数据，因为线性搜索是必不可少的。为了解决这个问题，减少搜索时间的几种技术可分为两种方法：高级搜索技术和数据分割方法。对于高级搜索技术，在高级数据管理系统(ADMS)支持下，提出了基于近似最近邻(ANN)搜索的不精确计算方法，其中搜索时间可以减少到44％-67％，可接受的预测误差级别为±1％。数据分割方法将整个历史数据缩小为有用数据，假设交通流的时间变化在一天、一小时、甚至几分钟的时间跨度内是递归的。这可以是有效的，因为在线性搜索的情况下搜索时间与搜索数据的大小成正比，并且历史数据库的有用扇区是时间依赖性约束的。

然而，数据驱动的KNN预测算法的执行时间仍然无法与高速实时模型的执行时间相媲美。此外，KNN算法它可以动态地、有效地通过反映当前状态来预先确定历史时间事例中的小部分成员在传统的ITS系统的条件下的流动状态。在文献综述的基础上，KNN的性能已经达到了一个可接受的预测精度水平，然而，数据驱动KNN算法的执行时间还没有得到充分的进展，最重要的的是算法的执行时间。KNN预测算法的应用不可避免地包括一个搜索过程，主要是对历史数据的搜索过程，导致了其较长的执行时间。由于这个原因，KNN预测程序可以是在传统的ITS系统中不支持任何先进的数据管理或搜索技术的动态信息流的瓶颈。毫无疑问，与基于KNN的预测相关的“更大的数据处理和较慢效率的运行”问题仍然是一个有待改善和迫切解决的问题。更糟糕的是，历史数据的可用性在现代ITS中持续增长。因此，KNN算法的高速模型框架是必要的，这代表了一个挑战。此外，从诸如支持向量机或深度学习等先进预测模型的学习步骤中，需要从巨大的历史数据中搜索和识别相似案例。

发明内容

发明目的：本发明针对KNN(k-nearest neighbour)用于交通流预测过程中产生的预测不够准确并且需要搜索过去的观测值，导致系统预测需要很长的执行时间、预测效率不高，提出了一种基于数据驱动的k邻近非参数回归的交通流预测方法。该方法基于两步数据搜索算法开发，首先在非预测时间段内，从历史数据库中寻找和识别候选输入数据去与当前状态近似，然后在预测点处从候选输入数据中识别用于预测的最佳决策输入数据。该算法可以有效的减少用于搜索过去历史数据的时间，从而降低系统预测过程中的执行时间，提高了预测系统的预测效率，同时也保准了系统预测的准确率。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于数据驱动的k邻近非参数回归的交通流预测方法，基于两步数据搜索算法开发，首先在非预测时间段内，从历史数据库中寻找和识别候选输入数据去与当前状态近似，然后在预测点处从候选输入数据中识别用于预测的最佳决策输入数据，最后利用最佳决策输入数据通过预测算法生成预测。

包括以下步骤：

步骤1，利用交通数据建立历史数据库，获取历史数据。

步骤2，通过机器学习中的K近邻算法，利用相似性比较从历史数据库中寻找和识别候选输入数据，然后再从候选输入数据中识别用于预测的最佳决策输入数据。

步骤3，基于识别的最佳决策数据，使用预测算法FF进行预测。

步骤1中利用交通数据建立历史交通流数据库的方法：

步骤11，利用采集到的交通流量数据建立历史数据库，对于一年内某测量路段全天24小时的所有车流量数据，假设每个流量数据的测量时长为T，t代表当前时刻，q(t)表示时段[t-T，t]内的交通流量。假设N个连续交通流量数据x_c(t)＝[q(t-(N-1)T)，...，q(t-nT)，...，q(t-T)，q(t)]表示当前状态向量，其中n＝0，1，2，...，N-1。

步骤12，从历史数据库中随机选取M个与当前状态向量x_c(t)等维度的历史状态向量x_j(τ)＝[q(τ-(N-1)T)，...，q(τ-nT)，...，q(τ-T)，q(τ)]作为样本，其中j＝0，1，2，...，M-1，τ为某个历史时间观测点，τ＜t。从这M个样本中寻找和识别出与当前状态近似的状态，计算x_c(t)和x_j(τ)之间的欧式距离

得到M个值，分别记为u₀，u₁，...，u_j，...，u_M-2，u_M-1，取这M个欧氏距离值的平均值，记为

步骤2中的利用相似性比较从历史数据库中寻找和识别候选输入数据的方法：首先将上述M个欧式距离值与

比较，取出小于均值

的Y个样本，Y＜M，将这些样本作为候选输入数据集k_p-NN。

步骤2中的从候选输入数据中识别用于预测的最佳决策输入数据的方法：在候选输入数据集中再次计算当前状态向量x_c(t)与Y个样本间的欧式距离，得到Y个欧氏距离值，计算这Y个值的平均值，比较Y个值与此平均值的大小，取欧氏距离值小于均值的Z个样本，由这Z个样本值构建最佳决策输入数据集k₀-NN。

步骤2中构建候选输入数据集k_p-NN的方法：

步骤201，遍历历史时间段数据库里的x_j(τ)，其中j＝0，1，2，3.....M-1，转步骤202。

步骤202，根据公式

计算当前状态向量x_c(t)与M个样本间的欧式距离，得到M个值，依次表示为u₀，u₁，...，u_j，...，u_M-2，u_M-1，

为M个欧氏距离值的平均值，如果

其中X＝0，1，...，j，...，M-2，M-1，转步骤203，否则转步骤201。

步骤203，取出值小于均值

的Y个样本，Y＜M，将这些样本作为候选输入数据集k_p-NN。

步骤2中确定k_o-NN数据集，并且预测q(t+T)的方法：

步骤211：遍历k_p-NN数据集中Y个样本的

j₁＝0，1，...，Y-2，Y-1。转步骤212。

步骤212：在k_p-NN数据集中根据公式

计算当前状态向量x_c(t)与Y个样本间的欧式距离，得到Y个欧氏距离值，计算这Y个值的平均值

比较Y个值与平均值

的大小，转步骤213。

步骤213：如果

其中X₁＝0，1，...，j，...，Y-2，Y-1，取出欧氏距离值小于均值

的Z(Z＜Y)个样本，由这Z个样本值构建最佳决策输入数据集k_o-NN转步骤214，否则转步骤211。

步骤214：根据数据集k_o-NN，通过公式

预测q(t+T)。

由步骤2中候选输入数据集k_p-NN，最佳决策输入数据集k_o-NN构建预测需要的KNN神经网络信息。基于选择的最佳决策输入数据集k_o-NN，使用预测算法FF进行预测。使用预测算法FF进行预测时，通过公式

预测未来时刻段[t，(t+T)]内的交通流量q(t+T)。

本发明相比现有技术，具有以下有益效果：

本发明基于KNN的高速预测框架，同时考虑局部交通流状态，以便极大加快KNN预测速度，并保证其预测精度。KNN算法的慢速运行问题通过将KNN的搜索过程排除在预测算法之外。本发明可以有效地减少用于搜索历史数据的时间，从而降低系统预测过程中的执行时间，提高了预测系统的预测效率，同时也保准了系统预测的准确率。

附图说明

图1为本发明的预测算法具体实施流程图。

图2为本预测模型的应用场景图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

预测算法由搜索过程和预测函数两个部分组成。其中搜索过程用于寻找KNN类似于当前状态的历史数据和预测函数，预测函数通过使用KNN的信息生成未来状态。在预测建模中，认为当前状态的时间演化在某种程度上与后续状态密切相关，类似的，先前的时间发展状态与当前状态之间也遵循这个前提。当前状态能够在非预测时间段通过相似性度量有效用于在历史数据中找到用于KNN算法的期望实例，预测算法在预测点t_p的预测过程中立即在期望实例的数据中识别用于预测的最佳决策输入数据。在本发明中，以上每个两步搜索程序与KNN预测算法的框架相结合，该算法将预测生成的结果作为搜索过程的第一步，从历史数据中区分期望的最近K-邻居(k_p-NN)，利用搜索的第二步，然后在预测点t_p中生成未来状态。

(1)参数分析：KNN预测测模型由三个状态向量(当前状态、输入、输出)，相似性度量和预测函数(FF)或预测算法三部分组成。对于一年内某测量路段全天24小时的所有车流量数据，假设每个流量数据的测量时长为T，t代表当前时刻，q(t)表示时段[t-T，t]内的交通流量。假设N个连续交通流量数据x_c(t)＝[q(t-(N-1)T)，...，q(t-nT)，...，q(t-T)，q(t)]表示当前状态向量，其中n＝0，1，2，...，N-1。从数据库中随机选取M个与当前状态向量x_c(t)等维度的历史状态向量x_j(τ)＝[q(τ-(N-1)T)，...，q(τ-nT)，...，q(τ-T)，q(τ)]作为样本，其中j＝0，1，2，...，M-1，τ为某个历史时间观测点(τ＜t)。为了从这M个样本中寻找和识别出与当前状态近似的状态，计算x_c(t)和x_j(τ)之间的欧式距离

得到M个值，分别记为u₀，u₁，...，u_j，...，u_M-2，u_M-1°取这M个欧氏距离值的平均值，记为

(2)预测算法：KNN两步搜索算法的核心思想在于：利用k近邻算法，通过相似性度量构建期望数据集k-NN，然后在k-NN数据集的基础上再次通过相似性度量确立最佳决策输入数据集k_o-NN，并以此为输入数据通过预测生成未来时刻段[t，(t+T)]交通流量q(t+T)。

包括以下步骤：

步骤1，利用交管部门采集到的交通流量数据建立历史数据库，获取历史数据。

步骤1中利用交通数据建立历史交通流数据库的方法：

步骤2中的利用相似性比较从历史数据库中寻找和识别候选输入数据的方法O首先将上述M个欧式距离值与

比较，取出小于均值

的Y个样本，Y＜M，将这些样本作为候选输入数据集k_p-NN。

步骤2中的从候选输入数据中识别用于预测的最佳决策输入数据的方法：在候选输入数据集中再次计算当前状态向量x_c(t)与Y个样本间的欧式距离，得到Y个欧氏距离值，计算这Y个值的平均值，比较Y个值与此平均值的大小，取欧氏距离值小于均值的Z个样本，由这Z个样本值构建最佳决策输入数据集k_o-NN。

步骤2中构建候选输入数据集k_p-NN的方法：

步骤202，根据公式

为M个欧氏距离值的平均值，如果

步骤203，取出值小于均值

的Y个样本，Y＜M，将这些样本作为候选输入数据集k_p-NN。

步骤2中确定k_o-NN数据集，并且预测q(t+T)的方法：

步骤211：遍历k_p-NN数据集中Y个样本的

j₁＝0，1，...，Y-2，Y-1。转步骤212。

步骤212：在k_p-NN数据集中根据公式

比较Y个值与平均值

的大小，转步骤213。

步骤213：如果

步骤214：根据数据集k_o-NN，通过公式

预测q(t+T)。

预测未来时刻段[t，(t+T)]内的交通流量q(t+T)。

本发明有效地减少用于搜索历史数据的时间，从而降低系统预测过程中的执行时间，提高了预测系统的预测效率，同时也保准了系统预测的准确率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于数据驱动的k邻近非参数回归的交通流预测方法，其特征在于，基于两步数据搜索方法开发，首先在非预测时间段内，从历史数据库中寻找和识别候选输入数据去与当前状态近似，然后在预测点处从候选输入数据中识别用于预测的最佳决策输入数据，最后利用最佳决策输入数据通过预测方法生成预测；包括以下步骤：

步骤1，利用交通数据建立历史数据库，获取历史数据；

利用交通数据建立历史交通流数据库的方法：

步骤11，利用采集到的交通流量数据建立历史数据库，对于一年内某测量路段全天24小时的所有车流量数据，假设每个流量数据的测量时长为T，t代表当前时刻，q(t)表示时段[t-T，t]内的交通流量；假设N个连续交通流量数据x_c(t)＝[q(t-(N-1)T)，...，q(t-nT)，...，q(t-T)，q(t)]表示当前状态向量，其中n＝0,1，2，...，N-1；

步骤12，从历史数据库中随机选取M个与当前状态向量x_c(t)等维度的历史状态向量x_j(τ)＝[q(τ-(N-1)T)，...，q(τ-nT)，...，q(τ-T)，q(τ)]作为样本，其中j＝0，1，2，...，M-1，τ为某个历史时间观测点，τ＜t；从这M个样本中寻找和识别出与当前状态近似的状态，计算x_c(t)和x_j(τ)之间的欧式距离