CN102033892A

CN102033892A - 交通流历史标准数据的生成方法及系统

Info

Publication number: CN102033892A
Application number: CN2009102356221A
Authority: CN
Inventors: 关积珍; 刘静; 林森; 侯晓宇; 熊娟; 孙蕊
Original assignee: BEIJING STONE INTELLIGENT TRAFFIC SYSTEM INTEGRATION Co Ltd
Current assignee: BEIJING STONE INTELLIGENT TRAFFIC SYSTEM INTEGRATION Co Ltd
Priority date: 2009-09-30
Filing date: 2009-09-30
Publication date: 2011-04-27

Abstract

本发明涉及智能交通系统，尤其是涉及一种获得交通流历史标准数据方法及系统，用于为短时交通流预测方法提供交通流历史标准数据。本发明通过对原始交通流时间序列数据分组生成集合，将各个集合中原始交通流时间序列数据被划分为繁忙时段的数据预处理并进行相关性分析，得到第一基本序列数据，实现了交通流历史标准数据繁忙时段的数据的生成，为短时交通流预测方法提供精度高而且准确的交通流历史标准数据。进一步，对各个集合中原始交通流时间序列数据被划分为空闲时段的数据进行处理，得到第二基本序列数据，实现了交通流历史数据库空闲时段的数据的生成，为短时交通流预测方法提供精度高而且准确的交通流历史标准数据。

Description

交通流历史标准数据的生成方法及系统

技术领域

本发明涉及智能交通系统，尤其是涉及一种获得交通流历史标准数据方法及系统。

背景技术

伴随着智能交通系统(ITS，InteLLigent Transport Systems)研究的不断深入和智能交通系统技术的广泛应用，交通管理逐步走向智能化、动态化和信息化。交通管理者和研究人员可以获取实时的交通状态数据，并在此基础上积累了大量历史数据。这些动态信息为交通管理者和交通研究人员提供了重要的数据支持。但不管是要实现城市交通的最有效管理，还是为道路使用者提供更有意义的交通信息，从客观上都要求在实时交通信息的基础上获知未来短时间内交通状态演变的趋势。如果没有实现交通流状态的短期预测(例如15分钟之内)的能力，智能交通系统的全部优势将不可能为人们所认识。因此，短时交通流预测在智能交通系统中具有非常重要的作用。

目前，交通状态短时预测系统在实时交通数据中断或存在数据异常时，经常会出现预测不准确或无法预测的情况。另一方面，对于大量历史交通状态数据的挖掘只是用于理论研究和决策支持，实时预测系统和历史交通状态数据之间缺乏有效的联系，致使实时交通流短时预测系统的精度不高，难以满足交通管理和公众出行等多方面的需求。

在交通流历史数据库的建立过程中，交通状态具有一定的周期性，通过对于大量历史交通状态数据的挖掘，可以一定程度上掌握其规律，即形成交通流历史标准数据，进而形成历史标准库。但是，目前对大量历史交通状态数据的挖掘，主要用于理论研究和决策支持，如何发现交通规律，并将规律性的结论用于交通流短时预测，还没有现成的成果或产品，致使实时交通流短时预测系统的精度不高，难以满足交通管理和公众出行等多方面的需求。

发明内容

本发明提供一种生成交通流历史标准数据的方法，用于为短时交通流预测方法提供交通流历史标准数据。

一种获得交通流历史标准数据的方法，包括：

以年为单位，对每一天根据设定的采集周期采集原始交通流数据以获得各天的原始交通流时间序列数据；

按照设定规律将一年中各天划分为M组，每一组中按照周一至周日分别将各天的原始交通流时间序列数据归为7类，生成7*M个原始交通流时间序列数据集合；

对各个集合中的每一个原始交通流时间序列数据中被划分为繁忙时段的数据分别进行预处理以获得相应的第一标准交通流时间序列数据；

分别对每一个集合，根据集合中各第一标准交通流时间序列数据的相关性获得所述集合的第一基本序列数据；

将各集合的所述第一基本序列数据作为繁忙时段的交通流历史标准数据。

进一步所述的方法还包括：

对各个集合中的原始交通流时间序列数据中被划分为空闲时段的数据计算相同时间点的交通流数据的平均值，得到平均交通流时间序列数据。

对每一个集合，分别对平均交通流时间序列数据进行预处理得到所述集合的第二基本序列数据；

将各集合的所述第二基本序列数据作为空闲时段的交通流历史标准数据。

其中，对其中一个集合中的一个原始交通流时间序列数据中被划分为繁忙时段的数据进行预处理以获得相应的第一标准交通流时间序列数据，具体包括：

对所述原始交通流时间序列数据缺失判断及处理；

对所述原始交通流时间序列数据错误判断及处理；

对所述原始交通流时间序列数据滤波处理，获得所述第一标准交通流时间序列数据。

其中，对其中一个集合，根据该集合中各第一标准交通流时间序列数据的相关性获得所述集合的第一基本序列数据，具体包括：

计算集合中各第一标准交通流时间序列数据的相关系数矩阵，所述相关系数矩阵中元素的计算公式如下：

r (i, j) = r (j, i) = \frac{Cov (F_{i}, F_{j})}{\sqrt{Cov (F_{i}, F_{i}) \times Cov (F_{j}, F_{j})}} (i = 1 : N, j = 1 : N)

其中，N为集合中第一标准交通流时间序列数据的数量，r(i，j)为相关系数矩阵中第i行第j列的元素，F_i(i＝1，2，...N)为参与计算的第一标准交通流时间序列数据，Cov(F_i，F_j)是所述第一标准交通流时间序列数据F_i和F_j的协方差；

对所述相关系数矩阵的各行分别求和获得相似系数S_i(i＝1，2，...N)，所述相似系数S_i定义为所述F_i相对集合中其他所有所述第一标准交通流时间序列数据的相似系数，计算公式如下：

S_{i} = Σ_{j = 1}^{N} r (i, j), (i = 1 : N)

选择S_i中的最大值S_max，并找出它对应的第一标准交通流时间序列数据F_max；

根据所述S_max计算F_i的相似性权重系数，具体公式如下：

σ_{i} = \frac{r (i, \max)}{S_{\max}} (i = 1,2, . . . N)

其中，σ_i为F_i的相似性权重系数，S_max为相似系数的最大值，r(i，max)为所述相关系数矩阵中第i行第max列的元素；

根据相似性权重系数，计算集合中第一标准交通流时间序列数据得到所述集合第一基本序列数据F，具体公式如下：

F = Σ_{i = 1}^{N} σ_{i} F_{i}

其中，σ_i为F_i的相似性权重系数，F_i为所述第一标准交通流时间序列数据。

较佳的，所述交通流历史标准数据保存在历史数据标准库中。

一种获得交通流历史标准数据的系统，包括：

数据采集模块，用于以年为单位，对每一天根据设定的采集周期采集原始交通流数据以获得各天的原始交通流时间序列数据；

数据预处理模块，用于按照设定规律将一年中各天划分为M组，每一组中按照周一至周日分别将各天的原始交通流时间序列数据归为7类，生成7*M个原始交通流时间序列数据集合，并对各个集合中的每一个原始交通流时间序列数据中被划分为繁忙时段的数据分别进行预处理以获得相应的第一标准交通流时间序列数据；

交通流历史标准数据生成模块，用于分别对每一个集合，根据集合中各第一标准交通流时间序列数据的相关性获得所述集合的第一基本序列数据，并将各集合的所述第一基本序列数据作为繁忙时段的交通流历史标准数据。

进一步，所述数据预处理模块，还用于对各个集合中的原始交通流时间序列数据中被划分为空闲时段的数据计算相同时间点的交通流数据的平均值，得到平均交通流时间序列数据；

交通流历史标准数据生成模块，还用于分别对每一个集合，对平均交通流时间序列数据进行预处理得到所述集合的第二基本序列数据，并将各集合的所述第二基本序列数据作为空闲时段的交通流历史标准数据。

更进一步，还包括：历史数据标准库，用于保存所述原始交通流时间序列数据和交通流历史标准数据。

本发明通过对原始交通流时间序列数据分组生成集合，将各个集合中原始交通流时间序列数据被划分为繁忙时段的数据预处理并进行相关性分析，得到第一基本序列数据，实现了交通流历史标准数据繁忙时段的数据的生成，为短时交通流预测方法提供精度高而且准确的交通流历史标准数据。

进一步，对各个集合中原始交通流时间序列数据被划分为空闲时段的数据进行处理，得到第二基本序列数据，实现了交通流历史数据库空闲时段的数据的生成，为短时交通流预测方法提供精度高而且准确的交通流历史标准数据。

附图说明

图1为本发明实施例提供的交通流历史标准数据的生成流程；

图2为本发明实施例提供的繁忙时段原始交通流时间序列数据预处理流程图；

图3为繁忙时段交通流历史标准数据的第一基本序列数据生成流程图；

图4为空闲时段交通流历史标准数据的第二基本序列数据的生成流程图；

图5为传统的K近邻非参数回归预测方法流程图；

图6为本发明实施例提供的状态模式向量说明图；

图7为本发明实施例提供的交通流数据短时预测方法流程图；

图8为本发明提供的获得交通流历史标准数据的系统；

图9为本发明提供的交通流数据短时预测系统；

图10为本发明提供的基于历史数据标准库的交通流数据短时预测系统的结构图。

具体实施方式

本发明实施例提供一种获得交通流历史标准数据的方法，实现为短时交通流预测方法提供精度高而且可靠的交通流历史标准数据。

目前对于大量历史交通状态数据的挖掘，主要用于理论研究和决策支持，并没有将规律性的结论用于短时交通预测方法中。本发明实施例提供一种获得交通流历史标准数据的方法，将大量原始交通流时间序列数据分组生成集合，并对各个集合中的各个交通流时间序列数据根据繁忙时段和空闲时段采用不同的方法处理，将得到的基本序列数据作为交通流历史标准数据。

考虑到一天中不同时段交通规律的不同，将一天的时间划分为繁忙时段和空闲时段，繁忙时段一般为一天中的白天，例如：6:00～24:00，空闲时段一般是指晚间时间，例如0:00～6:00，当然，某些城市可以将繁忙时段延长至1:00或2:00等，根据各个城市的情况灵活设定。本发明实施例中对于繁忙时段和空闲时段采用不同的方法进行处理，下面进行详细说明。

本发明实施例提供一种获得交通流历史标准数据的方法，参阅图1所示，具体流程包括如下步骤：

S101：以年为单位，对每一天根据设定的采集周期采集原始交通流数据以获得各天的原始交通流时间序列数据；

采集周期例如5分钟，原始交通流时间序列数据例如每间隔5分钟采集的交通流数据形成的序列。

S102：按照设定规律将一年中各天划分为M组，每一组中按照周一至周日分别将各天的原始交通流时间序列数据归为7类，生成7*M个的原始交通流时间序列数据集合；

其中，每一个集合中包含N个被归为同一类的原始交通流时间序列数据；

用于分组的设定规律例如按照月分组，则同一月中所有周一的原始交通流时间序列数据形成一个集合，同一月中所有周二的原始交通流时间序列数据形成一个集合，依此类推，一共获得84个集合，由于每月中一般包含4周，所以一个集合中一般包含四个原始交通流时间序列数据，即M等于4。

分组的设定规律还例如按照每两个月进行分组，还有将节假日归为一组，例如五一假期、十一假期等归为一组，分组的目的在于将具有类似交通状态的天数归为一组，然后进一步按照周一至周日的规律获得原始交通流时间序列数据集合。

分组的设定规律还有很多，这里不再一一列举，下面以根据所属季度和周进行分类为例进行详细说明。

根据所属季度和周进行分类，生成A1-D7共28个集合，具体参见表1：

表1.

说明：季度用字母A-D编码，周用数字1-7编码。例如A1表示第一季度的所有周一原始交通流时间序列数据形成集合，依此类推，因为每个季度包含13周，所以每个集合中包含13个原始交通流时间序列，即N等于13。

S103：对各个集合中的每一个原始交通流时间序列数据中被划分为繁忙时段的数据分别进行预处理以获得相应的第一标准交通流时间序列数据；

经过预处理的第一标准交通流时间序列数据应该是一定时间间隔的连续、可靠数据。

S104：分别对每一个集合，根据集合中各第一标准交通流时间序列数据的相关性获得该集合的第一基本序列数据；

S105：将各集合的第一基本序列数据作为繁忙时段的交通流历史标准数据。

参阅图2所示，以一个原始交通流时间序列数据中被划分为繁忙时段的数据的预处理为例，S103中对原始交通流时间序列数据中被划分为繁忙时段的数据预处理流程具体过程如下：

S201：原始交通流时间序列数据缺失判断及处理；

原始交通流数据例如为固定时间间隔(如5分钟)的以天为单位的原始交通流时间序列数据，如原始交通流时间序列F(x₁，x₂......x_n)，其中x_i为第i个时间点的交通流数据，若时间间隔不连续(如8:00，8:10)，则定义为原始交通数据缺失。对于数据缺失点，采用平均插值方法补齐。

S202：原始交通流时间序列数据错误判断及处理；

对原始交通流时间序列数据错误的判断采用阈值法，超出阈值的原始交通流数据，定义为错误数据。对于错误数据，剔除错误数据，采用平均插值方法补齐。

S203：将原始交通流时间序列数据滤波处理得到标准交通流时间序列数据。

将原始交通流时间序列数据采用小波变换，去除原始交通流时间序列数据中的噪点，得到标准交通流时间序列数据。

下面以表1的划分为例，详细说明在步骤S104中如何根据集合中的13个第一标准交通流时间序列数据的相关性获得该集合的第一基本序列数据，也即：对每个集合中的13个第一标准交通流时间序列进行相关性分析，得到一个第一基本序列数据。

参阅图3所示，以其中一个集合的数据处理为例，繁忙时段的交通流历史标准数据的第一基本序列数据生成流程具体包括：

S301：计算集合中N个标准交通流时间序列数据的相关系数矩阵，相关系数矩阵中元素的计算公式如下：

r (i, j) = r (j, i) = \frac{Cov (F_{i}, F_{j})}{\sqrt{Cov (F_{i}, F_{i}) \times Cov (F_{j}, F_{j})}} (i = 1 : N, j = 1 : N)

其中，r(i，j)为相关系数矩阵中第i行第j列的元素，F_i(i＝1，2，...N)为参与计算的标准交通流时间序列数据，F_i为以天为单位的标准交通流时间序列数据。Cov(F_i，F_j)是标准交通流时间序列数据F_i和F_j的协方差。上述N取值一般为13，若参与计算的标准交通流时间序列数据不够，如某一天的标准交通流时间序列数据丢失，则N可以小于13。

S302：对相关系数矩阵的各行分别求和，即定义F_i相对其他所有数据序列的相似系数S_i，公式如下：

S_{i} = Σ_{j = 1}^{N} r (i, j), (i = 1 : N)

例如：相似系数S₁即是交通流时间序列F₁相对集合中其他交通流时间序列的相似系数。

S303：选择S_i中的最大值S_max，并找出它对应的交通流时间序列F_max。

S304：根据S_max计算F_i的相似性权重系数，具体公式如下：

σ_{i} = \frac{r (i, \max)}{S_{\max}} (i = 1,2, . . . N)

其中，σ_i为F_i的相似性权重系数，S_max为相似系数的最大值，r(i，max)为相关系数矩阵中第i行第max列的元素。

S305：根据相似性权重系数，计算集合中标准交通流时间序列数据得到该集合的第一基本序列数据F。具体公式如下：

F = Σ_{i = 1}^{N} σ_{i} F_{i}

其中，σ_i为F_i的相似性权重系数，F_i为交通流时间序列。

由于空闲时段车辆较少，因此会出现连续长时间缺失交通数据的情况，在这种情况下，平均插值方法难以补齐符合实际交通状态的数据，数据预处理流程不再适用。但是，空闲时段的交通状态基本一直都处于自由流状态，因此该时段交通流历史标准数据的生成，采用汇总多天数据再进行预处理的方法，以其中一个集合的数据处理为例，参阅图4所示，空闲时段的交通流历史标准数据的第二基本序列数据生成流程具体包括：

S401：对各个集合中的原始交通流时间序列数据中被划分为空闲时段的数据计算相同时间点的交通流数据的平均值，并替换掉原相同时间点的交通流数据，得到平均交通流时间序列数据。

S402：对每一个集合，分别对平均交通流时间序列数据进行预处理得到集合的第二基本序列数据；

S403：将各集合的第二基本序列数据作为空闲时段的交通流历史标准数据。

将繁忙时段的第一基本序列数据与空闲时段得到的第二基本序列数据按时间合并，即得到交通流历史标准数据。

上述步骤为交通流历史标准数据的一个基本序列的生成方法，28个基本序列数据的生成方法与此类似，这里不再一一描述。

上述原始交通流时间序列数据保存在原始数据库中，交通流历史标准数据保存在历史数据标准库中。

下面详细介绍交通流数据短时预测方法。

本发明实施例针对非参数回归预测方法在交通流短时预测方法上的局限性，在传统的K近邻非参数回归预测方法的基础上做了改进：加入状态模式向量和变K、l搜索方法得到最优的K、l值及相应的预测结果。

下面简单介绍非参数回归方法和K近邻非参数预测回归方法。

传统的参数估计方法的基本思想是：对给定的一组输入和输出数据(X，Y)，通过拟合方法(如最小二乘法)寻到函数的具体关系式

Y＝f(X，β)

其中β是模型的参数集合。如果能找到此上述关系式，就可用这个模型计算新输入数据x_n的输出估计值y_n。但非参数估计方法并不关心公式中f的具体形式，而在所有历史数据{(x_i，y_i)}中寻找关于新输入数据向量x_n的近邻子集{(x_i，y_i)ⁿ}，并优化这个子集，用这个最优近邻子集生成预测量矢量估计y_n。

K近邻非参数回归方法是在非参数回归方法的基础之上，寻找与当前状态相匹配的K个最近邻子集{(X_i，y_i)^k}，并以该K个状态向量X_i(i＝1，2，L K)的下一时刻的值进行预测。

参阅图5所示，传统的K近邻非参数回归方法主要包含以下流程：

S501：根据设定的采集周期采集交通流数据以获得当天在当前时间点之前的原始交通流时间序列数据；

S502：对当天在当前时间点之前的原始交通流时间序列数据进行预处理，得到当前时间点之前实时交通流时间序列数据(x₁，x₂，L x_tL x_n)，其中x_t为t时间点的交通流数据，x_n为当前时间点的交通流数据；

S503：确定当前时间点交通流数据的第一状态向量X(n)：X(n)＝(x(n-l+1)，...，x(n-1)，x(n))，其中，l表示状态向量维数，即匹配数，1≤l≤n-1，n为当前时间点；

要预测当前时间点下一时刻的交通流数据x_n+1，涉及到状态向量的选择。

定义当前时间点交通流数据的第一状态向量为

X(n)＝(x(n-l+1)，...，x(n-1)，x(n))

其中，l表示状态向量的维数，亦即匹配数，1≤l≤n-1，x(n)表示n时间点的交通流数据，此时的x(n)即x_n。

在实时交通流时间序列数据中每一个交通流数据均对应一个第二状态向量为：

X(t)＝(x(t-l+1)，x(t-l+2)，...，x(t))

S504：在实时交通流时间序列数据中查找K个与所述X(n)的欧式距离最近的第二状态向量；

通过计算第一状态向量X(n)与实时交通流时间序列数据的各个交通流数据对应的第二状态向量X(t)的欧式距离，按欧式距离从小到大排列，找出排列在先的K个第二状态向量。

欧式距离的计算公式为：

d = \sqrt{Σ_{j = 1}^{l} {[x (t - l + j) - x (n - l + j)]}^{2}}, (j = 1,2, L, l)

x(n)对预测值的影响要比x(n-1)大，x(n-1)对预测值的影响要比x(n-2)大，以此类推。如果利用普通的欧式距离寻找匹配点时，不能反映出其所做贡献的差异。因此，可以采用加权系数的欧式距离，公式如下

d = \sqrt{Σ_{j = 1}^{l} {λ_{j} [x (t - l + j) - x (n - l + j)]}^{2}}, (j = 1,2, L, l)

其中，λ_j为加权系数，λ₁+λ₂+L+λ_l＝1。

S505：根据K个第二状态向量的下一时刻的交通流数据预测时间点n+1的交通流预测数据x(n+1)。

可用如下公式进行计算：

x(n+1)＝φ(K，x_i(t+1))，i＝1，2，L，K

其中K是近邻子集的参数，φ是综合算子。一般假定综合算子φ是一个线性算子，也假定为非线性算子。通常用算术平均算子，即

x (n + 1) = \frac{1}{K} (Σ_{i = 1}^{K} x_{i} (t + 1)),

i＝1，2，L，K

或加权算子

x (n + 1) = Σ_{i = 1}^{K} λ_{i} x_{i} (t + 1),

i＝1，2，L，K

其中，λ_i为权重系数，满足

Σ_{i = 1}^{K} λ_{i} = 1 (i = 1,2, L, K) .

在上述K近邻非参数回归预测方法中，在步骤S503中，匹配数l的值取多少时才能得到最优的预测结果，以及在步骤S504中，K值取多少时才能得到最优的预测结果，在传统的K近邻方法中都是不确定的。

同时，在实际的交通状态中，交通流数据并非完全随机的数据，交通流的将来状态受其过去状态影响。但是，传统的K近邻非参数回归方法没有考虑到实际交通数据中的相互影响。

由于上述原因，会导致传统的K近邻非参数回归预测方法的不准确。

本发明实施例提供一种K近邻非参数回归方法，在传统K近邻非参数回归方法的基础上做了如下改进：

考虑到实际交通数据的相互影响，加入模式识别方法到K近邻非参数回归预测方法中，同时采用变K和l的搜索算法得到最优的K和l值及相应的预测结果。

模式识别方法是考虑到交通流的将来状态受其过去状态影响，这样就会出现一个“模式”，即历史的交通流状态会重复出现。模式识别方法是在现行交通流状态可能会和过去的某个或某些状态匹配的基础上建立而成。在K近邻非参数回归预测方法中，将模式识别方法应用到搜索出来的近邻子集的优化中。

为了描述模式方向，定义状态模式向量。取

d(i)＝x(i+1)-x(i)，1≤i≤n-1，令

d (i) = \{\begin{matrix} 0, x (i) > x (i + 1) \\ 1, x (i) < x (i + 1) \\ 2, x (i) = x (i + 1) \end{matrix}

因此，当前时间点的状态模式向量可以用P＝(d(n-l)，...，d(n-1))描述，第二状态向量对应的状态模式向量为P_t＝(d(t-l)，...，d(t-1))。状态模式向量中的元素只能是数据0、1或2。状态模式向量描述了实时交通流时间序列数据的增加、降低和保持不变这三种情况。

例如图6状态模式向量说明图所示，某个当前时间点的状态向量为X(7)＝(x(1)，x(2)，...，x(7))，观察实时交通流时间序列数据取值的增减情况，可得当前时间点的状态模式向量为P(1，1，2，0，1，1)。

本发明实施例还提供一种交通流数据短时预测的方法，将模式识别方法也就是根据状态向量得到的状态模式向量加入到传统的K近邻非参数回归预测方法中，并采用变K和l的搜索算法得到最优的K和l值及相应的预测交通流数据。

参阅图7所示，本发明实施例还提供一种交通流数据短时预测的方法，具体包括：

S701：根据设定的采集周期采集交通流数据以获得当天在当前时间点之前的原始交通流时间序列数据；

S702：对当天在当前时间点之前的原始交通流时间序列数据进行预处理，得到当前时间点之前实时交通流时间序列数据(x₁，x₂，L x_tL x_n)，其中x_t为t时间点的交通流数据，x_n为当前时间点的交通流数据；

原始交通流时间序列数据有缺失，则可以在预处理之前或者预处理之后，利用历史标准数据进行补齐。

例如：采集周期可以为5分钟，当前时间点n为10:00，则交通流时间序列数据中x_n-1为9:55的交通流数据，依次类推。如果采集原始交通流数据从0:00开始，则交通流时间序列数据中x₁为0:00的交通流数据；如果采集原始交通流数据从6:00开始，则交通流时间序列数据中x₁为6:00的交通流数据。

S703：近邻数K和匹配数l初始化，即K取最小的近邻数，K＝1；l取最小的匹配数，l＝1；

S704：确定当前时间点交通流数据的第一状态向量X(n)：

X(n)＝(x(n-l+1)，...，x(n-1)，x(n))

其中，l表示状态向量维数，即匹配数，1≤l≤n-1，x(n)表示n时间点的交通流数据，n为当前时间点；

例如当前时间点为10:00，则x(n)当前时间表示10:00的交通流量数据，x(n-1)表示9:55的交通流量数据；

S705：在实时交通流时间序列数据中查找Y个与所述X(n)的欧式距离最近的第二状态向量；

S706：根据第一状态向量确定当前时间点状态模式向量P和Y个第二状态向量分别对应的状态模式向量P_t(i＝1，2...Y)，其中：

P＝(d(n-l)，...，d(n-1))，d(i)＝x(i+1)-x(i)，1≤i≤n-1，令

d (i) = \{\begin{matrix} 0, x (i) > x (i + 1) \\ 1, x (i) < x (i + 1) \\ 2, x (i) = x (i + 1) \end{matrix};

S707：计算P与各个P_t的欧式距离，并找出与P距离最近的K个状态模式向量及其对应的K个第二状态向量；

S708：根据该K个第二状态向量的下一时刻的交通流数据获得当前时间点下一时刻即预测时间点n+1的交通流预测数据；

S709：计算所有获得的交通流预测数据的均方根误差；

S710：匹配数l取2，3....L_max，重复步骤S704～S709；

S711：近邻数K取2，3....K_max，重复步骤S704～S710；

S712：选出均方根误差最小时对应的匹配数l和邻近数K；

S713：将该匹配数l和邻近数K对应的交通流预测数据作为交通流预测值。

上述步骤S703～S713是将K依次从1设置到K_max，并对每一个k的设置值，计算所述匹配数l依次从1取到L_max时，获得的交通流预测数据的均方根误差，从选出均方根误差最小时对应的匹配数l和K，并将根据该均方根误差最小时对应的匹配数l和K获得的交通流状态向量的最后一个分量作为交通流的预测值，其中，每一次计算均方根误差时，利用之前获得的所有交通流预测数据进行计算。

上述步骤中，S703中近邻数K和匹配数l可以取固定的值，这样可不必执行步骤S709～S713。

本发明实施例还提供一种获得交通流历史标准数据的系统，参阅图8所示，包括：

数据采集模块81，用于以年为单位，对每一天根据设定的采集周期采集原始交通流数据以获得各天的原始交通流时间序列数据；

数据预处理模块82，用于按照设定规律将一年中各天划分为M组，每一组中按照周一至周日分别将各天的原始交通流时间序列数据归为7类，生成7*M个原始交通流时间序列数据集合，并对各个集合中的每一个原始交通流时间序列数据中被划分为繁忙时段的数据分别进行预处理以获得相应的第一标准交通流时间序列数据；

交通流历史标准数据生成模块83，用于分别对每一个集合，根据集合中各第一标准交通流时间序列数据的相关性获得集合的第一基本序列数据，并将各集合的第一基本序列数据作为繁忙时段的交通流历史标准数据。

进一步，上述获得交通流历史标准数据的系统，还包括：

数据预处理模块82，还用于对各个集合中的原始交通流时间序列数据中被划分为空闲时段的数据计算相同时间点的交通流数据的平均值，得到平均交通流时间序列数据；

交通流历史标准数据生成模块83，还用于分别对每一个集合，对平均交通流时间序列数据进行预处理得到集合的第二基本序列数据，并将各集合的第二基本序列数据作为空闲时段的交通流历史标准数据。

更进一步，上述获得交通流历史标准数据的系统，还包括：历史数据标准库84，用于保存交通流历史标准数据。

上述系统中还包括原始数据库，用于保存原始交通流时间序列数据。

其中，数据采集模块81包括微波检测器、视频控制器或者浮动检测车，并通过互联网连接数据预处理模块。

历史数据标准库84、数据预处理模块82和交通流历史标准数据生成模块83设置在同一服务器或者不同的服务器上。

本发明实施例还提供一种交通流数据短时预测系统，参阅图9所示，包括：

数据采集模块91，用于根据设定的采集周期采集交通流数据以获得当天在当前时间点之前的原始交通流时间序列数据；

第一数据预处理模块92，用于对当天在当前时间点之前的原始交通流时间序列数据进行预处理，得到当前时间点之前实时交通流时间序列数据；

短时交通流预测模块93，用于确定当前时间点当前时间点交通流数据的第一状态向量X(n)：X(n)＝(x(n-l+1)，...，x(n-1)，x(n))，其中，l表示状态向量维数，即匹配数，1≤l≤n-1，n为当前时间点；在原始交通流时间序列数据中查找Y个与X(n)的欧式距离最近的第二状态向量；根据第一状态向量确定当前时间点状态模式向量P′和Y个第二状态向量分别对应的状态模式向量P_t，其中：

P＝(d(n-l)，...，d(n-1))，d(i)＝x(i+1)-x(i)，1≤i≤n-1，令

d (i) = \{\begin{matrix} 0, x (i) > x (i + 1) \\ 1, x (i) < x (i + 1) \\ 2, x (i) = x (i + 1) \end{matrix};

计算P与各个P_t的欧式距离，并找出与P距离最近的K个状态模式向量及其对应的K个状态向量；根据K个状态向量的下一时刻的交通流数据预测时间点n+1的交通流预测数据。

进一步，交通流数据短时预测系统还包括：

短时交通流预测模块93，还用于将K依次从1设置到K_max，并对每一个k的设置值，计算匹配数l依次从1取到L_max时，获得交通流预测数据的均方根误差，从选出均方根误差最小时对应的匹配数l和K，并将根据该均方根误差最小时对应的匹配数l和K获得的状态向量的最后一个分量作为交通流预测值，其中，每一次计算均方根误差时，利用之前获得的所有交通流预测数据进行计算。

更进一步，原始交通流时间序列数据有缺失，则可以在预处理之前或者预处理之后，利用历史标准数据进行补齐，并且可以将预测的数据主动发布或者应用户的查询请求发布到用于终端上，则上述交通流数据短时预测系统还包括：

交通信息发布模块97，用于发布当前时间点下一时刻的交通流数据。

交通信息发布模块97，基于Web Service对外提供统一接口，为网站、VMS、PDA和导航仪等提供交通流短时预测数据。

历史数据标准库96，用于保存原始交通流量时间序列数据和交通流历史标准数据；

第二数据预处理模块94，用于将一整年的原始交通流量时间序列数据，按照设定规律将一年中各天划分为M组，每一组中按照周一至周日分别将各天的原始交通流时间序列数据归为7类，生成7*M个原始交通流时间序列数据集合，并对各个集合中的每一个原始交通流时间序列数据中被划分为繁忙时段的数据分别进行预处理以获得相应的第一标准交通流时间序列数据；以及对各个集合中的原始交通流时间序列数据中被划分为空闲时段的数据计算相同时间点的交通流数据的平均值，得到平均交通流时间序列数据；

交通流历史标准数据生成模块95，用于分别对每一个集合，根据集合中各第一标准交通流时间序列数据的相关性获得集合的第一基本序列数据，并将各集合的第一基本序列数据作为繁忙时段的交通流历史标准数据并保存到历史数据标准库；以及分别对每一个集合，对平均交通流时间序列数据进行预处理得到集合的第二基本序列数据，并将各集合的第二基本序列数据作为空闲时段的交通流历史标准数据并保存到历史数据标准库；以及

短时交通流预测模块93，还用于根据历史数据标准库96中保存的交通流历史标准数据对原始交通流时间序列数据中的缺失数据进行补齐。

参阅图10所示，本发明提供的基于历史数据标准库的交通流数据短时预测系统的结构图，参阅图10所示，包括上述获得交通流历史标准数据的系统和交通流数据短时预测系统的所有模块。其中数据采集模块包括微波检测器、视频监控器或者浮动检测车，并通过互联网连接所述数据预处理模块。而历史数据标准库、数据预处理模块、交通流历史标准数据生成模块和短时交通流预测模块可以设置在同一服务器或者不同的服务器上。

本发明实施例中交通流数据包括反映交通状态的流量、速度等参数数据。对于其中的任何一个参数，都可以使用本发明实施例给出的技术获得历史标准数据及进行短时预测。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种获得交通流历史标准数据的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求1所述的方法，其特征在于，对其中一个集合中的一个原始交通流时间序列数据中被划分为繁忙时段的数据进行预处理以获得相应的第一标准交通流时间序列数据，具体包括：

对所述原始交通流时间序列数据缺失判断及处理；

对所述原始交通流时间序列数据错误判断及处理；

4.如权利要求1、2或3所述的方法，其特征在于，对其中一个集合，根据该集合中各第一标准交通流时间序列数据的相关性获得所述集合的第一基本序列数据，具体包括：

r (i, j) = r (j, i) = \frac{Cov (F_{i}, F_{j})}{\sqrt{Cov (F_{i}, F_{i}) \times Cov (F_{j}, F_{j})}} (i = 1 : N, j = 1 : N)

S_{i} = Σ_{j = 1}^{N} r (i, j), (i = 1 : N)

根据所述S_max计算F_i的相似性权重系数，具体公式如下：

σ_{i} = \frac{r (i, \max)}{S_{\max}} (i = 1,2, . . . N)

F = Σ_{i = 1}^{N} σ_{i} F_{i}

5.如权利要求4所述的方法，其特征在于，所述交通流历史标准数据保存在历史数据标准库中。

6.一种获得交通流历史标准数据的系统，其特征在于，包括：

7.如权利要求6所述的系统，其特征在于，所述数据预处理模块，还用于对各个集合中的原始交通流时间序列数据中被划分为空闲时段的数据计算相同时间点的交通流数据的平均值，得到平均交通流时间序列数据；

8.如权利要求6或7所述的系统，其特征在于，还包括：历史数据标准库，用于保存所述原始交通流时间序列数据和交通流历史标准数据。

9.如权利要求8所述的系统，其特征在于，所述数据采集模块包括微波检测器、视频监控器或者浮动检测车，并通过互联网连接所述数据预处理模块。

10.如权利要求8所述的系统，其特征在于，所述历史数据标准库、数据预处理模块和交通流历史标准数据生成模块设置在同一服务器或者不同的服务器上。