CN104820691A

CN104820691A - 一种交通流预测中数据库设计方法及其查询向量得出方法

Info

Publication number: CN104820691A
Application number: CN201510204400.9A
Authority: CN
Inventors: 冷甦鹏; 林川; 刘浩; 张可
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-04-27
Filing date: 2015-04-27
Publication date: 2015-08-05

Abstract

本发明公开了一种交通流预测中数据库设计方法及其查询向量得出方法，包括如下步骤：步骤1、导入原始数据并剔除其中的异常数据；步骤2、创建原始数据库；步骤3、通过k均值算法将原始数据分类；步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库；步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库。通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。本发明的有益效果：由于进行了原始数据的剔除，所有缩小了预测误差；同时使用的K近邻分析，所以缩短了运行时间。

Description

一种交通流预测中数据库设计方法及其查询向量得出方法

技术领域

本发明属于短时交通流预测技术领域，特别涉及一种K近邻非参数回归短时交通流预测中数据库设计方法。

背景技术

目前国内外许多研究者都将非参数回归方法应用到短时交通流预测研究当中，并根据实际问题的需要对非参数回归方法进行必要的改进。1991年，Davis和Nihan真正将非参数回归的方法应用到交通预测中，虽然避免了选取模型和参数设置等问题，但该方法需要一个庞大的具有代表性的历史数据库并且方法运行所消耗的时间较长。1995年，Smith将非参数回归方法应用于单点短时交通流预测，实验结果取得了相比历史平均和神经网络更好的效果，但同样存在搜索速度太慢的问题。针对搜索速度太慢的问题，Oswald等人从KD树着手建立模糊最近邻的方法，从而改进了非参数回归方法中历史数据结构模式和近邻搜索方法，提高了方法的运行效率。

非参数回归预测方法的基础是存储历史数据的数据库，当前实时采集的数据需要在数据库中寻找最相似的匹配数据为预测做准备。现阶段主要的数据库的设计方法是利用商业数据库软件存储历史数据，并通过这些商业数据库软件的搜索和查询接口来做当前数据的实时匹配。这样存在的问题是，虽然利用商业软件简化了非参数回归预测方法的实施过程，但是却提升了方法实施成本。同时，因为方法在运行过程中的每一次数据匹配都需要和商业数据库交换数据。这也减慢了方法的运行速度。更为重要的是，不加处理就将原始数据填入数据库，会造成近邻的模糊匹配，增加预测误差。

发明内容

为了解决上述问题，提供一种使用了K近邻分析并且搭建一个基于红黑树构成的搜索数据库。同时提供了一种交通流预测中数据库的查询向量得出方法。

本发明的一种交通流预测中数据库设计方法，包括如下步骤：

步骤1、导入原始数据并剔除其中的异常数据；

步骤2、创建原始数据库；

步骤3、通过k均值算法将原始数据分类；

步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库；

步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库；

步骤6、通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。

优选地，剔除异常数据的方法为闵值法。

优选地，k均值算法将原始数据分类包括如下步骤：

步骤31、设定元素集合D、每个元素具有N个可观察属性；

步骤32、从D中随机取k个元素，做为k个簇的各自的中心；

步骤33、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇；

步骤34、根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素的各自维度的算术平均值；

步骤35、将D中全部元素按照新的中心重新聚类；

步骤36、重复步骤35，直到聚类结果不再变化；

步骤37、输出结果。

优选地，所述通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库包括如下步骤：

步骤41、通过步骤3得到N个聚类，将每个聚类的数据做算术平均得到聚类中心点，并根据相异度的大小取前K个最小距离作为对应聚类中心的K个近邻，K个近邻的具体数值构成近邻数据库；

步骤42、把聚类中心数据和其K个近邻分离，各自单独存储，构成聚类中心数据库。

一种交通流预测中数据库的查询向量得出方法，通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量，其中主成分分析法利用降维数学原理，它利用一个正交变换，将随机向量内的相互关联的分量转化成互不相关的新分量，即将多个相互关联的变量通过线性组合成几个互不相关的主要变量，即所谓的主成分，包括如下步骤：

步骤一、标准化原始数据；

步骤二、确定相关系数矩阵；

步骤三、确定主成分；

步骤四、确定主成分数量和权重。

本发明的有益效果：由于进行了原始数据的剔除，所有缩小了预测误差；同时使用的K近邻分析，所以缩短了运行时间。

具体实施方式

下面结合具体的实施例对本发明作进一步的阐述。

本发明的一种K近邻非参数回归短时交通流预测中数据库设计方法，包括如下步骤：

步骤1、导入原始数据并剔除其中的异常数据；剔除异常数据的方法为闵值法。在实际采集统计数据过程中，难免会因为人为操作失误、通讯噪声干扰和不知名原因引发数据错误和数据缺失。所以，在导入原始数据时，需要对原始数据进行筛选，以捕捉到错误数据并改正或者剔除，标识缺失数据并进行补充。采取闽值法筛选错误数据，并采用近邻平均法纠正错误数据。一般来说，错误数据与正常数据的偏差很大，基于这个特点，首先采用闽值法去除明显错误数据。比如：在10分钟内通过的流量最多为1000单位，可以采用1100作为流量的闽值。这样虽然不能发现并纠正所有错误，但是却可以纠正大部分错误。根据交通流量连续性定理，当然突然情况可能造成数据悬崖式跳变，某一时段内的交通流量应该与附近时段的流量相差不大，所以考虑近邻平均法来修复错误数据，即：

v (t) = \frac{1}{n} Σ_{i = 1}^{n} v (t - i) - - - (1) .

或者根据车流“自重复性”的原理，采用历史上所有同一时刻的流量的平均值作为当前流量，即：

v (t) = \frac{1}{n} Σ_{i = 1}^{n} v_{history} (t_{i}) - - - (2) .

步骤2、创建原始数据库；处理好的原始数据就是一个时间顺序数列，因为设计到数据更新和索引操作，原始数据就按时间顺序存储在数据库中。数据存储格式如表1所示。

表1：原始数据库的数据格式

序号ID_Original_data

Origina_Data(t)

步骤3、通过k均值算法将原始数据分类；为了提高数据库的查询效率，需要将原始数据进行分类。这样可以先确定当前向量的最相似的聚类中心，然后在该聚类中寻找K个近邻。k均值算法将原始数据分类包括如下步骤：步骤31、设定元素集合D、每个元素具有N个可观察属性；步骤32、从D中随机取k个元素，做为k个簇的各自的中心；步骤33、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇；步骤34、根据聚类结果，重新计算k个簇各自的中心，计算方法是去簇中所有元素的各自维度的算术平均值；步骤35、将D中全部元素按照新的中心重新聚类；步骤36、重复步骤35，直到聚类结果不再变化；步骤37、输出结果。

步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库；所述通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库包括如下步骤：步骤41、通过步骤3得到n个聚类，将每个聚类的数据做算术平均得到聚类中心点，并根据相异度的大小取前K个最小距离作为对应聚类中心的K个近邻，K个近邻的具体数值构成近邻数据库。如表2所示。

表2：近邻数据库的数据格式

ID_Neighbor_Data

V₁(t)

V₂(t)

……

Vp(t)

步骤42、把聚类中心数据和其K个近邻分离，各自单独存储，构成聚类中心数据库；在存储聚类中心数据的数据库结构中，只存储聚类中心数据的序号、各分量具体数据和其K个近邻的索引号，如表3所示。

表3：聚类中心数据点数据库的数据格式

ID_Centre_Data

Centre_Date(t)

ID_Neighbor_1

ID_Neighbor_2

…

ID_Neighbor_k

步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库；提升整个算法的收敛时间的关键是当前向量与聚类中心数据点的匹配过程。因为随着数据量的增加，查询过程相当地耗时。因为是顺序查询，其余查询过程都是随机查询过程，因此查询时间耗时不会随着数据库规模的扩大而增加。本发明考虑通过将聚类中心映射成一维数据，通过一维搜索来提高搜索效率。在本发明中，这个映射关系定义为中心点向量Center_data(t)与中心点库的聚集点之间的加权距离。中心点库的聚集点定义为中心点库的各个分量的算术平均值所组成的向量，加权距离为各个分量的加权欧式距离。同时为了存储聚类中心点数据的映射数据，本发明创建了一个基于红黑树的中间搜索库，红黑树具有高效地查询效率，时间复杂度为ο(lg n)。每个红黑树节点数据结构如表4所示。

表4：红黑树的节点格式

具体数据域

聚类中心数据序号

颜色域

指针域

说明ID_Origianl_Data、ID_Neighbour_Data和ID_Centre_Data三者之间的关系。序列号或称为索引号，它们作为数据库的主键是唯一。根据这些主键可以快速在其它数据库找到所需数据。如表5所示。

表5：数据库中各个数据的数据格式

一种与K近邻非参数回归短时交通流预测中数据库相符合的状态向量的得出方法，通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。非参数回归是一种数据驱动的启发式预测机制，通过搜索历史数据库中与当前观测值相似的数据来预测未来值。通常可以将其划分为五个组成部分：历史数据的选择、样本数据库的生成、数据相似性的定义、K近邻匹配和预测方法。采用非参数回归预测短时交通流时，首先要构建历史数据库，历史数据库生成后就可以进行数据相似性的定义、K近邻匹配和预测。将当前交通流观测数据和交通流历史数据库进行比较时，需要一个比较标准，状态向量就是这个标准的描述。本发明通过主成分确定状态向量。通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量，其中主成分分析法利用降维数学原理，它利用一个正交变换，将随机向量内的相互关联的分量转化成互不相关的新分量，即将多个相互关联的变量通过线性组合成几个互不相关的主要变量，即所谓的主成分，包括如下步骤：

步骤一、标准化原始数据；据矩阵X_np，其中n表示历史数据数量，p表示数据特征数量。为了消除个数据特征之间在量纲和数量级上的差别，有必要对数据进行标准化。标准化矩阵为Z_np，标准化过程如下公式(3)：

z_{ij} = \frac{x_{ij} - \overset{&OverBar;}{x_{j}}}{s_{j}} - - - (3)

其中、i＝1,2…n；j＝1,2…p,i＝1,2…n；j＝1,2…p；x_ij表示原始数据；表示第j个数据特征的均值；s_j表示第j个数据特征的方差。

步骤二、确定相关系数矩阵；根据标准化矩阵，确定相关系数矩阵R_pp，r_jk表示为特征j和特征k的相关系数。相关系数矩阵是反映标准化的数据之间的相关关系密切程度的统计指标，两者之间的相关系数越大，就越有必要进行主成分分析，以消除两者带来的重叠影响。且r_jk如公式(4)所得。

r_{jk} = \frac{1}{n - 1} Σ_{i = 1}^{n} [\frac{{(x_{ij} - \overset{&OverBar;}{x_{j}})}^{2}}{s_{j}}] [\frac{{(x_{ik} - \overset{&OverBar;}{x_{k}})}^{2}}{s_{k}}] - - - (4)

步骤三、确定主成分；根据相关系数矩阵R_pp和特征方程公式|R-λE|＝0，λ表示特征值。求出p个特征向量L_g(g＝1,2…p)和对应p个特征值λ₁≥λ₂…λ_p≥0，因为R_pp是正定矩阵，所以其特征值都为正数。最后，通过公式标准化的特征变量线性组合成主成分，公式为公式(5)：

F_g＝L_gZ₁+L_gZ₂+…+L_gZ_p (5)

其中g＝1,2…p。即F₁表示第一主成分；F₂表示第二主成分；F_p表示第p主成分；其中Z_i表示第i个数据特征向量；

步骤四、确定主成分数量和权重。特征值是个主成分的方差，它的大小反映了各个主成分的影响程度，主成分F_g的贡献率如公式(6)所示：

w_{g} = λ_{g} / Σ_{i = 1}^{p} λ_{i} - - - (6)

根据选取主成分个数的原则，特征值要求大于1且累计贡献率达到85％以上。主成分个数确定公式(7)为：

Σ_{g = 1}^{k} λ_{g} / Σ_{i = 1}^{p} λ_{i} > 0.85 - - - (7)

本发明的数据库具体操作过程为：根据当前状态向量，在中间搜索库中查询到相似的聚类中心点；根据聚类中心点所属的K个近邻的索引号确定K个近邻在近邻数据库的位置；根据近邻位置找出近邻的具体数值；根据这些数据查询在原始数据库中对应的下一时段的具体数据；根据上一步中查询到的数据，利用预测算法，进行所需预测。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种交通流预测中数据库设计方法，其特征在于，包括如下步骤：