CN104820691A - 一种交通流预测中数据库设计方法及其查询向量得出方法 - Google Patents
一种交通流预测中数据库设计方法及其查询向量得出方法 Download PDFInfo
- Publication number
- CN104820691A CN104820691A CN201510204400.9A CN201510204400A CN104820691A CN 104820691 A CN104820691 A CN 104820691A CN 201510204400 A CN201510204400 A CN 201510204400A CN 104820691 A CN104820691 A CN 104820691A
- Authority
- CN
- China
- Prior art keywords
- database
- data
- cluster centre
- cluster
- neighbour
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种交通流预测中数据库设计方法及其查询向量得出方法,包括如下步骤:步骤1、导入原始数据并剔除其中的异常数据;步骤2、创建原始数据库;步骤3、通过k均值算法将原始数据分类;步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库;步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库。通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。本发明的有益效果:由于进行了原始数据的剔除,所有缩小了预测误差;同时使用的K近邻分析,所以缩短了运行时间。
Description
技术领域
本发明属于短时交通流预测技术领域,特别涉及一种K近邻非参数回归短时交通流预测中数据库设计方法。
背景技术
目前国内外许多研究者都将非参数回归方法应用到短时交通流预测研究当中,并根据实际问题的需要对非参数回归方法进行必要的改进。1991年,Davis和Nihan真正将非参数回归的方法应用到交通预测中,虽然避免了选取模型和参数设置等问题,但该方法需要一个庞大的具有代表性的历史数据库并且方法运行所消耗的时间较长。1995年,Smith将非参数回归方法应用于单点短时交通流预测,实验结果取得了相比历史平均和神经网络更好的效果,但同样存在搜索速度太慢的问题。针对搜索速度太慢的问题,Oswald等人从KD树着手建立模糊最近邻的方法,从而改进了非参数回归方法中历史数据结构模式和近邻搜索方法,提高了方法的运行效率。
非参数回归预测方法的基础是存储历史数据的数据库,当前实时采集的数据需要在数据库中寻找最相似的匹配数据为预测做准备。现阶段主要的数据库的设计方法是利用商业数据库软件存储历史数据,并通过这些商业数据库软件的搜索和查询接口来做当前数据的实时匹配。这样存在的问题是,虽然利用商业软件简化了非参数回归预测方法的实施过程,但是却提升了方法实施成本。同时,因为方法在运行过程中的每一次数据匹配都需要和商业数据库交换数据。这也减慢了方法的运行速度。更为重要的是,不加处理就将原始数据填入数据库,会造成近邻的模糊匹配,增加预测误差。
发明内容
为了解决上述问题,提供一种使用了K近邻分析并且搭建一个基于红黑树构成的搜索数据库。同时提供了一种交通流预测中数据库的查询向量得出方法。
本发明的一种交通流预测中数据库设计方法,包括如下步骤:
步骤1、导入原始数据并剔除其中的异常数据;
步骤2、创建原始数据库;
步骤3、通过k均值算法将原始数据分类;
步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库;
步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库;
步骤6、通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。
优选地,剔除异常数据的方法为闵值法。
优选地,k均值算法将原始数据分类包括如下步骤:
步骤31、设定元素集合D、每个元素具有N个可观察属性;
步骤32、从D中随机取k个元素,做为k个簇的各自的中心;
步骤33、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇;
步骤34、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素的各自维度的算术平均值;
步骤35、将D中全部元素按照新的中心重新聚类;
步骤36、重复步骤35,直到聚类结果不再变化;
步骤37、输出结果。
优选地,所述通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库包括如下步骤:
步骤41、通过步骤3得到N个聚类,将每个聚类的数据做算术平均得到聚类中心点,并根据相异度的大小取前K个最小距离作为对应聚类中心的K个近邻,K个近邻的具体数值构成近邻数据库;
步骤42、把聚类中心数据和其K个近邻分离,各自单独存储,构成聚类中心数据库。
一种交通流预测中数据库的查询向量得出方法,通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量,其中主成分分析法利用降维数学原理,它利用一个正交变换,将随机向量内的相互关联的分量转化成互不相关的新分量,即将多个相互关联的变量通过线性组合成几个互不相关的主要变量,即所谓的主成分,包括如下步骤:
步骤一、标准化原始数据;
步骤二、确定相关系数矩阵;
步骤三、确定主成分;
步骤四、确定主成分数量和权重。
本发明的有益效果:由于进行了原始数据的剔除,所有缩小了预测误差;同时使用的K近邻分析,所以缩短了运行时间。
具体实施方式
下面结合具体的实施例对本发明作进一步的阐述。
本发明的一种K近邻非参数回归短时交通流预测中数据库设计方法,包括如下步骤:
步骤1、导入原始数据并剔除其中的异常数据;剔除异常数据的方法为闵值法。在实际采集统计数据过程中,难免会因为人为操作失误、通讯噪声干扰和不知名原因引发数据错误和 数据缺失。所以,在导入原始数据时,需要对原始数据进行筛选,以捕捉到错误数据并改正或者剔除,标识缺失数据并进行补充。采取闽值法筛选错误数据,并采用近邻平均法纠正错误数据。一般来说,错误数据与正常数据的偏差很大,基于这个特点,首先采用闽值法去除明显错误数据。比如:在10分钟内通过的流量最多为1000单位,可以采用1100作为流量的闽值。这样虽然不能发现并纠正所有错误,但是却可以纠正大部分错误。根据交通流量连续性定理,当然突然情况可能造成数据悬崖式跳变,某一时段内的交通流量应该与附近时段的流量相差不大,所以考虑近邻平均法来修复错误数据,即:
或者根据车流“自重复性”的原理,采用历史上所有同一时刻的流量的平均值作为当前流量,即:
步骤2、创建原始数据库;处理好的原始数据就是一个时间顺序数列,因为设计到数据更新和索引操作,原始数据就按时间顺序存储在数据库中。数据存储格式如表1所示。
表1:原始数据库的数据格式
序号ID_Original_data | Origina_Data(t) |
步骤3、通过k均值算法将原始数据分类;为了提高数据库的查询效率,需要将原始数据进行分类。这样可以先确定当前向量的最相似的聚类中心,然后在该聚类中寻找K个近邻。k均值算法将原始数据分类包括如下步骤:步骤31、设定元素集合D、每个元素具有N个可观察属性;步骤32、从D中随机取k个元素,做为k个簇的各自的中心;步骤33、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇;步骤34、根据聚类结果,重新计算k个簇各自的中心,计算方法是去簇中所有元素的各自维度的算术平均值;步骤35、将D中全部元素按照新的中心重新聚类;步骤36、重复步骤35,直到聚类结果不再变化;步骤37、输出结果。
步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库;所述通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库包括如下步骤:步骤41、通过步骤3得到n个聚类,将每个聚类的数据做算术平均得到聚类中心点,并根据相异度的大小取前K个最小距离作为对应聚类中心的K个近邻,K个近邻的具体数值构成近邻数据库。如表2所示。
表2:近邻数据库的数据格式
ID_Neighbor_Data | V1(t) | V2(t) | …… | Vp(t) |
步骤42、把聚类中心数据和其K个近邻分离,各自单独存储,构成聚类中心数据库;在存储聚类中心数据的数据库结构中,只存储聚类中心数据的序号、各分量具体数据和其K个近邻的索引号,如表3所示。
表3:聚类中心数据点数据库的数据格式
ID_Centre_Data | Centre_Date(t) | ID_Neighbor_1 | ID_Neighbor_2 | … | ID_Neighbor_k |
步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库;提升整个算法的收敛时间的关键是当前向量与聚类中心数据点的匹配过程。因为随着数据量的增加,查询过程相当地耗时。因为是顺序查询,其余查询过程都是随机查询过程,因此查询时间耗时不会随着数据库规模的扩大而增加。本发明考虑通过将聚类中心映射成一维数据,通过一维搜索来提高搜索效率。在本发明中,这个映射关系定义为中心点向量Center_data(t)与中心点库的聚集点之间的加权距离。中心点库的聚集点定义为中心点库的各个分量的算术平均值所组成的向量,加权距离为各个分量的加权欧式距离。同时为了存储聚类中心点数据的映射数据,本发明创建了一个基于红黑树的中间搜索库,红黑树具有高效地查询效率,时间复杂度为ο(lg n)。每个红黑树节点数据结构如表4所示。
表4:红黑树的节点格式
具体数据域 | 聚类中心数据序号 | 颜色域 | 指针域 |
说明ID_Origianl_Data、ID_Neighbour_Data和ID_Centre_Data三者之间的关系。序列号或称为索引号,它们作为数据库的主键是唯一。根据这些主键可以快速在其它数据库找到所需数据。如表5所示。
表5:数据库中各个数据的数据格式
一种与K近邻非参数回归短时交通流预测中数据库相符合的状态向量的得出方法,通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。非参数回归是一种数据驱动的启发式预测机制,通过搜索历史数据库中与当前观测值相似的数据来预测未来值。通常可 以将其划分为五个组成部分:历史数据的选择、样本数据库的生成、数据相似性的定义、K近邻匹配和预测方法。采用非参数回归预测短时交通流时,首先要构建历史数据库,历史数据库生成后就可以进行数据相似性的定义、K近邻匹配和预测。将当前交通流观测数据和交通流历史数据库进行比较时,需要一个比较标准,状态向量就是这个标准的描述。本发明通过主成分确定状态向量。通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量,其中主成分分析法利用降维数学原理,它利用一个正交变换,将随机向量内的相互关联的分量转化成互不相关的新分量,即将多个相互关联的变量通过线性组合成几个互不相关的主要变量,即所谓的主成分,包括如下步骤:
步骤一、标准化原始数据;据矩阵Xnp,其中n表示历史数据数量,p表示数据特征数量。为了消除个数据特征之间在量纲和数量级上的差别,有必要对数据进行标准化。标准化矩阵为Znp,标准化过程如下公式(3):
其中、i=1,2…n;j=1,2…p,i=1,2…n;j=1,2…p;xij表示原始数据;表示第j个数据特征的均值;sj表示第j个数据特征的方差。
步骤二、确定相关系数矩阵;根据标准化矩阵,确定相关系数矩阵Rpp,rjk表示为特征j和特征k的相关系数。相关系数矩阵是反映标准化的数据之间的相关关系密切程度的统计指标,两者之间的相关系数越大,就越有必要进行主成分分析,以消除两者带来的重叠影响。且rjk如公式(4)所得。
步骤三、确定主成分;根据相关系数矩阵Rpp和特征方程公式|R-λE|=0,λ表示特征值。求出p个特征向量Lg(g=1,2…p)和对应p个特征值λ1≥λ2…λp≥0,因为Rpp是正定矩阵,所以其特征值都为正数。最后,通过公式标准化的特征变量线性组合成主成分,公式为公式(5):
Fg=LgZ1+LgZ2+…+LgZp (5)
其中g=1,2…p。即F1表示第一主成分;F2表示第二主成分;Fp表示第p主成分;其中Zi表示第i个数据特征向量;
步骤四、确定主成分数量和权重。特征值是个主成分的方差,它的大小反映了各个主成 分的影响程度,主成分Fg的贡献率如公式(6)所示:
根据选取主成分个数的原则,特征值要求大于1且累计贡献率达到85%以上。主成分个数确定公式(7)为:
本发明的数据库具体操作过程为:根据当前状态向量,在中间搜索库中查询到相似的聚类中心点;根据聚类中心点所属的K个近邻的索引号确定K个近邻在近邻数据库的位置;根据近邻位置找出近邻的具体数值;根据这些数据查询在原始数据库中对应的下一时段的具体数据;根据上一步中查询到的数据,利用预测算法,进行所需预测。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (5)
1.一种交通流预测中数据库设计方法,其特征在于,包括如下步骤:
步骤1、导入原始数据并剔除其中的异常数据;
步骤2、创建原始数据库;
步骤3、通过k均值算法将原始数据分类;
步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库;
步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库;
步骤6、通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。
2.如权利要求1所述的交通流预测中数据库设计方法,其特征在于:剔除异常数据的方法为闵值法。
3.如权利要求1所述的交通流预测中数据库设计方法,其特征在于,k均值算法将原始数据分类包括如下步骤:
步骤31、设定元素集合D、每个元素具有N个可观察属性;
步骤32、从D中随机取k个元素,做为k个簇的各自的中心;
步骤33、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇;
步骤34、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素的各自维度的算术平均值;
步骤35、将D中全部元素按照新的中心重新聚类;
步骤36、重复步骤35,直到聚类结果不再变化;
步骤37、输出结果。
4.如权利要求1所述的短时交通流预测中数据库设计方法,其特征在于,所述通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库包括如下步骤:
步骤41、通过步骤3得到N个聚类,将每个聚类的数据做算术平均得到聚类中心点,并根据相异度的大小取前K个最小距离作为对应聚类中心的K个近邻,K个近邻的具体数值构成近邻数据库;
步骤42、把聚类中心数据和其K个近邻分离,各自单独存储,构成聚类中心数据库。
5.一种与交通流预测中数据库的查询向量得出方法,其特征在于,通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量,其中主成分分析法利用降维数学原理,它利用一个正交变换,将随机向量内的相互关联的分量转化成互不相关的新分量,即将多个相互关联的变量通过线性组合成几个互不相关的主要变量,即所谓的主成分,包括如下步骤:
步骤一、标准化原始数据;
步骤二、确定相关系数矩阵;
步骤三、确定主成分;
步骤四、确定主成分数量和权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510204400.9A CN104820691A (zh) | 2015-04-27 | 2015-04-27 | 一种交通流预测中数据库设计方法及其查询向量得出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510204400.9A CN104820691A (zh) | 2015-04-27 | 2015-04-27 | 一种交通流预测中数据库设计方法及其查询向量得出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104820691A true CN104820691A (zh) | 2015-08-05 |
Family
ID=53730986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510204400.9A Pending CN104820691A (zh) | 2015-04-27 | 2015-04-27 | 一种交通流预测中数据库设计方法及其查询向量得出方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104820691A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670551A (zh) * | 2018-12-20 | 2019-04-23 | 树根互联技术有限公司 | 工程机械设备的故障预测方法及装置 |
CN110598747A (zh) * | 2019-08-13 | 2019-12-20 | 广东工业大学 | 基于自适应k均值聚类算法的道路分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208041A (ja) * | 2003-12-26 | 2005-08-04 | Aisin Aw Co Ltd | 動的経路探索方法 |
CN101853573A (zh) * | 2010-05-19 | 2010-10-06 | 北京科技大学 | 一种城市快速路短时交通信息预测系统及方法 |
-
2015
- 2015-04-27 CN CN201510204400.9A patent/CN104820691A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005208041A (ja) * | 2003-12-26 | 2005-08-04 | Aisin Aw Co Ltd | 動的経路探索方法 |
CN101853573A (zh) * | 2010-05-19 | 2010-10-06 | 北京科技大学 | 一种城市快速路短时交通信息预测系统及方法 |
Non-Patent Citations (1)
Title |
---|
张晓利: "基于非参数回归的短时交通流量预测方法研究", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670551A (zh) * | 2018-12-20 | 2019-04-23 | 树根互联技术有限公司 | 工程机械设备的故障预测方法及装置 |
CN110598747A (zh) * | 2019-08-13 | 2019-12-20 | 广东工业大学 | 基于自适应k均值聚类算法的道路分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106485262A (zh) | 一种母线负荷预测方法 | |
WO2022193681A1 (zh) | 一种基于时间卷积网络的防洪调度方案优选方法 | |
CN106022614A (zh) | 一种基于最近邻聚类的神经网络数据挖掘方法 | |
CN104462196A (zh) | 多特征联合哈希信息检索方法 | |
CN109002933A (zh) | 基于ReliefF和t-SNE的配电线路线变关系模型优化方法 | |
CN105373601B (zh) | 一种基于关键字词频特征的多模式匹配方法 | |
CN110826237B (zh) | 基于贝叶斯信念网络的风电设备可靠性分析方法及装置 | |
CN105574541A (zh) | 一种基于紧密度排序的网络社区发现方法 | |
CN108984830A (zh) | 一种基于模糊网络分析的建筑能效评价方法及装置 | |
CN105893669A (zh) | 一种基于数据挖掘的全局仿真性能预测方法 | |
CN106485089A (zh) | 谐波用户典型工况的区间参数获取方法 | |
CN117036060A (zh) | 车险欺诈识别方法、装置和存储介质 | |
CN112990584B (zh) | 一种基于深度强化学习的自动生产决策系统及方法 | |
CN104820691A (zh) | 一种交通流预测中数据库设计方法及其查询向量得出方法 | |
CN107666403A (zh) | 一种指标数据的获取方法及装置 | |
CN115734274A (zh) | 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法 | |
Lin et al. | A method of satellite network fault synthetic diagnosis based on C4. 5 algorithm and expert knowledge database | |
CN112465253B (zh) | 一种城市路网中的链路预测方法及装置 | |
Puspita et al. | Clustering-based sales forecasting in a forklift distributor | |
Chen et al. | Short-term power load model based on combined optimization of cuckoo algorithm and lightGBM | |
Sadi-Nezhad et al. | A new fuzzy clustering algorithm based on multi-objective mathematical programming | |
Tai et al. | Interpolating time series based on fuzzy cluster analysis problem | |
Liu et al. | Short-term Load Forecasting Approach with SVM and Similar Days Based on United Data Mining Technology | |
CN114021844B (zh) | 基于气象灾害预测的输电线路运维投入优化方法及其系统 | |
Shah et al. | Prediction query language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150805 |
|
RJ01 | Rejection of invention patent application after publication |