CN104217002B - 一种基于高质量数据获取的路况信息填补方法 - Google Patents
一种基于高质量数据获取的路况信息填补方法 Download PDFInfo
- Publication number
- CN104217002B CN104217002B CN201410466392.0A CN201410466392A CN104217002B CN 104217002 B CN104217002 B CN 104217002B CN 201410466392 A CN201410466392 A CN 201410466392A CN 104217002 B CN104217002 B CN 104217002B
- Authority
- CN
- China
- Prior art keywords
- data
- traffic information
- road
- missing
- road chain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于高质量数据获取的路况信息填补方法,包括对路链邻接路链集、路况信息特征缺失区域、路况信息数据缺失模式进行定义;对历史库中与缺失路链具有时空相关性特征的路况信息进行提取,为缺失路况信息数据补全提供基础;对高质量数据进行定义,提出高质量数据获取方法定义与计算。通过采用高质量数据获取方法对已经提取的具有时空相关性特征的历史路况信息数据以及静态路网数据进行计算处理,得到高质量的路况信息数据;对路况信息数据缺失类型特征进行划分,确定路况信息缺失模式;以高质量的路况信息数据为基础,对离散型数据缺失模式和连续型数据缺失模式进行缺失路况信息数据填补。
Description
技术领域
本发明涉及城市道路交通路况信息的处理应用领域,特别是涉及一种基于高质量数据获取的路况信息填补方法。
背景技术
随着市民出行需求的不断提升,已有的动态交通信息服务面临一些新问题和需求,这些需求突出表现在路径规划、实时路况、交通预测等三个方面。动态交通信息服务面临的问题综合在历史路况信息数据的数据质量问题,包括数据缺失及数据准确性低等。浮动车GPS数据作为动态交通信息服务的基础,其数据质量及数据量与系统提供的交通信息服务有极其密切联系。一方面,由于采集设备、人为因素等的影响,研究人员几乎不可能获取完整的历史数据;另一方面,出租车车载GPS设备返回的GPS数据能够准确反映部分道路的路况信息,但是其余道路的部分路况信息存在缺失。如何对已有的路况信息数据,通过一定的填补方法进行数据补全,形成完整准确的历史路况信息,为交通规律的深度挖掘提供数据支持,为动态交通信息服务的准确性和实时性提供数据支撑,是动态交通信息服务发展中亟待于解决的主要问题。
目前已有的路况信息填补方法:
(1)历史均值填补方法
历史均值填补方法率先提出对缺失路况信息数据进行填补,核心思想是构建的基于浮动车历史数据的多模式缺失数据填补模型。其处理方法是将路况信息历史数据按照道路、星期特征日(周一,周二,…,周日)、时间点划分,计算每个划分下所有的行驶速度的均值,并以该值填补实时数据中相应划分下的缺失值。
(2)基于时空相关的路况信息组合填补方法
基于时空相关的路况信息组合填补方法通过总结基于时间相关性的缺失数据填补方法、基于空间相似性的缺失数据填补方法和历史均值填补方法等三种填补方法的不足,在根据浮动车GPS数据准确较高特点以及多源数据融合技术的基础上,从时间维度、空间维度和统计均值的角度分别对浮动车历史路况信息数据进行分析而提出。该方法的主要思想是分析了从时间角度提出的填补方法充分利用了历史路况信息数据,反映一般交通状态下的交通趋势,对于一般情况下的路况缺失部分数据填补的准确性较高。但是方法对从空间角度提出的填补方法对历史数据的利用程度不高,而在同一个处理周期内,路链和其相邻的路链等级相同的直行出路链的路况具有很大的相似性。为了充分利用历史路况信息数据,因此首先对输入的浮动车实时数据采用基于时间相关性的方法进行填补,对该方法填补后仍然依旧存在某些缺失的路况新信息数据进行基于空间相关性的路况信息数据填补,最后对仍然缺失的交通信息采用历史均值的方法填补。
(3)经典主成分分析方法
基于经典主成分分析的路况信息填补方法是一种采取对历史数据组成的向量空间降维而形成的一种路况信息填补方法。该方法的主要思想是通过足够多的历史路况信息数据通过高斯拟合思想将路况信息拟合为一种模式,并按照拟合后的模式补全缺失部分的路况信息数据;该方法的主要步骤是首先将历史路况信息数据抽象成一个数据矩阵,借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。主成分分析的坐标变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。通过主成分分析法分析出影响因子最大的某些向量并将其作为分析的基础,以排除受异常值成分影响的数据。在分析得到主成分后构建特征向量矩阵,通过最小二乘曲线拟合方法补全数据。最小二乘拟合方法是一种数学优化技术,通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小,补全缺失部分的数据。
(4)非参数回归方法
基于非参数回归的路况信息填补方法的主要思想是通过从历史数据中找出一条与当前模式最匹配的一条数据序列,将缺失部分按照对应位置的数据填补。非参数回归的方法是一种适合不确定性的、非线性的动态系统的非参数建模方法。它本身脱胎于混沌理论。它所应用的场合是:不需先验知识,只需足够的历史数据。它寻找历史数据中与当前点相似的“近邻”,并用那些“近邻”预测下一个时刻的流量。该算法认为系统所有的因素之间的内在联系都蕴涵在历史数据中,因此直接从历史数据中得到信息而不是为历史数据建立一个近似模型。
历史均值方法对缺失部分的填补计算结果可能会偏离正常趋势由于每天的道路行驶速度变化趋势不尽相同,交通拥堵早晚高峰来临的时间也不完全一致,采用,由此造成的误差稍大。基于时空相关的路况信息组合填补方法组合了三种填补方法,显著提高填补结果的完整性,但该方法没有对历史路况信息数据中存在的异常数据和错误数据进行处理,影响填补结果准确性。经典主成分分析方法是将历史数据拟合为一种模式,但由于历史数据中存在一些由于交通事件、或者路况信息计算模型输出等得到的异常数据和错误数据等,这些数据的存在会影响填补结果的准确性。非参数回归方法建模没有将历史路况信息数据作平滑处理,因此在一般交通状况下,填补效果反而会差,且若存在连续型缺失的数据点,填补结果会存在累积误差,对填补结果准确性造成影响。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于高质量数据获取的路况信息填补方法,利用历史路况数据进行时空相关性特征提取,弥补历史均值方法的不足,并且利用稳健距离对路况信息数据中存在的异常数据和错误数据进行诊断和剔除,同时利用主成分分析方法得到稳健特征空间,利用稳健特征空间和改进的最小二乘曲线拟合算法补全缺失数据。
本发明技术解决方案:一种基于高质量数据获取的路况信息填补方法,由以下步骤实现:
(1)定义路况信息填补的基本参数,即路链邻接路链集、路况信息特征缺失区域和路况信息数据缺失模式;所述路链邻接路链集是指与路链linkm相邻接的1、2、…、n级路链集合;路况信息特征缺失区域是指与缺失的路链linkm具有空间相关性的特征区域;路况信息数据缺失模式是指一段时间内缺失路链linkm的数据缺失类型;所述路况信息数据缺失模式分为连续缺失型数据缺失模式和离散缺失型数据缺失模式;
(2)根据步骤(1)定义的路况信息特征缺失区域,对历史库中与缺失路链具有时空相关性特征的路况信息进行提取,得到具有时空相关性特征的历史路况信息数据,为缺失路况信息数据补全提供基础;
(3)通过采用高质量数据获取方法对步骤(2)中提取的具有时空相关性特征的历史路况信息数据以及静态路网数据进行计算处理,得到高质量的路况信息数据;所述高质量是指同时满足稳定性和有效性的交通路况信息数据为高质量数据;稳定性定义为数据质量评价的一个指标主要是因为该指标可以用来从宏观角度评价数据的稳定情况,在路况信息数据评价中,该指标可以用来评价不同天的数据缺失情况。所述有效性是指路链信息数据采集存在一定的时间延迟及偏差,以及路况信息计算系统存在误差,导致通过原始GPS数据得到的路况信息数据会存在错误数据,为了发现这部分数据并将其删除,定义有效性;
(4)根据步骤(1)中对路况信息数据缺失模式的定义,确定路况信息缺失模式;
(5)以步骤(3)得到高质量的路况信息数据为基础,对步骤(4)确定的路况信息缺失中的离散型数据缺失模式和连续型数据缺失模式分别进行缺失路况信息数据填补。
所述步骤(2)对历史路况信息数据进行时空相关性的特征提取,为缺失路况信息数据补全提供基础的方法为:区域Rn中路链link的路况信息和与其同属的相同特征日的路况信息具有时间相关性,与link的特征区域内的邻接相同等级的路链路况信息具有空间相关性,提取路链link的以采样周期为T的n个时间点的历史路况信息数据及其邻接相同等级路链的路况信息数据。
所述步骤(3)高质量数据获取方法为同时获得稳定性和有效性,其中:
(31)稳定性实现为:
针对路况信息填补数据的数据源,对于采样路链link,假设当前时间点为t,如果在连续的n个采样周期(t-n+1,t-n+2,…,t)中所获的数据样本数集合为X,X形式化定义为:
X=(X1,X2,...,Xn)
则平均获取样本数表示为:
样本集合的数据均值为μ,方差为σ,当平均获取样本数服从均值为0,标准差为1的正态分布,即:
则
且
则表明用于计算路链link的路况信息数据源满足稳定性;
(32)有效性实现为:
对于采样路链link,在时间点t时刻的速度是V,当满足:
μ1≤V≤μ2
μ1,μ2是该等级路链的路链速度阈值,则表明该路链在t时刻的数据是有效的;
所涉及的路况信息数据中,城市交通的实际路况速度小于100km/h,在此将路链速度V的边界值定义为:
0km/h≤V≤100km/h
不在此范围之内的速度值是无效数据。
所述步骤(6)对离散型数据缺失模式进行缺失路况信息数据填补的方法为:若路链βj存在数据缺失,但是与其邻接的前一条路链βj-1与其邻接的后一条路链βj+1均不存在数据缺失;采用时间相关性算法,对该数据点进行数据补全
所述步骤(6)对连续型数据缺失模式进行缺失路况信息数据填补的方法为:诊断异常交通状态数据、主成分分析方法构建稳健特征空间、改进的最小二乘曲线拟合算法补全连续型缺失数据;
具体实现如下:
(61)诊断异常交通状态数据:选用稳健距离作为衡量因子进行异常值诊断,采用逐步增加计算点集的方法对异常数据进行处理,分离出正常值和异常值集合,对正常值构成的数据矩阵,选用主成分分析的方法,确定主成分,构建特征空间,并对矩阵进行奇异值分解,将异常值向特征空间投影,构建稳健特征空间;
(62)主成分分析方法构建稳健特征空间
a.对正常值矩阵进行奇异值分解,得到特征值,根据累积贡献率选取主成分并获得主成分对应的特征向量构成正常值的标准化矩阵;
b.将异常值矩阵按照正常值矩阵的均值向量和标准偏差投影得到异常值矩阵;
c.整合正常值标准化矩阵和异常值投影矩阵得到稳健特征空间矩阵;
(63)改进的最小二乘曲线拟合算法补全缺失连续型缺失数据:通过异常值诊断以及特征空间构建,得出稳健特征空间矩阵后,补全连续型缺失数据段的问题就转化为最小二乘法求解最佳曲线拟合问题,通过计算后就得到缺失数据段。
本发明与现有技术相比的优点在于:
(1)本发明针对基于单条路链历史数据所反映交通态势特征有限问题,提出了路况信息特征缺失区域,区域化特征表示与提取方法,最大程度提取空缺信息路链的交通态势特征。同时本发明根据时空相关性对历史路况信息进行特征提取,用提取到的数据来补全缺失路况信息数据,保证填补效果的准确性。
(2)本发明针对提取到的历史数据中存在不稳定和失效的数据,提出了高质量数据获取方法,对提取到的历史数据进行稳定性和有效性的计算处理,提高了填补效果的准确性。同时本发明根据路况数据的缺失类型,分为离散型路况信息缺失和连续型路况信息缺失,并且根据这两种缺失类型提出了不同的填补方法。
(3)本发明在CPCA方法的基础之上增加了高质量数据筛选过程以及对异常数据标准化等操作,构建稳健特征空间,提高填补结果的准确性。该方法所构建的稳健特征空间使得方法的填补误差率不会受数据缺失率的影响,保持一定的变化曲率。
(4)本发明针对历史数据中高比例异常值而形成的对空缺信息错误估计问题,提出了诊断异常交通状态数据和主成分分析方法构建稳健特征空间,基于建立的稳健距离实现对异常值的有效鉴别。同时本发明还将补全连续型缺失数据段的问题转化为最小二乘法求解最佳曲线拟合问题,利用矩阵论的方法计算得到缺失数据段。
附图说明
图1为本发明的整体流程图;
图2为特征区域路链集示意图;
图3为异常值诊断及标准化示意图。
具体实施方式
本发明所说的基于高质量数据获取的路况信息填补方法流程如图1所示。
1、对模型中涉及到的基础参数(路链邻接路链集、路况信息特征缺失区域、路况信息数据缺失模式)进行定义;
(1)路链邻接路链集
假如link的前继路链是link',后继路链是link″,则link'和link″统称为link的1级邻接路链,其中l路链的1级路链集合记为并且:
对于任意
则li的邻接1级路链集合表示为则l的邻接2级路链集合表示为形式化定义为:
化简后,即:
同理,可以得出l路链邻接n级路链的集合,表示为:
(2)路况信息缺失特征区域
路网Rn中的一条路链linkm,若linkm的邻接2级路链集合表示为则由集合及路链linkm构成Rn中的一个特征区域,特征区域中的路链集记为且该特征区域称为linkm的特征区域。
如图2中所示,link0的邻接1级链路链集记为:
那么,link0的邻接2级链路链集为
(3)路况信息数据缺失模式
路网Rn中的一条路链link,其在[Ta,Tb)时间区间内,存在采样周期为T的n个时间点,通过路况信息计算模型获取的路况信息数据:
缺失部分的路况信息数据记为φ。则在[Ta,Tb)时间段内,路况信息数据以向量形式描述成:
其中
若在
中
αm=φ,j-k1≤m≤j+k2,k1≥0,k2≥0
且
若满足
k1+k2>0
则定义数据段为连续缺失型数据缺失模式;
否则定义数据段为离散缺失型数据模式,此时
连续型数据缺失模式和离散型数据缺失模式统称为路况信息数据缺失模式。
2、路况信息特征数据提取
若区域Rn中路链link的路况信息数据连续型在[Ta,Tb)时间区间内,存在采样周期为T的n个时间点,通过路况信息计算模型获取的路况信息数据(该条路链的旅行时间),为:
D=(β1,β2,…,βj,…,βn),1≤j≤n
对于计算该段数据的完整率CompD,若CompD≠100%,则对该段数据进行填补。
由于区域Rn中路链link的路况信息和与其同属的相同特征日的路况信息具有时间相关性,与link的特征区域内的邻接相同等级的路链路况信息具有空间相关性。那么,可以采用路链link的以产生周期为T的n个时间点的历史路况信息数据及其邻接相同等级路链的路况信息数据进行缺失部分的数据填补。
历史路况信息数据中M天对应n个时间点的数据表示为:
DT=(G1,G2,…,Gk,…,GM)T,(1≤k≤M)
根据路况信息的周期性特征,从DT中选择相同特征日的d天数据,记为:
其中,第i天n个时间点的路况信息数据记为:
(gi)T=(α0,i1,αi2,…,αij,…,αin)T,1≤i≤d,1≤j≤n
路链link的邻接2级相同等级路链集合,记为:
则路链lk的第i天n个时间点的路况信息数据,记为:
(g′k,i)T=(αk,i1,αk,i2,…,αk,ij,…,αk,in)T,1≤k≤m,1≤i≤d,1≤j≤n
由此得到历史路况信息数据D'T以及待补全的路况信息数据D。
3、对高质量数据进行定义,提出高质量数据获取方法定义与计算。
路况信息填补模型的构建是以历史路况信息数据作为数据基础,然而历史路况信息数据中的错误数据会影响历史路况信息所表现的交通规律,影响通过历史数据的特征挖掘进行缺失路况信息数据填补的结果,因此需要将错误数据从历史路况信息数据源中剔除。为此,提出采用高质量数据获取方法获取高质量数据,为路况信息填补模型构建准备高质量的数据。首先将对高质量数据做定义。
定义高质量数据
定义为一组在经过有限次数的数据删除后同时满足稳定性和有效性的交通路况信息数据。结合数据质量评价指标和研究采用的路况信息数据,对进行高质量数据获取的数据质量评价指标给出形式化定义。
稳定性
针对路况信息填补数据的数据源,对于采样路链link,假设当前时间点为t,如果在连续的n个采样周期(t-n+1,t-n+2,…,t)中所获的数据样本数集合为X,X形式化定义为:
X=(X1,X2,…,Xn)
则平均获取样本数可以表示为:
当满足:
则
且
则表明用于计算路链link的路况信息数据源满足稳定性。
衡量稳定性的稳定度记为:
有效性
由于路链信息数据采集存在一定的时间延迟及偏差,以及路况信息计算系统存在误差,导致通过原始GPS数据得到的路况信息数据会存在错误数据。为了发现这部分数据并将其删除,在此定义有效性。
对于采样路链link,在时间点t时刻的速度是V,当满足:
μ1≤V≤μ2
μ1,μ2是该等级路链的路链速度阈值,则表明该路链在t时刻的数据是有效的。
研究所涉及的路况信息数据中,城市交通的实际路况速度一般小于:
100km/h。
在此将路链速度V的边界值定义为:
0km/h≤V≤100km/h
不在此范围之内的速度值是无效数据。
4、高质量数据获取
针对路况信息填补数据的数据源,对于采样路链link,假设当前时间点为t,如果在连续的n个采样周期(t-n+1,t-n+2,…,t)中所获的数据样本数集合为X,X形式化定义为X=(X1,X2,...,Xn),则平均获取样本数可以表示为当满足则且则表明用于计算路链link的路况信息数据源满足稳定性。对于计算该段数据的稳定度μi,从其中删除不符合稳定度的数据段构成D'T。
对于采样路链link,在时间点t时刻的速度是V,当满足μ1≤V≤μ2,μ1,μ2是该等级路链的路链速度阈值,则表明该路链在t时刻的数据是有效的。研究所涉及的路况信息数据中,城市交通的实际路况速度一般小于100km/h。在此将路链速度V的边界值定义为0km/h≤V≤100km/h,不在此范围之内的速度值是无效数据。对于和发现其中不满足有效性V的数据点,并将其用0替换,构成新的D'T和D。
由此获取高质量历史路况信息数据D'T以及待补全的路况信息数据D。
若(g0)T中的q个时间点存在连续型数据缺失,首先将(g0)T的连续型缺失数据段合并,即:
(g′0)T=(γ1,γ2,…,γq,γq+1,…,γn)T,(1<q<d)
令A代表缺失数据的数据段,B代表完整数据的数据段,则:
A=(γ1 γ2 … γq)T,1<q<d
B=(γq+1 γq+2 … γn)T,1<q<d
那么,若以G表示当前路链的路况信息数据矩阵,则:
GT=(AT BT)
5、填补缺失路况信息数据
填补缺失路况信息数据部分包括时间相关性算法补全离散型缺失数据、诊断异常数据、通过主成分分析方法构建稳健特征空间和改进的最小二乘曲线拟合算法补全连续型缺失数据和等四个处理部分。
(1)时间相关性算法补全离散型缺失数据
对路链link的以产生周期为T的n个时间点的路况信息数据进行离散型缺失部分的数据填补。路链link的该部分路况信息数据记为:
(g0)T=(β1,β2,…,βj,…,βn)T,(1≤j≤n)
由离散型缺失数据的数据缺失特征可以得出以下结论,即:假如βj存在数据缺失,但是βj-1与βj-1均不存在数据缺失。
采用时间相关性算法,对该数据点进行数据补全。
即补全离散型缺失数据部分。
(2)诊断异常交通状态数据
本发明将“稳健距离”作为衡量异常数据的衡量因子,下面对其作定义。
设原始样本矩阵为:
为第i个样本,n是样本数,p是变量数,则稳健距离di(x)定义如下:
med(x)表示x的中位矢量或者中位数。
其中:
med(x)=(med(xj1),med(xj2),…,med(xjp)),j=1,2,…m
由于主成分分析方法处理时常常有变量数大于样本数的情况,即p>n,所以对协方差cov(x)取广义逆。
若需要补全的连续性缺失数据段矩阵是A,数据段数据完整存在的数据矩阵B,用来补全的缺失数据段对应的历史路况信息数据矩阵是XA',用来补全的完整数据段对应的历史路况信息数据矩阵是X'B。由此构造迭代计算B的稳健距离的逐步增加计算点集方法诊断异常数据,该方法详细步骤如下:
1)从X'B中选取m个样本点作为初始计算点集合,即
MB={f1,f2,…,fs,…,fm},s=1,2,…,m
若记X'B的行数为n,列数为p;
一般当n>p时,m=p+1;当n<p,m取值3~5;
计算B距fs(s=1,2,…,m)的中心距离,即
其中
s=1,2,…m
2)将ds(MB,B)从小到大进行排序,可以得到:
d1(MB,B)≤d2(MB,B)≤…≤ds(MB,B)≤…≤dm(MB,B)
3)将m赋值为m+1,若m=n,则转到7);
否则转到4);
4)按照距离大小对MB中的计算点集重新排序,构成新的M'B,即
M′B={f′1,f′2,…,f′s,…,f′m},s=1,2,…,m
5)选取M'B的前k个点构建计算点子集QB,即:
QB={f′1,f′2,…,f′i,…,f′k},i=1,2,…,k
其中
以med(MB)为中心,以QB计算协方差距离,重新计算各个样本矢量到此中心距离ds(MB,B),即:
其中
s=1,2,…m
6)转2);
7)若fs是异常点,将X's加入异常点集合XN,否则X's加入非异常点集合XA。
至此,完成以稳健距离为划分标准,通过逐步增加计算点集方法进行异常值诊断,划分出正常值矩阵与异常值矩阵且n1+n2=n。
(3)主成分分析方法构建稳健特征空间
为了构建稳健特征空间,首先对正常值矩阵进行标准化。
对进行奇异值分解,即
下面对分解之后的进行主成分分析,得到特征值,确定贡献率,根据贡献率确定影响正常值的主要变量。
其中
得到标准化矩阵Z,
对标准化后的矩阵Z求解系数矩阵R
求解R的特征方程
|R-λIp|=0
得到R的r0个从大到小排序的特征根,记为:
λ1≥λ2≥…≥λi≥…≥λp,1≤i≤r0
通过计算上述有序的p个特征根中前k个特征值的累积贡献率η,使得:
且
则特征值(λ1,λ2,…λk)称为Y的k个主成分,λk称为Y的第k个主成分,λi对应的特征向量记为:
选取前k个特征值作为作为主成分。
计算的均值向量(μ1,μ2,…μp)T和标准偏差(s1,s2,…sp)T,计算方法如下:
把通过均值向量(μ1,μ2,…μp)T和标准偏差(s1,s2,…sp)T标准化,标准化后的矩阵记为那么
则标准化后的矩阵记为:
以的前k列构成矩阵Z'
同样,选取中对应的k列构成矩阵将与构成标准化后的稳健特征矩阵ZAn×k。
对缺失部分的XA'按照上述方法同样进行标准化,得到的完整数据矩阵记为ZAn×(q+k),
即构成稳健历史数据矩阵,记为:
Z=(ZAn×q ZAn×k)
至此,稳健特征空间矩阵构建结束。
(4)改进的最小二乘曲线拟合算法补全连续型缺失数据
本节将对于待补全的路况信息数据GT=(AT BT)进行缺失数据段补全。
首先通过异常值诊断以及特征空间构建,得出稳健特征空间矩阵Λ,则:
显然有
令
则补全连续型缺失数据段A的问题转化为最小二乘法求解最佳曲线拟合问题,即:
计算可以得到那么,由:
Ax=B
可以计算得到缺失数据段A。
至此,完成基于高质量数据获取的路况信息填补模型的构建。
Claims (5)
1.基于高质量数据获取的路况信息填补方法,其特征在于由以下步骤实现:
(1)定义路况信息填补的基本参数,即路链邻接路链集、路况信息特征缺失区域和路况信息数据缺失模式;所述路链邻接路链集是指与缺失的路链link相邻接的路链集合;路况信息特征缺失区域是指与缺失的路链link具有空间相关性的特征区域;路况信息数据缺失模式是指一段时间内缺失的路链link的数据缺失类型;所述路况信息数据缺失模式分为连续缺失型数据缺失模式和离散缺失型数据缺失模式;
(2)根据步骤(1)定义的路况信息特征缺失区域,对历史库中与缺失路链具有时空相关性特征的路况信息进行提取,得到具有时空相关性特征的历史路况信息数据,为缺失路况信息数据补全提供基础;
(3)通过采用高质量数据获取方法对步骤(2)中提取的具有时空相关性特征的历史路况信息数据以及静态路网数据进行计算处理,得到高质量的路况信息数据;所述高质量是指同时满足稳定性和有效性的交通路况信息数据为高质量数据;所述稳定性是指用来评价不同天的数据缺失情况;所述有效性是指路链信息数据采集存在一定的时间延迟及偏差,以及路况信息计算系统存在误差,导致通过原始GPS数据得到的路况信息数据会存在错误数据,为了发现这部分数据并将其删除;
(4)根据步骤(1)中对路况信息数据缺失模式的定义,确定路况信息缺失模式;
(5)以步骤(3)得到高质量的路况信息数据为基础,对步骤(4)确定的路况信息缺失中的离散型数据缺失模式和连续型数据缺失模式分别进行缺失路况信息数据填补;
所述步骤(3)高质量数据获取方法为同时获得稳定性和有效性,其中:
(31)稳定性实现为:
针对路况信息填补数据的数据源,对于采样的路链link,假设当前时间点为t,如果在连续的n个采样周期(t-n×T+1×T,t-n×T+2×T,…,t)中所获的数据样本数集合为X,其中,T为采样周期,X形式化定义为:
X=(X1,X2,…,Xn)
则平均获取样本数表示为:
<mrow>
<mover>
<mi>X</mi>
<mo>&OverBar;</mo>
</mover>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>X</mi>
<mi>i</mi>
</msub>
</mrow>
<mi>n</mi>
</mfrac>
</mrow>
样本集合的数据均值为μ,方差为σ,当平均获取样本数服从均值为0,标准差为1的正态分布,即:
则
且
α=0.05,
则表明用于计算路链link的路况信息数据源满足稳定性;
(32)有效性实现为:
对于采样的路链link,在时间点t时刻的速度是V,当满足:
μ1≤V≤μ2
μ1,μ2是该等级路链的路链速度阈值,则表明该路链在t时刻的数据是有效的;
所涉及的路况信息数据中,城市交通的实际路况速度小于100km/h,在此将路链速度V的边界值定义为:
0km/h≤V≤100km/h
不在此范围之内的速度值是无效数据。
2.根据权利要求1所述的基于高质量数据获取的路况信息填补方法,其特征在于:所述的步骤(2)对历史路况信息数据进行时空相关性的特征提取,为缺失路况信息数据补全提供基础的方法为:区域Rn中路链link的路况信息和与其同属的相同特征日的路况信息具有时间相关性,与路链link的特征区域内的邻接相同等级的路链路况信息具有空间相关性,提取路链link的以采样周期为T的n个时间点的历史路况信息数据及其邻接相同等级路链的路况信息数据。
3.根据权利要求1所述的基于高质量数据获取的路况信息填补方法,其特征在于:所述步骤(5)对离散型数据缺失模式进行缺失路况信息数据填补的方法为:若路链βj存在数据缺失,但是与其邻接的前一条路链βj-1与其邻接的后一条路链βj+1均不存在数据缺失;采用时间相关性算法,对该数据点进行数据补全
4.根据权利要求1所述的基于高质量数据获取的路况信息填补方法,其特征在于:所述步骤(5)对连续型数据缺失模式进行缺失路况信息数据填补的方法为:诊断异常交通状态数据、主成分分析方法构建稳健特征空间、改进的最小二乘曲线拟合算法补全连续型缺失数据;
具体实现如下:
(61)诊断异常交通状态数据:选用稳健距离作为衡量因子进行异常值诊断,采用逐步增加计算点集的方法对异常数据进行处理,分离出正常值和异常值集合,对正常值构成的数据矩阵,选用主成分分析的方法,确定主成分,构建特征空间,并对矩阵进行奇异值分解,将异常值向特征空间投影,构建稳健特征空间;
(62)改进的最小二乘曲线拟合算法补全缺失连续型缺失数据:通过异常值诊断以及特征空间构建,得出稳健特征空间矩阵后,补全连续型缺失数据段的问题就转化为最小二乘法求解最佳曲线拟合问题,通过计算后就得到缺失数据段。
5.根据权利要求4所述的基于高质量数据获取的路况信息填补方法,其特征在于:所述步骤(61)中选用选用主成分分析的方法构建稳健特征空间的具体过程如下:
a.对正常值矩阵进行奇异值分解,得到特征值,根据累积贡献率选取主成分并获得主成分对应的特征向量构成正常值的标准化矩阵;
b.将异常值矩阵按照正常值矩阵的均值向量和标准偏差投影得到异常值矩阵;
c.整合正常值标准化矩阵和异常值投影矩阵得到稳健特征空间矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410466392.0A CN104217002B (zh) | 2014-09-14 | 2014-09-14 | 一种基于高质量数据获取的路况信息填补方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410466392.0A CN104217002B (zh) | 2014-09-14 | 2014-09-14 | 一种基于高质量数据获取的路况信息填补方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217002A CN104217002A (zh) | 2014-12-17 |
CN104217002B true CN104217002B (zh) | 2017-08-25 |
Family
ID=52098492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410466392.0A Active CN104217002B (zh) | 2014-09-14 | 2014-09-14 | 一种基于高质量数据获取的路况信息填补方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104217002B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989173B (zh) * | 2015-03-05 | 2021-06-01 | 创新先进技术有限公司 | 数据处理方法及装置 |
CN106326254B (zh) * | 2015-06-25 | 2019-08-30 | 阿里巴巴集团控股有限公司 | 行车路径的修复方法和装置 |
CN106650312B (zh) * | 2016-12-29 | 2022-05-17 | 浙江安诺优达生物科技有限公司 | 一种用于循环肿瘤dna拷贝数变异检测的装置 |
CN106908668B (zh) * | 2017-01-20 | 2021-03-26 | 中国电力科学研究院 | 一种实测地面合成电场数据的处理方法及系统 |
CN107092242B (zh) * | 2017-06-02 | 2019-05-31 | 宁波大学 | 一种基于缺失变量pca模型的工业过程监测方法 |
CN107680377B (zh) * | 2017-11-06 | 2019-09-27 | 浙江工商大学 | 基于趋势拟合的交通流量数据交叉补全方法 |
CN107992536B (zh) * | 2017-11-23 | 2020-10-30 | 中山大学 | 基于张量分解的城市交通缺失数据填补方法 |
CN108010320B (zh) * | 2017-12-21 | 2020-06-16 | 北京工业大学 | 一种基于自适应时空约束低秩算法的路网交通数据的补全方法 |
CN109101638B (zh) * | 2018-08-20 | 2019-05-28 | 河海大学 | 一种大坝变形监测连续性缺失数据补全方法 |
CN109495327B (zh) * | 2018-12-28 | 2020-05-19 | 西安交通大学 | 一种基于大数据分析的用户活动异常检测和流量预测方法 |
CN109979193B (zh) * | 2019-02-19 | 2021-01-19 | 浙江海康智联科技有限公司 | 一种基于马尔科夫模型的数据异常诊断方法 |
CN111898895B (zh) * | 2020-07-24 | 2023-06-13 | 重庆长安汽车股份有限公司 | 一种基于大数据融合的车辆质量评价方法及系统 |
CN112952828A (zh) * | 2021-04-14 | 2021-06-11 | 南京工程学院 | 一种用于低压配电网的用户台区分析方法 |
CN115736900A (zh) * | 2022-11-18 | 2023-03-07 | 高创(苏州)电子有限公司 | 行为识别系统、方法、装置、电子设备及存储介质 |
CN116013087B (zh) * | 2023-03-27 | 2023-05-30 | 东莞市城建规划设计院 | 一种基于城市运动车辆检测的车流量统计方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101325004A (zh) * | 2008-08-01 | 2008-12-17 | 北京航空航天大学 | 一种实时交通信息的数据补偿方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369325A (zh) * | 2007-08-13 | 2009-02-18 | 英业达股份有限公司 | 替代物料报表建立方法及建立系统 |
US20120290264A1 (en) * | 2011-05-12 | 2012-11-15 | Fluke Corporation | Method and apparatus for dynamically adjusting data acquisition rate in an apm system |
-
2014
- 2014-09-14 CN CN201410466392.0A patent/CN104217002B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101325004A (zh) * | 2008-08-01 | 2008-12-17 | 北京航空航天大学 | 一种实时交通信息的数据补偿方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104217002A (zh) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217002B (zh) | 一种基于高质量数据获取的路况信息填补方法 | |
CN110310474A (zh) | 一种基于时空残差网络的车流量预测方法及装置 | |
CN106991510A (zh) | 一种基于时空分布特征预测城市交通事故的方法 | |
Li et al. | Knowledge-based trajectory completion from sparse GPS samples | |
CN105374209A (zh) | 一种城市区域路网运行状态特征信息提取方法 | |
CN114944053A (zh) | 一种基于时空超图神经网络的交通流预测方法 | |
CN110162744A (zh) | 一种基于张量的车联网数据缺失多重估计新方法 | |
CN117238126A (zh) | 一种连续流道路场景下的交通事故风险评估方法 | |
CN103106329B (zh) | 一种用于svr短期负荷预测的训练样本分组构造方法 | |
CN111145535B (zh) | 一种复杂场景下的行程时间可靠性分布预测方法 | |
CN118095834A (zh) | 一种基于可解释随机森林的交通事故风险研判方法 | |
Özkan et al. | A GIS-based DANP-VIKOR approach to evaluate R&D performance of Turkish cities | |
Zhong et al. | Estimating link flows in road networks with synthetic trajectory data generation: Inverse reinforcement learning approach | |
Jayasinghe et al. | Calibration of SUMO microscopic simulator for Sri Lankan traffic conditions | |
CN115374709A (zh) | 一种基于深度森林模型和flus模型的土地分析方法及系统 | |
Mashhadi et al. | Evaluating Mobility Impacts Of Construction Workzones On Utah Transportation System Using Machine Learning Techniques | |
Meng et al. | Multi-feature fusion: a driver-car matching model based on curve comparison | |
Panda et al. | Machine learning using exploratory analysis to predict taxi fare | |
Morton et al. | Need a boost? a comparison of traditional commuting models with the xgboost model for predicting commuting flows (short paper) | |
Jacintho et al. | Brazilian presidential elections: Analysing voting patterns in time and space using a simple data science pipeline | |
Silva et al. | Visual Analysis of Multivariate Urban Traffic Data Resorting to Local Principal Curves. | |
Buddhavarapu | On Bayesian estimation of spatial and dynamic count models using data augmentation techniques: application to road safety management | |
Naotunna | A Model for the Estimation of Land Prices in Colombo District using Web Scraped Data | |
CN116665342B (zh) | 新能源汽车驾驶行为分析方法、系统及设备 | |
Ko et al. | Development of a machine learning-based sketch planning model for predicting mobile emissions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |