CN102819682A - 一种多阈值空间相关的浮动车数据清洗和修复算法 - Google Patents

一种多阈值空间相关的浮动车数据清洗和修复算法 Download PDF

Info

Publication number
CN102819682A
CN102819682A CN2012102732359A CN201210273235A CN102819682A CN 102819682 A CN102819682 A CN 102819682A CN 2012102732359 A CN2012102732359 A CN 2012102732359A CN 201210273235 A CN201210273235 A CN 201210273235A CN 102819682 A CN102819682 A CN 102819682A
Authority
CN
China
Prior art keywords
data
matrix
floating car
vector
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102732359A
Other languages
English (en)
Other versions
CN102819682B (zh
Inventor
杨殿阁
连小珉
张照生
王钊
李江涛
张德鑫
彭应亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210273235.9A priority Critical patent/CN102819682B/zh
Publication of CN102819682A publication Critical patent/CN102819682A/zh
Application granted granted Critical
Publication of CN102819682B publication Critical patent/CN102819682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Traffic Control Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种多阈值空间相关的浮动车数据清洗和修复算法,该算法将浮动车对一路段的若干天的采集数据合成一数据矩阵,在以天为单位初步筛选数据矩阵中的缺失数据和异常数据后,根据三西格玛过滤法则进一步清除数据矩阵中的异常数据,然后根据缺失数据的类型,用加权平均法和指数平滑法分别结合路段的空间相似特性对缺失数据进行修复,最后用主成分重建方法修复浮动车数据中的高频噪声扰动,从而在不增加浮动车数量和额外处理设备的情况下,对浮动车的规律性车速信息进行充分挖掘,有效地改善了浮动车的数据质量。本发明可以用于浮动车规律性数据的清洗和修复工作,为后续的交通规划和交通辨识提供可靠的数据。

Description

一种多阈值空间相关的浮动车数据清洗和修复算法
技术领域
本发明涉及一种浮动车数据处理方法,特别是关于一种多阈值空间相关的浮动车数据清洗和修复算法。
背景技术
浮动车因其具有覆盖范围广、采集数据精度高、实时性强等优点在动态交通数据的采集中得以广泛应用。但浮动车的流动性大,在非车流高峰时段不能覆盖所有路段,并且由于无线通信数据传输会出现数据包丢失的现象,容易导致浮动车采集数据发生错误或缺失,从而影响交通状态测量的准确性。有文献指出目前浮动车采集的交通数据50%左右都存在数据错误或丢失的问题,而直接应用这些质量有问题的数据会给后续的交通辨识和交通控制带来不稳定的安全隐患。因此,为获得精确的动态交通数据,浮动车数据的清洗和修复显得尤为重要。
交通领域中,交通流数据一般包含车速、流量、占有率等信息。对交通流数据的清洗和修复通常是利用不同属性之间的相关性对单一属性缺失数据进行有效补齐。但是浮动车数据只包含车速信息,因此不能采用上述交通流机理检测错误数据。当前对浮动车数据的处理多采用线性插值法或历史平均方法进行修复,修复精度较低。此外,也有方法提出结合线圈、摄像头等传感器数据来提高浮动车数据质量,但是由于目前传感器不能覆盖所有路段,因此这种方法需要增加大基础设施的投入,成本较高。
发明内容
针对上述问题,本发明的目的是提供一种多阈值空间相关的浮动车数据清洗和修复算法,该算法能够在不增加浮动车数量和额外处理设备的情况下,通过挖掘浮动车的规律性车速信息,对浮动车数据中的缺失数据、异常数据和噪声数据进行清洗修复,从而提高浮动车的数据质量,为后续的交通规划奠定基础。
为实现上述目的,本发明采取以下技术方案:一种多阈值空间相关的浮动车数据清洗和修复算法,其包括以下步骤:
1)将浮动车采集的一路段若干天的数据合成一原始数据矩阵,所述原始数据矩阵中日期相同、时刻不同的车速数据构成日期向量,时刻相同、日期不同的车速数据构成时刻向量;
2)以天为单位对步骤1)获得的原始数据矩阵中的缺失数据和异常数据进行筛选:
2.1)为原始数据矩阵的每一时刻向量设置一置信区间;
2.2)对每一日期向量中的车速数据进行辨识及过滤:
如果车速数据小于等于零,则作为缺失数据归零;
如果车速数据未在其所在时刻向量的置信区间内,则作为异常数据;
2.3)检验每一日期向量中缺失数据个数,连续缺失数据个数和连续异常数据个数:
如果一日期向量中缺失数据个数大于预设的数据缺失阈值,或者连续缺失数据个数大于预设的数据连续缺失阈值,或者连续异常数据个数大于预设的数据连续异常阈值,则将整个日期向量删除;
所述连续缺失数据是指该缺失数据的前一时刻或后一时刻数据也缺失;所述连续异常数据是指该异常数据的前一时刻或后一时刻数据也异常;
2.4)经过筛选后的原始数据矩阵成为异常数据矩阵;
3)根据三西格玛准则对步骤2)获得的异常数据矩阵中的异常数据进行清洗:
3.1)对异常数据矩阵中的每一时刻向量进行正态分布检验:
如果时刻向量呈非正态分布,则对其实施近似正态变换;
3.2)根据三西格玛准则求出每一时刻向量的置信区间;
3.3)对每一日期向量中的每一车速数据进行辨识:
如果车速数据偏离其所在时刻向量的置信区间,则作为异常数据归零;
3.4)经过清洗后的异常数据矩阵成为缺失数据矩阵;
4)对步骤3)获得的缺失数据矩阵中的缺失数据进行修复:
4.1)对缺失数据矩阵中的每个缺失数据进行判断:
如果缺失数据是孤立缺失数据,用加权平均法修复,进入步骤4.2);
如果缺失数据是连续缺失数据,用指数平滑法修复,进入步骤4.3);
4.2)用路段的空间相似特性修复车速数据,并将其与加权平均法的车速修复结果作加权平均,获得的结果作为孤立缺失数据的最终修复值;
4.3)用路段的空间相似特性修复车速数据,并将其与指数平滑法的车速修复结果作加权平均,获得的结果作为连续缺失数据的最终修复值;
4.4)经过修复后的缺失数据矩阵成为噪声数据矩阵;
5)用主成分重建方法对步骤4)获得的噪声数据矩阵中的噪声数据进行修复:
5.1)计算噪声数据矩阵的主成分矩阵;
5.2)计算主成分累积贡献率;
5.3)当主成分累积贡献率大于给定的贡献率阈值时,用主成分重建方法获得浮动车修复数据矩阵,结束。
上述步骤2.1)中,每一时刻向量的置信区间的置信度设定为85%,相应的,每一时刻向量的置信区间为
Figure BDA00001966558300031
Figure BDA00001966558300032
为时刻向量的平均值,σj为时刻向量的向量标准差。
上述步骤4.1)中,所述指数平滑法为二次指数平滑法。
上述步骤3.1)中,对非正态分布的时刻向量实施如下的近似正态变换:
x i , j ( γ ) = x i , j γ γ γ ≠ 0 ln ( x i , j ) γ = 0
上式中,xi,j是近似正态变换前的矩阵元素,
Figure BDA00001966558300034
为近似正态变换后的矩阵元素,γ为正态变换指数因子,γ通过求解下式l(γ)的最大值获得,
l ( γ ) = - M ′ 2 ln ( 1 M ′ Σ i = 1 M ′ ( x i , j ( γ ) - X ‾ j ( γ ) ) 2 ) + ( γ - 1 ) Σ i = 1 M ′ ln ( x i , j ) ,
Figure BDA00001966558300036
是呈近似正态分布的时刻向量Xj (γ)的平均值,
Figure BDA00001966558300037
上述步骤5.3)中,贡献率阈值为95%。
本发明由于采取上述技术方案,具有以下优点:1、本发明由于采用多阈值控制方法和基于正态变换的三西格玛法则对浮动车数据进行清洗,因此能够保证不剔除正常数据的情况下,对浮动车数据中的异常数据进行精确的辨识和过滤。2、本发明由于采用加权平均法和指数平滑法对缺失数据进行补全,因此与现有技术中采用历史平均和线性插值的传统方法相比,可以利用时间序列的趋势性,减少相邻时刻的数据波动对修复值的影响。3、本发明由于在加权平均法和指数平滑法的基础上,还利用相邻路段的空间拓扑特性,通过相邻路段的交通状态相关性对缺失数据进行修复,因此与现有技术相比,数据修复精度明显提高。4、本发明由于采用主成分重建方法修复浮动车数据中的高频噪声,充分利用时间序列的规律性与趋势性,挖掘浮动车的规律性车速信息,从而在保持车速数据正常的瞬变特性的基础上,获得更加平滑、波动更小的曲线,有效地提高了浮动车的数据质量。本发明可以用于浮动车规律性数据的清洗和修复工作,为后续的交通规划和交通辨识提供可靠的数据。
附图说明
图1是本发明的算法流程示意图;
图2是本发明的数据初步筛选流程示意图;
图3是本发明的异常数据清洗流程示意图;
图4是本发明的缺失数据修复流程示意图;
图5是本发明的噪声数据修复流程示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
浮动车以路段为单位进行数据采集,每过一段时间间隔采集一个数据点,一路段若干天的浮动车数据可以合成一原始数据矩阵X:
Figure BDA00001966558300041
上式中,M为采集数据的天数,N为每天的数据采集量;数据矩阵X的行向量Xi<xi,1,xi,2,…,xij,…,xi,N>表示相同日期、不同时刻的车速数据,简称日期向量,列向量Xj<x1,j,x2,j,…,xij,…,xM,j>表示相同时刻、不同日期的车速数据,简称时刻向量,其中i为日期序号,j为时刻序号,xi,j为第i天j时刻的车速数据。
本发明需要对数据矩阵中的每一个元素进行分析:当车速数据小于或等于零时为缺失数据;当一缺失数据前一时刻或后一时刻数据也缺失时,该缺失数据为连续缺失数据;当一车速数据严重偏离其分布的中心时为异常数据;当一异常数据前一时刻或后一时刻数据也异常时,该异常数据为连续异常数据。其中,判断车速数据是否为异常数据可以借助时刻向量的置信区间进行。
如图1所示,本发明通过以下四个步骤,对浮动车数据中的(连续)缺失数据和(连续)异常数据进行清洗和修复:
1、数据初步筛选;
2、根据三西格玛法则清洗异常数据;
3、修复缺失数据;
4、用主成分重建方法修复噪声数据。
如图2所示,浮动车数据初步筛选流程是以天为单位对原始数据矩阵X中的缺失数据和异常数据进行筛选,具体包括以下步骤:
1)初始化原始数据矩阵每一时刻向量的置信区间:
1.1)初始化时刻序号j=1;
1.2)判断j>N是否成立:
若成立,则进入步骤2);
否则进入步骤1.3);
1.3)求时刻向量Xj的平均值
Figure BDA00001966558300051
向量标准差σj和置信度为一给定值C的置信区间;
其中,置信度C可以根据经验设定为85%,相应的,时刻向量的置信区间为 [ X &OverBar; j - 1.44 &sigma; j , X &OverBar; j + 1,44 &sigma; j ] .
1.4)j增加1,返回步骤1.2);
2)对每一日期向量中的车速数据进行辨识及过滤:
2.1)初始化日期序号i=1,时刻序号j=1;
2.2)判断i>M是否成立:
若成立,则进入步骤2.14);
否则进入步骤2.3);
2.3)判断j>N是否成立:
若成立,则i增加1,j初始化为1,返回步骤2.2);
否则进入步骤2.4);
2.4)将记录每天缺失数据个数的参数Ni、记录每天连续缺失数据个数的参数Nc和记录每天连续异常数据个数的参数Ne全部初始化为0,将异常数据序号d初始化为1;
2.5)判断xi,j<0是否成立:
若成立,则xi,j=0,xi,j为缺失数据,Ni增加1,进入步骤2.7);
否则进入步骤2.6);
2.6)判断xi,j=0是否成立:
若成立,则xi,j为缺失数据,Ni增加1,进入步骤2.7);
否则进入步骤2.8);
2.7)判断xi,j-1<=0或xi,j+1<=0是否成立,也即判断xi,j的前一时刻或后一时刻的数据是否缺失:
若xi,j-1<=0或xi,j+1<=0,则xi,j为连续缺失数据,Nc和Ne均增加1,进入步骤2.10);
否则Nc重置为0,进入步骤2.9),判断xi,j是否为连续异常数据;
2.8)判断xi,j是否在时刻向量Xj的置信区间内:
若xi,j在时刻向量Xj的置信区间内,则xi,j为正常数据,Ne重置为0,进入步骤2.10);
否则xi,j为异常数据,进入步骤2.9),判断xi,j是否为连续异常数据;
2.9)判断j-d=1是否成立:
若成立,则xi,j为连续异常数据,Ne增加1,更新d=j,进入步骤2.10);
否则Ne重置为1,更新d=j,进入步骤2.10);
2.10)将Ni与一给定的数据缺失阈值Ni(t)比较:
若Ni>Ni(t),进入步骤2.13);
否则进入步骤2.11);
2.11)将Nc与一给定的数据连续缺失阈值Nc(t)比较:
若Nc>Nc(t),进入步骤2.13);
否则进入步骤2.12);
2.12)将Ne与一给定的数据连续异常阈值Ne(t)比较:
若Ne>Ne(t),进入步骤2.13);
否则j增加1,返回步骤2.3);
2.13)i增加1,j重置为1,返回步骤2.2);
2.14)结束数据初步筛选流程,原始数据矩阵X变为M′行N列的异常数据矩阵X′:
Figure BDA00001966558300061
进入异常数据清洗流程。
其中,由于有些天的数据因不符合要求被整体删除,导致异常数据矩阵X′的行数可能小于原始数据矩阵的行数,因此有M≧M′。相应的,日期向量Xi更新为<xi,1,xi,2,…,xi,j,…,xi,N>,时刻向量Xj更新为<x1,j,x2,j,…,xi,j…,xM′,j>。
上述步骤2.10)~2.12)中,缺失数据阈值Ni(t)可以预设为0.1N,连续缺失数据阈值Nc(t)可以预设为0.05N,连续异常数据阈值Ne(t)可以预设为0.03N。
如图3所示,数据初步筛选完成后,浮动车异常数据清洗流程首先对异常数据矩阵X′中的每个时刻向量建立概率模型,对其中概率不符合正态分布的时刻向量进行近似正态变换,然后根据三西格玛过滤法则对异常数据矩阵X′中的异常数据进行进一步清洗,具体包括以下步骤:
1)初始化时刻序号j=1;
2)判断j>N是否成立:
若成立,则进入步骤13);
否则将正态分布标志f初始化为0,进入步骤3);
3)判断异常数据矩阵X′中时刻向量Xj是否符合正态分布:
若Xj符合正态分布,f置为1,进入步骤6);
否则进入步骤4);
4)对时刻向量Xj实行近似正态变换,近似正态变换方法如下所示:
x i , j ( &gamma; ) = x i , j &gamma; &gamma; &gamma; &NotEqual; 0 ln ( x i , j ) &gamma; = 0
上式中,
Figure BDA00001966558300072
为近似正态变换后的矩阵元素,γ为正态变换指数因子,γ可以通过求解下式l(γ)的最大值获得:
l ( &gamma; ) = - M &prime; 2 ln ( 1 M &prime; &Sigma; i = 1 M &prime; ( x i , j ( &gamma; ) - X &OverBar; j ( &gamma; ) ) 2 ) + ( &gamma; - 1 ) &Sigma; i = 1 M &prime; ln ( x i , j ) ,
其中
Figure BDA00001966558300074
是呈近似正态分布的时刻向量Xj (γ)的平均值,
Figure BDA00001966558300075
为减少计算量,γ可以在区间(0,5)内取值;
5)计算呈近似正态分布的时刻向量的Xj (γ)的向量标准差σj (γ),根据三西格玛准则求出相应的置信区间
Figure BDA00001966558300076
进入步骤7);
6)更新呈正态分布的时刻向量Xj的平均值
Figure BDA00001966558300077
和向量标准差σj,根据三西格玛准则求出相应的置信区间
Figure BDA00001966558300078
进入步骤7);
7)初始化日期序号i=1;
8)判断日期序号i>M′是否成立:
若成立,则i置为1,j增加1,返回步骤2);
否则进入步骤9);
9)判断正态分布标志f是否为1:
若成立,进入步骤10);
否则进入步骤11);
10)判断xi,j是否在置信区间内:
若xi,j在置信区间
Figure BDA000019665583000710
内,进入步骤12);
否则xi,j为异常数据,xi,j=0,进入步骤12);
11)判断
Figure BDA000019665583000711
是否在置信区间
Figure BDA000019665583000712
内:
Figure BDA000019665583000713
在置信区间
Figure BDA000019665583000714
内,进入步骤12);
否则
Figure BDA000019665583000715
为异常数据,xi,j=0,进入步骤12);
12)i增加1,返回步骤8);
13)结束异常数据清洗流程,异常数据矩阵X′成为缺失数据矩阵(行数和列数没有改变),进入修复缺失数据流程。
如图4所示,异常数据清洗完成后,缺失数据矩阵中的缺失数据主要分为两类:一类是孤立缺失数据;另一类是连续缺失数据。为了提高数据修复精度,可以采用加权平均法修复孤立缺失数据和指数平滑法修复连续缺失数据。此外,由于考虑到相邻路段日期向量的相关性,即一路段与其上下游路段的相关系数较大,与其平行路段的相关系数较小,且随着路段之间距离的增大,相关系数会随之减少,因此本发明将加权平均法和指数平滑法分别结合路段与其邻接路段的空间相似特性对路段的车速数据进行修复,具体包括以下步骤:
1)初始化日期序号i=1;
2)判断日期序号i>M′是否成立:
若成立,则进入步骤14);
否则进入步骤3);
3)初始化时刻序号j=1;
4)判断j>N是否成立:
若成立,则i增加1,j置为1,返回步骤2);
否则将连续缺失标志E初始化为0,进入步骤5);
5)判断xi,j=0是否成立:
若成立,进入步骤6);
否则j增加1,返回步骤4);
6)判断xi,j-1=0或xi,j+1=0是否成立:
若xi,j-1=0或xi,j+1=0,则xi,j为连续缺失数据,E置为1,进入步骤8);
否则进入步骤7);
7)用加权平均法修复孤立缺失数据,修复公式如下:
x ^ i , j ( m ) = 1 W &Sigma; t = - T &prime; T &prime; w t &CenterDot; x i , j + t (t≠0),
上式中,
Figure BDA00001966558300082
为使用了加权平均法的车速修复结果,其中(m)为一标志,表明该方法为一数学方法修复;wt为加权系数,W为所有加权系数之和,T′为修复数据所用相邻数据的最大间隔;xi,j+t离缺失数据xi,j越远,加权系数wt的值越小,进入步骤10);
8)用指数平滑法修复连续缺失数据,此处采用二次指数平滑法(也可以用三次或四次指数平滑法,不限于此),修复公式如下所示:
x ^ i , j + r ( m ) = a j + b j &CenterDot; r (r=0,1,…,R-1),
上式中,
Figure BDA00001966558300091
为使用了指数平滑法的车速修复结果,其中(m)意义同上,表明该方法为一数学方法;r为缺失数据累计序号,R为连续缺失数据个数,aj,bj为中间变量,分别由下式确定:
a j = 2 Q j ( 1 ) - Q j ( 2 ) b j = &alpha; 1 - &alpha; ( Q j ( 1 ) - Q j ( 2 ) ) ,
上式中,α为平滑系数,α∈(0,1),
Figure BDA00001966558300093
为一次指数平滑值,为二次指数平滑值,其值分别由下式确定:
Q j ( 1 ) = &alpha;x i , j + ( 1 - &alpha; ) Q j - 1 ( 1 )
Q j ( 2 ) = &alpha;Q j ( 1 ) + ( 1 - &alpha; ) Q j ( 2 )
9)初始化r=0,判断E=1是否成立:
若成立,则进入步骤10);
否则R更新为1,进入步骤10);
10)判断r>R-1是否成立:
若成立,则j增加R,返回步骤4);
否则进入步骤11);
11)利用道路邻接路段的空间相似特性修复路段的车速数据,修复方法如下:
x ^ i , j + r ( s ) = &Sigma; h = 1 H &beta; h &CenterDot; x h ( j + r ) r = 0 ( E = 0 ) r = 0,1 , &CenterDot; &CenterDot; &CenterDot; , R ( E = 1 ) ,
上式中,
Figure BDA00001966558300099
为利用了路段空间相似特性的车速修复结果,H为当前修复路段的相邻路段总数,xh(j+r)为当前修复路段的第h条相邻路段j+r时刻的车速数据;当E=0时,也即缺失数据为孤立缺失数据时,r=0;当E=1时,也即缺失数据为连续缺失数据时,r=0,1,…,R;权值系数βh由下式确定:
βh=gh/G(H),
上式中,gh为缺失数据的路段与相邻路段的相关系数,G(H)为缺失数据路段与所有相邻路段的相关系数之和,进入步骤12);
12)根据缺失数据的类型,将相应数学方法的车速修复结果与路段空间相似特性的车速修复结果作加权平均,从而获得缺失数据的最终修复值xi,j+r
x i , j + r = k 1 &CenterDot; x ^ i , j + r ( m ) + k 2 &CenterDot; x ^ i , j + r ( s ) r = 0 ( E = 0 ) r = 0,1 , &CenterDot; &CenterDot; &CenterDot; , R ( E = 1 ) ,
上式中,k1和k2分别为数学方法的车速修复结果和路段空间相似特性的车速修复数据的加权系数;
13)r增加1,返回步骤10);
14)结束修复缺失数据流程,缺失数据矩阵成为噪声数据矩阵X″(行数和列数没有改变),进入修复噪声数据流程。
上述步骤7)中,相邻数据的最大间隔T′可以设定为3,相应的加权系数wt分别取0.7,0.2,0.1。
上述步骤8)中,指数平滑系数α可以取经验值0.5。
上述步骤11)中,gh可以设定为缺失数据矩阵中早于当天所有天数相关系数的均值。
上述步骤12)中,k1和k2可以分别取经验值0.7和0.3。
如图5所示,修复缺失数据完成后,为使浮动车数据的周期性交通特性更加明显,本发明采用主成分重建方法对噪声数据矩阵X″中的噪声数据进行修复,所述噪声数据是指不能反映交通特性的高频扰动。主成分重建方法可以同时处理多日数据,并能利用时间序列的规律性与趋势性,在降低处理的数据量的同时提高数据的处理精度,具体包括以下步骤:
1)更新噪声数据矩阵X″中每个时刻向量Xj的平均值
Figure BDA00001966558300101
并将其代入下式获取噪声数据矩阵X″的协方差矩阵S:
S = 1 N - 1 &Sigma; j = 1 N ( X j - X &OverBar; j ) ( X j - X &OverBar; j ) T
上式中,符号T表示矩阵转置。
2)计算噪声数据矩X″阵的主成分矩阵Y:
Figure BDA00001966558300103
上式中,矩阵U为协方差矩阵S的M′个顺次递减特征值λ1≥λ2≥…≥λm…≥λM’所对应的正交单位特征向量矩阵,其中m为主成分序号。
3)初始化主成分序号m=1,将主成分累积贡献率Z初始化为0;
4)计算主成分矩阵Y的第m主成分贡献率Zm
Z m = &lambda; m / &Sigma; i = 1 M &prime; &lambda; i ,
5)更新主成分累积贡献率Z=Z+Zm
6)将Z与一给定的贡献率阈值Zt进行比较:
若Z>Zt,则进入步骤7);
否则m增加1,返回步骤4);
7)重建数据矩阵XF
上式中,U-1为矩阵U的逆矩阵,前p个主成分贡献率大于Zt,则利用前p个主成分重建数据矩阵;
8)结束,重建数据矩阵XF即为本发明所要获取的浮动车修复数据矩阵。
上述步骤6)中,贡献率阈值Zt可以根据经验设定为95%。
上述各实施例仅用于说明本发明,其中具体实施方式可以有所变换,如将相同日期、不同时刻的车速数据构成原始数据矩阵的列向量,将相同时刻、不同日期的车速数据构成原始数据矩阵的行向量,随后各步骤也随之变换,因此凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。

Claims (7)

1.一种多阈值空间相关的浮动车数据清洗和修复算法,其包括以下步骤:
1)将浮动车采集的一路段若干天的数据合成一原始数据矩阵,所述原始数据矩阵中日期相同、时刻不同的车速数据构成日期向量,时刻相同、日期不同的车速数据构成时刻向量;
2)以天为单位对步骤1)获得的原始数据矩阵中的缺失数据和异常数据进行筛选:
2.1)为原始数据矩阵的每一时刻向量设置一置信区间;
2.2)对每一日期向量中的车速数据进行辨识及过滤:
如果车速数据小于等于零,则作为缺失数据归零;
如果车速数据未在其所在时刻向量的置信区间内,则作为异常数据;
2.3)检验每一日期向量中缺失数据个数,连续缺失数据个数和连续异常数据个数:
如果一日期向量中缺失数据个数大于预设的数据缺失阈值,或者连续缺失数据个数大于预设的数据连续缺失阈值,或者连续异常数据个数大于预设的数据连续异常阈值,则将整个日期向量删除;
所述连续缺失数据是指该缺失数据的前一时刻或后一时刻数据也缺失;所述连续异常数据是指该异常数据的前一时刻或后一时刻数据也异常;
2.4)经过筛选后的原始数据矩阵成为异常数据矩阵;
3)根据三西格玛准则对步骤2)获得的异常数据矩阵中的异常数据进行清洗:
3.1)对异常数据矩阵中的每一时刻向量进行正态分布检验:
如果时刻向量呈非正态分布,则对其实施近似正态变换;
3.2)根据三西格玛准则求出每一时刻向量的置信区间;
3.3)对每一日期向量中的每一车速数据进行辨识:
如果车速数据偏离其所在时刻向量的置信区间,则作为异常数据归零;
3.4)经过清洗后的异常数据矩阵成为缺失数据矩阵;
4)对步骤3)获得的缺失数据矩阵中的缺失数据进行修复:
4.1)对缺失数据矩阵中的每个缺失数据进行判断:
如果缺失数据是孤立缺失数据,用加权平均法修复,进入步骤4.2);
如果缺失数据是连续缺失数据,用指数平滑法修复,进入步骤4.3);
4.2)用路段的空间相似特性修复车速数据,并将其与加权平均法的车速修复结果作加权平均,获得的结果作为孤立缺失数据的最终修复值;
4.3)用路段的空间相似特性修复车速数据,并将其与指数平滑法的车速修复结果作加权平均,获得的结果作为连续缺失数据的最终修复值;
4.4)经过修复后的缺失数据矩阵成为噪声数据矩阵;
5)用主成分重建方法对步骤4)获得的噪声数据矩阵中的噪声数据进行修复:
5.1)计算噪声数据矩阵的主成分矩阵;
5.2)计算主成分累积贡献率;
5.3)当主成分累积贡献率大于给定的贡献率阈值时,用主成分重建方法获得浮动车修复数据矩阵,结束。
2.如权利要求1所述的一种多阈值空间相关的浮动车数据清洗和修复算法,其特征在于:所述步骤2.1)中,每一时刻向量的置信区间的置信度设定为85%,相应的,每一时刻向量的置信区间为
Figure FDA00001966558200021
Figure FDA00001966558200022
为时刻向量的平均值,σj为时刻向量的向量标准差。
3.如权利要求1所述的一种多阈值空间相关的浮动车数据清洗和修复算法,其特征在于,所述步骤4.1)中,所述指数平滑法为二次指数平滑法。
4.如权利要求2所述的一种多阈值空间相关的浮动车数据清洗和修复算法,其特征在于,所述步骤4.1)中,所述指数平滑法为二次指数平滑法。
5.如权利要求1或2或3或4所述的一种多阈值空间相关的浮动车数据清洗和修复算法,其特征在于,所述步骤3.1)中,对非正态分布的时刻向量实施如下的近似正态变换:
x i , j ( &gamma; ) = x i , j &gamma; - 1 &gamma; &gamma; &NotEqual; 0 ln ( x i , j ) &gamma; = 0
上式中,xi,j是近似正态变换前的矩阵元素,
Figure FDA00001966558200024
为近似正态变换后的矩阵元素,γ为正态变换指数因子,γ通过求解下式l(γ)的最大值获得,
l ( &gamma; ) = - M &prime; 2 ln ( 1 M &prime; &Sigma; i = 1 M &prime; ( x i , j ( &gamma; ) - X &OverBar; j ( &gamma; ) ) 2 ) + ( &gamma; - 1 ) &Sigma; i = 1 M &prime; ln ( x i , j ) ,
Figure FDA00001966558200026
是呈近似正态分布的时刻向量Xj (γ)的平均值,
Figure FDA00001966558200027
6.如权利要求1或2或3或4所述的一种多阈值空间相关的浮动车数据清洗和修复算法,其特征在于:所述步骤5.3)中,贡献率阈值为95%。
7.如权利要求5所述的一种多阈值空间相关的浮动车数据清洗和修复算法,其特征在于:所述步骤5.3)中,贡献率阈值为95%。
CN201210273235.9A 2012-08-02 2012-08-02 一种多阈值空间相关的浮动车数据清洗和修复算法 Active CN102819682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210273235.9A CN102819682B (zh) 2012-08-02 2012-08-02 一种多阈值空间相关的浮动车数据清洗和修复算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210273235.9A CN102819682B (zh) 2012-08-02 2012-08-02 一种多阈值空间相关的浮动车数据清洗和修复算法

Publications (2)

Publication Number Publication Date
CN102819682A true CN102819682A (zh) 2012-12-12
CN102819682B CN102819682B (zh) 2015-01-14

Family

ID=47303792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210273235.9A Active CN102819682B (zh) 2012-08-02 2012-08-02 一种多阈值空间相关的浮动车数据清洗和修复算法

Country Status (1)

Country Link
CN (1) CN102819682B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294768A (zh) * 2013-04-23 2013-09-11 税友软件集团股份有限公司 一种异常数据的剔除方法
CN104181883A (zh) * 2014-08-08 2014-12-03 青岛高校信息产业有限公司 实时数据采集系统的异常数据实时处理方法
CN105142164A (zh) * 2015-06-24 2015-12-09 北京邮电大学 待估节点的数据填补方法和装置
CN105868165A (zh) * 2016-04-15 2016-08-17 华中科技大学 一种电站锅炉运行数据清洗方法
CN105930349A (zh) * 2016-04-07 2016-09-07 上海上实龙创智慧能源科技股份有限公司 一种区域建筑能耗平台数据修补方法
CN106023592A (zh) * 2016-07-11 2016-10-12 南京邮电大学 一种基于gps数据的交通拥堵检测方法
CN106096302A (zh) * 2016-06-22 2016-11-09 江苏迪纳数字科技股份有限公司 基于时间和路段相关性的数据修复方法
CN106203741A (zh) * 2016-08-10 2016-12-07 国家电网公司 用于电网负荷预测的多元异质数据清洗方法
CN106570160A (zh) * 2016-11-04 2017-04-19 北方工业大学 一种海量时空数据清洗方法及装置
CN106838872A (zh) * 2017-01-13 2017-06-13 华中科技大学 一种余热锅炉汽水泄漏诊断的数据预处理方法
CN109101619A (zh) * 2018-08-08 2018-12-28 佛山科学技术学院 一种水资源污染大数据分析处理方法及装置
CN109189768A (zh) * 2018-08-08 2019-01-11 佛山科学技术学院 一种复杂制造过程感知数据预处理方法及装置
CN109189773A (zh) * 2018-08-21 2019-01-11 北京睦合达信息技术股份有限公司 一种数据修复方法及装置
CN109472648A (zh) * 2018-11-20 2019-03-15 四川长虹电器股份有限公司 销量预测方法及服务器
CN109656919A (zh) * 2019-03-06 2019-04-19 湖北工业大学 一种基于射频识别技术的数据清洗方法
CN109684320A (zh) * 2018-12-25 2019-04-26 清华大学 监测数据在线清洗的方法和设备
CN109840966A (zh) * 2018-07-24 2019-06-04 上海赢科信息技术有限公司 基于车辆行驶数据清洗的行程划分方法和系统
CN109992579A (zh) * 2019-03-28 2019-07-09 湖北交投智能检测股份有限公司 一种公路基础设施多源异质数据的数据修复方法及系统
CN110070132A (zh) * 2019-04-24 2019-07-30 华中科技大学无锡研究院 风电场scada系统缺失数据修复结果的修正补偿方法
CN110595794A (zh) * 2019-09-02 2019-12-20 清华大学苏州汽车研究院(相城) 一种面向自动驾驶卡车测试的车速数据清洗方法
CN111444400A (zh) * 2020-04-07 2020-07-24 中国汽车工程研究院股份有限公司 力与流场数据管理方法
CN112253236A (zh) * 2020-10-13 2021-01-22 中煤科工集团西安研究院有限公司 利用相关性分析对矿井电法监测数据进行数据清洗的方法
CN112818297A (zh) * 2021-02-05 2021-05-18 国网安徽省电力有限公司合肥供电公司 一种云环境下数据异常检测方法
CN113112819A (zh) * 2021-03-26 2021-07-13 华南理工大学 一种基于改进lstm的图卷积交通速度预测方法
CN114422875A (zh) * 2021-12-29 2022-04-29 广东柯内特环境科技有限公司 一种环境信息采集终端
CN115158271A (zh) * 2022-05-24 2022-10-11 广州南科铁路器材有限公司 一种制动铁路机车车辆的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090037465A1 (en) * 2007-07-31 2009-02-05 Lukas Michael Marti Method of improving database integrity for driver assistance applications
CN101950477A (zh) * 2010-08-23 2011-01-19 北京世纪高通科技有限公司 一种交通信息处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090037465A1 (en) * 2007-07-31 2009-02-05 Lukas Michael Marti Method of improving database integrity for driver assistance applications
CN101950477A (zh) * 2010-08-23 2011-01-19 北京世纪高通科技有限公司 一种交通信息处理方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘春等: "浮动车数据缺失道路的速度推估模型与实现", 《同济大学学报(自然科学版)》 *
周舒杰等: "面向道路网的浮动车最小覆盖率模型", 《重庆工学院学报(自然科学版)》 *
李清泉等: "面向道路网的GPS浮动车覆盖率模型研究", 《武汉大学学报(信息科学版)》 *
郭璘等: "浮动车样本规模的优化方法与仿真研究", 《系统仿真学报》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294768B (zh) * 2013-04-23 2016-12-28 税友软件集团股份有限公司 一种异常数据的剔除方法
CN103294768A (zh) * 2013-04-23 2013-09-11 税友软件集团股份有限公司 一种异常数据的剔除方法
CN104181883A (zh) * 2014-08-08 2014-12-03 青岛高校信息产业有限公司 实时数据采集系统的异常数据实时处理方法
CN105142164B (zh) * 2015-06-24 2018-10-30 北京邮电大学 待估节点的数据填补方法和装置
CN105142164A (zh) * 2015-06-24 2015-12-09 北京邮电大学 待估节点的数据填补方法和装置
CN105930349A (zh) * 2016-04-07 2016-09-07 上海上实龙创智慧能源科技股份有限公司 一种区域建筑能耗平台数据修补方法
CN105930349B (zh) * 2016-04-07 2019-03-22 上海上实龙创智慧能源科技股份有限公司 一种区域建筑能耗平台数据修补方法
CN105868165A (zh) * 2016-04-15 2016-08-17 华中科技大学 一种电站锅炉运行数据清洗方法
CN105868165B (zh) * 2016-04-15 2018-06-12 华中科技大学 一种电站锅炉运行数据清洗方法
CN106096302A (zh) * 2016-06-22 2016-11-09 江苏迪纳数字科技股份有限公司 基于时间和路段相关性的数据修复方法
CN106023592A (zh) * 2016-07-11 2016-10-12 南京邮电大学 一种基于gps数据的交通拥堵检测方法
CN106203741A (zh) * 2016-08-10 2016-12-07 国家电网公司 用于电网负荷预测的多元异质数据清洗方法
CN106203741B (zh) * 2016-08-10 2020-02-21 国家电网公司 用于电网负荷预测的多元异质数据清洗方法
CN106570160A (zh) * 2016-11-04 2017-04-19 北方工业大学 一种海量时空数据清洗方法及装置
CN106838872A (zh) * 2017-01-13 2017-06-13 华中科技大学 一种余热锅炉汽水泄漏诊断的数据预处理方法
CN109840966B (zh) * 2018-07-24 2022-02-18 上海赢科信息技术有限公司 基于车辆行驶数据清洗的行程划分方法和系统
CN109840966A (zh) * 2018-07-24 2019-06-04 上海赢科信息技术有限公司 基于车辆行驶数据清洗的行程划分方法和系统
CN109189768A (zh) * 2018-08-08 2019-01-11 佛山科学技术学院 一种复杂制造过程感知数据预处理方法及装置
CN109101619A (zh) * 2018-08-08 2018-12-28 佛山科学技术学院 一种水资源污染大数据分析处理方法及装置
CN109189773B (zh) * 2018-08-21 2020-10-20 北京睦合达信息技术股份有限公司 一种数据修复方法及装置
CN109189773A (zh) * 2018-08-21 2019-01-11 北京睦合达信息技术股份有限公司 一种数据修复方法及装置
CN109472648A (zh) * 2018-11-20 2019-03-15 四川长虹电器股份有限公司 销量预测方法及服务器
CN109684320B (zh) * 2018-12-25 2020-09-15 清华大学 监测数据在线清洗的方法和设备
CN109684320A (zh) * 2018-12-25 2019-04-26 清华大学 监测数据在线清洗的方法和设备
CN109656919A (zh) * 2019-03-06 2019-04-19 湖北工业大学 一种基于射频识别技术的数据清洗方法
CN109992579A (zh) * 2019-03-28 2019-07-09 湖北交投智能检测股份有限公司 一种公路基础设施多源异质数据的数据修复方法及系统
CN110070132A (zh) * 2019-04-24 2019-07-30 华中科技大学无锡研究院 风电场scada系统缺失数据修复结果的修正补偿方法
CN110070132B (zh) * 2019-04-24 2022-06-10 华中科技大学无锡研究院 风电场scada系统缺失数据修复结果的修正补偿方法
CN110595794A (zh) * 2019-09-02 2019-12-20 清华大学苏州汽车研究院(相城) 一种面向自动驾驶卡车测试的车速数据清洗方法
CN111444400A (zh) * 2020-04-07 2020-07-24 中国汽车工程研究院股份有限公司 力与流场数据管理方法
CN112253236A (zh) * 2020-10-13 2021-01-22 中煤科工集团西安研究院有限公司 利用相关性分析对矿井电法监测数据进行数据清洗的方法
CN112253236B (zh) * 2020-10-13 2022-09-23 中煤科工集团西安研究院有限公司 利用相关性分析对矿井电法监测数据进行数据清洗的方法
CN112818297A (zh) * 2021-02-05 2021-05-18 国网安徽省电力有限公司合肥供电公司 一种云环境下数据异常检测方法
CN112818297B (zh) * 2021-02-05 2024-02-20 国网安徽省电力有限公司合肥供电公司 一种云环境下数据异常检测方法
CN113112819A (zh) * 2021-03-26 2021-07-13 华南理工大学 一种基于改进lstm的图卷积交通速度预测方法
CN114422875A (zh) * 2021-12-29 2022-04-29 广东柯内特环境科技有限公司 一种环境信息采集终端
CN114422875B (zh) * 2021-12-29 2024-03-15 广东柯内特环境科技有限公司 一种环境信息采集终端
CN115158271A (zh) * 2022-05-24 2022-10-11 广州南科铁路器材有限公司 一种制动铁路机车车辆的方法

Also Published As

Publication number Publication date
CN102819682B (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
CN102819682A (zh) 一种多阈值空间相关的浮动车数据清洗和修复算法
CN106875314A (zh) 一种城市轨道交通线网客流od动态估计方法
CN108388957B (zh) 一种基于多特征融合技术的中小河流洪水预报方法及其预报系统
CN104217002A (zh) 一种基于高质量数据获取的路况信息填补方法
CN103577694A (zh) 一种基于多尺度分析的水产养殖水质短期组合预测方法
CN105303311B (zh) 基于数据包络分析的评估指标选取方法及装置
CN109213755A (zh) 一种基于时空序列的交通流数据清洗与修复方法
CN103310699A (zh) 一种提取道路的线形参数的方法
CN106295899A (zh) 基于遗传算法与支持向量分位数回归的风电功率概率密度预测方法
CN104156943B (zh) 基于非支配邻域免疫算法的多目标模糊聚类图像变化检测方法
CN101237524B (zh) 一种保留高频信息的图像噪声去除方法
CN103116747A (zh) 自动识别玉米茎叶图像的方法和系统
CN106909616B (zh) 基于信息熵的多目标水文站网优化方法
CN108877225A (zh) 交通流量指数确定方法及装置
CN108801568A (zh) 一种桥梁动挠度降噪方法及系统
CN114549561B (zh) 清扫车清扫刷运行防护方法
CN103778306B (zh) 一种基于ei和逐步消减法的传感器优化布设方法
CN113985406A (zh) 一种海上雷达目标航迹拼接方法
CN104899592A (zh) 一种基于圆形模板的道路半自动提取方法及系统
CN117831301A (zh) 一种结合三维残差卷积神经网络和时空注意力机制的交通流量预测方法
KR101585545B1 (ko) 조류 대증식을 예측하기 위한 웨이블릿 기반 자동회귀 퍼지 모델링 방법
CN104112074B (zh) 基于直觉模糊集的纳税人利益关联度评估方法
CN102998655A (zh) 一种合成孔径雷达扫描工作模式最优波位选择方法
CN117273369A (zh) 一种有限预算约束下路网养护决策优化方法和系统
CN115278263B (zh) 一种高效的大数据实时传输方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant