发明内容
本发明的目的是提供一种交通流数据质量控制方法,通过本方法对大范围、实时的错误数据和丢失数据进行修正。
为了达到上述目的,本发明的技术方案是提供了一种道路连续交通流数据质量控制方法,其特征在于:步骤为:
步骤1、将一天24小时划分为不同的时刻t,在每个时刻t实时读取通过各固定式交通数据采集设备采集到的原始交通流数据,该原始交通流数据包括时间、当前固定式交通数据采集设备的编号、流量Q、速度V及占有率Occ;
步骤2、识别出当前时刻t所述原始交通流数据中的丢失数据及无效数据,并将丢失数据及无效数据所对应的固定式交通数据采集设备定义为目标设备i,m个固定式交通数据采集设备与该目标设备i相邻;
步骤3、利用历史同期分布值和相邻设备数据补齐丢失数据及无效数据,其步骤为:
步骤3.1、分别计算每个固定式交通数据采集设备在历史数据中的一个时间跨度内每个时刻流量Q、速度V或占有率Occ的历史均值;
步骤3.2、计算所述目标设备i与每个所述相邻设备之间的相关系数、斜率及截距,其中所述目标设备i与第i个相邻设备之间的相关系数为Rij,斜率为aij,截距为bij,则
其中:
将一天24小时以至少2分钟为时间步长划分为不同时刻t1,X(i,t1,d)表示在所述时间跨度内目标设备i在第d天时刻t1的流量Q、速度V或占有率Occ,Y(j,t1,d)表示在所述时间跨度内与目标设备i相邻的第j个相邻设备在第d天时刻t1的流量Q、速度V或占有率Occ,M为所述时间跨度的总天数,N为一天内的时刻t1的总个数;
步骤3.3、对所述目标设备i的丢失数据或无效数据x(i,t,d)进行修补,其中x(i,t,d)表示目标设备i当前日期d当前时刻t丢失的流量Q、速度V或占有率Occ,则利用下列公式对x(i,t,d)进行修补:
其中,
表示目标设备i与当前日期d当前时刻t所对应的历史均值,
表示与目标设备i相邻的第j个固定式交通数据采集设备在当前日期d当前时刻t的流量Q、速度V或占有率Occ的估计值,
x(j,t,d)为设备j在当前日期d当前时刻t的流量Q、速度V或占有率,R
ij为目标设备i与第j个固定式交通数据采集设备之间的相关系数,l为加权权重,若目标设备i的流量Q、速度V或占有率Occ更多得取决于历史的流量Q、速度V或占有率Occ,则加权权重l取超过0.5的实数,若目标设备i的流量Q、速度V或占有率Occ更多得取决于与其相邻的固定式交通数据采集设备的流量Q、速度V或占有率Occ,则加权权重l取小于0.5的实数,若历史的流量Q、速度V或占有率Occ及与目标设备i相邻的固定式交通数据采集设备的流量Q、速度V或占有率Occ对目标设备i的流量Q、速度V或占有率Occ影响相同,则加权权重l取0.5。
本发明的优点是:充分依托现有数据库存储的海量数据,利用交通数据之间的时空关系,以统计方法和交通流理论,对故障设备和实时数据数据质量有效性进行识别和修补,能够确保实时数据的有效性和完整性,为采集设备维护、交通监控和诱导等各种离线和实时应用提供数据支撑。
具体实施方式
为使本发明更明显易懂,兹选一实施示例,并配合附图作详细说明如下。在下面文字中所记录的交通参数是指流量Q、速度V或占有率Occ中的一种。同时,在本实施例中,固定式交通数据采集设备一律采用线圈,本领域技术人员也可以采用其他设备来代替线圈,只要该设备能够以不影响道路交通的方式固定在道路上,并能够采集时间、编号、流量Q、速度V及占有率Occ等基本的交通流数据信息即可。
在详细介绍本实施例之前,先结合图1对本发明中所使用本领域技术人员的已知概念做出介绍,即断面及封闭断面(closed section)。如图1所示,为一具有一上匝道1及一下匝道2的三车道高速3,在上匝道1、下匝道2及主线的每条车道内都预埋有多个线圈4,相邻车道的线圈4并排排列,组成了一个断面,由多个断面又组成了一个封闭断面。封闭断面的划分依据是,其进入封闭断面的流量应该等于出封闭断面的流量,如图1所示,序号5至序号8指向的虚线框即为一个封闭断面,该封闭断面的进口处的断面即为上游断面,相应的,其出口处的断面即为下游断面。在道路进行建设时,便会在其中预埋线圈4,当道路建设完毕后,由于线圈4的位置已经完全确定了,因此,断面以及封闭断面也就已经确定了。
在对本发明所使用的一些基础概念做出解释后,下面以一优选实施例详细介绍本发明。
本发明提供了一种道路连续交通流数据质量控制方法,步骤为:
步骤1、将一天24小时以相同的步长划分为不同的时刻t,在本实施例中的步长取为20s、2mim和15min三种方式,当然本领域技术人员也可以根据需要以其他步长来对一天24小时进行划分,或者以不同步长对一天24小时进行划分。如果按照20s划分方式,那么第一个时刻为0时0分20秒,第二个时刻为0时0分40秒,……,以此类推,从而将一天24小时划分为4320个时刻。在每个时刻t实时读取通过各线圈采集到的原始交通流数据,该原始交通流数据包括时间、当前线圈的编号、流量Q、速度V及占有率Occ。
在道路开始投入使用的第一年,将上述的原始交通流数据存入数据库中,作为历史数据以备后续步骤中使用。数据库到底记录多少时间跨度内的数据是根据线圈来定的,如果预埋的线圈在1年后会出现损坏的情况,那么就以一年为时间跨度,如果预埋的线圈在半年后就会出现损坏的情况,那么就以半年为时间跨度,以此类推。
步骤2、识别出当前时刻t原始交通流数据中的丢失数据及无效数据,并将丢失数据及无效数据所对应的固定式交通数据采集设备定义为目标设备i,m个固定式交通数据采集设备与该目标设备i相邻。本步骤的具体实现方法是多种多样的,如在专利号为ZL
200510011205,名称为《一种道路交通流数据质量控制方法与装置》中,记载了识别原始交通流数据中的丢失数据及无效数据的方法,而在本实施例中,具体采用下列步骤来实现:
步骤2.1、根据历史数据计算某个时间段内每个时刻t2的每个封闭断面的上游断面的流量与下游断面的流量的绝对百分比误差,并统计在该时间段内绝对百分比误差的分布,根据该分布判断每个封闭断面是否流量守恒。其中,由于需要判断每个封闭断面是否流量守恒,其时间步长必须具有一定的跨度,该跨度至少为15min,若在步骤1中的步长取为15min,那么在本步骤中就不需要重新对时间进行划分,若在步骤1中的步长取为20s或2min,那么在本步骤中就需要将一天24小时以至少15分钟为时间步长划分为不同时刻t2,在本实施例中,本步骤的时间步长就取为最小值,即15分钟。
根据统计,对于上海而言,一天中流量较大的时间为上午5点至晚上的23点,在本实施例中就取这个时间段。显而易见,由于不同城市的交通状况各不相同,因此,本领域技术人员可以根据本城市的交通状况,选择不同的时间段。对于本实施例而言,计算历史数据中任意一天的上午5点至晚上的23点内每个时刻t2的每个封闭断面的上游断面的流量与下游断面的流量的绝对百分比误差。针对,图1所示的道路而言,对于序号5指向的封闭断面,其上游断面由上匝道断面及上游主线断面组成,其下游断面即为主线下游断面,因此,其在时刻t的绝对百分比误差ε(t2)为:
其中,i是上游主线断面编号,j是下游主线断面编号,m是上匝道断面编号,Q
in(i,m,t
2)=Q(i,t
2)+Q(m,t
2),Q(i,t
2)为上游主线断面i在时刻t
2的流量,Q(m,t
2)为上匝道断面m在时刻t
2的流量,Q
out(j,n,t
2)=Q(j,t
2),Q(j,t
2)为下游主线断面i在时刻t
2的流量。
随后统计在上午5点至晚上的23点内对百分比误差ε(t2)的分布,如果绝对百分比误差ε(t2)大于10%的比例大于15%,则判别该封闭断面的流量不守恒,否则,判别该封闭断面的流量守恒。上述判别能量是否守恒的比例是针对上海而言,本领域技术人员也可以根据不同城市通过有限次的试验来调整上述比例。
步骤2.2、识别每个断面内是否存在可疑的线圈。通过对存在故障的固定式交通数据采集设备反馈回的信息进行分析,本领域技术人员在本发明专利申请之前就已经归纳了一张将不同错误信息进行归类的表格,具体如表1所示:
表1
通过标定阈值可以将某一个线圈判定为可疑线圈,具体如表2所示:
故障类型 |
统计时段 |
时间步长 |
个数(需根据地点特征调整) |
D1 |
5:00->23:00 |
20s |
>经验阈值T1条 |
D2 |
5:00->23:00 |
20s |
>经验阈值T2条 |
D3 |
5:00->23:00 |
20s |
>经验阈值T3条 |
表2
即,在上午5点至晚上的23点内,线圈故障类型数据特征统计值超过经验阈值T1条D1故障信息、或超过经验阈值T2条D2故障信息、或超过经验阈值T3条D3故障信息,则将该线圈判定为可疑,其中,经验阈值T1、经验阈值T2及经验阈值T3根据不同城市、不同道路交通状况,根据试验得到的数值,对于上海而言,其经验阈值T1、经验阈值T2及经验阈值T3可以分别取为1200、200及200。
步骤2.3、根据每个断面所对应的封闭断面是否至少有一个流量守恒及每个断面是否包含有可疑的线圈综合判断每个固定式交通数据采集设备是否损坏,具体对应关系如表3所示:
表3
步骤2.4、对判定为故障的固定式交通数据采集设备所采集的数据全部判定为无效,对识别为正常的固定式交通数据采集设备所采集的数据进行实时判别,识别出丢失数据及无效数据。
现有的交通信息采集技术已经实现数据采集端和数据库时间的同步机制,因此可以直接对数据丢失进行判别。
无效数据的识别方法也是多种多样的,本实施例采用的具体步骤为:
首先根据阈值理论设定流量Q、速度V及占有率Occ的经验阈值,将超出该阈值的数据判定为无效,阈值理论为本领域技术人员的常用手段,而经验阈值也是针对不同城市的不同道路有着不同的设定值,在本实施例中,其经验阈值为:
交通量Q:2分钟内的车道总流量大于100辆;
速度V:2分钟内的平均速度大于120公里/小时;
占有率Occ:2分钟内的持续大于100%。
随后,根据定流量Q、速度V及占有率Occ的三参数组合关系,得到无效数据及除无效数据外的待定数据,对于待定数据一律判定为有效,或采用下列方法进行判别,其中,三参数组合关系在本发明专利之前,本领域技术人员已经将其归纳成表4:
其中,序号1、3及8为待定数据,其余皆为无效数据。针对流量Q、速度V及占有率Occ全为0的待定数据,判断与待定数据所在车道同一断面的相邻车道的在与待定数据相同时刻的流量Q中的最大值是否不小于30,若是,则该条待定数据无效,否则,该条待定数据有效,对于待定数据一律判定为有效,或采用下列方法进行判别:
针对流量Q=0、速度V=0及95<占有率Occ≤100的待定数据,即表4中的序号1,判断与待定数据所在车道同一断面的相邻车道的在与待定数据相同时刻的流量Q中的最大值是否不小于30,或者占有率Occ中的最大值是否不大于40%,若是,则该条待定数据无效,否则,该条待定数据有效;
针对流量Q=0、速度V=0及95<占有率Occ≤100的待定数据,即表4中的序号3,判断与待定数据所在车道同一断面的相邻车道的在与待定数据相同时刻的流量Q中的最大值是否不小于30,或者占有率Occ中的最大值是否不大于40%,若是,则该条待定数据无效,否则,该条待定数据有效;
针对速度V及占有率Occ不等于0且1≤流量Q<100的待定数据,即表4中的序号8,首先判断占有率Occ是否大于40%,或速度V是否小于20km/h,若否,则判断计算有效车长
若
不大于2.5米或
不小于18米,则该条待定数据无效,否则,该条待定数据有效;
若是,则判断与待定数据所在车道同一断面的相邻车道的在与待定数据相同时刻的占有率Occ中的最小值是否不大于20%,或速度V中的最大值是否不小于30km/h,若是,则该条待定数据无效,否则,该条待定数据有效。
步骤3、利用历史同期分布值和相邻设备数据补齐丢失数据及无效数据,其步骤为:
步骤3.1、分别计算每个线圈在历史数据中的一个时间跨度内每个时刻交通参数的历史均值,由于本实施例中步骤1所述的理由,该时间跨度取为1年。该历史均值有两种计算方式,一种是将一年内的每一天按照星期一至星期天的类别进行划分,那么第h个线圈的历史均值
的计算公式为:
其中,
表示第h个线圈在一年内在星期d的时刻t所得到交通参数的历史均值,x(h,t,k)表示第h个线圈在一年内第k个星期d的时刻t所得到的交通参数,n表示在该时间跨度内星期d的个数;
另一种是将一年内的每一天按照工作日、双休日及节假日分为三类,那么第h个线圈的历史均值
的计算公式为:
其中,K表示类别,r表示在一年内属于第K类日期的某一日期,P表示在所述时间跨度内K类日期的总数量,
表示第h个线圈属于第K类日期的时刻t的交通参数的历史均值,x(h,t,r)第h个线圈在日期r时刻t的交通参数。
步骤3.2、计算所述目标设备i与每个所述相邻设备之间的相关系数、斜率及截距,其中所述目标设备i与第i个相邻设备之间的相关系数为Rij,斜率为aij,截距为bij,则
其中:
将一天24小时以至少2分钟为时间步长划分为不同时刻t1,X(i,t1,d)表示在一年内目标设备i在第d天时刻t1的流量Q、速度V或占有率Occ,Y(j,t1,d)表示在一年内与目标设备i相邻的第j个相邻设备在第d天时刻t1的流量Q、速度V或占有率Occ,M为一年的总天数,即为365,N为一天内的时刻t1的总个数,即为720个;
步骤3.3、对目标设备i的丢失数据或无效数据x(i,t,d)进行修补,其中x(i,t,d)表示目标设备i当前日期d当前时刻t丢失的流量Q、速度V或占有率Occ,则利用下列公式对x(i,t,d)进行修补:
其中,
表示目标设备i与当前日期d当前时刻t所对应的历史均值,在步骤3.1中提供了两种不同的算法,当采用第一种算法时,
表示与前日期d当前时刻t所对应的相同星期数相同时刻t的历史均值,当采用第二种算法时,
表示与前日期d当前时刻t所对应的相同类别的日期的相同时刻t的历史均值。
表示与目标设备i相邻的第j个固定式交通数据采集设备在当前日期d当前时刻t的流量Q、速度V或占有率Occ的估计值,
x(j,t,d)为设备j在当前日期d当前时刻t的交通参数,l为加权权重,若目标设备i的流量Q、速度V或占有率Occ更多得取决于历史的流量Q、速度V或占有率Occ,则加权权重l取超过0.5的实数,若目标设备i的流量Q、速度V或占有率Occ更多得取决于与其相邻的固定式交通数据采集设备的流量Q、速度V或占有率Occ,则加权权重l取小于0.5的实数,若历史的流量Q、速度V或占有率Occ及与目标设备i相邻的固定式交通数据采集设备的流量Q、速度V或占有率Occ对目标设备i的流量Q、速度V或占有率Occ影响相同,则加权权重l取0.5。本领域技术人员根据加权权重l的上述特点,结合特定城市的特定道路的特点,通过有限次的试验可以得到加权权重l的具体数值,在本实施例中,针对上海的道路状况,可以将加权权重l取为0.4。
如图2至图4所示,分别为采用本发明提供的方法后,流量、速度及占有率的原始数据与修复后数据对比图。