CN109213755A - 一种基于时空序列的交通流数据清洗与修复方法 - Google Patents
一种基于时空序列的交通流数据清洗与修复方法 Download PDFInfo
- Publication number
- CN109213755A CN109213755A CN201811194158.1A CN201811194158A CN109213755A CN 109213755 A CN109213755 A CN 109213755A CN 201811194158 A CN201811194158 A CN 201811194158A CN 109213755 A CN109213755 A CN 109213755A
- Authority
- CN
- China
- Prior art keywords
- data
- traffic flow
- flow
- density
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000004140 cleaning Methods 0.000 title claims abstract description 57
- 230000008439 repair process Effects 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000005540 biological transmission Effects 0.000 claims description 36
- 238000013500 data storage Methods 0.000 claims description 34
- 230000002159 abnormal effect Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000005259 measurement Methods 0.000 claims description 16
- 230000026676 system process Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 239000000523 sample Substances 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 6
- 230000000903 blocking effect Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 7
- 230000008859 change Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004656 cell transport Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Landscapes
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于时空序列的交通流数据清洗与修复方法,包括以下步骤:对实时接收到的交通流信息按照固定格式存储于脏数据存储模块;采用数据清洗模块对脏数据存储模块内的交通流信息进行清洗得到清洗后的数据;采用数据修复模块对清洗后的数据建模并进行数据修复,得到修复数据;将修复数据存储于干净数据存储模块。本发明通过简化交通流数据清洗过程,采用时间与空间并行分析方法,将细胞传输模型与卡尔曼滤波算法运用于交通流数据修复,方便、快捷、准确的进行交通流数据清洗、处理及修复工作,提高数据的准确性。
Description
技术领域
本专利涉及数据清洗和修复领域,尤其是一种基于时空序列的交通流数据清洗与修复方法。
背景技术
时空数据结构复杂且来源多样,在充分理解了时间数据、空间数据的特征、属性及他们之间的关联关系的基础上,进行有效整合、清洗和修复不同来源的时空数据,使得他们可以清楚的反应数据变化的规律。
道路监测系统监测得到的数据信息对交通项目设计与评价等起着至关重要的作用,其监测统计数据的准确性直接关系到未来决策的方向。目前的道路交通监测系统主要采用检测线圈以及视频监视设备等对道路交通数据进行统计,由于设备的老化,软件的故障等因素常会发生统计结果的错误,很可能导致以数据为研究基础的其他分析无法进行或分析结果错误,异常点对整个数据的趋势和周期的观察以及模型的建立造成了很大的影响,同时,交通数据的缺失也是一种常见的数据现象,这对于实际的科学研究有着很大的阻碍。
交通数据是具有很强的时间相关性与空间相关性的数据,采用常用的单纯基于数学理论的方法往往疏忽了其交通特性。而对交通数据异常数据处理的方法研究中,学者们已经从交通特性的角度出发考虑问题数据,并常以不同分析方法的合理集成,来削弱单一方法在数据修正效果上存在的不稳定性,但大部分的研究成果多数表现于处理方法的多样性上,而对交通数据的特性分析稍显单一,对交通数据的时间与空间相关性相结合的考虑尚有所欠缺。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提出提出一种基于时空序列的交通流数据清洗与修复方法,修复后的数据经过校正后,数据将更加的精确,故数据的清洗和修复对后续数据的运用有着无法替代的作用、交通数据的预处理过程具有重要意义。
为了达到上述目的,本发明采用以下技术方案予以实现:
一种基于时空序列的交通流数据清洗与修复方法,包括以下步骤:
对实时接收到的交通流信息按照固定格式存储于脏数据存储模块;
采用数据清洗模块对脏数据存储模块内的交通流信息进行清洗得到清洗后的数据;
采用数据修复模块对清洗后的数据建模并进行数据修复,得到修复数据;
将修复数据存储于干净数据存储模块。
作为本发明的进一步的技术方案为:所述对实时接收到的交通流信息按照固定格式存储于脏数据存储模块;具体包括:在待检测道路上间隔设置交通流探测器,通过交通流探测器对道路上的交通流进行检测,并将检测数据存储于脏数据存储模块。
作为本发明的进一步的技术方案为:采用数据清洗模块对脏数据存储模块内的交通流信息进行清洗得到清洗后的数据;具体包括:数据清洗模块对脏数据存储模块内的交通流信息进行数据运算转换,确定异常点并去除;其中,
所述数据运算转换,具体包括:
将占有率转换为密度,算法如下:
因为
所以占有率与密度之间的关系是:
o=(Lv+Ld)ρ;
因此密度公式为:
其中Lv是车辆的平均长度,Ld是探测器的长度,Δt是样本时间,n是在时间间隔中通过探测器的车辆数,v是车辆的速度,o是占有率,f是车流量,ρ是道路交通流的密度。
进一步的,所述确定异常点并去除,具体为:在数据运算转换的过程中,采用阈值法对异常点进行确定并清除。
作为本发明的进一步技术方案为:所述采用数据修复模块对清洗后的数据建模并进行数据修复,得到修复数据;具体包括:
确定交通流参数;
根据交通流参数建立细胞传输模型;
通过细胞传输模型修复缺失数据;
对缺失数据进行矫正得到修复数据。
进一步的,所述确定交通流参数,包括:
将待检测道路分为长度不等的细胞,每个细胞的长度均不小于车辆在一个时间步长内自由流速度通过的距离;
通过对交通探测器检测的道路密度和流量信息进行处理获得细胞的道路状态参数。
更进一步的,所述通过对道路探测器检测的道路密度和流量信息进行处理获得细胞的道路状态参数,具体包括:对道路上畅通部分的拟合和对道路上堵塞部分的拟合;其中,
对道路上畅通部分的拟合,具体包括:
筛选一天中所有密度和流量的数据中速度大于设定值的点;
并将对应点的密度和流量数据保存到第一矩阵中,将剩下的点保存到第二矩阵中;
将第一矩阵中的密度和流量做过原点的最小二乘法拟合得到畅通图线;
取第一矩阵中流量最大的点作为最大容量的线所过的点,画出最大容量图线;
对道路上阻塞部分的拟合,具体为:
将第二矩阵中按密度进行升序排序,并且把每个密度对应的流量位置也进行调整;
将排序好的数据进行分组,每10个数据为一组,然后对流量排序并对其密度位置进行调整;
选取这10个流量数据中最大的一个流量,并且最大的流量小于Q3+1.5IQR,如果最大的流量不小于则选取倒数第二大的,即:
Bin={f1,f2,…,f10};
然后将得到的每个组中得到的流量与其对应密度进行过畅通图线和最大容量图线交叉点的最小二乘法拟合。
进一步的,所述根据交通流参数建立细胞传输模型;具体为:在确定交通流参数的基础上,细胞i在时间步长为k+1时的密度可以根据时间步长为k时的密度通过以下的公式更新得到:
其中,Δt为建模的时间步长长度;Δxi为细胞i的长度;fi(k)为在时间步长k期间从细胞i流出的流量;ρi(k)为时间步长k期间细胞i的车辆密度;ri(k)为入口匝道流入的流量;si(k)为出口匝道流出的流量;vi为自由流速度;wi为反向波速度;Qi为细胞i的流量最大容纳量;为细胞i+1的阻塞密度。
进一步的,所述通过细胞传输模型修复缺失数据;具体为:
首先选取数据中缺失的部分,确定缺失数据所在的道路位置以及数据对应的时间步长范围,选取大于数据缺失部分范围的道路长度和时间步长;
确定处于细胞传输模型的首个细胞,并且将流入首个细胞一定时间范围内的流量依次记录下来,同时确定入口匝道和出口匝道流入流出的比例;
按照细胞密度和流量更新公式依次获得时间步长为(k+1,k+2,…)对应的连续细胞的密度和流量;
对原数据进行扫描找到缺失数据的位置,同时查找缺失数据的修复数据在细胞传输模型获得数据中的对应位置,将缺失的数据用修复数据填补。
作为本发明的进一步技术方案为:所述对缺失数据进行矫正得到修复数据,具体为:采用卡尔曼滤波算法对缺失数据进行矫正得到修复数据;包括以下步骤:
第一步,建立卡尔曼滤波算法的系统过程模型:
X(k)=AX(k-1)+BU(k)+W(k);
Z(k)=HX(k)+V(k);
其中,X(k)是k时刻的系统状态,U(k)是k时刻对系统的控制量。A和B系统参数,对于多模型系统,他们为矩阵;Z(k)是k时刻的测量值,H是测量系统的参数,对于多测量系统,H为矩阵;W(k)为过程噪声,V(k)为测量噪声;
第二步,利用系统过程模型,来预测下一状态的系统得到现在状态的预测结果;
设现在的系统状态是k,根据系统过程模型,基于系统的上一状态而预测出现在的系统状态:
X(k|k-1)=AX(k-1|k-1)+BU(k);
公式中X(k|k-1)是利用上一状态预测k时刻的结果,X(k-1|k-1)是上一状态最优的结果,U(k)为现在状态的控制量,此时X(k|k-1)系统结果已经更新,接下来对X(k|k-1)的协方差进行更新;
P(k|k-1)=AP(k-1|k-1)A′+Q;
公式中,P(k|k-1)是X(k|k-1)对应的协方差,P(k-1|k-1)是X(k-1|k-1)对应的协方差,A′表示A的转置矩阵,Q是系统过程噪声的协方差;
第三步,收集当前状态的测量值,结合现在状态的预测结果,得到现在状态k的最优化估算值X(k|k):
X(k|k)=X(k|k-1)+Kg(k)(Z(k)-HX(k|k-1));
Kg(k)=P(k|k-1)H′/(HP(k|k-1)H′+R);
以上公式中,Kg为卡尔曼增益(Kalman Gain),R为测量噪声的协方差;
其中,卡尔曼滤波器不断的运行下去直到系统过程结束,同时还要更新k状态下X(k|k)协方差:
P(k|k)=(I-Kg(k)H)P(k|k-1);
其中,I为1的矩阵,对于单模型单测量,I=1,当系统进入k+1状态时,P(k|k)就是第二步骤中的P(k-1|k-1)。
本发明的有益技术效果为:
本发明采用了基于时空序列的数据清洗与修复方法,整个过程是四个模块间的相互作用进而达到数据清洗和修复的目的,脏数据存储模块将从交通探测器得到的数据按照原先的格式存储下来,对其内容和格式都不进行处理;数据清洗模块是从脏数据存储模块中提取原始数据、先进行运算转换,然后对异常值进行清洗;数据修复模块包含细胞传输模型建模修复数据和卡尔曼滤波对修复的数据进行过滤,干净数据存储模块是将运算模块得到的处理过的数据按照指定的数据格式存放,此模块中的数据可以供使用者直接使用;本发明将细胞传输模型与卡尔曼滤波算法运用到了交通流数据修复领域,细胞传输模型根据其可以模拟交通流传播情况的特点可以达到数据修复的目的,修复后的数据经过卡尔曼滤波算法校正后,使细胞传输模型仿真得到的修复数据噪声更小,提高数据的准确性。
附图说明
图1为本发明提出的基于时空序列的交通流数据清洗与修复方法流程图;
图2为本发明提出的交通流数据清洗工作流程图;
图3为本发明提出的数据修复模块的数据修复流程图;
图4为本发明提出的细胞传输模型数据拟合流程图;
图5是本发明提出的交通流数据参数图;
图6为本发明提出的交通流数据拟合结果图;
图7是本发明提出的细胞传输模型道路分割图;
图8为本发明提出对缺失数据进行矫正得到修复数据的流程图;
图9是本发明提出卡尔曼滤波流程图。
具体实施方式
下面结合附图及实施例描述本发明具体实施方式:
参见图1,为本发明提出的一种基于时空序列的交通流数据清洗与修复方法流程图。
如图1所示,本发明提出了一种基于时空序列的交通流数据清洗与修复方法,包括以下步骤:
步骤100,对实时接收到的交通流信息按照固定格式存储于脏数据存储模块;
步骤200,采用数据清洗模块对脏数据存储模块内的交通流信息进行清洗得到清洗后的数据;
步骤300,采用数据修复模块对清洗后的数据建模并进行数据修复,得到修复数据;
步骤400,将修复数据存储于干净数据存储模块。
由于环境因素异常,设备故障等原因,同一检测器获得的数据存在无效、冗余、错误丢失、噪声、时间点漂移等现象,通常称这些数据为“脏数据”。为了避免这些脏数据直接进入交通状态的估计、预测与评价,成为制约后续模型应用的瓶颈,影响交通状态的估计、预测与评价的效果,需要对这些数据进行消除噪声、修正错误信息,约减冗余数据,等清理工作,从而提高智能运输系统应用中的数据质量。
本发明提出的一种基于时空序列的交通流数据清洗与修复方法,首先对实时接收到的交通流信息安装固定格式进行存储,将检测到的所有的交通流信息存储于预先设定的脏数据存储模块内,通过数据清洗模块进行清洗,然后通过数据修复模块对清洗后的数据进行修复,最终形成高质量的数据,提高后续交通状态的估计、预测与评价的可靠性与准确性。
通过简化交通流数据清洗过程,采用时间与空间并行分析方法,从而方便、快捷、准确的进行交通流数据清洗、处理及修复工作。改善传统的交通流数据清洗过程,并增加了数据修复功能,改进脏数据清洗时的技术手段,使其能够兼顾算法复杂性与结果精确性。
在交通相关的研究中,脏数据存储模块的数据是不能直接使用的,因此需要经过数据清洗模块的清洗,使其得到符合最后使用数据格式和内容的数据,然后经过数据修复模块对缺失数据的修复,就获得了完整的研究所需要的数据。数据清洗模块首先需要提取与最后干净数据相关的数据,即脏数据存储模块内部存储的交通流信息。
在步骤100中,对实时接收到的交通流信息按照固定格式存储于脏数据存储模块;具体包括:在待检测道路上间隔设置交通流探测器,通过交通流探测器对道路上的交通流进行检测,并将检测数据存储于脏数据存储模块。
在本发明实施例中,脏数据存储模块包含40列数据,其中包含探测器标号、4列地址,日期,时间,车道数目,流量按照车辆长度分类占4列,按照车道统计的流量占7列,速度占7列,占有率占7列,时间间隔占7列;
其中,流量按照车辆长度分类占4列:具体为:长度小于5.2m的是小轿车,5.2-6.6m是大型汽车,6.6-11.6m是紧急载重车辆,大于11.6m的是链接式载重车辆。
参见图2,为本发明提出的交通流数据清洗工作流程图。
如图2所示,基于时空序列的交通流数据清洗与修复方法中包括四个模块,分别为脏数据存储模块、数据清洗模块、数据修复模块、干净数据存储模块;其中脏数据模块中包含探测器序号,日期,时间,按车辆类型分类的车流量,按车道分类的车流量,速度,占有率,时间将等,然后运算模块是从脏数据模块中取出探测器序号、车流量、占有率,运用阈值法或分箱法清洗数据去除异常点,之后再将占有率按照特定的公式转换为密度,将处理后的密度与流量分别存储于两个表中。表格格式如下:
表1
表1是原始数据列详细信息表,第一种流量flow是4种长度不同的车流量,速度speed,流量flow,占有率occupancy,时间间隔headway都是按照车道数来划分的。
表2
表3
表2和表3为数据清洗处理后的所有探测器某天的流量和密度表,行表示每个时间,列表示每个探测器探测是交通量。
在步骤200中,采用数据清洗模块对脏数据存储模块内的交通流信息进行清洗得到清洗后的数据;具体包括:数据清洗模块对脏数据存储模块内的交通流信息进行数据运算转换,确定异常点并去除;其中
所述数据清洗模块对脏数据存储模块内的交通流信息进行数据运算转换,具体包括:
将占有率转换为密度,算法如下:
因为
所以占有率与密度之间的关系是:
o=(Lv+Ld)ρ;
因此密度公式为:
其中Lv是车辆的平均长度,Ld是探测器的长度,Δt是样本时间,n是在时间间隔中通过探测器的车辆数,v是车辆的速度,o是占有率,f是车流量,ρ是道路交通流的密度。
交通基础数据源是进行交通预测、交通行为分析、交通设施设置等的基础,基础数据中存在的异常值会产生两方面的影响,一方面是作为交通预测模型建模的基础数据,干扰了对交通流量变化周期规律的正确认识;另一方面是作为计算得出预测结果的基础前提,对未来发展导向产生了错误的判断,因此对数据中的异常点的清洗就显得尤为重要。对于转换的数据去除异常点,原始数据的脏数据存储模块中很多流量的数据可能由于探测器失灵或者其他的一些原因导致数据出现异常值,在清洗数据时把异常状态的数据删除;然后,清洗异常点,本文提出了两种方法分别是:阈值法和分箱法。
其中,确定异常点并去除,具体为:在数据运算转换的过程中,采用阈值法对异常点进行确定并清除。阈值法是道路上交通检测器采集的交通流数据存在突变点或不符合交通流三要素相互关系,所以要根据阈值理论和交通流理论给定一个规定的范围来判断数据的有效性,在范围中的数据才是合理并且有效的数据,因此限制数据的范围、去除超出范围的异常点。
本发明还提出另一种确定异常点的方法,即在数据运算转换的过程中,采用分箱法对异常点进行确定并清除。
分箱法是对异常数据检测时的主要思想是假设数据集合是一个“大箱子”,把数据集根据统计关系等分为n个区间相等的“分箱”,按照“箱的深度”表示不同箱里有相同个数的数据,用“箱的宽度”来表示每个箱值的取值区间。每个箱中包含最大值、中值、最小值,按箱边界值求得平滑数据值并保存且替换原有箱值,从而对原有集合进行趋向于边界值的放大或缩小,进而可以在数据集的统计规律下得到新的拟合边界,达到异常检测的目的。中值计算方式如下:
其中M为中值。
参见图3,为本发明提出的数据修复模块的数据修复流程图。
如图3所示,采用数据修复模块对清洗后的数据建模并进行数据修复,得到修复数据;具体包括:
步骤301,确定交通流参数;
步骤302,根据交通流参数建立细胞传输模型;
步骤303,通过细胞传输模型修复缺失数据
步骤304,对修复数据进行校正。
本发明实施例中,数据修复模块主要通过细胞传输模型的建立和卡尔曼滤波算法的过滤进行数据修复,将细胞传输模型与卡尔曼滤波算法运用到交通流数据修复领域,可以实现基于时空序列的交通流数据修复,因此可以分别从时间和空间对交通流数据进行处理。细胞传输模型从时间空间两方面模拟了交通流流量与密度的变化从而实现对数据的修复。
为了修复之前清洗数据所造成的缺失本文中使用细胞传输模型构建交通流模型模拟道路中交通流数据变化从而可以将流量和密度的数据补齐,最后使用卡尔曼滤波算法对修复的数据进行处理过滤、通过加权的思想获取最优估计值。
在步骤301中,确定交通流参数,包括:
将待检测道路分为长度不等的细胞,每个细胞的长度均不小于车辆在一个时间步长内自由流速度通过的距离;每个细胞的道路状态可以通过道路状态参数来表示,其中道路状态参数包括畅通速度v,阻塞速度w,最大容量Q,临界密度ρc,阻塞密度ρj;
参见图4,为细胞传输模型数据拟合流程图,从流程图中可以清楚的了解到数据拟合的流程,左半部分是畅通部分的拟合以及最大容纳量图线的绘制,右半部分是阻塞部分的拟合。
图5是本发明提出的交通流数据参数图,图中包括自由流速度,临界密度,最大容纳量,反向波速度,阻塞密度几个参数。
图6是本发明提出的交通流数据拟合结果图。
上述的道路状态参数是通过对该细胞上的交通探测器检测的道路密度和流量信息进行处理获得细胞的道路状态参数;具体包括:对道路上畅通部分的拟合和对道路上堵塞部分的拟合;其中,
对道路上畅通部分的拟合,具体包括:
筛选一天中所有密度和流量的数据中速度大于设定值的点;其中设定值为55mph。
并将对应点的密度和流量数据保存到第一矩阵中,将剩下的点保存到第二矩阵中;
将第一矩阵中的密度和流量做过原点的最小二乘法拟合得到畅通图线;
取第一矩阵中流量最大的点作为最大容量的线所过的点,画出最大容量图线;
对阻塞部分的拟合,具体为:
将第二矩阵中按密度进行升序排序,并且把每个密度对应的流量位置也进行调整;
将排序好的数据进行分组,每10个数据为一组,然后对流量排序并对其密度位置进行调整;
选取这10个流量数据中最大的一个流量,并且最大的流量小于Q3+1.5IQR,如果最大的流量不小于则选取倒数第二大的,即:
Bin={f1,f2,…,f10};
然后将得到的每个组中得到的流量与其对应密度进行过畅通图线和最大容量图线交叉点的最小二乘法拟合。
在步骤302中,细胞传输模型的建模从时间空间两方面模拟了交通流变化,根据交通流参数建立细胞传输模型;具体为:在确定交通流参数的基础上,细胞i在时间步长为k+1时的密度可以根据时间步长为k时的密度通过以下的公式更新得到:
其中,Δt为建模的时间步长长度;Δxi为细胞i的长度;fi(k)为在时间步长k期间从细胞i流出的流量;ρi(k)为时间步长k期间细胞i的车辆密度;ri(k)为入口匝道流入的流量;si(k)为出口匝道流出的流量;vi为自由流速度;wi为反向波速度;Qi为细胞i的流量最大容纳量;为细胞i+1的阻塞密度。
经过细胞传输模型的构建,由公式可以仿真出整个路段各个细胞中某一天的密度和流量变化情况,将细胞传输模型得出的各个细胞各个时间步长的流量和密度分别存储到两个表中,行表示时间步长,列表示每个细胞。
在步骤303中,通过细胞传输模型修复缺失数据;具体为:
首先选取数据中缺失的部分,确定缺失数据所在的道路位置以及数据对应的时间步长范围,选取大于数据缺失部分范围的道路长度和时间步长,即细胞传输模型建立模型的范围大于缺失数据的范围,并且选取范围时,缺失数据周围的交通流处于自由流状态;
然后确定处于细胞传输模型的首个细胞,并且将流入首个细胞一定时间范围内的流量依次记录下来,同时确定入口匝道和出口匝道流入流出的比例;之后,按照上述第二步中所述的细胞密度和流量更新公式依次获得时间步长为(k+1,k+2,…)对应的连续细胞的密度和流量;
最后,对原数据进行扫描找到缺失数据的位置,同时查找缺失数据的修复数据在细胞传输模型获得数据中的对应位置,将缺失的数据用修复数据填补。因此,最后结果就修复了原本数据中缺失的数据。
图7是本发明提出的细胞传输模型道路分割图,将一条路段分割为长度不断的多个细胞,每个细胞长度大于自由流速度与时间步长长度的乘积。细胞上有入口匝道和出口匝道,车流可以从左面第一个细胞和入口匝道进入,可以从出口匝道和右面最后一个细胞流出。
参见图8,为本发明提出对缺失数据进行矫正得到修复数据的流程图。
如图8所示,采用数据修复模块对清洗后的数据建模并进行数据修复,得到修复数据;还包括:
在步骤304中,对缺失数据进行矫正得到修复数据,具体为:采用卡尔曼滤波算法对缺失数据进行矫正得到修复数据,包括以下步骤:
步骤341,建立卡尔曼滤波算法的系统过程模型:
X(k)=AX(k-1)+BU(k)+W(k);
Z(k)=HX(k)+V(k);
其中,X(k)是k时刻的系统状态,U(k)是k时刻对系统的控制量。A和B系统参数,对于多模型系统,他们为矩阵;Z(k)是k时刻的测量值,H是测量系统的参数,对于多测量系统,H为矩阵;W(k)为过程噪声,V(k)为测量噪声;
步骤342,利用系统过程模型,预测下一状态的系统得到现在状态的预测结果;
设现在的系统状态是k,根据系统过程模型,基于系统的上一状态而预测出现在的系统状态:
X(k|k-1)=AX(k-1|k-1)+BU(k);
公式中X(k|k-1)是利用上一状态预测k时刻的结果,X(k-1|k-1)是上一状态最优的结果,U(k)为现在状态的控制量,如果没有控制量,它可以为0。此时X(k|k-1)系统结果已经更新,接下来对X(k|k-1)的协方差进行更新;
P(k|k-1)=AP(k-1|k-1)A′+Q;
公式中,P(k|k-1)是X(k|k-1)对应的协方差,P(k-1|k-1)是X(k-1|k-1)对应的协方差,A′表示A的转置矩阵,Q是系统过程噪声的协方差;
步骤343,收集当前状态的测量值,结合现在状态的预测结果,得到现在状态k的最优化估算值X(k|k):
X(k|k)=X(k|k-1)+Kg(k)(Z(k)-HX(k|k-1));
Kg(k)=P(k|k-1)H′/(HP(k|k-1)H′+R);
以上公式中,Kg为卡尔曼增益(Kalman Gain),R为测量噪声的协方差;
其中,卡尔曼滤波器不断的运行下去直到系统过程结束,同时还要更新k状态下X(k|k)协方差:
P(k|k)=(I-Kg(k)H)P(k|k-1);
其中,I为1的矩阵,对于单模型单测量,I=1,当系统进入k+1状态时,P(k|k)就是步骤342的P(k-1|k-1),最后返回步骤341,总的时间步长为T。
卡尔曼滤波是一种高效率的递归滤波器(自回归滤波器),它能够从一系列的不完全及包含噪声的测量中,估计动态系统的状态。本发明采用卡尔曼滤波来实现对细胞传输模型得出的流量和密度数据的校正。
图9是本发明提出卡尔曼滤波流程图。卡尔曼滤波流程为首先根据前一时刻的状态预测当前时刻的状态,得到预测值并更新当前时刻的协方差,然后计算卡尔曼增益、结合预测值和测量值得到当前时刻的最优估计值,同时更新当前时刻的协方差,最后对时刻k加1进行自回归计算。T表示总的时间步长。
本发明对细胞传输模型得到的数据还要进一步的通过卡尔曼滤波过滤,以获得较为准确的数据修复值。通过数据修复模块得到修复数据,包括流量、密度,使用卡尔曼滤波算法过滤噪声,首先细胞传输模型得到的数据为卡尔曼滤波中的预测数据,脏数据存储模块内部的数据为实验观测数据;然后确定数据修正所需要的噪声和协方差的大小;之后通过给定的参数计算出某一时刻的卡尔曼滤波的卡尔曼增益,并且通过卡尔曼增益和某一时刻的预测值与观测值可以计算出最优化估算值;最后更新某一时刻的协方差,根据此刻的计算结果可以进行自回归算法而得到下一时刻的最优估计值。
本发明首先提取需要的数据去除无效点,然后通过阈值法和分箱法去除异常点,之后对数据进行转换将数据转换为后面需要的数据,最后,使用细胞传输模型建立交通流传播模型修复缺失数据,再通过卡尔曼滤波对数据进行过滤噪音就形成了需要的干净数据。该方法对脏数据处理的结果较好,符合研究时需要达到的数据要求。此外,该方法算法简单,对硬件和工程量要求较低,方便推广。
上面结合附图对本发明优选实施方式作了详细说明,但是本发明不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化,这些变化涉及本领域技术人员所熟知的相关技术,这些都落入本发明专利的保护范围。
不脱离本发明的构思和范围可以做出许多其他改变和改型。应当理解,本发明不限于特定的实施方式,本发明的范围由所附权利要求限定。
Claims (10)
1.一种基于时空序列的交通流数据清洗与修复方法,其特征在于,包括以下步骤:
对实时接收到的交通流信息按照固定格式存储于脏数据存储模块;
采用数据清洗模块对脏数据存储模块内的交通流信息进行清洗得到清洗后的数据;
采用数据修复模块对清洗后的数据建模并进行数据修复,得到修复数据;
将修复数据存储于干净数据存储模块。
2.根据权利要求1所述的一种基于时空序列的交通流数据清洗与修复方法,其特征在于,所述对实时接收到的交通流信息按照固定格式存储于脏数据存储模块;具体包括:在待检测道路上间隔设置交通流探测器,通过交通流探测器对道路上的交通流进行检测,并将检测数据存储于脏数据存储模块。
3.根据权利要求1所述的一种基于时空序列的交通流数据清洗与修复方法,其特征在于,采用数据清洗模块对脏数据存储模块内的交通流信息进行清洗得到清洗后的数据;具体包括:数据清洗模块对脏数据存储模块内的交通流信息进行数据运算转换,确定异常点并去除;其中,
所述数据清洗模块对脏数据存储模块内的交通流信息进行数据运算转换,具体包括:
将占有率转换为密度,算法如下:
因为
所以占有率与密度之间的关系是:
o=(Lv+Ld)ρ;
因此密度公式为:
其中Lv是车辆的平均长度,Ld是探测器的长度,Δt是样本时间,n是在时间间隔中通过探测器的车辆数,v是车辆的速度,o是占有率,f是车流量,ρ是道路交通流的密度。
4.根据权利要求1所述的一种基于时空序列的交通流数据清洗与修复方法,其特征在于,所述确定异常点并去除,具体为:在数据运算转换的过程中,采用阈值法对异常点进行确定并清除。
5.根据权利要求1所述的一种基于时空序列的交通流数据清洗与修复方法,其特征在于,所述采用数据修复模块对清洗后的数据建模并进行数据修复,得到修复数据;具体包括:
确定交通流参数;
根据交通流参数建立细胞传输模型;
通过细胞传输模型修复缺失数据;
对缺失数据进行矫正得到修复数据。
6.根据权利要求5所述的一种基于时空序列的交通流数据清洗与修复方法,其特征在于,所述确定交通流参数,包括:
将待检测道路分为长度不等的细胞,每个细胞的长度均不小于车辆在一个时间步长内自由流速度通过的距离;
通过对交通探测器检测的道路密度和流量信息进行处理获得细胞的道路状态参数。
7.根据权利要求6所述的一种基于时空序列的交通流数据清洗与修复方法,其特征在于,所述通过对道路探测器检测的道路密度和流量信息进行处理获得细胞的道路状态参数,具体包括:对道路上畅通部分的拟合和对道路上堵塞部分的拟合;其中,
对道路上畅通部分的拟合,具体包括:
筛选一天中所有密度和流量的数据中速度大于设定值的点;
并将对应点的密度和流量数据保存到第一矩阵中,将剩下的点保存到第二矩阵中;
将第一矩阵中的密度和流量做过原点的最小二乘法拟合得到畅通图线;
取第一矩阵中流量最大的点作为最大容量的线所过的点,画出最大容量图线;
对道路上阻塞部分的拟合,具体为:
将第二矩阵中按密度进行升序排序,并且把每个密度对应的流量位置也进行调整;
将排序好的数据进行分组,每10个数据为一组,然后对流量排序并对其密度位置进行调整;
选取这10个流量数据中最大的一个流量,并且最大的流量小于Q3+1.5IQR,如果最大的流量不小于则选取倒数第二大的,即:
Bin={f1,f2,…,f10};
将得到的每个组中得到的流量与其对应密度进行过畅通图线和最大容量图线交叉点的最小二乘法拟合。
8.根据权利要求5所述的一种基于时空序列的交通流数据清洗与修复方法,其特征在于,所述根据交通流参数建立细胞传输模型;具体为:在确定交通流参数的基础上,细胞i在时间步长为k+1时的密度可以根据时间步长为k时的密度通过以下的公式更新得到:
其中,Δt为建模的时间步长长度;Δxi为细胞i的长度;fi(k)为在时间步长k期间从细胞i流出的流量;ρi(k)为时间步长k期间细胞i的车辆密度;ri(k)为入口匝道流入的流量;si(k)为出口匝道流出的流量;vi为自由流速度;wi为反向波速度;Qi为细胞i的流量最大容纳量;为细胞i+1的阻塞密度。
9.根据权利要求5所述的一种基于时空序列的交通流数据清洗与修复方法,其特征在于,所述通过细胞传输模型修复缺失数据;具体为:
选取数据中缺失的部分,确定缺失数据所在的道路位置以及数据对应的时间步长范围,选取大于数据缺失部分范围的道路长度和时间步长;
确定处于细胞传输模型的首个细胞,并且将流入首个细胞一定时间范围内的流量依次记录下来,同时确定入口匝道和出口匝道流入流出的比例;
按照细胞密度和流量更新公式依次获得时间步长为(k+1,k+2,…)对应的连续细胞的密度和流量;
对原数据进行扫描找到缺失数据的位置,同时查找缺失数据的修复数据在细胞传输模型获得数据中的对应位置,将缺失的数据用修复数据填补。
10.根据权利要求5所述的一种基于时空序列的交通流数据清洗与修复方法,其特征在于,所述对缺失数据进行矫正得到修复数据,具体为采用卡尔曼滤波算法对缺失数据进行矫正得到修复数据,包括以下步骤:
第一步,建立卡尔曼滤波算法的系统过程模型:
X(k)=AX(k-1)+BU(k)+W(k);
Z(k)=HX(k)+V(k);
其中,X(k)是k时刻的系统状态,U(k)是k时刻对系统的控制量。A和B系统参数,对于多模型系统,他们为矩阵;Z(k)是k时刻的测量值,H是测量系统的参数,对于多测量系统,H为矩阵;W(k)为过程噪声,V(k)为测量噪声;
第二步,利用系统过程模型,来预测下一状态的系统得到现在状态的预测结果;
设现在的系统状态是k,根据系统过程模型,基于系统的上一状态而预测出现在的系统状态:
X(k|k-1)=AX(k-1|k-1)+BU(k);
公式中X(k|k-1)是利用上一状态预测k时刻的结果,X(k-1|k-1)是上一状态最优的结果,U(k)为现在状态的控制量,此时X(k|k-1)系统结果已经更新,接下来对X(k|k-1)的协方差进行更新;
P(k|k-1)=AP(k-1|k-1)A′+Q;
公式中,P(k|k-1)是X(k|k-1)对应的协方差,P(k-1|k-1)是X(k-1|k-1)对应的协方差,A′表示A的转置矩阵,Q是系统过程噪声的协方差;
第三步,收集当前状态的测量值,结合现在状态的预测结果,得到现在状态k的最优化估算值X(k|k):
X(k|k)=X(k|k-1)+Kg(k)(Z(k)-HX(k|k-1));
Kg(k)=P(k|k-1)H′/(HP(k|k-1)H′+R);
以上公式中,Kg为卡尔曼增益,R为测量噪声的协方差;
其中,卡尔曼滤波器不断的运行下去直到系统过程结束,同时更新k状态下X(k|k)协方差:
P(k|k)=(I-Kg(k)H)P(k|k-1);
其中,I为1的矩阵,对于单模型单测量,I=1,当系统进入k+1状态时,P(k|k)就是第二步骤中的P(k-1|k-1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811194158.1A CN109213755B (zh) | 2018-09-30 | 2018-09-30 | 一种基于时空序列的交通流数据清洗与修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811194158.1A CN109213755B (zh) | 2018-09-30 | 2018-09-30 | 一种基于时空序列的交通流数据清洗与修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213755A true CN109213755A (zh) | 2019-01-15 |
CN109213755B CN109213755B (zh) | 2019-09-24 |
Family
ID=64980266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811194158.1A Active CN109213755B (zh) | 2018-09-30 | 2018-09-30 | 一种基于时空序列的交通流数据清洗与修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213755B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947752A (zh) * | 2019-01-28 | 2019-06-28 | 西南民族大学 | 一种基于DeepDive的自动数据清洗方法 |
CN111582593A (zh) * | 2020-05-13 | 2020-08-25 | 山东博依特智能科技有限公司 | 一种基于工业用电大数据的数据清洗的集成方法 |
CN111785014A (zh) * | 2020-05-26 | 2020-10-16 | 浙江工业大学 | 一种基于dtw-rgcn的路网交通数据修复的方法 |
CN112183644A (zh) * | 2020-09-29 | 2021-01-05 | 中国平安人寿保险股份有限公司 | 指标稳定性的监控方法、装置、计算机设备及介质 |
CN113053123A (zh) * | 2021-03-23 | 2021-06-29 | 长安大学 | 一种基于时空大数据的交通量预测方法及装置 |
CN113190997A (zh) * | 2021-04-29 | 2021-07-30 | 贵州数据宝网络科技有限公司 | 一种大数据终端数据修复方法及系统 |
CN113515512A (zh) * | 2021-06-22 | 2021-10-19 | 国网辽宁省电力有限公司鞍山供电公司 | 一种工业互联网平台数据的质量治理及提升方法 |
CN113672608A (zh) * | 2021-08-25 | 2021-11-19 | 东北大学 | 基于自适应约简阈值的物联网感知数据约简系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2447638A (en) * | 2007-02-22 | 2008-09-24 | Blaga Nikolova Iordanova | Global air traffic control mechanism |
CN101719315A (zh) * | 2009-12-23 | 2010-06-02 | 山东大学 | 一种基于中间件的动态交通信息采集方法 |
CN103064974A (zh) * | 2013-01-10 | 2013-04-24 | 东南大学 | 基于时空分析的交通流数据清洗方法 |
CN104157156A (zh) * | 2014-08-07 | 2014-11-19 | 昆明理工大学 | 一种高速公路危险路段车速动态管理预警方法 |
-
2018
- 2018-09-30 CN CN201811194158.1A patent/CN109213755B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2447638A (en) * | 2007-02-22 | 2008-09-24 | Blaga Nikolova Iordanova | Global air traffic control mechanism |
CN101719315A (zh) * | 2009-12-23 | 2010-06-02 | 山东大学 | 一种基于中间件的动态交通信息采集方法 |
CN103064974A (zh) * | 2013-01-10 | 2013-04-24 | 东南大学 | 基于时空分析的交通流数据清洗方法 |
CN104157156A (zh) * | 2014-08-07 | 2014-11-19 | 昆明理工大学 | 一种高速公路危险路段车速动态管理预警方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947752A (zh) * | 2019-01-28 | 2019-06-28 | 西南民族大学 | 一种基于DeepDive的自动数据清洗方法 |
CN111582593A (zh) * | 2020-05-13 | 2020-08-25 | 山东博依特智能科技有限公司 | 一种基于工业用电大数据的数据清洗的集成方法 |
CN111785014A (zh) * | 2020-05-26 | 2020-10-16 | 浙江工业大学 | 一种基于dtw-rgcn的路网交通数据修复的方法 |
CN112183644A (zh) * | 2020-09-29 | 2021-01-05 | 中国平安人寿保险股份有限公司 | 指标稳定性的监控方法、装置、计算机设备及介质 |
CN112183644B (zh) * | 2020-09-29 | 2024-05-03 | 中国平安人寿保险股份有限公司 | 指标稳定性的监控方法、装置、计算机设备及介质 |
CN113053123A (zh) * | 2021-03-23 | 2021-06-29 | 长安大学 | 一种基于时空大数据的交通量预测方法及装置 |
CN113053123B (zh) * | 2021-03-23 | 2022-10-28 | 长安大学 | 一种基于时空大数据的交通量预测方法及装置 |
CN113190997A (zh) * | 2021-04-29 | 2021-07-30 | 贵州数据宝网络科技有限公司 | 一种大数据终端数据修复方法及系统 |
CN113515512A (zh) * | 2021-06-22 | 2021-10-19 | 国网辽宁省电力有限公司鞍山供电公司 | 一种工业互联网平台数据的质量治理及提升方法 |
CN113672608A (zh) * | 2021-08-25 | 2021-11-19 | 东北大学 | 基于自适应约简阈值的物联网感知数据约简系统及方法 |
CN113672608B (zh) * | 2021-08-25 | 2023-07-25 | 东北大学 | 基于自适应约简阈值的物联网感知数据约简系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109213755B (zh) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109213755B (zh) | 一种基于时空序列的交通流数据清洗与修复方法 | |
CN108010320B (zh) | 一种基于自适应时空约束低秩算法的路网交通数据的补全方法 | |
US20230418250A1 (en) | Operational inspection system and method for domain adaptive device | |
CN114802296A (zh) | 一种基于动态交互图卷积的车辆轨迹预测方法 | |
CN102073852B (zh) | 基于最优阈值和随机标号法的多车辆分割方法 | |
CA2931624A1 (en) | Systems and methods for event detection and diagnosis | |
CN101329815A (zh) | 一种新型的交通路口四相位车流量检测系统与方法 | |
CN104077757A (zh) | 一种融合实时交通状态信息的道路背景提取与更新方法 | |
CN103985182A (zh) | 一种公交客流自动计数方法及自动计数系统 | |
CN110853353B (zh) | 基于视觉的密度交通车辆计数和交通流量计算方法及系统 | |
CN111598780A (zh) | 一种适用于机载LiDAR点云的地形自适应插值滤波方法 | |
CN104156579A (zh) | 一种动态交通异常数据检测与修复方法 | |
CN110991776A (zh) | 一种基于gru网络实现水位预测的方法及系统 | |
CN108460481A (zh) | 基于循环神经网络的无人机侦察目标演变规律预测方法 | |
CN109164450A (zh) | 一种基于多普勒雷达数据的下击暴流预测方法 | |
CN107146409A (zh) | 路网中设备检测时间异常的识别和真实时差估算方法 | |
CN111402249B (zh) | 基于深度学习的图像演化分析方法 | |
CN113379099A (zh) | 一种基于机器学习与copula模型的高速公路交通流自适应预测方法 | |
CN115359407A (zh) | 一种视频中的多车辆跟踪方法 | |
CN113065431A (zh) | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 | |
CN114037834B (zh) | 一种基于振动信号和rgb图像融合的语义分割方法及装置 | |
CN114297264B (zh) | 一种时序信号异常片段检测方法及系统 | |
CN110727669A (zh) | 一种电力系统传感器数据清理装置及清理方法 | |
CN112418253B (zh) | 基于深度学习的撒砂管松脱故障图像识别方法及系统 | |
CN107730882B (zh) | 基于人工智能的道路拥堵预测系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231027 Address after: 518055 Room 301, Building 10, Nangang Second Industrial Park, No. 1026, Songbai Road, Sunshine Community, Xili Street, Nanshan District, Shenzhen, Guangdong Patentee after: CHINA DYNAMICS TECHNOLOGY (SHENZHEN) CO.,LTD. Address before: 710064 middle section, south two ring road, Shaanxi, Xi'an Patentee before: CHANG'AN University |