CN103064974A - 基于时空分析的交通流数据清洗方法 - Google Patents

基于时空分析的交通流数据清洗方法 Download PDF

Info

Publication number
CN103064974A
CN103064974A CN201310008621XA CN201310008621A CN103064974A CN 103064974 A CN103064974 A CN 103064974A CN 201310008621X A CN201310008621X A CN 201310008621XA CN 201310008621 A CN201310008621 A CN 201310008621A CN 103064974 A CN103064974 A CN 103064974A
Authority
CN
China
Prior art keywords
lane
data
time
sigma
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310008621XA
Other languages
English (en)
Other versions
CN103064974B (zh
Inventor
刘攀
俞灏
罗旭江
樊蓉
羊钊
李志斌
徐铖铖
陈金林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201310008621.XA priority Critical patent/CN103064974B/zh
Publication of CN103064974A publication Critical patent/CN103064974A/zh
Application granted granted Critical
Publication of CN103064974B publication Critical patent/CN103064974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于时空分析的交通流数据清洗方法,包括脏数据存储模块、干净数据存储模块和运算模块,其中:所述脏数据存储模块,对实时接收到的交通流信息不加改变的按照固定格式进行存储;所述运算模块,按照固定时间间隔从脏数据存储模块中提取最新数据,同时从干净数据库中提取与之在时间和空间存在匹配关系的数据,进行运算;所述干净数据存储模块,对运算模块运算完毕后的数据按照固定格式进行存储。本发明通过简化交通流数据清洗过程,采用用时间与空间并行分析方法,从而方便、快捷、准确的进行交通流数据清洗工作。在简化交通流数据清洗过程,提供交通流数据清洗质量方面,具有实际工程运用价值。

Description

基于时空分析的交通流数据清洗方法
技术领域
本发明属属于数据处理领域,尤其涉及一种基于时空分析的交通流数据清洗系统和方法。
背景技术
随着城市交通压力的不断上升,智能交通系统在城市交通管理与控制体系中发挥着越来越重要的作用。而交通流基础数据库的正确性、完整性以及可靠性,则是整个智能交通系统高效运转的基础保障。然后现有的交通采集系统、信息传输系统在对数据的采集、传输及存储操作中存在着很多问题,容易产生脏数据,如检测装置失灵,数据发送失败等等。这些脏数据可能会导致智能交通系统决策失败甚至错误。因此必须在数据提取应用前对脏数据进行有效的处理,保障交通流基础数据库的数据质量。
在这一领域内,国内外已经有了不少相关研究及工程应用产品。传统的交通流数据清洗过程通常包括数据属性分析、确定清洗方案、检验清洗结果、脏数据清洗以及数据更新5个阶段,且为了应付脏数据出行的不同情况,如数据错误、数据丢失、数据漂移等,需要进行相应的处理,处理过程繁琐。同时在进行脏数据清洗时,到目前为止也已出现了一系列相应的技术方法与手段,主要可分为两大类:以统计学为基础的预测模型和以智能算法为主要研究手段形成的预测模型。但是前一类方法包括卡尔曼滤波模型、参数回归模型、时间序列模型等,仅考虑采用历史因素为数据进行处理,不适于时变的复杂系统,精度较低;后一类方法包括状态相空间重构模型、小波分解模型、神经网络、支持向量机等,方法过于复杂,不适于实际应用。
发明内容
发明目的:针对上述现有存在的问题和不足,本发明的目的是提供一种基于时空分析的交通流数据清洗方法,本发明改善传统的交通流数据清洗过程,使其简洁明了,同时改进脏数据清洗时的技术手段,使其监督方法的能够兼顾算法复杂性与结果精确性,是本发明主要解决的问题。
技术方案:为实现上述发明目的,本发明采用以下技术方案:一种基于时空分析的交通流数据清洗方法,包括脏数据存储模块、干净数据存储模块和运算模块,其中:
所述脏数据存储模块,对实时接收到的交通流信息不加改变的按照固定格式进行存储;
所述运算模块,按照固定时间间隔从脏数据存储模块中提取最新数据,同时从干净数据库中提取与之在时间和空间存在匹配关系的数据,进行运算;
所述干净数据存储模块,对运算模块运算完毕后的数据按照固定格式进行存储。
所述脏数据存储模块中接收的交通流信息为包括13个字段的49位的十进制代码,其中各字段名称及其长度位数如下:
检测器序号,日期,时间,第一车道流量,第二车道流量,第三车道流量,第四车道流量,第五车道流量,第六车道流量,第七车道流量,第八车道流量,第九车道流量,第十车道流量;前述各字段的长度位数依次分别为:5位、8位、6位、3位、3位、3位、3位、3位、3位、3位、3位、3位和3位。
所述运算模块的运算方法如下:
首先,运算模块每隔T0时间从脏数据存储模块中遍历所有m个检测器序号ID,并分别提取相同ID的数据中时刻最新的数据,分别为{A1,A2,A3,…,Am},同时在干净数据存储模块中,遍历所有m个检测器序号ID,并分别提取相同ID的数据中时刻最新的4条数据,分别记为{B1 1,B1 2,B1 3,B1 4),(B2 1,B2 2,B2 3,B2 4),(B3 1,B3 2,B3 3,B3 4),…,(Bm 1,Bm 2,Bm 3,Bm 4)};其中任意Ai或者Bi j均为长度49位的十进制代码,i和j为自然整数;
Ai={ID,DATE,TIME,LANE[1],LANE[2],LANE[3],LANE[4],LANE[5],LANE[6],LANE[7],LANE[8],LANE[9],LANE[10]}
根据空间位置关系,定义检测器周围1km范围内检测器为相关检测器,若第k个检测器的相关检测器分为为第K1,k2,…,kn,则在进行数据清洗时,对第k个检测器进行如下运算:
Ck·Id=Ak·ID
Ck·DATE=Bk 1.DATE
Ck·TIME=Bk 1.TIME+T0
其中,Ck为与Ak,Bk有相同量纲的临时变量,l=1,2,3,...,10
在计算得到Ck·LANE[l],l=1,2,3,….,10后进一步进行如下运算:
如果Ak·TIME<Ck·TIME,则说明发生数据丢失;
如果Ak·TIME>=Ck·TIME,则说明数据未丢失,可能发生数据漂移,进入下一级判断;
逐条车道l比较,Ak·LANE[l]是否属于区间(0.5*Ck·LANE[l],1.5*Ck·LANE[1]),
如果属于,则Ck·LANE[1]=Ak·LANE[1];
当所有车道均判断完毕后,继续进行下一个检测器的相应运算,当遍历所有m个检测器,完成如上运算过程后,将Ck所有数据存入干净数据存储模块。
有益效果:与现有技术相比,本发明具有以下优点:通过简化交通流数据清洗过程,采用时间与空间并行分析方法,从而方便、快捷、准确的进行交通流数据清洗工作。改善传统的交通流数据清洗过程,使其简洁明了,同时改进脏数据清洗时的技术手段,使其监督方法的能够兼顾算法复杂性与结果精确性,是本发明主要解决的问题。
附图说明
图1为本发明所述基于时空分析的交通流数据清洗方法的工作流程示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于时空分析的交通流数据清洗方法,包括存储原始交通流数据的脏数据存储模块、存储清洗完毕交通流数据的干净数据存储模块和进行数据清洗的运算模块;所述存储原始交通流数据的脏数据存储模块对实时接收到的交通流信息不加改变的按照固定格式进行存储,进行数据清洗的运算模块按照固定时间间隔从脏数据存储模块中提取最新数据,同时从干净数据库中提取与之在时间与空间存在匹配关系的数据,进行运算,运算完毕后将数据按固定格式存 储进存干净数据存储模块。
所述存储原始交通流数据的脏数据存储模块,实时接收交通流信息,包括日期,时间,检测器序号,第一车道流量,第二车道流量,第三车道流量,第四车道流量,第五车道流量,第六车道流量,第七车道流量,第八车道流量,第九车道流量,第十车道流量进行存储,存数格式如表1所示。每条信息被存储为一则长度49位的十进制代码,如表1所示。
表1数据存储格式
Figure BDA00002722862600041
以2012年10月23日11时30分30秒,第236号检测器数据为例,如表2所示,
表2数据存储实例
字段名称 数值 字段名称 数值
ID 00236 LANE[5] 0
DATE 20121023 LANE[6] 11
TIME 113030 LANE[7] 12
LANE[1] 13 LANE[8] 12
LANE[2] 22 LANE[9] 11
LANE[3] 0 LANE[10] 13
LANE[4] 11
所述进行数据清洗的运算模块以及存储清洗完毕交通流数据的干净数据存 储模块,每隔30秒时间从脏数据存储模块中遍历所有2549个检测器序号ID,并分别提取相同ID的数据中时刻最新的数据,分别为{A1,A2,A3,…,A2549},同时在干净数据存储模块中,遍历所有2549个检测器序号ID,并分别提取相同ID的数据中时刻最新的4条数据,分别记为{B1 1,B1 2,B1 3,B1 4),(B2 1,B2 2,B2 3,B2 4),(B3 1,B3 2,B3 3,B3 4),…,(B2549 1,B2549 2,B2549 3,B2549 4)}。其中任意Ai或者Bi j均为长度49位的十进制代码,即:
Ai={ID,DATE,TIME,LANE[1],LANE[2],LANE[3],LANE[4],LANE[5],LANE[6],LANE[7],LANE[8],LANE[9],LANE[10]}
根据空间位置关系,定义检测器周围1km范围内检测器为相关检测器。则第236号检测器的相关检测器分为为第227,231,…,289,则在进行数据清洗时,对第236个检测器进行如下运算:
Ck·ID=Ak·ID
Ck·DATE=Bk 1.DATE
Ck·TIME=Bk 1.TIME+T0
其中l=1,2,3,...,10
在计算得到Ck.LANE[l],l=1,2,3,….,10后进一步进行如下运算:
逐条车道l比较,Ak·LANE[l]是否属于区间(0.5*Ck·LANE[l],1.5*Ck·LANE[l])
如果属于,则Ck·LANE[l]=Ak·LANE[l].
当所有车道均判断完毕后,继续进行下一个检测器的相应运算,当遍历所有m个检测器,完成如上运算过程后,将Ck所有数据取整后存入干净数据存储模块,数据提取及数据清洗运算结果如表3所示。
表3数据提取及数据清洗运算结果
Figure BDA00002722862600061

Claims (3)

1.一种基于时空分析的交通流数据清洗方法,其特征在于:包括脏数据存储模块、干净数据存储模块和运算模块,其中:
所述脏数据存储模块,对实时接收到的交通流信息不加改变的按照固定格式进行存储;
所述运算模块,按照固定时间间隔从脏数据存储模块中提取最新数据,同时从干净数据库中提取与之在时间和空间存在匹配关系的数据,进行运算;
所述干净数据存储模块,对运算模块运算完毕后的数据按照固定格式进行存储。
2.根据权利要求1所述基于时空分析的交通流数据清洗方法,其特征在于:所述脏数据存储模块中接收的交通流信息为包括13个字段的49位的十进制代码,其中各字段名称及其长度位数如下:
检测器序号,日期,时间,第一车道流量,第二车道流量,第三车道流量,第四车道流量,第五车道流量,第六车道流量,第七车道流量,第八车道流量,第九车道流量,第十车道流量;前述各字段的长度位数依次分别为:5位、8位、6位、3位、3位、3位、3位、3位、3位、3位、3位、3位和3位。
3.根据权利要求1所述基于时空分析的交通流数据清洗方法,其特征在于:所述运算模块的运算方法如下:
首先,运算模块每隔T0时间从脏数据存储模块中遍历所有m个检测器序号ID,并分别提取相同ID的数据中时刻最新的数据,分别为{A1,A2,A3,…,Am},同时在干净数据存储模块中,遍历所有m个检测器序号ID,并分别提取相同ID的数据中时刻最新的4条数据,分别记为{(B1 1,B1 2,B1 3,B1 4),(B2 1,B2 2,B2 3,B2 4),(B3 1,B3 2,B3 3,B3 4),…,(Bm 1,Bm 2,Bm 3,Bm 4)};其中任意Ai或者Bi j均为长度49位的十进制代码,i和j为自然整数;
Ai={ID,DATETIME,LANE[1],LANE[2],LANE[3],LANE[4],LANE[5],LANE[6],LANE[7],LANE[8],LANE[9],LANE[10]}
根据空间位置关系,定义检测器周围1km范围内检测器为相关检测器,若第k个检测器的相关检测器分为为第k1,k2,…,kn,则在进行数据清洗时,对第k个检测器进行如下运算:
Ck·ID=Ak·ID
Ck·DATE=Bk 1.DATE
Ck·TIME=Bk 1·TINE+T0
其中, Ck为与Ak,Bk有相同量纲的临时变量,l=1,2,3,...,10
在计算得到Ck.LANE[l],l=1,2,3,….,10后进一步进行如下运算:
如果Ak·TIME<Ck·TIME,则说明发生数据丢失;
如果Ak·TIME>=Ck·TIME,则说明数据未丢失,可能发生数据漂移,进入下一级判断;
逐条车道l比较,Ak·LANE[l]是否属于区间(0.5*Ck·LANE[l],1.5*Ck·LANE[l]),
如果属于,则Ck·LANE[l]=Ak·LANE[l];
当所有车道均判断完毕后,继续进行下一个检测器的相应运算,当遍历所有m个检测器,完成如上运算过程后,将Ck所有数据存入干净数据存储模块。
CN201310008621.XA 2013-01-10 2013-01-10 基于时空分析的交通流数据清洗方法 Active CN103064974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310008621.XA CN103064974B (zh) 2013-01-10 2013-01-10 基于时空分析的交通流数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310008621.XA CN103064974B (zh) 2013-01-10 2013-01-10 基于时空分析的交通流数据清洗方法

Publications (2)

Publication Number Publication Date
CN103064974A true CN103064974A (zh) 2013-04-24
CN103064974B CN103064974B (zh) 2016-05-04

Family

ID=48107604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310008621.XA Active CN103064974B (zh) 2013-01-10 2013-01-10 基于时空分析的交通流数据清洗方法

Country Status (1)

Country Link
CN (1) CN103064974B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699680A (zh) * 2013-12-31 2014-04-02 中国科学院深圳先进技术研究院 公交车实时地理信息数据清洗方法及系统
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统
CN106202335A (zh) * 2016-06-28 2016-12-07 银江股份有限公司 一种基于云计算框架的交通大数据清洗方法
CN108052574A (zh) * 2017-12-08 2018-05-18 南京中新赛克科技有限责任公司 基于Kafka技术的从FTP服务器导入海量数据的ETL系统及实现方法
CN109213755A (zh) * 2018-09-30 2019-01-15 长安大学 一种基于时空序列的交通流数据清洗与修复方法
CN109408029A (zh) * 2018-10-17 2019-03-01 南京汽车集团有限公司 车联网下传感器生成随机数的方法
CN109639762A (zh) * 2018-11-07 2019-04-16 重庆光电信息研究院有限公司 城市物联网信息分级处理系统及方法
CN113704338A (zh) * 2021-08-26 2021-11-26 廊坊市新思维科技有限公司 一种超声数据缺陷辅助评定算法
US11594126B2 (en) 2020-08-28 2023-02-28 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for a traffic flow monitoring and graph completion system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101546478A (zh) * 2009-04-29 2009-09-30 上海电器科学研究所(集团)有限公司 基于车牌识别数据的交通流集散分析系统及其处理方法
CN102393928A (zh) * 2011-11-22 2012-03-28 广州市交通规划研究所 基于宏、中、微观交通仿真平台交互使用的交通仿真集成系统
CN102496266A (zh) * 2011-12-07 2012-06-13 北京云星宇交通工程有限公司 一种交通流数据预处理方法
CN102800197A (zh) * 2012-02-27 2012-11-28 东南大学 一种城市道路路段动态交通流基础数据的预处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101546478A (zh) * 2009-04-29 2009-09-30 上海电器科学研究所(集团)有限公司 基于车牌识别数据的交通流集散分析系统及其处理方法
CN102393928A (zh) * 2011-11-22 2012-03-28 广州市交通规划研究所 基于宏、中、微观交通仿真平台交互使用的交通仿真集成系统
CN102496266A (zh) * 2011-12-07 2012-06-13 北京云星宇交通工程有限公司 一种交通流数据预处理方法
CN102800197A (zh) * 2012-02-27 2012-11-28 东南大学 一种城市道路路段动态交通流基础数据的预处理方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699680A (zh) * 2013-12-31 2014-04-02 中国科学院深圳先进技术研究院 公交车实时地理信息数据清洗方法及系统
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统
CN106202335A (zh) * 2016-06-28 2016-12-07 银江股份有限公司 一种基于云计算框架的交通大数据清洗方法
CN106202335B (zh) * 2016-06-28 2019-06-28 银江股份有限公司 一种基于云计算框架的交通大数据清洗方法
CN108052574A (zh) * 2017-12-08 2018-05-18 南京中新赛克科技有限责任公司 基于Kafka技术的从FTP服务器导入海量数据的ETL系统及实现方法
CN109213755A (zh) * 2018-09-30 2019-01-15 长安大学 一种基于时空序列的交通流数据清洗与修复方法
CN109213755B (zh) * 2018-09-30 2019-09-24 长安大学 一种基于时空序列的交通流数据清洗与修复方法
CN109408029A (zh) * 2018-10-17 2019-03-01 南京汽车集团有限公司 车联网下传感器生成随机数的方法
CN109639762A (zh) * 2018-11-07 2019-04-16 重庆光电信息研究院有限公司 城市物联网信息分级处理系统及方法
CN109639762B (zh) * 2018-11-07 2021-02-09 重庆光电信息研究院有限公司 城市物联网信息分级处理系统及方法
US11594126B2 (en) 2020-08-28 2023-02-28 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for a traffic flow monitoring and graph completion system
CN113704338A (zh) * 2021-08-26 2021-11-26 廊坊市新思维科技有限公司 一种超声数据缺陷辅助评定算法

Also Published As

Publication number Publication date
CN103064974B (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN103064974A (zh) 基于时空分析的交通流数据清洗方法
CN110443904B (zh) 一种漏费检测方法、装置、服务器及存储介质
CN109190056B (zh) 一种车辆轨迹重建方法、系统及电子设备
CN109143291B (zh) 一种车载gps轨迹空间索引精确匹配方法
CN104408924B (zh) 一种基于耦合隐马尔可夫模型的城市道路异常交通流检测方法
CN105279964B (zh) 一种基于低秩算法的路网交通数据的补全方法
CN105336164B (zh) 基于大数据分析的错误卡口位置信息自动识别方法
CN109191605B (zh) 一种考虑收费路径的高速公路计费费率准确性评测方法
CN104615858B (zh) 一种计算车辆起始地和目的地的方法
CN105489004B (zh) 面向道路实时速度计算的卡口与浮动车数据融合方法
CN106447119A (zh) 一种基于卷积神经网络的短期交通流量预测方法及系统
CN105468677A (zh) 一种基于图结构的日志聚类方法
CN103440764A (zh) 一种基于车辆自动识别数据的城市路网车辆出行路径重构方法
CN102968900A (zh) 一种对rfid交通数据进行处理的方法
CN107977734A (zh) 一种时空大数据下基于移动马尔可夫模型的预测方法
CN109859495A (zh) 一种基于rfid数据获取区间速度的方法
CN106202335A (zh) 一种基于云计算框架的交通大数据清洗方法
CN108597227A (zh) 高速公路收费站下道交通流量预测方法
CN104424812A (zh) 一种公交到站时间预测系统和方法
CN114596700B (zh) 一种基于门架数据的高速公路路段实时流量估计方法
CN104732765A (zh) 基于卡口数据的城市道路饱和度实时监测方法
CN109243173A (zh) 基于道路高清卡口数据的车辆轨迹分析方法及系统
CN104298832A (zh) 一种基于rfid技术的路网交通流分析方法
CN102609501B (zh) 一种基于实时历史数据库的数据清洗方法
CN104748757B (zh) 一种导航电子地图数据更新方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant