CN103699607A - 一种基于实时地理位置数据流处理方法 - Google Patents

一种基于实时地理位置数据流处理方法 Download PDF

Info

Publication number
CN103699607A
CN103699607A CN201310686779.2A CN201310686779A CN103699607A CN 103699607 A CN103699607 A CN 103699607A CN 201310686779 A CN201310686779 A CN 201310686779A CN 103699607 A CN103699607 A CN 103699607A
Authority
CN
China
Prior art keywords
data
real
geographic position
module
time geographic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310686779.2A
Other languages
English (en)
Inventor
邹瑜斌
张帆
彭贤斌
须成忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310686779.2A priority Critical patent/CN103699607A/zh
Publication of CN103699607A publication Critical patent/CN103699607A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及交通信息技术领域,提供了一种基于分布式计算的实时地理位置数据流处理方法,实现了对实时交通数据的大规模可靠的实时计算处理,包括:以一个包含了多个逻辑处理节点的特定拓扑结构来表示处理框架,实时数据流将会在该拓扑结构中以特定的方法流经各个逻辑处理节点,各个逻辑处理节点包含了数据流接收节点、数据流解析节点、数据修正节点、数据一致性保证节点、数据计算与写入节点。本发明还提供了一种基于分布式计算的实时地理位置数据流处理系统。本发明能够实时地清洗、修正、计算处理大量的实时地理位置数据,保证了数据结果的时效性,而且保证了数据计算的可靠性、数据一致性、和计算规模的可扩展性。

Description

一种基于实时地理位置数据流处理方法
技术领域
本发明涉及实时交通技术领域,特别是涉及一种基于分布式计算的实时地理位置数据流处理方法及系统。
背景技术
近年来城市机动车的数量急速增长,引发了许多诸如堵车、停车难、打车难等严重影响老百姓出行质量的问题。同时城市的交通网络也日趋复杂,对一个完善的管理系统的要求越来越高。在未来构建智能城市的蓝图中,智能交通可谓是重中之重。大数据时代的到来为智能交通的建立提供了一个契机,然而数据量的爆炸性增长,如何高效地处理这些数据成为了一个急需解决的问题,其中一个思路就是在数据产生时实时处理这些数据,一方面减少后期计算的压力,一方面又可以提供高时效性的数据服务。
实时交通数据主要有一下特点:(1)数据的维度大,不但包含了GPS载体的位置坐标信息,而且还包含了载体的状态信息,如当前到达的位置名称、实时速度、实时海拔高度、载体设备的状态等等,因此要求处理框架能够识别并且支持各个维度的数据的计算。(2)数据量大,由于GPS载体的多样性,包含了公交车、出租车、物流车、私家车、个人手机等等,并且GPS载体的数量巨大,因此每秒产生的数据量极其巨大,因此要求处理框架能够可规模化扩展以承担海量实时数据的分发和计算。(3)异常数据多,GPS设备种类众多,受到卫星定位的精度,定位设备的限制,网络信号等多种客观并且不可预知的因素的影响,导致数据中存在大量不可预知的数据,因此要求处理框架能够实时高效地清洗或者修正这些异常数据。
现有最常用的技术把接收的数据保存在存储介质中,由后台处理单元在固定的时间间隔进行批量处理计算。
由于现有的常用技术使用批量处理实时接收到的数据,无法保证时效性,可靠性、数据一致性、和计算规模的可扩展性。
发明内容
本发明采用一种基于分布式计算的实时地理位置数据流处理方法,实现了对实施交通数据的大规模可靠的实时计算处理,保证了数据的可靠性,一致性和计算规模的可扩展性。
本发明采用如下方案:
一种基于分布式计算的实时地理位置数据流处理方法,包括:
获取实时地理位置数据;
对所述数据进行解析;
对解析后得到的异常数据进行修正;
对解析后得到的正确数据和通过修正异常数据后得到的正确数据进行一致性操作;
对一致性操作后得到的数据进行计算;
将经过计算得到的数据写入数据库。
优选地,所述获取的实时地理位置数据为二进制数据,可以通过网络socket读入,也可以是数据存储介质中的文件读入。
优选地,在所述对所述数据进行解析的步骤中,将所述获取到的每份实时地理位置数据解析成为独立的字段。
优选地,在所述对解析后得到的数据进行修正的步骤中,忽略无异常的数据记录,只处理异常的数据记录。
优选地,所述数据获取,数据解析,数据修正,数据计算,数据写入,按shuffle grouping机制和field grouping机制在当前步骤的多个线程和进程中进行分发,数据在各个线程和进程独立地进行计算处理。
优选地,所述数据在各个线程或进程之间的分发机制包含shufflegrouping机制和field grouping机制。
一种基于分布式计算的实时地理位置数据流处理系统,其特征在于:所述系统包括数据获取模块,数据解析模块,数据修正模块,数据一致性保证模块,数据计算模块和数据写入模块;其特征在于,所述系统采用权利要求1~6任一项所述的方法进行数据流处理。
本发明公开的一种基于分布式计算的实时地理位置数据流处理方法及系统,通过数据获取,数据解析,数据修正,数据一致性操作,数据计算和数据写入,能实现对实时交通数据的大规模可靠的实时计算处理。保证了数据的可靠性,一致性和计算规模的可扩展性。
附图说明
图1为本发明实施例1一种基于分布式计算的实时地理位置数据流处理方法;
图2为本发明实施例2一种基于分布式计算的实时地理位置数据流处理系统。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于分布式计算的实时地理位置数据流处理方法,其特征在于,包括:
获取实时地理位置数据;
对所述数据进行解析;
对解析后得到的异常数据进行修正;
对解析后得到的正确数据和通过修正异常数据后得到的正确数据进行一致性操作;
对一致性操作后得到的数据进行计算;
将经过计算得到的数据写入数据库。
本发明实施例还提供了一种基于分布式计算的实时地理位置数据流处理系统,所述系统包括数据获取模块,数据解析模块,数据修正模块,数据一致性保证模块,数据计算模块和数据写入模块,所述系统采用前述的方法进行数据流处理。
本发明实施例通过数据获取,数据解析,数据修正,数据一致性保证,数据计算模块和数据写入,能实现对实时交通数据的大规模可靠的实时计算处理。且能够保证实时性、一致性、可靠性和计算规模的可扩展性。
下面对本发明进行详细阐述。
实施例1:
请参阅图1所示,为本发明一种基于分布式计算的实时地理位置数据流处理方法流程图。该方法包括下述步骤:
步骤S1:获取实时地理位置数据。
该步骤获取实时地理位置数据。为了更好地保证数据接收的同步性和一致性,该步骤只用一个进程来执行。数据接收模块把数据流按每个数据记录的大小进行划分,然后每个数据记录的原始二进制数据独立地发送到下个步骤。该步骤的数据在进程中的分发机制包含shuffle grouping机制和fieldgrouping机制。
步骤S2:对获取所述数据进行解析。
该步骤对步骤S1中发送的二进制数据进行解析,由多个进程来执行,将原始数据为一串二进制编码的数据,解析成为独立的字段,该步骤的数据在进程中的分发机制采用shuffle grouping机制。
步骤S3:对所述解析后得到的数据进行清洗,异常数据进行修正。
该步骤对步骤S2发送的数据进行记录,忽略无异常的数据记录,只处理异常的数据记录,该步骤基于静态数据和历史数据,根据一类特定的数据记录,通过不同的计算方法修正异常数据。该步骤中相同属性的数据记录被同一个进程接受处理,该步骤使用Fields Grouping机制进行分发所接收到的数据。
步骤S4:对所述解析后得到的正确数据和通过清洗、修正异常数据后得到的正确数据进行一致性操作。
该步骤对步骤S2及步骤S3发出的数据进行数据一致性操作。由于数据修正只接收异常数据记录而忽略无异常的数据记录,导致数据在经过了数据解析及数据修正后数据顺序不正确。数据一致性操作将按照具有特定属性数据的记录对顺序不正确的数据进行调整。该步骤中,具有特定属性数据记录被分发到同一个进程,该步骤使用Fields Grouping机制分发所接收到的数据。数据一致性操作可以是如下操作:例如在出租车实时位置应用中,检查timestamp是否小于已经接收到的该car_id数据的最新timestamp,如果是,则表明该位置数据已经过期,可以去掉,或者做其他处理。
步骤S5:对所述一致性操作后得到的数据进行计算。
该步骤对步骤S4发送的数据执行计算。该步骤的数据在进程中的分发机制采用shuffle grouping机制。计算方式根据不同的应用而不同:例如在出租车实时位置的应用中,可以根据数据中的GPS坐标点(lat,lon),结合静态数据(如GIS道路数据),计算得到该出租车所处的道路名称等等;或者,在实时公交应用中,根据数据的GPS坐标点(lat,lon),计算得到该公交车是否到站,是否离站,或者位于公交线路的哪个区间,等等。
步骤S6:对所述经过计算后得到的数据写入数据库。
该步骤将步骤S5发出的数据写入数据库。
实施例2:
本实施例提供了一种基于分布式的实时地理位置数据流处理系统。请参阅图2所示,为用户操作本发明实施例3一种基于分布式的实时地理位置数据流处理系统示意图。实施例3提供的该系统用于实现各个模块对数据流的处理,系统包括数据获取模块,数据解析模块,数据修正模块,数据一致性保证模块,数据计算模块和数据写入模块,该系统采用实施例1的方法进行人机交互。
步骤S1:数据获取模块获取实时地理位置数据。
该步骤通过数据获取模块获取实时地理位置数据。为了更好地保证数据接收的同步性和一致性,该步骤只用一个进程来执行。数据接收模块把数据流按每个数据记录的大小进行划分,然后每个数据记录的原始二进制数据独立地发送给数据解析模块。该步骤的数据在进程中的的分发机制包含shufflegrouping机制和field grouping机制。
步骤S2:数据解析模块对获取所述数据进行解析。
该步骤通过数据解析模块对数据获取模块发送的原始二进制数据进行解析,由多个进程来执行,解析为一个独立的数据记录,该步骤的数据在进程中的的分发机制采用shuffle grouping机制。
步骤S3:数据修正模块对所述解析后得到的异常数据进行修正。
该步骤通过数据修正模块对数据解析模块输出的已经解析完毕的数据进行记录。数据修正模块忽略无异常的数据记录,只处理异常的数据记录,数据修正模块基于静态数据和历史数据,根据一类特定的数据记录,通过不同的计算方法修正异常数据。该步骤中相同属性的数据记录被同一个进程接受处理,该步骤使用Fields Grouping机制进行分发所接收到的数据。
步骤S4:数据一致性操作模块对所述解析后得到的正确数据和通过修正异常数据后得到的正确数据进行一致性操作。
该步骤通过数据一致性保证模块接收数据解析模块输出的已经解析完毕的数据记录中无异常的数据记录及数据修正模块修正后得到的无异常数据记录。由于数据修正模块只接受异常数据记录而忽略无异常的数据记录,导致数据在经过了解析模块和修正模块后数据顺序不正确。数据一致性保证模块将具有特定属性数据记录对顺序不正确的数据通过具有特定属性数据记录的顺序进行调整。该步骤中,具有特定属性数据记录被分发到同一个进程,该步骤使用Fields Grouping机制分发所接收到的数据。
步骤S5:数据计算模块对所述一致性操作后得到的数据进行计算。
该步骤通过数据计算模块接收数据一致性保证模块发送的数据,并执行计算。该步骤的数据在进程中的分发机制采用shuffle grouping机制。
步骤S6:数据写入模块对所述经过计算后得到的数据写入数据库。
该步骤通过数据写入模块接收数据计算模块执行计算后得到的数据,并且将数据写入数据库。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于分布式计算的实时地理位置数据流处理方法,其特征在于,包括:
获取实时地理位置数据;
对所述数据进行解析;
对解析后得到的异常数据进行修正;
对解析后得到的正确数据和通过修正异常数据后得到的正确数据进行一致性操作;
对一致性操作后得到的数据进行计算;
将经过计算得到的数据写入数据库。
2.根据权利要求1所述的方法,其特征在于:所述获取的实时地理位置数据为二进制数据,可以通过网络socket读入,也可以是数据存储介质中的文件读入。
3.根据权利要求1所述的方法,其特征在于:在所述对所述数据进行解析的步骤中,将所述获取到的每份实时地理位置数据解析成为独立的字段。
4.根据权利要求1所述的方法,其特征在于:在所述对解析后得到的数据进行修正的步骤中,忽略无异常的数据记录,只处理异常的数据记录。
5.根据权利要求1所述的方法,其特征在于:所述数据获取,数据解析,数据修正,数据计算,数据写入,按shuffle grouping机制和field grouping机制在当前步骤的多个线程和进程中进行分发,数据在各个线程和进程独立地进行计算处理。
6.根据权利要求1所述的方法,其特征在于:所述数据在各个线程或进程之间的分发机制包含shuffle grouping机制和field grouping机制。
7.一种基于分布式计算的实时地理位置数据流处理系统,其特征在于:所述系统包括数据获取模块,数据解析模块,数据修正模块,数据一致性保证模块,数据计算模块和数据写入模块;其特征在于,所述系统采用权利要求1~6任一项所述的方法进行数据流处理。
CN201310686779.2A 2013-12-12 2013-12-12 一种基于实时地理位置数据流处理方法 Pending CN103699607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310686779.2A CN103699607A (zh) 2013-12-12 2013-12-12 一种基于实时地理位置数据流处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310686779.2A CN103699607A (zh) 2013-12-12 2013-12-12 一种基于实时地理位置数据流处理方法

Publications (1)

Publication Number Publication Date
CN103699607A true CN103699607A (zh) 2014-04-02

Family

ID=50361135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310686779.2A Pending CN103699607A (zh) 2013-12-12 2013-12-12 一种基于实时地理位置数据流处理方法

Country Status (1)

Country Link
CN (1) CN103699607A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445957A (zh) * 2015-08-10 2017-02-22 华为技术有限公司 数据的可视化方法和装置
CN106960565A (zh) * 2017-03-21 2017-07-18 合肥极友软件开发有限公司 基于gps‑gprs的出租车计价与监控系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445957A (zh) * 2015-08-10 2017-02-22 华为技术有限公司 数据的可视化方法和装置
CN106445957B (zh) * 2015-08-10 2019-11-12 华为技术有限公司 数据的可视化方法和装置
CN106960565A (zh) * 2017-03-21 2017-07-18 合肥极友软件开发有限公司 基于gps‑gprs的出租车计价与监控系统

Similar Documents

Publication Publication Date Title
Eken et al. A smart bus tracking system based on location-aware services and QR codes
CN107590250A (zh) 一种时空轨迹生成方法及装置
CN103035123B (zh) 一种交通轨迹数据中异常数据获取方法及系统
CN109754594A (zh) 一种路况信息获取方法及其设备、存储介质、终端
CN105973244A (zh) 获取地图信息的方法、导航方法及设备
CN104732756A (zh) 一种利用移动通信数据挖掘进行公交规划的方法
CN105096639B (zh) 用于预测公交到站时间的方法、装置和系统
CN104123757B (zh) 基于车辆实时位置和路链匹配的拥堵收费方法
CN111209261A (zh) 基于信令大数据的用户出行轨迹提取方法和系统
CN110852499A (zh) 回收故障车辆的方法和装置
CN105547311A (zh) 一种路线规划方法、移动终端及系统
EP2831545B1 (en) Digital location-based data methods and product
Sahoo et al. Study and analysis of smart applications in smart city context
US20170030723A1 (en) Simplification of trajectory representation
Moharm et al. Big data in ITS: Concept, case studies, opportunities, and challenges
Yedavalli et al. Microsimulation analysis for network traffic assignment (MANTA) at metropolitan-scale for agile transportation planning
CN110556014B (zh) 智能公交调度平台系统
CN104809907B (zh) 一种自动获知公交线路改道的方法
CN106953717B (zh) 一种船舶ais数据大批量高效解码方法及系统
Stenneth et al. Monitoring and mining GPS traces in transit space
CN103699607A (zh) 一种基于实时地理位置数据流处理方法
CN103699680A (zh) 公交车实时地理信息数据清洗方法及系统
CN104956420B (zh) 用于列车晚点的腕表通知
CN109974690A (zh) 车辆定位方法、设备及系统
CN110222135B (zh) 公交线路站点数据准确性判定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140402