CN113626207B - 地图数据处理方法、装置、设备及存储介质 - Google Patents

地图数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113626207B
CN113626207B CN202111184363.1A CN202111184363A CN113626207B CN 113626207 B CN113626207 B CN 113626207B CN 202111184363 A CN202111184363 A CN 202111184363A CN 113626207 B CN113626207 B CN 113626207B
Authority
CN
China
Prior art keywords
data processing
task
data
data set
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111184363.1A
Other languages
English (en)
Other versions
CN113626207A (zh
Inventor
张江东
朱江
苏望发
张玉华
杨春
王宁
程志凡
陈振兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kq Geo Technologies Co ltd
Original Assignee
Kq Geo Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kq Geo Technologies Co ltd filed Critical Kq Geo Technologies Co ltd
Priority to CN202111184363.1A priority Critical patent/CN113626207B/zh
Publication of CN113626207A publication Critical patent/CN113626207A/zh
Application granted granted Critical
Publication of CN113626207B publication Critical patent/CN113626207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/508Monitor

Abstract

本公开提出一种地图数据处理方法、装置、设备及存储介质。其中,地图数据处理方法包括:获取地理信息空间数据;根据所述地理信息空间数据,生成多个数据处理任务;将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果;将所述处理结果存储至对应的分布式存储节点。本公开能够提高地图数据处理、存储和使用效率。

Description

地图数据处理方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种地图数据处理方法、装置、设备及存储介质。
背景技术
随着网络技术的发展,地图数据成为人们生活中应用越来越频繁的数据之一。而随着生活节奏、城乡建设速度的加快,地图数据的数量和更新速度也显著提升。随着地图数据的数据量越来越多,地图数据的存储和调度难度也随着增加。
任务调度系统用于将大批量的计算任务分配给多个计算单元,使这些计算单元可以并行的处理计算任务,最常见的是操作系统的作业调度器。
但是传统的任务调度系统更多的支持大量非结构化数据和半结构化数据,本身对超大规模结构化的地理空间数据支持不足,难以满足GIS(Geographic InformationSystem,地理信息系统)行业对超大规模空间数据服务调度的需求。
发明内容
本公开实施例提供一种地图数据处理方法、装置、设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本公开实施例提供了一种地图数据处理方法,包括:
获取地理信息空间数据;
根据所述地理信息空间数据,生成多个数据处理任务;
将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果;
将所述处理结果存储至对应的分布式存储节点。
本公开实施例中,所述根据所述地理信息空间数据,生成多个数据处理任务,包括:
将所述地理信息空间数据转化为多个弹性分布式数据集对象,每个弹性分布式数据集对象对应一个地理信息空间数据计算环节;
根据所述多个弹性分布式数据集对象,生成多个数据处理任务。
本公开实施例中,根据所述多个弹性分布式数据集对象,生成多个数据处理任务,包括:
从所述多个弹性分布式数据集对象中分别提取弹性分布式数据集特征类型;
根据多个所述弹性分布式数据集对象的弹性分布式数据集特征类型,生成所述弹性分布式数据集对象的操作任务有向无环图;
根据所述操作任务有向无环图,生成所述弹性分布式数据集对象的操作任务。
本公开实施例中,所述根据所述操作任务有向无环图,生成所述弹性分布式数据集对象的操作任务,包括:
根据所述操作任务有向无环图,生成对应于每个节点的任务;
将所述对应于每个节点的任务,拆分成不同阶段具有依赖关系的子任务;
将所述子任务作为所述弹性分布式数据集对象的操作任务。
本公开实施例中,所述将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果,包括:
将各数据处理任务分发至至少一个所述工作节点;
调用所述工作节点的任务执行器,执行所述数据处理任务。
第二方面,本公开实施例提供一种地图数据处理装置,包括:
获取模块,用于获取地理信息空间数据;
任务模块,用于根据所述地理信息空间数据,生成多个数据处理任务;
处理模块,用于将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果;
存储模块,用于将所述处理结果存储至对应的分布式存储节点。
本公开实施例中,所述任务模块包括:
转化单元,用于将所述地理信息空间数据转化为多个弹性分布式数据集对象,每个弹性分布式数据集对象对应一个地理信息空间数据计算环节;
任务生成单元,用于根据所述多个弹性分布式数据集对象,生成多个数据处理任务。
本公开实施例中,所述任务生成单元还用于:
从所述多个弹性分布式数据集对象中分别提取弹性分布式数据集特征类型;
根据多个所述弹性分布式数据集对象的弹性分布式数据集特征类型,生成所述弹性分布式数据集对象的操作任务有向无环图;
根据所述操作任务有向无环图,生成所述弹性分布式数据集对象的操作任务。
本公开实施例中,所述任务生成单元还用于:
根据所述操作任务有向无环图,生成对应于每个节点的任务;
将所述对应于每个节点的任务,拆分成不同阶段具有依赖关系的子任务;
将所述子任务作为所述弹性分布式数据集对象的操作任务。
本公开实施例中,所述处理模块包括:
分发单元,用于将各数据处理任务分发至至少一个所述工作节点;
调用单元,用于调用所述工作节点的任务执行器,执行所述数据处理任务。
第三方面,本公开实施例提供了一种地图数据处理设备,该设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:采用基于大规模空间数据分布式存储策略,对Spark的基础数据模型进行了空间数据的模型扩展,同时还对空间索引进行了性能优化,然后对GIS已有的空间查询和空间分析进行算法重构,使其具备分布式计算的能力,实现了超大规模空间数据在分布式文件系统下的服务调度。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本公开进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本公开公开的一些实施方式,而不应将其视为是对本公开范围的限制。
图1为本公开一实施例的地图数据处理方法流程图;
图2为本公开另一实施例的地图数据处理方法流程图;
图3为本公开一实施例的地图数据处理装置结构示意图;
图4为本公开另一实时例的地图数据处理装置结构示意图;
图5为本公开又一实施例的地图数据处理装置结构示意图;
图6为本公开一示例的地图数据处理装置图;
图7为本公开一实施例的地图数据处理设备图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本公开的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本公开一实施例的地图数据处理方法的流程图。如图1所示,该地图数据处理方法可以包括:
步骤S11:获取地理信息空间数据;
步骤S12:根据所述地理信息空间数据,生成多个数据处理任务;
步骤S13:将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果;
步骤S14:将所述处理结果存储至对应的分布式存储节点。
本实施例中,地理信息空间数据,可以从已有的地理信息数据管理系统中获取。
本实施例中,根据所述地理信息空间数据,生成多个数据处理任务,可以是根据地理信息空间数据的数据处理任务执行阶段,将地理信息空间数据的数据处理过程拆分成多个批次的数据处理任务。相邻批次的数据处理任务可以是具有相互依赖关系的数据处理任务。同一批次的数据处理任务也可以包括多个具有相互依赖关系的子数据处理任务。
本实施例中,分布式存储节点可以是分布式存储系统的存储节点。分布式存储系统可包括分布式数据库和/或非关系型数据库。
将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果,具体可以包括:将多个数据处理任务分发至工作节点,工作节点对数据处理任务采用分布式计算、内存计算、流式计算中的至少一种计算方式进行计算,得到处理结果,处理结果中可包括对数据处理任务的处理结果的存储位置及存储方式。
本公开实施例中的地图数据处理方法,可基于大规模数据处理环境执行。比如,步骤S11-S14可基于Apache Spark(计算引擎)、或Hadoop(海杜普)等开源计算机集群执行。
本实施例中,分布式数据处理集群可以为Spark集群。
本实施例中的布式文件系统的存储可以由开源数据库构成,例如,可以包括HBase(Hadoop database,Hadoop数据库)、HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)等分布式存储与mongoDB(mongo Data Base,蒙戈数据库)非关系型数据库存储构成,采用MapReduce(映射归约)分布式计算、Spark内存计算、Storm流式计算方法解决大规模静态结构化、非结构化、半结构化与流式数据的存储。
其中,HDFS支持非结构化空间大数据的存储,主要用来存储更新较少的存量数据,例如大规模GeoTiff格式的影像数据,实现了分布式文件系统。在处理超大文件上非常有优势,而且支持流式的访问数据。
MongoDB数据库主要用来存储栅格瓦片、矢量瓦片及三维瓦片等。它支持的查询语言非常强大,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
HBase数据库引擎支持多种数据格式,多种坐标,提供海量数据高并发、高效查询能力,具有高性能、可弹性伸缩及分布式特性,支持PB级大数据存储,同时满足千万级QPS并发。
本实施例中,为了解决HBase二级索引的缺失,增加ES(Elastic Search,弹性搜索)来提供多级索引,实现文本数据等非结构化数据的提取和处理。针对每种数据库分别设置多张对应的表,通过对应的指令,查找表中的对象对应的状态、基础信息等。
随着网络技术的发展,分布式文件系统(Distributed File System)已经成为分布式计算机环境中的一个重要支撑技术。它通过计算机网络将多节点上的物理存储资源连接,形成逻辑上的树形文件系统结构。分布式文件系是基于客户机/服务器的模式设计的。
分布式系统中,作业调度器的主要功能是收集并管理计算任务,将任务合理的分配给网络上的各个节点,使批量的任务可以并行高效的执行。同时,它还要具备一些与作业执行相关的辅助功能,比如追踪作业执行的过程,回收作业执行的结果等等。分布式系统的调度技术多用于高性能计算和计算网格中,调度技术的应用,不仅缩短了大批量计算任务的处理时间,而且使得计算集群的计算性能得以高效的发挥。
本实施例中,将所述处理结果存储至对应的分布式存储节点,可以包括把每个源数据都份备多份放到多个节点上。比如,可以针对每份数据形成节点三活。即,每一份数据至少随机存储在三个不同的节点,针对存储有同样数据的节点执行同步更新、复制、备份,其中一份数据缺失或者一个节点宕机,对整体系统都没有影响,保证数据安全性和稳定性。
在一种实施方式中,所述根据所述地理信息空间数据,生成多个数据处理任务,包括:
将所述地理信息空间数据转化为多个弹性分布式数据集对象,每个弹性分布式数据集对象对应一个地理信息空间数据计算环节;
根据所述多个弹性分布式数据集对象,生成多个数据处理任务。
在一种实施方式中,根据所述多个弹性分布式数据集对象,生成多个数据处理任务,包括:
从所述多个弹性分布式数据集对象中分别提取弹性分布式数据集特征类型;
根据多个所述弹性分布式数据集对象的弹性分布式数据集特征类型,生成所述弹性分布式数据集对象的操作任务有向无环图;
根据所述操作任务有向无环图,生成所述弹性分布式数据集对象的操作任务。
构建DAG(Directed Acyclic Graph)叫做有向无环图,通过sparkcontext(Spark上下文)创建的RDD(Resilient Distributed Dataset,弹性分布式数据集)触发Action(操作),调用runjob函数形成完整的DAG。
在一种实施方式中,如图2所示,所述根据所述操作任务有向无环图,生成所述弹性分布式数据集对象的操作任务,包括:
步骤S21:根据所述操作任务有向无环图,生成对应于每个节点的任务;
步骤S22:将所述对应于每个节点的任务,拆分成不同阶段具有依赖关系的子任务;
步骤S23:将所述子任务作为所述弹性分布式数据集对象的操作任务。
本实施例利用基于Spark的分布式数据处理系统的DAG Scheduler(高级的调度器接口)将Task拆分成不同Stage的具有依赖关系(包含RDD的依赖关系)的多批任务,然后提交给Task Scheduler进行具体处理。
本实施例中,一个RDD描述了数据计算过程中的一个环节,而一个DAG包含多个RDD,描述了数据计算过程中的所有环节;一个Spark application(Spark应用)可以包含多个DAG,取决于具体有多少个action。
本公开实施例提供的地图数据处理方法,通过算法改造,支持通过异步缓存模式来实现多任务的联合作业、协调分工。
在一种实施方式中,所述将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果,包括:
将各数据处理任务分发至至少一个所述工作节点;
调用所述工作节点的任务执行器,执行所述数据处理任务。
在本申请实施例中,可以利用Task Scheduler(低级的调度器接口)负责实际每个具体Task(任务)的物理调度执行及监控。
在本实施例中,每个工作节点下又可以分为多个Task执行器,最后形成了一个分析应用以多节点多进程多线程的模式运行。
本实施例中,采用列式存储格式存储处理结果。相对于关系数据库中通常使用的行式存储,在使用列式存储时每一列的所有元素都是顺序存储的。可以给查询带来如下的优化:查询的时候不需要扫描全部的数据,而只需要读取每次查询涉及的列,这样可以将I/O(输入/输出)消耗降低N倍,另外可以保存每一列的统计信息(min最小值、max最大值、sum求和等),实现部分的谓词下推。由于每一列的成员都是同构的,可以针对不同的数据类型使用更高效的数据压缩算法,进一步减小I/O。由于每一列的成员的同构性,可以使用更加适合CPU pipeline的编码方式,减小CPU的缓存失效。在结构方面,本公开实施例的列存储格式,可包括多组行数据,以及文件脚注中的补充信息。在文件末尾,以附注的形式记录压缩参数和压缩脚注的大小。即,本公开实施例的列存储格式,具体可以包括从头到脚依次设置的多个条带、文件脚注、附注。条带具体可以包括从头到脚依次设置的索引数据、行数据、条带脚注。
本实施例中,基于分布式计算技术重构了已有的空间分析算法,使用列存格式,按照空间邻近分区的原则,大幅提升海量空间数据分析的效率,而且针对大数据研发了一系列新的空间分析算法,可直接嵌入到 Spark 内运行,解决了空间大数据分析和应用难题从而能够利用分布式计算方法。
本公开实施例采用基于大规模空间数据分布式存储策略,对Spark的基础数据模型进行了空间数据的模型扩展,同时还对空间索引进行了性能优化,然后对GIS已有的空间查询和空间分析进行算法重构,使其具备分布式计算的能力,实现了超大规模空间数据在分布式文件系统下的服务调度。
本公开实施例还提供一种地图数据处理装置,主要组成部分如图3所示,包括:
获取模块31,用于获取地理信息空间数据;
任务模块32,用于根据所述地理信息空间数据,生成多个数据处理任务;
处理模块33,用于将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果;
存储模块34,用于将所述处理结果存储至对应的分布式存储节点。
在一种实施方式中,所如图4所示,任务模块包括:
转化单元41,用于将所述地理信息空间数据转化为多个弹性分布式数据集对象,每个弹性分布式数据集对象对应一个地理信息空间数据计算环节;
任务生成单元42,用于根据所述多个弹性分布式数据集对象,生成多个数据处理任务。
在一种实施方式中,所述任务生成单元还用于:
从所述多个弹性分布式数据集对象中分别提取弹性分布式数据集特征类型;
根据多个所述弹性分布式数据集对象的弹性分布式数据集特征类型,生成所述弹性分布式数据集对象的操作任务有向无环图;
根据所述操作任务有向无环图,生成所述弹性分布式数据集对象的操作任务。
在一种实施方式中,所述任务生成单元还用于:
根据所述操作任务有向无环图,生成对应于每个节点的任务;
将所述对应于每个节点的任务,拆分成不同阶段具有依赖关系的子任务;
将所述子任务作为所述弹性分布式数据集对象的操作任务。
在一种实施方式中,如图5所示,所述处理模块包括:
分发单元51,用于将各数据处理任务分发至至少一个所述工作节点;
调用单元52,用于调用所述工作节点的任务执行器,执行所述数据处理任务。
在一种实施方式中,所述处理结果中每个地理实体对应一个行健,每个行健对应表达几何体的几何字段以及记录属性值的属性字段。
本公开一种示例中,如图6所示,地图数据处理装置包括:分布式文件系统61,用于将地图数据处理任务进行拆分,并将拆分后的任务分配给工作节点进行执行。地图数据处理装置进一步包括:Spark上下文模块(Spark Context)62和多个工作节点(Work Node)63。其中,Spark上下文模块62进一步包括:RDD特征计算语言单元(RDD feature CL,RDDfeature Computing Language)64、构建单元65、分解单元66、监控单元67。分布式文件系统61将地图数据提交至Spark上下文模块62,分布式文件系统61提交的地图数据包括多个RDD对象(RDD object),即RDD1、RDD2、RDD3……RDDX。这些RDD对象经过RDD特征计算语言单元64计算,生成用于构建DAG的数据,构建单元65使用这些数据构建DAG图,将构建的DAG图发送至分解单元66进行任务分解。分解单元66将分解后的多个任务发送至监控单元67,由监控单元67发送至各工作节点63进行执行。其中,分解单元66和监控单元67分别是DAG调度接口(DAG Scheduler)和任务调度接口(Task Scheduler),即高级调度接口和低级调度接口。每个工作节点63包括若干个微核(Executor,执行器)和内存(Cache),分析程序可根据计算需要进行多节点调用。
图6所示的示例中,Spark上下文模块62相当于图3所示的获得模块31、任务模块32、处理模块33。图6所示的RDD特征计算语言单元64相当于图4对应的实施例中的转化单元41。图6所示的构建单元65、分解单元66相当于图4所示的实施例中的任务生成单元42。图6所示的监控单元67相当于图5所示的分发单元51和调用单元52。
图7示出根据本发明一实施例的地图数据处理设备的结构框图。如图7所示,该地图数据处理设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的地图数据处理方法。存储器910和处理器920的数量可以为一个或多个。
该地图数据处理设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect ,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture ,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本公开实施例中提供的方法。
本公开实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本公开实施例提供的方法。
本公开实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(Advanced RISC Machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic Random Access Memory ,DRAM) 、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Ram bus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本公开的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本公开的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种地图数据处理方法,其特征在于,包括:
获取地理信息空间数据;
根据所述地理信息空间数据,生成多个数据处理任务;
将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果,包括:调用所述工作节点处理对应分发的所述数据处理任务以获得所述处理结果;
将所述处理结果存储至对应的多个分布式存储节点,所述多个分布式节点存储的处理结果同步更新;
所述根据所述地理信息空间数据,生成多个数据处理任务,包括:
根据所述地理信息空间数据的数据任务执行阶段,将所述地理信息空间数据转化为多个弹性分布式数据集对象,每个弹性分布式数据集对象对应一个地理信息空间数据计算环节;
根据所述多个弹性分布式数据集对象,生成多个批次的数据处理任务,相邻批次的所述数据处理任务包括具有相互依赖关系的数据处理任务。
2.根据权利要求1所述的方法,其中,根据所述多个弹性分布式数据集对象,生成多个数据处理任务,包括:
从所述多个弹性分布式数据集对象中分别提取弹性分布式数据集特征类型;
根据多个所述弹性分布式数据集对象的弹性分布式数据集特征类型,生成所述弹性分布式数据集对象的操作任务有向无环图;
根据所述操作任务有向无环图,生成所述弹性分布式数据集对象的操作任务。
3.根据权利要求2所述的方法,其中,所述根据所述操作任务有向无环图,生成所述弹性分布式数据集对象的操作任务,包括:
根据所述操作任务有向无环图,生成对应于每个节点的任务;
将所述对应于每个节点的任务,拆分成不同阶段具有依赖关系的子任务;
将所述子任务作为所述弹性分布式数据集对象的操作任务。
4.根据权利要求1所述的方法,其中,所述将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果,包括:
将各数据处理任务分发至至少一个所述工作节点;
调用所述工作节点的任务执行器,执行所述数据处理任务。
5.一种地图数据处理装置,其特征在于,包括:
获取模块,用于获取地理信息空间数据;
任务模块,用于根据所述地理信息空间数据,生成多个数据处理任务;
处理模块,用于将所述多个数据处理任务分发至分布式数据处理集群的工作节点进行处理,获得处理结果,包括:调用所述工作节点处理对应分发的所述数据处理任务以获得所述处理结果;
存储模块,用于将所述处理结果存储至对应的多个分布式存储节点,所述多个分布式节点存储的处理结果同步更新;
所述任务模块包括:
转化单元,用于根据所述地理信息空间数据的数据任务执行阶段,将所述地理信息空间数据转化为多个弹性分布式数据集对象,每个弹性分布式数据集对象对应一个地理信息空间数据计算环节;
任务生成单元,用于根据所述多个弹性分布式数据集对象,生成多个批次的数据处理任务,相邻批次的所述数据处理任务包括具有相互依赖关系的数据处理任务。
6.根据权利要求5所述的装置,其中,所述任务生成单元还用于:
从所述多个弹性分布式数据集对象中分别提取弹性分布式数据集特征类型;
根据多个所述弹性分布式数据集对象的弹性分布式数据集特征类型,生成所述弹性分布式数据集对象的操作任务有向无环图;
根据所述操作任务有向无环图,生成所述弹性分布式数据集对象的操作任务。
7.根据权利要求6所述的装置,其中,所述任务生成单元还用于:
根据所述操作任务有向无环图,生成对应于每个节点的任务;
将所述对应于每个节点的任务,拆分成不同阶段具有依赖关系的子任务;
将所述子任务作为所述弹性分布式数据集对象的操作任务。
8.根据权利要求5所述的装置,其中,所述处理模块包括:
分发单元,用于将各数据处理任务分发至至少一个所述工作节点;
调用单元,用于调用所述工作节点的任务执行器,执行所述数据处理任务。
9.一种地图数据处理设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至4中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN202111184363.1A 2021-10-12 2021-10-12 地图数据处理方法、装置、设备及存储介质 Active CN113626207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111184363.1A CN113626207B (zh) 2021-10-12 2021-10-12 地图数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111184363.1A CN113626207B (zh) 2021-10-12 2021-10-12 地图数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113626207A CN113626207A (zh) 2021-11-09
CN113626207B true CN113626207B (zh) 2022-03-08

Family

ID=78391057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111184363.1A Active CN113626207B (zh) 2021-10-12 2021-10-12 地图数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113626207B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412897A (zh) * 2013-07-25 2013-11-27 中国科学院软件研究所 一种基于分布式结构的并行数据处理方法
CN106445676A (zh) * 2015-08-05 2017-02-22 杭州海康威视系统技术有限公司 一种分布式数据计算的任务分配方法和任务分配装置
CN108804602A (zh) * 2018-05-25 2018-11-13 武汉大学 一种基于spark的分布式空间数据存储计算方法
CN109062697A (zh) * 2018-08-07 2018-12-21 北京超图软件股份有限公司 一种提供空间分析服务的方法和装置
CN109309726A (zh) * 2018-10-25 2019-02-05 平安科技(深圳)有限公司 基于海量数据的文件生成方法及系统
CN109769032A (zh) * 2019-02-20 2019-05-17 西安电子科技大学 一种分布式计算方法、系统及计算机设备
CN110232087A (zh) * 2019-05-30 2019-09-13 湖南大学 大数据增量迭代方法、装置、计算机设备和存储介质
CN111125248A (zh) * 2019-12-18 2020-05-08 写逸网络科技(上海)有限公司 一种大数据存储解析查询系统
CN111949633A (zh) * 2020-08-03 2020-11-17 杭州电子科技大学 一种基于并行流处理的ict系统运行日志分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467152B2 (en) * 2016-05-18 2019-11-05 International Business Machines Corporation Dynamic cache management for in-memory data analytic platforms
CN106611037A (zh) * 2016-09-12 2017-05-03 星环信息科技(上海)有限公司 用于分布式图计算的方法与设备
US10176092B2 (en) * 2016-09-21 2019-01-08 Ngd Systems, Inc. System and method for executing data processing tasks using resilient distributed datasets (RDDs) in a storage device
CN109144707A (zh) * 2017-06-16 2019-01-04 田文洪 一种处理大数据平台Spark数据分配不均衡的方法
CN111190703B (zh) * 2019-12-11 2023-02-07 深圳平安医疗健康科技服务有限公司 实时数据处理方法、装置、计算机设备和存储介质
CN112308317A (zh) * 2020-10-30 2021-02-02 中国地震台网中心 基于分布式架构的海量地震观测数据噪声功率谱计算方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412897A (zh) * 2013-07-25 2013-11-27 中国科学院软件研究所 一种基于分布式结构的并行数据处理方法
CN106445676A (zh) * 2015-08-05 2017-02-22 杭州海康威视系统技术有限公司 一种分布式数据计算的任务分配方法和任务分配装置
CN108804602A (zh) * 2018-05-25 2018-11-13 武汉大学 一种基于spark的分布式空间数据存储计算方法
CN109062697A (zh) * 2018-08-07 2018-12-21 北京超图软件股份有限公司 一种提供空间分析服务的方法和装置
CN109309726A (zh) * 2018-10-25 2019-02-05 平安科技(深圳)有限公司 基于海量数据的文件生成方法及系统
CN109769032A (zh) * 2019-02-20 2019-05-17 西安电子科技大学 一种分布式计算方法、系统及计算机设备
CN110232087A (zh) * 2019-05-30 2019-09-13 湖南大学 大数据增量迭代方法、装置、计算机设备和存储介质
CN111125248A (zh) * 2019-12-18 2020-05-08 写逸网络科技(上海)有限公司 一种大数据存储解析查询系统
CN111949633A (zh) * 2020-08-03 2020-11-17 杭州电子科技大学 一种基于并行流处理的ict系统运行日志分析方法

Also Published As

Publication number Publication date
CN113626207A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
Cordova et al. DBSCAN on resilient distributed datasets
Ekanayake et al. Twister: a runtime for iterative mapreduce
Bhatotia et al. Incoop: MapReduce for incremental computations
Yuan et al. Spark-GPU: An accelerated in-memory data processing engine on clusters
Gunarathne et al. Scalable parallel computing on clouds using Twister4Azure iterative MapReduce
Ju et al. iGraph: an incremental data processing system for dynamic graph
Yang et al. Intermediate data caching optimization for multi-stage and parallel big data frameworks
Zhang et al. Harp: Collective communication on hadoop
Sumithra et al. Using distributed apriori association rule and classical apriori mining algorithms for grid based knowledge discovery
Kovács et al. Frequent itemset mining on hadoop
Liroz-Gistau et al. FP-Hadoop: Efficient processing of skewed MapReduce jobs
Al Naami et al. GISQF: An efficient spatial query processing system
Sethia et al. A multi-agent simulation framework on small Hadoop cluster
Hamrouni et al. A data mining correlated patterns-based periodic decentralized replication strategy for data grids
Miller et al. Open source big data analytics frameworks written in scala
Wang et al. A framework for distributed data-parallel execution in the Kepler scientific workflow system
CN115687468A (zh) 一种ETL流程Kettle在分布式服务中处理数据的系统
Lu et al. Fast failure recovery in vertex-centric distributed graph processing systems
CN103559247A (zh) 一种数据业务处理方法及装置
El Maghraoui et al. Malleable iterative MPI applications
Chunduri et al. Haloop approach for concept generation in formal concept analysis
Yoginath et al. Scalable cloning on large-scale gpu platforms with application to time-stepped simulations on grids
Yang From Google file system to omega: a decade of advancement in big data management at Google
CN113626207B (zh) 地图数据处理方法、装置、设备及存储介质
Vijayalakshmi et al. The survey on MapReduce

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant