CN103793442A

CN103793442A - 空间数据的处理方法及系统

Info

Publication number: CN103793442A
Application number: CN201210435548.XA
Authority: CN
Inventors: 黄骞; 王尔琪; 滕寿威
Original assignee: SUPERMAP SOFTWARE CO Ltd
Current assignee: SUPERMAP SOFTWARE CO Ltd
Priority date: 2012-11-05
Filing date: 2012-11-05
Publication date: 2014-05-14
Anticipated expiration: 2032-11-05
Also published as: CN103793442B

Abstract

本发明提供了一种空间数据的处理方法及系统，其中，上述空间数据的处理方法包括：基于地理单元对空间数据进行划分，获得地理单元数据集合；将所述地理单元数据批量存入开源分布式文件系统；对存入所述开源分布式文件系统的地理单元数据采用Map/Reduce算法进行分布式计算。采用本发明提供的空间数据的处理方法，可以将一个任务划分为多个任务同时执行，实现了高性能的并行化计算。因为采用开源分布式文件系统和Map/Reduce算法，采用普通PC和计算模型即可支持地理信息的高性能计算，具备适应性强和成本低廉的优点。

Description

空间数据的处理方法及系统

技术领域

本发明涉及空间数据处理技术领域，特别地，涉及一种空间数据的处理方法及系统。

背景技术

空间数据(Spatial Data)是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据。目前遥感影像、航测、基础测绘、传感器网络等空间数据呈现单次生成数据量大、生成周期短、整体数据海量的特征。

基于上述空间数据的海量特征，空间计算也呈现复杂特征。空间计算的复杂，具体分为数据密集型、计算密集型、网络密集型，其中以数据密集型为多，例如遥感影像的光学、几何纠正、矢量数据的栅格化等，在海量数据的前提下，目前的计算模型、分析算法都无法满足需求，比如救灾要求八小时渲染，但是目前的技术很难满足时间要求。

基于网络化的空间计算的计算环境也很复杂，目前IT架构也呈现云化特征。表现为CPU|GPU多核、多机集群、弹性虚拟化，并出现了Map/Reduce等分布式计算框架。所以在这种新形势、新环境下，需要研究云数据中心、多机集群下，采用分布式计算模型，提高空间分析性能，满足目前的空间应用在时效性上的需求。

现有技术一，空间计算采用单机CPU|GPU多核计算，基于目前的多核CPU、众核GPU计算架构，将计算任务动态调度到不同的计算核上并行执行。现有技术一的缺点为：可伸缩能力不足，由于只考虑了单机计算模型，而单机的计算核心总是有限的，导致计算性能也缺乏充足的可伸缩能力。对于IO密集型处理不够，由于单机多核共享一套总线与IO控制器，所以针对数据密集型计算会因为IO拥塞，造成性能下降。GPU等指令集较为简单，仅适合支撑部分计算（比如渲染分析）。

现有技术二，空间计算利用基于分布式空间数据库的分布式计算模型，采用分布式数据方式，将数据在多机之间进行完全复制和部分复制，从而支持多机并行针对本地数据进行空间分析。缺点为：空间数据库同步复制性能较低；分布式数据库价格贵、运维部署成本高；分布式粒度受到E-R模型限制，基于表、记录模式并行，缺乏空间并行机制，效率低。

总之，需要本领域技术人员迫切解决的一个技术问题就是：怎样在通用基础设施与计算模型的基础上实现地理空间数据的高性能计算。

发明内容

本发明所要解决的技术问题是提供一种空间数据的处理方法和系统，采用通用基础设施与计算模型支持地理空间数据的高性能计算，提高空间数据的处理效率。

为了解决上述问题，一方面提供了一种空间数据的处理方法，包括：

基于地理单元对空间数据进行划分，获得地理单元数据集合；

将上述地理单元数据批量存入开源分布式文件系统；

对存入上述开源分布式文件系统的地理单元数据采用Map/Reduce算法进行分布式计算。

优选的，上述基于地理单元对空间数据进行划分，获得地理单元数据集合的步骤，具体包括：

将上述空间数据划分为栅格数据和矢量数据；

采用空间四叉树格网对上述栅格数据进行递归切分，获得地理单元数据；

采用基于专题或位置对上述矢量数据进行划分，获得地理单元数据。

优选的，在上述将上述地理单元数据批量存入开源分布式文件系统步骤中，上述地理单元数据作为数据块存储在不同的数据节点；每个数据块被复制成数份，分别存储在不同的数据节点上。

优选的，在上述将上述地理单元数据批量存入开源分布式文件系统步骤中，包括调节数据块的大小以适应地理单元数据的大小，上述数据块的大小设置为64M～1G。

优选的，在上述将上述地理单元数据批量存入开源分布式文件系统步骤中，如果空间计算需要用到上述数据块的全局信息，则提前将上述全局信息写入文件头中。

优选的，在上述对存入开源分布式文件系统的地理单元数据采用Map/Reduce算法进行分布式计算的步骤中，采用基于地图与网格叠加的视图进行动态监控。

另一方面，对应上述空间数据的处理方法，本发明还提供了一种空间数据的处理系统，包括：

空间数据划分模块，用于基于地理单元对空间数据进行数据划分，获得地理单元数据集合；

地理单元存储模块，用于将上述空间数据划分模块输出的地理单元数据批量存入开源分布式文件系统；

空间计算模块，用于对存入上述地理单元存储模块中的地理单元数据采用Map/Reduce算法进行分布式计算。

优选的，上述空间数据划分模块具体包括：

数据分类单元，用于将上述空间数据划分为栅格数据和矢量数据；

栅格数据切分单元，用于采用空间四叉树格网对上述栅格数据进行递归切分，获得地理单元数据；

矢量数据切分单元，用于采用基于专题或位置对上述矢量数据进行划分，获得地理单元数据。

优选的，上述地理单元存储模块具体包括：

数据块存储单元，采用开源分布式文件系统对上述空间数据划分模块获得的地理单元数据进行存储，上述地理单元数据作为数据块存储在不同的数据节点；

冗余存储单元，用于将每个数据块复制成数份，分别存储在不同的数据节点上。

优选的，上述地理单元存储模块还包括：

数据块调节单元，用于调节数据块的大小以适应地理单元数据的大小，上述数据块的大小设置为64M～1G。

优选的，上述地理单元存储模块还包括：

信息写入单元，用于当空间计算需要用到数据块的全局信息时提前在文件头中写入上述全局信息。

优选的，上述空间计算模块具体包括：

空间计算单元，用于对地理单元存储模块中的地理单元数据进行空间计算；

动态监控单元，采用基于地图与网格叠加的视图对空间计算进程进行动态监控。

上述技术方案中的另一技术方案具有如下优点或有益效果：

本发明采用基于地理单元的空间数据划分方法，将获得的地理单元数据以数据块的形式存储于HDFS系统中的数据节点，并在HDFS系统中采用Map/Reduce算法对数据块进行空间计算。采用HDFS系统，在现有的PC集群和现有计算模型的基础上，将一个任务划分为多个任务同时执行，如果任务量大,一个任务可以方便地扩展到数以千计的数据节点中,具备高扩展性的特点,不仅实现了高性能的并行化计算，由于不需要购置大型主机,同时节约了计算成本。

另外，因为采用HDFS系统对划分后的地理单元数据能够自动进行冗余存储，因而数据不易丢失;而且单个任务机器出现错误，可以在数据冗余节点重新执行进行补偿，容错性好;没有任务调度节点，避免了单点失效。

此外，本发明提供的空间数据处理方法改变了过去地理空间数据并行计算只能针对特定算法进行软硬件网络设计的缺陷，采用通用基础设施与计算模型支持地理信息高性能计算,具备适用性强的特点。

附图说明

图1是本发明空间数据的处理方法实施例的流程图；

图2是本发明空间数据的处理方法中数据划分实施例的流程示意图；

图3是空间聚类算法中空间数据划分的示意图；

图4是HDFS系统的简单架构图；

图5示出了Map/Reduce的计算流程示意图；

图6示出了本发明空间数据处理系统实施例的结构框图；

图7示出了本发明空间数据处理系统中地理单元划分模块的结构框图；

图8示出了本发明空间数据处理系统中地理单元存储模块的结构框图；

图9示出了本发明空间数据处理系统中空间计算模块的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

在介绍本发明技术方案之前，需要简要了解并行数据处理的概念，针对海量数据集，为了得到高效的查询结果，可以先把海量数据集进行水平切分，放置到多个存储数据库中，然后将查询请求分发到这些数据库引擎，并行得到查询结果，再将这些结果合并，就可以得到实际的结果。

本发明提供一种对空间数据进行并行数据处理的方法。鉴于空间数据的海量特征，空间计算比较复杂，具体分为数据密集型、计算密集型、网络密集型，其中以数据密集型为多，例如遥感影像的光学、几何纠正、矢量数据的栅格化等。本发明实施例就以数据密集型空间计算为例，详细说明本发明对空间数据进行并行数据处理的方法。参照图1，示出了本发明一种空间数据的处理方法实施例的流程图，包括：

步骤11、基于地理单元对空间数据进行划分，获得地理单元数据集合。

数据密集型并行计算首先需要将数据进行切分，从而支持算法同时在多个IO设备基础上运行。目前应用中，空间数据主要包括栅格数据（比如影像）和矢量数据（即点、线、面数据），因此，结合图2所示的本发明空间数据的处理方法中空间数据划分实施例的流程示意图，上述步骤11可以具体包括：

步骤111、将空间数据划分为栅格数据和矢量数据。即，将空间数据进行分类，分为栅格数据和矢量数据。

步骤112、采用空间四叉树格网对上述栅格数据单元进行递归切分，获得地理单元数据。

步骤113、采用基于专题或位置对上述矢量数据单元进行划分，获得地理单元数据。即，对于矢量数据单元，可采用基于专题（如建筑、河流、管线）或基于位置（省市县等不规则区域或者规则空间四叉树格网）进行划分。

需要注意的是，数据划分是为了满足算法的可并行性，所以在实际操作中可以根据算法需要对数据划分方式进行微调，比如在空间聚类算法（如根据一系列疏密不同居民楼点计算出包括多少居民区，各居民区的范围是什么）中，单点指标的计算需要考虑周围数据的特征，如图3所示，若条纹区是数据分片，但是对其中A点的算法分析需要用到B点的值，这就需要在数据划分时候预先多保留一定的缓冲区范围，避免计算的误差。

本发明基于地理单元的并行划分方式对数据划分策略不作限制，不因为进行了微小的数据划分微调而失效。

步骤13、将地理单元数据批量存入开源分布式文件系统HDFS。

该步骤13中，采用开源分布式文件系统HDFS对步骤11获得的地理数据单元进行分布式存储。

首先介绍一下Hadoop Distributed File System，简称HDFS系统，是一个基于Google File System设计的开源分布式文件系统。

参照图4所示的HDFS系统的简单架构图，HDFS是一个主从结构的体系，一个HDFS集群是由一个名称节点和多个数据节点组成。名称节点（Namenode）是一个管理文件的命名空间和调节客户端（Client）访问文件的主服务器。名称节点操作文件命名空间的文件或目录操作，如打开、关闭、重命名等等。它同时确定块与数据节点的映射。数据节点来负责来自文件系统客户的读写请求。数据节点（Datanodes）同时还要执行块（Blocks）的创建、删除、来自名称节点的块复制指示等操作。

HDFS的内部机制是将一个文件分割成一个或多个的块，这些块存储在一组数据节点中。名称节点和数据节点都是软件运行在普通的机器之上，操作系统典型的都是linux，HDFS是用java来写的，任何支持java的机器都可以运行名称节点或数据节点，利用java语言的超轻便性，很容易将HDFS部署到大范围的机器上。　　

本发明空间数据处理方法实施例的步骤13中，采用HDFS对地理单元数据进行存储，具备以下特点：

（1）地理单元数据作为数据块存储在不同的数据节点（Datanodes）；

（2）在专门的名称节点(Namenode)上记录数据目录，包括数据名称、数据块编号、存储节点信息等元数据；

（3）每个数据块被复制成数份，分别存储在不同的数据节点上。即数据块被冗余存储，一般分为3块，可用性高。

在上述步骤13中，结合地理单元划分结果，将划分的数据通过HDFS import接口批量存入HDFS，需要注意几点:

通常HDFS中数据块大小设置的默认值为64M，超过此大小的数据会被切开为多块，分别存储于不同节点。本发明实施例中，由于地理单元数据是并行计算的基础单元，所以不能被切分，因此本发明实施例在数据块处理过程中做了以下调整：a）调高数据块大小设置。本发明实施例中，数据块的大小可以设置为64M～1G不等，优选设置为512M，支持大部分空间数据。b）在地理单元切分中，采用自适应算法或者人工操作，使得地理单元数据大小不超过此数据要求。

此外，为了确保系统的可增加性能和稳定性，并行计算中各个计算任务之间完全解耦，不存在互相通信。因而也导致了地理单元中的数据内容是单个任务的信息唯一来源。如果在空间计算中需要用到数据块的全局信息，如该数据块在整个地理空间数据中的比例等，可以将上述全局信息提前写入每个文件头中。

步骤15、对存入HDFS的地理单元数据采用Map/Reduce算法进行分布式计算。

Map/Reduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。

这种处理方式实际上是在数据存放的时候不建立索引，等实际处理数据的时候再将这些数据读入内存进行排序，并可以将数据分隔在不同的机器上同时进行处理。Map/Reduce把对数据记录的所有操作都归结两个步骤：其中，Map对现有数据做一个先期处理，得到一个中间数据集，Reduce再对中间数据集进行去重、过滤等后期处理，最后得到所要的结果。在使用Map/Reduce框架时，待处理的数据先通过顺序读磁盘进行分别处理，在内存中排序后交由合并程序进行后处理，尽量避免了磁盘的随机存取操作，使得海量数据的处理效率得到快速提高。

Map/Reduce极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。 Hadoop借鉴了此思路，在HDFS的基础上支持Map/Reduce框架开发，参照图5所示的Map/Reduce的计算流程示意图，基本思路如下：

以数据密集型计算为例，移动程序比移动数据快。将计算任务以程序包的模式下发到不同的数据节点(Datanode)。

Datanode执行程序，进入Map操作、即依此输入当前节点存储的每个数据块中的Key-Value值、中间结果写入HDFS作为中间文件。

当任务监控器Job-Tracker，一般由Namenode兼任，发现全部节点Map操作完成后，开始Reduce操作，即将HDFS中的中间文件汇总输出。

针对已经进入HDFS的地理单元数据，采用Map/Reduce方法进行分布式计算就变得非常直接，需要注意几点：

Map操作中，每次读入Key-Value，Key主要是序号，比如二维的四叉树序号、专题序号等。Value主要是基本算法的处理单元，比如一个栅格块、一个点等，程序针对此Value进行分析，将中间结果写入HDFS，并读入下一个Key-Value。

如果不需要对数据进行汇总，比如地图渲染，那么就可以直接对中间结果进行输出与应用。否则，如需要对数据进行汇总，比如土壤潜力评价，需要通过各地理单元的计算结果计算一个整体区域的评价指标，则需要进行Reduce操作，通过数学模型得到最终结果。

由此可见，采用本发明提供的空间数据的处理方法，对空间数据采用地理单元的切分方法获得地理单元数据后，利用HDFS进行数据存储，在HDFS的基础上采用Map/Reduce算法进行分布式计算。由于HDFS具备高可靠性、高扩展性、高效性、高容错性的特点，并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据，适合有着超大数据集的应用程序。

另外，在本发明空间数据处理方法的另一实施例中，在上述对存入HDFS的地理单元数据采用Map/Reduce算法进行分布式计算的步骤中，采用基于地图与网格叠加的视图进行动态监控。

由于Map/Reduce计算流程一旦开始就只能等待结束或者中止，所以对分布式计算任务的实时监控与调度显得十分重要，本发明实施例采用基于地图与格网叠加的视图进行动态监控。上述基于网格划分的空间分布式任务执行视图动态监控的基本流程如下：

当一个子任务被执行时，首先向视图服务器发送任务开始执行信息，视图服务器收到信息后，将空间格网视图中相应任务区域标记为执行颜色，比如黄色；

当子任务执行完成时，也向视图服务器发送任务执行完成信息，视图服务器收到信息后，将空间格网视图中相应任务区域标记为执行完成颜色，比如绿色；

当任务执行中出现错误，包括因为程序错误而向视图服务器发送任务错误信息，或者节点宕机导致任务长期无响应时，视图服务器将相应任务区域标记为执行错误色，比如红色。

这样就可以地理可视化地监控分布式任务调度，比起简单基于任务的监控模式有很大进步。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

对应上述空间数据的处理方法实施例，本发明还提供了一种空间数据的处理系统。参照图6，示出了本发明空间数据处理系统实施例的结构框图，包括：

空间数据划分模块21，用于基于地理单元对空间数据进行数据划分，获得地理单元数据集合。

地理单元存储模块22，用于将空间数据划分模块21输出的地理单元数据批量存入开源分布式文件系统HDFS。

空间计算模块23，用于对存入地理单元存储模块22中的地理单元数据采用Map/Reduce算法进行分布式计算。

图7示出了本发明空间数据处理系统中地理单元划分模块21实施例的结构框图，空间数据划分模块21具体包括：

数据分类单元211，用于将空间数据划分为栅格数据和矢量数据。

栅格数据切分单元212，用于采用空间四叉树格网对栅格数据进行递归切分，获得地理单元数据。

矢量数据切分单元213，用于采用基于专题或位置对矢量数据进行划分，获得地理单元数据。

图8示出了本发明空间数据处理系统中地理单元存储模块22实施例的结构框图，上述地理单元存储模块22具体包括：

数据块存储单元221，采用开源分布式文件系统HDFS对空间数据划分模块21获得的地理单元数据进行存储，上述地理单元数据作为数据块存储在HDFS中不同的数据节点。

冗余存储单元222，用于将每个数据块复制成数份，分别存储在不同的数据节点上。

优选的，上述地理单元存储模块22还可以包括：

数据块调节单元223，用于调节数据块的大小以适应地理单元数据的大小，上述数据块的大小设置为64M～1G，优选设置为512M。

优选的，上述地理单元存储模块22还包括：

信息写入单元224，用于当空间计算需要用到数据块的全局信息时提前在文件头中写入上述全局信息。

图9示出了本发明空间数据处理系统中空间计算模块23实施例的结构框图，上述空间计算模块23具体包括：

空间计算单元231，用于对地理单元存储模块22中的地理单元数据进行空间计算。

动态监控单元232，采用基于地图与网格叠加的视图对空间计算进程进行动态监控。

本发明提供的空间数据的处理系统，空间数据划分模块采用了基于地理单元的空间数据划分方法，获得更适合并行计算的地理单元数据。地理单元数据存储模块采用HDFS系统对数据进行分布式存储。空间计算模块在HDFS系统的基础上采用Map/Reduce算法进行空间计算。可见，本发明提供的空间数据的处理系统实现了可以将一个任务划分为多个任务同时执行的高性能并行化计算，地理单元数据存储模块采用HDFS系统能够自动保存数据的多个副本，即自动进行冗余存储，数据不易丢失；而且如果执行单个任务的数据节点出现错误，可以在数据冗余节点重新执行，进行补偿，即能够自动将失败的任务重新分配，具有高容错性的特点。改变了过去地理空间数据并行计算只能针对特定算法进行软硬件网络设计的缺陷，利用HDFS系统，采用通用基础设施与计算模型即可支持地理空间数据的高性能计算。整个空间数据处理系统的构建基于普通PC集群即可，不需要购置大型主机，进而节约了计算成本。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种空间数据的处理方法，以及一种空间数据的处理系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种空间数据的处理方法，其特征在于，包括：

将所述地理单元数据批量存入开源分布式文件系统；

对存入所述开源分布式文件系统的地理单元数据采用Map/Reduce算法进行分布式计算。

2.根据权利要求1所述的空间数据处理方法，其特征在于，所述基于地理单元对空间数据进行划分，获得地理单元数据集合的步骤，具体包括：

将所述空间数据划分为栅格数据和矢量数据；

采用空间四叉树格网对所述栅格数据进行递归切分，获得地理单元数据；

采用基于专题或位置对所述矢量数据进行划分，获得地理单元数据。

3.根据权利要求1所述的空间数据处理方法，其特征在于，在所述将所述地理单元数据批量存入开源分布式文件系统步骤中，所述地理单元数据作为数据块存储在不同的数据节点；每个数据块被复制成数份，分别存储在不同的数据节点上。

4.根据权利要求3所述的空间数据处理方法，其特征在于，在所述将所述地理单元数据批量存入开源分布式文件系统步骤中，包括调节数据块的大小以适应地理单元数据的大小，所述数据块的大小设置为64M～1G。

5.根据权利要求3所述的空间数据处理方法，其特征在于，在所述将所述地理单元数据批量存入开源分布式文件系统步骤中，如果空间计算需要用到所述数据块的全局信息，则提前将所述全局信息写入文件头中。

6.根据权利要求1所述的空间数据处理方法，其特征在于，在所述对存入开源分布式文件系统的地理单元数据采用Map/Reduce算法进行分布式计算的步骤中，采用基于地图与网格叠加的视图进行动态监控。

7.一种空间数据的处理系统，其特征在于，包括：

地理单元存储模块，用于将所述空间数据划分模块输出的地理单元数据批量存入开源分布式文件系统；

空间计算模块，用于对存入所述地理单元存储模块中的地理单元数据采用Map/Reduce算法进行分布式计算。

8.根据权利要求7所述的空间数据的处理系统，其特征在于，所述空间数据划分模块具体包括：

数据分类单元，用于将所述空间数据划分为栅格数据和矢量数据；

栅格数据切分单元，用于采用空间四叉树格网对所述栅格数据进行递归切分，获得地理单元数据；

矢量数据切分单元，用于采用基于专题或位置对所述矢量数据进行划分，获得地理单元数据。

9.根据权利要求7所述的空间数据处理系统，其特征在于，所述地理单元存储模块具体包括：

数据块存储单元，采用开源分布式文件系统对所述空间数据划分模块获得的地理单元数据进行存储，所述地理单元数据作为数据块存储在不同的数据节点；

10.根据权利要求9所述的空间数据处理系统，其特征在于，所述地理单元存储模块还包括：

数据块调节单元，用于调节数据块的大小以适应地理单元数据的大小，所述数据块的大小设置为64M～1G。

11.根据权利要求9或10所述的空间数据处理系统，其特征在于，所述地理单元存储模块还包括：

信息写入单元，用于当空间计算需要用到数据块的全局信息时提前在文件头中写入所述全局信息。

12.根据权利要求7所述的空间数据处理系统，其特征在于，所述空间计算模块具体包括：