CN116451005B

CN116451005B - 基于Spark分布式的栅格代数运算方法、系统及设备

Info

Publication number: CN116451005B
Application number: CN202310490998.7A
Authority: CN
Inventors: 丁双龙; 沙志友; 刘春影; 李超
Original assignee: Yizhirui Information Technology Co ltd
Current assignee: Yizhirui Information Technology Co ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2024-05-14
Anticipated expiration: 2043-05-04
Also published as: CN116451005A

Abstract

本发明涉及空间数据处理技术领域，具体涉及一种基于Spark分布式的栅格代数运算方法、系统及设备，旨在提高计算效率。本发明的基于Spark分布式的栅格代数运算方法包括：基于Spark并行技术分块读取多个空间范围和像元大小相同的栅格数据并序列化为多个第一RDD；对所有的第一RDD进行压缩，得到第二RDD；获取用户输入的表达式，并解析为运算符和函数，进而生成计算器类；根据计算器类，利用Spark对第二RDD进行分布式并行计算，生成第三RDD；对第三RDD进行反序列化并输出至栅格文件。本发明充分利用了Spark框架的优势，实现对多个栅格数据进行高效、灵活和通用的计算，并支持多种输入和输出格式。

Description

基于Spark分布式的栅格代数运算方法、系统及设备

技术领域

本发明涉及空间数据处理技术领域，具体涉及一种基于Spark分布式的栅格代数运算方法、系统及设备。

背景技术

栅格数据是一种常见的地理空间数据类型，它将地表划分为规则的网格单元，并为每个单元赋予一个数值，表示该单元对应的地理属性或现象。栅格数据计算是指对多个栅格数据进行数学运算或统计分析，以得到新的栅格数据或结果。栅格数据计算在地理信息系统、遥感、气象、水文等领域有着广泛的应用。

目前，常用的栅格数据计算方法有以下几种：

(1)基于本地文件系统的计算方法：该方法将多个栅格数据文件存储在本地磁盘中，并通过专业软件或编程语言进行读取和计算。

(2)基于Hadoop(一个由Apache基金会所开发的分布式系统基础架构)分布式文件系统(Hadoop Distributed File System，HDFS)的方法：该方法将多个栅格数据文件存储在HDFS中，并通过MapReduce(一种编程模型，用于大规模数据集的并行运算)框架进行分布式计算。该方法可以利用集群资源进行大规模的栅格数据计算任务，但是由于MapReduce框架存在较高的启动开销、不支持迭代和交互式计算等缺点，导致其性能和效率不高。

针对上述相关技术，发明人认为上述第(1)种方法适用于小规模的栅格数据计算任务，当处理大规模或高分辨率的栅格数据时，会遇到内存不足、读写速度慢和并行处理能力低等问题；上述第(2)种方法性能和效率不高：因为MapReduce框架存在较高的启动开销和网络传输开销、不支持迭代式和交互式计算、缺乏内存管理机制，并且需要编写复杂的Map(映射)和Reduce(归约)函数。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于Spark分布式的栅格代数运算方法、系统及设备，提高了计算效率。

本发明的一方面，提出一种基于Spark分布式的栅格代数运算方法，所述方法包括：

基于Spark并行技术分块读取多个空间范围和像元大小相同的栅格数据并序列化为多个第一RDD(Resilient Distributed Datasets，弹性分布式数据集)；

对所有的所述第一RDD进行压缩，得到第二RDD；

获取用户输入的表达式，并解析为运算符和函数，进而生成计算器类；

根据所述计算器类，利用Spark对所述第二RDD进行分布式并行计算，生成第三RDD；

对所述第三RDD进行反序列化并输出至栅格文件。

优选地，“基于Spark并行技术分块读取多个空间范围和像元大小相同的栅格数据并序列化为多个第一RDD”的步骤包括：

利用Spark分布式技术从多个输入文件中并行地读取栅格数据，同时在读取过程中将每个栅格数据分割为多个瓦片并序列化，得到与所述输入文件一一对应的第一RDD；

将所有的所述第一RDD按顺序存入第一数组；

将所有的所述输入文件的别名按顺序存入第二数组；

提取所有的所述第一RDD中的栅格数据类型并进行合并，得到最终输出的数据类型；

其中，

所述第一RDD为自定义的TileRDD；

所述第一RDD的每行(Row)中包括一个瓦片(Tile)和一个表示该瓦片位置的索引，且每个瓦片为一个多维数组。

优选地，“对所有的所述第一RDD进行压缩，得到第二RDD”的步骤包括：

利用Spark的zip函数，按顺序遍历所述第一数组中的每个所述第一RDD并进行压缩，从而生成第二RDD；

其中，所述第二RDD中的每行包括一个瓦片数组和一个表示该瓦片数组中各瓦片位置的索引数组。

优选地，所述计算器类包括：运算表达式、解析后的运算符和函数，以及执行函数；

所述运算表达式是将所述用户输入的表达式中参与运算的栅格数据替换为所述输入文件的别名从而得到；

解析后的函数包括自定义函数；

所述执行函数用于执行所述运算表达式；

“根据所述计算器类，利用Spark对所述第二RDD进行分布式并行计算，生成第三RDD”的步骤包括：

对所述计算器类进行序列化；

利用Spark中的map函数对所述第二RDD中的每行数据运行所述执行函数，向所述执行函数传入所述运算表达式、所述第一数组和所述第二数组，并将运算后的瓦片数据类型转换为所述最终输出的数据类型，从而生成第三RDD；

其中，

所述第三RDD的每行中包括一个瓦片和一个表示该瓦片位置的索引。

优选地，“提取所有的所述第一RDD中的栅格数据类型并进行合并，得到最终输出的数据类型”的步骤包括：

提取所有的所述第一RDD中的栅格数据类型；

从提取的所述栅格数据类型中选择取值范围最大的类型，作为所述最终输出的数据类型。

优选地，“对所述第三RDD进行反序列化并输出至栅格文件”的步骤包括：

对所述第三RDD进行反序列化并利用Spark并行技术将栅格数据写出至本地或HDFS栅格文件中。

可选地，用PySpark(基于Python语言开发的Spark接口库)替换Spark进行分布式的栅格代数运算。

本发明的第二方面，提出一种基于Spark分布式的栅格代数运算系统，所述系统包括：

读取模块，用于基于Spark并行技术分块读取多个空间范围和像元大小相同的栅格数据并序列化为多个第一RDD；

压缩模块，用于对所有的所述第一RDD进行压缩，得到第二RDD；

计算器类生成模块，用于获取用户输入的表达式，并解析为运算符和函数，进而生成计算器类；

计算模块，用于根据所述计算器类，利用Spark对所述第二RDD进行分布式并行计算，生成第三RDD；

反序列化及输出模块，用于对所述第三RDD进行反序列化，并输出至栅格文件。

本发明的第三方面，提出一种处理设备，包括存储器和处理器，所述存储器上存储有能够被所述处理器加载并执行上面所述方法的计算机程序。

本发明的第四方面，提出一种存储设备，存储有能够被处理器加载并执行上面所述方法的计算机程序。

本发明具有如下有益效果：

本发明利用Spark并行技术分块读取多个栅格数据，并将其转换为第一RDD(自定义TileRDD格式)，以便进行高效地分布式处理；将多个第一RDD压缩为一个第二RDD，并保留每个瓦片对应的索引，以便进行有序的计算；自定义计算器类，并将其序列化，以便在分布式环境中传输和执行；根据用户输入的表达式，解析运算符和函数，以便进行灵活和通用的计算。

本发明相比于基于本地文件系统的计算方法，本技术方案可以有效处理大规模或高分辨率的栅格数据；相比于基于HDFS和MapReduce框架的方法，本技术方案可以利用Spark框架的高性能和低开销特性，提高计算效率和速度，减少开销和提高效率，同时支持迭代式和交互式计算。

本发明充分利用了Spark框架的优势，实现对多个栅格数据进行高效、灵活和通用的计算，并支持多种输入和输出格式。可以对多个相同范围相同像元大小的栅格数据进行单机或多机分布式并行栅格代数运算。

附图说明

图1是本发明的基于Spark分布式的栅格代数运算方法的实施例；

图2是本发明的基于Spark分布式的栅格代数运算系统的实施例。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本申请的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明的描述中，术语“第一”、“第二”仅仅是为了便于描述，而不是指示或暗示所述装置、元件或参数的相对重要性，因此不能理解为对本发明的限制。另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

图1是本发明的基于Spark分布式的栅格代数运算方法的实施例。如图1所示，本实施例的代数运算方法包括步骤S10-S50：

步骤S10，基于Spark并行技术分块读取多个空间范围和像元大小相同的栅格数据并序列化为多个第一RDD。该步骤可以具体包括步骤S11-S14：

步骤S11，利用Spark分布式技术从多个输入文件(如tif格式)中并行地读取栅格数据，同时在读取过程中将每个栅格数据分割为多个瓦片并序列化，得到与输入文件一一对应的第一RDD。

步骤S12，将所有的第一RDD按顺序存入第一数组。

步骤S13，将所有的输入文件的别名按顺序存入第二数组。

步骤S14，提取所有的第一RDD中的栅格数据类型并进行合并，得到最终输出的数据类型。该步骤又可以进一步包括步骤(1)-(2)：

(1)提取所有的第一RDD中的栅格数据类型。

(2)从提取的栅格数据类型中选择取值范围最大的类型，作为最终输出的数据类型。

例如，将int类型与float类型合并，将生成float类型。

其中，第一RDD为自定义的TileRDD；第一RDD的每行(Row)中包括一个瓦片(Tile)和一个表示该瓦片位置的索引，且每个瓦片为一个多维数组。

步骤S20，对所有的第一RDD进行压缩，得到第二RDD。

具体地，利用Spark的zip函数，按顺序遍历第一数组中的每个第一RDD并进行压缩，从而生成第二RDD。

其中，第二RDD中的每行包括一个瓦片数组和一个表示该瓦片数组中各瓦片位置的索引数组。

步骤S30，获取用户输入的表达式，并解析为运算符和函数，进而生成计算器类。

其中，计算器类包括：运算表达式、解析后的运算符和函数，以及执行函数；运算表达式是将用户输入的表达式中参与运算的栅格数据替换为输入文件的别名从而得到；执行函数用于执行运算表达式；解析后的函数包括自定义函数。本实施例中，除了常见函数外，还提供了一些自定义的函数，如max、min、mean等，用于对Tile数组中的多个Tile进行统计分析。

步骤S40，根据计算器类，利用Spark对第二RDD进行分布式并行计算，生成第三RDD。该步骤可以具体包括步骤S41-S42：

步骤S41，对计算器类进行序列化。

步骤S42，利用Spark中的map函数对第二RDD中的每行数据运行执行函数，向执行函数传入运算表达式、第一数组和第二数组，并将运算后的瓦片数据类型转换为最终输出的数据类型，从而生成第三RDD。

其中，第三RDD的每行中包括一个瓦片和一个表示该瓦片位置的索引。

步骤S50，对第三RDD进行反序列化并输出至栅格文件。

具体地，对第三RDD进行反序列化并利用Spark并行技术将栅格数据写出至本地或HDFS栅格文件中。

上述实施例中提到的Spark用Scala语言编写，在一种可选的实施例中，也可以用PySpark替换Spark进行分布式的栅格代数运算。PySpark是一个基于Python语言开发的Spark接口库，它提供了一套针对大规模数据处理功能。PySpark可以利用Spark并行技术对HDFS中存储的栅格数据进行分布式处理。该方法可以使用Python语言编写计算逻辑，提高了通用性和可扩展性。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

基于与方法实施例相同的技术构思，本申请还提供了栅格代数运算系统的实施例，下面进行具体说明。

图2是本发明的基于Spark分布式的栅格代数运算系统的实施例。如图2所示，本实施例的系统包括：读取模块10、压缩模块20、计算器类生成模块30、计算模块40、以及反序列化及输出模块50。

其中，读取模块10用于基于Spark并行技术分块读取多个空间范围和像元大小相同的栅格数据并序列化为多个第一RDD；压缩模块20用于对所有的第一RDD进行压缩，得到第二RDD；计算器类生成模块30用于获取用户输入的表达式，并解析为运算符和函数，进而生成计算器类；计算模块40，用于根据计算器类，利用Spark对第二RDD进行分布式并行计算，生成第三RDD；反序列化及输出模块，用于对第三RDD进行反序列化，并输出至栅格文件。

进一步地，本发明还提供了一种处理设备的实施例。本实施例的处理设备包括存储器和处理器，所述存储器上存储有能够被所述处理器加载并执行上面所述方法的计算机程序。

更进一步地，本发明还提供了一种存储设备，本实施例的存储设备中存储有能够被处理器加载并执行上面所述方法的计算机程序。

所述存储设备可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤和模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案。但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于Spark分布式的栅格代数运算方法，其特征在于，所述方法包括：

基于Spark并行技术分块读取多个空间范围和像元大小相同的栅格数据并序列化为多个第一RDD；

对所有的所述第一RDD进行压缩，得到第二RDD；

对所述第三RDD进行反序列化并输出至栅格文件；

“基于Spark并行技术分块读取多个空间范围和像元大小相同的栅格数据并序列化为多个第一RDD”的步骤包括：

将所有的所述第一RDD按顺序存入第一数组；

将所有的所述输入文件的别名按顺序存入第二数组；

其中，

所述第一RDD为自定义的TileRDD；

所述第一RDD的每行中包括一个瓦片和一个表示该瓦片位置的索引，且每个瓦片为一个多维数组；

所述计算器类包括：运算表达式、解析后的运算符和函数，以及执行函数；

解析后的函数包括自定义函数；

所述执行函数用于执行所述运算表达式；

对所述计算器类进行序列化；

其中，

2.根据权利要求1所述的基于Spark分布式的栅格代数运算方法，其特征在于，“对所有的所述第一RDD进行压缩，得到第二RDD”的步骤包括：

3.根据权利要求1所述的基于Spark分布式的栅格代数运算方法，其特征在于，

“提取所有的所述第一RDD中的栅格数据类型并进行合并，得到最终输出的数据类型”的步骤包括：

提取所有的所述第一RDD中的栅格数据类型；

4.根据权利要求1所述的基于Spark分布式的栅格代数运算方法，其特征在于，“对所述第三RDD进行反序列化并输出至栅格文件”的步骤包括：

5.根据权利要求1-4中任一项所述的基于Spark分布式的栅格代数运算方法，其特征在于，用PySpark替换Spark进行分布式的栅格代数运算。

6.一种基于Spark分布式的栅格代数运算系统，其特征在于，所述系统包括：

反序列化及输出模块，用于对所述第三RDD进行反序列化，并输出至栅格文件；

所述读取模块具体配置为：

将所有的所述第一RDD按顺序存入第一数组；

将所有的所述输入文件的别名按顺序存入第二数组；

其中，

所述第一RDD为自定义的TileRDD；

解析后的函数包括自定义函数；

所述执行函数用于执行所述运算表达式；

所述计算模块具体配置为：

对所述计算器类进行序列化；

其中，

7.一种处理设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被所述处理器加载并执行如权利要求1-5中任一项所述方法的计算机程序。

8.一种存储设备，其特征在于，存储有能够被处理器加载并执行如权利要求1-5中任一项所述方法的计算机程序。