CN116501810A - 一种基于数据湖的空间大数据处理系统及方法 - Google Patents

一种基于数据湖的空间大数据处理系统及方法 Download PDF

Info

Publication number
CN116501810A
CN116501810A CN202310455529.1A CN202310455529A CN116501810A CN 116501810 A CN116501810 A CN 116501810A CN 202310455529 A CN202310455529 A CN 202310455529A CN 116501810 A CN116501810 A CN 116501810A
Authority
CN
China
Prior art keywords
data
lake
module
sub
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310455529.1A
Other languages
English (en)
Other versions
CN116501810B (zh
Inventor
黄超
赵慧慧
陈梦月
张康
刘欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yizhirui Information Technology Co ltd
Original Assignee
Beijing Jietai Yunji Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jietai Yunji Information Technology Co ltd filed Critical Beijing Jietai Yunji Information Technology Co ltd
Priority to CN202310455529.1A priority Critical patent/CN116501810B/zh
Publication of CN116501810A publication Critical patent/CN116501810A/zh
Application granted granted Critical
Publication of CN116501810B publication Critical patent/CN116501810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于数据湖的空间大数据处理系统及方法,涉及空间大数据处理技术领域。在该系统中,所述系统包括:获取模块、数据入湖模块以及数据湖解析模块;所述获取模块,用于获取不同数据源中多种类型空间大数据;所述数据入湖模块,用于将所述不同数据源中所述多种类型空间大数据储存至数据湖;所述数据湖解析模块,用于分别解析所述多种类型空间大数据,得到各类型空间大数据对应的结构化数据;所述数据湖解析模块,还用于将多种所述结构化数据储存至第一Delta表。实施本申请提供的技术方案,可以实现空间大数据的统一存储。

Description

一种基于数据湖的空间大数据处理系统及方法
技术领域
本申请涉及空间大数据处理技术领域,具体涉及一种基于数据湖的空间大数据处理系统及方法。
背景技术
随着科技的发展,世界经济数字化转型正处在高速发展的道路上,空间大数据作为驱动科技创新发展的关键要素,其经济价值与战略价值愈发凸显,但与之对应的挑战也日益严峻。
现如今,空间大数据治理面临着如空间大数据来源复杂性,空间大数据种类复杂性,空间大数据存储占用大,空间大数据分析计算量大等等诸多难题。传统的空间大数据处理方案需要根据空间大数据的类型分别存储在不同的文件系统和数据库中,其无法实现空间大数据的统一存储。因此,如何解决空间大数据的统一存储成为亟需解决的问题。
因此,亟需一种基于数据湖的空间大数据处理系统及方法来解决当前技术存在的问题。
发明内容
本申请提供了一种基于数据湖的空间大数据处理系统及方法,可以实现空间大数据的统一存储。
第一方面,本申请提供了一种基于数据湖的空间大数据处理系统,所述系统包括:获取模块、数据入湖模块以及数据湖解析模块;所述获取模块,用于获取不同数据源中多种类型空间大数据;所述数据入湖模块,用于将所述不同数据源中所述多种类型空间大数据储存至数据湖;所述数据湖解析模块,用于分别解析所述多种类型空间大数据,得到各类型空间大数据对应的结构化数据;所述数据湖解析模块,还用于将多种所述结构化数据储存至第一Delta表。
通过采用上述技术方案,数据湖入湖模块可以实现将不同数据源中多种类型空间大数据进行存储,从而使得大量的空间大数据入湖方式更加简易;并通过数据湖解析模块将多种类型空间大数据进行解析,得到各类型空间大数据对应的结构化数据,从而统一各类型空间大数据的数据结构;数据湖解析模块再将多种结构化数据储存至第一Delta表,可以使得各类型空间大数据统一存储,进而提高了各类型空间大数据的存储效率。
可选的,所述不同数据源包括:文件型服务器数据源、API服务器数据源、数据库类型数据源以及文件类型数据源;所述数据入湖模块包括:文件数据源入湖子模块、API入湖子模块、数据库入湖子模块以及手动文件上传子模块;所述文件数据源入湖子模块,用于通过Input抽象接口获取所述文件型服务器数据源中所述多种类型空间大数据的数据流,并通过Output抽象接口将所述文件型服务器数据源中所述多种类型空间大数据的数据流储存至所述数据湖;所述API入湖子模块,用于调用所述API服务器数据源的HTTP请求,并将请求得到的所述API服务器数据源中所述多种类型空间大数据储存至所述数据湖;所述数据库入湖子模块,用于通过JDBC将所述数据库类型数据源中所述多种类型空间大数据储存至所述数据湖;所述手动文件上传子模块,用于提供文件上传入口,并通过所述文件上传入口获取用户储存至所述数据湖中的将文件类型数据源中所述多种类型空间大数据。
可选的,所述多种类型空间大数据包括半结构化的JSON格式数据、结构化的SHP数据、结构化的GDB数据、非结构化的影像数据以及非结构化的图片数据;所述数据湖解析模块包括:JSON数据解析子模块、SHP数据解析子模块、GDB数据解析子模块、影像数据解析子模块以及图片数据解析子模块;所述JSON数据解析子模块,用于基于JsonPath和JsonJolt将所述半结构化的JSON格式数据转化成结构化数据;所述SHP数据解析子模块,用于基于Apache Sedona引擎的ShapefileReader.readToGeometryRDD方法,将所述结构化的SHP数据转换为二维表数据;所述GDB数据解析子模块,用于基于GDB规范,对所述结构化的GDB数据解析得到二维表数据;所述影像数据解析子模块,用于提取所述非结构化的影像数据的元数据信息,并将所述元数据信息整合为二维表数据集合;所述图片数据解析子模块,用于根据所述非结构化的图片数据生成二维表数据。
可选的,所述系统还包括:数据湖分析模块;所述数据湖分析模块,用于采用预设方法对所述第一Delta表进行分析,得到分析结果;所述分析结果包括第二Delta表。
可选的,所述数据湖分析模块包括数据湖计算子模块和数据湖数据分配子模块;所述数据湖计算子模块,用于基于Spark框架和Apache Sedona引擎定义多种算子规范,根据所述多种算子规范,对所述第一Delta表进行分析;所述数据湖数据分配子模块,用于根据所述多种算子规范,将所述第一Delta表中的部分所述结构化数据分配至所述第二Delta表。
通过采用上述技术方案,数据湖分析模块中的数据湖计算子模块基于Spark框架和Apache Sedona引擎定义多种算子规范,并根据所述多种算子规范,对所述第一Delta表进行分析,从而使得各类型空间大数据能够被统一分析处理,进而有效地增加了分析处理各类型空间大数据的效率。
可选的,所述系统还包括:数据湖管理模块;所述数据湖管理模块,用于管理所述数据湖中的所述不同数据源中所述多种类型空间大数据,以使用户查找和预览所述不同数据源中所述多种类型空间大数据。
可选的,所述数据湖管理模块包括元数据管理子模块和空间大数据预览子模块;所述元数据管理子模块,用于根据所述多种类型空间大数据类型,提取对应类型的所述多种类型空间大数据的多种元数据信息,并将所述多种元数据信息储存于数据库中;所述空间大数据预览子模块,用于预览所述二维表数据;所述空间大数据预览子模块,还用于基于trino组件,预览所述数据库类型数据源中所述多种类型空间大数据;所述空间大数据预览子模块,还用于基于Apache Sedona引擎的Viz组件,生成所述多种类型空间大数据的空间渲染图。
通过采用上述技术方案,通过数据湖管理模块中的元数据管理子模块和空间大数据预览子模块,通过直接预览二维表数据,通过trino组件预览数据库类型数据源中多种类型空间大数据以及通过Apache Sedona引擎的Viz组件,生成所述多种类型空间大数据的空间渲染图,可以提供用户多种多样的空间大数据预览方式。
可选的,所述数据湖计算子模块,还用于在将所述第一Delta表中的所述多种所述结构化数据加载至内存之后,对所述第一Delta表进行分析。
在本申请的第二方面提供了一种基于数据湖的空间大数据处理方法,所述方法包括:获取不同数据源中多种类型空间大数据;将所述不同数据源中所述多种类型空间大数据储存至数据湖;解析所述多种类型空间大数据,得到多种结构化数据;将多种所述结构化数据储存至第一Delta表。
可选的,所述方法还包括:采用预设方法对所述第一Delta表进行分析,得到分析结果;所述分析结果包括第二Delta表。
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、数据湖入湖模块可以实现将不同数据源中多种类型空间大数据进行存储,从而使得大量的空间大数据入湖方式更加简易;并通过数据湖解析模块将多种类型空间大数据进行解析,得到各类型空间大数据对应的结构化数据,从而统一各类型空间大数据的数据结构;数据湖解析模块再将多种结构化数据储存至第一Delta表,可以使得各类型空间大数据统一存储,进而提高了各类型空间大数据的存储效率。
2、数据湖分析模块中的数据湖计算子模块基于Spark框架和Apache Sedona引擎定义多种算子规范,并根据所述多种算子规范,对所述第一Delta表进行分析,从而使得各类型空间大数据能够被统一分析处理,进而有效地增加了分析处理各类型空间大数据的效率。
3、通过数据湖管理模块中的元数据管理子模块和空间大数据预览子模块,通过直接预览二维表数据,通过trino组件预览数据库类型数据源中多种类型空间大数据以及通过Apache Sedona引擎的Viz组件,生成所述多种类型空间大数据的空间渲染图,可以提供用户多种多样的空间大数据预览方式。
附图说明
图1是本申请实施例提供的一种基于数据湖的空间大数据处理系统的模块示意图;
图2是本申请实施例提供的一种文件型服务器数据源入湖原理示意图;
图3是本申请实施例提供的一种API服务器数据源入湖原理示意图;
图4是本申请实施例提供的一种数据库类型数据源入湖原理示意图;
图5是本申请实施例提供的一种空间计算算子示意图;
图6是本申请实施例提供的一种空间大数据专属元数据信息示意图;
图7是本申请实施例提供的一种空间大数据的空间渲染图;
图8是本申请实施例提供的一种基于数据湖的空间大数据处理方法的流程示意图。
附图标记说明:1、获取模块;2、数据入湖模块;21、文件数据源入湖子模块;22、API入湖子模块;23、数据库入湖子模块;24、手动文件上传子模块;3、数据湖解析模块;31、JSON数据解析子模块;32、SHP数据解析子模块;33、GDB数据解析子模块;34、影像数据解析子模块;35、图片数据解析子模块;4、数据湖分析模块;41、数据湖计算子模块;42、数据湖数据分配子模块;5、数据湖管理模块;51、元数据管理子模块;52、空间大数据预览子模块。
具体实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请提供了一种基于数据湖的空间大数据处理系统,参照图1,其示出了本申请实施例提供的一种基于数据湖的空间大数据处理系统的模块示意图。该系统包括:获取模块1、数据入湖模块2以及数据湖解析模块3;获取模块1,用于获取不同数据源中多种类型空间大数据;数据入湖模块2,用于将不同数据源中多种类型空间大数据储存至数据湖;数据湖解析模块3,用于分别解析多种类型空间大数据,得到各类型空间大数据对应的结构化数据;数据湖解析模块3,还用于将多种结构化数据储存至第一Delta表。
具体来说,数据湖是一种在系统或存储库中以自然格式存储数据的方法,空间大数据是指在地理空间上具有位置和形状的大数据,空间大数据通常以空间坐标系(如经纬度坐标系)为基础,并包含了一些与空间相关的属性信息。
在本技术方案中,数据湖解析模块3、数据湖分析模块4以及数据湖管理模块5共同组成数据湖。
获取模块1获取不同数据源中多种类型空间大数据,其中不同数据源包括但不限于文件型服务器数据源、API服务器数据源、数据库类型数据源以及文件类型数据源。本申请主要以文件型服务器数据源、API服务器数据源、数据库类型数据源以及文件类型数据源进行详细说明。文件型服务器数据源中多种类型空间大数据包括但不限于影像文件、航拍文件、图片、视频、音频、文档、SHP文件、GDB文件、CSV文件、EXCEL文件、XML文件、JSON文件等等;API服务器数据源中多种类型空间大数据包括但不限于图片、文档、JSON文件、XML文件等等;数据库类型数据源中多种类型空间大数据包括但不限于空间矢量数据;文件类型数据源中多种类型空间大数据包括但不限于SHP文件、GDB文件、CSV文件、EXCEL文件、TXT文件等等。
数据湖入湖模块将文件型服务器数据源、API服务器数据源、数据库类型数据源以及文件类型数据源中多种类型的空间大数据不进行任何处理,直接储存至数据湖之中。
数据湖解析模块3,再分别解析多种类型空间大数据,得到各类型空间大数据对应的结构化数据,再将将多种结构化数据储存至第一Delta表。由于数据湖中存储的空间大数据从数据结构类型上可分为结构化数据、半结构化数据以及非结构化数据,因此,数据湖解析模块3的作用在于将结构化数据和半结构化数据转换成多种结构化数据,再将多种结构化数据储存至第一Delta表中。第一储Delta表即初步存储多种结构化数据的Delta表。Delta表是开源软件Delta Lake定义的表格式,其是基于parquet(一种列式存储的数据格式)增强的一种文件格式;parquet一般适用于批量增加或者删除。delta表具有同时读写,并且能保证数据的一致性;支持回滚和删改;在线业务不下线的同时可以重新处理历史数据;支持实时数据处理等等特性。
在一种可能的实施方式中,不同数据源包括:文件型服务器数据源、API服务器数据源、数据库类型数据源以及文件类型数据源;数据入湖模块2包括:文件数据源入湖子模块21、API入湖子模块22、数据库入湖子模块23以及手动文件上传子模块24;文件数据源入湖子模块21,用于通过Input抽象接口获取文件型服务器数据源中多种类型空间大数据的数据流,并通过Output抽象接口将文件型服务器数据源中多种类型空间大数据的数据流储存至数据湖;API入湖子模块22,用于调用API服务器数据源的HTTP请求,并将请求得到的API服务器数据源中多种类型空间大数据储存至数据湖;数据库入湖子模块23,用于通过JDBC将数据库类型数据源中多种类型空间大数据储存至数据湖;手动文件上传子模块24,用于提供文件上传入口,并通过文件上传入口获取用户储存至数据湖中的将文件类型数据源中多种类型空间大数据。
具体来说,在本技术方案中,参照图2,其示出了本申请实施例提供的一种文件型服务器数据源入湖原理示意图。文件数据源入湖子模块21设计是按照适配器模式,其提供了Input和Output抽象接口。其中Input抽象接口主要负责从文件型服务器数据源中获取数据流,在经过数据中转后,Output抽象接口在接收到数据流后再存入数据湖中。其中,Input抽象接口包含两个主要方法:首先查询文件列表,即通过文件名正则查询、时间查询、子路径查询等查询方式,查询到用户希望获取到的数据范围。查询结果返回文件的元数据信息,即文件的数据类型、格式、含义、来源、创建时间、更新时间等信息,不返回文件本体。再打开具体文件的数据流,即根据前述返回的文件的元数据信息,打开文件具体的数据流,以此获取到完整的文件数据。Output抽象接口包含一个主要方法:将获取得到的文件的数据流,写入到数据湖中。Input抽象接口支持多种类型文件型服务器数据源中服务器的协议,包括但不限于S3协议、HDFS协议、SFTP协议、FTP协议、NFS协议。
参照图3,其示出了本申请实施例提供的一种API服务器数据源入湖原理示意图。API入湖子模块22主要负责调用HTTP请求,将请求回来的文件保存至数据湖中。API入湖子模块22和文件数据源入湖子模块21相比,最大的区别是每次请求只能获取单个文件。基于数据湖架构,API入湖子模块22请求得到的文件不用考虑数据类型、大小等因素,可以直接将源文件原封不动以文件形式保存到数据湖中。
参照图4,其示出了本申请实施例提供的一种数据库类型数据源入湖原理示意图。JDBC是一种可用于执行SQL语句的JavaAPI它由一些Java语言写的类、界面组成。JDBC给数据库应用开发人员、数据库前台工具开发人员提供了一种标准的应用程序设计接口,使开发人员可以用纯Java语言编写完整的数据库应用程序。通过使用JDBC,开发人员可以很方便地将SQL语句传送给几乎任何一种数据库,屏蔽数据库之间的调用差异。数据库类型数据源包括但不限于MySQL、Oracle、SQL Server以及PostgreSQL。JDBC通过连接MySQL、Oracle、SQL Server以及PostgreSQL对应的驱动,以此访问MySQL、Oracle、SQL Server以及PostgreSQL中储存的数据。数据库入湖子模块23通过Hibernate方言、JOOQ方言、MyBatis方言等方法实现屏蔽不同数据库类型数据源之间的SQL语法差异。和文件数据直接以文件本身存放在数据湖中不同,数据库是二维表数据,在数据湖中选用Delta表的格式进行存储。
手动文件上传子模块24用于提供文件上传入口,并通过文件上传入口获取用户储存至数据湖中的将文件类型数据源中多种类型空间大数据。
在一种可能的实施方式中,数据湖解析模块3包括:JSON数据解析子模块31、SHP数据解析子模块32、GDB数据解析子模块33、影像数据解析子模块34以及图片数据解析子模块35;JSON数据解析子模块31,用于基于JsonPath和JsonJolt将半结构化的JSON格式数据转化成结构化数据;SHP数据解析子模块32,用于基于Apache Sedona引擎的ShapefileReader.readToGeometryRDD方法,将结构化的SHP数据转换为二维表数据;GDB数据解析子模块33,用于基于GDB规范,对结构化的GDB数据解析得到二维表数据;影像数据解析子模块34,用于提取非结构化的影像数据的元数据信息,并将元数据信息整合为二维表数据集合;图片数据解析子模块35,用于根据非结构化的图片数据生成二维表数据。
具体来说,Apache Sedona引擎是一个用于处理大规模空间数据的集群计算系统。其提供了一套开箱即用的空间弹性分布式数据集,可以跨机器有效地加载、处理和分析大规模空间数据。在本技术方案中,由于空间大数据中包含空间数据和空间字段,因此空间数据由数据湖解析模块3进行解析后,统一用Delta表进行存储,空间字段使用Apache Sedona引擎的ST_AsText函数转为WKT格式后作为字符串进行统一存储。由于Delta表中存储的均为结构化数据,因此数据湖解析模块3需要将半结构化的JSON格式数据通过JsonPath和JsonJolt转化成结构化数据后,存入Delta表中。由于结构化数据之间的差异性较大,因此需要将所有的结构化数据转换成统一二维表的形式,便于后续调用和分析。因此数据湖解析模块3将结构化的SHP数据和结构化的GDB数据转换为二维表数据后,存入Delta表中;数据湖解析模块3从非结构化的影像数据的.xml文件中提取出元数据信息,形成一批元数据二维表数据集合,并且将非结构化的影像数据的缩略图和快视图以二进制的形式和二维表数据集合保存在一起,然后存入Delta表中;数据湖解析模块3提取非结构化的图片数据中的多种信息,例如图片的文件名、类型、大小、创建日期、更新日期、经纬度、二进制的缩略图等,并生成二维表数据。
在一种可能的实施方式中,系统还包括:数据湖分析模块4;数据湖分析模块4,用于采用预设方法对第一Delta表进行分析,得到分析结果;分析结果包括第二Delta表。
具体来说,在本技术方案中,第二Delta表可以为多个Delta表。数据湖分析模块4将根据用户的需求,对第一Delta表进行分析。举例来说,第一Delta表中存储着全国各地水电站的大数据信息,现在需求为提取出受到山洪影响的水电站的大数据信息,数据湖分析模块4将提取出受到自然灾害被影响的水电站的大数据信息存入新的Delta表中,以便于用户后续预览和持续分析。
在一种可能的实施方式中,数据湖分析模块4包括数据湖计算子模块41和数据湖数据分配子模块42;数据湖计算子模块41,用于基于Spark框架和Apache Sedona引擎定义多种算子规范,算子规范中包括抽象算子、单图层算子以及多图层算子。单图层算子的功能包括但不限于矢量裁剪、数据空间化、缓冲区分析、面积计算;多图层算子的功能包括但不限于空间链接、叠加分析、融合边界。根据多种算子规范,对第一Delta表进行分析;数据湖数据分配子模块42,用于根据多种算子规范,将第一Delta表中的部分结构化数据分配至第二Delta表。
具体来说,在本技术方案中,参照图5,其示出了本申请实施例提供的一种空间计算算子示意图。数据湖计算子模块41基于Spark框架和Apache Sedona引擎定义多种算子规范,即根据用户需求通过代码实现多种算子规范。其中Spark框架是目前最主流的大数据处理框架。但Spark框架不具备处理空间大数据的能力,因此需要结合Apache Sedona,从而使得Spark框架具有空间大数据分析计算的能力。在数据湖计算子模块41对空间大数据进行相对应计算分析之后,数据湖数据分配子模块42,再基于多种算子规范,将第一Delta表中的部分结构化数据分配至第二Delta表。
在一种可能的实施方式中,数据湖计算子模块41,还用于在将第一Delta表中的多种结构化数据加载至内存之后,对第一Delta表进行分析。
具体来说,在本技术方案中,数据湖计算子模块41对空间大数据的计算是在内存中进行计算的;而Delta表只负责空间大数据最后的存储,计算分析的过程和Delta表没有关系。因此数据湖计算子模块41在分析的时候需要从Delta表中加载空间大数据到内存之中。
在一种可能的实施方式中,系统还包括:数据湖管理模块5;数据湖管理模块5,用于管理数据湖中的不同数据源中多种类型空间大数据,以使用户查找和预览不同数据源中多种类型空间大数据。
在一种可能的实施方式中,数据湖管理模块5包括元数据管理子模块51和空间大数据预览子模块52;元数据管理子模块51,用于根据多种类型空间大数据类型,提取对应类型的多种类型空间大数据的多种元数据信息,并将多种元数据信息储存于数据库中;空间大数据预览子模块52,用于预览二维表数据;空间大数据预览子模块52,还用于基于trino组件,预览数据库类型数据源中多种类型空间大数据;空间大数据预览子模块52,还用于基于Apache Sedona引擎的Viz组件,生成多种类型空间大数据的空间渲染图。
具体来说,在本技术方案中,元数据管理子模块51将记录所有空间大数据的元数据信息。空间大数据具有通用的元数据信息,举例来说,所有空间大数据的通用元数据信息包括:路径、名称、大小、文件类型、数据类型、空间类型、空间坐标系、空间范围、创建时间、修改时间、负责人等信息。但有些空间大数据还具有专属的元数据信息。参照图6,其示出了本申请实施例提供的一种空间大数据专属元数据信息示意图。举例来说,原始卫片包括的元数据信息为:数据编码、影像名称、数据文件夹名、快视图文件名、密级、地面分辨率、数据格式、空间范围wkt字符串、空间范围wkid值、影像wkid值、空间参考、数据分类、备注、卫星名称、卫星类型、传感器类型、影像获取日期、影像获取时间、时间类型、影像接收时间、接收站名称、波段、波段数、产品号、产品级别、影像轨道号、景号、景Path、景ROW、相机侧视角、卫星平台侧摆角、影像云量、距离×方位向分辨率、轨道方向、极化方式、成像模式以及入射角等元数据信息。其它空间大数据的专属元数据信息在本申请中不做过多说明。
空间大数据预览子模块52则提供了多种预览空间大数据的方式。其可以直接预览元数据信息和二维表数据;还可以基于trino组件,预览数据库类型数据源中多种类型空间大数据;还可以基于Apache Sedona引擎的Viz组件,生成多种类型空间大数据的空间渲染图。参照图7,其示出了本申请实施例提供的一种空间大数据的空间渲染图。
参照图8,其示出了本申请实施例提供的一种基于数据湖的空间大数据处理方法的流程示意图。方法包括步骤S101-S104:
步骤S101:获取不同数据源中多种类型空间大数据。
步骤S102:将不同数据源中多种类型空间大数据储存至数据湖。
步骤S103:解析多种类型空间大数据,得到多种结构化数据。
步骤S104:将多种结构化数据储存至第一Delta表。
在一种可能的实施方式中,方法还包括步骤:采用预设方法对第一Delta表进行分析,得到分析结果;分析结果包括第二Delta表。
以上者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。
本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (10)

1.一种基于数据湖的空间大数据处理系统,其特征在于,所述系统包括:获取模块(1)、数据入湖模块(2)以及数据湖解析模块(3);
所述获取模块(1),用于获取不同数据源中多种类型空间大数据;
所述数据入湖模块(2),用于将所述不同数据源中所述多种类型空间大数据储存至数据湖;
所述数据湖解析模块(3),用于分别解析所述多种类型空间大数据,得到各类型空间大数据对应的结构化数据;
所述数据湖解析模块(3),还用于将多种所述结构化数据储存至第一Delta表。
2.根据权利要求1所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述不同数据源包括:文件型服务器数据源、API服务器数据源、数据库类型数据源以及文件类型数据源;所述数据入湖模块(2)包括:文件数据源入湖子模块(21)、API入湖子模块(22)、数据库入湖子模块(23)以及手动文件上传子模块(24);
所述文件数据源入湖子模块(21),用于通过Input抽象接口获取所述文件型服务器数据源中所述多种类型空间大数据的数据流,并通过Output抽象接口将所述文件型服务器数据源中所述多种类型空间大数据的数据流储存至所述数据湖;
所述API入湖子模块(22),用于调用所述API服务器数据源的HTTP请求,并将请求得到的所述API服务器数据源中所述多种类型空间大数据储存至所述数据湖;
所述数据库入湖子模块(23),用于通过JDBC将所述数据库类型数据源中所述多种类型空间大数据储存至所述数据湖;
所述手动文件上传子模块(24),用于提供文件上传入口,并通过所述文件上传入口获取用户储存至所述数据湖中的将文件类型数据源中所述多种类型空间大数据。
3.根据权利要求1所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述多种类型空间大数据包括半结构化的JSON格式数据、结构化的SHP数据、结构化的GDB数据、非结构化的影像数据以及非结构化的图片数据;所述数据湖解析模块(3)包括:JSON数据解析子模块(31)、SHP数据解析子模块(32)、GDB数据解析子模块(33)、影像数据解析子模块(34)以及图片数据解析子模块(35);
所述JSON数据解析子模块(31),用于基于JsonPath和JsonJolt将所述半结构化的JSON格式数据转化成结构化数据;
所述SHP数据解析子模块(32),用于基于Apache Sedona引擎的ShapefileReader.readToGeometryRDD方法,将所述结构化的SHP数据转换为二维表数据;
所述GDB数据解析子模块(33),用于基于GDB规范,对所述结构化的GDB数据解析得到二维表数据;
所述影像数据解析子模块(34),用于提取所述非结构化的影像数据的元数据信息,并将所述元数据信息整合为二维表数据集合;
所述图片数据解析子模块(35),用于根据所述非结构化的图片数据生成二维表数据。
4.根据权利要求1所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述系统还包括:数据湖分析模块(4);
所述数据湖分析模块(4),用于采用预设方法对所述第一Delta表进行分析,得到分析结果;所述分析结果包括第二Delta表。
5.根据权利要求4所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述数据湖分析模块(4)包括数据湖计算子模块(41)和数据湖数据分配子模块(42);
所述数据湖计算子模块(41),用于基于Spark框架和Apache Sedona引擎定义多种算子规范,根据所述多种算子规范,对所述第一Delta表进行分析;
所述数据湖数据分配子模块(42),用于根据所述多种算子规范,将所述第一Delta表中的部分所述结构化数据分配至所述第二Delta表。
6.根据权利要求3所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述系统还包括:数据湖管理模块(5);
所述数据湖管理模块(5),用于管理所述数据湖中的所述不同数据源中所述多种类型空间大数据,以使用户查找和预览所述不同数据源中所述多种类型空间大数据。
7.根据权利要求6所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述数据湖管理模块(5)包括元数据管理子模块(51)和空间大数据预览子模块(52);
所述元数据管理子模块(51),用于根据所述多种类型空间大数据类型,提取对应类型的所述多种类型空间大数据的多种元数据信息,并将所述多种元数据信息储存于数据库中;
所述空间大数据预览子模块(52),用于预览所述二维表数据;
所述空间大数据预览子模块(52),还用于基于trino组件,预览所述数据库类型数据源中所述多种类型空间大数据;
所述空间大数据预览子模块(52),还用于基于Apache Sedona引擎的Viz组件,生成所述多种类型空间大数据的空间渲染图。
8.根据权利要求5所述的一种基于数据湖的空间大数据处理系统,其特征在于,所述数据湖计算子模块(41),还用于在将所述第一Delta表中的所述多种所述结构化数据加载至内存之后,对所述第一Delta表进行分析。
9.一种基于数据湖的空间大数据处理方法,其特征在于,所述方法包括:
获取不同数据源中多种类型空间大数据;
将所述不同数据源中所述多种类型空间大数据储存至数据湖;
解析所述多种类型空间大数据,得到多种结构化数据;
将多种所述结构化数据储存至第一Delta表。
10.根据权利要求9所述的一种基于数据湖的空间大数据处理方法,其特征在于,所述方法还包括:
采用预设方法对所述第一Delta表进行分析,得到分析结果;所述分析结果包括第二Delta表。
CN202310455529.1A 2023-04-25 2023-04-25 一种基于数据湖的空间大数据处理系统及方法 Active CN116501810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310455529.1A CN116501810B (zh) 2023-04-25 2023-04-25 一种基于数据湖的空间大数据处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310455529.1A CN116501810B (zh) 2023-04-25 2023-04-25 一种基于数据湖的空间大数据处理系统及方法

Publications (2)

Publication Number Publication Date
CN116501810A true CN116501810A (zh) 2023-07-28
CN116501810B CN116501810B (zh) 2024-07-05

Family

ID=87321115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310455529.1A Active CN116501810B (zh) 2023-04-25 2023-04-25 一种基于数据湖的空间大数据处理系统及方法

Country Status (1)

Country Link
CN (1) CN116501810B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030082539A1 (en) * 2001-06-26 2003-05-01 Ecker David J. Secondary structure defining database and methods for determining identity and geographic origin of an unknown bioagent thereby
CN110300963A (zh) * 2016-09-15 2019-10-01 英国天然气控股有限公司 大规模数据储存库中的数据管理系统
CN111221791A (zh) * 2018-11-27 2020-06-02 中云开源数据技术(上海)有限公司 一种多源异构数据导入数据湖的方法
CN114528337A (zh) * 2022-01-12 2022-05-24 南湖实验室 面向多源异构数据源的接口系统、通用接口及其实现方法
CN114547378A (zh) * 2021-11-26 2022-05-27 创业慧康科技股份有限公司 一种基于mof模型的全民健康信息数据湖构建方法
CN115470305A (zh) * 2022-09-16 2022-12-13 北京数慧时空信息技术有限公司 基于湖仓一体的遥感影像存储方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030082539A1 (en) * 2001-06-26 2003-05-01 Ecker David J. Secondary structure defining database and methods for determining identity and geographic origin of an unknown bioagent thereby
CN110300963A (zh) * 2016-09-15 2019-10-01 英国天然气控股有限公司 大规模数据储存库中的数据管理系统
CN111221791A (zh) * 2018-11-27 2020-06-02 中云开源数据技术(上海)有限公司 一种多源异构数据导入数据湖的方法
CN114547378A (zh) * 2021-11-26 2022-05-27 创业慧康科技股份有限公司 一种基于mof模型的全民健康信息数据湖构建方法
CN114528337A (zh) * 2022-01-12 2022-05-24 南湖实验室 面向多源异构数据源的接口系统、通用接口及其实现方法
CN115470305A (zh) * 2022-09-16 2022-12-13 北京数慧时空信息技术有限公司 基于湖仓一体的遥感影像存储方法

Also Published As

Publication number Publication date
CN116501810B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
CN111052105B (zh) 可缩放的空间-时间密度数据融合
US10789231B2 (en) Spatial indexing for distributed storage using local indexes
US20220121688A1 (en) Parallel data access method and system for massive remote-sensing images
US20150339324A1 (en) System and Method for Imagery Warehousing and Collaborative Search Processing
CN110119266A (zh) 一种基于OpenLayers的WebGIS应用开发技术框架
CN104820714A (zh) 基于hadoop的海量瓦片小文件存储管理方法
TW202347123A (zh) 基於文檔底板實現附著資源動態組合應用的方法
CN115238015A (zh) 一种基于微服务的时空大数据平台
US10558665B2 (en) Network common data form data management
Jhummarwala et al. Parallel and distributed GIS for processing geo-data: an overview
CN109688223B (zh) 生态环境数据资源共享方法及装置
CN116501810B (zh) 一种基于数据湖的空间大数据处理系统及方法
KR102002360B1 (ko) 영상 처리용 NoSQL 데이터베이스 구축 방법 및 장치
CN111797101A (zh) 一种基于大数据的档案管理系统及其存储方法
CN115587084A (zh) 一种地理信息数据综合管理系统及方法
CN113608724B (zh) 一种基于模型缓存实现的离线仓库实时交互方法与系统
CN113407980B (zh) 数据标注系统
Wu et al. a management of remote sensing big data base on standard metadata file and database management system
CN111552740A (zh) 数据处理方法及装置
KR20220036772A (ko) 기관 리포지토리와 연계된 개인기록 통합 관리 서비스 제공 시스템
Ejiga et al. Developing a Novel Approach of Data Storage and Retrieval for Online Multimedia GIS Applications using Multimedia in GIS Approach
Yang et al. Research on remote sensing image storage management and a fast visualization system based on cloud computing technology
Larraondo et al. GSio: A programmatic interface for delivering Big Earth data-as-a-service
Toups A study of three paradigms for storing geospatial data: distributed-cloud model, relational database, and indexed flat file
CN116955463B (zh) 多源异构数据整合系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240201

Address after: Room 105, 1st Floor, Building 5, No. 8 Dongbei Wangxi Road, Haidian District, Beijing, 100193

Applicant after: Yizhirui Information Technology Co.,Ltd.

Country or region after: China

Address before: 601, Unit 6, 3rd Floor, No. 25 Shangdi East Road, Haidian District, Beijing, 100089

Applicant before: Beijing Jietai Yunji Information Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant