CN116303249A - 基于湖仓一体式的多源遥感时空大数据处理方法和装置 - Google Patents

基于湖仓一体式的多源遥感时空大数据处理方法和装置 Download PDF

Info

Publication number
CN116303249A
CN116303249A CN202310390219.6A CN202310390219A CN116303249A CN 116303249 A CN116303249 A CN 116303249A CN 202310390219 A CN202310390219 A CN 202310390219A CN 116303249 A CN116303249 A CN 116303249A
Authority
CN
China
Prior art keywords
data
remote sensing
space
time
sensing space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310390219.6A
Other languages
English (en)
Other versions
CN116303249B (zh
Inventor
杨丽娜
刘佳迎
彭玲
李玮超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202310390219.6A priority Critical patent/CN116303249B/zh
Publication of CN116303249A publication Critical patent/CN116303249A/zh
Application granted granted Critical
Publication of CN116303249B publication Critical patent/CN116303249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于湖仓一体式的多源遥感时空大数据处理方法和装置,属于大数据技术领域。该方法包括:获取原始遥感时空数据;根据解析原始遥感时空数据得到的数据属性信息,生成元数据目录;按照预设时空框架和预设资产主题,对原始遥感时空数据进行预处理,生成数据资产文件快照;根据元数据目录和数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式,以供计算引擎查询表格式并调用原始遥感时空数据。本发明通过设置统一表格式,能够使得不同来源不同结构的原始遥感时空数据自动按照上述表格式存储,并在用户提取目标数据时能够根据上述表格式中预设的存储格式快速查询到目标数据,减少了数据孤岛产生的可能性,提高了数据处理能力。

Description

基于湖仓一体式的多源遥感时空大数据处理方法和装置
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于湖仓一体式的多源遥感时空大数据处理方法和装置。
背景技术
随着遥感和地理信息技术的不断发展,遥感技术的应用范围已扩展到农业、气象、应急响应等诸多应用领域。不同的应用业务,产生了大量的时空数据,且具有不同的数据组织模式,导致目前遥感时空数据愈发呈现出海量异构的特点。对于海量异构的遥感时空数据的汇聚、存储、访问的效率成为应用开展的重中之重。
在遥感时空数据的汇聚对接方面,目前通常根据待汇聚对接的数据模式预先制定特定的程序接口。当前的遥感应用中,尤其是在基于多源遥感时空数据自动汇聚对接的遥感应用中,随着待汇聚接入的遥感时空数据的模式发生变化(如:矢量格式数据的属性表字段发生变化、栅格数据的头文件格式发生变化等),都因为这些数据无法按照原有模式进行存储、导致数据的汇聚对接任务中断,进而使得遥感应用无法正常开展,因此,需要发展一种能够支持模式演进的数据存储承载方式,以解决因模式变化导致数据无法正常汇聚对接和入库存储的问题。
在数据存储方面,目前对于遥感时空数据的存储组织系统主要有传统关系型数据库、网络域存储以及分布式文件系统,这些现有存储方式通常需要根据不同的应用领域或研发平台,选择合适的存储系统进行适应性开发,但是由于当前不同类型存储系统之间缺乏有效协同机制,加之遥感时空数据应用涉及的处理环节繁多、流程复杂,导致当前不同处理环节产出的各类遥感成果数据离散存储于多个异构的存储系统中。因此,遥感应用系统的最终用户需要建立跨存储平台来实现各类遥感成果数据资产全局视图,从而使得跨存储平台异构数据存取的成本代价高昂。
在数据访问方面,多源遥感时空大数据应用中常涉及对多源数据的检索查询,但传统方式缺乏对不同模式的多源数据利用统一查询手段进行可靠数据访问的内生机制,往往需要经过额外的ETL(Extract-Transform-Load,抽取-转换-加载)操作来构建数据表以支撑上层访问,不但增加了数据出错的机率,而且增加了成本和时间,因此,也需要在多源遥感时空大数据(结构化、非结构化文件)之上自动进行元数据层的定义、构建与更新,实现数据版本、数据结构的统一管理,进而提升遥感时空数据应用的可访问性和可靠性。
综上可见,现有的存储方法无法同时支撑不同应用场景下的多源遥感时空大数据的存取,存取效率较低。
发明内容
本发明提供一种基于湖仓一体式的多源遥感时空大数据处理方法和装置,用以解决现有技术中模式动态演化的遥感时空数据难以持续性汇聚对接、分布式文件存储系统难以为不同处理环节产出的各类遥感成果数据高效建立统一的数据资产全局视图以及跨存储平台异构数据存取成本代价高昂的问题,有效支持多源异构的遥感时空数据的数据汇聚、存储和访问。
本发明提供一种基于湖仓一体式的多源遥感时空大数据处理方法,包括:
获取原始遥感时空数据;
根据解析所述原始遥感时空数据得到的数据属性信息,生成元数据目录;
按照预设时空框架和预设资产主题,对所述原始遥感时空数据进行预处理,生成数据资产文件快照;
根据所述元数据目录和所述数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式,并将所述原始遥感时空数据存储于分布式文件存储系统中,以供计算引擎查询所述表格式并调用所述原始遥感时空数据。
根据本发明提供的一种基于湖仓一体式的多源遥感时空大数据处理方法,所述按照预设时空框架和预设资产主题,对所述原始遥感时空数据进行预处理,生成数据资产文件快照,包括:
按照预设时空框架将所述原始遥感时空数据转化为统一基准时空数据;
通过预先构建的空间约束变化函数将所述统一基准时空数据的空间范围转化为行索引,并以所述行索引作为分区值,对所述统一基准时空数据进行分区存储;
根据预设资产主题,在分区存储后的统一基准时空数据的元数据目录中记录相应的资产主题,并生成与所述原始遥感时空数据相应的所述数据资产文件快照。
根据本发明提供的一种基于湖仓一体式的多源遥感时空大数据处理方法,所述表格式中还包括位置图;所述方法还包括:
响应于用户对目标遥感时空数据的查询指令;
比较所述目标遥感时空数据的索引编码在所述位置图中的历史查询记录中的索引编码集合,根据比较结果确定所述目标遥感时空数据的存储地址查找范围;
在所述存储地址查找范围中查找得到所述目标遥感时空数据。
根据本发明提供的一种基于湖仓一体式的多源遥感时空大数据处理方法,所述方法还包括:
获取针对目标遥感时空数据的查询指令;所述查询指令中包含指定查询范围;
利用预设分区转换表达式对所述指定查询范围进行计算,得到所述目标遥感时空数据所属的目标分区字段;
在元数据目录中查询到所述目标分区字段对应的存储位置,根据所述存储位置获取所述目标遥感时空数据。
根据本发明提供的一种基于湖仓一体式的多源遥感时空大数据处理方法,所述按照预设时空框架将上述原始遥感时空数据转化为统一基准时空数据之后,还包括:
若所述统一基准时空数据为栅格数据,则将所述栅格数据转化为携带唯一栅格标识的云优化文件;
读取所述云优化文件中的空间索引编码、栅格属性编码、栅格波段编码,基于所述空间索引编码、所述栅格属性编码或所述栅格波段编码构建相应的元数据行式存储文件对象。
根据本发明提供的一种基于湖仓一体式的多源遥感时空大数据处理方法,所述按照预设时空框架将上述原始遥感时空数据转化为统一基准时空数据之后,还包括:
若所述统一基准时空数据为矢量数据,则将所述矢量数据转化为列式存储文件;其中,所述列式存储文件中包括属性列块、几何列块和编码列块;所述属性列块用于存储所述矢量数据的属性数据;所述几何列块用于存储所述矢量数据的几何部分;所述编码列块用于存储所述矢量数据对应的地理对象所处的空间格网编码。
根据本发明提供的一种基于湖仓一体式的多源遥感时空大数据处理方法,所述根据解析所述原始遥感时空数据得到的数据属性信息,生成元数据目录,还包括:
解析原始遥感时空数据,生成第一元数据;
将第一元数据中的第一属性名称按照预设元数据规范表达对照表转换为预设属性名称。
本发明还提供一种基于湖仓一体式的多源遥感时空大数据处理装置,包括:
数据获取模块,用于获取原始遥感时空数据;
数据解析模块,用于根据解析所述原始遥感时空数据得到的数据属性信息,生成元数据目录;
数据资产文件生成模块,用于按照预设时空框架和预设资产主题,对所述原始遥感时空数据进行预处理,生成数据资产文件快照;
数据存储模块,用于根据所述元数据目录和所述数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式,并将所述原始遥感时空数据存储于分布式文件存储系统中,以供计算引擎查询所述表格式并调用所述原始遥感时空数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于湖仓一体式的多源遥感时空大数据处理方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于湖仓一体式的多源遥感时空大数据处理方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于湖仓一体式的多源遥感时空大数据处理方法。
本发明提供的基于湖仓一体式的多源遥感时空大数据处理方法,通过获取原始遥感时空数据;根据解析原始遥感时空数据得到的数据属性信息,生成元数据目录;按照预设时空框架和预设资产主题,对原始遥感时空数据进行预处理,生成数据资产文件快照;根据元数据目录和数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式,并将原始遥感时空数据存储于分布式文件存储系统中,以供计算引擎查询表格式并调用原始遥感时空数据。本发明通过设置统一表格式,能够使得不同来源不同结构的原始遥感时空数据自动按照上述表格式存储,并在用户提取目标数据时能够根据上述表格式中预设的存储格式快速查询到目标数据,与传统的不同系统实现各自领域的遥感时空数据读写的方法相比,本发明使用将不同结构的原始遥感时空数据按照统一格式存储,减少了数据孤岛产生的可能性,提高了针对海量异构的遥感时空数据实现了数据的湖仓一体式存储和处理能力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是湖仓一体的模式示意图;
图2是本发明提供的基于湖仓一体式的多源遥感时空大数据方法的流程示意图之一;
图3是本发明提供的针对原始遥感时空数据生成的元数据目录示意图;
图4是本发明提供的系统内部文件组织结构示意图;
图5是本发明提供的基于湖仓一体式的多源遥感时空大数据方法的流程示意图之二;
图6是本发明提供的基于湖仓一体式的多源遥感时空大数据方法的流程示意图之三;
图7是本发明提供的元数据目录中的位置图示意图;
图8是本发明提供的针对矢量数据生成的Parquet文件内部结构示意图;
图9(a)是本发明提供的规范化的数据演进流程示意图之一;
图9(b)是本发明提供的规范化的数据演进流程示意图之二;
图10是本发明提供的基于湖仓一体式的多源遥感时空大数据处理装置的结构示意图;
图11是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明使用湖仓一体式的大数据处理思想,一般来说,数据仓库和数据湖,代表着两种数据处理模式和服务模式,数据仓库的模式特色在于数据在入库之前需要进行数据建模,然后按照统一表格式进行标准化,在此过程中可能会损失掉一些信息,用户在调用这些数据时,因查询到的数据都是经过数据仓库预先建立的数据模型处理后的结果,限制了用户对原始数据的挖掘深度,比如原始数据有个字段很有价值,但却被数据仓库的数据模型过滤掉了。而数据湖的模式特色在于其数据模型不是预先生成的,而是在数据入湖后,随着每个实际应用方的需要即时设计生成的,具有较高的适应性和灵活性,实际应用方在调用数据时能够获取到原生态的数据,实现更深度的数据挖掘。湖仓一体一般指湖和仓的数据或元数据无缝打通,互相补充,互相转化,如图1所示,通过一个统一开发管理平台对数据进行操作和管理,该平台可根据预设规则决定哪些数据存储在湖中,哪些数据存储在仓中,进而形成一体化。
下面结合图2-图11描述本发明的具体实施方式。
在一实施例中,提供了一种基于湖仓一体式的多源遥感时空大数据处理方法,包括:
步骤201,获取原始遥感时空数据;
其中,原始遥感时空数据是指通过卫星或其他航空设备、遥感设备获取的记录各种地物电磁波大小的栅格影像数据(简称栅格数据)以及基于影像数据提取的各类专题矢量数据(简称矢量数据)。
具体地,在数据写入过程中,原始遥感时空数据通过批写入或流式写入到原始数据文件对象(Data File)中,每次写入可生成一个或多个原始数据文件对象(Data File)。将需要组织管理的原始遥感时空数据通过数据流转服务中间件(例如Nifi,一种数据同步工具)分发至HDFS(Hadoop Distributed File System,分布式文件系统),在HDFS中按照批处理任务批次、流处理任务存储桶的存储上限进行初步分区。
步骤202,根据解析上述原始遥感时空数据得到的数据属性信息,生成元数据目录;
其中,元数据,主要是描述数据属性(property),用来支持如指示存储位置、历史数据、资源查找、文件记录等功能,有助于协助数据检索。本发明的目的是将多源异构的原始遥感时空数据存储入HDFS中,并提供统一的表格式(table format)以供不同的计算引擎对各类遥感时空数据实现通用的查找方式。其中,HDFS在逻辑上被分为不同的数据库(Database),每个数据库都有一个目录文件(table),所有数据库的目录文件(table)都按照统一的表格式(table format)组织管理;如图3所示,图3展示了每个目录文件(table)的组织格式,每个目录文件(table)包含两个目录,分别是实际数据目录(图3左边的data目录)和元数据目录(图3右边的matadata目录);实际数据目录(data目录)保存实际数据文件,按照分区划分;元数据目录(matadata目录)保存元数据、清单文件、清单列表和文件快照。
具体地,在上述原始遥感时空数据存储进HDFS中时,HDFS系统就开始为该原始遥感时空数据创建元数据:首先,HDFS系统自动基于分布式ID(Identity Document,身份标识)生成算法将原始遥感时空数据的入库时间戳TimeStamp转化为该原始遥感时空数据的唯一标识符,并将该唯一标识符与原始遥感时空数据的存储路径信息(即存储位置)作为存储字段,生成该原始遥感时空数据对应的原始数据文件对象(DataFile)。原始数据文件对象(DataFile)通过Avro转化后,形成Avro格式的文件,是行式存储格式。其中,Avro是一种数据序列化工具,用于支持数据结构(或对象)与二进制之间的相互转换。
原始数据文件对象(DataFile)的文件头中包含有与之相应的第一元数据(Metadata)。第一元数据(Metadata)中包含有解析上述原始数据文件对象(DataFile)得到的与每个DataFile对应的元数据,包括统计信息和存储对象信息。其中,统计信息包括例如成像/制作时间、文件数量、文件类型、格式、文件存储路径、上传批次、文件来源等;存储对象信息如:栅格对象信息——包括空间覆盖、栅格对象大小(空间分辨率)、栅格数据的波段信息(包括RGB波段、红外波段、全色波段等);矢量对象信息——包括比例尺大小、数据专题、空间覆盖等;空间参考系信息——包括坐标系统、底面控制点、仿射变换参数等。
上述解析过程可通过表格格式管理工具(例如Iceberg)对上述原始数据文件对象(DataFile),基于OGC(Open Geospatial Consortium,开放地理空间信息联盟)规范进行解析,得到符合规范的数据属性信息,并将每个数据库中的全部DataFile的数据属性信息排列组织成元数据目录,如图2中的文件结构的右半部分所示;
作为一优选实施方式,本发明在传统的元数据管理组件Iceberg的基础上,扩充对遥感时空数据的解析功能,构建形成元数据目录管理组件Geo Catalog。Geo Catalog能够针对多源遥感时空大数据的特性,对其数据属性信息以及相应的文件快照进行组织管理,提供功能接口包括:提供各类遥感时空数据对象的解析接口、提供各类索引编码的生成、针对遥感时空数据文件所包含的数据属性信息生成每个DataFile对应的元数据(包括如上所述的统计信息和存储对象信息)、生成用于支持遥感时空数据通用查找的表格式(TableFormat),并提供相应的原始遥感时空数据查询接口,供后续的分布式计算引擎(例如Sedona、Geospark)调用。
步骤203,按照预设时空框架和预设资产主题,对上述原始遥感时空数据进行预处理,生成数据资产文件快照。
其中,预设时空框架是预先定义的统一的时间尺度和空间尺度。预设资产主题是指为面向不同应用,为原始遥感时空数据定义的不同类型的资产数据主题,该资产数据主题是编制数据目录的依据。数据资产文件快照(Snapshot)代表一张表(table)在某个时刻的状态,每个快照里面会列出表在某个时刻的所有DataFile的列表。DataFile是存储在不同的清单文件(Manifest File)里面,多个清单文件(Manifest File)存储在一个清单列表(Manifest List)文件里面,而一个Manifest List文件代表一个快照。
当一组DataFile文件写完之后,系统会根据这个DataFile文件中column的一些统计信息(如:每个column的min/max值),生成一个对应的manifest文件;然后Iceberg把一次写入后涉及到的manifest文件组成一个 manifest list,manifest list文件中也会存入一些相关manifest的统计信息(如:分区信息,manifest有效性)等;然后按照整个manifestlist 生成一个对应的snapshot文件;生成完snapshot文件之后,Iceberg会把当前snapshot的ID及存储路径等信息写入到metadata文件中;当一切准备完毕之后,会以原子操作的方式commit这个metadata文件,这样一次iceberg的数据写入就完成了。随着每次的写入iceberg就生成了如图4所示的一个文件组织模式。
具体地,创建数据资产化任务流程Pipline,在该流程中定义了对原始遥感时空数据进行预处理的一系列流程化处理任务的默认队列,包括:定义任务数据来源位置、定义数据处理操作(例如:统一时空基准、云端文件处理、数据模式演进、存储分区优化等)、定义任务队列执行周期、定义任务数据输出位置等。值得一提的是,步骤203中的预处理是传统表格格式管理工具(例如Iceberg)所不能直接支持的,因此需要引入空间处理工具来实现预处理。预处理过程包括:首先,数据资产化任务流程Pipline对上述多源异构的原始遥感时空数据进行统一时空基准,具体过程包括:(一)按照基础地理实体语义化基本规定,对于已知时空框架下的原始遥感时空数据,转化为统一基准时空框架下的统一基准时空数据;例如,坐标系统采用2000国家大地坐标系(GB 22021-2008,英文名称China GeodeticCoordinate System 2000,简称CGCS2000)、高程基准采用1985国家高程基准、深度基准采用理论最低潮面、时间基准采用公元纪年和北京时间。对于用户指定的特殊时空框架下的原始遥感时空数据,保留其原有时空框架,并在其元数据描述中记录其所属时空框架名称。(二)然后,在元数据目录中记录预设资产数据主题(该资产数据主题为面向应用的数据目录组织依据),生成新的文件快照,即数据资产文件快照。
步骤204,根据元数据目录和数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式(table format),并将原始遥感时空数据存储于分布式文件存储系统中,以供计算引擎调用。
具体地,将元数据目录(例如vN.metadata.json文件)和上述数据资产文件快照提交至元数据目录管理组件Geo Catalog,通过元数据目录管理组件照统一数据表访问格式生成用于支持时空数据统一查找的表格式(table format)。
整个发明方案的大致步骤如图5所示,主要由四个部分组成,Step1原始数据入湖,Step2原始数据建表,Step3数据资产化,Step4构建数据资产目录。
上述实施例,通过从不同数据源处实时接收不同结构的原始遥感时空数据,在不改变原始数据的基础上,根据原始遥感时空数据的数据属性信息生成元数据目录,并根据预设的时空框架和预设资产主题对原始遥感时空数据进行统一组织管理,生成用于支持遥感时空数据统一查找的表格式,在计算引擎调用原始遥感时空数据时能够通过查询表格式中的索引快速调用到原始遥感时空数据,既提供了对多源异构的原始遥感时空数据的包容性,又能够表格式支持一定的数据处理能力,针对海量异构的遥感时空数据实现了数据的湖仓一体式存储和处理能力。
在一实施例中,如图6所示,上述步骤203包括:
步骤601,按照预设时空框架将上述原始遥感时空数据转化为统一基准时空数据;
具体地,按照基础地理实体语义化基本规定,对于已知时空框架下的原始遥感时空数据,转化为统一基准时空框架下的统一基准时空数据;例如,坐标系统采用2000国家大地坐标系(GB 22021-2008,英文名称China Geodetic Coordinate System 2000,简称CGCS2000)、高程基准采用1985国家高程基准、深度基准采用理论最低潮面、时间基准采用公元纪年和北京时间。对于用户指定的特殊时空框架下的原始遥感时空数据,保留其原有时空框架,并在其元数据描述中记录其所属时空框架名称。
步骤602,通过预先构建的空间约束变化函数将所述统一基准时空数据的所述时空范围转换为行索引值;根据所述行索引值与分区字段的对应关系,将所述原始遥感时空数据写入与所述行索引值对应的目标分区中;其中,所述目标分区的分区字段与所述行索引值对应。
其中,时空范围是指原始遥感时空数据的时间范围和空间范围。
具体地,Geo Catalog还针对Data file文件内部做进一步分区,主要是根据文件大小进行分区,具体分区策略包括:按照预设周期进行定期检索,每次检索中将超过预设大小的文件按照预设分区阈值自动进行切分(也称为分区),切分成多个Stripe(条带,或称为文件块),每个Stripe(条带)都是相同的数据大小,例如都是250MB;同时,在每个Stripe(条带)内部建立新的时空索引,由于目前针对遥感时空数据的大数据处理方法不支持构建时空索引,本方法所建立的时空索引能够在查询的过程中自动跳过不必要的Stripe分区,提高检索效率。
通过某些列作为输入,指定其空间约束变化函数(也即预设分区转换表达式),系统根据预设分区转换表达式自动构建分区索引。由于Iceberg只能进行数值比较,数值是一维的,而时空范围(包括经纬度、形状特征、时间范围)是多维的,导致遥感时空数据难以在Iceberg中进行分区,因此本发明针对时空数据的经纬度值及其形状特征构建空间约束变化函数GTF(Geometry Transform Function)。预先构建的空间约束变化函数(预设分区转换表达式)基于Z3或XZ2算法,将空间范围(例如经度、纬度)转化为一维的Row Key(行索引),并以Row Key值作为分区值,各分区内部文件以字典排序,实现对空间范围的隐式分区。
获取针对目标遥感时空数据的查询指令;所述查询指令中包含指定查询范围;利用预设分区转换表达式对所述指定查询范围进行计算,得到所述目标遥感时空数据所属的目标分区字段;在元数据目录中查询到所述目标分区字段对应的存储位置;根据所述存储位置获取所述目标遥感时空数据。
具体地,当用户需要查询目标遥感时空数据时,只需关注业务逻辑,不需要知道原始遥感时空数据在目标数据库中是如何分区存储的,例如需要查询用户设定了在time列上按照小时分区,当查询条件为time>= 2020-01-01 10:00 AND<2020-01-01 13:00AND bbox(geom, 86.7 ,48.5, 86.8, 49.5)的时候,系统会根据下推过来的谓词表达式和Schema中定义的预设分区转换表达式进行计算。直接算出数据分区是在10点、11点、12点三个分区中,且空间分区是在经纬度为(86.7 ,48.5)和(86.8,49.5)的空间编码区间内。然后依据manifest中的分区字段对应的存储位置获取目标遥感时空数据。
上述实施例,通过预设的空间约束变化函数实现对遥感时空数据的自动分区,不需要用户输入具体的分区字段,实现了隐式分区。
进一步地,本发明在元数据目录中还设置了位置图:将存储路径(包括原始遥感时空数据在DataFile中的位置)存储于预设位置图(position map)中;预设位置图的结构如图7所示。
具体地,上述表格式(table format)还包括位置图查询模块(Positional Map),用以加速时空数据文件查询的速率。它维护时空数据文件结构的位置信息,用于更快地导航和检索原始数据。例如,如果需要查询目标数据,比较目标数据的索引编码与历史查询记录中的索引编码,根据比较结果确定目标数据的查找范围(存储地址的范围);利用位置图中已保存的与目标数据的位置最近的位置范围,直接在最近的位置范围中进行查找,从而快速查找到目标数据,而无需进行全表扫描。
位置图模块是在查询处理过程中即时创建的,不断自适应优化查询。位置图更新过程包括:在每次查询过后不断更新扩充位置图结构。即当开始一次查询时,在为当前查询操作找到所查询的文件及其文件在元数据目录中对应的存储位置,将该存储位置及其对应的文件关联存储到本地(即位置图)中。
步骤603,根据预设资产主题,在分区存储后的统一基准时空数据的元数据目录中记录相应的资产主题,并生成与上述原始遥感时空数据相应的所述数据资产文件快照。
具体地,执行所定义的任务流程Pipeline,并根据执行结果生成新的时空数据Snapshot快照。在其元数据目录中记录资产数据主题(该主题信息即为面向应用的数据目录组织依据)、处理操作任务队列、来源等关键信息,实现对应用主题数据的划分与自治。
在一实施例中,上述步骤601之后,还包括:
若所述统一基准时空数据为栅格数据,则将所述栅格数据转化为携带唯一栅格标识的云优化文件(COG Tiff);携带不同空间尺度的重采样图与瓦片信息;读取所述云优化文件中的时空索引编码,基于所述时空索引编码构建相应的元数据行式存储文件对象。
具体地,若上述统一基准时空数据为栅格类型数据,则将传统栅格数据文件(Tiff格式等)转化为COG格式文件(Cloud Optimized GeoTIFF's,不需要读入内存中切割成子文件),直接在本地分割成子文件,并生成文件的唯一标识ID,以支持动态瓦片查询服务(通过查询目标的空间尺度和时空范围计算偏移量,根据偏移量跳过无关内容)。特别地,转换完成后,为了便于提高后续数据的检索效率,本发明提出:读取COG头文件中存储的空间索引编码Spatial Key(=Row Key),并根据其空间索引编码,以一定的隐式分区方式构建元数据行式存储文件对象(dataFile),存储转化后的数据文件的元数据信息,包括:文件的唯一标识ID、COG文件的存储位置、COG文件的Spatial Key。
上述实施例,通过提取栅格数据(即影像数据)的空间索引编码,为后续隐式分区提供数据基础。
在一实施例中,上述步骤603还包括:
若所述统一基准时空数据为矢量数据,则将所述矢量数据转化为列式存储文件;使用列式存储文件才能支持模式演进。其中,所述列式存储文件中包括属性列块(矢量的附加属性,例如名字、时间、面积)、几何列块(用于存储描述几何形态的数据)和编码列块(用于存储时空编码);所述属性列块用于存储所述矢量数据的属性数据;所述几何列块用于存储所述矢量数据的几何部分;所述编码列块用于存储所述矢量数据对应的地理对象所处的空间格网编码。
由于矢量数据包含不同类型的数据,如几何数据和属性数据,针对于矢量数据的存储又需要特殊的地理编码,针对于这三者的buckets存储需要构建不同的存储索引,进而需要分别构建不同的列块,每个列块构建对应存储索引,以便于单一针对某一列块进行修改时利用存储索引进行高效查询,提高了对数据原子级的处理效率。
具体地,若统一基准时空数据为矢量类型数据,则将矢量数据文件按照数据类型选择合适的索引分区方式(如前述的Row Key编码)转化为Parquet列式存储文件,Parquet列式存储文件的内部结构如图8所示,其中:1)空间数据的属性部分,将矢量数据中的属性数据转化为属性列块存储于属性行组中。2)对空间数据的几何部分,将其作为一个属性列(称为“几何列块”),并将其坐标数据采用熟知二进制(WellKnown Binary,WKB)格式存储,存储为一列属性;3)新建一个包含地理编码的属性列(称为“编码列块”),对每个地理对象所处的空间格网编码进行存储。不同矢量数据类型可选择的空间索引编码方式不同,如对于空间点数据则支持使用Z3索引编码,对于空间线、面数据则支持使用XZ2索引编码。并将预处理后所生成的列式存储文件元数据信息(包括分区索引类型、矢量数据统计信息、空间分辨率信息、空间范围信息、采集装置信息、采集时间信息等)保存至文件内部Metadata中。
上述实施例,通过对矢量数据的空间和属性信息进行一体化存储并进行空间索引编码,为后续隐式分区提供数据铺垫。
在一实施例中,上述方法还包括:通过预先定义的模式演进算子对所述元数据目录中的分区字段进行更新,得到更新后的元数据目录文件。
具体地,本发明定义规范化的数据资产存储模式演进算子,基于元数据目录管理组件Geo Catalog 实现,使用唯一的ID跟踪数据模式所对应的每一列,其演进只针对元数据进行更改,在不重写数据文件的情况下,默认以惰性模式构建新的元数据目录文件,其主要数据模式演进的算子如下:
Add:向表或者嵌套结构增加新列
Drop: 从表中或者嵌套结构中移除一列
Rename: 重命名表中或者嵌套结构中的一列
Update: 修改表中或者嵌套结构中的一列的数值或列属性
Reorder: 改变列或者嵌套结构中字段的排列顺序
上述步骤202还包括:解析原始遥感时空数据,生成第一元数据;将第一元数据中的第一属性名称按照预设元数据规范表达对照表转换为预设属性名称(即规范属性)。
其中,第一元数据是指原始遥感时空数据对应的元数据,其中包括第一属性名称,由于数据来源不同,同一种类型的原始遥感时空数据的第一属性名称可能各不相同,例如同样为时间属性,其第一属性名称可能为TIME、time或日期,为了将同一类型的不同属性名称统一化,本发明使用利用预设元数据规范表达对照表对不同属性名称进行统一化。
利用专家知识,定义元数据规范表达对照表,其描述结构为:{元数据规范表达:元数据别名1,元数据别名2,……},如:{时间:Time,time,日期}、{类型:类别,Type,type,分类},如图9(a)所示,图9(a)展示了一个具体的元数据规范表达演进流程示意图。利用上述预设元数据规范表达对照表,将以元数据别名表达的内容自动替换为元数据规范表达(即预设属性名称),低成本自动化地修改模式中的不规范表达字段,从而实现元数据语义消歧,以一种高效自动的方式对变化的数据模式进行版本管理。
在一实施例中,上述方法还包括:根据预设数据存储模式,验证实际数据模式与预设数据存储模式是否一致;若一致,则按照预设数据存储模式存储所述原始遥感时空数据;若不一致,则将所述原始遥感时空数据流转至异常数据存储库,根据预设异常数据结构构建异常数据表;对比异常数据表与预设数据存储模式之间的差异,构建其合集集合作为最终的数据存储模式。
具体地,本发明同时针对遥感时空数据设计了规范化的数据演进流程,如图9(b)所示:当面临流数据输入模式的不统一问题时,首先根据其预定义的数据存储模式入湖,并验证实际数据模式与预定义数据模式是否一致,若一致,则按照既定模式存储起来;若不一致,则先将异常数据流转至异常数据存储库,并根据异常数据结构自动构建异常数据表schema。通过对比异常数据表与预定义数据表之间的差异,构建其UNION集合作为最终的数据模式,并支持人工合并异常模式。
上述实施例,通过预先定义的模式演进算子实现在模式演进过程中低成本地修改模式中的字段。面向不同专题应用的时空数据的模式并非固定不变,系统在变更表结构时只针对元数据目录进行操作,历史数据并不需要全部重新按照新的Schema导出一份,进而支持数据模式的快速演进。同时,由于每次演进都会在源文件的基础上生成新的Snapshot快照保证其ACID特性,有效地隔离了模式演进对现有读写任务的影响。
下面对本发明提供的基于湖仓一体式的多源遥感时空大数据处理装置进行描述,下文描述的基于湖仓一体式的多源遥感时空大数据处理装置与上文描述的基于湖仓一体式的多源遥感时空大数据处理方法可相互对应参照。
如图10所示,本发明提供了一种基于湖仓一体式的多源遥感时空大数据处理装置,包括数据获取模块1001、数据解析模块1002、数据资产文件生成模块1003和数据存储模块1004,其中:
数据获取模块1001,用于获取原始遥感时空数据;
数据解析模块1002,用于根据解析所述原始遥感时空数据得到的数据属性信息,生成元数据目录;
数据资产文件生成模块1003,用于按照预设时空框架和预设资产主题,对所述原始遥感时空数据进行预处理,生成数据资产文件快照;
数据存储模块1004,用于根据所述元数据目录和所述数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式,并将所述原始遥感时空数据存储于分布式文件存储系统中,以供计算引擎查询所述表格式并调用所述原始遥感时空数据。
在其中一个实施例中,上述数据资产文件生成模块1003,进一步用于:
按照预设时空框架将所述原始遥感时空数据转化为统一基准时空数据;
通过预先构建的空间约束变化函数将所述统一基准时空数据的空间范围转化为行索引,并以所述行索引作为分区值,对所述统一基准时空数据进行分区存储;
根据预设资产主题,在分区存储后的统一基准时空数据的元数据目录中记录相应的资产主题,并生成与所述原始遥感时空数据相应的所述数据资产文件快照。
在一个实施例中,所述表格式中还包括位置图;上述装置还包括数据查询单元,用于:响应于用户对目标遥感时空数据的查询指令;比较所述目标遥感时空数据的索引编码在所述位置图中的历史查询记录中的索引编码集合,根据比较结果确定所述目标遥感时空数据的存储地址查找范围;在所述存储地址查找范围中查找得到所述目标遥感时空数据。
在其中一个实施例中,上述数据查询单元,进一步用于:获取针对目标遥感时空数据的查询指令;所述查询指令中包含指定查询范围;利用预设分区转换表达式对所述指定查询范围进行计算,得到所述目标遥感时空数据所属的目标分区字段;在元数据目录中查询到所述目标分区字段对应的存储位置,根据所述存储位置获取所述目标遥感时空数据。
在其中一个实施例中,上述数据资产文件生成模块1003,还用于:
若所述统一基准时空数据为栅格数据,则将所述栅格数据转化为携带唯一栅格标识的云优化文件;读取所述云优化文件中的空间索引编码、栅格属性编码、栅格波段编码,基于所述空间索引编码、所述栅格属性编码或所述栅格波段编码构建相应的元数据行式存储文件对象。
在其中一个实施例中,上述数据资产文件生成模块1003,还用于:
若所述统一基准时空数据为矢量数据,则将所述矢量数据转化为列式存储文件;其中,所述列式存储文件中包括属性列块、几何列块和编码列块;所述属性列块用于存储所述矢量数据的属性数据;所述几何列块用于存储所述矢量数据的几何部分;所述编码列块用于存储所述矢量数据对应的地理对象所处的空间格网编码。
在其中一个实施例中,还包括模式演进单元,用于:解析原始遥感时空数据,生成第一元数据;将第一元数据中的第一属性名称按照预设元数据规范表达对照表转换为预设属性名称。
图11示例了一种电子设备的实体结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令,以执行基于湖仓一体式的多源遥感时空大数据处理方法,该方法包括:获取原始遥感时空数据;根据解析原始遥感时空数据得到的数据属性信息,生成元数据目录;按照预设时空框架和预设资产主题,对原始遥感时空数据进行预处理,生成数据资产文件快照;根据元数据目录和数据资产文件快照,生成按照统一数据表访问格式构建的目录文件,并将原始遥感时空数据存储于分布式文件存储系统中,以供计算引擎查询目录文件并调用原始遥感时空数据。
此外,上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于湖仓一体式的多源遥感时空大数据处理方法,该方法包括:获取原始遥感时空数据;根据解析原始遥感时空数据得到的数据属性信息,生成元数据目录;按照预设时空框架和预设资产主题,对原始遥感时空数据进行预处理,生成数据资产文件快照;根据元数据目录和数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式,以供计算引擎查询表格式并调用原始遥感时空数据。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于湖仓一体式的多源遥感时空大数据处理方法,该方法包括:获取原始遥感时空数据;根据解析原始遥感时空数据得到的数据属性信息,生成元数据目录;按照预设时空框架和预设资产主题,对原始遥感时空数据进行预处理,生成数据资产文件快照;根据元数据目录和数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式,以供计算引擎查询表格式并调用原始遥感时空数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于湖仓一体式的多源遥感时空大数据处理方法,其特征在于,包括:
获取原始遥感时空数据;
根据解析所述原始遥感时空数据得到的数据属性信息,生成元数据目录;
按照预设时空框架和预设资产主题,对所述原始遥感时空数据进行预处理,生成数据资产文件快照;
根据所述元数据目录和所述数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式,并将所述原始遥感时空数据存储于分布式文件存储系统中,以供计算引擎查询所述表格式并调用所述原始遥感时空数据。
2.根据权利要求1所述的基于湖仓一体式的多源遥感时空大数据处理方法,其特征在于,所述按照预设时空框架和预设资产主题,对所述原始遥感时空数据进行预处理,生成数据资产文件快照,包括:
按照预设时空框架将所述原始遥感时空数据转化为统一基准时空数据;
通过预先构建的空间约束变化函数将所述统一基准时空数据的空间范围转化为行索引值;根据所述行索引值与分区字段的对应关系,将所述原始遥感时空数据写入与所述行索引值对应的目标分区中;其中,所述目标分区的分区字段与所述行索引值对应
根据预设资产主题,在分区存储后的统一基准时空数据的元数据目录中记录相应的资产主题,并生成与所述原始遥感时空数据相应的所述数据资产文件快照。
3.根据权利要求1所述的基于湖仓一体式的多源遥感时空大数据处理方法,其特征在于,所述表格式中还包括位置图;所述方法还包括:
响应于用户对目标遥感时空数据的查询指令;
比较所述目标遥感时空数据的索引编码在所述位置图中的历史查询记录中的索引编码集合,根据比较结果确定所述目标遥感时空数据的存储地址查找范围;
在所述存储地址查找范围中查找得到所述目标遥感时空数据。
4.根据权利要求1所述的基于湖仓一体式的多源遥感时空大数据处理方法,其特征在于,所述方法还包括:
获取针对目标遥感时空数据的查询指令;所述查询指令中包含指定查询范围;
利用预设分区转换表达式对所述指定查询范围进行计算,得到所述目标遥感时空数据所属的目标分区字段;
在元数据目录中查询到所述目标分区字段对应的存储位置,根据所述存储位置获取所述目标遥感时空数据。
5.根据权利要求3所述的基于湖仓一体式的多源遥感时空大数据处理方法,其特征在于,所述按照预设时空框架将上述原始遥感时空数据转化为统一基准时空数据之后,还包括:
若所述统一基准时空数据为栅格数据,则将所述栅格数据转化为携带唯一栅格标识的云优化文件;
读取所述云优化文件中的空间索引编码、栅格属性编码、栅格波段编码,基于所述空间索引编码、所述栅格属性编码或所述栅格波段编码构建相应的元数据行式存储文件对象。
6.根据权利要求3所述的基于湖仓一体式的多源遥感时空大数据处理方法,其特征在于,所述按照预设时空框架将上述原始遥感时空数据转化为统一基准时空数据之后,还包括:
若所述统一基准时空数据为矢量数据,则将所述矢量数据转化为列式存储文件;其中,所述列式存储文件中包括属性列块、几何列块和编码列块;所述属性列块用于存储所述矢量数据的属性数据;所述几何列块用于存储所述矢量数据的几何部分;所述编码列块用于存储所述矢量数据对应的地理对象所处的空间格网编码。
7.根据权利要求1所述的基于湖仓一体式的多源遥感时空大数据处理方法,其特征在于,所述根据解析所述原始遥感时空数据得到的数据属性信息,生成元数据目录,还包括:
解析所述原始遥感时空数据,生成第一元数据;
将所述第一元数据中的第一属性名称按照预设元数据规范表达对照表转换为预设属性名称。
8.一种基于湖仓一体式的多源遥感时空大数据处理装置,其特征在于,包括:
数据获取模块,用于获取原始遥感时空数据;
数据解析模块,用于根据解析所述原始遥感时空数据得到的数据属性信息,生成元数据目录;
数据资产文件生成模块,用于按照预设时空框架和预设资产主题,对所述原始遥感时空数据进行预处理,生成数据资产文件快照;
数据存储模块,用于根据所述元数据目录和所述数据资产文件快照,生成用于支持遥感时空数据统一查找的表格式,并将所述原始遥感时空数据存储于分布式文件存储系统中,以供计算引擎查询所述表格式并调用所述原始遥感时空数据。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于湖仓一体式的多源遥感时空大数据处理方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于湖仓一体式的多源遥感时空大数据处理方法。
CN202310390219.6A 2023-04-13 2023-04-13 基于湖仓一体式的多源遥感时空大数据处理方法和装置 Active CN116303249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310390219.6A CN116303249B (zh) 2023-04-13 2023-04-13 基于湖仓一体式的多源遥感时空大数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310390219.6A CN116303249B (zh) 2023-04-13 2023-04-13 基于湖仓一体式的多源遥感时空大数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN116303249A true CN116303249A (zh) 2023-06-23
CN116303249B CN116303249B (zh) 2023-08-04

Family

ID=86803347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310390219.6A Active CN116303249B (zh) 2023-04-13 2023-04-13 基于湖仓一体式的多源遥感时空大数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN116303249B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054174A1 (en) * 2010-08-25 2012-03-01 International Business Machines Corporation Geospatial database integration using business models
CN112559481A (zh) * 2020-11-27 2021-03-26 西安中科星图空间数据技术有限公司 一种基于分布式系统和关系数据库的数据存储方法及装置
CN114969199A (zh) * 2022-03-25 2022-08-30 阿里巴巴(中国)有限公司 遥感数据的处理方法、装置、系统以及存储介质
CN115269893A (zh) * 2022-08-09 2022-11-01 北京数慧时空信息技术有限公司 基于湖仓一体的遥感影像存储系统及方法
CN115934794A (zh) * 2022-11-30 2023-04-07 二十一世纪空间技术应用股份有限公司 一种海量多源异构遥感空间数据查询的弹性管理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054174A1 (en) * 2010-08-25 2012-03-01 International Business Machines Corporation Geospatial database integration using business models
CN112559481A (zh) * 2020-11-27 2021-03-26 西安中科星图空间数据技术有限公司 一种基于分布式系统和关系数据库的数据存储方法及装置
CN114969199A (zh) * 2022-03-25 2022-08-30 阿里巴巴(中国)有限公司 遥感数据的处理方法、装置、系统以及存储介质
CN115269893A (zh) * 2022-08-09 2022-11-01 北京数慧时空信息技术有限公司 基于湖仓一体的遥感影像存储系统及方法
CN115934794A (zh) * 2022-11-30 2023-04-07 二十一世纪空间技术应用股份有限公司 一种海量多源异构遥感空间数据查询的弹性管理方法

Also Published As

Publication number Publication date
CN116303249B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
US11816126B2 (en) Large scale unstructured database systems
CN106372114B (zh) 一种基于大数据的联机分析处理系统和方法
CN101324896B (zh) 一种矢量数据的存储方法、查询方法和管理系统
JP6144700B2 (ja) 半構造データのためのスケーラブルな分析プラットフォーム
US20220121688A1 (en) Parallel data access method and system for massive remote-sensing images
Chavan et al. Survey paper on big data
CN112559481A (zh) 一种基于分布式系统和关系数据库的数据存储方法及装置
CN106897374B (zh) 一种基于轨迹大数据最近邻查询的个性化推荐方法
CN111639075B (zh) 一种基于扁平化r树的非关系数据库矢量数据管理方法
Cuzzocrea et al. Enabling OLAP in mobile environments via intelligent data cube compression techniques
US20210374137A1 (en) Point-based relation splitting in geospatial-function-implied interval joins
CN115238015A (zh) 一种基于微服务的时空大数据平台
CN116860905B (zh) 一种城市信息模型的空间单元编码生成方法
Errami et al. Spatial big data architecture: from data warehouses and data lakes to the Lakehouse
Jhummarwala et al. Parallel and distributed GIS for processing geo-data: an overview
CN113407542B (zh) 一种城市路网车辆出行轨迹的检索方法及系统
de Souza Baptista et al. NoSQL geographic databases: an overview
Cai et al. Research on multi-source POI data fusion based on ontology and clustering algorithms
CN114328601A (zh) 数据降采样和数据查询方法、系统及存储介质
Herodotou et al. Big maritime data management
CN116303249B (zh) 基于湖仓一体式的多源遥感时空大数据处理方法和装置
Arputhamary et al. A review on big data integration
Yue et al. 1.06 GIS Databases and NoSQL Databases
KR20170096302A (ko) 이종 데이터 처리를 위한 분산 병렬 처리 시스템
Nidzwetzki et al. BBoxDB streams: scalable processing of multi-dimensional data streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant