CN110019089A - 基于大数据存储架构的空间数据存储管理系统 - Google Patents

基于大数据存储架构的空间数据存储管理系统 Download PDF

Info

Publication number
CN110019089A
CN110019089A CN201711239173.9A CN201711239173A CN110019089A CN 110019089 A CN110019089 A CN 110019089A CN 201711239173 A CN201711239173 A CN 201711239173A CN 110019089 A CN110019089 A CN 110019089A
Authority
CN
China
Prior art keywords
data
metamessage
library
data storage
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711239173.9A
Other languages
English (en)
Inventor
徐继峰
祁建明
周峻松
陈墩金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ming - Collar Gene Technology Co Ltd
Original Assignee
Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ming - Collar Gene Technology Co Ltd filed Critical Guangzhou Ming - Collar Gene Technology Co Ltd
Priority to CN201711239173.9A priority Critical patent/CN110019089A/zh
Publication of CN110019089A publication Critical patent/CN110019089A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据存储架构的空间数据存储管理系统,该系统包括:底层大数据异构存储模块、中间层元信息库与引擎模块以及顶层服务模块;其中,所述底层大数据异构存储模块以数据资源为单位进行存放,具体介质包含多种异构式存储环境;所述中间层元信息库与引擎模块由矢栅数据ETL、数据引擎、元信息库以及矢栅可视化引擎四部分组成;所述顶层服务模块负责对外提供统一、标准的服务。本发明方案以元信息库聚合数据资源,底层面向不同计算(应用)模式搭建异构式存储,有效地将数据分解、将资源聚合,并对外提供统一、标准的服务,实现了对于巨量、异构、递增的空间大数据的高效率存储管理。

Description

基于大数据存储架构的空间数据存储管理系统
技术领域
本发明属于大数据存储管理技术领域,涉及一种基于大数据存储架构的空间数据存储管理系统。
背景技术
随着遥感数据获取能力的日益增强,仅单星日获取数据量就以TB级计算,且这些大数据具有空间结构化特性,即为空间数据。空间数据本身具有高密度价值,每一个数据单元都与空间位置关联,反映一定的空间属性。
早期空间数据存储与管理方法是基于关系型数据库建立的极为有效的异构空间数据存储管理体系,但由于关系型数据库对数据的高一致性要求,使其底层存储的可扩展性较弱,存在数据切分与合并难的问题。
后期优化为使用NoSQL、列存储等类型的数据库,底层通过分布式文件系统实现存储的容错性和可扩展性,且为了解决数据一致性以及空间索引问题,一方面索引被放到大内存或被拆成大量小的索引存储,另一方面采用大量计算节点进行分布式索引计算,但适用的计算模式较为局限。
传统的存储管理架构已无法满足稳定、高效、可扩展等空间数据的管理要求。
发明内容
本发明目的在于提供一种基于大数据存储架构的空间数据存储管理系统,针对通用的大数据架构依然较难适用于空间数据存储管理的问题,引入一种“元信息库-异构存储-计算模型”的新型架构,以元信息库聚合数据资源,底层面向不同计算(应用)模式搭建异构式存储,有效地将数据分解、将资源聚合,并对外提供统一、标准的服务,实现了对于巨量、异构、递增的空间大数据的高效率存储管理。
为解决上述技术问题,本发明采用如下的技术方案:一种基于大数据存储架构的空间数据存储管理系统,该系统包括:底层大数据异构存储模块、中间层元信息库与引擎模块以及顶层服务模块;其中,所述底层大数据异构存储模块以数据资源为单位进行存放,具体介质包含多种异构式存储环境;所述中间层元信息库与引擎模块由矢栅数据ETL、数据引擎、元信息库以及矢栅可视化引擎四部分组成;所述顶层服务模块负责对外提供统一、标准的服务。
进一步地,所述底层大数据异构存储模块包括分布式文件系统、在线磁盘阵列、离线磁盘等,具体实现了基于GridFS文件系统、集中式磁盘阵列和离线磁盘3种存储方式。
进一步地,所述中间层元信息库与引擎模块在异构式的存储环境之上,通过元信息库对每个数据资源建立基本信息档案和链接关系,实现了基于MongoDB的元信息库;通过数据引擎实现数据资源的存取和访问;通过工作者模式实现了数据交互;通过可视化引擎实现每一类别数据的渲染接口,实现了栅格和矢量一体化的可视化引擎及其前端控件。
进一步地,所述顶层服务模块负责面向用户,通过数据资源服务提供数据资源检索等服务接口,通过数据服务实现标准数据产品的获取接口,通过可视化控件提供交互式的展现服务。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对通用的大数据架构依然较难适用于空间数据存储管理的问题,引入一种“元信息库-异构存储-计算模型”的新型架构,以元信息库聚合数据资源,底层面向不同计算(应用)模式搭建异构式存储,有效地将数据分解、将资源聚合,并对外提供统一、标准的服务,实现了对于巨量、异构、递增的空间大数据的高效率存储管理。
附图说明
图1是基于大数据存储架构的空间数据存储管理系统的整体框架图。
图2是系统中间层元信息库与引擎模块中矢栅数据ETL部分的过程展示图。
图3是系统中间层元信息库与引擎模块中数据引擎部分的工作流程图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种基于大数据存储架构的空间数据存储管理系统,该系统包括:底层大数据异构存储模块、中间层元信息库与引擎模块以及顶层服务模块;其中,所述底层大数据异构存储模块以数据资源为单位进行存放,具体介质包括分布式文件系统、在线磁盘阵列、离线磁盘等,组成了异构式的存储环境;实现了基于GridFS文件系统、集中式磁盘阵列和离线磁盘3种存储方式。所述中间层元信息库与引擎模块由矢栅数据ETL、数据引擎、元信息库以及矢栅可视化引擎四部分组成;在异构式的存储环境之上,通过元信息库对每个数据资源建立基本信息档案和链接关系,实现了基于MongoDB的元信息库,通过数据引擎实现数据资源的存取和访问,通过工作者模式实现了数据交互,通过可视化引擎实现每一类别数据的渲染接口,实现了栅格和矢量一体化的可视化引擎及其前端控件。所述顶层服务模块负责面向用户,通过数据资源服务提供数据资源检索等服务接口,通过数据服务实现标准数据产品的获取接口,通过可视化控件提供交互式的展现服务。
在此框架上运行的流程主要包括矢栅数据ETL(指对数据的抽取Extract、转换Transformation和装载Loading)、入库、出库等步骤。
(1)矢栅数据ETL。针对以卫星遥感为主要数据源产生的栅格数据和矢量数据,需依照数据资源及其元信息的标准进行ETL处理,最终生成标准的元信息和数据格式;
(2)入库。入库过程由前端提交,数据引擎通过“管家-工作者”模式完成,经过后台的数据检查后,将元信息写入元信息库,同时将数据资源打包,根据数据类型、特性和用户指定等条件存放至对应的存储环境中;
(3)出库。出库过程由前端提交,数据引擎通过“管家-工作者”模式完成,根据元信息库的链接关系定位到存储位置,使用存储环境对应的读取模型进行数据提取和传输。
在存储管理方法上,主体包括围绕数据资源管理和数据实体存储管理2个核心问题。
在数据资源这个层面,通过矢栅数据ETL实现元信息提取,由元信息库来进行管理,并由资源服务对外提供检索服务。
ETL通过对分散、杂乱数据进行提取、转换、清洗和加载后,使这些数据成为信息管理与分析系统所需的有用数据。本发明的矢栅数据ETL过程,主要针对大规模、异源、多类型、多产品级别的影像数据及其增值信息产品的标准化预处理与入库过程。参照图2,数据抽取作为数据源的初步整理过程,是将同源数据归整到一起,对合格产品进行自动检测和挑选。数据清洗和转换主要解决数据质量问题,通过针对各类数据的定制工具将海量数据中存在的冗余、错误、缺失等检测出来并加以改正,并按照元数据标准使用自定义的转换规则对数据中的元信息字段进行合并、转换、补充等操作,使数据具有一致性、完整性和可用性。在数据转换过程中,使用自定义转换规则将数据的相关信息转换成数据资源元信息文件(XML或JSON的结构化描述形式)、预览图片文件、拇指图片文件等必备元信息。完成转换后,迭代进行数据清洗,利用自定义的检查程序检测必需文件的完整性,错误的数据进入新一轮清洗、转换的迭代过程。数据装载是将经过清洗与转换后的元信息录入到元信息库中,并将数据实体打包、切分并保存至用户制定的存储系统中,并形成相关的系统日志或错误日志。
元信息库构建在异构式存储环境上层,建立存储与资源的链接关系,将不同存储形态的数据资源以统一的描述形式汇聚到一起,并通过数据资源服务进行REST接口封装,对外提供一致的元信息检索服务。
本发明设计的“元元属性-数据资源模版-数据资源集合-数据资源”的基本元信息组织结构中,每一种遥感数据资源的元信息由数据资源模版来描述,模版中的每一项由元元属性来表述,数据资源模版可实例化为具体的数据资源集合用于容纳具体的数据资源项,而具体的数据资源项依据模版实例化成对其数据的元描述。通过这种方式可以有效地组织对多源、多类型数据资源的元信息以XML、JSON等形式表述,易于在ETL、入库、出库等过程中交换。
通过建立元数据库作为用户检索与数据实体之间的交换站,不管数据实体的物理存储在何处,用户都可以统一根据元数据库定位查找数据,从而实现数据资源服务。
本发明的底层数据存储采用异构形式,以确保每个数据资源都与元信息对应。在此前提下,不同的存储架构满足不同的组织形式,同时适应于不同的计算模式。底层数据可支持的存储方式包括适用于影像资源的磁盘(阵列)文件系统、分布式文件系统、离线磁盘或磁带,以及适用于矢量资源的关系型空间数据库、NoSQL数据库、文档型数据库。
数据引擎完成数据操作任务的执行与调度,同时维护数据存储和元信息库间的一致性,其中数据操作包括内外部数据交换、冗余拷贝、存储介质迁移等。参照图3,数据引擎由任务调度中心、传输管家、传输工作者、传输客户端组成,外部数据入口和出口通过挂载磁盘、共享交换目录、连接传输客户端实现。
数据管理用户通过离线操作将数据加载到交换目录,在Web页面提交数据任务(导入、下载、迁移等)后进入调度中心,随后任务被分配至传输管家,由管家来分配相应的工作者完成各项任务。以导入任务为例,具体步骤为:(1)用户先将经过ETL的数据存放到导入交换目录(图3中的数据源入口),并在Web页面提交导入任务(此时页面上会显示交换目录中的数据)至任务调度中心;(2)调度中心根据任务优先级进行调度,满足条件后将该任务下发至管家;(3)管家根据任务要求发指令至相应的客户端,由客户端进行数据打包、切分,然后传输至内存数据库;(4)最后由工作者将切分后的数据包存入数据资源存储环境,并在该资源的所有切分包传输完毕后,写入相应的元信息。整个传输节点(管家、工作者、客户端)由传输中间件来完成,可采用的具体方案有ZeroMQ、RabbitMQ等。
数据引擎保障了内外部数据交换的高效性和稳定性、数据资源元信息库的一致性、数据存储的可靠性,是存储管理模型内部的核心。针对不同的存储方式,需由相应的数据模型、计算模式及可视化模型与之对应。
可视化是大数据管理的必要组成,同时也是一种特殊的计算技术。在本发明的存储管理模型中最终实现的可视化包括3个层次:
(1)元信息可视化。基于元信息库中包含精确位置信息的预览图可以实现数据资源的显示,同时基于属性集合的统计按需生成图表;
(2)数据资源可视化。将数据资源作为一个整体进行可视化显示,生成基于单个资源数据的固定配色方案的地图切片,在前端通过地图控件进行展现;
(3)实时交互可视化。最终实现对数据资源进行随机访问与可视渲染,达到实时、交互式的可视化效果。
上述不同层次的可视化对应了元信息库、分布式文件系统、在线磁盘等不同的数据存储与组织模式,与存储管理融为一体。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于大数据存储架构的空间数据存储管理系统,其特征在于,所述系统包括:底层大数据异构存储模块、中间层元信息库与引擎模块以及顶层服务模块;其中,所述底层大数据异构存储模块以数据资源为单位进行存放,具体介质包含多种异构式存储环境;所述中间层元信息库与引擎模块由矢栅数据ETL、数据引擎、元信息库以及矢栅可视化引擎四部分组成;所述顶层服务模块负责对外提供统一、标准的服务。
2.根据权利要求1所述的基于大数据存储架构的空间数据存储管理系统,其特征在于,所述底层大数据异构存储模块包括分布式文件系统、在线磁盘阵列、离线磁盘等,具体实现了基于GridFS文件系统、集中式磁盘阵列和离线磁盘3种存储方式。
3.根据权利要求1所述的基于大数据存储架构的空间数据存储管理系统,其特征在于,所述中间层元信息库与引擎模块在异构式的存储环境之上,通过元信息库对每个数据资源建立基本信息档案和链接关系,实现了基于MongoDB的元信息库;通过数据引擎实现数据资源的存取和访问;通过工作者模式实现了数据交互;通过可视化引擎实现每一类别数据的渲染接口,实现了栅格和矢量一体化的可视化引擎及其前端控件。
4.根据权利要求1所述的基于大数据存储架构的空间数据存储管理系统,其特征在于,所述顶层服务模块负责面向用户,通过数据资源服务提供数据资源检索等服务接口,通过数据服务实现标准数据产品的获取接口,通过可视化控件提供交互式的展现服务。
CN201711239173.9A 2017-12-01 2017-12-01 基于大数据存储架构的空间数据存储管理系统 Pending CN110019089A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711239173.9A CN110019089A (zh) 2017-12-01 2017-12-01 基于大数据存储架构的空间数据存储管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711239173.9A CN110019089A (zh) 2017-12-01 2017-12-01 基于大数据存储架构的空间数据存储管理系统

Publications (1)

Publication Number Publication Date
CN110019089A true CN110019089A (zh) 2019-07-16

Family

ID=67186118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711239173.9A Pending CN110019089A (zh) 2017-12-01 2017-12-01 基于大数据存储架构的空间数据存储管理系统

Country Status (1)

Country Link
CN (1) CN110019089A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399446A (zh) * 2019-07-26 2019-11-01 广州市城市规划勘测设计研究院 大规模时空数据的可视化方法、装置、设备及存储介质
CN111474907A (zh) * 2020-04-18 2020-07-31 青岛奥利普自动化控制系统有限公司 一种数据采集处理系统及方法
CN112802500A (zh) * 2020-12-31 2021-05-14 周凯 一种面向多源异构文旅大数据的分布式全息数据存储装置
CN113641673A (zh) * 2021-08-17 2021-11-12 山东勤成健康科技股份有限公司 一种数据异构存储方法以及数据异构存储装置
CN114379608A (zh) * 2021-12-13 2022-04-22 中铁南方投资集团有限公司 一种城市轨道交通工程的多源异构数据集成处理方法
CN115774861A (zh) * 2022-12-22 2023-03-10 广东五度空间科技有限公司 一种自然资源多源异构数据汇聚融合服务系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399446A (zh) * 2019-07-26 2019-11-01 广州市城市规划勘测设计研究院 大规模时空数据的可视化方法、装置、设备及存储介质
CN111474907A (zh) * 2020-04-18 2020-07-31 青岛奥利普自动化控制系统有限公司 一种数据采集处理系统及方法
CN112802500A (zh) * 2020-12-31 2021-05-14 周凯 一种面向多源异构文旅大数据的分布式全息数据存储装置
CN112802500B (zh) * 2020-12-31 2022-08-12 周凯 一种面向多源异构文旅大数据的分布式全息数据存储装置
CN113641673A (zh) * 2021-08-17 2021-11-12 山东勤成健康科技股份有限公司 一种数据异构存储方法以及数据异构存储装置
CN114379608A (zh) * 2021-12-13 2022-04-22 中铁南方投资集团有限公司 一种城市轨道交通工程的多源异构数据集成处理方法
CN115774861A (zh) * 2022-12-22 2023-03-10 广东五度空间科技有限公司 一种自然资源多源异构数据汇聚融合服务系统

Similar Documents

Publication Publication Date Title
CN110019089A (zh) 基于大数据存储架构的空间数据存储管理系统
CN112115198B (zh) 一种城市遥感智能服务平台
CN107577805A (zh) 一种面向日志大数据分析的业务服务系统
CN106022245A (zh) 一种基于算法分类的多源遥感卫星数据并行处理系统及方法
CN106339509A (zh) 一种基于大数据技术的电网运营数据共享系统
CN108959352A (zh) 基于时间和空间数据模型的时空数据处理平台及处理方法
CN107103448A (zh) 基于工作流的数据集成系统
CN104660633A (zh) 一种新媒体公共服务平台
CN114647716B (zh) 一种适用于泛化数据仓库的系统
CN107895046A (zh) 一种异构数据集成平台
CN104166549A (zh) 气象要素等值面分析平台及构建方法
CN108268569A (zh) 基于大数据技术的水资源监测数据采集与分析系统及方法
CN111427964B (zh) 一种面向运行时间戳的工业云数据存储模型
CN104699826B (zh) 一种影像数据的金字塔层式存储方法及空间数据库系统
CN114626807A (zh) 核电场景管理方法、系统、装置、计算机设备和存储介质
CN116468287A (zh) 一种基于数字孪生的智慧园区控制系统
CN116450620B (zh) 面向多源多域时空基准数据的数据库设计方法及系统
CN107679126A (zh) 激光三维点云数据存储和管理方法及其系统
CN113342874A (zh) 一种基于云计算的风电大数据分析系统和流程
CN106528811B (zh) 一种pms系统整体数据迁移的方法
CN108921930A (zh) 一种基于面向对象的馆藏文物渲染方法及其系统
Sun Intelligent remote monitoring and fault diagnosis of engineering machinery system design
Yu Smart City Economic Management Prediction Model Based on Information Analysis System
Hao et al. Distributed Message Processing System Based for Internet of Things
CN111753010B (zh) 铁路接触网的数据采集网络架构及实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190716