CN113641765B - 面向巨量多源遥感数据的统一逻辑模型组织方法及其装置 - Google Patents
面向巨量多源遥感数据的统一逻辑模型组织方法及其装置 Download PDFInfo
- Publication number
- CN113641765B CN113641765B CN202111190600.5A CN202111190600A CN113641765B CN 113641765 B CN113641765 B CN 113641765B CN 202111190600 A CN202111190600 A CN 202111190600A CN 113641765 B CN113641765 B CN 113641765B
- Authority
- CN
- China
- Prior art keywords
- metadata
- remote sensing
- data
- data center
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008520 organization Effects 0.000 title claims abstract description 27
- 238000013507 mapping Methods 0.000 claims abstract description 97
- 238000003860 storage Methods 0.000 claims abstract description 56
- 230000005540 biological transmission Effects 0.000 claims description 30
- 230000008859 change Effects 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 10
- 238000013481 data capture Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000004806 packaging method and process Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005527 soil sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向巨量多源遥感数据的统一逻辑模型组织方法及其装置,属于大数据领域。本发明针对多源遥感数据出现的同名异义、同义异名等问题,采用一种基于映射模板的异构遥感元数据组织方法,基于遥感元数据核心编目集来统一组织并转换多数据中心遥感元数据,并可在多数据中心之间同步遥感元数据,从而实现了适用于遥感影像的统一逻辑模型。本发明将多数据中心按照无中心节点的星型拓扑结构建立分布式存储网络,能够实现对于巨量多源遥感数据的高效组合和存取,可以在多数据中心之间实现全局统一共享,并且具有动态扩展的能力。
Description
技术领域
本发明属于大数据领域,具体涉及一种多源大数据分布式存储时的数据统一组织方法。
背景技术
随着遥感观测和影像处理技术的深入发展,各种卫星升空发射及新型传感器不断涌现,遥感影像数据的种类、级别不断丰富,呈现出多格式、多类型、多尺度、跨地域、海量以及分布式存储的特征。目前社会各领域对遥感数据的需求越来越大,各个部分和科研机构都建立了针对各行业不同资源类型、彼此异构的遥感影像库,这大大制约了各部分间遥感数据的信息共性以及全社会各行各样对遥感数据的应用。
为有效管理这些巨量多源异构的遥感数据,以便于遥感观测数据资源的利用、共享、交互和整合提出了遥感元数据技术。遥感元数据是对遥感影像数据的概括和抽取,对遥感影像数据的内容、矢量、条件、标识方法、空间参照系、管理方式等参数及特征进行管理,帮助人们对遥感影像数据的高效获取及使用。但存在国内外对于遥感元数据标准不统一的现状,遥感数据管理中元数据的表达和发布也形式各异,为遥感影像数据的利用、共享等增添了新的难度。
因此,亟需设计一种面向巨量多源遥感数据的统一逻辑模型组织方法,解决各种异构遥感元数据类型格式等不统一的问题。
发明内容
本发明的目的在于解决现有技术中多中心存储的巨量多源异构遥感数据格式不统一造成的共享和检索困难的问题,并提供一种面向巨量多源遥感数据的统一逻辑模型组织方法及其装置,实现多数据中心之间的全局数据共享。
本发明所采用的具体技术方案如下:
第一方面,本发明提供了一种面向巨量多源遥感数据的统一逻辑模型组织方法,其包括:
S1、将多个存储多源遥感数据的数据中心按照无中心节点的星型拓扑结构建立分布式存储网络,且任意数据中心均能够向分布式存储网络的在线数据中心注册自己的遥感元数据;所有在线数据中心均实时监听各自元数据表的变化;
S2、针对所有待上传至数据中心的每一种遥感元数据类型各自建立一个元数据映射模板,用于将该遥感元数据类型中的属性字段一一对应映射至遥感元数据核心编目集中的属性字段;所述遥感元数据核心编目集为统一的属性目录体系,且其中的属性字段覆盖遥感元数据的所有属性字段;
S3、需注册遥感元数据的数据中心向分布式存储网络中任一在线数据中心发送注册请求,在线数据中心收到注册请求后调用待注册的遥感元数据类型对应的元数据映射模板,将从待注册的遥感元数据中解析得到的所有属性值按照元数据映射模板中的属性字段映射关系入库至在线数据中心内符合遥感元数据核心编目集统一格式的元数据表中,完成遥感元数据的注册;
S4、当任一在线数据中心监听到的元数据表发生变化时,通过遥感元数据同步服务将该在线数据中心中变化的元数据记录到临时表中,然后基于订阅分发机制向每一个其他的在线数据中心同步该临时表中记录的变化元数据,实现分布式存储网络中遥感元数据的全局统一组织和共享。
作为优选,所述分布式存储网络中,遥感数据的元数据在所有在线数据中心之间全局统一组织和共享,而遥感数据文件则分散存储于各数据中心上。
作为优选,所述遥感元数据核心编目集中包含了所有遥感元数据标准属性字段,且该遥感元数据核心编目集保持不断更新,如果出现新的遥感元数据属性字段则对目录进行扩充以纳入新的属性字段。
作为优选,所述遥感元数据为XML文件,元数据映射模板中设置了XML中每一条包含元数据的XPath路径与遥感元数据核心编目集中属性字段之间的映射关系。
进一步的,所述元数据映射模板中,如果XPath路径中存储的属性值属于数组,则应添加数组标记以标记对应的属性字段在数组中的位置,映射时需要解析数组标记从而将数组中的各属性值按其所在位置入库。
进一步的,新建的元数据映射模板在实际应用前,应当进行解析验证,步骤如下:
首先,从元数据映射模板的根节点开始,循环迭代得到模板内所有叶节点的XPath路径以及遥感元数据核心编目集中映射关系对应的属性字段,解析遥感元数据XML文件每个叶节点中的属性值并按照映射关系入库到遥感元数据核心编目集中的属性字段节点;
然后,检查入库的遥感元数据格式是否正确,若有误则重新修改元数据映射模板并重新进行解析入库,确认无误后正式生效该新建的元数据映射模板并保持不可修改。
作为优选,每个数据中心上均部署有用于实现遥感元数据同步服务的数据捕获引擎、数据传输模块以及数据同步引擎;
所述数据捕获引擎,用于通过监听器监听数据中心本地的元数据表变化,当元数据更新时将变化的元数据记录到临时表中,再按照数据交换标准打成数据包;
所述数据传输模块,用于将本地的数据捕获引擎生成的所述数据包发送给分布式存储网络中其他的数据中心,同时也接收由其他数据中心发送的所述数据包;
所述数据同步引擎,用于对接收到的由其他数据中心发送的所述数据包进行解析,从中提取变化的元数据并同步更新至本地的元数据表中。
进一步的,所述数据传输模块中,由网络传输驱动管理器根据当前网络情况或者用户配置的传输策略自动选择网络传输服务,并采用消息重发机制和断点续传技术进行数据中心之间的数据包传送。
作为优选,所述分布式存储网络中的每一台在线数据中心均提供检索接口,任意一台在线数据中心均能够提供统一的遥感元数据检索服务。
第二方面,本发明提供了一种面向巨量多源遥感数据的统一逻辑模型组织装置,其包括:
分布式存储网络构建模块,用于将多个存储多源遥感数据的数据中心按照无中心节点的星型拓扑结构建立分布式存储网络,且任意数据中心均能够向分布式存储网络的在线数据中心注册自己的遥感元数据;所有在线数据中心均实时监听各自元数据表的变化;
模板构建模块,用于针对所有待上传至数据中心的每一种遥感元数据类型各自建立一个元数据映射模板,元数据映射模板用于将该遥感元数据类型中的属性字段一一对应映射至遥感元数据核心编目集中的属性字段;所述遥感元数据核心编目集为统一的属性目录体系,且其中的属性字段覆盖遥感元数据的所有属性字段;
遥感元数据注册模块,用于供需注册遥感元数据的数据中心向分布式存储网络中任一在线数据中心发送注册请求,在线数据中心收到注册请求后调用待注册的遥感元数据类型对应的元数据映射模板,将从待注册的遥感元数据中解析得到的所有属性值按照元数据映射模板中的属性字段映射关系入库至在线数据中心内符合遥感元数据核心编目集统一格式的元数据表中,完成遥感元数据的注册;
遥感元数据同步模块,用于当任一在线数据中心监听到的元数据表发生变化时,通过遥感元数据同步服务将该在线数据中心中变化的元数据记录到临时表中,然后基于订阅分发机制向每一个其他的在线数据中心同步该临时表中记录的变化元数据,实现分布式存储网络中遥感元数据的全局统一组织和共享。
本发明相对于现有技术而言,具有以下有益效果:
本发明研究面向巨量多源遥感数据的统一逻辑目录体系,构建统一的数据逻辑模型,可以实现多源异构遥感数据逻辑目录动态更新。以此发明为基础,可以构建更加高效的面向巨量多源遥感数据的分布式存储架构,进而解决遥感数据的高效存储问题,已实现数据驱动的遥感应用。
附图说明
图1为面向巨量多源遥感数据的统一逻辑模型组织方法的步骤流程图;
图2为分布式存储网络中用户和数据中心的结构示意图;
图3为元数据变化监听和提取流程示意图;
图4为在线数据中心之间的订阅分发机制示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
遥感数据是一种典型的多源异构数据,其按照数据类型划分主要包含遥感数据(如陆地卫星、气象卫星、雷达和夜光遥感等遥感数据)、遥感观测台站数据(如气象、地震、水文、交通和环境等台站监测数据)和野外调查数据(如土壤采样数据和地形遥感观测数据等)等多种类型。而且遥感数据往往数据量巨大,可以达到PB级别,这也为巨量遥感数据的存储带来了困难。目前这些巨量遥感数据资源主体呈现分散状态,各大卫星中心及相关遥感机构对遥感数据的管理方式多样、应用接口不一、存储结构差异,现有的海量数据管理机制侧重于集中化模式和业务化应用,难以满足地域分散化和逻辑统一化的巨量多源遥感数据高效管理的需求。
因此,在本发明的一个较佳实施例中,提供了一种面向巨量多源遥感数据的统一逻辑模型组织方法,其目的正是为了解决不同数据中心中分散存储的巨量多源遥感数据难以统一组织存储,进而无法统一高效检索的缺陷。该方法的核心是面向多源异构巨量遥感数据构建统一逻辑的目录体系,从而形成巨量遥感数据统一逻辑模型,将遥感数据的抽象表达转化为计算机可以识别的数据结构,实现多源异构巨量遥感数据逻辑目录动态更新。下面对该统一逻辑模型组织方法的具体实现过程进行详细描述,具体如S1~S4所示。
S1、将多个存储多源遥感数据的数据中心按照无中心节点的星型拓扑结构建立分布式存储网络,且任意数据中心均能够向分布式存储网络的在线数据中心注册自己的遥感元数据;所有在线数据中心均实时监听各自元数据表的变化。
需要说明的是,在上述S1步骤中,并非所有参与遥感数据统一组织存储的数据中心都要上线,该分布式存储网络中允许存在不上线的数据中心。如图2所示,在该分布式存储网络中的数据中心分为在线和离线两种,对于各种原因无法上线的数据中心,其可以作为离线数据中心存在,而其他能够上线的数据中心则以无中心节点的星型拓扑结构形成网络离线数据中心能够通过任何一个在线数据中心进行数据注册。而且,由于遥感数据通常都分为描述其自身信息的元数据和具体的遥感数据文件。元数据是对数据采集信息、质量信息、空间特征、时间特征等内容的概括抽取,通常表现为文本格式,具有数据量小、信息丰富和读取方便等优点。遥感数据文件的格式迥异,大小不一,不便于和元数据共同表示。因此,本发明中在上述“星型拓扑+无中心”的分布式存储网络基础上,采用分层管理方法来对遥感元数据和遥感数据文件进行组织,即遥感数据的元数据在所有在线数据中心之间全局统一组织和共享,而遥感数据文件则分散存储于各数据中心上。任意数据中心均可向在线数据中心注册自己的元数据,收到注册请求的数据中心拉取元数据列表并同步至所有已在线数据中心,以保证每一个在线数据中心拥有所有已注册中心的元数据信息,实现元数据的全局统一。由此,用户请求遥感数据时可访问任意一个在线数据中心元数据进行检索。
S2、针对所有待上传至数据中心的每一种遥感元数据类型各自建立一个元数据映射模板,用于将该遥感元数据类型中的属性字段一一对应映射至遥感元数据核心编目集中的属性字段。构建元数据映射模板所用的遥感元数据核心编目集为统一的属性目录体系,且其中的属性字段覆盖遥感元数据的所有属性字段。
本发明中上述S2所采用的元数据映射模板可以解决多源遥感数据中属性字段出现的同名异义和同义异名等问题,能够将异构的遥感元数据转换至统一的属性目录体系下,再将按照模板处理过的数据结果存入数据库即可解决同一个属性在多个不同类型的元数据结构中名字不同以及拓扑结构存在差异的问题。
由于多源遥感数据的来源复杂,其中涵盖了多中心、多领域的不同遥感数据,因此其中元数据的属性字段也复杂多变。为了保证每一种遥感元数据类型都可以被映射到遥感元数据核心编目集中的对应属性字段,上述遥感元数据核心编目集中所覆盖的属性字段应该尽可能全面。在本实施例的具体实施中,可将所有标准化组织发布的遥感元数据标准属性项都纳入遥感元数据核心编目集中,使遥感元数据核心编目集中包含了所有遥感元数据标准属性字段。而且该遥感元数据核心编目集保持不断更新,如果出现新的遥感元数据属性字段则对目录及时进行扩充以纳入新的属性字段。遥感元数据核心编目集中的属性字段应当采用标准化组织发布的标准化命名,避免出现歧义。
目前遥感元数据通常采用XML文件这种可扩展的数据描述格式,而XML文件是以树状的结构存储元数据的,因此对于XML文件形式的遥感元数据,元数据映射模板中需要设置XML中每一条包含元数据的XPath路径与遥感元数据核心编目集中属性字段之间的映射关系,以便于通过遍历XML文件实现元数据的解析入库。而且,在遥感元数据中,可能存在部分属性属于数组的情况,因此在元数据映射模板中,如果XPath路径中存储的属性值属于数组,则应添加数组标记以标记对应的属性字段在数组中的位置,映射时需要解析数组标记从而将数组中的各属性值按其所在位置入库。
在本实施例具体实施过程中,为了保证元数据映射模板的可靠性,通过元数据映射模板来构建多元遥感映射机制时,可包括新建元数据映射模板、解析映射模板和控制射模板生命周期三部分内容:新建的元数据映射模板用于元数据的验证和解析,模板中应该指定这种遥感元数据的XML文件中所有包含数据的XPath路径跟遥感元数据核心编目集中某属性项的映射,并且对不同类型的数组添加相应的数组标记。新建的元数据映射模板在实际应用前,应当进行解析验证,解析验证时,首先从元数据映射模板的根节点开始,循环迭代得到模板内所有叶节点的XPath路径以及遥感元数据核心编目集中映射关系对应的属性字段,解析遥感元数据XML文件每个叶节点中的属性值并按照映射关系入库到遥感元数据核心编目集中的属性字段节点。元数据映射模板生命周期是指在试用阶段需要检查入库的元数据是否能够正常解析,格式是否正确,若有误则重新修改元数据映射模板并重新进行解析入库,在确定此模板解析入库正确无误后,方可确定此模板有效,一旦此模板生效后便不可修改。每一种遥感元数据类型均需要生效一个不可更改的元数据映射模板,而且根据此模板注册的所有遥感元数据不能修改或者删除。
S3、需注册遥感元数据的数据中心向分布式存储网络中任一在线数据中心发送注册请求,在线数据中心收到注册请求后调用待注册的遥感元数据类型对应的元数据映射模板,将从待注册的遥感元数据中解析得到的所有属性值按照元数据映射模板中的属性字段映射关系入库至在线数据中心内符合遥感元数据核心编目集统一格式的元数据表中,完成遥感元数据的注册。
在上述S3步骤具体实施时,需注册遥感元数据的数据中心选择哪一个在线数据中心作为目标发送注册请求可以是随机的,也可以根据各在线数据中心的当前负载来进行自适应调配,对此不做限定。数据中心发送注册请求时,可以指定其注册的遥感元数据类型和对应的元数据映射模板。注册遥感元数据包括解析元数据和属性映射解析两步。对于XML形式的待注册遥感元数据,可以按照XML文件的格式解析遥感元数据XML文件,首先读取所有文件中的数据,得到包含所有XPath路径和其值的一个Map结构。在解析的时候,如果XPath对应子路径中的数据是数组,则根据它在数组中出现的顺序添加一个数组位置标记。再根据元数据映射模板将元数据XML文件中的每一个XPath路径映射到核心编目集中的一条属性。遥感元数据核心编目集中数组形式的属性字段也需要添加对应的数组标记。映射时要解析数组标记,如果可以和遥感元数据核心编目集中某一属性字段的数组标记完全匹配,则说明数组的子节点有独立的语义,每个节点可以对应到独立的核心编目集属性项。具体的数组标记形式可根据实际调整,以能够将遥感元数据XML文件中的属性项一一对应到遥感元数据核心编目集中为准。
另外,为验证本发明的有效性,此处进一步提供了一个示例性的应用,该示例中设计了一个核心属性编目集,其中定义了巨量多源遥感数据的元数据标准属性项。针对每种需要存储的遥感元数据类型提交一个元数据映射模板,模板其中指定了这种类型元数据XML文件的数据结构以及每个XPath节点对应到标准编目集的映射关系,通过这个映射即可把遥感元数据XML文件中树状结构的数据解析为线性结构,可以实现格式化统一并存入数据库,解决巨量多源遥感元数据中异构、不同名字、不同的拓扑结构等的问题。该示例中多源遥感元数据的具体映射和解析入库包含以下步骤:
(1)建立对地观测的遥感元数据核心编目集。遥感元数据核心编目集记录所有标准化组织发布的遥感元数据标准属性项。而且如果有新增的属性项,则对核心编目集进行扩充以覆盖所有属性项。根据实际情况可以把所有的属性划分到7个属性组:标识信息、数据质量信息、参照系信息、内容信息、覆盖范围、发布信息、遥感信息。对每条属性应记录id、中文名、英文名、属性组、描述、数据类型、来源。表1所示为核心编目集表中的部分标准属性列:
表1部分遥感元数据核心编目集属性列表
(2)建立自定义的元数据映射模板。元数据映射模板用于遥感元数据的验证和解析,应该指定这种遥感元数据的XML文件中所包含数据的XPath路径节点跟核心编目集中某条属性的映射,并且指明是哪种数组类型。而且如果XPath对应的子节点是数组,则应该加数组标记。数组类型分为两种,如果数组中的每个子节点映射到核心编目集中相同的属性节点,则只需要在父节点上加入数组标记即可。如果每个子节点映射到核心编目集中不同的属性节点,则需要按照顺序列出所有的子节点跟标准属性间的映射关系,这些语义不同的子节点通过添加数字后缀来区分,数字后缀直接采用他们在数组中的顺序。
(3)解析映射模板。解析映射模板时,从模板的根节点开始循环迭代得到映射模板所有叶节点的XPath路径,以及对应的映射到核心编目集中的属性节点。这样就可以把元数据文件中每条数据对应到核心编目集中的属性节点。例如root/satelliteId路径对应到核心编目集中的satelliteName属性列。在解析的过程中通过数组标记来按序给数组节点添加标号,可以解决嵌套数组的问题。将上述解析模板解析后得到如表2所示的映射信息:
表2 遥感元数据映射表
由此证明,本发明中基于遥感元数据核心编目集构建的元数据映射模板能够有效实现多源异构的遥感元数据的解析和入库。
S4、当任一在线数据中心监听到的元数据表发生变化时,通过遥感元数据同步服务将该在线数据中心中变化的元数据记录到临时表中,然后基于订阅分发机制向每一个其他的在线数据中心同步该临时表中记录的变化元数据,实现分布式存储网络中遥感元数据的全局统一组织和共享。
在上述S4步骤具体实施过程中,可以在每个数据中心上均部署有用于实现遥感元数据同步服务的数据捕获引擎、数据传输模块以及数据同步引擎,以便于实时将一种数据中心中新注册的遥感元数据同步至其他的在线数据中心,保证所有在线数据中心的遥感元数据全局统一。每个数据中心上的遥感元数据同步服务中三部分模块的具体实现如下:
数据捕获引擎,用于通过监听器监听数据中心本地的元数据表变化,当元数据更新时将变化的元数据记录到临时表中,再按照数据交换标准打成数据包。因此,数据捕获引擎主要用来识别遥感元数据的更新识别、提取和打包,因为从遥感数据本身识别其变化比较困难,因此本发明使用捕获元数据的变化来识别遥感数据变化的方法。具体实现时,可通过元数据变化监听器、元数据变化捕获与通知线程、变化数据抽取和打包线程来结合实现。如图3所示,其中元数据变化监听器负责监听元数据的变化,将变化的元数据记录到临时表中,监听器可部署在元数据表上,当元数据更新时,监听器发现数据变化立即调用元数据变化捕获与通知线程,记录元数据到临时表中。元数据变化捕获模块从捕获临时表中抽取变化的元数据到内存,并通过回调元数据变化捕获与通知线程通知变化数据抽取和打包线程对内存中的数据进行打包,形成待发送的数据包。
数据传输模块,用于将本地的数据捕获引擎生成的所述数据包发送给分布式存储网络中其他的数据中心,同时也接收由其他数据中心发送的数据包。
在具体实施时,因网络环境不确定因素,本发明建议采用网络传输驱动管理机制、消息重发机制和“断点续传”技术来确保传输的可靠性和传输效率。首先设计网络传输驱动管理机制,由网络传输驱动对应网络传输服务接口,网络传输驱动管理器根据当前网络情况(带宽大小、传输时延等因素)或者用户配置的传输策略,自动选择网络传输服务。其次采用消息重发机制,基于发送应答方式解决数据丢包问题,即数据发送方发送一个数据包给接收方后就等待数据回执,数据接收方在接收到该数据包后立即发送回执给发送方。如果数据发送方在指定时间内没有接收到数据回执,则重发数据。最后采用 “断点续传”技术解决传输中断问题。即对文件采用分段传送和消息重发机制,首先将文件进行分段处理,将所有文件段放入数据发送队列中;发送队列依次发送文件段,如果发送成功,则记录此次发送的文件段位置,如果发送失败,则读取最后一次发送成功的文件段位置,并重发它的下一个文件段。
数据同步引擎,用于对接收到的由其他数据中心发送的数据包进行解析,从中提取变化的元数据并同步更新至本地的元数据表中。数据包的解析和更新入库操作为现有技术,对此不再赘述。
由于本发明的分布式存储系统中存在多个数据中心,因此多数据中心遥感元数据同步服务基于订阅分发的运行机制保证更新的同步性。如图4所示,订阅分发机制需要由数据订阅服务器与数据发布服务器配合实现,数据订阅方负责发起订阅任务并与发布方之间建立数据同步活动,以达到订阅双方遥感数据的实时同步与更新。
由此,基于上述遥感元数据同步服务和订阅分发机制,任何一台在线数据中心收到新注册的元数据后,都可以立即同步给其他的在线数据中心。因此,任何一台在线数据中心上都共享了全局统一的最新元数据表,如果在分布式存储网络中的每一台在线数据中心均部署检索接口,则任意一台在线数据中心均能够对用户提供统一的遥感元数据检索服务。
基于同一发明构思,本发明的另一较佳实施例中还提供了一种面向巨量多源遥感数据的统一逻辑模型组织装置,如下面的实施例所述。由于该装置解决问题的原理与前述面向巨量多源遥感数据的统一逻辑模型组织方法相似,因此该装置的实施可以参见面向巨量多源遥感数据的统一逻辑模型组织方法的实施,重复之处不再赘述。该统一逻辑模型组织装置包括:
分布式存储网络构建模块,用于将多个存储多源遥感数据的数据中心按照无中心节点的星型拓扑结构建立分布式存储网络,且任意数据中心均能够向分布式存储网络的在线数据中心注册自己的遥感元数据;所有在线数据中心均实时监听各自元数据表的变化;
模板构建模块,用于针对所有待上传至数据中心的每一种遥感元数据类型各自建立一个元数据映射模板,元数据映射模板用于将该遥感元数据类型中的属性字段一一对应映射至遥感元数据核心编目集中的属性字段;所述遥感元数据核心编目集为统一的属性目录体系,且其中的属性字段覆盖遥感元数据的所有属性字段;
遥感元数据注册模块,用于供需注册遥感元数据的数据中心向分布式存储网络中任一在线数据中心发送注册请求,在线数据中心收到注册请求后调用待注册的遥感元数据类型对应的元数据映射模板,将从待注册的遥感元数据中解析得到的所有属性值按照元数据映射模板中的属性字段映射关系入库至在线数据中心内符合遥感元数据核心编目集统一格式的元数据表中,完成遥感元数据的注册;
遥感元数据同步模块,用于当任一在线数据中心监听到的元数据表发生变化时,通过遥感元数据同步服务将该在线数据中心中变化的元数据记录到临时表中,然后基于订阅分发机制向每一个其他的在线数据中心同步该临时表中记录的变化元数据,实现分布式存储网络中遥感元数据的全局统一组织和共享。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法的流程图来描述的,应理解可由计算机程序指令实现流程图中的每一流程、以及流程图中的多个流程的结合。另外,可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种面向巨量多源遥感数据的统一逻辑模型组织方法,其特征在于,包括:
S1、将多个存储多源遥感数据的数据中心按照无中心节点的星型拓扑结构建立分布式存储网络,且任意数据中心均能够向分布式存储网络的在线数据中心注册自己的遥感元数据;所有在线数据中心均实时监听各自元数据表的变化;
S2、针对所有待上传至数据中心的每一种遥感元数据类型各自建立一个元数据映射模板,用于将该遥感元数据类型中的属性字段一一对应映射至遥感元数据核心编目集中的属性字段;所述遥感元数据核心编目集为统一的属性目录体系,且其中的属性字段覆盖遥感元数据的所有属性字段;
S3、需注册遥感元数据的数据中心向分布式存储网络中任一在线数据中心发送注册请求,在线数据中心收到注册请求后调用待注册的遥感元数据类型对应的元数据映射模板,将从待注册的遥感元数据中解析得到的所有属性值按照元数据映射模板中的属性字段映射关系入库至在线数据中心内符合遥感元数据核心编目集统一格式的元数据表中,完成遥感元数据的注册;
S4、当任一在线数据中心监听到的元数据表发生变化时,通过遥感元数据同步服务将该在线数据中心中变化的元数据记录到临时表中,然后基于订阅分发机制向每一个其他的在线数据中心同步该临时表中记录的变化元数据,实现分布式存储网络中遥感元数据的全局统一组织和共享。
2.如权利要求1所述的面向巨量多源遥感数据的统一逻辑模型组织方法,其特征在于,所述分布式存储网络中,遥感数据的元数据在所有在线数据中心之间全局统一组织和共享,而遥感数据文件则分散存储于各数据中心上。
3.如权利要求1所述的面向巨量多源遥感数据的统一逻辑模型组织方法,其特征在于,所述遥感元数据核心编目集中包含了所有遥感元数据标准属性字段,且该遥感元数据核心编目集保持不断更新,如果出现新的遥感元数据属性字段则对目录进行扩充以纳入新的属性字段。
4.如权利要求1所述的面向巨量多源遥感数据的统一逻辑模型组织方法,其特征在于,所述遥感元数据为XML文件,元数据映射模板中设置了XML中每一条包含元数据的XPath路径与遥感元数据核心编目集中属性字段之间的映射关系。
5.如权利要求4所述的面向巨量多源遥感数据的统一逻辑模型组织方法,其特征在于,所述元数据映射模板中,如果XPath路径中存储的属性值属于数组,则应添加数组标记以标记对应的属性字段在数组中的位置,映射时需要解析数组标记从而将数组中的各属性值按其所在位置入库。
6.如权利要求4所述的面向巨量多源遥感数据的统一逻辑模型组织方法,其特征在于,新建的元数据映射模板在实际应用前,应当进行解析验证,步骤如下:
首先,从元数据映射模板的根节点开始,循环迭代得到模板内所有叶节点的XPath路径以及遥感元数据核心编目集中映射关系对应的属性字段,解析遥感元数据XML文件每个叶节点中的属性值并按照映射关系入库到遥感元数据核心编目集中的属性字段节点;
然后,检查入库的遥感元数据格式是否正确,若有误则重新修改元数据映射模板并重新进行解析入库,确认无误后正式生效该新建的元数据映射模板并保持不可修改。
7.如权利要求1所述的面向巨量多源遥感数据的统一逻辑模型组织方法,其特征在于,每个数据中心上均部署有用于实现遥感元数据同步服务的数据捕获引擎、数据传输模块以及数据同步引擎;
所述数据捕获引擎,用于通过监听器监听数据中心本地的元数据表变化,当元数据更新时将变化的元数据记录到临时表中,再按照数据交换标准打成数据包;
所述数据传输模块,用于将本地的数据捕获引擎生成的所述数据包发送给分布式存储网络中其他的数据中心,同时也接收由其他数据中心发送的所述数据包;
所述数据同步引擎,用于对接收到的由其他数据中心发送的所述数据包进行解析,从中提取变化的元数据并同步更新至本地的元数据表中。
8.如权利要求7所述的面向巨量多源遥感数据的统一逻辑模型组织方法,其特征在于,所述数据传输模块中,由网络传输驱动管理器根据当前网络情况或者用户配置的传输策略自动选择网络传输服务,并采用消息重发机制和断点续传技术进行数据中心之间的数据包传送。
9.如权利要求1所述的面向巨量多源遥感数据的统一逻辑模型组织方法,其特征在于,所述分布式存储网络中的每一台在线数据中心均提供检索接口,任意一台在线数据中心均能够提供统一的遥感元数据检索服务。
10.一种面向巨量多源遥感数据的统一逻辑模型组织装置,其特征在于,包括:
分布式存储网络构建模块,用于将多个存储多源遥感数据的数据中心按照无中心节点的星型拓扑结构建立分布式存储网络,且任意数据中心均能够向分布式存储网络的在线数据中心注册自己的遥感元数据;所有在线数据中心均实时监听各自元数据表的变化;
模板构建模块,用于针对所有待上传至数据中心的每一种遥感元数据类型各自建立一个元数据映射模板,元数据映射模板用于将该遥感元数据类型中的属性字段一一对应映射至遥感元数据核心编目集中的属性字段;所述遥感元数据核心编目集为统一的属性目录体系,且其中的属性字段覆盖遥感元数据的所有属性字段;
遥感元数据注册模块,用于供需注册遥感元数据的数据中心向分布式存储网络中任一在线数据中心发送注册请求,在线数据中心收到注册请求后调用待注册的遥感元数据类型对应的元数据映射模板,将从待注册的遥感元数据中解析得到的所有属性值按照元数据映射模板中的属性字段映射关系入库至在线数据中心内符合遥感元数据核心编目集统一格式的元数据表中,完成遥感元数据的注册;
遥感元数据同步模块,用于当任一在线数据中心监听到的元数据表发生变化时,通过遥感元数据同步服务将该在线数据中心中变化的元数据记录到临时表中,然后基于订阅分发机制向每一个其他的在线数据中心同步该临时表中记录的变化元数据,实现分布式存储网络中遥感元数据的全局统一组织和共享。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111190600.5A CN113641765B (zh) | 2021-10-13 | 2021-10-13 | 面向巨量多源遥感数据的统一逻辑模型组织方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111190600.5A CN113641765B (zh) | 2021-10-13 | 2021-10-13 | 面向巨量多源遥感数据的统一逻辑模型组织方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641765A CN113641765A (zh) | 2021-11-12 |
CN113641765B true CN113641765B (zh) | 2022-02-18 |
Family
ID=78426553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111190600.5A Active CN113641765B (zh) | 2021-10-13 | 2021-10-13 | 面向巨量多源遥感数据的统一逻辑模型组织方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641765B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114338718B (zh) * | 2021-12-21 | 2022-09-20 | 浙江大学 | 面向巨量遥感数据的分布式存储方法、装置及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189723A (zh) * | 2018-07-05 | 2019-01-11 | 中国科学院遥感与数字地球研究所 | 一种分布式卫星数据中心多源遥感数据处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783665B (zh) * | 2018-12-29 | 2022-10-14 | 武汉大学 | 基于Google S2实现Hbase数据库遥感大数据入库模型的设计方法 |
-
2021
- 2021-10-13 CN CN202111190600.5A patent/CN113641765B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189723A (zh) * | 2018-07-05 | 2019-01-11 | 中国科学院遥感与数字地球研究所 | 一种分布式卫星数据中心多源遥感数据处理方法 |
Non-Patent Citations (2)
Title |
---|
Review of data storage and management technologies for massive remote sensing data;Lu XueFeng 等;《Science China(Technological Sciences)》;20111201;第54卷(第12期);第3220-3232页 * |
一种动态实时的遥感专题应用系统定制框架;姜斌 等;《浙江大学学报(理学版)》;20181115;第45卷(第6期);第759-764页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113641765A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492040B (zh) | 一种适用于数据中心海量短报文数据处理的系统 | |
CN113986873B (zh) | 一种海量物联网数据模型化的处理、存储与共享方法 | |
US7849227B2 (en) | Stream data processing method and computer systems | |
CN106815338A (zh) | 一种大数据的实时存储、处理和查询系统 | |
CN114691336B (zh) | 一种面向多源地理空间数据的云服务发布系统及方法 | |
CN105338113A (zh) | 一种针对城市数据资源共享的多平台数据互联系统 | |
CN106209431B (zh) | 一种告警关联方法及网管系统 | |
CN103179193B (zh) | 用于分布式应用系统的数据传输系统和数据传输方法 | |
US20150363484A1 (en) | Storing and identifying metadata through extended properties in a historization system | |
WO2022083436A1 (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN104468274A (zh) | 一种集群监控管理方法及系统 | |
CN109600410A (zh) | 数据存储系统以及方法 | |
CN103034650B (zh) | 一种数据处理系统和方法 | |
CN113641765B (zh) | 面向巨量多源遥感数据的统一逻辑模型组织方法及其装置 | |
CN103488696A (zh) | Cpe的业务查询方法、装置及系统、acs和cpe | |
CN115801539A (zh) | 一种容器云场景下租户侧容器监控采集告警方法及系统 | |
CN111949619A (zh) | 动态目录生成方法、系统、电子设备及存储介质 | |
CN116980475B (zh) | 一种基于binlog与双环形缓冲区的数据推送系统 | |
CN109634757B (zh) | 一种地震行业大数据处理的数据采集方法 | |
CN106202585B (zh) | 电力多场景多态数据系统及管理方法 | |
CN113641760A (zh) | 数据同步方法及装置 | |
CN110740046B (zh) | 分析服务契约的方法和装置 | |
CN111125383A (zh) | 基于事件模型的媒资标签存储及检索的方法 | |
CN116126794A (zh) | 一种野外地质调查数据实时汇聚方法 | |
CN118152494B (zh) | 一种面向地理空间数据的自适应打包分发系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |