CN113486005A - 异构结构下的空间科学卫星大数据组织及查询方法 - Google Patents
异构结构下的空间科学卫星大数据组织及查询方法 Download PDFInfo
- Publication number
- CN113486005A CN113486005A CN202110640028.1A CN202110640028A CN113486005A CN 113486005 A CN113486005 A CN 113486005A CN 202110640028 A CN202110640028 A CN 202110640028A CN 113486005 A CN113486005 A CN 113486005A
- Authority
- CN
- China
- Prior art keywords
- time
- data
- space
- query
- characteristic parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000008520 organization Effects 0.000 title abstract description 19
- 238000000638 solvent extraction Methods 0.000 claims abstract description 14
- 238000005192 partition Methods 0.000 claims description 9
- 230000000977 initiatory effect Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 description 10
- 239000002245 particle Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种异构结构下的空间科学卫星大数据组织及查询方法,涉及空间科学卫星数据组织与存储技术领域,能够在统一时空下进行多源数据组织,存储管理海量特征参数,同时实现了统一的查询方式。其中数据组织方法是:首先解析空间科学卫星数据文件,抽取特征参数时间序列数据,并且构建时空索引数据,将特征参数时间序列数据纳入到统一的时空框架中。采用分布式非关系型数据库分表分区的方式,存储特征参数时间序列数据。采用关系型数据库分表的方式,存储时空索引数据。然后基于非关系型数据库和关系型数据库联合存储机制,构建以观测时间、观测目标位置、参数类型为查询条件的数据查询服务,从而建立统一的数据查询服务。
Description
技术领域
本发明涉及空间科学卫星数据组织与存储技术领域,具体涉及异构结构下的空间科学卫星大数据组织及查询方法。
背景技术
2015年以来,我国陆续发射了暗物质粒子探测卫星、硬X射线调制望远镜、量子科学实验卫星、引力波暴高能电磁对应体全天监测器等空间科学卫星,持续获取了大量空间科学探测数据。这些数据是空间科学卫星在一定观测时间范围内,对指定目标进行探测的成果,数据内容包含能段、粒子数量、粒子沉积能量等表征观测目标的信息,以及卫星姿态、轨道、温度、压力等表征卫星平台、有效载荷工作状况的信息。按照每秒一条记录进行估算,每颗卫星每年每类数据产生3000多万条记录,按照卫星寿命5年、每颗卫星35类数据估算,单星寿命期内产生数据量约50多亿条。空间科学卫星数据总量达百亿甚至千亿数量级,迫切需要构建一种针对海量多源数据的高效组织方法。
现有的空间科学先导专项卫星数据地面管理系统中,按照国家空间科学中心提出的空间科学数据模型,卫星数据以FITS(Flexible Image Transport System)、ROOT(欧洲核子研究中心开发的一种数据格式)等学科专用数据格式保存在文件中,观测时间、观测目标空间信息、数据类型等文件元数据信息采用关系型数据库进行存储。获取数据时,首先需要检索文件元数据,获得数据文件存储地址;然后解析专用数据格式,从中抽取所需特征参数。由于各型卫星数据产品存储格式不同,获取特征参数的过程也不同,处理过程复杂且耗时;而且随着数据量的不断增长,元数据检索时间越来越长,数据获取的实时性越来越难以保证。目前以文件为粒度进行数据组织和存储的系统难以满足数据实时获取的要求。
随着非关系型数据库的发展,近年来发展出基于网格模型和非关系型数据库组织海量科学探测数据的方法。这类方法的主要步骤为:a基于网格剖分的思想,构建天球时空网格模型;b建立编码规则,对时空网格单元进行编码;c以网格单元编码作为行键,将海量科学探测数据存入HBase等非关系型数据库中。康栋贺等(支持时空耦合的HTM-ST日地空间系统数据组织模型[J].地球信息科学学报,2017,19(6):735-743.)提出建立HTM-ST离散化时空数据组织模型,采用时间、空间离散剖分的方式建立时空耦合编码,并以该编码构建行键,将日地空间数据存入HBase数据库。
以上基于网格模型和非关系型数据库的数据组织方法,存在以下缺点:
1、为确保HBase数据库行键的唯一性,每个行键(通常对应一个时空网格单元)不允许存在多条数据,因此需要按照最高分辨率来构建时空网格,而实际数据往往在时间或空间分辨率上存在差异,甚至存在一定的不确定性,该方法存在一定的操作难度;
2、由于HBase数据库行键采用字典序方式存储,采用时间、空间多重属性构建行键的方式,在点查询场景具备优势;针对范围查询场景,则需要逐层判断各个时空网格与查询范围的关系,在剖分细化的过程中不断逼近查询条件中的时空范围,或者进行全表扫描,查询耗时明显。
因此,在海量多源空间科学卫星数据组织领域,面对需要按照观测时间、观测目标位置进行联合查询和实时获取数据的需求,以上技术无法满足。
发明内容
有鉴于此,本发明提供了一种异构结构下的空间科学卫星大数据组织及查询方法,能够在统一时空下进行多源数据组织;采用关系型数据库分表的方式存储时空索引信息,同时采用分布式数据库分区分表的方式,构建空间科学卫星HBase集群数据库,对海量特征参数进行存储管理,并且实现了统一的查询方式,支持按照观测时间、观测目标位置多重条件快速获取数据。
为达到上述目的,本发明的技术方案为:异构结构下的空间科学卫星大数据组织方法,包括如下步骤:
S1、解析空间科学卫星数据文件,抽取特征参数时间序列数据,并且构建时空索引数据,将特征参数时间序列数据纳入到统一的时空框架中。
S2、采用分布式非关系型数据库分表分区的方式,存储特征参数时间序列数据。
S3、采用关系型数据库分表的方式,存储时空索引数据。
进一步地,解析空间科学卫星数据文件,抽取特征参数时间序列数据,构建时空索引,具体为:
调用专用的数据文件格式解析框架,解析空间科学卫星数据文件,从中抽取观测目标信息、卫星平台姿态轨道数据、卫星平台工况参数及有效载荷工况参数及其观测时间信息,形成特征参数时间序列数据。
基于抽取出的逐时刻卫星姿态数据构建逐时刻时空索引数据,逐时刻时空索引数据包括三列,分别为观测时间、观测目标赤经和观测目标赤纬。
基于特征参数时间序列数据、逐时刻时空索引数据,进一步建立观测时间、观测目标位置与特征参数的关联,将特征参数时间序列数据纳入到统一的时空框架中。
进一步地,采用分布式数据库分表分区的方式,存储特征参数时间序列数据,具体为:
采用HBase集群构建分布式数据库,存储步骤S1得到的特征参数时间序列数据,即基于HBase数据库以字典序排序方式存储行键的特点,以观测时间YYYYMMDDHHMMSS[UUU]作为行键建立参数表,一个参数表中包含单个特征参数或一组特征参数;其中YYYY表示年份,MM表示月份,DD表示日期,HH表示小时数,MM表示分钟数,SS表示秒数,UUU表示毫秒数,[]表示毫秒数根据数据的时间分辨率可选。
基于各特征参数的数据量对参数表建立时间分区索引,按照时间范围对参数表进行分区。
进一步地,采用关系型数据库分表的方式,存储时空索引数据,具体为:
时空索引数据表示观测时间Time与观测目标赤经RA和观测目标赤纬DEC之间的关系。
采用关系型数据库MySQL,建立时空索引表。
时空索引表的库表字段包括Time、RA、DEC,其中Time具备唯一性,作为时空索引表主键,取值为YYYYMMDDHHMMSS[UUU];YYYY表示年份,MM表示月份,DD表示日期,HH表示小时数,MM表示分钟数,SS表示秒数,UUU表示毫秒数,[]表示毫秒数根据数据的时间分辨率可选。
基于观测时间Time字段值对时空索引表进行分表存储。
本发明的另外一个实施例还提供了异构结构下的空间科学卫星大数据组织查询方法,包括如下步骤:
构建数据层,数据层包括时空索引数据库和特征参数时间序列数据库,即采用对异构结构下的空间科学卫星大数据进行组织,得到时空索引数据库和特征参数时间序列数据库,二者组成数据层。
采用Webservice查询服务技术构建服务层,用于执行查询请求的接收、查询请求的解析、查询任务的发起、时空索引查询、特征参数时间序列数据查询以及查询结果返回。
服务层提供对外统一的数据查询服务接口,用于执行如下查询步骤:
接收数据请求方发起的查询请求。
解析查询请求,若查询请求仅包含时间信息时,直接发起特征参数时间序列数据查询任务,根据时间信息,在特征参数时间序列数据库中进行查询,并向数据请求方返回查询结果。
若查询请求包含观测目标位置信息,则发起时空索引数据查询任务,根据时间信息、目标位置信息,对时空索引数据库进行查询,返回符合条件的时间信息;然后根据符合条件的时间信息查询特征参数时间序列数据库,完成数据查询后,对多个任务的查询结果进行合并,向数据请求方返回查询结果。
进一步地,特征参数时间序列数据库为采用HBase集群构建的分布式数据库,针对以时间点为查询条件的查询请求,调用HBase get方法对分布式数据库中参数表进行查询;针对以时间段为查询条件的请求,调用HBase scan方法对对分布式数据库中参数表进行查询。
有益效果:
1、本发明提出了一种综合关系型数据库和非关系型数据库的优势,采用分布式数据库分表分区的方式,存储空间科学卫星数据特征参数时间序列数据,支持以观测时间为条件并行查询特征参数,查询速度优于现有方法;采用关系型数据库分表的方式,存储空间科学卫星数据时空索引数据,支持以观测时间、观测目标位置为联合条件查询特征参数,查询速度优于现有方法;基于分布式数据库,对观测时间、参数种类增加带来的数据量增长具备良好的可扩展性,能够适应科学卫星数据持续增长的存储要求。
2、本发明中综合非关系型数据库HBase行键字典序排序、分布式、易扩展的优势,以及关系型数据库MySQL适用于多列值复杂查询的优势,采用数据结构异构的方式存储特征参数时间序列数据、时空索引数据;在HBase数据库中采用分表分区的方式,以参数或参数组为单位建立参数表,且基于各类特征参数的数据量对参数表建立时间分区索引,按照时间范围对参数表进行分区,支持海量参数并行查询;为支持按照观测时间、观测目标位置快速获取指定类型的数据奠定了基础。
3、本发明提供的异构结构下的空间科学卫星大数据组织查询方法,基于HBase+MySQL联合存储机制,提供以观测时间、观测目标位置、参数类型为查询条件的数据查询服务。应用Webservice技术,在HBase、MySQL数据库存储结构保持异构的情况下,建立统一的数据查询服务。
附图说明
图1为本发明实施例中特征参数时序数据存储结构。
图2为本发明实施例提供的数据查询过程。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种异构结构下的空间科学卫星大数据组织及查询方法。本发明采用分布式非关系型数据库分表分区的方式存储特征参数时间序列数据,具备非关系型数据库行键按字典序排序、分布式、易扩展的优势。具体地,采用HBase数据库分表分区的方式存储海量特征参数时间序列数据,支持海量参数并发查询,同时对观测时间、参数种类增加带来的数据量增长具备良好的可扩展性;基于关系型数据库适用于多列值复杂查询的优势,采用MySQL数据库分表的方式存储时空索引数据;建立统一的数据查询服务,支持按照观测时间、观测目标位置多重条件快速获取数据。
本发明技术方案包括如下步骤:
S1、解析空间科学卫星数据文件,抽取特征参数时间序列数据,构建时空索引(申请号为202110316566.5的《获取科学卫星观测指向的方法》记载了构建时空索引的方法),将特征参数数据纳入到统一的时空框架中。其中空间科学卫星数据文件来源于卫星的地面处理系统,基于卫星下传的数据进行处理,具有统一格式规范。
调用FITSIO、ROOT等专用的数据文件格式解析框架,解析空间科学卫星数据文件,从中抽取观测目标信息、卫星平台姿态轨道数据、卫星平台工况参数及有效载荷工况参数及其观测时间信息,形成特征参数时间序列数据;基于抽取出的逐时刻卫星姿态数据构建逐时刻时空索引数据,三列(观测时间,目标经度、目标维度),即观测时间、观测目标位置的对应关系;基于特征参数时间序列数据、逐时刻时空索引数据,进一步建立观测时间、观测目标位置与特征参数的关联,将特征参数数据纳入到统一的时空框架中。
S2、采用分布式非关系型数据库分表分区的方式,存储特征参数时间序列数据。
采用HBase集群构建分布式数据库,存储上述步骤得到的特征参数时间序列数据。基于HBase数据库以字典序排序方式存储行键的特点,以观测时间YYYYMMDDHHMMSS[UUU]作为行键建立参数表存储时序数据,进一步发挥HBase行键存储机制的优势,实现按照观测时间点、时间范围高效检索数据。其中,观测时间采用UTC(世界协调时间)时间系统,YYYY表示年份,MM表示月份,DD表示日期,HH表示小时数,MM表示分钟数,SS表示秒数,UUU表示毫秒数,[]表示毫秒数根据数据的时间分辨率可选。同时,HBase分布式数据库易于扩展的架构,能够适应科学卫星数据持续增长的存储要求。
以单个特征参数或一组参数为单位建立参数表,存储特征参数时间序列数据。针对姿态四元数、轨道位置XYZ坐标值、轨道六根数等无法拆分的几个参数,将其按组建表存储,其余参数单独建表存储。这种存储方式一方面能够提高数据存储的灵活性,便于管理;另一方面能够支持库表并发查询,从而提高多参数查询效率。
基于各类特征参数的数据量对参数表建立时间分区索引,按照时间范围对参数表进行分区。比如,工程参数一个季度数据量约千万条,粒子能谱数据一天数据量约500万条,因此,工程数据按季度进行分区,粒子能谱数据按天进行分区。这种分区设计能够将数量庞大的参数按照时间范围存入不同区域,支持通过分区索引查找对应时段数据,并且能够支持多分区并发查询,从而进一步提高查询效率。
本发明实施例中图1特征参数时序数据存储结构如图1所示。
S3、采用关系型数据库分表的方式,存储时空索引数据。
时空索引数据表示观测时间(Time)与观测目标中心点位置(RA表示目标赤经、DEC表示目标赤纬)之间的关系。基于该索引、特征参数时序数据,建立观测时间、观测目标位置、特征参数的关联,能够实现在统一时空下的多源数据组织,支持按照观测时间、观测目标位置作为联合检索条件查询数据。
采用关系型数据库MySQL,建立时空索引表。库表字段包括Time、RA、DEC,其中Time具备唯一性,作为时空索引表主键,取值为YYYYMMDDHHMMSS[UUU]。由于关系型数据库采用SQL查询机制,适合多列值查询的应用场景,不仅能够满足点查询需求(按照Time、RA、DEC指定值获取数据),而且能够满足范围查询需求(按照Time、RA、DEC指定范围获取数据)。而非关系型数据库HBase的优势在于通过行键或者行键的范围快速检索数据,在面对多列值非主键查询需求时,需要进行全表扫描,因而效率较低。
基于观测时间Time字段值对时空索引表进行分表存储,进一步提升检索效率。与特征参数时序数据的工程参数数据量一样,时空索引数据的记录数量也是每秒一条,一个季度据量约千万条,因此,针对时空索引表数据,采用按季度分表的方式存储,能够进一步提高查询效率。
本发明还提供了异构结构下的空间科学卫星大数据查询方法,基于HBase+MySQL联合存储机制,提供以观测时间、观测目标位置、参数类型为查询条件的数据查询服务。具体查询过程如图2所示。
基于上述步骤建立的数据库,在HBase数据库中存储特征参数时序数据、MySQL数据库中存储时空索引数据。采用Webservice技术,在两种数据库存储结构保持异构的情况下,建立对外统一的数据查询服务。
数据查询服务负责接收、解析查询请求,分解生成查询任务。当查询请求仅包含时间信息时,直接生成HBase特征参数查询任务,根据时间点或者时间范围对待查询参数表发起多个并行查询任务,针对以时间点为查询条件的请求,调用HBase get方法(根据行键值查询)对参数表进行查询;针对以时间段为查询条件的请求,调用HBase scan方法(根据行键起止范围查询)对参数表进行查询。
当查询请求包含观测目标位置信息时,首先完成MySQL时空索引表查询,获取符合条件的时间信息;然后再根据时间信息查询HBase特征参数表。完成数据查询后,对多个任务的查询结果进行合并,向数据请求方返回查询结果。
下面以硬X射线调制望远镜数据为例,对本发明方法和关系型数据库组织方法(以下简称“现有方法”)进行对比,说明本方法在查询速度上的优势。
基于3台4核CPU、64G内存的服务器,搭建了一套HBase集群;基于1台4核CPU、64G内存的服务器,搭建了MySQL数据库。测试数据为硬X卫星2020年9月1日零点至2020年12月31日零点期间的工程参数,记录数量约为1000万条/每个参数。采用本发明方法和现有方法分别对测试数据进行组织和存储,并对比查询速度。
表1为两种方法在时间查询场景下的效率对比。可以看出,在查询时间跨度较小、查询单个参数的场景下(场景1-1),两种方法查询耗时相当;但随着查询时间跨度的增长、参数的增多,现有方法耗时增长明显,在场景2-4中,本发明方法查询效率明显优于现有方法。表2为两种方法在时空联合查询场景下的耗时对比,呈现与表1相同的规律,本发明方法在面向时空联合查询场景时查询效率同样优于现有方法。综上,本发明具有有效性和优越性。
表1时间查询效率对比
表2时空联合查询效率对比
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.异构结构下的空间科学卫星大数据组织方法,其特征在于,包括如下步骤:
S1、解析空间科学卫星数据文件,抽取特征参数时间序列数据,并且构建时空索引数据,将特征参数时间序列数据纳入到统一的时空框架中;
S2、采用分布式非关系型数据库分表分区的方式,存储所述特征参数时间序列数据;
S3、采用关系型数据库分表的方式,存储所述时空索引数据。
2.如权利要求1所述的方法,其特征在于,所述解析空间科学卫星数据文件,抽取特征参数时间序列数据,构建时空索引,具体为:
调用专用的数据文件格式解析框架,解析空间科学卫星数据文件,从中抽取观测目标信息、卫星平台姿态轨道数据、卫星平台工况参数及有效载荷工况参数及其观测时间信息,形成特征参数时间序列数据;
基于抽取出的逐时刻卫星姿态数据构建逐时刻时空索引数据,所述逐时刻时空索引数据包括三列,分别为观测时间、观测目标赤经和观测目标赤纬;
基于特征参数时间序列数据、逐时刻时空索引数据,进一步建立观测时间、观测目标位置与特征参数的关联,将特征参数时间序列数据纳入到统一的时空框架中。
3.如权利要求2所述的方法,其特征在于,所述采用分布式非关系型数据库分表分区的方式,存储特征参数时间序列数据,具体为:
采用HBase集群构建分布式数据库,存储步骤S1得到的特征参数时间序列数据,即基于HBase数据库以字典序排序方式存储行键的特点,以观测时间YYYYMMDDHHMMSS[UUU]作为行键建立参数表,一个参数表中包含单个特征参数或一组特征参数;其中YYYY表示年份,MM表示月份,DD表示日期,HH表示小时数,MM表示分钟数,SS表示秒数,UUU表示毫秒数,[]表示毫秒数根据数据的时间分辨率可选;
基于各特征参数的数据量对参数表建立时间分区索引,按照时间范围对参数表进行分区。
4.如权利要求1~3任一所述的方法,其特征在于,所述采用关系型数据库分表的方式,存储所述时空索引数据,具体为:
所述时空索引数据表示观测时间Time与观测目标赤经RA和观测目标赤纬DEC之间的关系;
采用关系型数据库MySQL,建立时空索引表;
所述时空索引表的库表字段包括Time、RA、DEC,其中Time具备唯一性,作为时空索引表主键,取值为YYYYMMDDHHMMSS[UUU];YYYY表示年份,MM表示月份,DD表示日期,HH表示小时数,MM表示分钟数,SS表示秒数,UUU表示毫秒数,[]表示毫秒数根据数据的时间分辨率可选;
基于观测时间Time字段值对时空索引表进行分表存储。
5.异构结构下的空间科学卫星大数据查询方法,其特征在于,包括如下步骤:
构建数据层,所述数据层包括时空索引数据库和特征参数时间序列数据库;即采用如权利要求1~4任一所述的组织方法对异构结构下的的空间科学卫星大数据进行组织,得到时空索引数据库和特征参数时间序列数据库,二者组成数据层;
采用Webservice查询服务技术构建服务层,用于执行查询请求的接收、查询请求的解析、查询任务的发起、时空索引查询、特征参数时间序列数据查询以及查询结果返回;
所述服务层提供对外统一的数据查询服务接口,用于执行如下查询步骤:
接收数据请求方发起的查询请求;
解析所述查询请求,若查询请求仅包含时间信息时,直接发起特征参数时间序列数据查询任务,根据时间信息,在特征参数时间序列数据库中进行查询,并向数据请求方返回查询结果;
若所述查询请求包含观测目标位置信息,则发起时空索引数据查询任务,根据时间信息、目标位置信息,对时空索引数据库进行查询,返回符合条件的时间信息;然后根据符合条件的时间信息查询特征参数时间序列数据库,完成数据查询后,对多个任务的查询结果进行合并,向数据请求方返回查询结果。
6.如权利要求5所述的方法,其特征在于,所述特征参数时间序列数据库为采用HBase集群构建的分布式数据库,针对以时间点为查询条件的查询请求,调用HBase get方法对分布式数据库中参数表进行查询;针对以时间段为查询条件的请求,调用HBase scan方法对对分布式数据库中参数表进行查询。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110640028.1A CN113486005B (zh) | 2021-06-09 | 2021-06-09 | 异构结构下的空间科学卫星大数据组织及查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110640028.1A CN113486005B (zh) | 2021-06-09 | 2021-06-09 | 异构结构下的空间科学卫星大数据组织及查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486005A true CN113486005A (zh) | 2021-10-08 |
CN113486005B CN113486005B (zh) | 2024-04-19 |
Family
ID=77934916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110640028.1A Active CN113486005B (zh) | 2021-06-09 | 2021-06-09 | 异构结构下的空间科学卫星大数据组织及查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486005B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113946594A (zh) * | 2021-12-22 | 2022-01-18 | 昆仑智汇数据科技(北京)有限公司 | 一种工业多源异构数据的集成查询方法、装置及设备 |
CN114443642A (zh) * | 2021-10-25 | 2022-05-06 | 应急管理部国家自然灾害防治研究院 | 张衡一号卫星的多维度数据检索方法及系统 |
CN114896280A (zh) * | 2022-03-22 | 2022-08-12 | 杭州未名信科科技有限公司 | 一种数据查询方法和系统 |
CN115934759A (zh) * | 2022-11-30 | 2023-04-07 | 二十一世纪空间技术应用股份有限公司 | 一种面向海量多源异构卫星数据查询的加速计算方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110314027A1 (en) * | 2008-11-03 | 2011-12-22 | China Mobile Communications Corporation | Index building, querying method, device, and system for distributed columnar database |
CN104008212A (zh) * | 2014-06-23 | 2014-08-27 | 中国科学院重庆绿色智能技术研究院 | 一种地理位置信息相关联的物联网时间序列数据存取方法 |
US20150112948A1 (en) * | 2013-10-18 | 2015-04-23 | New York Air Brake Corporation | Dynamically scalable distributed heterogenous platform relational database |
US20160299910A1 (en) * | 2015-04-09 | 2016-10-13 | Umm Al-Qura University | Method and system for querying and visualizing satellite data |
CN107423368A (zh) * | 2017-06-29 | 2017-12-01 | 中国测绘科学研究院 | 一种非关系数据库中的时空数据索引方法 |
CN108595490A (zh) * | 2018-03-15 | 2018-09-28 | 北京雷石天地电子技术有限公司 | 一种数据库检索机制的构建方法及系统 |
CN108959352A (zh) * | 2018-04-27 | 2018-12-07 | 北京天机数测数据科技有限公司 | 基于时间和空间数据模型的时空数据处理平台及处理方法 |
CN109284338A (zh) * | 2018-10-25 | 2019-01-29 | 南京航空航天大学 | 一种基于混合索引的卫星遥感大数据优化查询方法 |
CN109871418A (zh) * | 2019-01-04 | 2019-06-11 | 广州市城市规划勘测设计研究院 | 一种时空数据的空间索引方法和系统 |
CN109992636A (zh) * | 2019-03-22 | 2019-07-09 | 中国人民解放军战略支援部队信息工程大学 | 时空编码方法、时空索引及查询方法及装置 |
CN111125119A (zh) * | 2019-12-30 | 2020-05-08 | 中科星图股份有限公司 | 一种基于HBase的时空数据存储与索引方法 |
US20200210421A1 (en) * | 2018-12-29 | 2020-07-02 | Wuhan University | Method of storing remote sensing big data in hbase database |
CN111552753A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种全球海量遥感数据组织管理方法及系统 |
CN112181980A (zh) * | 2020-09-16 | 2021-01-05 | 武汉大学 | 一种面向大规模分析的时空大数据立方体组织方法及系统 |
-
2021
- 2021-06-09 CN CN202110640028.1A patent/CN113486005B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110314027A1 (en) * | 2008-11-03 | 2011-12-22 | China Mobile Communications Corporation | Index building, querying method, device, and system for distributed columnar database |
US20150112948A1 (en) * | 2013-10-18 | 2015-04-23 | New York Air Brake Corporation | Dynamically scalable distributed heterogenous platform relational database |
CN104008212A (zh) * | 2014-06-23 | 2014-08-27 | 中国科学院重庆绿色智能技术研究院 | 一种地理位置信息相关联的物联网时间序列数据存取方法 |
US20160299910A1 (en) * | 2015-04-09 | 2016-10-13 | Umm Al-Qura University | Method and system for querying and visualizing satellite data |
CN107423368A (zh) * | 2017-06-29 | 2017-12-01 | 中国测绘科学研究院 | 一种非关系数据库中的时空数据索引方法 |
CN108595490A (zh) * | 2018-03-15 | 2018-09-28 | 北京雷石天地电子技术有限公司 | 一种数据库检索机制的构建方法及系统 |
CN108959352A (zh) * | 2018-04-27 | 2018-12-07 | 北京天机数测数据科技有限公司 | 基于时间和空间数据模型的时空数据处理平台及处理方法 |
CN109284338A (zh) * | 2018-10-25 | 2019-01-29 | 南京航空航天大学 | 一种基于混合索引的卫星遥感大数据优化查询方法 |
US20200210421A1 (en) * | 2018-12-29 | 2020-07-02 | Wuhan University | Method of storing remote sensing big data in hbase database |
CN109871418A (zh) * | 2019-01-04 | 2019-06-11 | 广州市城市规划勘测设计研究院 | 一种时空数据的空间索引方法和系统 |
CN109992636A (zh) * | 2019-03-22 | 2019-07-09 | 中国人民解放军战略支援部队信息工程大学 | 时空编码方法、时空索引及查询方法及装置 |
CN111125119A (zh) * | 2019-12-30 | 2020-05-08 | 中科星图股份有限公司 | 一种基于HBase的时空数据存储与索引方法 |
CN111552753A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种全球海量遥感数据组织管理方法及系统 |
CN112181980A (zh) * | 2020-09-16 | 2021-01-05 | 武汉大学 | 一种面向大规模分析的时空大数据立方体组织方法及系统 |
Non-Patent Citations (4)
Title |
---|
XIAOJUAN SUN 等: "Real-time Processing for Remote Sensing Satellite Data Based on Stream Computing", 《2019 IEEE INTERNATIONAL CONFERENCE ON SIGNAL, INFORMATION AND DATA PROCESSING (ICSIDP)》, pages 1 - 8 * |
孙小涓 等: "空间科学卫星数据快速处理方法", 《计算机工程与科学》, vol. 40, no. 08, pages 1351 - 1357 * |
张福铮 等: "基于HBase的配用电海量时序数据存取研究", 《现代电子技术》, vol. 40, no. 13, pages 159 - 163 * |
杨悦: "基于海量卫星测控数据存储与查询方法", 《科学技术与工程》, vol. 13, no. 25, 8 September 2013 (2013-09-08), pages 7352 - 7356 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443642A (zh) * | 2021-10-25 | 2022-05-06 | 应急管理部国家自然灾害防治研究院 | 张衡一号卫星的多维度数据检索方法及系统 |
CN113946594A (zh) * | 2021-12-22 | 2022-01-18 | 昆仑智汇数据科技(北京)有限公司 | 一种工业多源异构数据的集成查询方法、装置及设备 |
CN113946594B (zh) * | 2021-12-22 | 2022-07-12 | 昆仑智汇数据科技(北京)有限公司 | 一种工业多源异构数据的集成查询方法、装置及设备 |
CN114896280A (zh) * | 2022-03-22 | 2022-08-12 | 杭州未名信科科技有限公司 | 一种数据查询方法和系统 |
CN115934759A (zh) * | 2022-11-30 | 2023-04-07 | 二十一世纪空间技术应用股份有限公司 | 一种面向海量多源异构卫星数据查询的加速计算方法 |
CN115934759B (zh) * | 2022-11-30 | 2023-12-22 | 二十一世纪空间技术应用股份有限公司 | 一种面向海量多源异构卫星数据查询的加速计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113486005B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486005B (zh) | 异构结构下的空间科学卫星大数据组织及查询方法 | |
CN113487251B (zh) | 基于一键式遥感的自然灾害预警与应急响应方法与系统 | |
CN111324683B (zh) | 一种时空与要素统一编码的数据管理方法 | |
Wan et al. | Column store for GWAC: a high-cadence, high-density, large-scale astronomical light curve pipeline and distributed shared-nothing database | |
CN113946575A (zh) | 时空轨迹数据处理方法、装置、电子设备及存储介质 | |
CN111125392A (zh) | 一种基于矩阵对象存储机制的遥感影像存储、查询方法 | |
CN104021210B (zh) | 以GeoJSON格式半结构化方式存储地理数据的MongoDB集群的地理数据读写方法 | |
CN110968636A (zh) | 面向地震预警的多维大数据分析与处理系统 | |
CN104008209B (zh) | 以GeoJSON格式结构化方式存储地理数据的MongoDB集群的地理数据读写方法 | |
Huang et al. | Towards building a distributed data management architecture to integrate multi-sources remote sensing big data | |
Alkathiri et al. | Kluster: Application of k-means clustering to multidimensional GEO-spatial data | |
Wang et al. | Spatial data mining in the context of big data | |
Nandigam et al. | Rapid access and visualization of spaceborne altimetry data from ICESAT and ICESAT-2 | |
Vo et al. | A 6-dimensional Hilbert approach to index full waveform LiDAR data in a distributed computing environment | |
Goncalves et al. | A round table for multi-disciplinary research on Geospatial and Climate Data | |
Alarabi et al. | A demonstration of Summit: A scalable data management framework for massive trajectory | |
Xu | The application of China's land observation satellites within the framework of Digital Earth and its key technologies | |
Dong et al. | An innovative model to mine asynchronous periodic pattern of moving objects | |
Chen et al. | GeoMix: Scalable geoscientific array data management | |
Kokoulin et al. | Scalable distributed storage for big scientific data | |
Liu | Construction of Public Security Rapid Response Communication and Command System Based on Spatiotemporal Big Data | |
Balekaki et al. | A scalable database model of RFI data for the MeerKAT radio telescope | |
Rossi et al. | Accessing Raster Data organized in Data Cubes via R using a Shiny App and the CubeR Package | |
Kosovichev et al. | Development of Intelligent Databases and Analysis Tools for Heliophysics | |
Kokoulin et al. | Sparse multidimensional data processing in geoinformatics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |