CN108319725A

CN108319725A - 一种水文监测数据存储的方法及系统

Info

Publication number: CN108319725A
Application number: CN201810168421.3A
Authority: CN
Inventors: 陈华
Original assignee: Wuhan Luojia Hong Yu Engineering Technology Co Ltd
Current assignee: Wuhan Luojia Hong Yu Engineering Technology Co Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-07-24

Abstract

本发明公开一种水文监测数据存储的方法及系统。该方法包括：获取水文监测数据；对所述水文监测数据进行分类，得到高频无限生长数据和低频有限数据；将所述高频无限生长数据通过基于无限水文数据大表的分布式存储模型进行存储；构建所述无限水文数据大表的主索引，用于通过所述主索引对所述高频无限生长数据进行管理；将所述低频有限数据通过基于关系型数据库的存储模型进行存储。采用本发明的方法及系统，对存储数据占用的资源在不同节点和分布式域处均衡分配负载，极大提高水文监测无限海量数据存储和查询效率，满足水文监测数据无限增长的需求。

Description

一种水文监测数据存储的方法及系统

技术领域

本发明涉及水文水资源领域，特别是涉及一种水文监测数据存储的方法及系统。

背景技术

水文数据是水利、农业、灾害治理和自然科学研究的重要数据资源，资料系列越长，其科学价值和社会价值就越突出。水文数据已是人类社会发展不可或缺关键数据资源，需要保留无限生长数据集，是一种无限生长的数据类型。然而目前水文主要监测数据存储体系主要是针对有限的数据集，无法满足对于数据无限生长存储要求，具体存在的问题：(1)各个数据库间相互独立，形成数据孤岛；(2)水文历史数据的片段化存储；(3)数据存储更新慢，冗余度高，无法适应海量数据存储；(4)对海量数据的数据查询和检索效率低；(5)无法满足水文监测数据无限增长的需求，对于历史海量数据将不得不定期删除，尤其是对于秒级的原始数据没有保留。

随着国家社会经济的持续发展和人类社会的不断进步，水文监测站点数已经在飞速增长，水文监测数据呈几何级数增加，传统的数据存储体系通过整编等方式保留部分数据，遗弃大部分原始的监测数据，无法满足水文监测数据的无限存储要求，对宝贵数据资源存在极大浪费。

发明内容

本发明的目的是提供一种水文监测数据存储的方法及系统，以满足无限增长的水文监测数据的存储需求，对宝贵数据资源进行保留。

为实现上述目的，本发明提供了如下方案：

一种水文监测数据存储的方法，所述方法包括：

获取水文监测数据；

对所述水文监测数据进行分类，得到高频无限生长数据和低频有限数据；

将所述高频无限生长数据通过基于无限水文数据大表的分布式存储模型进行存储；

构建所述无限水文数据大表的主索引，用于通过所述主索引对所述高频无限生长数据进行管理；

将所述低频有限数据通过基于关系型数据库的存储模型进行存储。

可选的，所述对所述水文监测数据进行分类，得到高频无限生长数据和低频有限数据，具体包括：

获取所述水文监测数据的数据特征，所述数据特征包括：数据类型、频率、大小和用户性质；

获取分类规则库，所述分类规则库的分类特征包括分析类型、处理方法、频率与大小、数据类型、内容格式、数据源和使用者；

根据所述水文监测数据的数据特征和所述分类规则库，采用分类器对所述水文监测数据进行分类，得到所述高频无限生长数据和所述低频有限数据。

可选的，所述将所述高频无限生长数据通过基于无限水文数据大表的分布式存储模型进行存储，具体包括：

将所述高频无限生长数据的不同类型对应所述无限水文数据大表的列族，对应的所述不同类型的水文监测数据作为所述列族中的列元素存储于所述无限水文数据大表中；所述无限水文数据大表包括行键值、时间戳、列族、列和列元素。

可选的，所述构建所述无限水文数据大表的主索引，具体包括：

根据所述水文监测数据的流水号、类型、测站编码和采集时间构建所述无限水文数据大表的行键值主索引，所述流水号放置在所述主索引的最前面。

可选的，所述根据所述水文监测数据的流水号、类型、测站编码和采集时间构建所述无限水文数据大表的行键值主索引，具体包括：

将流水号放置在所述主索引最前面，取值范围为00—99，利用分布式数据库存储机制将数据均匀的存储到集群的各个节点上；

增加两位编码记载测站的监测断面信息，取值范围为：00—99；

将测站编码和数据采集时间增加至所述主索引中，所述测站编码的规则遵循国家测站编码规则标准。

构建水文行键值主索引类，所述主索引类提供水文行键值生成方法，通过调用所述水文行键值生成方法，获取当前插入数据的水文行键值；

在所述主索引类中构建获取新水文行键值的方法，所述获取新水文行键值的方法提供输入的参数为水文行键值后18位编码；

所述主索引类中实时记载当前各类数据的最新序号，当用户调用获取新水文行键值的方法后，自动更新所述主索引类对应的数据序号表。

一种水文监测数据存储的系统，所述系统包括：

水文监测数据获取模块，用于获取水文监测数据；

分类模块，用于对所述水文监测数据进行分类，得到高频无限生长数据和低频有限数据；

高频无限生长数据存储模块，用于将所述高频无限生长数据通过基于无限水文数据大表的分布式存储模型进行存储；

主索引构建模块，用于构建所述无限水文数据大表的主索引，用于通过所述主索引对所述高频无限生长数据进行管理；

低频有限数据存储模块，用于将所述低频有限数据通过基于关系型数据库的存储模型进行存储。

可选的，所述分类模块具体包括：

分类规则库获取单元，用于获取分类规则库，所述分类规则库的分类特征包括分析类型、处理方法、频率与大小、数据类型、内容格式、数据源和使用者；

分类器分类单元，用于根据所述水文监测数据的数据特征和所述分类规则库，采用分类器对所述水文监测数据进行分类，得到所述高频无限生长数据和所述低频有限数据。

可选的，所述高频无限生长数据存储模块用于将所述高频无限生长数据的不同类型对应所述无限水文数据大表的列族，对应的所述不同类型的水文监测数据作为所述列族中的列元素存储于所述无限水文数据大表中；所述无限水文数据大表包括行键值、时间戳、列族、列和列元素。

可选的，所述主索引构建模块，具体包括：

主索引类构建单元，用于构建水文行键值主索引类，所述主索引类提供水文行键值生成方法，通过调用所述水文行键值生成方法，获取当前插入数据的水文行键值；

获取新水文行键值的方法构建单元，用于在所述主索引类中构建获取新水文行键值的方法，所述获取新水文行键值的方法提供输入的参数为水文行键值后18位编码；

更新单元，用于在所述主索引类中实时记载当前各类数据的最新序号时，当用户调用获取新水文行键值的方法后，自动更新所述主索引类对应的数据序号表。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

采用基于水文无限数据存储大表的分布式存储和关系型数据库混合模式的存储方法来实现水文数据无限存储数据模型，该方法以集群方式实现水文数据的无限生长需求，通过建立水文数据智能分类器、水文无限数据大表和行键值主索引，对存储数据占用的资源在不同节点和分布式域处均衡分配负载，极大提高水文监测无限海量数据存储和查询效率，满足水文监测数据无限增长的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明水文监测数据存储的方法的流程示意图；

图2为本发明水文监测数据存储方法对应的逻辑结构示意图；

图3为本发明水文监测数据存储的方法中分类流程示意图；

图4为本发明无限水文数据大表的结构示意图；

图5为本发明中基于无限水文数据大表的分布式存储模型的结构示意图；

图6为本发明中无限水文数据大表数据访问示意图；

图7为本发明中主索引工作流程示意图；

图8为本发明水文监测数据存储的系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明水文监测数据存储的方法的流程示意图。如图1所示，所述方法包括：

步骤100：获取水文监测数据；

步骤200：对所述水文监测数据进行分类，得到高频无限生长数据和低频有限数据。分类过程，具体包括：

步骤300：将所述高频无限生长数据通过基于无限水文数据大表的分布式存储模型进行存储。存储时，将所述高频无限生长数据的不同类型对应所述无限水文数据大表的列族，对应的所述不同类型的水文监测数据作为所述列族中的列元素存储于所述无限水文数据大表中；所述无限水文数据大表包括行键值、时间戳、列族、列和列元素。

步骤400：构建所述无限水文数据大表的主索引，用于通过所述主索引对所述高频无限生长数据进行管理。通过水文行键值主索引的构建和应用保证原数据库的所有数据能够无缝隙地迁移到新的数据库模型中，结合建立的无限数据大表数据族，可以存储成千上万列的数据，列可以任意增加和删减。本发明中水文监测数据无限存储的行键值主索引为由流水号、类型、测站编码和采集时间组成。该索引可以满足对当前常规的水文数据有效控制，以及今后水文监测项目无限扩展的需求，并且在保证检索效率的同时，尽可能节约利用的存储空间。根据水文监测数据的流水号、类型、测站编码和采集时间构建无限水文数据大表的行键值主索引时，流水号放置在所述主索引的最前面。主索引构建过程如下：

(1)前面流水号表示后递增序号，取值范围为00-zz，例如00-99、00-88等。流水号的作用是防止分布式数据库存储热点效应，将其放置在主索引最前面，利用分布式数据库存储机制会将数据均匀的存储到集群的各个节点上，从而防止了分布式存储的热点效应在水文海量数据体系上出现。同时用于区分同一天内，同一测站在不同时间点上的监测数据。

(2)由于现行的数据库标准中测站断面与监测要素是一对多的关系，在测站的编码规则中，测站编码是按照各类站的优先级进行编码，因此测站的编码中只记载了测站最高优先级的类别；同时水文主要业务数据间既有联系，又有区别。因此，在此处增加两位编码记载测站的监测断面信息，其取值范围初步定为：00-cc，例如00-99、00-55等。

(3)包含测站编码和数据采集日期，测站编码规则遵循国家测站编码规则标准，用于记录该数据来自那个测站。在日常水文数据查询中，根据日期查询是最长见的查询方式，这样更能提高系统查询性能。具体的监测时间如时、分和秒等，在数据域中存储，通过流水号的增加表示数据递增。

在构建主索引过程中，构建水文行键主索引类，该类提供水文行键值生成方法，用户通过调用该方法，获取当前插入数据的水文行键值。在该类中提供获取新水文行键值方法，该方法提供输入的参数为水文行键值后18位编码，在该类中实时记载当前各类数据的最新序号，当用户获取调用获取新水文行键值方法后，自动更新该类对应的数据序号表。

步骤500：将所述低频有限数据通过基于关系型数据库的存储模型进行存储。

图2为本发明水文监测数据存储方法对应的逻辑结构示意图。如图2所示，本发明中水文监测数据采用基于水文无限数据大表的HBase分布式存储数据库和关系型数据库的混合模式数据库，将原孤立、片段化的所有水文监测数据集中分布式存储管理。通过定义水文数据智能分类规则库和设计水文数据智能分类器，基于数据类型、频率、大小和用户性质等数据特征对于水文数据进行自动分类，高频无限生长数据基于无限水文数据大表的分布式存储模型来存储和管理，低频有限数据基于关系型数据库进行存储。

图3为本发明水文监测数据存储的方法中分类流程示意图。如图3所示，利用分类器将自动区分水文数据属于无限生长的高频数据或有限生长的低频数据类型，并分类存储。实现根据水文数据智能分类规则库和水文数据智能分类器对水文数据进行自动分类。水文数据智能分类规则库将涵括分析类型、处理方法、频率与大小、数据类型、内容格式、数据源和使用者等数据特征，分类库中的规则将作为数据智能分类器的依据和准则。

图4为本发明无限水文数据大表的结构示意图。如图4所示，表结构包括水文行键值、时间戳、水文列族和列等要素。基于水文无限数据大表的分布式存储模型组件主要包括客户端运行库、主服务器和数据服务器等。实现在分类器分类后在HBase中创建一个水文无限数据大表来存储低价值密度的无限生长海量数据，剔除冗余数据，对于有限低频高价值密度的水文数据保留原有库表结构，存储在关系型数据库中。

图5为本发明中基于无限水文数据大表的分布式存储模型的结构示意图。如图5所示，存储模型以Hbase的分布式文件存储体系为基础，通过服务器定位控制文件来实现对数据的存储。数据服务器可以通过集群动态无限添加服务器节点以适应数据负荷变化，客户端运行库是向用户提供访问水文无限数据大表的统一接口。

图6为本发明中无限水文数据大表数据访问示意图。如图6所示，图中表示了客户端、集群主服务器、数据服务节点以及Hbase的分布式文件系统的数据流访问结构，数据流访问通过水文无限数据大表的行键值来实现服务器定位控制文件对集群服务器的控制。

图7为本发明中主索引工作流程示意图。如图7所示，在系统构建的过程中，构建水文行键主索引类，该类提供水文行键值生成方法，用户通过调用该方法，获取当前插入数据的水文行键值。在该类中提供获取新水文行键值方法，该方法提供输入的参数为水文行键值后18位编码，在该类中实时记载当前各类数据的最新序号，当用户获取调用获取新水文行键值方法后，方法自动更新该类对应的数据序号表。

图8为本发明水文监测数据存储的系统的结构示意图。如图8所示，所述系统包括：

水文监测数据获取模块801，用于获取水文监测数据；

分类模块802，用于对所述水文监测数据进行分类，得到高频无限生长数据和低频有限数据；

高频无限生长数据存储模块803，用于将所述高频无限生长数据通过基于无限水文数据大表的分布式存储模型进行存储；

主索引构建模块804，用于构建所述无限水文数据大表的主索引，用于通过所述主索引对所述高频无限生长数据进行管理；

低频有限数据存储模块805，用于将所述低频有限数据通过基于关系型数据库的存储模型进行存储。

其中，所述分类模块802具体包括：

所述高频无限生长数据存储模块803用于将所述高频无限生长数据的不同类型对应所述无限水文数据大表的列族，对应的所述不同类型的水文监测数据作为所述列族中的列元素存储于所述无限水文数据大表中；所述无限水文数据大表包括行键值、时间戳、列族、列和列元素。

所述主索引构建模块804，具体包括：

本发明的水文监测数据存储的系统按照下述步骤实现水文监测数据的存储过程：

步骤一：构建一个基于水文无限数据大表的分布式数据存储模型，整合原有水文监测数据库中的所有数据。通过分布式集群模式实现各类水文数据的存储。

步骤二：通过获取水文数据智能分类规则库和构建水文数据智能分类器，基于数据类型、频率、大小和用户性质等数据特征对于水文数据进行自动分类，高频无限生长数据基于无限水文数据大表的分布式存储模型来存储和管理，低频有限数据基于关系型数据库进行存储。

步骤三：构建水文无限数据大表存储结构和数据访问结构，实现对无限生长海量数据的分布式存储。不同类型的水文数据对应于大表中的数据列族，相应的水文监测数据对应为数据列族中的列元素。列元素是可以无限添加和删减，如果需要增加某一监测数据，只需在数据族中的列元素进行相应的处理。

步骤四：建立无限水文数据元表的主索引，对原来水文监测数据库海量无限数据无缝隙整合和高效存储，主索引中考虑数据类型、站点编码和时间等内容，同时要考虑到海量数据在不同节点和域中均衡分配。

由于目前我国在水文监测数据的无限存储数据模型上还是空白，本发明中提出的水文监测数据存储的方法及系统，一方面保证水文监测海量无限大数据查询、检索和处理高效，同时也保证同原有关系型业务数据库的无缝隙对接。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种水文监测数据存储的方法，其特征在于，所述方法包括：

获取水文监测数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述水文监测数据进行分类，得到高频无限生长数据和低频有限数据，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述高频无限生长数据通过基于无限水文数据大表的分布式存储模型进行存储，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述构建所述无限水文数据大表的主索引，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述水文监测数据的流水号、类型、测站编码和采集时间构建所述无限水文数据大表的行键值主索引，具体包括：

6.根据权利要求1所述的方法，其特征在于，所述构建所述无限水文数据大表的主索引，具体包括：

7.一种水文监测数据存储的系统，其特征在于，所述系统包括：

水文监测数据获取模块，用于获取水文监测数据；

8.根据权利要求7所述的系统，其特征在于，所述分类模块具体包括：

9.根据权利要求7所述的系统，其特征在于，所述高频无限生长数据存储模块用于将所述高频无限生长数据的不同类型对应所述无限水文数据大表的列族，对应的所述不同类型的水文监测数据作为所述列族中的列元素存储于所述无限水文数据大表中；所述无限水文数据大表包括行键值、时间戳、列族、列和列元素。

10.根据权利要求7所述的系统，其特征在于，所述主索引构建模块，具体包括：