CN117076391B

CN117076391B - 一种水利元数据管理系统

Info

Publication number: CN117076391B
Application number: CN202311314935.2A
Authority: CN
Inventors: 谢明霞; 陈尚法; 刘志鹏; 罗炜; 游攀利; 刘子健; 裴亚东; 郭肖; 刘昱; 宁锐博
Original assignee: Changjiang Institute of Survey Planning Design and Research Co Ltd
Current assignee: Changjiang Institute of Survey Planning Design and Research Co Ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-03-22
Anticipated expiration: 2043-10-12
Also published as: CN117076391A

Abstract

本发明涉及水利数据管理技术领域，具体涉及一种水利元数据管理系统。系统部署于由总数据中心服务器和多个单位数据中心服务器组成的分布式数据中心环境，包括中心管理服务端、数据管理服务端和客户端；中心管理服务端实现水利大数据的元数据、各单位数据中心服务器中存储的物理数据以及访问权限的管理；数据管理服务端实现数据中心内部的数据存储和访问管理；客户端从中心管理服务端查询元数据信息以及所需要的物理数据信息，然后通过物理数据信息从数据管理服务端中读写数据。中心管理服务端运行在总数据中心服务器上，数据管理服务端运行在单位数据中心服务器上。本系统同时满足水利大数据多数据中心存储管理以及高效检索。

Description

一种水利元数据管理系统

技术领域

本发明涉及水利数据管理技术领域，具体涉及一种水利元数据管理系统。

背景技术

在水利领域，水文、气象、水资源、水生态、水利工程运维等大规模数据的高效管理是业务智能决策的关键之一。分布式计算技术通过计算机集群组建数据中心，提供大规模数据的存储与分析能力，可以帮助水利部门更好地管理和利用水利数据。该技术将数据分散存储在多个存储与计算的节点上，以并行计算的方式提高数据的可靠性、可用性和处理效率，使水利部门能够更快速地分析大规模业务数据，提高水利决策的科学性和准确性。

分布式数据中心技术是一种物理上分散建设，逻辑上统一组织管理的数据管理技术。该技术利用计算机网络，将多个数据中心的服务器集群连接起来，通过数据复制、数据分片、数据同步、负载均衡等技术，实现数据资源统一管控的同时，支持各数据中心独立存储和处理数据，提高数据存储的可靠性、可用性。

目前，水利数据通常按专业或业务划分到不同单位管理，由于数据的保密性和安全性需要，各单位通过自建数据中心存储和管理数据，缺乏统一的共享与检索机制，容易形成“信息孤岛”现象。而随着数据量的不断增长以及应用的不断深化，对多源异构数据的高效检索和统一运用，提出了更高的要求。经初步检索，暂未发现有合适的技术，能同时满足水利大数据多数据中心存储管理以及高效检索。

发明内容

本发明的目的就是针对现有技术的缺陷，提供一种水利元数据管理系统，在实现在数据访问逻辑不变的前提下，管理单位能够对各自数据中心上的数据具有完备的管理权限，并通过元数据集中存储和索引的机制，保证水利数据的检索效率。

本发明提供一种水利元数据管理系统，该系统部署于由总数据中心服务器和多个单位数据中心服务器组成的分布式数据中心环境，所述系统包括中心管理服务端、数据管理服务端和客户端；

所述中心管理服务端用于实现水利大数据的元数据、各单位数据中心服务器中存储的物理数据以及访问权限的管理，所述中心管理服务端运行在总数据中心服务器上；

所述数据管理服务端用于实现数据中心内部的数据存储和访问管理，所述数据管理服务端运行在单位数据中心服务器上，每个单位数据中心服务器运行一个单独的实例；

所述客户端用于从中心管理服务端查询元数据信息以及所需要的物理数据信息，然后通过物理数据信息从数据管理服务端中读写数据；

该系统的数据管理方法包括以下步骤：

步骤1，通过客户端向中心管理服务端发送上传请求，接口中包含水利属性信息、用户权限信息和文件数据信息，根据所述水利属性信息、用户权限信息和文件数据信息构建水利数据存储模型；

步骤2，权限管理模块对用户的权限信息进行验证；

步骤3，根据权限管理模块中查询的数据中心信息，客户端向对应单位数据中心服务器的数据管理服务端发送数据写入请求，通过数据存储模块向对应单位数据中心服务器写入文件数据，并确认结果；

步骤4，确认写入成功后，构建水利数据的元数据模型，调用中心管理服务端接口，通过元数据管理模块将所述元数据模型解析为一条记录插入到数据库中；

步骤5，对包含空间信息的水利数据构建空间索引模型，元数据管理模块提取空间数据信息并构建自适应空间索引，整合模型信息到全局空间索引；

步骤6，中心管理模块定期检查元数据索引状态信息，并根据一定的阈值确定是否重构元数据索引；

步骤7，构建空间索引效率模型，当元数据中的索引效率参数超过阈值时，使用双缓冲机制对元数据空间索引重构。

较为优选的，所述中心管理服务端包括中心管理模块、权限管理模块和元数据管理模块；

所述中心管理模块用于实现平台的整体管理和协调工作，包括数据中心管理、服务管理和数据备份；

所述权限管理模块对数据读写和接口调用进行权限控制；

所述元数据管理模块用于管理水利元数据信息，实现数据的上传、查询、更改过程的元数据以及对应索引数据修改。

较为优选的，所述数据中心服务器包括数据存储模块，所述数据存储模块用于单个数据中心内的水利原始数据存储，以及单位数据中心内部的数据存储和访问管理。

较为优选的，所述步骤2中，所述权限管理模块根据具体的大数据中心应用安全要求设置，对数据存储权限与接口调用权限进行控制，包括将权限信息划分为用户、角色、权限三级，每个用户被分配一种或多种角色，每种角色对应一个或多个不同的权限。

较为优选的，所述步骤2中，所述权限管理模块对用户的权限信息进行验证包括：

数据具有所属人、所属单位以及用户标记，所述权限管理模块依据数据所属人、所属单位以及用户具有角色权限决定是否能够进行读写。

较为优选的，所述步骤3中，所述数据存储模块在单位数据中心服务器上采用分布式文件系统管理水利原始数据文件，根据具体分布式文件系统的存储机制以多副本的形式存储在不同的数据节点。

较为优选的，所述步骤5中，水利数据综合查询考虑属性字段查询和空间查询，所述元数据管理模块中的空间索引采用R树变种数据结构的组织方式，每个文件使用对应的最小外包围矩形作为空间索引的最小单元。

较为优选的，所述步骤7中，空间索引效率模型基于数据索引查询时间和空间索引的平衡程度决定：

每次空间查询中记录查询的总时间，统计一定时间片内的数据查询信息，当查询速度明显降低时，设定具体的阈值执行索引重构；

通过同级节点的空间范围重叠程度为目标构建评估参数，超出阈值时执行空间索引重构；

其中，在索引重构过程中使用双缓冲机制，索引数据结构作为单独的数据分区，在额外的缓冲区中重新构建索引，索引构建完成之前由原索引协同新数据辅助索引提供服务，直到新索引构建完成后替换。

较为优选的，在所述步骤1前，还包括对服务进行初始化，所述初始化方法包括以下步骤：

步骤001，中心管理服务端启动，完成各个数据管理服务端连接前的初始化工作，包括相关服务接口的初始化启动，元数据的统计和初始化，空间索引和属性字段索引的检查和构建；

步骤002，数据管理服务端在各单位数据中心服务器中独立运行，启动完成后首先向中心管理服务端注册认证，确认是否有权限注册到中心管理服务端；

步骤003，中心管理服务端接收数据管理服务端的统计信息，并与本地的元数据信息匹配验证，验证成功时服务注册成功，注册服务开始进入工作状态；

步骤004，当服务器异常导致统计信息无法匹配时，首先修复不匹配的数据信息；

步骤005，客户端连接服务，调用接口，获取当前客户端需要连接的单位数据中心服务器信息，缓存后在具体文件数据读写过程中直接与对应的单位数据中心服务器交互；

步骤006，中心管理服务端收到数据管理服务端和客户端的连接后，对数据的历史访问信息、连接信息进行初始化处理和维护，构建用于负载均衡和数据调度运行性能模型。

本发明的有益效果为：本系统通过元数据共享-物理数据隔离的形式提高数据的管理和检索效率，提升数据资产的利用价值。与现有技术相比，本系统通过在管理中心存储元数据，各单位数据中心存储原始数据的方式，构建水利元数据存储管理策略。实现在数据访问逻辑不变的前提下，管理单位能够对各自数据中心上的数据具有完备的管理权限，并通过元数据集中存储和索引的机制，保证了水利数据的检索效率。

附图说明

图1为本发明系统架构示意图；

图2为本发明的数据管理方法流程示意图；

图3为本发明水利数据存储模型的组成示意图；

图4为本发明水利数据元数据索引模型示意图；

图5为本发明水利数据空间索引重构流程图；

图6为本发明平台初始化方法流程示意图。

具体实施方式

为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。“多个”表示“两个或两个以上”。

实施例一

图1示出了本申请较佳实施例提供的一种水利元数据管理系统的结构示意图，为了便于说明，仅示出了与本实施例相关的部分，详述如下：

本发明提供一种水利元数据管理系统，该系统部署于由总数据中心服务器和多个单位数据中心服务器组成的分布式数据中心环境，所述系统包括中心管理服务端、数据管理服务端和客户端。

所述客户端用于从中心管理服务端查询元数据信息以及所需要的物理数据信息，然后通过物理数据信息从数据管理服务端中读写数据。

在一个实施例中，所述中心管理服务端包括中心管理模块、权限管理模块和元数据管理模块；

所述中心管理模块用于实现平台的整体管理和协调工作，包括数据中心管理、服务管理和数据备份等基础功能，以及实现多个数据中心的服务注册、监控等操作，以及中心管理服务自身的运行状态管理，保证整个平台的稳定性和可靠性。

在一个实施例中，中心管理模块的持久化层可以使用数据库存储，每个水利数据文件对应一条元数据信息记录，为提高数据共享和检索效率，所有单位数据中心服务器的元数据信息都存储在总数据中心服务器上。数据的检索通过属性字段索引和空间索引两方面构成，属性字段包括数据的上传时间、上传单位等基本属性信息，空间索引基于R树变种数据结构构建动态索引（优选的），并通过动态重构提高检索效率。数据的上传、查询、更改等过程都会向中心管理服务端汇报，通过元数据管理模块执行具体的修改。

所述权限管理模块对数据读写和接口调用进行权限控制，包括用户的注册、登录、角色分配等功能，通过该模块对数据读写和接口调用进行权限控制，保证数据的安全性和隐私性。

在一个实施中，权限管理模块使用用户-角色-权限的三级组织方式，每个用户可被赋予一个或多个角色，每个角色具有多种不同的权限。所有的数据都具有所属单位或用户标记，根据用户具体角色决定是否能够进行读写。结合具体的加密存储和传输方式，保证数据和系统的访问安全。

所述元数据管理模块用于管理水利元数据信息，涉及数据的上传、查询、更改等过程的元数据以及对应索引数据修改，提供高效的数据索引和综合查询功能。

所述数据中心服务器包括数据存储模块，所述数据存储模块用于单个数据中心内的水利原始数据存储，以及单位数据中心内部的数据存储和访问管理。每个单位数据中心服务器上运行独立的实例，通过分布式文件系统等方式存储数据。在数据存储的基础上，以目录和文件的形式控制数据读写权限，每次访问向中心管理服务端的权限管理模块申请鉴权。

客户端包括客户端模块，客户端模块用于向平台用户提供水利数据的管理接口。客户端模块以独立服务或以第三方库整合到其它软件的形式执行，一方面通过HTTP协议提供REST API接口，一方面通过编译语言提供调用接口。客户端可以通过HTTP协议的访问实现基本的数据操作，也可通过具体程序开发调用提供的接口。

以上五个模块相互配合，形成一套完整的分布式水利大数据存储平台及应用方法，可以有效地保护数据的安全性和隐私性，作为水利大数据深入挖掘和分析的基础，在促进创新、提升效率和优化资源配置等方面发挥巨大作用。

实施例二

如图2示出了本申请较佳实施例提供的一种水利元数据管理系统的数据管理方法的流程示意图，为了便于说明，仅示出了与本实施例相关的部分，详述如下：

如图3所示，水利属性信息包含水利应用方面的业务属性信息以及空间数据信息，以结构化形式存储。业务属性涉及水利应用中的数据特征信息，如流域、河流、湖泊、水利工程等基础水利对象的主要属性数据，以及水旱灾害、水工程、水资源、水环境等业务应用中的属性数据。

步骤2，权限管理模块对用户的权限信息进行验证，用于保证数据存储与访问安全；

步骤5，对包含空间信息的水利数据构建空间索引模型，元数据管理模块提取空间数据信息并构建自适应空间索引，整合模型信息到全局空间索引（即如果文件包含空间信息，提取最小外包围盒信息，添加到空间索引中）；

步骤6，考虑到R树变种等空间索引数据结构在大量数据插入后可能出现同级重叠区域大、各个子节点分配数据量不均匀等情况，中心管理模块定期检查元数据索引状态信息，并根据一定的阈值确定是否重构元数据索引；

在一个实施例中，所述步骤2中，权限管理模块根据具体的大数据中心应用安全要求设置，对数据存储权限与接口调用权限进行控制，包括将权限信息划分为用户、角色、权限三级，每个用户被分配一种或多种角色，每种角色对应一个或多个不同的权限。数据具有所属人、所属单位以及用户标记，所述权限管理模块依据数据所属人、所属单位以及用户具有角色权限决定是否能够进行读写。用户在调用数据中心的访问接口时需具有对应权限的角色信息。

结合用户和对应的角色验证用户是否有数据中心和对应目录的读写权限。客户端中未缓存访问数据的数据中心信息时，首先通过权限管理模块获取对应的数据中心信息并缓存当用户角色为管理员时，包含对应单位数据中心服务器所有目录的访问权限；角色为普通用户时，只具有用户所属目录的访问权限。

在一个实施例中，所述步骤3中，所述数据存储模块在单位数据中心服务器上采用分布式文件系统管理水利原始数据文件，根据具体分布式文件系统的存储机制以多副本的形式存储在不同的数据节点。将数据分散在多个单位内节点以保证大数据量下的管理与分析效率。结合分布式环境的计算能力，基于Map-Reduce等并行计算模型提供水利大数据分析能力。

在一个实施例中，如图4所示，所述步骤5中，水利数据综合查询考虑属性字段查询和空间查询，所述元数据管理模块中的空间索引采用R树变种数据结构的组织方式，每个文件使用对应的最小外包围矩形作为空间索引的最小单元。根据不同的业务数据空间分布以及读写特点，可根据具体需要选择四叉树、网格、KD树等其他空间划分索引数据结构。

在一个实施例中，所述步骤7中，如图5所示，空间索引效率模型基于数据索引查询时间和空间索引的平衡程度决定：

（1）每次空间查询中记录查询的总时间，统计一定时间片内的数据查询信息，当查询速度明显降低时，设定具体的阈值执行索引重构；

（2）空间索引的平衡程度判断以R树为例，通过同级节点的空间范围重叠程度为目标构建评估参数，超出阈值时执行空间索引重构；

其中，为保证数据访问过程中索引的可用性，在索引重构过程中使用双缓冲机制，索引数据结构作为单独的数据分区，在额外的缓冲区中重新构建索引，索引构建完成之前由原索引协同新数据辅助索引提供服务，直到新索引构建完成后替换。

本方法在元数据写入完成后向客户端返回数据写入成功结果，新的数据开始可被查询。

在数据查询中，不涉及文件数据访问的查询仅通过元数据管理模块完成，通过属性字段索引和元数据索引两种方式单独查询和完成综合查询，得到符合查询条件的文件记录以及对应的数据管理服务网络地址。

需要读取具体数据的文件查询，通过元数据管理模块得到的文件具体位置信息，解析后调用数据管理服务的文件读取接口获取数据，以此达到水利大数据分布式中心的高效数据读写目的。

实施例三

如图6示出了本申请较佳实施例提供的一种平台初始化方法的流程示意图，为了便于说明，仅示出了与本实施例相关的部分，详述如下：

在步骤1前，还包括对服务进行初始化，所述初始化方法包括以下步骤：

步骤001，中心管理服务端启动，完成各个数据管理服务的连接前的初始化工作，包括相关服务接口的初始化启动，元数据的统计和初始化，空间索引和属性字段索引的检查和构建。初始化完成后，开发服务注册接口等待数据管理服务连接；

其中，为了保证分布式环境下的数据访问可靠性，主服务通过协同管理组件（如ZooKeeper）以多实例的形式管理，避免单个实例宕机导致的整个服务不可用。

步骤002，数据管理服务在各数据中心中独立运行，启动完成后首先向中心管理服务注册认证，确认是否有权限注册到中心管理服务。优选的，注册成功后，通过心跳监测方式定期向中心管理服务发送服务的存储状态、访问并发量、文件数量等信息，中心管理模块对各个数据存储服务汇报的心跳信息进行统计处理；

步骤003，中心管理服务接收数据管理服务的统计信息，并与本地的元数据信息匹配验证，验证成功时服务注册成功，注册服务开始进入工作状态。当发生影响数据安全的无法匹配异常时，数据管理服务采用一定次数的重试机制重新启动；

步骤004，分布式环境需考虑网络分区导致的可靠性问题，当服务器异常导致统计信息无法匹配时需首先修复不匹配的数据信息。优选的，本实施例采用元数据优先的方式，优先使用元数据信息修复数据存储服务中的信息，并通过消息机制将处理日志推送到系统管理员；

步骤005，客户端连接服务，通过HTTP或其它RPC的调用形式调用接口，获取当前客户端需要连接的数据中心信息，缓存后在具体文件数据读写过程中直接与对应的数据中心交互；

其中，缓存更新可以由协同管理组件通知执行；

步骤006，中心管理服务收到数据管理服务和客户端的连接后，对数据的历史访问信息、连接信息等进行初始化处理和维护，构建用于负载均衡和数据调度等运行性能模型。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括”，在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种水利元数据管理系统，其特征在于：该系统部署于由总数据中心服务器和多个单位数据中心服务器组成的分布式数据中心环境，所述系统包括中心管理服务端、数据管理服务端和客户端；

该系统的数据管理方法包括以下步骤：

步骤2，权限管理模块对用户的权限信息进行验证；

步骤7，构建空间索引效率模型，当元数据中的索引效率参数超过阈值时，使用双缓冲机制对元数据空间索引重构；

所述步骤5中，水利数据综合查询考虑属性字段查询和空间查询，所述元数据管理模块中的空间索引采用R树变种数据结构的组织方式，每个文件使用对应的最小外包围矩形作为空间索引的最小单元；

所述步骤7中，空间索引效率模型基于数据索引查询时间和空间索引的平衡程度决定：

2.如权利要求1所述的水利元数据管理系统，其特征在于：所述中心管理服务端包括中心管理模块、权限管理模块和元数据管理模块；

所述权限管理模块对数据读写和接口调用进行权限控制；

3.如权利要求1所述的水利元数据管理系统，其特征在于：所述数据中心服务器包括数据存储模块，所述数据存储模块用于单个数据中心内的水利原始数据存储，以及单位数据中心内部的数据存储和访问管理。

4.如权利要求1所述的水利元数据管理系统，其特征在于：所述步骤2中，所述权限管理模块根据具体的大数据中心应用安全要求设置，对数据存储权限与接口调用权限进行控制，包括将权限信息划分为用户、角色、权限三级，每个用户被分配一种或多种角色，每种角色对应一个或多个不同的权限。

5.如权利要求4所述的水利元数据管理系统，其特征在于，所述步骤2中，所述权限管理模块对用户的权限信息进行验证包括：

6.如权利要求1所述的水利元数据管理系统，其特征在于：所述步骤3中，所述数据存储模块在单位数据中心服务器上采用分布式文件系统管理水利原始数据文件，根据具体分布式文件系统的存储机制以多副本的形式存储在不同的数据节点。

7.如权利要求1所述的水利元数据管理系统，其特征在于，在所述步骤1前，还包括对服务进行初始化，所述初始化方法包括以下步骤：