CN117076391B - 一种水利元数据管理系统 - Google Patents

一种水利元数据管理系统 Download PDF

Info

Publication number
CN117076391B
CN117076391B CN202311314935.2A CN202311314935A CN117076391B CN 117076391 B CN117076391 B CN 117076391B CN 202311314935 A CN202311314935 A CN 202311314935A CN 117076391 B CN117076391 B CN 117076391B
Authority
CN
China
Prior art keywords
data
information
metadata
management
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311314935.2A
Other languages
English (en)
Other versions
CN117076391A (zh
Inventor
谢明霞
陈尚法
刘志鹏
罗炜
游攀利
刘子健
裴亚东
郭肖
刘昱
宁锐博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changjiang Institute of Survey Planning Design and Research Co Ltd
Original Assignee
Changjiang Institute of Survey Planning Design and Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changjiang Institute of Survey Planning Design and Research Co Ltd filed Critical Changjiang Institute of Survey Planning Design and Research Co Ltd
Priority to CN202311314935.2A priority Critical patent/CN117076391B/zh
Publication of CN117076391A publication Critical patent/CN117076391A/zh
Application granted granted Critical
Publication of CN117076391B publication Critical patent/CN117076391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioethics (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及水利数据管理技术领域,具体涉及一种水利元数据管理系统。系统部署于由总数据中心服务器和多个单位数据中心服务器组成的分布式数据中心环境,包括中心管理服务端、数据管理服务端和客户端;中心管理服务端实现水利大数据的元数据、各单位数据中心服务器中存储的物理数据以及访问权限的管理;数据管理服务端实现数据中心内部的数据存储和访问管理;客户端从中心管理服务端查询元数据信息以及所需要的物理数据信息,然后通过物理数据信息从数据管理服务端中读写数据。中心管理服务端运行在总数据中心服务器上,数据管理服务端运行在单位数据中心服务器上。本系统同时满足水利大数据多数据中心存储管理以及高效检索。

Description

一种水利元数据管理系统
技术领域
本发明涉及水利数据管理技术领域,具体涉及一种水利元数据管理系统。
背景技术
在水利领域,水文、气象、水资源、水生态、水利工程运维等大规模数据的高效管理是业务智能决策的关键之一。分布式计算技术通过计算机集群组建数据中心,提供大规模数据的存储与分析能力,可以帮助水利部门更好地管理和利用水利数据。该技术将数据分散存储在多个存储与计算的节点上,以并行计算的方式提高数据的可靠性、可用性和处理效率,使水利部门能够更快速地分析大规模业务数据,提高水利决策的科学性和准确性。
分布式数据中心技术是一种物理上分散建设,逻辑上统一组织管理的数据管理技术。该技术利用计算机网络,将多个数据中心的服务器集群连接起来,通过数据复制、数据分片、数据同步、负载均衡等技术,实现数据资源统一管控的同时,支持各数据中心独立存储和处理数据,提高数据存储的可靠性、可用性。
目前,水利数据通常按专业或业务划分到不同单位管理,由于数据的保密性和安全性需要,各单位通过自建数据中心存储和管理数据,缺乏统一的共享与检索机制,容易形成“信息孤岛”现象。而随着数据量的不断增长以及应用的不断深化,对多源异构数据的高效检索和统一运用,提出了更高的要求。经初步检索,暂未发现有合适的技术,能同时满足水利大数据多数据中心存储管理以及高效检索。
发明内容
本发明的目的就是针对现有技术的缺陷,提供一种水利元数据管理系统,在实现在数据访问逻辑不变的前提下,管理单位能够对各自数据中心上的数据具有完备的管理权限,并通过元数据集中存储和索引的机制,保证水利数据的检索效率。
本发明提供一种水利元数据管理系统,该系统部署于由总数据中心服务器和多个单位数据中心服务器组成的分布式数据中心环境,所述系统包括中心管理服务端、数据管理服务端和客户端;
所述中心管理服务端用于实现水利大数据的元数据、各单位数据中心服务器中存储的物理数据以及访问权限的管理,所述中心管理服务端运行在总数据中心服务器上;
所述数据管理服务端用于实现数据中心内部的数据存储和访问管理,所述数据管理服务端运行在单位数据中心服务器上,每个单位数据中心服务器运行一个单独的实例;
所述客户端用于从中心管理服务端查询元数据信息以及所需要的物理数据信息,然后通过物理数据信息从数据管理服务端中读写数据;
该系统的数据管理方法包括以下步骤:
步骤1,通过客户端向中心管理服务端发送上传请求,接口中包含水利属性信息、用户权限信息和文件数据信息,根据所述水利属性信息、用户权限信息和文件数据信息构建水利数据存储模型;
步骤2,权限管理模块对用户的权限信息进行验证;
步骤3,根据权限管理模块中查询的数据中心信息,客户端向对应单位数据中心服务器的数据管理服务端发送数据写入请求,通过数据存储模块向对应单位数据中心服务器写入文件数据,并确认结果;
步骤4,确认写入成功后,构建水利数据的元数据模型,调用中心管理服务端接口,通过元数据管理模块将所述元数据模型解析为一条记录插入到数据库中;
步骤5,对包含空间信息的水利数据构建空间索引模型,元数据管理模块提取空间数据信息并构建自适应空间索引,整合模型信息到全局空间索引;
步骤6,中心管理模块定期检查元数据索引状态信息,并根据一定的阈值确定是否重构元数据索引;
步骤7,构建空间索引效率模型,当元数据中的索引效率参数超过阈值时,使用双缓冲机制对元数据空间索引重构。
较为优选的,所述中心管理服务端包括中心管理模块、权限管理模块和元数据管理模块;
所述中心管理模块用于实现平台的整体管理和协调工作,包括数据中心管理、服务管理和数据备份;
所述权限管理模块对数据读写和接口调用进行权限控制;
所述元数据管理模块用于管理水利元数据信息,实现数据的上传、查询、更改过程的元数据以及对应索引数据修改。
较为优选的,所述数据中心服务器包括数据存储模块,所述数据存储模块用于单个数据中心内的水利原始数据存储,以及单位数据中心内部的数据存储和访问管理。
较为优选的,所述步骤2中,所述权限管理模块根据具体的大数据中心应用安全要求设置,对数据存储权限与接口调用权限进行控制,包括将权限信息划分为用户、角色、权限三级,每个用户被分配一种或多种角色,每种角色对应一个或多个不同的权限。
较为优选的,所述步骤2中,所述权限管理模块对用户的权限信息进行验证包括:
数据具有所属人、所属单位以及用户标记,所述权限管理模块依据数据所属人、所属单位以及用户具有角色权限决定是否能够进行读写。
较为优选的,所述步骤3中,所述数据存储模块在单位数据中心服务器上采用分布式文件系统管理水利原始数据文件,根据具体分布式文件系统的存储机制以多副本的形式存储在不同的数据节点。
较为优选的,所述步骤5中,水利数据综合查询考虑属性字段查询和空间查询,所述元数据管理模块中的空间索引采用R树变种数据结构的组织方式,每个文件使用对应的最小外包围矩形作为空间索引的最小单元。
较为优选的,所述步骤7中,空间索引效率模型基于数据索引查询时间和空间索引的平衡程度决定:
每次空间查询中记录查询的总时间,统计一定时间片内的数据查询信息,当查询速度明显降低时,设定具体的阈值执行索引重构;
通过同级节点的空间范围重叠程度为目标构建评估参数,超出阈值时执行空间索引重构;
其中,在索引重构过程中使用双缓冲机制,索引数据结构作为单独的数据分区,在额外的缓冲区中重新构建索引,索引构建完成之前由原索引协同新数据辅助索引提供服务,直到新索引构建完成后替换。
较为优选的,在所述步骤1前,还包括对服务进行初始化,所述初始化方法包括以下步骤:
步骤001,中心管理服务端启动,完成各个数据管理服务端连接前的初始化工作,包括相关服务接口的初始化启动,元数据的统计和初始化,空间索引和属性字段索引的检查和构建;
步骤002,数据管理服务端在各单位数据中心服务器中独立运行,启动完成后首先向中心管理服务端注册认证,确认是否有权限注册到中心管理服务端;
步骤003,中心管理服务端接收数据管理服务端的统计信息,并与本地的元数据信息匹配验证,验证成功时服务注册成功,注册服务开始进入工作状态;
步骤004,当服务器异常导致统计信息无法匹配时,首先修复不匹配的数据信息;
步骤005,客户端连接服务,调用接口,获取当前客户端需要连接的单位数据中心服务器信息,缓存后在具体文件数据读写过程中直接与对应的单位数据中心服务器交互;
步骤006,中心管理服务端收到数据管理服务端和客户端的连接后,对数据的历史访问信息、连接信息进行初始化处理和维护,构建用于负载均衡和数据调度运行性能模型。
本发明的有益效果为:本系统通过元数据共享-物理数据隔离的形式提高数据的管理和检索效率,提升数据资产的利用价值。与现有技术相比,本系统通过在管理中心存储元数据,各单位数据中心存储原始数据的方式,构建水利元数据存储管理策略。实现在数据访问逻辑不变的前提下,管理单位能够对各自数据中心上的数据具有完备的管理权限,并通过元数据集中存储和索引的机制,保证了水利数据的检索效率。
附图说明
图1为本发明系统架构示意图;
图2为本发明的数据管理方法流程示意图;
图3为本发明水利数据存储模型的组成示意图;
图4为本发明水利数据元数据索引模型示意图;
图5为本发明水利数据空间索引重构流程图;
图6为本发明平台初始化方法流程示意图。
具体实施方式
为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。“多个”表示“两个或两个以上”。
实施例一
图1示出了本申请较佳实施例提供的一种水利元数据管理系统的结构示意图,为了便于说明,仅示出了与本实施例相关的部分,详述如下:
本发明提供一种水利元数据管理系统,该系统部署于由总数据中心服务器和多个单位数据中心服务器组成的分布式数据中心环境,所述系统包括中心管理服务端、数据管理服务端和客户端。
所述中心管理服务端用于实现水利大数据的元数据、各单位数据中心服务器中存储的物理数据以及访问权限的管理,所述中心管理服务端运行在总数据中心服务器上;
所述数据管理服务端用于实现数据中心内部的数据存储和访问管理,所述数据管理服务端运行在单位数据中心服务器上,每个单位数据中心服务器运行一个单独的实例;
所述客户端用于从中心管理服务端查询元数据信息以及所需要的物理数据信息,然后通过物理数据信息从数据管理服务端中读写数据。
在一个实施例中,所述中心管理服务端包括中心管理模块、权限管理模块和元数据管理模块;
所述中心管理模块用于实现平台的整体管理和协调工作,包括数据中心管理、服务管理和数据备份等基础功能,以及实现多个数据中心的服务注册、监控等操作,以及中心管理服务自身的运行状态管理,保证整个平台的稳定性和可靠性。
在一个实施例中,中心管理模块的持久化层可以使用数据库存储,每个水利数据文件对应一条元数据信息记录,为提高数据共享和检索效率,所有单位数据中心服务器的元数据信息都存储在总数据中心服务器上。数据的检索通过属性字段索引和空间索引两方面构成,属性字段包括数据的上传时间、上传单位等基本属性信息,空间索引基于R树变种数据结构构建动态索引(优选的),并通过动态重构提高检索效率。数据的上传、查询、更改等过程都会向中心管理服务端汇报,通过元数据管理模块执行具体的修改。
所述权限管理模块对数据读写和接口调用进行权限控制,包括用户的注册、登录、角色分配等功能,通过该模块对数据读写和接口调用进行权限控制,保证数据的安全性和隐私性。
在一个实施中,权限管理模块使用用户-角色-权限的三级组织方式,每个用户可被赋予一个或多个角色,每个角色具有多种不同的权限。所有的数据都具有所属单位或用户标记,根据用户具体角色决定是否能够进行读写。结合具体的加密存储和传输方式,保证数据和系统的访问安全。
所述元数据管理模块用于管理水利元数据信息,涉及数据的上传、查询、更改等过程的元数据以及对应索引数据修改,提供高效的数据索引和综合查询功能。
所述数据中心服务器包括数据存储模块,所述数据存储模块用于单个数据中心内的水利原始数据存储,以及单位数据中心内部的数据存储和访问管理。每个单位数据中心服务器上运行独立的实例,通过分布式文件系统等方式存储数据。在数据存储的基础上,以目录和文件的形式控制数据读写权限,每次访问向中心管理服务端的权限管理模块申请鉴权。
客户端包括客户端模块,客户端模块用于向平台用户提供水利数据的管理接口。客户端模块以独立服务或以第三方库整合到其它软件的形式执行,一方面通过HTTP协议提供REST API接口,一方面通过编译语言提供调用接口。客户端可以通过HTTP协议的访问实现基本的数据操作,也可通过具体程序开发调用提供的接口。
以上五个模块相互配合,形成一套完整的分布式水利大数据存储平台及应用方法,可以有效地保护数据的安全性和隐私性,作为水利大数据深入挖掘和分析的基础,在促进创新、提升效率和优化资源配置等方面发挥巨大作用。
实施例二
如图2示出了本申请较佳实施例提供的一种水利元数据管理系统的数据管理方法的流程示意图,为了便于说明,仅示出了与本实施例相关的部分,详述如下:
步骤1,通过客户端向中心管理服务端发送上传请求,接口中包含水利属性信息、用户权限信息和文件数据信息,根据所述水利属性信息、用户权限信息和文件数据信息构建水利数据存储模型;
如图3所示,水利属性信息包含水利应用方面的业务属性信息以及空间数据信息,以结构化形式存储。业务属性涉及水利应用中的数据特征信息,如流域、河流、湖泊、水利工程等基础水利对象的主要属性数据,以及水旱灾害、水工程、水资源、水环境等业务应用中的属性数据。
步骤2,权限管理模块对用户的权限信息进行验证,用于保证数据存储与访问安全;
步骤3,根据权限管理模块中查询的数据中心信息,客户端向对应单位数据中心服务器的数据管理服务端发送数据写入请求,通过数据存储模块向对应单位数据中心服务器写入文件数据,并确认结果;
步骤4,确认写入成功后,构建水利数据的元数据模型,调用中心管理服务端接口,通过元数据管理模块将所述元数据模型解析为一条记录插入到数据库中;
步骤5,对包含空间信息的水利数据构建空间索引模型,元数据管理模块提取空间数据信息并构建自适应空间索引,整合模型信息到全局空间索引(即如果文件包含空间信息,提取最小外包围盒信息,添加到空间索引中);
步骤6,考虑到R树变种等空间索引数据结构在大量数据插入后可能出现同级重叠区域大、各个子节点分配数据量不均匀等情况,中心管理模块定期检查元数据索引状态信息,并根据一定的阈值确定是否重构元数据索引;
步骤7,构建空间索引效率模型,当元数据中的索引效率参数超过阈值时,使用双缓冲机制对元数据空间索引重构。
在一个实施例中,所述步骤2中,权限管理模块根据具体的大数据中心应用安全要求设置,对数据存储权限与接口调用权限进行控制,包括将权限信息划分为用户、角色、权限三级,每个用户被分配一种或多种角色,每种角色对应一个或多个不同的权限。数据具有所属人、所属单位以及用户标记,所述权限管理模块依据数据所属人、所属单位以及用户具有角色权限决定是否能够进行读写。用户在调用数据中心的访问接口时需具有对应权限的角色信息。
结合用户和对应的角色验证用户是否有数据中心和对应目录的读写权限。客户端中未缓存访问数据的数据中心信息时,首先通过权限管理模块获取对应的数据中心信息并缓存当用户角色为管理员时,包含对应单位数据中心服务器所有目录的访问权限;角色为普通用户时,只具有用户所属目录的访问权限。
在一个实施例中,所述步骤3中,所述数据存储模块在单位数据中心服务器上采用分布式文件系统管理水利原始数据文件,根据具体分布式文件系统的存储机制以多副本的形式存储在不同的数据节点。将数据分散在多个单位内节点以保证大数据量下的管理与分析效率。结合分布式环境的计算能力,基于Map-Reduce等并行计算模型提供水利大数据分析能力。
在一个实施例中,如图4所示,所述步骤5中,水利数据综合查询考虑属性字段查询和空间查询,所述元数据管理模块中的空间索引采用R树变种数据结构的组织方式,每个文件使用对应的最小外包围矩形作为空间索引的最小单元。根据不同的业务数据空间分布以及读写特点,可根据具体需要选择四叉树、网格、KD树等其他空间划分索引数据结构。
在一个实施例中,所述步骤7中,如图5所示,空间索引效率模型基于数据索引查询时间和空间索引的平衡程度决定:
(1)每次空间查询中记录查询的总时间,统计一定时间片内的数据查询信息,当查询速度明显降低时,设定具体的阈值执行索引重构;
(2)空间索引的平衡程度判断以R树为例,通过同级节点的空间范围重叠程度为目标构建评估参数,超出阈值时执行空间索引重构;
其中,为保证数据访问过程中索引的可用性,在索引重构过程中使用双缓冲机制,索引数据结构作为单独的数据分区,在额外的缓冲区中重新构建索引,索引构建完成之前由原索引协同新数据辅助索引提供服务,直到新索引构建完成后替换。
本方法在元数据写入完成后向客户端返回数据写入成功结果,新的数据开始可被查询。
在数据查询中,不涉及文件数据访问的查询仅通过元数据管理模块完成,通过属性字段索引和元数据索引两种方式单独查询和完成综合查询,得到符合查询条件的文件记录以及对应的数据管理服务网络地址。
需要读取具体数据的文件查询,通过元数据管理模块得到的文件具体位置信息,解析后调用数据管理服务的文件读取接口获取数据,以此达到水利大数据分布式中心的高效数据读写目的。
实施例三
如图6示出了本申请较佳实施例提供的一种平台初始化方法的流程示意图,为了便于说明,仅示出了与本实施例相关的部分,详述如下:
在步骤1前,还包括对服务进行初始化,所述初始化方法包括以下步骤:
步骤001,中心管理服务端启动,完成各个数据管理服务的连接前的初始化工作,包括相关服务接口的初始化启动,元数据的统计和初始化,空间索引和属性字段索引的检查和构建。初始化完成后,开发服务注册接口等待数据管理服务连接;
其中,为了保证分布式环境下的数据访问可靠性,主服务通过协同管理组件(如ZooKeeper)以多实例的形式管理,避免单个实例宕机导致的整个服务不可用。
步骤002,数据管理服务在各数据中心中独立运行,启动完成后首先向中心管理服务注册认证,确认是否有权限注册到中心管理服务。优选的,注册成功后,通过心跳监测方式定期向中心管理服务发送服务的存储状态、访问并发量、文件数量等信息,中心管理模块对各个数据存储服务汇报的心跳信息进行统计处理;
步骤003,中心管理服务接收数据管理服务的统计信息,并与本地的元数据信息匹配验证,验证成功时服务注册成功,注册服务开始进入工作状态。当发生影响数据安全的无法匹配异常时,数据管理服务采用一定次数的重试机制重新启动;
步骤004,分布式环境需考虑网络分区导致的可靠性问题,当服务器异常导致统计信息无法匹配时需首先修复不匹配的数据信息。优选的,本实施例采用元数据优先的方式,优先使用元数据信息修复数据存储服务中的信息,并通过消息机制将处理日志推送到系统管理员;
步骤005,客户端连接服务,通过HTTP或其它RPC的调用形式调用接口,获取当前客户端需要连接的数据中心信息,缓存后在具体文件数据读写过程中直接与对应的数据中心交互;
其中,缓存更新可以由协同管理组件通知执行;
步骤006,中心管理服务收到数据管理服务和客户端的连接后,对数据的历史访问信息、连接信息等进行初始化处理和维护,构建用于负载均衡和数据调度等运行性能模型。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括”,在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (7)

1.一种水利元数据管理系统,其特征在于:该系统部署于由总数据中心服务器和多个单位数据中心服务器组成的分布式数据中心环境,所述系统包括中心管理服务端、数据管理服务端和客户端;
所述中心管理服务端用于实现水利大数据的元数据、各单位数据中心服务器中存储的物理数据以及访问权限的管理,所述中心管理服务端运行在总数据中心服务器上;
所述数据管理服务端用于实现数据中心内部的数据存储和访问管理,所述数据管理服务端运行在单位数据中心服务器上,每个单位数据中心服务器运行一个单独的实例;
所述客户端用于从中心管理服务端查询元数据信息以及所需要的物理数据信息,然后通过物理数据信息从数据管理服务端中读写数据;
该系统的数据管理方法包括以下步骤:
步骤1,通过客户端向中心管理服务端发送上传请求,接口中包含水利属性信息、用户权限信息和文件数据信息,根据所述水利属性信息、用户权限信息和文件数据信息构建水利数据存储模型;
步骤2,权限管理模块对用户的权限信息进行验证;
步骤3,根据权限管理模块中查询的数据中心信息,客户端向对应单位数据中心服务器的数据管理服务端发送数据写入请求,通过数据存储模块向对应单位数据中心服务器写入文件数据,并确认结果;
步骤4,确认写入成功后,构建水利数据的元数据模型,调用中心管理服务端接口,通过元数据管理模块将所述元数据模型解析为一条记录插入到数据库中;
步骤5,对包含空间信息的水利数据构建空间索引模型,元数据管理模块提取空间数据信息并构建自适应空间索引,整合模型信息到全局空间索引;
步骤6,中心管理模块定期检查元数据索引状态信息,并根据一定的阈值确定是否重构元数据索引;
步骤7,构建空间索引效率模型,当元数据中的索引效率参数超过阈值时,使用双缓冲机制对元数据空间索引重构;
所述步骤5中,水利数据综合查询考虑属性字段查询和空间查询,所述元数据管理模块中的空间索引采用R树变种数据结构的组织方式,每个文件使用对应的最小外包围矩形作为空间索引的最小单元;
所述步骤7中,空间索引效率模型基于数据索引查询时间和空间索引的平衡程度决定:
每次空间查询中记录查询的总时间,统计一定时间片内的数据查询信息,当查询速度明显降低时,设定具体的阈值执行索引重构;
通过同级节点的空间范围重叠程度为目标构建评估参数,超出阈值时执行空间索引重构;
其中,在索引重构过程中使用双缓冲机制,索引数据结构作为单独的数据分区,在额外的缓冲区中重新构建索引,索引构建完成之前由原索引协同新数据辅助索引提供服务,直到新索引构建完成后替换。
2.如权利要求1所述的水利元数据管理系统,其特征在于:所述中心管理服务端包括中心管理模块、权限管理模块和元数据管理模块;
所述中心管理模块用于实现平台的整体管理和协调工作,包括数据中心管理、服务管理和数据备份;
所述权限管理模块对数据读写和接口调用进行权限控制;
所述元数据管理模块用于管理水利元数据信息,实现数据的上传、查询、更改过程的元数据以及对应索引数据修改。
3.如权利要求1所述的水利元数据管理系统,其特征在于:所述数据中心服务器包括数据存储模块,所述数据存储模块用于单个数据中心内的水利原始数据存储,以及单位数据中心内部的数据存储和访问管理。
4.如权利要求1所述的水利元数据管理系统,其特征在于:所述步骤2中,所述权限管理模块根据具体的大数据中心应用安全要求设置,对数据存储权限与接口调用权限进行控制,包括将权限信息划分为用户、角色、权限三级,每个用户被分配一种或多种角色,每种角色对应一个或多个不同的权限。
5.如权利要求4所述的水利元数据管理系统,其特征在于,所述步骤2中,所述权限管理模块对用户的权限信息进行验证包括:
数据具有所属人、所属单位以及用户标记,所述权限管理模块依据数据所属人、所属单位以及用户具有角色权限决定是否能够进行读写。
6.如权利要求1所述的水利元数据管理系统,其特征在于:所述步骤3中,所述数据存储模块在单位数据中心服务器上采用分布式文件系统管理水利原始数据文件,根据具体分布式文件系统的存储机制以多副本的形式存储在不同的数据节点。
7.如权利要求1所述的水利元数据管理系统,其特征在于,在所述步骤1前,还包括对服务进行初始化,所述初始化方法包括以下步骤:
步骤001,中心管理服务端启动,完成各个数据管理服务端连接前的初始化工作,包括相关服务接口的初始化启动,元数据的统计和初始化,空间索引和属性字段索引的检查和构建;
步骤002,数据管理服务端在各单位数据中心服务器中独立运行,启动完成后首先向中心管理服务端注册认证,确认是否有权限注册到中心管理服务端;
步骤003,中心管理服务端接收数据管理服务端的统计信息,并与本地的元数据信息匹配验证,验证成功时服务注册成功,注册服务开始进入工作状态;
步骤004,当服务器异常导致统计信息无法匹配时,首先修复不匹配的数据信息;
步骤005,客户端连接服务,调用接口,获取当前客户端需要连接的单位数据中心服务器信息,缓存后在具体文件数据读写过程中直接与对应的单位数据中心服务器交互;
步骤006,中心管理服务端收到数据管理服务端和客户端的连接后,对数据的历史访问信息、连接信息进行初始化处理和维护,构建用于负载均衡和数据调度运行性能模型。
CN202311314935.2A 2023-10-12 2023-10-12 一种水利元数据管理系统 Active CN117076391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311314935.2A CN117076391B (zh) 2023-10-12 2023-10-12 一种水利元数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311314935.2A CN117076391B (zh) 2023-10-12 2023-10-12 一种水利元数据管理系统

Publications (2)

Publication Number Publication Date
CN117076391A CN117076391A (zh) 2023-11-17
CN117076391B true CN117076391B (zh) 2024-03-22

Family

ID=88717289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311314935.2A Active CN117076391B (zh) 2023-10-12 2023-10-12 一种水利元数据管理系统

Country Status (1)

Country Link
CN (1) CN117076391B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697168A (zh) * 2009-10-22 2010-04-21 中国科学技术大学 一种分布式文件系统动态元数据管理方法及系统
CN104113597A (zh) * 2014-07-18 2014-10-22 西安交通大学 一种多数据中心的hdfs数据读写系统及方法
CN104915449A (zh) * 2015-06-30 2015-09-16 河海大学 一种基于水利对象分类标签的分面检索系统及方法
KR101762720B1 (ko) * 2016-03-31 2017-07-28 한국수자원공사 포탈 기반 물관련 정보 제공 시스템
US10318491B1 (en) * 2015-03-31 2019-06-11 EMC IP Holding Company LLC Object metadata query with distributed processing systems
CN110109889A (zh) * 2019-05-09 2019-08-09 重庆大学 一种分布式内存文件管理系统
CN110706125A (zh) * 2018-08-21 2020-01-17 北京恒宇伟业科技发展股份有限公司 水利大数据分析信息服务系统和平台服务系统
JP2020095434A (ja) * 2018-12-12 2020-06-18 富士通株式会社 通信装置、通信方法、および通信プログラム
CN111858097A (zh) * 2020-07-22 2020-10-30 安徽华典大数据科技有限公司 分布式数据库系统、数据库访问方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10397353B2 (en) * 2015-10-01 2019-08-27 Nicira, Inc. Context enriched distributed logging services for workloads in a datacenter
US11652883B2 (en) * 2018-08-25 2023-05-16 Panzura, Llc Accessing a scale-out block interface in a cloud-based distributed computing environment

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697168A (zh) * 2009-10-22 2010-04-21 中国科学技术大学 一种分布式文件系统动态元数据管理方法及系统
CN104113597A (zh) * 2014-07-18 2014-10-22 西安交通大学 一种多数据中心的hdfs数据读写系统及方法
US10318491B1 (en) * 2015-03-31 2019-06-11 EMC IP Holding Company LLC Object metadata query with distributed processing systems
CN104915449A (zh) * 2015-06-30 2015-09-16 河海大学 一种基于水利对象分类标签的分面检索系统及方法
KR101762720B1 (ko) * 2016-03-31 2017-07-28 한국수자원공사 포탈 기반 물관련 정보 제공 시스템
CN110706125A (zh) * 2018-08-21 2020-01-17 北京恒宇伟业科技发展股份有限公司 水利大数据分析信息服务系统和平台服务系统
JP2020095434A (ja) * 2018-12-12 2020-06-18 富士通株式会社 通信装置、通信方法、および通信プログラム
CN110109889A (zh) * 2019-05-09 2019-08-09 重庆大学 一种分布式内存文件管理系统
CN111858097A (zh) * 2020-07-22 2020-10-30 安徽华典大数据科技有限公司 分布式数据库系统、数据库访问方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种面向水利网格的数据中心设计与开发;贺挺;解建仓;李建勋;姜仁贵;;中国水利(16);第43-46页 *

Also Published As

Publication number Publication date
CN117076391A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
US10642840B1 (en) Filtered hash table generation for performing hash joins
US10891267B2 (en) Versioning of database partition maps
US8386540B1 (en) Scalable relational database service
CN103106152B (zh) 基于层次存储介质的数据调度方法
US8862540B2 (en) Replica placement strategy for distributed data persistence
KR101930117B1 (ko) 비휘발성 스토리지 장치 세트의 휘발성 메모리 표현 기법
US10684990B2 (en) Reconstructing distributed cached data for retrieval
CN103812939B (zh) 一种大数据存储系统
CN110213352B (zh) 名字空间统一的分散自治存储资源聚合方法
JP5387757B2 (ja) 並列データ処理システム、並列データ処理方法及びプログラム
CN102136003A (zh) 大规模分布式存储系统
US10356150B1 (en) Automated repartitioning of streaming data
CN101751309B (zh) 数据网格中一种优化的副本分布方法
CN104301360A (zh) 一种日志数据记录的方法、日志服务器及系统
CN111984696B (zh) 一种新型数据库和方法
US20170351620A1 (en) Caching Framework for Big-Data Engines in the Cloud
Vogt et al. Polypheny-DB: towards a distributed and self-adaptive polystore
CN110825704A (zh) 一种读数据方法、写数据方法及服务器
CN103150225B (zh) 基于应用级代理的对象并行存储系统磁盘满异常容错方法
CN115114294A (zh) 数据库存储模式的自适应方法、装置、计算机设备
CN103365740A (zh) 一种数据冷备方法及装置
CN117076391B (zh) 一种水利元数据管理系统
CN111680069B (zh) 数据库访问方法及装置
CN108769123B (zh) 一种数据系统及数据处理方法
CN110569310A (zh) 一种云计算环境下的关系大数据的管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant