CN118051498A

CN118051498A - 一种基于Hbase的数据管理方法、装置、设备及介质

Info

Publication number: CN118051498A
Application number: CN202410108810.2A
Authority: CN
Inventors: 王斌
Original assignee: Xi'an Lichuan Intelligent Technology Co ltd
Current assignee: Xi'an Lichuan Intelligent Technology Co ltd
Priority date: 2024-01-25
Filing date: 2024-01-25
Publication date: 2024-05-17

Abstract

本申请实施例公开了一种基于Hbase的数据管理方法、装置、设备及介质，该方法包括：Hbase Master节点管理和调度Hbase集群中的所有数据节点；Re gion Server节点存储和管理Hbase数据，处理针对Hbase数据的读写操作请求；Hbase Shell组件基于命令行执行针对目标数据库的管理、查询和分析操作；Hbase Thrift Server组件提供远程访问目标数据库的接口；Hbase REST Ser ver组件使用HTTP协议提供访问目标数据库的接口；Hbase客户端提供允许应用程序访问和操作Hbase数据的接口库。本申请能够克服数据容量和扩展性限制，实现复杂数据查询分析。

Description

一种基于Hbase的数据管理方法、装置、设备及介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种基于Hbase的数据管理方法、装置、设备及介质。

背景技术

传统的关系型数据库在存储大规模数据时会面临容量限制，并且在扩展性方面也存在限制。为了应对数据增长，需要更多的服务器或更大的硬件支持，这增加了成本和复杂性。此外，面对大量数据的读写操作时，关系型数据库效率较低。另外，传统数据库不能很好地处理半结构化和非结构化数据，例如传感器数据或设备日志等。而且，由于数据模型的限制，关系型数据库无法支持复杂的查询和分析，如多维分析和数据挖掘等任务。

因此，为了能够有效地解决以上问题，需要提供一种高效、智能的基于Hbase的数据管理方法。

发明内容

本申请实施例提供一种基于Hbase的数据管理方法、装置、系统、设备及介质，本申请能够提升数据的可读性和展示效果，降低数据的理解难度。

本申请实施例第一方面提供一种基于Hbase的数据管理方法，应用于基于Hbase的数据管理系统，所述系统包括：Hbase Master节点、Region Server节点、Hbase Shell组件、Hbase Thrift Server组件、Hbase REST Server组件和Hbase客户端；所述方法包括：

所述Hbase Master节点管理和调度Hbase集群中的所有数据节点，其中，所述数据节点用于存储和管理目标数据库中的Hbase数据；

所述Region Server节点存储和管理所述Hbase数据，处理针对所述Hbase数据的读写操作请求，并执行针对所述Hbase数据的快速访问和查询操作；

所述Hbase Shell组件基于命令行执行针对所述目标数据库的管理、查询和分析操作；

所述Hbase Thrift Server组件提供远程访问所述目标数据库的接口，并基于Thrift协议提供访问和处理所述Hbase数据；

所述Hbase REST Server组件使用HTTP协议提供访问所述目标数据库的接口，通过RESTful API访问和处理所述Hbase数据；

所述Hbase客户端提供允许应用程序访问和操作所述Hbase数据的接口库，并与Hadoop生态系统中的其他组件集成。

可选地，所述Hbase Master节点管理和调度Hbase集群中的所有数据节点，包括：

所述Hbase Master节点分配所述Region Server节点至所述目标数据库的各分区进行管理；

所述Hbase Master节点对分配后的所述Region Server节点执行负载均衡操作和故障转移操作。

可选地，所述Region Server节点存储和管理所述Hbase数据，处理针对所述Hbase数据的读写操作请求，并执行针对所述Hbase数据的快速访问和查询操作，包括：

根据分区策略，在所述目标数据库中加载多个分区；

接收所述Hbase客户端发起的针对Hbase数据库的写入操作请求，将所述Hbase数据写入对应的分区中；

接收所述Hbase客户端发起的针对所述Hbase数据库的读取操作请求，根据分区数据查询策略，从对应的分区中查询所述Hbase数据，并返回给所述Hb ase客户端。

可选地，所述根据分区数据查询策略，从对应的分区中查询所述Hbase数据，包括：

将待查询的所述Hbase数据的数据索引发送至所述目标数据库的索引构建单元或行键拼接单元，获取所述Hbase数据对应的索引行键；

通过与所述目标数据库的元数据缓存的交互，确定存储元数据表的所述RegionServer节点的信息；

与所述元数据表所在的第一Region Server节点建立连接，并更新所述元数据表，将更新的元数据表的信息写入所述元数据缓存；

根据所述更新的元数据表确定要读取的数据表所在的第二Region Serve r节点，并与所述第二Region Server节点建立连接；

在所述第二Region Server节点中，使用所述Hbase数据对应的索引行键进行主数据搜索，获取与所述索引行键对应的主数据，其中，所述主数据为所述待查询的Hbase数据；

将所述主数据返回给所述Hbase客户端。

可选地，所述将所述Hbase数据写入对应的分区中，包括：

计算每个分区的中心经纬度坐标；

根据所述每个分区的中心经纬度坐标，确定所述Hbase数据要写入的目标分区；

将所述Hbase数据写入所述目标分区。

可选地，所述Hbase Shell组件为交互式工具，提供针对所述Hbase数据的命令，以及所述命令的选项，用于管理、查询和分析所述Hbase数据。

可选地，所述方法还包括：

根据设定的分片大小和金字塔模型的层数，计算得到不同层级的数据块，其中，所述数据块为所述Hbase的数据分块，所述金字塔模型用于确定所述Hb ase数据在所述金字塔模型中的层级，以及在实际空间的位置信息；

使用均匀网格法对所述数据块进行分类处理，若所述数据块的体积大于预设阈值，则将所述数据块分配到所述金字塔模型对应的层级，并确定所述数据块的位置信息，若所述数据块的体积小于或等于所述预设阈值，则重新计算所述数据块的体积；

构建所述目标数据库的存储图层表结构，定义所述层级和所述位置信息的行键、列族和列修饰符的字段；

根据所述存储图层表结构，根据所述数据块的层级和位置信息，将所述数据块按照对应的行键、列族和列修饰符存储到Hbase数据库中。

相应地，本申请实施例第二方面提供一种基于Hbase的数据管理装置，应用于基于Hbase的数据管理系统，所述系统包括：Hbase Master节点、Region Server节点、HbaseShell组件、Hbase Thrift Server组件、Hbase REST Server组件和Hbase客户端；所述装置包括：Hbase Master模块、Region Serv er模块、Hbase Shell模块、Hbase Thrift Server模块、Hbase REST Server模块和Hbase客户端模块；

所述Hbase Master模块，用于管理和调度Hbase集群中的所有数据节点，其中，所述数据节点用于存储和管理目标数据库中的Hbase数据；

所述Region Server模块，用于存储和管理所述Hbase数据，处理针对所述Hbase数据的读写操作请求，并执行针对所述Hbase数据的快速访问和查询操作；

所述Hbase Shell模块，用于基于命令行执行针对所述目标数据库的管理、查询和分析操作；

所述Hbase Thrift Server模块，用于提供远程访问所述目标数据库的接口，并基于Thrift协议提供访问和处理所述Hbase数据；

所述Hbase REST Server模块，用于使用HTTP协议提供访问所述目标数据库的接口，通过RESTful API访问和处理所述Hbase数据；

所述Hbase客户端模块，用于提供允许应用程序访问和操作所述Hbase数据的接口库，并与Hadoop生态系统中的其他组件集成。

本申请实施例第三方面提供的一种电子设备，所述电子设备包括：

处理器；以及存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据第一方面所述的基于Hbase的数据管理方法。

本申请实施例第四方面还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据第一方面所述的基于Hbase的数据管理方法。

由此可知，本申请实施例的方法通过HBase Master节点的集中管理和调度，实现整个集群中数据节点的高效管理，提高系统的可维护性和可管理性。通过Region Server节点负责高效存储、管理和处理HBase数据，促进系统性能的提升。通过HBase Shell组件提供了灵活的命令行操作，简化了数据库管理流程。通过HBase Thrift Server和REST Server分别提供了远程访问接口和RESTful API支持，增强了系统的可访问性和集成性。通过HBase客户端，应用程序可以轻松访问和操作HBase数据，并与Hadoop生态系统中的其他组件集成，提高了系统的整体灵活性和可扩展性。

本申请实施例的方法通过使用以上节点和组件的功能，能够构建一个高效、灵活、可远程访问和可集成的数据管理系统，能够对关系型数据库的海量数据实现高效、有序的管理，并为用户提供了便捷的数据管理和操作体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于Hbase的数据管理方法的应用场景示意图；

图2是本申请实施例提供的基于Hbase的数据管理方法的流程示意图；

图3是本申请实施例提供的目标数据库的结构示意图；

图4是本申请实施例提供的主数据的行键索引的示意图；

图5是本申请实施例提供的基于Hbase的数据管理装置的结构示意图；

图6是本申请实施例提供的电子设备的一种逻辑结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种基于Hbase的数据管理方法、装置、设备及介质，其中，设备可以为电子设备，可读存储介质可以为计算机可读存储介质。基于Hbase的数据管理装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，Hbase是指基于Hadoop的分布式数据库系统。全称为"Hadoop Database"或"Hbase Database"。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，如图1所示，服务器可以通过Hbase Master节点管理和调度Hbase集群中的所有数据节点，其中，所述数据节点用于存储和管理目标数据库中的Hbase数据；通过Region Server节点存储和管理所述Hbase数据，处理针对所述Hbase数据的读写操作请求，并执行针对所述Hbase数据的快速访问和查询操作；通过Hbase Shell组件基于命令行执行针对所述目标数据库的管理、查询和分析操作；通过Hbase Thrift Server组件提供远程访问所述目标数据库的接口，并基于Thrift协议提供访问和处理所述Hbase数据；通过HbaseRE ST Server组件使用HTTP协议提供访问所述目标数据库的接口，通过RESTful API访问和处理所述Hbase数据；通过Hbase客户端提供允许应用程序访问和操作所述Hbase数据的接口库，并与Hadoop生态系统中的其他组件集成。

需要说明的是，以上在服务器中执行的步骤，也可以在终端中执行，本实施例对此不做限制。

本申请实施例中的“多个”指两个或两个以上。本申请实施例中的“第一”和“第二”等用于区分描述，而不能理解为暗示相对重要性。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

请参阅图2，在本实施例中，提供了一种基于Hbase的数据管理方法，应用于基于Hbase的数据管理系统，所述系统包括：Hbase Master节点、Regi on Server节点、HbaseShell组件、Hbase Thrift Server组件、Hbase RE ST Server组件和Hbase客户端；如图2所示，该方法包括：

步骤101、所述Hbase Master节点管理和调度Hbase集群中的所有数据节点。

其中，数据节点可以用于存储和管理目标数据库中的Hbase数据。

可选地，步骤101可以包括：

在Hbase中，Hbase Master节点是Hbase集群的主节点，它负责管理和协调整个集群的工作。具体来说，Hbase Master承担以下任务：

管理Region Server节点：目标数据库，即Hbase数据库利用分布式存储模型将数据划分成多个Region存储在不同的Region Server上，Hbase Ma ster节点负责分配和管理这些Region Server节点，确保每个Region Serve r节点的负载平衡。

分配和管理Region：Hbase数据库将数据表划分为多个Region，每个Re gion分区负责一部分数据。Hbase Master节点负责分配和管理这些Region分区，包括创建、分裂和合并等操作。

处理数据负载平衡：Hbase Master节点可以根据每个Region Server节点上的负载情况，决定是否需要迁移Region分区数据到其他节点，以实现负载均衡。

处理故障转移：当某个Region Server节点发生故障时，Hbase Master节点负责重新分配该节点上的Region分区到其他可用的节点上，以确保数据的可用性和可靠性。

综上，Hbase Master节点在Hbase集群中担当着管理和调度的角色，负责维护集群的稳定和高效运行。它通过协调Region Server节点、管理Regi on分区的分布、处理数据负载平衡和故障转移等工作，确保数据的一致性、可用性和可靠性。

在一些实施例中，可以在每个Region Server节点中引入智能缓存机制，该机制能够根据数据访问模式和频率自动调整缓存策略，以提高常用数据的读写速度。具体实现中，可以包括数据访问模式分析、缓存策略调整、数据更新时的缓存处理、监控和优化等过程。

在一些实施例中，数据访问模式分析可以通过智能缓存机制首先对数据访问模式进行分析，例如包括识别经常被访问的数据分区、特定列族或列的访问频率等信息。

在一些实施例中，缓存策略调整可以根据数据访问模式的分析结果，动态调整缓存策略。具体的调整过程可以包括：(1)增加缓存容量：对于经常被访问的数据，可以增加其缓存容量，以便更多的数据可以在缓存中存储，减少磁盘IO的访问次数。(2)调整缓存淘汰策略：可以根据数据的热度，调整缓存淘汰策略，确保缓存中总是包含最常用的数据。(3)预热缓存：在系统启动或负载低的时候，可以执行预热缓存，将预计会频繁访问的数据加载到缓存中，提高命中率。

在一些实施例中，数据更新时的缓存处理可以是当数据发生更新时，智能缓存机制应该能够识别并更新缓存中相应的数据，以确保缓存中的数据与底层存储一致。

在一些实施例中，监控和优化可以实现监控机制，定期检查缓存命中率、缓存大小等指标，并根据监控结果进行优化。可以通过使用日志记录或监控工具来实现。

综上所述，通过智能缓存机制通过分析数据访问模式，并根据模式调整缓存策略，以提高对常用数据的读写速度，这一机制的实现有助于优化系统性能和资源利用率。

在一些实施例中，为了进一步地实时优化数据节点的负载平衡和资源分配，提高集群性能和稳定性，还可以在Region Server节点中引入智能调度算法。具体实现中，该算法执行时可以包括实时监控节点负载、数据节点负载评估、负载均衡算法、资源分配优化、预测性调度、故障感知和处理等过程。

在一些实施例中，实时监控节点负载可以定期或实时监控集群中各数据节点的负载情况，例如可以包括CPU使用率、内存利用率、网络带宽等，可以通过监控系统性能指标或节点上的代理程序来实现。在一些实施例中，该算法可以进行数据节点负载评估，即根据实时监控的数据，对每个数据节点的负载情况进行评估，例如可以到对不同资源的权重分配，以综合考虑节点的整体负载。

在一些实施例中，负载均衡算法可以基于负载评估结果，使用智能的负载均衡算法来决定是否需要迁移Region Server节点上的Region分区数据，以实现负载平衡。该算法可以考虑节点之间的通信开销、数据迁移时间、Reg ion Server的处理能力等因素。在一些实施例中，资源分配优化可以根据负载均衡的结果，智能地进行资源分配优化，例如可以调整Region Server节点的内存、CPU资源分配，以适应负载的变化。

在一些实例中，预测性调度可以基于历史负载数据和趋势，引入预测性调度，以提前预测可能出现的负载不均衡情况，并采取措施进行调整，从而避免潜在的性能问题。在一些实施例中，故障感知和处理可以考虑系统中可能出现的故障情况，智能调度算法应具备故障感知的能力，并在发生故障时采取相应的应对措施，如重新分配受影响节点的Region分区。

通过以上方式，系统能够在运行时通过智能调度算法实时监控节点负载，智能地进行负载均衡和资源分配，同时具备故障感知和处理的能力，以提高集群性能和稳定性。

步骤102、所述Region Server节点存储和管理所述Hbase数据，处理针对所述Hbase数据的读写操作请求，并执行针对所述Hbase数据的快速访问和查询操作。

可选地，步骤102可以包括：

根据分区策略，在所述目标数据库中加载多个分区；

可以理解，在目标数据库中，多个分区被创建和加载，用于存储不同的数据片段。分区可以基于特定的规则或标准进行创建，以便更好地组织和管理数据。

在一些实施例中，当Hbase客户端发起对目标数据库的写入操作请求时，Hbase数据库会接收该请求，并根据分区策略将所述Hbase数据写入对应的分区中。这确保了数据按照规定的分区方案存储，并且能够高效地进行后续的检索和查询。

在一些实施例中，当Hbase客户端发起对目标数据库的读取操作请求时，Hbase数据库会根据分区数据查询策略，从对应的分区中查询所需的Hbase数据，并将结果返回给Hbase客户端。分区数据查询策略可能包括根据分区键范围、哈希算法或其他规则来确定要查询的分区。

通过以上功能，目标数据库能够有效地处理Hbase客户端的写入和读取操作。分区策略确保数据按照合理的方式进行分布和存储，使得后续的查询操作可以更加高效和快速地获取目标数据。

可选地，步骤“根据分区数据查询策略，从对应的分区中查询所述Hbase数据”，包括：

将所述主数据返回给所述Hbase客户端。

请参阅图3和图4，如图3和图4所示，本申请的方法引入了面向时序数据的索引主数据同Region化策略。具体来说，可以通过用户历史访问行为统计汇总用户最常访问的数据列特征，并构建二级索引，将索引与对应的主数据存放在同一Region中。这样，在发生Region迁移时，索引与主数据可以同时迁移，无需对索引进行额外的维护，避免了索引跨节点查询带来的系统开销。同时，在索引构建的过程中，同Region化策略与原系统索引并无差别，不会产生额外的性能和内存开销。

在一些实施例中，可以将Hbase数据存储于如图3所示的目标数据库中，应用程序可以通过HBase客户端与HBase数据库进行交互，执行各种读写操作，例如包括数据的插入、查询、更新和删除等操作。在一些实施例中，分布式协调服务可以用于分布式协调和管理HBase集群中的各个节点，维护HB ase集群的元数据，例如包括HBase Master节点的信息、Region Server节点的信息等。HBase Master节点通过与分布式协调通信来协调和管理整个集群的状态。

在一些实施例中，HBase Master节点可以负责管理和调度整个HBase集群，通过与分布式协调服务通信来获取集群状态信息，并根据需要执行分区的负载均衡、故障转移等操作。在一些实施例中，HBase的数据表被分成多个分区，每个分区由一个Region Server节点管理，分区服务在HBase Master节点的管理下，负责分配、创建、删除和管理Region。

在一些实施例中，Region Server节点可以用于存储和管理HBase数据。每个Region Server负责管理一个或多个Region，其中每个Region对应数据表中的一个分区。Region Server处理来自HBase客户端的读写请求，执行数据的存储和检索。每个Region中可以包含多个存储单元，也称为Store。每个Store对应一个列族，用于存储特定列族的数据。

在一些实施例中，每个Region Server可以维护WAL(Write-Ahead Log ging)日志，用于记录对数据的写操作，以保证数据的一致性和可恢复性。WAL日志记录了写操作的顺序，以便在发生故障时进行数据的恢复。在一些实施例中，HBase的数据实际存储在Hadoop分布式文件系统(HDFS)中。HBas e利用HDFS作为其底层存储，数据以分布式的方式存储在多个HDFS数据节点上。HDFS客户端用于与HDFS进行交互，而HDFS数据节点用于存储实际的HB ase数据。

对于二级索引，它与普通数据类似，通过RowKey(行键)唯一确定。二级索引的数据值(value)对应主数据的RowKey。具体来说，二级索引与主数据的行键(RowKey)由多个字段组成，其中包括NodeID、Index marker、HR egionID以及根据主数据各列族特征进行哈希变换的字段。

如图4所示，假设集群中服务器节点数为n，则RowKey首字节范围取[0，n),表示该条数据所在服务器节点。1号字节最低位用于区分索引与主数据，0代表索引，1代表主数据；次低位用于区分数据冷热类别，0为冷数据，1为热数据。2～9号字节为RegionID，唯一标识一个节点中的Region。10～(9+m)号字节为根据主数据各列族特征进行哈希变换的字段，m为保证特定场景下数据存储规模与RowKey唯一性所需最小字节数。引入索引主数据同Regio n化策略后，索引构建/RowKey拼接模块对具有多级索引查询需求的部分热数据构建对应的索引。优化策略的索引查询数据步骤如下：

1)用户群将时序数据索引发送至索引构建/RowKey拼接模块，模块按策略返回索引RowKey。

2)用户群与本地元数据缓存Meta Cache交互，读取meta表所在HRegi onServer节点信息，若Meta Cache未命中，则连接Zookeeper，获取meta表所在Region Server信息。

3)用户群得到meta表具体位置，定位它所在Region Server节点，与此节点通信，获取meta表，将此新的meta元数据对应信息通过LRU的方式写入元数据缓存Meta Cache，并根据meta表访问要读取的数据表table所在的HRegionServer，建立连接。

4)用户群获得HRegionServer许可后,系统按索引RowKey进行主数据搜索。

5)系统将与索引对应的主数据返回给用户群。

可选地，步骤“将所述Hbase数据写入对应的分区中”，包括：

计算每个分区的中心经纬度坐标；

将所述Hbase数据写入所述目标分区。

在一些实施例中，本申请的方法还可以实现对数据的过滤列族操作。具体的，为了避免一些残缺、多余的数据被重复存储，节省存储资源，进行了过滤列族。经过过滤处理后再进行存储。在过滤列族中，分区的中心经纬度坐标(X,Y)的计算式为：

其中，这里所说的分区可以是Hbase数据的数据分片，(X,Y)表示中心经纬度坐标，(x,y)表示分区当前所处的网络坐标，(X_min，Y_min)表示分区的起始经纬度坐标，(TS_x，TS_y)表示层级中数据片的横纵坐标跨度。

通过以上方式计算数据分片的中心经纬度坐标，使用该公式可以根据网络坐标和数据片的起始坐标以及坐标跨度计算出数据分片的中心经纬度坐标。通过计算出的中心坐标，可以更快速地定位到特定数据分片并进行存储操作。这样的过滤列族操作可以避免存储残缺、多余的数据，节省存储资源，提高存储效率。

为了更好的理解本申请的Region化策略，即分区数据查询策略，现介绍目标数据库设计的逻辑结构和物理结构。

在目标数据库的逻辑结构方面，具有以下几个核心概念：

Row Key(行键)：作为数据的唯一标识，通过字典序进行排序。每个表中的所有行按照Row Key的顺序进行存储和检索。

Column Family(列族)：列族是列的组合，用于逻辑上将相关的列进行分组。一个表可以包含多个列族，而每个列族中可以包含多个列。列族在物理存储时以不同的文件夹形式存在。

Region(分区)：为了实现水平扩展和负载均衡，Hbase将表按行方向划分为多个Region。每个Region在集群中分布在不同的节点上，是Hbase分布式存储和负载均衡的最小单元。Region的划分是基于表的Row Key的范围进行的。

Store(存储)：Store是实际存储数据的地方，它位于HDFS(Hadoop分布式文件系统)中。一个Region可以包含多个Store，每个Store对应一个列族，用于存储该列族的数据。Store中的数据按照列族和Row Key进行组织。

除了Store存储的实际数据外，其他类似元数据的信息可以存放在内存中，如表结构信息、Region与Region Server的映射关系等。这些元数据可以加快对数据的访问速度。

总结来说，Hbase的逻辑结构包括以Row Key为唯一键的行、列族用于组织列、Region作为分布式存储和负载均衡的最小单元以及Store用于实际存储数据在HDFS上。其他元数据则可以存储在内存中提高查询效率。

在一些实施例中，可以在Region Server节点中引入自适应数据压缩和优化技术，使系统能够智能选择和应用最适合当前数据类型和使用模式的数据压缩算法。具体实现中，可以包括数据类型分析、使用模式监控、压缩算法选择、自适应压缩参数、数据传输优化和数据更新时的压缩处理等过程。

在一些实施例中，在数据类型分析时，对于不同类型的数据，选择合适的压缩算法是至关重要的。可以通过分析数据的类型，例如文本、图片、日志等，系统能够更好地选择适当的压缩算法。在一些实施例中，使用模式监控可以对应监控数据的使用模式，例如可以包括读取和写入操作的频率、对数据的访问方式等。不同的使用模式可能对压缩算法的选择产生影响，因此需要实时监控使用模式。

在一些实施例中，压缩算法选择可以是基于数据类型和使用模式的分析结果，自动选择最合适的压缩算法。例如压缩算法可以包括但不限于Snappy、Gzip、LZ4等，不同的压缩算法在存储效率和计算开销方面有所差异。在一些实施例中，在自适应压缩参数时，对于选定的压缩算法，可以根据实时的系统负载和性能指标动态调整压缩参数，以平衡存储空间和数据传输效率。例如，可以调整压缩级别、块大小等参数。

在一些实施例中，数据传输优化可以在数据传输阶段确保压缩和解压缩过程的高效性。例如可以在网络传输中使用压缩算法，以减少数据传输的带宽需求。在一些实施例中，数据更新时的压缩处理可以是当数据发生更新时，确保更新后的数据能够适应当前的压缩策略，同时更新压缩字典或其他必要的信息。

综上所述，系统能够根据数据类型和使用模式动态选择最适合的压缩算法，并根据实时的系统负载动态调整压缩参数，从而优化存储空间和提高数据传输效率。

步骤103、所述Hbase Shell组件基于命令行执行针对所述目标数据库的管理、查询和分析操作。

其中，Hbase Shell组件可以为一种交互式工具，提供针对所述Hbase数据的命令，以及所述命令的选项，用于管理、查询和分析所述Hbase数据。

在一些实施例中，Hbase Shell组件是一个交互式的命令行工具，用于执行针对Hbase数据库的管理、查询和分析操作。

通过Hbase Shell，可以使用特定的命令和选项来执行各种操作，包括但不限于以下几个方面：

管理操作：Hbase Shell提供了创建表、删除表、禁用表、启用表等管理操作。在一些实施例中，用户可以使用相应的命令和选项来管理Hbase中的表结构。

查询操作：用户可以通过Hbase Shell执行查询命令来检索表中的数据。通过指定表名、行键、列族、列名等信息，用户可以获取特定行、特定列或整个表的数据。

分析操作：Hbase Shell还提供了一些查询选项和计数器功能，用于分析和统计Hbase中的数据。例如，用户可以使用scan命令扫描表的数据，并使用选项来过滤、排序和限制结果的数量。

Hbase Shell的命令和选项是针对Hbase数据库设计的，可以与数据库进行交互并执行各种操作。它提供了一种方便的方式来管理、查询和分析Hbas e中的数据，而无需编写代码或使用其他工具。

步骤104、所述Hbase Thrift Server组件提供远程访问所述目标数据库的接口，并基于Thrift协议提供访问和处理所述Hbase数据。

在一些实施例中，Hbase Thrift Server组件可以是一个远程访问接口，它基于Thrift协议来提供对Hbase数据的访问和处理。

Thrift是一种跨语言的远程过程调用(RPC)框架，它可以使不同编程语言之间的应用程序能够进行通信和交互。Hbase Thrift Server利用Thrift协议，允许客户端应用程序通过网络与Hbase数据库进行交互。

通过Hbase Thrift Server，客户端可以通过使用支持Thrift协议的编程语言(如Java、Python、C++等)来访问和处理Hbase数据。客户端应用程序可以向Hbase ThriftServer发送请求，进行诸如读取、写入、更新和删除等操作，并获取相应的响应结果。

Hbase Thrift Server提供了一种灵活且跨语言的方式来访问和处理Hba se数据。它使得客户端应用程序能够通过远程调用方式与Hbase进行交互，而无需直接依赖于Hbase的Java API。这为开发人员提供了更多选择和灵活性，使得他们可以使用自己熟悉的编程语言来操作Hbase数据库。

步骤105、所述Hbase REST Server组件使用HTTP协议提供访问所述目标数据库的接口，通过RESTful API访问和处理所述Hbase数据。

在一些实施例中，REST(Representational State Transfer)是一种基于网络的软件架构风格，它使用标准的HTTP方法(如GET、POST、PUT、DEL ETE)进行资源的创建、读取、更新和删除。Hbase REST Server可以通过实现RESTful API，允许用户使用HTTP协议执行与Hbase数据库相关的操作。

具体实现中，可以通过Hbase REST Server，可以通过发送HTTP请求来访问和处理Hbase数据。例如，使用HTTP的GET请求可以检索数据，使用POST请求可以插入新数据，使用PUT请求可以更新数据，而DELETE请求则可以删除数据，HTTP方法与RESTful API的设计相一致。

步骤106、所述Hbase客户端提供允许应用程序访问和操作所述Hbase数据的接口库，并与Hadoop生态系统中的其他组件集成。

在一些实施例中，Hbase客户端可以提供一组编程接口或库，使应用程序能够以编程方式与Hbase数据库进行交互。这些接口库通常包括各种方法和函数，用于执行常见的数据库操作，例如读取、写入、更新和删除数据。通过以上Hbase接口，应用程序能够方便地与Hbase数据库通信，而无需直接操作底层的数据存储细节。

可选地，本申请的方法还可以包括：

在一些实施例中，本申请利用网格金字塔模型，构建数据存储模型。这样可提取得到数据的多尺度层级结构特征。当在查找数据时，只需找到特定的空间区域、属性特征就可以直接访问到数据。将数据的分片大小设定为2^p×2^p(p＝0,1,2...)，金字塔模型层数为L＝min(L₁，L₁)，满足：

其中:m表示数据的空间位置点。通过计算得到不同层级的数据块，利用均匀网格法对这些数据块进行分类处理，在分类的过程中，当数据瓦片的大小小于2^p×2^p时，将其视为“尾块”，重新计算其大小T_x×T_y:

其中:n表示“尾块”的空间位置点，k表示数据分片在金字塔中的层级，表示取余函数,2^p＝128,一般使用模式的也是128，相应的也可以根据业务对分块进行调整。

金字塔模型中每一个层级的数据都包含了3类信息:数据分片所在的层级k，数据分片的空间位置点m,数据瓦片的横向跨度和纵向跨度。他们的计算结果可以通过如下公式推导得到：

根据金字塔模型的每一个层级数据特征,目标数据库的存储图层表结构Hbase如下：

其中，Row_key：行由一个可排序的行键(rowkey)唯一标识，本文使用设备id和服务器的节点编号联合作为行主键。Column Family：列族,需事先定义，每行的数据按照列族分组存储。Column:列修饰符,也就是列，列族里的数据通过列定位。每行有相同的列簇，但是在行之间，相同的列簇不需要有相同的列。所有数据均以字符串的形式存储,用户读取时需要进行相应的转换,金字塔的所有层级都有对应的表,各个表之间没有任何联系。

由此可知，本申请实施例的方法引入索引主数据同Region化策略，将索引与对应主数据存放在同一Region中，避免了跨节点通信和数据查询所需的系统开销，提高了查询效率。同时，金字塔模型可以直接访问特定空间区域和属性特征的数据，进一步优化了查询性能。还通过过滤列族和数据分片的中心经纬度坐标计算式，可以过滤掉不必要的数据和存储，节省了存储资源。由于索引与主数据存放在同一Region中，减少了数据访问过程中的系统开销，提高了数据的访问效率。系统支持二级索引构建，可以满足具有多级索引查询需求的场景，提供更灵活和高效的数据检索功能。本申请的金字塔模型可以提取数据的多尺度层级结构特征，使得数据的存储和访问更加灵活和高效。

综上，本申请实施例的方法通过优化数据存储结构、引入索引策略和金字塔模型，实现了对时序数据的高效存储和查询，提高了数据访问性能、节省了存储资源，并且支持多级索引和多尺度层级结构特征提取。

通过以上几个方面的数据处理操作，本申请能够有效地实现提升数据的可读性和展示效果，并降低数据的理解难度的技术效果。

根据上述实施例所描述的方法，以下将作进一步详细说明。

如图5所示，为本申请实施例提供的基于Hbase的数据管理装置的结构示意图，应用于基于Hbase的数据管理系统，所述系统包括：Hbase Master节点、Region Server节点、Hbase Shell组件、Hbase Thrift Server组件、Hbase REST Server组件和Hbase客户端；所述装置包括：Hbase Master模块201、Re gion Server模块202、Hbase Shell模块203、HbaseThrift Server模块204、Hbase REST Server模块205和Hbase客户端模块206；

所述Hbase Master模块201，用于管理和调度Hbase集群中的所有数据节点，其中，所述数据节点用于存储和管理目标数据库中的Hbase数据；

所述Region Server模块202，用于存储和管理所述Hbase数据，处理针对所述Hbase数据的读写操作请求，并执行针对所述Hbase数据的快速访问和查询操作；

所述Hbase Shell模块203，用于基于命令行执行针对所述目标数据库的管理、查询和分析操作；

所述Hbase Thrift Server模块204，用于提供远程访问所述目标数据库的接口，并基于Thrift协议提供访问和处理所述Hbase数据；

所述Hbase REST Server模块205，用于使用HTTP协议提供访问所述目标数据库的接口，通过RESTful API访问和处理所述Hbase数据；

所述Hbase客户端模块206，用于提供允许应用程序访问和操作所述Hbase数据的接口库，并与Hadoop生态系统中的其他组件集成。

在本申请中，Hbase Master模块201可以管理和调度Hbase集群中的所有数据节点，其中，所述数据节点用于存储和管理目标数据库中的Hbase数据；Region Server模块可以存储和管理所述Hbase数据，处理针对所述Hbase数据的读写操作请求，并执行针对所述Hbase数据的快速访问和查询操作；Hbase Shell模块可以基于命令行执行针对所述目标数据库的管理、查询和分析操作；Hbase Thrift Server模块可以提供远程访问所述目标数据库的接口，并基于Thrift协议提供访问和处理所述Hbase数据；Hbase REST Server模块可以使用HTTP协议提供访问所述目标数据库的接口，通过RESTful API访问和处理所述Hbase数据；Hbase客户端模块可以提供允许应用程序访问和操作所述Hbase数据的接口库，并与Hadoop生态系统中的其他组件集成。

相应于上面的方法实施例，本发明实施例还提供了一种计算机设备，下文描述的一种计算机设备与上文描述的一种基于Hbase的数据管理方法可相互对应参照。

该计算机设备包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现上述方法实施例的基于Hbase的数据管理方法的步骤：

通过所述Hbase Master节点管理和调度Hbase集群中的所有数据节点，其中，所述数据节点用于存储和管理目标数据库中的Hbase数据；

通过所述Region Server节点存储和管理所述Hbase数据，处理针对所述Hbase数据的读写操作请求，并执行针对所述Hbase数据的快速访问和查询操作；

通过所述Hbase Shell组件基于命令行执行针对所述目标数据库的管理、查询和分析操作；

通过所述Hbase Thrift Server组件提供远程访问所述目标数据库的接口，并基于Thrift协议提供访问和处理所述Hbase数据；

通过所述Hbase REST Server组件使用HTTP协议提供访问所述目标数据库的接口，通过RESTful API访问和处理所述Hbase数据；

通过所述Hbase客户端提供允许应用程序访问和操作所述Hbase数据的接口库，并与Hadoop生态系统中的其他组件集成。

参考图6，现将描述可以作为本申请的服务器或客户端的电子设备600的结构框图，其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如，在一些实施例中，前述基于Hbase的数据管理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行前述基于Hbase的数据管理方法。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本申请使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种基于Hbase的数据管理方法，其特征在于，应用于基于Hbase的数据管理系统，所述系统包括：Hbase Master节点、Region Server节点、Hbas e Shell组件、Hbase ThriftServer组件、Hbase REST Server组件和Hbase客户端；所述方法包括：

2.根据权利要求1所述的基于Hbase的数据管理方法，其特征在于，所述Hbase Master节点管理和调度Hbase集群中的所有数据节点，包括：

3.根据权利要求1所述的基于Hbase的数据管理方法，其特征在于，所述Region Server节点存储和管理所述Hbase数据，处理针对所述Hbase数据的读写操作请求，并执行针对所述Hbase数据的快速访问和查询操作，包括：

根据分区策略，在所述目标数据库中加载多个分区；

4.根据权利要求3所述的基于Hbase的数据管理方法，其特征在于，所述根据分区数据查询策略，从对应的分区中查询所述Hbase数据，包括：

将所述主数据返回给所述Hbase客户端。

5.根据权利要求3所述的基于Hbase的数据管理方法，其特征在于，所述将所述Hbase数据写入对应的分区中，包括：

计算每个分区的中心经纬度坐标；

将所述Hbase数据写入所述目标分区。

6.根据权利要求1所述的基于Hbase的数据管理方法，其特征在于，所述Hbase Shell组件为交互式工具，提供针对所述Hbase数据的命令，以及所述命令的选项，用于管理、查询和分析所述Hbase数据。

7.根据权利要求1所述的基于Hbase的数据管理方法，其特征在于，所述方法还包括：

8.一种基于Hbase的数据管理装置，其特征在于，应用于基于Hbase的数据管理系统，所述系统包括：Hbase Master节点、Region Server节点、Hbas e Shell组件、Hbase ThriftServer组件、Hbase REST Server组件和Hbase客户端；所述装置包括：Hbase Master模块、Region Server模块、Hbase Sh ell模块、Hbase Thrift Server模块、Hbase REST Server模块和Hbase客户端模块；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。