CN115328950A

CN115328950A - 一种基于二级索引的hbase查询方法、终端设备及存储介质

Info

Publication number: CN115328950A
Application number: CN202210799213.XA
Authority: CN
Inventors: 徐雄辉; 陈奋; 陈荣有; 李伟彬; 薛世平
Original assignee: Xiamen Fuyun Information Technology Co ltd
Current assignee: Xiamen Fuyun Information Technology Co ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-11-11

Abstract

本发明涉及一种基于二级索引的hbase查询方法、终端设备及存储介质，该方法中包括：根据数据rowkey的范围划分数据存储的分区，新建hbase索引表；根据数据写入请求获取待写入数据的元数据信息；根据元数据信息构建各数据的二级索引，基于二级索引更新索引表；当接收到数据查询请求时，根据构建的二级索引进行数据查询。本发明可以提高开发人员开发效率及降低逻辑开发成本提高效率，可以提高系统运行得稳定性，使得查询功能、性能更具优势，增加行业得竞争力。

Description

一种基于二级索引的hbase查询方法、终端设备及存储介质

技术领域

本发明涉及hbase数据查询领域，尤其涉及一种基于二级索引的hbase查询方法、终端设备及存储介质。

背景技术

大数据基础组件HBase是一个分布式的、面向列的开源数据库，该技术来源于FayChang所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。HBase不同于一般的关系数据库，一方面由于HBase适合于非结构化数据存储的数据库，另一方面由于HBase是基于列的而不是基于行的模式。但是访问HBase进行数据查询时只能通过Rowkey(Rowkey可以认为是等同关系数据库中表的主键)进行精确索引，这使得要按照某个column进行条件查询时需要进行全表扫描，才能最后得到想要的数据。

而通常情况下，应用系统会使用更为灵活的条件组合查询方式进行数据查询，比如有一张大宽表记录了客户的信息，可能表中会存储了客户ID、客户名称、出生年月、学历、职业、性别等等的信息，若想通过性别、学历这两个信息来筛选一批客户，若不使用二级索引，而直接在HBase上查询，需要将HBase的全表数据一次性读取或者分批次读取到内存中，然后在应用代码里面进行过滤，如此会导致低效、资源占用、响应慢(通常情况，应用要求毫秒级响应)等一系列问题。由于HBase只支持按照Rowkey进行索引，这导致应用系统通常情况下需要使用条件或者条件组合进行数据的查询无法在HBase上实现。

HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储。HBase主要目标依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。HBase基于rowkey主键查询速度毫秒级，但是HBase不适于复杂逻辑查询，该复杂逻辑查询往往需全表扫描，非常消耗资源，具体不足如下：

(1)不合适复杂逻辑查询，筛选列需要使用特定的过滤器实例，通过多种规则来筛选列和单元格，效率低。

(2)rowkey设计不合理则会导致分区数据倾斜，大量数据集中在一个regionserver上，导致某台负载变高。

(3)列族数据扫描无法应对复杂场景下的查询需求。

(4)如果需要某个column Family中的column数据，则需要进行column条件查询进行全表扫描。

发明内容

为了解决上述问题，本发明提出了一种基于二级索引的hbase查询方法、终端设备及存储介质。

具体方案如下：

一种基于二级索引的hbase查询方法，包括以下步骤：

S1：根据数据rowkey的范围划分数据存储的分区，新建hbase索引表hbase_index；

S2：根据数据写入请求获取待写入数据的元数据信息，元数据信息包括：数据rowkey、表名、列族、分区、时间和区域位置；

S3：根据元数据信息构建各数据的二级索引，基于二级索引更新索引表hbase_index；

S4：当接收到数据查询请求时，根据构建的二级索引进行数据查询。

进一步的，数据rowkey的生成方法为：将数据的数据接收时间、数据待写入的分区、随机生成的唯一UUID和随机整数四者拼接后进行哈希运算得到。

进一步的，步骤S1中分区的划分方法为：根据分区的数量对数据rowkey的范围平均划分，根据划分结果设定各分区对应的数据rowkey的范围。

进一步的，二级索引包括二级索引Rowkey和四个列族，四个列族分别为：分区列族、元数据列族、时间列族和数据列族，其中，分区列族下包括分区索引和区域索引，元数据列族下包括多个元数据索引，时间列族下包括时间索引，数据列族下包括数据索引。

进一步的，二级索引Rowkey的生成规则为：将数据对应的数据rowkey、分区、列族、时间、版本号和区域进行拼接，将拼接结果进行倒叙后进行哈希运算生成；

分区索引的生成规则为：将数据对应的表名、分区、列族和时间进行拼接，将拼接结果进行倒叙后进行哈希运算生成；

区域索引的生成规则为：将数据对应的分区作为区域索引；

元数据索引的生成规则为：将数据对应的表名、列族、列值和时间进行拼接，将拼接结果进行倒叙后进行哈希运算生成；

时间索引的生成规则为：将数据的时间戳作为时间索引；

数据索引的生成规则为：将数据本身字符串作为数据索引。

进一步的，步骤S4中数据查询包括基于rowkey时序性范围的查询，即：

将需要查询的数据对应的数据rowkey、分区索引、需要查询的列族值、开始时间、数据版本号和区域位置进行拼接，将拼接结果进行倒叙后再进行哈希运算的结果作为开始查询范围索引；

将需要查询的数据对应的数据rowkey、分区索引、需要查询的列族值、结束时间、数据版本号和区域位置进行拼接，将拼接结果进行倒叙后再进行哈希运算的结果作为结束查询范围索引；

根据开始查询范围索引和结束查询范围索引查询索引表hbase_index，命中符合条件时返回查询索引表hbase_index中数据索引列对应的值。

进一步的，步骤S4中数据查询包括基于分区数据范围的查询，即：

将需要查询的数据对应的表名、起始扫描分区值、需要查询的列族值和需要查询的起始时间拼接构建为开始查询分区索引；

将需要查询的数据对应的表名、终点扫描分区值、需要查询的列族值和需要查询的终点时间拼接构建为终点查询分区索引；

根据开始查询分区索引和终点查询分区索引查询索引表hbase_index，命中符合条件时返回查询索引表hbase_index中数据索引列对应的值。

进一步的，步骤S4中数据查询包括基于时间索引数据范围的查询，即：构建时间范围索引条件、分区索引条件和区域索引条件；首先通过基于时间范围索引条件中的起始时间和终点时间对索引表hbase_index进行第一次查询，之后基于区域索引条件和分区索引条件对第一次查询结果进行第二次查询。

进一步的，步骤S4中数据查询包括基于列族索引数据范围的查询，即：基于表名、列族名称、需要查询的列族值和起始时间构建起始列族查询索引条件，基于分区名称、列族名称、需要查询的列族值和终点时间构建终点列族查询索引条件；基于起始列族查询索引条件和终点时间构建终点列族查询索引条件询索引表hbase_index，命中符合条件时返回查询索引表hbase_index中数据索引列对应的值。

一种基于二级索引的hbase查询终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，通过二级索引的构建及不同条件组合的查询扫描，增加查询场景多样化、可以应对复杂业务的场景下的数据要求，可以提高开发人员开发效率及降低逻辑开发成本提高效率，可以提高系统运行得稳定性，使得查询功能、性能更具优势，增加行业得竞争力。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为本发明实施例一中索引表hbase_index的结构示意图。

图3所示为本发明实施例一中基于rowkey时序性范围的查询的流程图。

图4所示为本发明实施例一中基于分区数据范围的查询的流程图。

图5所示为本发明实施例一中基于时间索引数据范围的查询的流程图。

图6所示为本发明实施例一中基于列族索引数据范围的查询的流程图。

图7所示为本发明实施例一中基于多条索引条件组合的查询的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种基于二级索引的hbase查询方法，如图1所示，所述方法包括以下步骤：

S1：根据数据rowkey的范围划分数据存储的分区，新建hbase索引表hbase_index。

本实施例中构建的数据rowkey由两部分拼接后进行哈希预算生成，其中，两部分中第一部分由数据生成的时间、数据的待写入分区(即分区序号或数据指定写入哪个分区)和随机UUID(Universally Unique Identifier，通用唯一识别码)三者拼接组成，第二部分为随机整数(本实施例中采用0-99范围内的int型整数)。

本实施例中设定分区的划分方法为：根据分区的数量对数据rowkey的范围平均划分(本实施例中将rowkey的范围划分为10个区域)，根据划分结果设定各分区对应的数据rowkey的范围。每个region对应的rowkey的范围对应生成分区hash一致性闭环，数据生成会根据预设分区顺序落盘指定预分区的hash一致性环内。本实施例中都采用分区划分的方式，可以使数据平均分布于各分区内，负载均衡各个服务器的压力。

如图2所示为hbase索引表hbase_index的结构示意图，该表用来存储数据的二级索引。索引表hbase_index的新建语法如下：

crcreate'hbase_index',{cf1＝>'partionIndex',VERSIONS＝>1},{cf1＝>'regionIndex',VERSIONS＝>1},{cf2＝>'metaIndex1',VERSIONS＝>1},{cf2＝>'metaIndex2',VERSIONS＝>1},{cf3＝>'timeIndex',VERSIONS＝>1},{cf3＝>'dataIndex',VERSIONS＝>1},'partition',{NUMREGIONS＝>10,SPLITALGO＝>'HexStringSplit'}

S2：根据数据写入请求获取待写入数据的元数据信息，元数据信息包括：数据rowkey、表名、列族、分区、时间和区域位置。

数据rowkey为待写入数据生成的rowkey。

S3：根据元数据信息构建各数据的二级索引，基于二级索引更新索引表hbase_index。

本实施例设定数据的二级索引包括二级索引Rowkey和四个列族，四个列族分别为：分区列族、元数据列族、时间列族和数据列族，其中，分区列族下包括分区索引和区域索引，元数据列族下包括多个元数据索引，时间列族下包括时间索引，数据列族下包括数据索引。

二级索引Rowkey的生成规则为：将数据对应的数据rowkey、分区、列族、时间、版本号和区域进行拼接，将拼接结果进行倒叙后进行哈希运算生成。

分区索引的生成规则为：将数据对应的表名、分区、列族和时间进行拼接，将拼接结果进行倒叙后进行哈希运算生成。

区域索引的生成规则为：将数据对应的(即待写入的)分区作为区域索引。

元数据索引的生成规则为：将数据对应的表名、列族、列值和时间进行拼接，将拼接结果进行倒叙后进行哈希运算生成。

时间索引的生成规则为：将数据的时间戳作为时间索引。

数据索引的生成规则为：将数据本身字符串作为数据索引。

本实施例中设定数据查询包括基于rowkey时序性范围的查询、基于分区数据范围的查询、基于时间索引数据范围的查询、基于列族索引数据范围的查询和基于多条索引数据范围组合。

(1)如图3所示，基于rowkey时序性范围的查询过程包括以下步骤：

(2)如图4所示，基于分区数据范围的查询过程包括以下步骤：

(3)如图5所示，基于时间索引数据范围的查询过程包括：构建时间范围索引条件、分区索引条件和区域索引条件；首先通过基于时间范围索引条件中的起始时间和终点时间对索引表hbase_index进行第一次查询，之后基于区域索引条件和分区索引条件对第一次查询结果进行第二次查询。

(4)如图6所示，基于列族索引数据范围的查询过程包括：基于表名、列族名称、需要查询的列族值和起始时间构建起始列族查询索引条件，基于分区名称、列族名称、需要查询的列族值和终点时间构建终点列族查询索引条件；基于起始列族查询索引条件和终点时间构建终点列族查询索引条件询索引表hbase_index，命中符合条件时返回查询索引表hbase_index中数据索引列对应的值。

(5)如图7所示，采用基于多条索引条件组合的查询。多条索引条件组合即上述四类型的索引条件的组合。通过组合索引条件可大范围扫描数据。

本发明实施例采用特定算法构建数据rowkey及二级索引rowkey，并基于数据rowkey的范围进行预分区，可降低数据倾斜的风险、使系统负载均衡、提高系统的稳定性及性能。

本发明实施例通过二级索引的构建及不同条件组合的查询扫描，增加查询场景多样化、可以应对复杂业务的场景下的数据要求，可以提高开发人员开发效率及降低逻辑开发成本提高效率，可以提高系统运行得稳定性，使得查询功能、性能更具优势，增加行业得竞争力。

实施例二：

本发明还提供一种基于二级索引的hbase查询终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述基于二级索引的hbase查询终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于二级索引的hbase查询终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述基于二级索引的hbase查询终端设备的组成结构仅仅是基于二级索引的hbase查询终端设备的示例，并不构成对基于二级索引的hbase查询终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于二级索引的hbase查询终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于二级索引的hbase查询终端设备的控制中心，利用各种接口和线路连接整个基于二级索引的hbase查询终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于二级索引的hbase查询终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述基于二级索引的hbase查询终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于二级索引的hbase查询方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于二级索引的hbase查询方法，其特征在于：数据rowkey的生成方法为：将数据的数据接收时间、数据待写入的分区、随机生成的唯一UUID和随机整数四者拼接后进行哈希运算得到。

3.根据权利要求1所述的基于二级索引的hbase查询方法，其特征在于：步骤S1中分区的划分方法为：根据分区的数量对数据rowkey的范围平均划分，根据划分结果设定各分区对应的数据rowkey的范围。

4.根据权利要求1所述的基于二级索引的hbase查询方法，其特征在于：二级索引包括二级索引Rowkey和四个列族，四个列族分别为：分区列族、元数据列族、时间列族和数据列族，其中，分区列族下包括分区索引和区域索引，元数据列族下包括多个元数据索引，时间列族下包括时间索引，数据列族下包括数据索引。

5.根据权利要求4所述的基于二级索引的hbase查询方法，其特征在于：二级索引Rowkey的生成规则为：将数据对应的数据rowkey、分区、列族、时间、版本号和区域进行拼接，将拼接结果进行倒叙后进行哈希运算生成；

区域索引的生成规则为：将数据对应的分区作为区域索引；

时间索引的生成规则为：将数据的时间戳作为时间索引；

数据索引的生成规则为：将数据本身字符串作为数据索引。

6.根据权利要求1所述的基于二级索引的hbase查询方法，其特征在于：步骤S4中数据查询包括基于rowkey时序性范围的查询，即：

7.根据权利要求1所述的基于二级索引的hbase查询方法，其特征在于：步骤S4中数据查询包括基于分区数据范围的查询，即：

8.根据权利要求1所述的基于二级索引的hbase查询方法，其特征在于：步骤S4中数据查询包括基于时间索引数据范围的查询，即：构建时间范围索引条件、分区索引条件和区域索引条件；首先通过基于时间范围索引条件中的起始时间和终点时间对索引表hbase_index进行第一次查询，之后基于区域索引条件和分区索引条件对第一次查询结果进行第二次查询。

9.根据权利要求1所述的基于二级索引的hbase查询方法，其特征在于：步骤S4中数据查询包括基于列族索引数据范围的查询，即：基于表名、列族名称、需要查询的列族值和起始时间构建起始列族查询索引条件，基于分区名称、列族名称、需要查询的列族值和终点时间构建终点列族查询索引条件；基于起始列族查询索引条件和终点时间构建终点列族查询索引条件询索引表hbase_index，命中符合条件时返回查询索引表hbase_index中数据索引列对应的值。

10.一种基于二级索引的hbase查询终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～9中任一所述方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～9中任一所述方法的步骤。