CN116049197A

CN116049197A - 一种基于HBase的数据均衡存储方法

Info

Publication number: CN116049197A
Application number: CN202310208036.8A
Authority: CN
Inventors: 孟斌; 张秋雨; 张�杰
Original assignee: Csic Orlando Wuxi Software Technology Co ltd
Current assignee: Csic Orlando Wuxi Software Technology Co ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-02
Anticipated expiration: 2043-03-07
Also published as: CN116049197B

Abstract

本发明公开一种基于HBase的数据均衡存储方法，包括输入业务结构化数据；判断业务数据中的属性信息是否初始化到元数据表，如果没有，则简化业务数据中的属性信息并初始化到元数据表中；如果有，判断业务模块对应的数据年份表是否存在，如果不存在，则创建当前业务模块对应的数据年份表；如果存在，为业务数据中的所有数据行设计生成rowkey，并使用元数据表中简化的属性名称作为列名；将封装好的业务结构化数据存储到HBase中。本发明采用了预分区和特殊rowkey设计结构，保证rowkey能够均匀分布在每个region上，有效避免数据热点问题，防止数据倾斜，起到负载均衡作用，并且提高了数据读写效率。

Description

一种基于HBase的数据均衡存储方法

技术领域

本发明属于计算机大数据存储领域，具体涉及一种基于HBase的数据均衡存储方法。

背景技术

HBase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库，它是面向列存储的数据库，能够提供高并发及稳定可靠的性能。

在之前使用的HBase存储方式，根据一组业务结构化数据，在HBase上创建对应的一张表，并做了10个预分区。当业务结构化数据表的个数不断增加，导致HBase上表和region数也不断增加，最终导致集群中每个节点上存在大量的region数，从而加大hmaster和region servers的内存压力，导致HBase服务异常关闭，或者可能会造成集群宕机。region数量过大时，当需要重启HBase服务时，会给hmaster带来巨大的内存压力，可能会造成hmaster宕机或者造成RIT问题。

rowkey的不合理设计，会导致HBase服务出现数据热点、数据倾斜问题，即大量的数据只是存储在某个或者某些region上，其余region上只有少量或者没有数据。这样不仅会影响数据读写效率，同时还会出现负载不均衡问题，某个或者某些region server的承受大量的并发请求，可能会使某个或者某些region server异常关闭，影响HBase服务的正常运行。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于HBase的数据均衡存储方法。

技术方案：本发明的一种基于HBase的数据均衡存储方法，包括以下步骤：

步骤S101、输入业务结构化数据，并转至步骤S102；

所述业务结构化数据包括一个表名称、一行属性信息、一行属性数据类型信息和若干行具体行数据信息；其中表名称是由关系型数据库表整数类型的自增ID和业务模块名称组合，即ID_ModuleName；业务结构化数据中的属性数据类型信息可为空；

步骤S102、根据业务结构化数据中的表名称判断其是否已经在元数据表METATABLE初始化，若没有初始化，则转到步骤S103；若已完成初始化，则转到步骤S104；

步骤S103、简化业务结构化数据中的属性信息并初始化到元数据表中；完成后转到步骤S102；

步骤S104、判断业务模块对应的业务模块年份数据表是否存在，若存在，则转到步骤S105；若不存在，则转到步骤S106；其中，业务模块年份数据表指每个业务模块存储一年的业务数据，即每个业务模块一年增加一张业务模块年份数据表；

步骤S105、创建业务模块对应的业务模块年份数据表；根据业务结构化数据中的固定名称DATATABLE、业务模块名称ModuleName和当前日期年份创建当前年份的业务模块年份数据表，即：DATATABLE_ModuleName_YearTag（例如DATATABLE_FLOW_2022）创建完成后转到步骤S104；

步骤S106、生成业务结构化数据每行数据的rowKey，并使用简化后的属性名称作为业务模块年份数据表中列名；其中rowKey由业务结构化数据中表名称的关系型数据库表ID和具体数据所在行号组合成的21位数字；完成后转到步骤S107；

步骤S107、存储业务结构化数据到HBase中，即：将处理封装后的业务结构化数据保存到业务模块年份数据表中。

进一步地，在所述步骤S107将存储业务结构化数据到HBase之后，还包含以下查询HBase数据的步骤：

步骤S201、输入业务结构化数据的查询请求，即：输入业务结构化数据中的表名称信息；转到步骤S202；

步骤S202、根据业务结构化数据中的表名称信息判断元数据表中是否包含业务结构化数据；若不包含，则转到步骤S203；若包含，则转到步骤S204；

步骤S203、返回空数据结果；

步骤S204、根据业务结构化数据中的表名称信息获取元数据表中真实的业务数据属性信息和属性数据类型信息；完成后转到步骤S205；

步骤S205、根据业务结构化数据中的表名称信息中的关系型数据库自增ID，获取rowKey范围，并根据获取的rowKey范围扫描HBase中的业务模块年份数据表，得到业务数据年份数据表中的值范围；完成后转到步骤S206；

步骤S206、对扫描结果集进行解析封装，即：将元数据表中获取的真实属性信息和属性类型信息与业务模块年份数据表扫描值范围结果集进行解析封装，形成查询结果集；完成后转到步骤S207；

步骤S207、返回查询结果集。

进一步地，所述步骤S103的具体简化方法为：抽取出业务结构化数据中的属性行数据（即是指结构化数据的表头信息）和对应的属性数据类型行数据并进行简单化处理（包括将属性名称分解为【两位递增数字】和【固定名Col】两个部分，并进行组合），最后将表名称与简化后的属性信息和属性数据类型信息保存到元数据表METATABLE中；其中，所述元数据表METATABLE为HBase中存储业务结构化数据中的表名称与简化后的属性行数据和对应的属性数据类型数据，若属性数据类型数据为空，则默认所有属性数据类型为String类型；所述元数据表包括两个列族，简化后的所有属性列组成一个列族，对应简化后的所有属性数据类型列组成另一个列族。

进一步地，业务结构化数据中所述具体行数据信息存储于业务模块年份数据表DATATABLE中；所述业务模块年份数据表只包含一个列族，列族中的列是从元数据表METATABLE中得到的所有简化后得属性列组合而成；

根据业务结构化数据中的表名中业务模块名称ModuleName和当前日期年份判断当前年份的业务模块年份数据表是否存在。

进一步地，创建业务模块对应的业务模块年份数据表时采用预分区和rowkey特殊设计方法功能，具体方法为：

为保证rowkey能够均匀分布，防止数据热写，在创建DATATABLE表时，创建10个预分区：0｜1｜2｜3｜4｜5｜6｜7｜8｜9；rowkey是由11位前缀和10位后缀组合而成的21位数字，其中11位前缀包括1位表ID的末尾数字和10位表ID，其中表ID是关系型数据库表整数类型的自增ID；当表ID位数不足10位时，左移补0补齐10位；10位后缀是由数据行号组成，数据行号是指每行数据所在行号；当数据行号位数不足10位时，数据行号左移补0补齐10位。例如当表ID为21时，第一行具体数据对应的rowkey值为100000000210000000000，由于表ID的末尾只会是数字0到9，所以结合预分区方案，可以保证多组业务表数据可以分布不同的region上，从而不会出现数据热点问题，保证数据均匀分布在各个region上。

进一步地，所述业务模块年份数据表(DATATABLE)的rowkey是由11位前缀和10位后缀组合而成的21位数字，其中10位后缀是由具体数据行号组成的，所以查询表数据时rowkey范围是由10位后缀决定的；取10位后缀的最小值0000000000和最大值9999999999分别与11位前缀组合，形成hbase查询数据时的startRowkey和endRowkey，从而确定rowkey的扫描范围，例如当表ID为21时，rowkey查询范围为100000000210000000000~100000000219999999999。根据这个rowkey范围即可查询出某组业务表下的所有数据；这样即可查询出某组业务表下的所有数据。

有益效果：本发明将业务数据的属性信息和具体数据分开存储，将业务属性信息进行简化，并且采用了预分区和rowkey特有设计方案，保证rowkey能够均匀的分布在每个region上，有效避免数据热点问题，防止数据倾斜，起到负载均衡作用，提高数据读写效率；同时减少了region数量，减少对集群服务器的压力，防止集群服务器宕机。

附图说明

图1是本发明的整体流程图；

图2是本发明中HBase数据查询流程图；

图3是本发明一实施例中一组业务数据的示例图；

图4是本发明一实施例中一组业务数据的METATABLE表存储示例图；

图5是本发明一实施例中一组业务数据的DATATABLE表存储示例图；

图6是实施例采用现有技术出错提示；

图7是实施例采用现有技术的读取速率示意图；

图8是实施例采用本发明技术方案的读取速率示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本实施例的基于HBase的数据均衡存储方法，包括以下步骤：

步骤S101、输入业务结构化数据，然后转到步骤S102。业务结构化数据包括一个表名称、一行属性信息、一行属性数据类型信息和多行具体数据信息；其中表名称是由关系型数据库表整数类型的自增ID和业务模块名称组合，即：ID_ModuleName；业务结构化数据中的属性数据类型数据可为空；

步骤S102、根据业务结构化数据中的表名称判断其是否已经在元数据表初始化，若没有初始化，则转到步骤S103；若已完成初始化，则转到步骤S104;

步骤S103、简化业务结构化数据中的属性信息并初始化到元数据表中，然后转到步骤S102；

步骤S105、创建业务模块对应的业务模块年份数据表；根据业务结构化数据中的业务模块名称(ModuleName)、当前日期年份和固定名称(DATATABLE)创建当前年份的业务模块年份数据表，即：DATATABLE_ModuleName_YearTag；创建完成后转到步骤S104；

步骤S106、生成业务结构化数据每行数据的rowKey，并使用简化后的属性名称作为业务模块年份数据表中列名；其中rowKey由业务结构化数据中表名称的关系型数据库表ID和具体数据所在行号组合成的21位数字；转到步骤S107；

现有技术中Rowkey设计通常一般遵循以下原则：长度原则（业务允许情况下rowkey越短越好）、唯一原则（一个rowkey一条数据）、散列原则（避免热点问题）、业务原则（可将相关业务信息作为前缀），为此需要一组业务数据创建一张表，再将当前表进行预分区处理，浪费资源和成本；而本发明的10个预分区是指将数据表DATATABLE进行预分区，能够保证rowkey均匀分布，不出现热点问题；保证一组结构化数据存储在一个region，避免跨region查询，影响查询效率。

如图2所示，使用上述实施例方法均衡存储数据后，HBase查询数据的步骤如下：

步骤S201、输入业务结构化数据的查询请求，即：输入业务结构化数据中的表名称信息；然后转到步骤S202；

步骤S202、根据业务数据中的表名称信息判断元数据表中是否包含业务数据信息；若不包含，则转到步骤S203；若包含，则转到步骤S204；

步骤S203、返回空数据结果；

步骤S204、根据业务数据中的表名称信息获取元数据表中真实的业务数据属性信息和属性数据类型信息；完成后转到步骤S205；

步骤S205、根据业务数据中的表名称信息中的关系型数据库自增ID，获取RowKey范围，并根据获取的RowKey范围扫描HBase中的业务模块年份数据表，得到业务数据年份数据表中的值范围；完成后转到步骤S206；

步骤S207、返回查询结果集。

实施例1，

在本实施例的HBase数据存储过程中：

首先，将一组业务结构化数据存储到HBase中，需要先获取业务结构化数据，业务结构化数据的信息包括一个表名称、一行属性信息、一行属性数据类型信息和多行具体数据信息；其中表名称是由关系型数据库表整数类型的自增ID和业务模块名称组合，即：ID_ModuleName；业务结构化数据中的属性数据类型数据可为空。

业务结构化数据结构组成如图3所示，表名为121_STAFF，121为关系型数据库表整数类型的自增ID，STAFF为业务模块名称；属性信息包括员工名称、年龄和手机号；属性数据类型信息为空，剩余三行为具体的业务数据信息。

其次，将业务结构化数据中的表名称、属性信息和属性数据类型信息存储到METATABLE表中。METATABLE表的结构和数据示例如图4所示，该表有两个列族cf、tf。在cf列族中包含两个固定列meta_tableName、meta_tableYear和多个动态列，两个固定列分别存储业务结构化数据中的表名称121_STAFF和当前年份2022。动态列的个数与业务结构化数据中的属性个数相同，列名为简化后的属性名称，列值为原属性名称；简化属性名称是由两位递增数字和固定名Col组合：00_Col、01_Col、02_Col，对应的列值分别为业务数据属性信息：员工名称、年龄、手机号。在tf列族中包含了cf列族中简化后列名：00_Col、01_Col、02_Col，用于储存对应列的业务数据属性数据类型，使用了默认的String类型。该表的rowkey是使用UUID：eef8286b-6628-3dab-bf4d-73c724b6a6e1。

最后，将具体业务数据存储到业务模块年份数据表，业务模块年份数据表的结构和数据示例如图5所示，该表名称为DATATABLE_STAFF_2022，表名中的业务模块名是从METATABLE中的cf:meta_tableName中解析出，年份是从METATABLE中的cf:meta_tableYear中获取。

本实施例的业务模块年份数据表包含了一个列族cf，列族中包含了METATABLE列族cf中的简化后列名：00_Col、01_Col、02_Col，存储对应的业务结构化数据中的具体业务数据。该表的rowkey由11位前缀和10位后缀组合，前缀是其由关系型数据库表整数类型的自增ID的1位末尾数字和10位表ID组合成的11位数字，表ID位数不足10位时，左移补0补齐10位置；后缀由10位具体数据所在行号组成，行号不足10位，左移补0补齐10位。以本实施例中第一行数据为例，表ID为121，首先表ID左移补齐10位，即0000000121，再与ID末尾数字1组合成rowkey前缀10000000121；行号为0，行号不足10位，左移补0，即后缀为0000000000，故第一行数据的rowkey为100000001210000000000；其余行rowkey以此类推。

实施例2：

在本实施例的HBase数据查询过程中：

根据输入的业务数据表名称(121_STAFF)，查询METATABLE表数据，获取业务数据属性信息。根据业务数据表名称中的业务模块名称和当前年份确定数据出的业务数据年份表为DATATABLE_STAFF_2022；再根据业务数据表名称中的表ID(121)确定查询业务数据年份表数据(DATATABLE_STAFF_2022)的rowkey范围为：100000001210000000000~100000001219999999999。将查询到的具体数据与业务数据属性信息进行封装，最后返回查询数据结果集。

实施例3：

本实施例对同一组数据分别采用现有技术和本发明技术方案进行测试，如图6所示，如果采用现有方法进行存储，则会由于region过多而出错，并且读取速率很慢（如图7所示），而本发明的读取速率提高至毫秒级别（如图8所示）。

综上所述，本发明能够减少region数以避免频繁读写，降低内存消耗，避免了内存溢出问题。同时当hbase重启时，主分配区域时间不会太长。

Claims

1.一种基于HBase的数据均衡存储方法，其特征在于：包括以下步骤：

步骤S101、输入业务结构化数据，并转至步骤S102；

步骤S103、简化业务结构化数据中的属性信息并初始化到元数据表中；完成后转到步骤S102；其中，简化业务结构化数据中的属性信息并初始化到元数据表中的具体方法：

抽取出业务结构化数据中的属性行数据和对应的属性数据类型行数据并进行处理，最后将表名称与简化后的属性信息和属性数据类型信息保存到元数据表METATABLE中；其中，所述元数据表METATABLE为HBase中存储业务结构化数据中的表名称与简化后的属性行数据和对应的属性数据类型数据，若属性数据类型数据为空，则默认所有属性数据类型为String类型；所述元数据表包括两个列族，简化后的所有属性列组成一个列族，对应简化后的所有属性数据类型列组成另一个列族；

步骤S105、创建业务模块对应的业务模块年份数据表；根据业务结构化数据中的固定名称DATATABLE、业务模块名称ModuleName和当前日期年份创建当前年份的业务模块年份数据表，即：DATATABLE_ModuleName_YearTag；创建完成后转到步骤S104；

步骤S107、存储业务结构化数据到HBase中，即：将处理封装后的业务结构化数据保存到业务模块年份数据表中；

其中，创建业务模块对应的业务模块年份数据表的具体方法为：

在创建DATATABLE表时，创建10个预分区：0｜1｜2｜3｜4｜5｜6｜7｜8｜9；

rowkey是由11位前缀和10位后缀组合而成的21位数字，所述11位前缀包括1位表ID的末尾数字和10位表ID，其中表ID是关系型数据库表整数类型的自增ID；当表ID位数不足10位时，左移补0补齐10位，所述10位后缀是由数据行号组成，数据行号是指每行数据所在行号，当数据行号位数不足10位时，数据行号左移补0补齐10位。

2.根据权利要求1所述的基于HBase的数据均衡存储方法，其特征在于：在所述步骤S107将存储业务结构化数据到HBase之后，还包含以下查询HBase数据的步骤：

步骤S203、返回空数据结果；

步骤S207、返回查询结果集。

3.根据权利要求1所述的基于HBase的数据均衡存储方法，其特征在于：业务结构化数据中所述具体行数据信息存储于业务模块年份数据表DATATABLE中；所述业务模块年份数据表只包含一个列族，列族中的列是从元数据表METATABLE中得到的所有简化后得属性列组合而成；

4.根据权利要求2所述的基于HBase的数据均衡存储方法，其特征在于：查询HBase数据过程中，rowkey包括11位前缀和10位后缀组合而成的21位数字，其中10位后缀是由具体数据行号组成的，所以查询表数据时rowkey范围是由10位后缀决定的；取10位后缀的最小值0000000000和最大值9999999999分别与11位前缀组合，形成hbase查询数据时的startRowkey和endRowkey，从而确定rowkey的扫描范围。