CN109726175A

CN109726175A - 一种基于HBase的海量文件离线分区管理方法

Info

Publication number: CN109726175A
Application number: CN201811635129.4A
Authority: CN
Inventors: 李斌斌; 王振宇; 苏连超
Original assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd
Current assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-07

Abstract

本发明公开了一种基于HBase的海量文件离线分区管理方法，属于计算机领域。首先用户创建自定义的存储桶，加载关于桶的分区规则配置；按照桶的分区规则，给用户即将写入的小文件设定存储分区表的名称；然后按照业务需求和HBase数据存储的规则，为用户即将写入的小文件设计指定在存储分区表中的Rowkey，以RowKey作为每个小文件的唯一标示，自动将小文件写入当前时间段下的该桶的存储分区表中。最后用户指定该存储逻辑单元‑桶的数据存储空间配额和时间配额，系统根据空间配额和时间配额的限定定期对存储分区表的数据进行离线管理；同时系统离线预建下一时间段的存储分区表。本发明具有很强的实用性，具有很广泛的应用前景。

Description

一种基于HBase的海量文件离线分区管理方法

技术领域

本发明属于计算机领域，具体是一种基于HBase的海量文件离线分区管理方法。

背景技术

分布式存储作为当前大数据时代的数据存储应用方式被广泛认可，具体是通过硬件设备的横向扩展来完成对海量亿万级别数据的存储应用。HDFS作为分布式文件存储系统的成熟产品被广泛应用，而基于HDFS存储的HBase非结构化存储以其列式存储、亿万级别秒级响应等超强性能也已被广泛应用到海量数据业务。

数据存储的可靠性已能得到保证，不过在面临海量超高流量的数据业务时，对于数据的管理却不能仅仅依靠HBase产品的固有特性。对于HBase来说，在存储性能上单表上亿级别并非难事，查询响应速度也是极快。但硬件设备容量毕竟有限，如果将所有数据都入库到HBase一张或几张表中，会造成单表数据量过大。当数据量增大到接近磁盘容量时，就需要清理部分数据，此时如果依赖HBase为表设定的TTL功能，过期的数据将会被标记删除，然后在下一次major compact时进行清理。从数据过期到标记删除到磁盘释放整个周期大概在7-15天时间，可见这种数据清理方式不能保证磁盘的及时释放，时间并不可控。而数据清理如果采用直接删除存储表的方式，磁盘将会在分钟级内被释放；系统运行不够平稳。

发明内容

本发明为海量文件的存储管理提供了切实可行的离线分区管理技术，主要包括海量文件的存储分区技术、文件存储分区的空间配额离线管理技术和文件存储分区的时间配额离线管理技术；具体是一种基于HBase的海量文件离线分区管理方法。

具体步骤如下：

步骤一、用户创建自定义的存储桶，并加载关于桶的分区规则配置；

存储桶包括桶的元数据信息表，桶的元数据信息表包括：桶名，创建日期，空间配额，时间配额，分区规则等，同时也包含存储分区详情表及Region预分区数；

桶的分区规则为day或month或year，分别代表分区规则为按天、按月和按年对桶进行分区；每个桶内都包括若干存储分区表。

步骤二、按照桶的分区规则，给用户即将写入的小文件设定存储分区表的名称；

将文件写入的当前时间进行格式化后，拼写上桶的名称与下划线，组成该小文件预备写入的存储分区表的名称。

步骤三、按照业务需求和HBase数据存储的规则，为用户即将写入的小文件设计指定在存储分区表中的Rowkey；

业务需求和HBase数据存储的规则包括：尽量避免某服务节点发生热点访问，尽量将数据分散到各个服务节点保证写入性能等等。

Rowkey的计算方法为：根据用户写入的文件ID计算文件的hash码，并利用字符串格式化补位至4位16进制数，拼上下划线及文件名称，作为该小文件在存储分区表中的Rowkey；

步骤四、根据用户小文件的当前入库时间和指定的桶的名称，以RowKey作为每个小文件的唯一标示，自动将小文件写入当前时间段下的该桶的存储分区表中。

在离线情况下系统自动创建下一时间段的存储分区表，保证下一时间段的文件写入正常。

步骤五、用户指定该存储逻辑单元-桶的数据存储空间配额和时间配额，系统根据空间配额和时间配额的限定定期对存储分区表的数据进行离线管理；

离线管理包括删除超出空间配额和时间配额的部分储存分区表；

具体包括如下:

首先，用户根据桶的分区规则在当前时间段即将结束下一时间段尚未到来之时，利用桶空间配额的限定对桶的存储分区进行离线管理；

具体步骤为：

步骤501、离线任务从桶的元数据信息中获取该桶的空间配额限制值；

用户在创建桶之初或使用过程中指定桶的空间配额大小，即限制整个存储桶占用的磁盘空间大小，以保证整个系统资源的合理分配。

步骤502、判断桶的空间配额值是否为-1，如果是，离线任务不对桶的存储分区表作任何操作；否则，从桶的元数据信息中获取桶当前所有的存储分区表；

步骤503、将存储分区表按时间由早到晚排序后开始遍历操作；

步骤504、离线任务判断所有存储分区表占用的空间总值是否超过桶的空间配额值，如果是，进入步骤505；否则，停止遍历结束。

步骤505、逐步删除最早的存储分区表的数据释放空间，直到所有存储分区表的空间占用总值小于该桶的空间配额限定值，停止遍历结束。

然后，用户根据桶的分区规则在当前时间段即将结束下一时间段尚未到来之时，利用桶时间配额的限定对桶的存储分区进行离线管理；

具体为：

步骤I、离线任务从桶的元数据信息中获取该桶的时间配额限制值；

用户在创建桶之初或使用过程中指定桶的时间配额大小；

步骤II、判断桶的时间配额值是否为-1，如果是，离线任务不对桶的存储分区表作任何操作；否则，从桶的元数据信息中获取桶当前所有的存储分区表；

步骤III、将存储分区表按时间由早到晚排序后开始遍历操作；

步骤IV、离线任务根据桶的分区规则，计算在桶的时间配额范围内，桶的存储分区表的数量是否超出该时间范围内设定的分区表数量的阈值，如果是，进入步骤V；否则，停止遍历结束。

步骤V、将超出时间范围的较早的存储分区表的数据删除，保留时间配额值的存储分区表；停止遍历结束。

步骤六、同时系统离线预建下一时间段的存储分区表。

离线任务根据桶的分区规则，将当前时间加上了分区时间段，将得到的时间进行格式化；然后将格式化后的时间拼上桶名加下划线作为下一时间段存储分区表的名称，在下一分区时间段到来之前根据Region预分区数创建好存储分区表。

本发明的优点在于：

1)、一种基于HBase的海量文件离线分区管理方法，在HBase进行数据存储的过程中，将逻辑存储单元桶进行按天或月或年等分区，数据将存储在对应时间的存储分区表中。同时可以为存储桶设定空间配额值和时间配额值，通过离线管理的方式对于存储分区表的删除将能够及时释放存储空间保证系统运行平稳资源合理利用。

2)、一种基于HBase的海量文件离线分区管理方法，在大数据海量文件存储领域具有很强的实用性和应用范围，具有很广泛的应用前景。

附图说明

图1为本发明基于HBase的海量文件离线分区管理方法原理图；

图2为本发明的文件分区存储结构示意图及桶元数据信息；

图3为本发明基于HBase的海量文件离线分区管理方法流程图；

图4为本发明离线删除超出空间配额的部分储存分区表流程图；

图5为本发明离线删除超出时间配额的部分储存分区表流程图；

图6为本发明离线创建分区流程图。

具体实施方案

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提供了一种基于HBase的海量文件离线分区管理方法，使用HBase作为海量文件存储分区管理的引擎，使用HDFS作为文件分布式存储的引擎；包含海量文件的存储分区、文件存储分区的空间配额离线管理和时间配额离线管理。

海量文件存储分区是将文件按照桶分区规则写入指定存储分区表中以实现文件的分区存储和管理。文件存储分区的空间配额离线管理，是根据桶空间配额的限定离线管理桶的存储分区。文件存储分区的时间配额离线管理，是根据桶的时间配额的限定离线管理桶的存储分区。

如图1所示，首先用户针对存储逻辑单元-桶指定分区规则，在文件写入时系统将根据文件入库的当前时间和存储桶的分区规则判断文件实际写入的存储分区表。同时用户可以指定该存储逻辑单元-桶的数据存储空间配额和时间配额，系统根据配额的限定对存储分区表的数据进行离线管理，删除超出配额的部分储存分区表以及预建下一时间段的存储分区表。

如图3所示，具体步骤如下：

步骤一、用户创建自定义的存储桶，并指定桶的分区规则配置；

桶作为存储的逻辑单元可以按照指定的分区规则进行分区，在每个分区时间段会有对应的存储分区表用于存储该时间段内的数据。这些存储分区表实际则为HBase中的数据表，数据存储将会以HFile的格式最后合并存储在HDFS对应表名的目录下。

如图2所示，关于桶的元数据信息可以单独建一张元数据信息表，本实施例中桶的元数据信息包含诸多信息，如桶名，创建日期，空间配额，时间配额，分区规则等，同时也包含存储分区详情表及Region预分区数等；在数据写入时只需要将入库桶名给定系统便可以读取配置文件及元数据等信息将数据写入当前时间段存储分区表。

桶的分区规则为day或month或year，分别代表分区规则为按天、按月和按年对桶进行分区；本实施例中默认为按天分区。每个桶内都包括若干存储分区表。

同时需要根据分区时间段内的数据量大小指定HBase分布式存储单元Region的数量作为每个时间段存储分区表的预存储分区数。

写入的文件为图片、文档、音频、视频等小文件。将文件写入的当前时间进行格式化后，拼写上桶的名称与下划线，组成该小文件预备写入的存储分区表的名称。

Rowkey的计算方法为：

文件写入时文件名称将作为文件的ID，在系统内作为文件的唯一标识；根据用户写入的文件ID经过Hash处理生成文件的hash码，并与ID组合利用字符串格式化补位至4位16进制数，拼上下划线及文件名称，作为该小文件在存储时HBase元数据表中的Rowkey；

本实施案例中，计算文件ID字符串的MD5码，并截断该码的前四位，将该前四位与原文件的ID拼接作为该文件在存储分区表中的Rowkey；

步骤四、根据指定的桶的名称，结合小文件的当前入库时间和桶的分区规则，以RowKey作为每个小文件的唯一标示，自动将小文件写入当前时间段下的该桶的存储分区表中。

RowKey的设计是为了应对HBase的存储规则，即数据以RowKey按照字典序排列，在数据写入时应当尽量保证数据的散列，且每一条入库数据以RowKey作为唯一标示，所以RowKey的设计为以文件名的Hash码拼上下划线拼上文件名。实际使用时根据业务情况如常用文件检索、最新文件检索等来设计。

如图4所示，具体包括如下:

具体步骤为：

步骤502、判断桶的空间配额值是否为-1，如果是，表示用户尚未为桶设定空间配额限定，离线任务不对桶的存储分区表作任何操作；否则，从桶的元数据信息中获取桶当前所有的存储分区表；

然后，用户根据桶的分区规则在当前时间段即将结束下一时间段尚未到来之时，根据空间配额限定删除了部分存储分区表后，利用桶时间配额的限定对桶的存储分区进行离线管理；

如图5所示，具体为：

用户在创建桶之初或使用过程中指定桶的时间配额大小，即限制整个桶的生命周期只保留一定时间的数据，该值的单位为桶的分区规则即天、月或年等。

步骤II、判断桶的时间配额值是否为-1，如果是，表示用户未为该桶设定时间配额，离线任务不对桶的存储分区表作任何操作；否则，从桶的元数据信息中获取桶当前所有的存储分区表；

该时间配额范围内的存储分区表的数量，如分区规则为按天分区，时间配额为10，即表示当前时间前10天的分区表将保留，更早的分区表将会被删除。即系统将只保留时间配额值的存储分区表而删除已经过期的存储分区表。

步骤六、同时系统离线预建下一时间段的存储分区表。

如图6所示，首先离线加载关于桶的分区规则配置，离线任务根据桶的分区规则，将当前时间加上了分区时间段，将得到的时间进行格式化；然后将格式化后的时间拼上桶名加下划线作为下一时间段存储分区表的名称，在下一分区时间段到来之前根据Region预分区数创建好存储分区表。

本发明提出了存储逻辑单元-桶以及存储分区表等概念，桶作为数据存储的逻辑单元是数据入库的业务标识，而实际的存储方式为根据文件入库时间和桶分区规则判定的存储分区表。一个时间段的数据将会写入该时间段的存储分区表，超过配额限定后系统会离线删除部分储存分区表及时释放磁盘空间保证系统运行平稳。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种基于HBase的海量文件离线分区管理方法，其特征在于，具体步骤如下：

将文件写入的当前时间进行格式化后，拼写上桶的名称与下划线，组成该小文件预备写入的存储分区表的名称；

步骤四、根据用户小文件的当前入库时间和指定的桶的名称，以RowKey作为每个小文件的唯一标示，自动将小文件写入当前时间段下的该桶的存储分区表中；

在离线情况下系统自动创建下一时间段的存储分区表，保证下一时间段的文件写入正常；

离线管理包括删除超出空间配额和时间配额的部分储存分区表；用户根据桶的分区规则在当前时间段即将结束下一时间段尚未到来之时，利用桶空间配额或者时间配额的限定对桶的存储分区分别进行离线管理；

步骤六、同时系统离线预建下一时间段的存储分区表；

2.如权利要求1所述的一种基于HBase的海量文件离线分区管理方法，其特征在于，步骤一中所述的存储桶包括桶的元数据信息表，桶的元数据信息表包括：桶名，创建日期，空间配额，时间配额以及分区规则，同时也包含存储分区详情表及Region预分区数；

3.如权利要求1所述的一种基于HBase的海量文件离线分区管理方法，其特征在于，步骤三中所述的业务需求和HBase数据存储的规则包括：尽量避免某服务节点发生热点访问，尽量将数据分散到各个服务节点保证写入性能；

Rowkey的计算方法为：根据用户写入的文件ID计算文件的hash码，并利用字符串格式化补位至4位16进制数，拼上下划线及文件名称，作为该小文件在存储分区表中的Rowkey。

4.如权利要求1所述的一种基于HBase的海量文件离线分区管理方法，其特征在于，步骤五中所述的利用桶空间配额的限定对桶的存储分区进行离线管理，具体步骤为：

用户在创建桶之初或使用过程中指定桶的空间配额大小，即限制整个存储桶占用的磁盘空间大小，以保证整个系统资源的合理分配；

步骤504、离线任务判断所有存储分区表占用的空间总值是否超过桶的空间配额值，如果是，进入步骤505；否则，停止遍历结束；

5.如权利要求1所述的一种基于HBase的海量文件离线分区管理方法，其特征在于，步骤五中所述的利用桶时间配额的限定对桶的存储分区进行离线管理，具体为：

用户在创建桶之初或使用过程中指定桶的时间配额大小；

步骤IV、离线任务根据桶的分区规则，计算在桶的时间配额范围内，桶的存储分区表的数量是否超出该时间范围内设定的分区表数量的阈值，如果是，进入步骤V；否则，停止遍历结束；