CN109726177A

CN109726177A - 一种基于HBase的海量文件分区索引方法

Info

Publication number: CN109726177A
Application number: CN201811635130.7A
Authority: CN
Inventors: 李斌斌; 孟宪文; 王振宇
Original assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd
Current assignee: BEIJING SCISTOR TECHNOLOGY Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-07

Abstract

本发明公开了一种基于HBase的海量文件分区索引方法，属于计算机领域。加载配置文件，对存储系统HBase按照配置规则进行配置；对写入的某个小文件提取元数据；根据各个元数据，分别计算该文件需要写入的桶的分区；拼接出唯一Hash码作为该小文件的Rowkey，若该Rowkey存在于分区索引表，将元数据中记录的版本编号加1，并删除老版本元数据；若不存在则当该小文件的内容需要实时合并时，将该文件的内容追加到实时文件合并窗口中，等待文件进行实时合并。将所有小文件进行存储，读取每个小文件的元数据表，并进行更新，利用文件分区索引进行读取和删除。本发明减小海量文件元数据压力，提高文件的读取删除速度，方便文件进行分区管理，具有很广泛的应用前景。

Description

一种基于HBase的海量文件分区索引方法

技术领域

本发明属于计算机领域，具体是一种基于HBase的海量文件分区索引方法。

背景技术

当今互联网，数据呈现爆炸式增长，社交网络、移动通信、网络视频以及电子商务等各种应用往往能产生亿级甚至十亿、百亿级的海量小文件。对元数据管理、访问性能以及存储效率等方面都带来了巨大的挑战，海量小文件问题成为了业界公认的难题。因此提出一种高效的海量文件存储、读取和删除的技术成为亟待解决的问题。

HDFS作为文件存储系统，在性能和扩展性上都具有良好的表现，但有海量文件时文件元数据过多，NameNode内存成为瓶颈；而且文件过小，寻道时间大于数据读写时间，这不符合HDFS的设计。HBase是一种构建在HDFS之上的分布式、面向列的存储系统，在实时读写、随机访问超大规模数据集时具有良好的性能。

发明内容

本发明针对上述问题，提出了一种基于HBase的海量文件分区索引方法，通过海量文件分区索引，为海量文件的存储提供高效切实可行的存储管理与读取删除的效率。

具体步骤如下：

步骤一、加载用户指定的配置文件，同时对存储系统HBase按照配置规则进行配置；

具体配置规则包括：文件加载的分区规则，是指按照以月、天及小时为时间粒度进行分区；

小文件合并规则，包括离线合并或实时合并；离线合并包括合并执行周期及合并文件；实时合并是指合并窗口；

步骤二、针对用户写入的某个小文件，提取该文件的ID、文件标题、文件类型、文件大小、创建时间、分区索引、位置索引、删除标识以及版本编号作为元数据；

步骤三、根据小文件的创建时间，计算该文件需要写入的桶的分区；

步骤四、根据小文件的ID利用文件索引生成算法，拼接出唯一Hash码作为该小文件的Rowkey，并存入该文件要写入的桶的分区索引表中。

Rowkey展开的内容即为提取的元数据；

文件索引生成算法计算公式为：

hashcode(文件ID)％(region数)+“_”+文件ID

步骤五、判断该Rowkey在分区索引表中是否存在，如果是，将元数据中记录的版本编号加1，并删除老版本的文件元数据；否则，进入步骤六；

元数据中版本编号初始值为1；

步骤六、判断该小文件的内容是否需要实时合并，如果是，将该文件的内容追加到实时文件合并窗口中，等待文件进行实时合并；否则，将文件内容直接存入步骤三计算的桶分区中，并以Rowkey作为文件名称；

步骤七、同时，将文件标题、文件类型、文件大小、分区索引、位置索引、删除标识以及版本编号一起存储到元数据表中；待下一个小文件写入时跳转到步骤二进行循环。

步骤八、针对某时刻，将用户写入后的所有小文件进行存储，读取每个小文件的元数据表，根据各文件大小和文件版本编号对每个小文件进行管理，并更新文件的元数据表。

具体步骤为：

步骤801、对读取文件存储管理和读取合并文件进行相关配置；

配置具体包括：定期管理的相关配置，定期启动的cron表达式；小文件合并的相关配置，文件合并窗口大小及合并后文件大小的配置；

步骤802、确定文件的合并方式是小文件离线合并还是小文件实时合并，小文件离线时进入步骤803；否则，小文件实时合并时进入步骤804；

小文件合并是指：将同一分区的所有小文件合并，并记录每个小文件的位置索引，将文件位置索引更新到文件分区索引表中，并删除旧的索引对应的元数据。

步骤803、针对小文件离线合并，根据用户配置的小文件大小上限，检索每个小文件的元数据，并放到小文件合并处理池中进行处理，进入步骤805。

具体步骤为：

首先，针对同一分区，定时读取每个小文件的元数据信息，并根据每个小文件的大小，对不超过上限的所有小文件进行合并，超过上限的小文件为大文件，不予处理。

然后，记录并更新合并后的文件元数据信息，并对合并前的元数据置删除标识；

步骤804、针对小文件实时合并，采用滑动窗口合并方式，将记录文件的文件分区索引和位置索引存储到分区索引表中。

具体步骤为：

首先，判断滑动窗口内待合并的小文件数量是否达到设定的阈值A，如果是，则进一步判断时间，否则，继续等待小文件的到来；

进一步判断时间是指：此次的滑动窗口距离上次合并的时间是否达到设定的阈值B，如果是，则将达到设定的阈值A的所有小文件进行合并，并更新合并后的文件元数据信息，同时记录各个小文件的位置索引和分区索引存储到分区索引表中。

步骤805、根据各文件分区索引的元数据信息，查看各文件是否有删除标识，如果有，查看被合并的小文件的占用状态进一步决定删除方式，否则，直接进入下一个文件删除循环。

根据占用状态进一步决定删除方式，具体步骤为：

查看文件检索已被合并的小文件是否处于占用状态，如果是，等待释放后，启动文件删除服务进行删除；否则，将已合并的小文件直接启动文件删除服务进行删除。

针对小文件删除，检索出分区索引表的旧版本的文件元数据，将其及对应的分区的文件内容进行实时或离线删除。

步骤九、对更新了元数据表的各存储文件，利用文件分区索引进行读取和删除；

读取过程是：根据传入文件的ID计算分区索引表中的Rowkey，并根据Rowkey获取文件的分区索引或位置索引，然后确定文件所在的逻辑分区，读取文件内容；

删除过程是：根据传入的需要删除的文件ID生成分区索引表中的Rowkey，根据Rowkey对文件分区索引元数据置删除标识。

本发明的优点在于：一种基于HBase的海量文件分区索引方法，通过建立文件分区索引能够减小海量文件元数据压力，提高文件的读取删除速度，方便文件进行分区管理，在大数据海量文件存储领域具有很强的实用性和应用范围，具有很广泛的应用前景。

附图说明

图1是本发明一种基于HBase的海量文件分区索引方法的原理图；

图2是本发明一种基于HBase的海量文件分区索引方法流程图；

图3是本发明文件分区索引的具体构成和文件存储的示意图；

图4是本发明文件存储管理流程图；

图5是本发明文件读取流程图；

图6是本发明文件删除流程图。

具体实施方案

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明一种基于HBase的海量文件分区索引方法，如图1所示，包括了分区索引生成技术、文件数据存储管理技术与按照索引进行文件读取/删除技术。通过用HBase作为文件分区索引元数据的存储引擎，使用HDFS作为文件内容的存储引擎。

文件分区索引的具体构成和文件存储的示意图如图3所示，采用HBase作为文件元数据及文件分区索引的存储，提高文件的读取和删除效率，并便于文件的分区管理；同时将文件数据存储到HDFS，利用文件存储管理服务对文件进行管理，合并过小文件，并生成小文件的索引存储到HBase索引表中，减小HDFS的文件元数据压力。

写入文件时用户根据指定的分区规则，结合写入的文件ID或写入时间计算出文件所属的分区，将文件存入相应的分区，并生成唯一的分区索引；读取文件时根据用户根据文件分区索引读取文件；在删除文件时，对文件分区索引进行标记，然后文件数据存储管理技术进行离线的文件删除。使用该技术写入海量文件时保证了文件的唯一性，对文件具有快速去重效果；读取文件时根据索引能够快速定位文件，提高了文件的读取效率；同时该技术便于离线删除文件，大大提高了文件删除速度。

第一部分文件分区索引生成技术，主要实现了写入文件的过程中分区索引的生成。将文件存储到指定的桶中，桶又可以按时间进行分区。写入的文件可以被存储到HDFS的不同的分区中，分区方式可以按文件写入时间进行分区，默认可以配置为以天为分区单位。文件写入时，需指定文件ID，文件ID作为文件在系统的中的唯一标识。通过文件写入时间，确定文件需要写入的分区，生成文件的分区索引。将文件的ID经过Hash处理生成Hash码与ID组合作为该桶元数据HBase表中的Rowkey。同时将文件的分区索引，文件标题、大小、类型等信息存储到文件分区索引元数据表中，文件内容直接存储到桶相应分区的HDFS中。如果文件的ID已经存在，则分区索引及文件元数据信息的记录的版本号会自动更新。如果文件内容和历史版本的文件内容在一个分区中，版本号也会自动更新，如果不在同一分区则直接进行插入。

第二部分文件存储管理技术，实现了对存储的文件内容进行管理。首先读取文件分区索引元数据表，根据文件大小和文件分区索引版本对文件进行管理，并更新文件分区索引元数据表。用户配置小文件大小上限，文件存储管理服务检索出小文件的分区索引元数据，将小文件的分区索引元数据放到小文件合并处理池中进行处理。检索已被合并的小文件占用状态，当文件处于未占用状态时，将已合并的小文件删除。文件存储服务中的小文件合并也支持实时合并，文件实时合并采用滑动窗口合并方式，并将记录文件的文件分区位置索引存储到分区索引表中。文件存储管理服务还会对文件的版本进行管理，检索出分区索引表的旧的版本的文件元数据，将其及对应的分区的文件内容进行删除，实现同一ID文件版本的唯一性。同时，文件存储管理服务会离线删除被标记删除的文件，释放存储空间。

第三部分文件的读取及删除部分，利用文件分区索引对文件进行读取和删除。用户传入文件ID对文件进行下载读取或删除，用户也可以批量传入文件ID进行批量操作。读取服务根据传入的文件ID生成分区索引表中的Rowkey，根据Rowkey获取文件的分区索引或分区位置索引，然后根据分区索引确定文件所在的逻辑分区，读取文件内容；如果为小文件则读取的为逻辑文件，再根据分区位置索引和文件大小获取文件内容。删除服务根据传入的需要删除的文件ID生成分区索引表中的Rowkey，根据Rowkey对文件分区索引元数据置删除标识。

如图2所示，具体步骤如下：

具体配置包括：文件加载的分区规则，可以指定按照以月、天及小时为时间粒度进行分区；小文件合并规则，可以指定为离线合并，离线合并的执行周期及合并后文件的大小，或指定为实时合并，实时合并的窗口大小；

文件版本编号默认为1；

文件分区索引存储到HBase中，其中桶为文件分区索引和文件内容存储的逻辑容器，桶又可以按天进行逻辑分区。

步骤四、根据小文件的ID利用文件索引生成算法，计算出文件在索引表中的唯一Hash码，将该Hash码作为该文件在桶的分区索引表中的Rowkey；

Rowkey展开的内容即为提取的元数据；

文件索引生成算法计算公式为：

hashcode(文件ID)％(region数)+“_”+文件ID；

本实施例中，计算文件ID字符串的MD5码，并截断该码的前四位，将该前四位与原文件的ID拼接作为该文件在桶的分区索引表中的Rowkey；

如图3所示，桶1的分区索引元数据表存储到HBase中，一个文件的分区索引元数据对应HBase表中的一个Rowkey，文件元数据分别存储到Rowkey对应的列中，因为HBase的列具有良好的扩展性，所以方便后续对文件属性的添加。本实施例记录了文件ID、文件类型、文件标题、文件大小、创建时间、文件分区索引、文件位置索引、文件版本编号及文件删除标识。其中，文件分区索引指向了文件内容存储到HDFS中的逻辑分区位置，文件位置索引记录了该文件内容在文件索引所指文件的位置。

步骤五、判断该文件的Rowkey在分区索引表中是否存在，如果是，将元数据中记录的版本编号加1更新，并对老版本的文件元数据进行删除标识；否则，进入步骤六；

步骤六、判断该小文件的内容是否进行实时文件合并，如果是，将该文件的内容追加到实时文件合并窗口中，等待文件进行实时合并；否则，文件内容直接存入步骤三计算的HDFS的桶分区中，并以Rowkey作为文件名称；

如图4所示，具体的存储管理步骤为：

配置具体包括：定期管理的相关配置，定期启动的cron表达式；小文件合并的相关配置，文件合并窗口大小及合并后文件大小配置；如文件滑动窗口的超时时间、文件离线合并的周期、文件删除管理的周期等；

具体步骤为：

根据占用状态进一步决定删除方式，具体步骤为：

如图5所示，读取过程是：根据传入文件的ID计算分区索引表中的Rowkey，并根据Rowkey获取文件的分区索引或位置索引，然后确定文件所在的逻辑分区，读取文件内容；

如图6所示，删除过程是：根据传入的需要删除的文件ID生成分区索引表中的Rowkey，根据Rowkey获取文件分区索引元数据，更新文件分区索引，置元数据删除标识。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种基于HBase的海量文件分区索引方法，其特征在于，具体步骤如下：

步骤四、根据小文件的ID利用文件索引生成算法，拼接出唯一Hash码作为该小文件的Rowkey，并存入该文件要写入的桶的分区索引表中；

Rowkey展开的内容即为提取的元数据；

文件索引生成算法计算公式为：

hashcode(文件ID)％(region数)+“_”+文件ID

元数据中版本编号初始值为1；

步骤七、同时，将文件标题、文件类型、文件大小、分区索引、位置索引、删除标识以及版本编号一起存储到元数据表中；待下一个小文件写入时跳转到步骤二进行循环；

步骤八、针对某时刻，将用户写入后的所有小文件进行存储，读取每个小文件的元数据表，根据各文件大小和文件版本编号对每个小文件进行管理，并更新文件的元数据表；

具体步骤为：

小文件合并是指：将同一分区的所有小文件合并，并记录每个小文件的位置索引，将文件位置索引更新到文件分区索引表中，并删除旧的索引对应的元数据；

步骤803、针对小文件离线合并，根据用户配置的小文件大小上限，检索每个小文件的元数据，并放到小文件合并处理池中进行处理，进入步骤805；

步骤804、针对小文件实时合并，采用滑动窗口合并方式，将记录文件的文件分区索引和位置索引存储到分区索引表中；

步骤805、根据各文件分区索引的元数据信息，查看各文件是否有删除标识，如果有，查看被合并的小文件的占用状态进一步决定删除方式，否则，直接进入下一个文件删除循环；

步骤九、对更新了元数据表的各存储文件，利用文件分区索引进行读取和删除。

2.如权利要求1所述的一种基于HBase的海量文件分区索引方法，其特征在于，步骤一所述的配置规则包括：文件加载的分区规则，是指按照以月、天及小时为时间粒度进行分区；小文件合并规则，包括离线合并或实时合并；离线合并包括合并执行周期及合并文件；实时合并是指合并窗口。

3.如权利要求1所述的一种基于HBase的海量文件分区索引方法，其特征在于，步骤801中所述的配置具体包括：定期管理的相关配置，定期启动的cron表达式；小文件合并的相关配置，文件合并窗口大小及合并后文件大小的配置。

4.如权利要求1所述的一种基于HBase的海量文件分区索引方法，其特征在于，所述的步骤803具体为：

具体步骤为：

然后，记录并更新合并后的文件元数据信息，并对合并前的元数据置删除标识。

5.如权利要求1所述的一种基于HBase的海量文件分区索引方法，其特征在于，所述的步骤804具体为：

6.如权利要求1所述的一种基于HBase的海量文件分区索引方法，其特征在于，步骤805中所述的根据占用状态进一步决定删除方式，具体步骤为：

查看文件检索已被合并的小文件是否处于占用状态，如果是，等带释放后，启动文件删除服务进行删除；否则，将已合并的小文件直接启动文件删除服务进行删除；

7.如权利要求1所述的一种基于HBase的海量文件分区索引方法，其特征在于，步骤九中所述的读取过程是：根据传入文件的ID计算分区索引表中的Rowkey，并根据Rowkey获取文件的分区索引或位置索引，然后确定文件所在的逻辑分区，读取文件内容；