CN111459945A

CN111459945A - 一种基于HBase的分层式索引查询方法

Info

Publication number: CN111459945A
Application number: CN202010266077.9A
Authority: CN
Inventors: 王海荣
Original assignee: Zhongke Shuguang Nanjing Computing Technology Co ltd
Current assignee: Zhongke Shuguang Nanjing Computing Technology Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-07-28
Anticipated expiration: 2040-04-07
Also published as: CN111459945B

Abstract

本发明公开了一种基于HBase的分层式索引查询方法，该方法建立了分层式索引模型，所述分层式索引模型包含基于HBase建立的持久性索引层、基于Redis建立的分布式热点索引缓存层。所述持久性索引层用于为非主键属性建立索引，并将索引信息保存在HBase中，借助HBase获得良好的可扩展性和容错性；所述热点索引缓存层基于Redis在内存中存储热点索引，降低磁盘访问开销，进一步提高查询效率。

Description

一种基于HBase的分层式索引查询方法

技术领域

本发明涉及一种索引查询方法，尤其涉及一种基于HBase的分层式索引查询方法。

背景技术

随着云计算、物联网、社交网络等技术的发展，数据快速积累，大数据时代已经到来。数据量的快速增长，传统的数据处理、存储和分析技术存在查询效率低，数据维护困难等问题。例如，根据eMarketer(市场研究公司)的研究数据显示，新浪微博2018年拥有3.41亿用户，同比增长17％，微博每天新增25亿条分享内容，32亿条评论，使用传统关系型数据表已经难以支撑大数据背景下的业务需求。

为解决关系型数据库难以存储、查询大数据的问题，非关系型分布式存储系统应运而生，例如，Apache社区的顶级项目HBase，Facebook的Cassandra系统以及高效内存数据存储系统Redis等等。在这些非关系型存储系统中，HBase的应用最为广泛。HBase(HadoopDatabase)底层使用类B+树索引结构，在HBase中检索数据通常有2种方式：基于行键查询、扫描。基于行键查询又分为2种情况：基于单个行键查询和基于一定范围的行键查询。由于底层采用了类B+树的索引结构，HBase基于行键查询数据效率非常高效，时间复杂度可以达到O(logN)；如果使用布隆过滤器(Bloom filter)，时间复杂度甚至可以达到O(1)。但是，HBase在面对复杂非主键查询条件时，必须使用扫描操作，扫描操作需要对全表数据进行扫描，这导致HBase在面对非主键查询时效率较低。大数据背景下，各个行业应用的数据规模可以达到亿级以上，如果每次非主键查询都需要对全表进行扫描，延时过高，无法满足各个行业应用的需求。

发明内容

发明目的：本发明提出一种可实现非主键快速查询的分层式索引查询方法。

技术方案：本发明所述的基于HBase的分层式索引查询方法，包括步骤：

(1)建立分层式索引模型；

(2)采用一致性哈希算法对分层式索引模型中的所有索引热点数据进行查询。

进一步地，所述步骤(1)具体包括：

(11)基于HBase建立持久化索引层；

(12)基于Redis服务器建立分布式热点索引缓存层。

进一步地，步骤(11)中，所述持久化索引层包括目录表、文件表，所述目录表用于存储管理文件表中的索引信息；所述文件表用于存储数据。

进一步地，所述文件表的主键行键设计为目录表中的序号ID与文件名的组合，所述序号ID用于文件的查找和过滤。

进一步地，所述步骤(12)中，所述分布式热点索引缓存层用于存储目录表中热点索引数据，为文件表中非主键字段建立索引信息。

进一步地，所述步骤(2)包括：

(21)对数据进行一致性哈希，找到数据索引信息所在的存储节点；

(22)利用哈希机制，找到存储节点内的索引数据地址。

有益效果：本发明通过在HBase上搭建持久化索引层，在Redis服务器上搭建基于内存的热点索引缓存层，为持久索引存储层的非主键建立索引并将热点数据缓存在内存中，提高了比标准HBase更优的查询效率。

附图说明

图1是本发明所述方法总体流程示意图；

图2是本发明所述分层式索引模型示意图；

图3是本发明非主键查询流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1所示，本发明所述的基于HBase的分层式索引查询方法，包括步骤：

1)基于HBase建立持久化索引层

在Hbase中建立2个表：目录表，文件表。其中文件表用来真正存储数据，而目录表用来存储管理文件表中的索引信息。然后分别为文件表、目录表设计表的Rowkey使其支持起始文件检索、文件前缀匹配等复杂检索。

2)目录表Rowkey的设计

传统关系型数据库通常会使用id作为索引查询数据，与关系型数据库不同，HBase基于主键(Rowkey)查询数据，且由于底层采用类B+树索引结构，基于Rowkey的查询效率非常高效。因此，合理的Rowkey设计变得至关重要。第一种方案考虑使用文件id作为Rowkey，此时会面临2个问题：1)用户如何知道文件id；2)如果用户只知道文件名字，检索该文件需要对整个HBase进行扫描操作，无法满足快速读取的要求。第二种方案使用文件名作为Rowkey，把文件数据作为列族，这种方案同样存在一个问题：不同的文件夹下可能会存在相同的文件名，违背了Rowkey的唯一性原则。第三种方案使用文件的全路径作为Rowkey，这种方案基本可以要求。

目录表是持久化索引存储层的核心，通过对目录表Rowkey进行合理的设计，使其能够提高复杂检索的响应速度。对于目录表，定义如下格式的结构：

<文件路径：sub:子目录：t:<value>>

<文件路径：cf:creator：t:<value>>

<文件路径：cf:seqid：t:<value>>

将目录表的Rowkey设置为文件的路径，并创建2个列族：sub、cf，如表1所示。其中，sub列族下存储的是当前目录下所有的子文件夹，例如，sub:dir2＝1，sub:dir3＝1，这表示在dir1下有2个子文件夹；cf列族下存储的是当前文件的一些基础属性，它有2列：creator、seqid。其中，creator列是文件的创建者的相关信息，而seqid列是一个重要的标识，它将和文件名组合起来作为数据表的Rowkey。用户可以根据目录的绝对路径来找到一条记录，然后根据其下的sub列族找到这个目录下的所有子目录。

表1目录表结构

3)文件表Rowkey的设计

文件表在HBase中真正存储数据文件，对于文件表，定义如下格式的结构：

<seqid_文件名：c:content：t:<value>>

<seqid_文件名：cf:creator：t:<value>>

<seqid_文件名：cf:size：t:<value>>

<seqid_文件名：cf:type：t:<value>>

目录表中的seqid与文件名组合起来作为文件表的Rowkey，并创建2个列族：c、cf，如表2所示。其中，c列族下的content列存储了文件的内容；cf列族下存储的是当前文件的一些基础属性，它有3列：filename、size、type。其中，文件名称的相关信息存储在filename列，文件大小存储在size列，文件类型存储type列。文件表的设计以seqid与文件名的组合做为Rowkey。通过seqid实现文件的查找和过滤，如果想查找某个文件，只需要获取到父目录的seqid，然后拼接成文件的Rowkey就可以随机的读取。另外，HBase本身支持字典排序，在加了seqid后，文件名依然有序，可以通过起止文件名对文件进行过滤操作。另外，文件表中文件名的选取是依据存储数据的不同而选取。

表2文件表结构

4)基于Redis建立分布式热点索引缓存层

如图2所示，为降低查询数据时磁盘开销并增加HOS非主键查询能力，引入基于Redis的分布式热点索引缓存层，为文件表中关键字段建立索引信息和存储目录表中热点索引数据。如图3所示，对于非主键查询，基于Redis建立索引信息，存储结构为key-value模式，如表3。其中，key为非主键字段的列名，value为Rowkey。在查询数据时，客户端从Redis上查询到非主键字段对应的Rowkey，然后基于Rowkey在HBase中快速查到数据。内存索引构建的基本思路类似于倒排索引，内存索引缓存层中的每个索引主键对应着一个具有相同索引列值的索引记录集合，该集合包含了与该索引值对应的所有索引表数据记录，与基于Hbase的持久化索引存储层一样，集合中也包含了可能需要访问的其他非主键属性。

表3非主键索引结构

key	Value
		Filename1	Rowkey1
Filename2	Rowkey2
		Filename3	Rowkey3

热点数据的索引主键做为key，而索引集合作为Redis Set的value保存在内存缓存中。引入一致性哈希算法来完成索引热点数据在分布式内存中的存储管理。一致性哈希为内存索引缓存层提供了良好的可扩展性，当索引缓存层的内存使用率偏高时，通过加入新的节点即能够实现索引缓存层容量的动态增加。一致性哈希通过将数据hash到不同的存储节点上，从而保证了各个存储节点的平衡。当需要查询数据的索引信息时，在分层式索引模型中，通过2个步骤找到数据的索引信息：a.对数据进行一致性哈希，找到数据索引信息所在的存储节点；b.在Redis节点内通过哈希机制找到索引数据地址。

Claims

1.一种基于HBase的分层式索引查询方法，其特征在于，包括步骤：

(1)建立分层式索引模型；

2.根据权利要求1所述的基于HBase的分层式索引查询方法，其特征在于，所述步骤(1)具体包括：

(11)基于HBase建立持久化索引层；

(12)基于Redis服务器建立分布式热点索引缓存层。

3.根据权利要求2所述的基于HBase的分层式索引查询方法，其特征在于：步骤(11)中，所述持久化索引层包括目录表、文件表，所述目录表用于存储管理文件表中的索引信息；所述文件表用于存储数据。

4.根据权利要求3所述的基于HBase的分层式索引查询方法，其特征在于：所述文件表的主键行键设计为目录表中的序号ID与文件名的组合，所述序号ID用于文件的查找和过滤。

5.根据权利要求2所述的基于HBase的分层式索引查询方法，其特征在于，所述步骤(12)中，所述分布式热点索引缓存层用于存储目录表中热点索引数据，为文件表中非主键字段建立索引信息。

6.根据权利要求1所述的基于HBase的分层式索引查询方法，其特征在于，所述步骤(2)包括：

(22)利用哈希机制，找到存储节点内的索引数据地址。