CN112395318B

CN112395318B - 一种基于HBase+Redis的分布式存储中间件

Info

Publication number: CN112395318B
Application number: CN202011333445.3A
Authority: CN
Inventors: 郭昆; 王钦泽; 郭文忠; 陈羽中; 许玲玲; 魏明洋
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2022-10-04
Anticipated expiration: 2040-11-24
Also published as: CN112395318A

Abstract

本发明涉及一种基于HBase+Redis的分布式存储中间件，以HBase集群和Redis作为底层框架，包括存储模块和查询模块，所述存储模块包括负载均衡组件、数据缓存组件和数据同步组件；所述负载均衡组件实现HBase Region和RegionServer的负载均衡，以提高HBase的读写性能；所述数据缓存组件实现基于时间平滑方法计算的热值缓存淘汰策略，以提高缓存命中率；所述数据同步组件实现基于协处理器的HBase和Redis的数据同步，以避免脏数据的产生。该分布式存储中间件有利于提高数据读写速率。

Description

一种基于HBase+Redis的分布式存储中间件

技术领域

本发明属于数据库技术领域，具体涉及一种基于HBase+Redis提高数据读写速率的分布式存储中间件。

背景技术

随着互联网的发展和大数据时代的到来，传统的数据存储、数据处理技术难以适应数据爆炸式的增长，非关系型数据库应运而生。HBase作为NoSQL数据库的典型代表，已被广泛应用于各行各业的数据存储与管理中。在HBase的发展过程中，HBase的负载均衡问题也开始显现。例如，在HBase分布式数据库环境中，由于分布式数据库中节点性能上的差异以及已存储数据量不同和数据库访问请求量不同，经常会出现以下情况：在某一个时刻，分布式数据库中某些节点的访问频率很高，节点负载很重，而另一些节点的访问频率很低，节点负载很低，导致了分布式数据库中节点负载不均衡的情况。负载不均衡就会影响HBase数据读写的性能，所以，需要通过一定的负载均衡策略，来均衡分布式数据库中各个节点的负载，使各个节点的负载达到均衡分配的状态，从而提高数据的读写性能。HBase作为分布式数据库，将数据存储在磁盘上，每次都需要从磁盘读取数据，影响数据读性能。

目前，在HBase上提高读写速度的负载均衡方案有基于子表限制的负载均衡方案，基于热点访问的负载均衡改进算法。在HBase增加数据缓存的方案有基于内存进行缓存的方案、使用原生Redis作为缓存的方案。基于子表限制的负载均衡方案，增加了对表的限制，只能在某些场景下提高系统性能，具有一定局限性；基于热点访问的负载均衡改进算法，在数据写入时需要计算每个Region的负载，再将数据写入Region中，这会影响数据的写性能。基于内存进行缓存的方案，可以提高数据的读性能，但是局限于内存的大小，无法适用于大规模的数据；基于原生Redis进行缓存的方案，使用LRU算法作为缓存淘汰策略，对于周期性、偶发性的批量查询的命中率很低。

发明内容

本发明的目的在于提供一种基于HBase+Redis的分布式存储中间件，该分布式存储中间件有利于提高数据读写速率。

为实现上述目的，本发明采用的技术方案是：一种基于HBase+Redis的分布式存储中间件，以HBase集群和Redis作为底层框架，包括存储模块和查询模块，所述存储模块包括负载均衡组件、数据缓存组件和数据同步组件；所述负载均衡组件实现HBase Region和RegionServer的负载均衡，以提高HBase的读写性能；所述数据缓存组件实现基于时间平滑方法计算的热值缓存淘汰策略，以提高缓存命中率；所述数据同步组件实现基于协处理器的HBase和Redis的数据同步，以避免脏数据的产生。

进一步地，所述负载均衡组件包括Region级别以及RegionServer级别的两种负载均衡策略。

进一步地，所述Region级别的负载均衡策略，根据预分区和带虚拟节点的一致性哈希算法，避免数据写热点，即对HBase进行预分区，获取Region个数，将Region个数作为节点，采用带虚拟节点的一致性哈希算法获取数据存储Rowkey的Startkey。

进一步地，获取Region个数，包括以下步骤：

步骤a1：确定集群的预分区个数，单个节点的预分区个数的计算公式如下：

其中，M表示RegionServer的内存大小；F表示RegionServer分给memstore的比例；S表示memstore的大小；A为表中列族的个数；

步骤a2：确定集群的节点个数，集群总的预分区个数的计算公式如下：

R＝P*N (2)

其中，R表示集群预分区的总个数，P表示每个节点的预分区个数，N表示集群中节点的个数。

进一步地，带虚拟节点的一致性哈希算法采用SHA_1算法。

进一步地，所述RegionServer级别的负载均衡策略，使用贪心算法对RegionServer中的Region进行调换，包括如下步骤：

步骤b1：输入RegionServer集合、负载均衡最大执行次数N，计算节点数n；

步骤b2：获取每个RegionServer中每个Region的请求数，统计节点的请求数作为负载load_i，i<n，统计最大负载load_max、最小负载load_min、集群的总负载load_sum和平均负载load_avg；

步骤b3：根据平均负载load_avg计算节点负载的理想上界load_Lmax和下界load_Lmin；

步骤b4：设置i＝1，使用最小最大优先级队列定义超负载队列overload_queue和低负载队列underload_queue；

步骤b5：如果i<＝n，转步骤b6，否则转步骤b11；

步骤b6：如果load_i>load_Lmax，转步骤b7，否则转步骤b8；

步骤b7：将第i个节点加入超负载队列；

步骤b8：如果load_i<load_Lmin，转步骤b9，否则转步骤b10；

步骤b9：将第i个节点加入低负载队列；

步骤b10：i＝i+1，转步骤b5；

步骤b11：设置I＝1，计算当前负载均衡指标current_T＝load_max/load_avg；

步骤b12：如果i<＝N，转步骤b13，否则结束；

步骤b13：搜索可交换Region，从overload_queue中取出最大负载节点为Nmax及负载最大的可交换Region为Rmax，从underload_queue取出最小负载节点为Nmin及负载最小的可交换Region为Rmin；

步骤b14：计算负载load_Nmax和load_Rmax，load_Nmin和load_Rmin；

h＝load_Rmax–load_Rmin

步骤b15：如果Load_Rmax>load_Rmin且load_Nmax-h>load_Lmin且load_Nmin+h<load_Lmax，转步骤b16，否则转步骤b19；

步骤b16：交换Rmax和Rmin的位置，同时更新load_Nmax、load_Nmin、overload_queue、underload_queue，计算当前负载均衡指标new_T；

步骤b17：如果new_T>current_T，转步骤b18，否则转步骤b20；

步骤b18：恢复交换，交换Rmax和Rmin的位置，同时更新load_Nmax、load_Nmin、overload_queue、underload_queue；

步骤b19：i＝i+1，转步骤b12；

步骤b20：current_T＝new_T，转步骤b19。

进一步地，所述数据缓存组件通过对数据访问频率，更新频率进行时间平滑法设计缓存淘汰算法。

进一步地，所述缓存淘汰算法包括以下步骤：

步骤c1：数据写入时，判断Redis是否达到指定阈值，若是，转步骤c2，否则，转步骤c3；

步骤c2：按照热度值计算公式，淘汰值最小的100个数据；所述热度值计算公式为：

步骤c3：将数据写入Redis。

进一步地，所述数据同步组件，在数据写入HBase时，根据ObserverCoprocessor同时写入Redis，包括以下步骤：

步骤d1：客户端发出put请求；

步骤d2：该请求被分派给合适的Region；

步骤d3：协处理器拦截put请求，解析put对象，获取数据，并写入Redis。

进一步地，所述查询模块支持批量查询，即在数据查询时，查询模块批量读取查询条件，根据查询条件，先查询Redis，命中则Redis访问次数加1，未命中再查询HBase获取数据，同时将数据写进Redis中。

与现有技术相比，本发明具有以下有益效果：提供了一种基于HBase+Redis的分布式存储中间件，通过设计的负载均衡组件使系统具备良好的数据读写性能，通过设计的数据缓存组件使系统具备良好的缓存命中率，通过设计的数据同步组件保证了HBase和Redis的数据同步，避免脏数据的产生，从而提高了数据批量写入和查询性能。

附图说明

图1是本发明实施例的原理框图。

图2是本发明实施例中存储模块的工作流程图。

图3是本发明实施例中查询模块的工作流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供了一种基于HBase+Redis的分布式存储中间件，其以HBase集群和Redis作为底层框架，所述HBase集群用于底层数据的持久化存储，但由于HBase将数据存储在磁盘中，对数据的访问需要涉及多次的磁盘访问，会造成数据读取效率低下，因此所述Redis用于热点数据缓存。

如图1所示，所述分布式存储中间件包括用于实现存储机制的存储模块和查询模块，所述存储模块包括负载均衡组件、数据缓存组件和数据同步组件；所述负载均衡组件实现HBase Region和RegionServer的负载均衡，以提高HBase的读写性能；所述数据缓存组件实现基于时间平滑方法计算的热值缓存淘汰策略，以提高缓存命中率；所述数据同步组件实现基于协处理器的HBase和Redis的数据同步，以避免脏数据的产生。

其中，所述负载均衡组件包括Region级别以及RegionServer级别的两种负载均衡策略。

所述Region级别的负载均衡策略，根据预分区和带虚拟节点的一致性哈希算法，避免数据写热点，即对HBase进行预分区，获取Region个数，将Region个数作为节点，采用带虚拟节点的一致性哈希算法获取数据存储Rowkey的Startkey。

获取Region个数，包括以下步骤：

其中，M表示RegionServer的内存大小；F表示RegionServer分给memstore的比例，HBase中默认为0.4；S表示memstore的大小，单位为M，HBase中的默认值为128；A为表中列族的个数；

R＝P*N (2)

在本实施例中，带虚拟节点的一致性哈希算法采用SHA_1算法。

所述RegionServer级别的负载均衡策略，使用贪心算法对RegionServer中的Region进行调换，包括如下步骤：

步骤b5：如果i<＝n，转步骤b6，否则转步骤b11；

步骤b6：如果load_i>load_Lmax，转步骤b7，否则转步骤b8；

步骤b7：将第i个节点加入超负载队列；

步骤b8：如果load_i<load_Lmin，转步骤b9，否则转步骤b10；

步骤b9：将第i个节点加入低负载队列；

步骤b10：i＝i+1，转步骤b5；

步骤b12：如果i<＝N，转步骤b13，否则结束；

步骤b14：计算负载load_Nmax和load_Rmax，load_Nmin和load_Rmin；

h＝load_Rmax–load_Rmin

步骤b17：如果new_T>current_T，转步骤b18，否则转步骤b20；

步骤b19：i＝i+1，转步骤b12；

步骤b20：current_T＝new_T，转步骤b19。

所述数据缓存组件通过对数据访问频率，更新频率进行时间平滑法设计缓存淘汰算法。所述缓存淘汰算法包括以下步骤：

步骤c3：将数据写入Redis。

所述数据同步组件，在数据写入HBase时，根据ObserverCoprocessor同时写入Redis，包括以下步骤：

步骤d1：客户端发出put请求；

步骤d2：该请求被分派给合适的Region；

如图2所示，所述存储模块的工作流程，包括以下步骤：

步骤1：建表时，计算Region的个数，对HBase进行预分区，获取每个Region的Startkey；

步骤2：将Region个数作为带虚拟节点一致性哈希算法中节点个数，通过该算法获取数据写入的Region，得到该Region的Startkey；

步骤3：将Startkey和数据Rowkey拼接，形成数据最终得Rowkey；

步骤4：重写ObserverCoprocessor中preput()函数，通过该函数将数据写入到HBase时同步到Redis；

步骤5：数据写入Redis，进行缓存淘汰策略；

步骤6：重写HBase LoadBalancer类，通过该类实现自定义负载均衡算法。

所述查询模块支持批量查询，即在数据查询时，查询模块批量读取查询条件，根据查询条件，先查询Redis，命中则Redis访问次数加1，未命中再查询HBase获取数据，同时将数据写进Redis中。如图3所示，基于协处理器的HBase二级索引装置查询，即所述查询模块的工作流程，包括以下步骤：

步骤1：客户端设置查询条件，查询组件解析查询条件；

步骤2：查询Redis，若查询结果为空，转步骤3；反之，转步骤4；

步骤3：查询HBase；

步骤4：Redis中该数据访问次数加1；

步骤5：返回查询结果。

需要注意的是，以上所述实施例对本发明其特定的实施例作了描述，然而这不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于HBase+Redis的分布式存储中间件，其特征在于，以HBase集群和Redis作为底层框架，包括存储模块和查询模块，所述存储模块包括负载均衡组件、数据缓存组件和数据同步组件；所述负载均衡组件实现HBaseRegion和RegionServer的负载均衡，以提高HBase的读写性能；所述数据缓存组件实现基于时间平滑方法计算的热值缓存淘汰策略，以提高缓存命中率；所述数据同步组件实现基于协处理器的HBase和Redis的数据同步，以避免脏数据的产生；

所述负载均衡组件包括Region级别以及RegionServer级别的两种负载均衡策略；

Region级别的负载均衡策略，根据预分区和带虚拟节点的一致性哈希算法，避免数据写热点，即对HBase进行预分区，获取Region个数，将Region个数作为节点，采用带虚拟节点的一致性哈希算法获取数据存储Rowkey的Startkey；

获取Region个数，包括以下步骤：

R＝P*N(2)

其中，R表示集群预分区的总个数，P表示每个节点的预分区个数，N表示集群中节点的个数；

RegionServer级别的负载均衡策略，使用贪心算法对RegionServer中的Region进行调换，包括如下步骤：

步骤b5：如果i<＝n，转步骤b6，否则转步骤b11；

步骤b6：如果load_i>load_Lmax，转步骤b7，否则转步骤b8；

步骤b7：将第i个节点加入超负载队列；

步骤b8：如果load_i<load_Lmin，转步骤b9，否则转步骤b10；

步骤b9：将第i个节点加入低负载队列；

步骤b10：i＝i+1，转步骤b5；

步骤b12：如果i<＝N，转步骤b13，否则结束；

步骤b14：计算负载load_Nmax和load_Rmax，load_Nmin和load_Rmin；

h＝load_Rmax–load_Rmin

步骤b17：如果new_T>current_T，转步骤b18，否则转步骤b20；

步骤b19：i＝i+1，转步骤b12；

步骤b20：current_T＝new_T，转步骤b19。

2.根据权利要求1所述的一种基于HBase+Redis的分布式存储中间件，其特征在于，带虚拟节点的一致性哈希算法采用SHA_1算法。

3.根据权利要求1所述的一种基于HBase+Redis的分布式存储中间件，其特征在于，所述数据缓存组件通过对数据访问频率，更新频率进行时间平滑法设计缓存淘汰算法。

4.根据权利要求3所述的一种基于HBase+Redis的分布式存储中间件，其特征在于，所述缓存淘汰算法包括以下步骤：

步骤c3：将数据写入Redis。

5.根据权利要求1所述的一种基于HBase+Redis的分布式存储中间件，其特征在于，所述数据同步组件，在数据写入HBase时，根据ObserverCoprocessor同时写入Redis，包括以下步骤：

步骤d1：客户端发出put请求；

步骤d2：该请求被分派给合适的Region；

6.根据权利要求1所述的一种基于HBase+Redis的分布式存储中间件，其特征在于，所述查询模块支持批量查询，即在数据查询时，查询模块批量读取查询条件，根据查询条件，先查询Redis，命中则Redis访问次数加1，未命中再查询HBase获取数据，同时将数据写进Redis中。