CN115827757A - 一种对多HBase集群的数据操作方法及装置 - Google Patents

一种对多HBase集群的数据操作方法及装置 Download PDF

Info

Publication number
CN115827757A
CN115827757A CN202211524125.5A CN202211524125A CN115827757A CN 115827757 A CN115827757 A CN 115827757A CN 202211524125 A CN202211524125 A CN 202211524125A CN 115827757 A CN115827757 A CN 115827757A
Authority
CN
China
Prior art keywords
cluster
hbase
data operation
operation request
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211524125.5A
Other languages
English (en)
Other versions
CN115827757B (zh
Inventor
王年明
张锐
白小波
曹晓航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Western Science City Intelligent Connected Vehicle Innovation Center Chongqing Co ltd
Original Assignee
Western Science City Intelligent Connected Vehicle Innovation Center Chongqing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Science City Intelligent Connected Vehicle Innovation Center Chongqing Co ltd filed Critical Western Science City Intelligent Connected Vehicle Innovation Center Chongqing Co ltd
Priority to CN202211524125.5A priority Critical patent/CN115827757B/zh
Publication of CN115827757A publication Critical patent/CN115827757A/zh
Application granted granted Critical
Publication of CN115827757B publication Critical patent/CN115827757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种对多HBase集群的数据操作方法及装置,方案可以包括:接收客户端发送的对多HBase集群进行数据操作的数据操作请求;数据操作请求中携带有数据操作请求对应的目标HBase集群标识信息;目标HBase集群标识信息所标识的HBase集群属于多HBase集群的子集群;判断数据操作请求是否用于请求从多HBase集群中读取数据,得到判断结果;若判断结果表明数据操作请求用于请求从多HBase集群中读取数据,则确定数据操作请求对应的目标数据表后,基于预先配置的集群路由表确定目标数据表对应的子集群中的目标HBase集群;集群路由表包括多个目标数据表中任意一个目标数据表与此其对应的子集群中目标HBase集群的关联信息;基于目标HBase集群对数据操作请求进行响应,并将响应结果反馈到客户端。

Description

一种对多HBase集群的数据操作方法及装置
技术领域
本发明涉及云计算技术领域,具体而言,涉及一种对多HBase集群的数据操作方法及装置。
背景技术
随着企业数字化转型,企业内部一般会建立自己的数据仓库系统,对于数据量庞大,实时性要求比较高的业务,一般会采用搭建HBase集群的方式来支持业务处理。其中,HBase即hadoopdatabase,本身单个HBase集群是高可靠,高性能,易伸缩的分布式存储系统,但随着企业要处理的业务越来越多,数据量也越来越大,对数据的可用性要求也越来越高,此时企业一般会搭建多个HBase集群,然后对多个HBase集群进行管理以实现集群的高可用性。目前现有技术中,一般是基于zk集群来管理多个HBase集群,高可用性与zk集群强相关,但是在使用zk集群的方式中,当对多HBase集群的访问量比较大时,流量会首先打到zk集群上,此时zk集群压力过大,可能会会出现zk集群长时间锁住的现象,甚至出现zk集群不能提供服务等问题,从而给HBase集群提供的包括读和写数据在内的服务造成很大的负面影响。
因此,有必要提供一种可靠的管理多HBase集群的方法。
发明内容
本发明提供一种对对多HBase集群的数据操作方法及装置,用以克服现有技术中存在的至少一个技术问题。
根据本发明实施例的第一方面,提供一种对多HBase集群的数据操作方法,包括:
接收客户端发送的对多HBase集群进行数据操作的数据操作请求;所述数据操作请求中携带有所述数据操作请求对应的目标HBase集群标识信息;所述目标HBase集群标识信息所标识的HBase集群属于所述多HBase集群的子集群;
判断所述数据操作请求是否用于请求从所述多HBase集群中读取数据,得到判断结果;
若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中读取数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;所述集群路由表包括多个目标数据表中任意一个目标数据表与所述任意一个目标数据表对应的所述子集群中目标HBase集群的关联信息;所述目标HBase集群包括至少两个HBase集群;
基于所述目标HBase集群对所述数据操作请求进行响应,并将响应结果反馈到所述客户端。
优选的,所述接收客户端发送的对多HBase集群进行数据操作的数据操作请求之前,包括:
接收用户基于客户端发送的对所述对多HBase集群的访问配置信息,所述访问配置信息用于基于所述用户的归属地确定所述多HBase集群中的子集群。
优选的,所述接收客户端发送的对多HBase集群进行数据操作的数据操作请求之前,包括:预先为所述多HBase集群的每个用户分配用户标识信息,所述数据操作请求还携带有对应的用户标识信息;
所述目标HBase集群包括所述目标HBase集群所归属的子集群中的两个集群,所述两个集群包括第一HBase集群和第二HBase集群;
基于预定的规则,对所述第一HBase集群和所述第二HBase集群在预定的时间段内响应携带有同一用户标识信息的数据操作请求的网络流量进行分配。
优选的,所述接收客户端发送的对多HBase集群进行数据操作的数据操作请求之前,包括:预先为所述多HBase集群的每个用户分配用户标识信息,所述数据操作请求还携带有对应的用户标识信息;
所述目标HBase集群包括所述目标HBase集群所归属的子集群中的至少三个集群,所述至少三个集群包括第一HBase集群、第二HBase集群和第三HBase集群;
基于预定的规则,对所述第一HBase集群和所述第二HBase集群在预定的时间段内响应携带有同一用户标识信息的数据操作请求的网络流量进行分配;
所述第三HBase集群用于所述第一HBase集群和所述第二HBase集群都不可用时对所述数据操作请求进行响应。
优选的,所述按预定的规则,对所述第一HBase集群和所述第二HBase集群在预定的时间段内响应携带有同一用户标识信息的数据操作请求的网络流量进行分配,具体包括:
将所述第一HBase集群的物理访问地址虚拟为第一数量的逻辑访问地址,将所述第二HBase集群的物理访问地址虚拟为第二数量的逻辑访问地址,所述第一数量和所述第二数量的比值符合所述网络流量进行分配时的比例;
以所述客户端的IP地址和访问时间为参数进行哈希运算,得到哈希运算的结果;
按预定规则将所述哈希运算的结果映射到逻辑访问地址,将所述逻辑访问地址所属的集群确定为对所述数据操作请求进行响应的集群。
优选的,所述基于所述目标HBase集群对所述数据操作请求进行响应之前,包括:
确定对所述数据操作请求进行响应的响应集群;对所述响应集群响应所述数据操作请求的响应状态进行评估,若所述响应状态低于预定能力,则在所述响应集群响应所述数据操作请求的上一次数据操作请求所得的评分的基础上进行降分处理,得到所述降分处理后的评分。
优选的,若所述降分处理后的评分小于所述响应能力阈分值,则将所述响应集群标识为不可用状态,并将所述响应集群的标识信息添加到待探测恢复队列列表;所述待探测恢复队列列表中包括若干标记为不可用状态的HBase集群的标识信息;
所述将所述响应集群标识为不可用状态之后,包括:
对所述响应集群的健康性进行探测,当监测到所述响应集群的健康指数超过预定阈值后,将所述响应集群标记为可用状态;将所述响应集群的标识信息从所述待探测恢复队列列表中移除。
优选的,若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中写入数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;
将所述数据操作请求对应的数据写入所述目标HBase集群中的所有HBase集群。
根据本发明实施例的第二方面,提供一种对多HBase集群的数据操作装置,包括:
数据操作请求接收模块,用于接收客户端发送的对多HBase集群进行数据操作的数据操作请求;所述数据操作请求中携带有所述数据操作请求对应的目标HBase集群标识信息;所述目标HBase集群标识信息所标识的HBase集群属于所述多HBase集群的子集群;
操作类型判断模块,用于判断所述数据操作请求是否用于请求从所述多HBase集群中读取数据,得到判断结果;
目标集群确定模块,用于若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中读取数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;所述集群路由表包括多个目标数据表中任意一个目标数据表与所述任意一个目标数据表对应的所述子集群中目标HBase集群的关联信息;所述目标HBase集群包括至少两个HBase集群;
请求响应模块,用于基于所述目标HBase集群对所述数据操作请求进行响应,并将响应结果反馈到所述客户端。
优选的,所述装置还包括访问配置信息接收模块,用于接收用户基于客户端发送的对所述对多HBase集群的访问配置信息,所述访问配置信息用于基于所述用户的归属地确定所述多HBase集群中的子集群。
本说明书一个实施例至少能够达到以下有益效果:服务平台接收到客户端发送的对多HBase集群进行数据操作的数据操作请求后,可以根据该数据操作请求中携带的该数据操作请求对应的目标HBase集群标识信息确定处理该数据操作请求的目标HBase集群,该目标HBase集群是多HBase集群的子集群,再由该目标HBase集群中的具体某个HBase集群对数据操作请求进行响应。即首先根据数据操作请求先确定对应的目标数据表,再基于用户预先配置的集群路由表确定目标数据表对应的子集群中的目标HBase集群,最后由目标HBase集群中的某个安装了若干HBase数据库的集群来对数据操作请求进行响应,从而不会出现单个HBase集群负载过大被卡住进而不能快速响应用户操作的现象,有效提升了多HBase集群整个系统的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种对多HBase集群的数据操作方法的流程示意图;
图2为本说明书实施例提供的对应于图1的一种对多HBase集群的数据操作装置的结构示意图;
图3是本说明书实施例提供的对应于图1的一种对多HBase集群的数据操作设备的结构示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
应当理解,尽管在本申请文件中可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
如前文背景技术部分陈述,随着企业数字化转型,企业内部一般会建立自己的数据仓库系统,对于数据量庞大,实时性要求比较高的业务,一般会采用搭建HBase集群的方式来支持业务处理。其中,HBase即hadoopdatabase,本身单个HBase集群是高可靠、高性能、易伸缩的分布式存储系统,但随着企业要处理的业务越来越多,要处理的数据量也越来越大,对数据的可用性要求也越来越高,此时企业一般会搭建多个HBase集群,然后对多个HBase集群进行管理以实现集群的高可用性。目前现有技术中,一般是基于zk(全称为zookeeper,是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和HBase的重要组件)集群来管理多个HBase集群,从而多个HBase集群的高可用性与zk集群强相关。但是在使用zk集群管理多个HBase集群的方式中,当对多HBase集群的访问量比较大时,流量会首先打到zk集群上,此时zk集群压力过大,可能会会出现zk集群长时间锁住的现象,甚至出现zk集群不能提供服务等问题,从而给HBase集群提供的包括读和写数据在内的服务造成很大的负面影响。同时,由于用户通过zk集群来实现对HBase集群的读写等操作时,是首先通过zk集群寻址到相关数据表,然后访问HBase集群以进行相关数据的具体读写等操作,但zk集群对负载均衡或流量切分的处理比较随机,有可能出现单个HBase集群负载过大以至于不能快速响应用户操作,影响用户体验。
申请人经过对现有技术的检索分析,由于zookeeper本身是HBase的重要组件,从而现有技术中绝大多数是通过zk集群来管理多HBase集群,当出现前文阐述的由于zk集群对负载均衡或流量切分的处理比较随机,单个HBase集群负载过大以至于不能快速响应用户操作等现象时,大多是通过增加HBase服务器的方式来解决,但由于存在固有的zk集群对负载均衡或流量切分的处理比较随机的问题,单纯通过增加HBase服务器的方式仍然可能会出现单个HBase集群负载过大,不能快速响应用户操作的现象。因此,有必要提供一种可靠的管理多HBase集群的方法,以有效地对多HBase集群进行管理。
在本说明书实施例中,提供了一种有效管理多HBase集群的方式,用户可以个性化地对其欲访问的数据表所对应的HBase集群进行预先配置,即对其通过用户终端发出的数据操作请求进行了路由操作,从而有效地大幅度降低了在一段时间内单个HBase负载过大现象的发生,从而实现了对多HBase集群的有效管理。
为了解决现有技术中的缺陷,本方案给出了以下实施例:
图1为本说明书实施例提供的应用于服务平台的一种对多HBase集群的数据操作方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于服务平台的服务器的程序。
如图1所示,该流程可以包括以下步骤。
步骤102:接收客户端发送的对多HBase集群进行数据操作的数据操作请求;所述数据操作请求中携带有所述数据操作请求对应的目标HBase集群标识信息;所述目标HBase集群标识信息所标识的HBase集群属于所述多HBase集群的子集群。
在本说明书实施例中,当用户需要对多HBase集群进行数据操作时,可以通过用户终端向服务平台发送数据操作请求。其中,本实施例中并不限制用户的种类,如其可以指租用多HBase集群提供的数据服务的租户。
所述客户端可以指在用户终端,例如智能手机或个人计算机,上安装的主应用程序,用户可以通过安装于所述用户终端上的相关主应用程序,来生成所述数据操作请求,或者,用户也可以通过寄生于宿主应用程序(即,主应用程序)的小应用程序,来生成所述数据操作请求。
所述数据操作可以指一组定义在数据上的操作,如可以指读取、修改存储在所述多HBase集群中的数据,或者向所述在所述多HBase集群内写入新的数据,或者删除原本存储在所述多HBase集群内的数据。目标HBase集群标识信息用来标识一组HBase集群,这一组HBase集群可以处于不同的地域,但都属于同一个可用区,处于同一个分组里,从其表现形式来说,这一组HBase集群中包括的HBase集群属于多HBase集群中的集群,是多HBase集群的子集群。举例说明,多HBase集群包括HBase集群A(具体包括HBase1、HBase2、HBase3)、HBase集群B(具体包括HBase4、HBase5、HBase6)、HBase集群C(具体包括HBase7、HBase8、HBase9)、HBase集群D(具体包括HBase10、HBase11、HBase12),在示意性的例子中,目标HBase集群标识信息所标识的HBase集群可以包括HBase集群A、HBase集群B和HBase集群D。
步骤104:判断所述数据操作请求是否用于请求从所述多HBase集群中读取数据,得到判断结果。
前文阐述了数据操作可以指一组定义在数据上的操作,如读取、修改、写、删除等操作,为了根据不同的数据操作请求的种类进行针对性的操作,本步骤需判断数据操作请求的种类,由于当对数据进行不同种类的操作时需编写不同类型的数据操作语句,从而具体的判断方法可以是对数据操作请求对应的数据操作语句进行分析。本步骤的后续步骤针对的是从所述HBase集群中读取数据的情况,从而本步骤需判断数据操作请求是否是请求从所述多HBase集群中读取数据,得到判断结果。
步骤106:若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中读取数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;所述集群路由表包括多个目标数据表中任意一个目标数据表与所述任意一个目标数据表对应的所述子集群中目标HBase集群的关联信息;所述目标HBase集群包括至少两个HBase集群。
在本说明书实施例中,目标数据表可以指用户通过用户终端所发出的读取数据的数据操作请求所对应的数据表,此数据表存储在多HBase集群中。在实际场景中,多HBase集群可以存储不同形式的多种数据表,为了实现分布式存储从而通过数据冗余的方式来实现系统的可靠性,某个数据表可能通过不同的HBase服务器都能访问到。同时,在实际场景中,由于不同的用户对存储在多HBase集群中的数据表存在不同的访问权限,且多HBase集群中的数据表只有一部分对用户开放了访问权限,因此,就具体某个用户而言,其可以访问的数据表的数量是有限的,因此用户可以个性化地预先配置具体由哪个目标HBase集群来对其访问权限内的每个数据表进行响应,这些配置信息可以存储在集群路由表中,集群路由表可以存储在用户终端中,也可以存储在服务平台中。其中,本实施例中所述目标HBase集群包括至少两个HBase集群,属于前文阐述的具体某个子集群的子集。为方便对方案的理解,下面在步骤102中例子的基础上进行示意性地解释说明,前文阐述了,在示意性的例子中,目标HBase集群标识信息所标识的HBase集群可以包括HBase集群A、HBase集群B和HBase集群D,从而目标HBase集群可以是(HBase集群A、HBase集群B)或(HBase集群B、HBase集群D)或(HBase集群A、HBase集群D)。从而本实施例方案中,对于用户基于用户终端发出的数据操作请求最终是由目标集群中的某个安装了若干HBase数据库的集群来响应的。而且,对于具体的某个数据表,用户可以个性化地对一段时间内此数据表对应的目标集群中的不同的集群的响应比例进行配置,从而大幅度地降低了某个时间节点单个集群负载过大,导致对用户数据操作请求响应慢,用户使用体验不佳现象的发生。
步骤108:基于所述目标HBase集群对所述数据操作请求进行响应,并将响应结果反馈到所述客户端。
在本说明书实施例中,在确定了目标集群后就可以由目标HBase集群对数据操作进行响应,由于步骤106针对的是数据操作请求是用于从多HBase集群中读取数据的请求,从而本步骤中对数据操作请求进行响应可以是指将数据操作请求所对应的数据发送到用户终端。
图1中的方法,服务平台接收到客户端发送的对多HBase集群进行数据操作的数据操作请求后,可以根据该数据操作请求中携带的该数据操作请求对应的目标HBase集群标识信息确定处理该数据操作请求的目标HBase集群,该目标HBase集群是多HBase集群的子集群,再由该目标HBase集群中的具体某个HBase集群对数据操作请求进行响应。即首先根据数据操作请求先确定对应的目标数据表,再基于用户预先配置的集群路由表确定目标数据表对应的子集群中的目标HBase集群,最后由目标HBase集群中的某个安装了若干HBase数据库的集群来对数据操作请求进行响应,从而不会出现单个HBase集群负载过大被卡住进而不能快速响应用户操作的现象,有效提升了多HBase集群整个系统的鲁棒性。
基于图1的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
图1中的方法,数据操作请求中携带有该数据操作请求对应的目标HBase集群标识信息,其中,目标HBase集群标识信息所标识的HBase集群属于所述多HBase集群的子集群,由于该HBase集群包括多个子集群,对于某个确定的用户,可以预先确定具体是由哪个HBase集群对该用户的数据操作请求进行响应,从而在可选的实施例中,所述接收客户端发送的对多HBase集群进行数据操作的数据操作请求之前,可以包括:接收用户基于客户端发送的对所述对多HBase集群的访问配置信息,所述访问配置信息用于基于所述用户的归属地确定所述多HBase集群中的子集群。
在可选的实施例中,所述接收客户端发送的对多HBase集群进行数据操作的数据操作请求之前,包括:预先为所述多HBase集群的每个用户分配用户标识信息,所述数据操作请求还携带有对应的用户标识信息。
所述目标HBase集群包括所述目标HBase集群所归属的子集群中的两个集群,所述两个集群包括第一HBase集群和第二HBase集群;基于预定的规则,对所述第一HBase集群和所述第二HBase集群在预定的时间段内响应携带有同一用户标识信息的数据操作请求的网络流量进行分配。
在本实施例中,用户标识信息用于标记用户,即一个用户标识信息对应唯一的一个用户,其具体表现形式可以为一串数字,一串字符或数字和字符的组合串,该用户标识信息可以由用户自定义,也可以由服务平台进行指定。这样,数据操作请求中携带对应的用户标识信息后,服务平台可以基于用户标识信息确定发起数据操作请求的用户。前文阐述了目标HBase集群可以至少包括两个HBase集群,在本实施例中目标HBase集群包括第一HBase集群和第二HBase集群这两个集群,而且,第一HBase集群和第二HBase集群为目标HBase集群所归属的子集群的子集群,在实际应用场景中,对于用户通过用户终端发出的具体某次数据操作请求是由第一HBase集群或第二HBase集群中的具体某个集群来响应的,用户可以个性化地配置这两个集群响应其在预定的时间段内响应其发出的所有数据操作请求时的网络流量比例,由于一般而言,在地理上距离用户所在地越近的集群对用户的数据操作请求的响应速度更快,从而配置规则可以是离用户近的HBase集群所切分的网络流量比例更大。需要说明的是,本实施例中的网络流量比例是大致而言的,允许其在一定范围内波动。
在可选的方案中,所述接收客户端发送的对多HBase集群进行数据操作的数据操作请求之前,包括:预先为所述多HBase集群的每个用户分配用户标识信息,所述数据操作请求还携带有对应的用户标识信息;所述目标HBase集群包括所述目标HBase集群所归属的子集群中的至少三个HBase集群,所述至少三个HBase集群包括第一HBase集群、第二HBase集群和第三HBase集群;
基于预定的规则,对所述第一HBase集群和所述第二HBase集群在预定的时间段内响应携带有同一用户标识信息的数据操作请求的网络流量进行分配;所述第三HBase集群用于所述第一HBase集群和所述第二HBase集群都不可用时对所述数据操作请求进行响应。
在本实施例中,用户标识信息的内涵及其外延可参见前一实施例,在此不再赘述。与前一实施例不同的是,在集群资源比较丰富时,本实施例中目标HBase集群可以包括至少三个HBase集群,即至少包括第一HBase集群,第二HBase集群和第三HBase集群,这三个集群属于目标HBase集群所归属的子集群的子集群,在将响应携带有同一用户标识信息的数据操作请求的网络流量在第一HBase集群和第二HBase集群之间进行分配的方法可参见前一实施例,在此不再赘述。由于第一HBase集群和第二HBase集群可能会处于后文要介绍的不可用状态,从而在本实施例中,在此时可以由默认的第三HBase集群来对数据操作请求进行响应,以增强系统的鲁棒性。
在可选的实施例中,所述按预定的规则,对所述第一HBase集群和所述第二HBase集群在预定的时间段内响应携带有同一用户标识信息的数据操作请求的网络流量进行分配,具体包括:
将所述第一HBase集群的物理访问地址虚拟为第一数量的逻辑访问地址,将所述第二HBase集群的物理访问地址虚拟为第二数量的逻辑访问地址,所述第一数量和所述第二数量的比值符合所述网络流量进行分配时的比例;
以所述客户端的IP地址和访问时间为参数进行哈希运算,得到哈希运算的结果;按预定规则将所述哈希运算的结果映射到逻辑访问地址,将所述逻辑访问地址所属的集群确定为对所述数据操作请求进行响应的集群。
在本实施例中,为了将网络流量在第一HBase集群和第二HBase集群之间按照预定比例进行切分,将第一HBase集群的物理访问地址虚拟为第一数量的逻辑访问地址,同时将第二HBase集群的物理访问地址虚拟为第二数量的逻辑访问地址,这样当用户基于客户端对多HBase集群发送数据操作请求后,可以基于客户端的IP地址和发送所述数据操作请求时的时间为参数进行哈希运算,将得到的哈希运算的结果匹配逻辑访问地址后,最终映射到访问真实地址。
在可选的实施例中,所述基于所述目标HBase集群对所述数据操作请求进行响应之前,包括:确定对所述数据操作请求进行响应的响应集群;对所述响应集群响应所述数据操作请求的响应状态进行评估,若所述响应状态低于预定能力,则在所述响应集群响应所述数据操作请求的上一次数据操作请求所得的评分的基础上进行降分处理,得到所述降分处理后的评分。
在前文介绍的实施例方案的基础上,若所述降分处理后的评分小于所述响应能力阈分值,则将所述响应集群标识为不可用状态,并将所述响应集群的标识信息添加到待探测恢复队列列表;所述待探测恢复队列列表中包括若干标记为不可用状态的HBase集群的标识信息。在此实施例中,当对响应集群进行降分处理后得到的评分小于所述响应能力阈分值时,可以认为该响应集群的工作负载较大,若后续阶段继续由该响应集群响应后续阶段的数据操作请求,可能会出现如响应速度慢,响应超时,响应失败等现象,造成用户体验不佳。此时,可暂时性地将该响应集群标记为不可用状态,即后续阶段不再由该响应集群对数据操作请求进行响应,可选的,可以建立一个待探测恢复队列列表,该待探测恢复队列列表包括所有的标记为不可用状态的HBase集群,在具体实现时,该待探测恢复队列列表可以用于存储所有标记为不可用状态的HBase集群的标识信息,在此实施例中,即是将该响应集群的标识信息添加到该待探测恢复队列列表中。
由于标记为不可用状态的HBase集群在处理完相应事务后,其工作负载会相应降低,从而其对数据操作请求的响应会变快,此时为了加快多HBase集群对外部数据操作请求的响应速度,提升多HBase集群内HBase集群的协同效率,可以监测探测恢复队列列表中HBase的状态,一旦发现有HBase集群恢复为可用状态,即将其从监测探测恢复队列列表中摘除。从而,相应的,所述将所述响应集群标识为不可用状态之后,包括:对所述响应集群的健康性进行探测,当监测到所述响应集群的健康指数超过预定阈值后,将所述响应集群标记为可用状态;将所述响应集群的标识信息从所述待探测恢复队列列表中移除。在具体实现时,可以建立一个线程,用来不间断地监测待探测恢复队列列表中标记为不可用状态的HBase集群的健康状态,其健康指数超过预定阈值后,将所述响应集群标记为可用状态,并将该响应集群的标识信息从该待探测恢复队列列表中移除。
前文阐述了数据操作请求用于请求从所述多HBase集群中读取数据的情况,而用户基于用户终端发出的数据操作请求也可能是请求向所述HBase中写入数据,从而在可选的方案中,若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中写入数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;将所述数据操作请求对应的数据写入所述目标HBase集群中的所有HBase集群。
在可选的方案中,还可以将HBase集群原生的zkmeta与metaregion数据抽象为meta service微服务,为客户端提供restapi请求,采用短连接的方式实现数据定位,从而解决了无法短时间内处理大量连接与meta数据读取的问题。其中,metaservice即元数据服务,融合了HBase集群的zk,metaregion等相关元数据,并进行实时缓存,当用户进行访问数据表等操作时,访问元数据有权直接访问metaservice缓存服务,从而降低了对hbasezk本身的访问,使HBase集群的zk服务压力更小,且每个物理集群都会有metaservice服务,提供了对外元数据的管理。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图2为本说明书实施例提供的对应于图1的一种对多HBase集群的数据操作装置的结构示意图。如图2所示,该装置可以包括:
数据操作请求接收模块202,用于接收客户端发送的对多HBase集群进行数据操作的数据操作请求;所述数据操作请求中携带有所述数据操作请求对应的目标HBase集群标识信息;所述目标HBase集群标识信息所标识的HBase集群属于所述多HBase集群的子集群。
操作类型判断模块204,用于判断所述数据操作请求是否用于请求从所述多HBase集群中读取数据,得到判断结果。
目标集群确定模块206,用于若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中读取数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;所述集群路由表包括多个目标数据表中任意一个目标数据表与所述任意一个目标数据表对应的所述子集群中目标HBase集群的关联信息;所述目标HBase集群包括至少两个HBase集群。
请求响应模块208,用于基于所述目标HBase集群对所述数据操作请求进行响应,并将响应结果反馈到所述客户端。
可选的,所述装置还可以包括访问配置信息接收模块,用于接收用户基于客户端发送的对所述对多HBase集群的访问配置信息,所述访问配置信息用于基于所述用户的归属地确定所述多HBase集群中的子集群。
可以理解,上述的各模块是指计算机程序或者程序段,用于执行某一项或多项特定的功能。此外,上述各模块的区分并不代表实际的程序代码也必须是分开的。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
图3是本说明书实施例提供的一种对多HBase集群的数据操作设备的结构示意图。如图3所示,此硬件设备可以包括:
至少一个处理器310;以及,
与所述至少一个处理器通信连接的存储器330;其中,
所述存储器330存储有可被所述至少一个处理器310执行的指令320,所述指令被所述至少一个处理器310执行,以使所述硬件设备能够:
接收客户端发送的对多HBase集群进行数据操作的数据操作请求;所述数据操作请求中携带有所述数据操作请求对应的目标HBase集群标识信息;所述目标HBase集群标识信息所标识的HBase集群属于所述多HBase集群的子集群;
判断所述数据操作请求是否用于请求从所述多HBase集群中读取数据,得到判断结果;
若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中读取数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;所述集群路由表包括多个目标数据表中任意一个目标数据表与所述任意一个目标数据表对应的所述子集群中目标HBase集群的关联信息;所述目标HBase集群包括至少两个HBase集群;
基于所述目标HBase集群对所述数据操作请求进行响应,并将响应结果反馈到所述客户端。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现一种对多HBase集群的数据操作方法。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种对多HBase集群的数据操作方法,其特征在于,包括:
接收客户端发送的对多HBase集群进行数据操作的数据操作请求;所述数据操作请求中携带有所述数据操作请求对应的目标HBase集群标识信息;所述目标HBase集群标识信息所标识的HBase集群属于所述多HBase集群的子集群;
判断所述数据操作请求是否用于请求从所述多HBase集群中读取数据,得到判断结果;
若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中读取数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;所述集群路由表包括多个目标数据表中任意一个目标数据表与所述任意一个目标数据表对应的所述子集群中目标HBase集群的关联信息;所述目标HBase集群包括至少两个HBase集群;
基于所述目标HBase集群对所述数据操作请求进行响应,并将响应结果反馈到所述客户端。
2.根据权利要求1所述的方法,其特征在于,所述接收客户端发送的对多HBase集群进行数据操作的数据操作请求之前,包括:
接收用户基于客户端发送的对所述对多HBase集群的访问配置信息,所述访问配置信息用于基于所述用户的归属地确定所述多HBase集群中的子集群。
3.根据权利要求1所述的方法,其特征在于,所述接收客户端发送的对多HBase集群进行数据操作的数据操作请求之前,包括:预先为所述多HBase集群的每个用户分配用户标识信息,所述数据操作请求还携带有对应的用户标识信息;
所述目标HBase集群包括所述目标HBase集群所归属的子集群中的两个HBase集群,所述两个HBase集群包括第一HBase集群和第二HBase集群;
基于预定的规则,对所述第一HBase集群和所述第二HBase集群在预定的时间段内响应携带有同一用户标识信息的数据操作请求的网络流量进行分配。
4.根据权利要求1所述的方法,其特征在于,所述接收客户端发送的对多HBase集群进行数据操作的数据操作请求之前,包括:预先为所述多HBase集群的每个用户分配用户标识信息,所述数据操作请求还携带有对应的用户标识信息;
所述目标HBase集群包括所述目标HBase集群所归属的子集群中的至少三个HBase集群,所述至少三个HBase集群包括第一HBase集群、第二HBase集群和第三HBase集群;
基于预定的规则,对所述第一HBase集群和所述第二HBase集群在预定的时间段内响应携带有同一用户标识信息的数据操作请求的网络流量进行分配;
所述第三HBase集群用于所述第一HBase集群和所述第二HBase集群都不可用时对所述数据操作请求进行响应。
5.根据权利要求3或4所述的方法,其特征在于,所述按预定的规则,对所述第一HBase集群和所述第二HBase集群在预定的时间段内响应携带有同一用户标识信息的数据操作请求的网络流量进行分配,具体包括:
将所述第一HBase集群的物理访问地址虚拟为第一数量的逻辑访问地址,将所述第二HBase集群的物理访问地址虚拟为第二数量的逻辑访问地址,所述第一数量和所述第二数量的比值符合所述网络流量进行分配时的比例;
以所述客户端的IP地址和访问时间为参数进行哈希运算,得到哈希运算的结果;
按预定规则将所述哈希运算的结果映射到逻辑访问地址,将所述逻辑访问地址所属的集群确定为对所述数据操作请求进行响应的集群。
6.根据权利要求3或4所述的方法,其特征在于,所述基于所述目标HBase集群对所述数据操作请求进行响应之前,包括:
确定对所述数据操作请求进行响应的响应集群;对所述响应集群响应所述数据操作请求的响应状态进行评估,若所述响应状态低于预定能力,则在所述响应集群响应所述数据操作请求的上一次数据操作请求所得的评分的基础上进行降分处理,得到所述降分处理后的评分。
7.根据权利要求6所述的方法,其特征在于,若所述降分处理后的评分小于所述响应能力阈分值,则将所述响应集群标识为不可用状态,并将所述响应集群的标识信息添加到待探测恢复队列列表;所述待探测恢复队列列表中包括若干标记为不可用状态的HBase集群的标识信息;
所述将所述响应集群标识为不可用状态之后,包括:
对所述响应集群的健康性进行探测,当监测到所述响应集群的健康指数超过预定阈值后,将所述响应集群标记为可用状态;将所述响应集群的标识信息从所述待探测恢复队列列表中移除。
8.根据权利要求1所述的方法,其特征在于,若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中写入数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;
将所述数据操作请求对应的数据写入所述目标HBase集群中的所有HBase集群。
9.一种对多HBase集群的数据操作装置,其特征在于,包括:
数据操作请求接收模块,用于接收客户端发送的对多HBase集群进行数据操作的数据操作请求;所述数据操作请求中携带有所述数据操作请求对应的目标HBase集群标识信息;所述目标HBase集群标识信息所标识的HBase集群属于所述多HBase集群的子集群;
操作类型判断模块,用于判断所述数据操作请求是否用于请求从所述多HBase集群中读取数据,得到判断结果;
目标集群确定模块,用于若所述判断结果表明所述数据操作请求用于请求从所述多HBase集群中读取数据,则确定所述数据操作请求对应的目标数据表后,基于用户预先配置的集群路由表确定所述目标数据表对应的所述子集群中的目标HBase集群;所述集群路由表包括多个目标数据表中任意一个目标数据表与所述任意一个目标数据表对应的所述子集群中目标HBase集群的关联信息;所述目标HBase集群包括至少两个HBase集群;
请求响应模块,用于基于所述目标HBase集群对所述数据操作请求进行响应,并将响应结果反馈到所述客户端。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括访问配置信息接收模块,用于接收用户基于客户端发送的对所述对多HBase集群的访问配置信息,所述访问配置信息用于基于所述用户的归属地确定所述多HBase集群中的子集群。
CN202211524125.5A 2022-11-30 2022-11-30 一种对多HBase集群的数据操作方法及装置 Active CN115827757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211524125.5A CN115827757B (zh) 2022-11-30 2022-11-30 一种对多HBase集群的数据操作方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211524125.5A CN115827757B (zh) 2022-11-30 2022-11-30 一种对多HBase集群的数据操作方法及装置

Publications (2)

Publication Number Publication Date
CN115827757A true CN115827757A (zh) 2023-03-21
CN115827757B CN115827757B (zh) 2024-03-12

Family

ID=85533282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211524125.5A Active CN115827757B (zh) 2022-11-30 2022-11-30 一种对多HBase集群的数据操作方法及装置

Country Status (1)

Country Link
CN (1) CN115827757B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1595906A (zh) * 2003-12-17 2005-03-16 浪潮电子信息产业股份有限公司 集群网络的单一地址流量分发器
US20080008095A1 (en) * 2006-07-10 2008-01-10 International Business Machines Corporation Method for Distributed Traffic Shaping across a Cluster
CN101252603A (zh) * 2008-04-11 2008-08-27 清华大学 基于存储区域网络san的集群分布式锁管理方法
WO2012100544A1 (zh) * 2011-01-24 2012-08-02 华为技术有限公司 基于网络数据流向的虚拟机迁移方法、设备和集群系统
CN104238955A (zh) * 2013-06-20 2014-12-24 杭州迪普科技有限公司 一种存储资源虚拟化按需分配的装置和方法
CN105007312A (zh) * 2015-07-03 2015-10-28 叶秀兰 一种云计算服务器自适应负载均衡控制方法及控制系统
US20160179636A1 (en) * 2014-12-17 2016-06-23 International Business Machines Corporation Cluster creation and management for workload recovery
CN105786401A (zh) * 2014-12-25 2016-07-20 中国移动通信集团公司 服务器集群系统中的数据管理方法及装置
CN108011929A (zh) * 2017-11-14 2018-05-08 平安科技(深圳)有限公司 数据请求处理方法、装置、计算机设备和存储介质
CN108206779A (zh) * 2016-12-16 2018-06-26 北京金山云网络技术有限公司 一种集群访问系统、方法及装置
CN109196459A (zh) * 2016-05-31 2019-01-11 重庆大学 一种去中心化的分布式异构存储系统数据分布方法
US10592328B1 (en) * 2015-03-26 2020-03-17 Amazon Technologies, Inc. Using cluster processing to identify sets of similarly failing hosts
CN111782394A (zh) * 2020-06-29 2020-10-16 广东外语外贸大学 一种基于响应时间感知的集群服务资源动态调整方法
CN113765962A (zh) * 2020-07-17 2021-12-07 北京京东尚科信息技术有限公司 用于服务平台的数据处理方法和系统、计算机系统和介质
CN114462001A (zh) * 2022-01-24 2022-05-10 中国银联股份有限公司 数据访问控制方法、装置、设备、系统及介质
CN114745185A (zh) * 2022-04-18 2022-07-12 阿里巴巴(中国)有限公司 集群访问方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1595906A (zh) * 2003-12-17 2005-03-16 浪潮电子信息产业股份有限公司 集群网络的单一地址流量分发器
US20080008095A1 (en) * 2006-07-10 2008-01-10 International Business Machines Corporation Method for Distributed Traffic Shaping across a Cluster
CN101252603A (zh) * 2008-04-11 2008-08-27 清华大学 基于存储区域网络san的集群分布式锁管理方法
WO2012100544A1 (zh) * 2011-01-24 2012-08-02 华为技术有限公司 基于网络数据流向的虚拟机迁移方法、设备和集群系统
CN104238955A (zh) * 2013-06-20 2014-12-24 杭州迪普科技有限公司 一种存储资源虚拟化按需分配的装置和方法
US20160179636A1 (en) * 2014-12-17 2016-06-23 International Business Machines Corporation Cluster creation and management for workload recovery
CN105786401A (zh) * 2014-12-25 2016-07-20 中国移动通信集团公司 服务器集群系统中的数据管理方法及装置
US10592328B1 (en) * 2015-03-26 2020-03-17 Amazon Technologies, Inc. Using cluster processing to identify sets of similarly failing hosts
CN105007312A (zh) * 2015-07-03 2015-10-28 叶秀兰 一种云计算服务器自适应负载均衡控制方法及控制系统
CN109196459A (zh) * 2016-05-31 2019-01-11 重庆大学 一种去中心化的分布式异构存储系统数据分布方法
CN108206779A (zh) * 2016-12-16 2018-06-26 北京金山云网络技术有限公司 一种集群访问系统、方法及装置
CN108011929A (zh) * 2017-11-14 2018-05-08 平安科技(深圳)有限公司 数据请求处理方法、装置、计算机设备和存储介质
CN111782394A (zh) * 2020-06-29 2020-10-16 广东外语外贸大学 一种基于响应时间感知的集群服务资源动态调整方法
CN113765962A (zh) * 2020-07-17 2021-12-07 北京京东尚科信息技术有限公司 用于服务平台的数据处理方法和系统、计算机系统和介质
CN114462001A (zh) * 2022-01-24 2022-05-10 中国银联股份有限公司 数据访问控制方法、装置、设备、系统及介质
CN114745185A (zh) * 2022-04-18 2022-07-12 阿里巴巴(中国)有限公司 集群访问方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NATTAWAT KHAMPHAKDEE 等: "Performance evaluation of big data technology on designing big network traffic data analysis system", 《2016 JOINT 8TH INTERNATIONAL CONFERENCE ON SOFT COMPUTING AND INTELLIGENT SYSTEMS(SCIS) AND 17TH INTERNATIONAL SYMPOSIUM ON ADVANCED INTERLLIGENT SYSTEMS(ISIS)》, 31 December 2016 (2016-12-31), pages 454 - 459 *
SHAGARI 等: "Heterogeneous Energy and Traffic Aware Sleep-Awake Cluster-Based Routing Protocol for Wireless Sensor Network", IEEE ACCESS, vol. 8, pages 12232 - 12252, XP011767674, DOI: 10.1109/ACCESS.2020.2965206 *
樊重俊 等: "《大数据分析与应用》", vol. 1, 31 January 2016, 立信会计出版社, pages: 136 - 137 *
纪元 等: "基于容器的安全接入虚拟化", 《计算机与现代化》, no. 9, pages 106 - 110 *

Also Published As

Publication number Publication date
CN115827757B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
US11886731B2 (en) Hot data migration method, apparatus, and system
US10248175B2 (en) Off-line affinity-aware parallel zeroing of memory in non-uniform memory access (NUMA) servers
US7587492B2 (en) Dynamic performance management for virtual servers
CN110096336B (zh) 数据监控方法、装置、设备和介质
CN115277566B (zh) 数据访问的负载均衡方法、装置、计算机设备及介质
CN112346871A (zh) 一种请求处理方法及微服务系统
US20200272526A1 (en) Methods and systems for automated scaling of computing clusters
CN110674008B (zh) Ssd的问题盘日志信息收集方法、装置、设备及介质
US20170132027A1 (en) Systems and methods for coordinating data caching on virtual storage appliances
US11579926B2 (en) Processing rest API requests based on resource usage satisfying predetermined limits
CN115543222B (zh) 一种存储优化方法、系统、设备及可读存储介质
CN115151902A (zh) 集群扩容方法、装置、存储介质及电子设备
CN115827757A (zh) 一种对多HBase集群的数据操作方法及装置
CN115686746A (zh) 访问方法、任务处理方法、计算设备及计算机存储介质
CN115185459A (zh) 应用云计算的分布式存储集群迁移系统及方法、存储介质
US11061835B1 (en) Sensitivity matrix for system load indication and overload prevention
CN108139980B (zh) 用于合并存储器页的方法和存储器合并功能
US11249952B1 (en) Distributed storage of data identifiers
CN107153513B (zh) 一种分布式系统服务器的存储控制方法及服务器
CN114185676B (zh) 服务器分配方法、装置、电子设备和计算机可读存储介质
CN114296946B (zh) 数据处理方法、装置和服务器
US11971902B1 (en) Data retrieval latency management system
CN117194325A (zh) 文件迁移方法、装置、分布式文件存储系统及电子设备
CN118018543A (zh) 一种文件下载方法、装置和计算设备
CN117880288A (zh) 数据均衡方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant