CN112015718A - HBase集群平衡方法、装置、电子设备和存储介质 - Google Patents

HBase集群平衡方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112015718A
CN112015718A CN202010868605.8A CN202010868605A CN112015718A CN 112015718 A CN112015718 A CN 112015718A CN 202010868605 A CN202010868605 A CN 202010868605A CN 112015718 A CN112015718 A CN 112015718A
Authority
CN
China
Prior art keywords
hbase
region
balancing
cluster
regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010868605.8A
Other languages
English (en)
Inventor
袁双军
王卓
尹琛
刘成坤
李冰
孙杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202010868605.8A priority Critical patent/CN112015718A/zh
Publication of CN112015718A publication Critical patent/CN112015718A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请提供一种HBase集群平衡方法、装置、电子设备和存储介质,所述HBase集群平衡方法,包括:获取Region server上的Region信息;根据所述Region信息计算每个HBase表的总访问量,所述HBase表包括若干个Region,所述HBase表的总访问量为其对应的所述Region的访问量之和;根据多个所述HBase表的总访问量进行排序;根据排序结果对HBase集群进行平衡。通过根据HBase表进行HBase集群平衡,减少需要平衡的Region server和Region数量,降低平衡耗时,减少占用的系统带宽,且可以随时进行HBase集群平衡,不受系统负载高低的影响。

Description

HBase集群平衡方法、装置、电子设备和存储介质
技术领域
本申请涉及大数据技术领域,具体而言,涉及一种HBase集群平衡方法、装置、电子设备和存储介质。
背景技术
HBase运行过程中,随着数据量的不断增加,Region在Region server上会出现分配不均的情况,最终导致访问集中在几个Region server上,这样造成HBase集群的处理能力下降及HBase集群服务器资源的浪费。现有的平衡技术会分析所有Region并根据Region在Region server上的分布情况进行迁移,将包括较多的Region的Region server上的Region迁移到包括较少的Region的Region server上,以使Region平均分布在各个Regionserver上。
但是,现有的平衡技术的平衡对象为整个HBase集群,涉及的Region数量庞大,存在耗时长,占用较多的系统带宽,必须在系统负载低的情况下进行的问题。
发明内容
本申请实施例的目的在于提供一种HBase集群平衡方法、装置、电子设备和存储介质,用以解决在HBase集群进行平衡时,涉及的Region数量庞大,存在耗时长,占用较多的系统带宽,必须在系统负载低的情况下进行的问题。
第一方面,本发明实施例提供一种HBase集群平衡方法,包括:
获取Region server上的Region信息;
根据所述Region信息计算每个HBase表的总访问量,所述HBase表包括若干个Region,所述HBase表的总访问量为其对应的所述Region的访问量之和;
根据多个所述HBase表的总访问量进行排序;
根据排序结果对HBase集群进行平衡。
通过根据HBase表进行HBase集群平衡,减少需要平衡的Region server和Region数量,降低平衡耗时,减少占用的系统带宽,且可以随时进行HBase集群平衡,不受系统负载高低的影响。
在可选的实施方式中,所述根据排序结果对HBase集群进行平衡包括:
根据所述排序结果选取访问量高的HBase表;
对所述访问量高的HBase表对应的Region server进行平衡。
通过选择访问量高的HBase表对应的Region server进行平衡,可以有效地提高HBase集群的处理能力,减少HBase集群服务器资源的浪费。
在可选的实施方式中,所述对所述访问量高的HBase表对应的Region server进行平衡,包括:
获取平衡度;根据所述平衡度确定平衡策略;根据所述平衡策略对所述HBase集群进行平衡。
通过获取平衡度,在HBase集群负载高时,用户可以选择低平衡度,以减少需要进行迁移的Region数量,使得HBase集群平衡耗时短,影响小,提高了HBase集群平衡的灵活度。
在可选的实施方式中,所述根据排序结果对HBase集群进行平衡,包括:
当对HBase集群进行平衡时检测到有Region处于rit状态时,对所述Region的实体文件进行检测;若所述Region不存在实体文件,忽略所述Region;若所述Region存在实体文件,控制所述Region上线。
当Region出现rit状态时,通过对Region的实体文件进行检测,可以实现对该Region的健康状态进行检测,并对该Region进行相应的忽略或上线操作,从而保证HBase集群平衡的顺利进行。
在可选的实施方式中,所述获取Region server上的Region信息包括:
遍历所有Region server并获取Region信息,所述Region信息包括:各个Region的访问量、IP地址和对应的HBase表的名称。
在可选的实施方式中,所述根据排序结果对HBase集群进行平衡,包括:
接收用户根据所述排序结果选择的HBase表;
对所述用户选择的HBase表对应的Region server进行平衡。
用户可以根据HBase集群运行的实际情况,选择需要进行平衡的HBase表,增加了HBase集群平衡的灵活性。
第二方面,本发明实施例提供一种HBase集群平衡装置,包括:
获取模块,用于获取Region server上的Region信息;
计算模块,用于根据所述Region信息计算每个HBase表的总访问量,所述HBase表包括若干个Region,所述HBase表的总访问量为其对应的所述Region的访问量之和;
排序模块,用于根据多个所述HBase表的总访问量进行排序;
平衡模块,用于根据排序结果对HBase集群进行平衡。
在可选的实施方式中,所述平衡模块还用于根据所述排序结果选取访问量高的HBase表;对所述访问量高的HBase表对应的Region server进行平衡。
在可选的实施方式中,所述平衡模块还用于获取平衡度;根据所述平衡度确定平衡策略;根据所述平衡策略对所述HBase集群进行平衡。
在可选的实施方式中,所述平衡模块还用于当对HBase集群进行平衡时检测到有Region处于rit状态时,对所述Region的实体文件进行检测;若所述Region不存在实体文件,忽略所述Region;若所述Region存在实体文件,控制所述Region上线。
在可选的实施方式中,所述获取模块还用于遍历所有Region server并获取Region信息,所述Region信息包括:各个Region的访问量、IP地址和对应的HBase表的名称。
在可选的实施方式中,所述平衡模块还用于接收用户根据所述排序结果选择的HBase表;对所述用户选择的HBase表对应的Region server进行平衡。
第三方面,本发明实施例提供一种电子设备,包括存储器以及处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行如前述实施方式中任一项所述的方法的步骤。
第四方面,本发明实施例提供一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被计算机读取并运行时,执行如前述实施方式中任一项所述的方法的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种HBase集群平衡系统的结构框图;
图2为本申请实施例提供的一种HBase集群平衡方法的流程图;
图3为本发明实施例提供的一种HBase集群平衡装置的结构框图;
图4为本申请实施例提供一种电子设备的结构示意图。
图标:100-HBase集群平衡系统;101-待平衡HBase集群;102-服务器;300-HBase集群平衡装置;301-获取模块;302-计算模块;303-排序模块;304-平衡模块;400-电子设备;401-处理器;402-存储器。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
Hbase(Hadoop Database),是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在PC Server上搭建起大规模结构化存储集群。
HBase中的数据以HBase表(即,table)的形式进行存储。Region按大小进行分割。每个HBase表一开始只有一个Region,随着数据不断插入HBase表中,Region不断增大,当增大到一个阈值的时候,Region就被会分成两个新的Region。随着HBase表中的行不断增多,一个HBase表包括越来越多的Region。
HBase表在行的方向上分隔为多个Region,Region是HBase数据管理的基本单位,是HBase中分布式存储和负载均衡的最小单元。不同的Region可以分别在不同的RegionServer上,但同一个Region是不会拆分到多个Regionserver上。Regionserver用于维护Region,处理对这些Region的IO请求。
运行过程中,随着数据量的不断增加,Region在不同的Region server上会出现分配不均的情况,最终导致访问集中在几个Region server上,这样造成HBase集群的处理能力下降及HBase集群服务器资源的浪费。现有的平衡技术会分析所有Region并根据Region在不同的Region server上的分布情况进行迁移,将包括较多的Region的Region server上的Region迁移到包括较少的Region的Region server上,以使Region平均分布在各个Region server上。
但是,现有的平衡技术的平衡对象为整个HBase集群,涉及的Region数量庞大,存在耗时长,占用较多的系统带宽,必须在系统负载低的情况下进行的问题。
基于此,本申请的发明人提供一种HBase集群平衡系统,用于解决上述问题。请参照图1,图1为本申请实施例提供的一种HBase集群平衡系统的结构框图,该HBase集群平衡系统100可以包括待平衡HBase集群101以及服务器102。其中,待平衡HBase集群101与服务器102之间可以通过多种方式进行通信连接,例如:有线连接、无线连接等,本申请实施例对此不作具体的限定。
基于上述HBase集群平衡系统100,本申请实施例还提供一种HBase集群平衡方法,该HBase集群平衡方法应用于上述HBase集群平衡系统100中的服务器102。
下面对HBase集群平衡方法进行详细的介绍。请参阅图2,图2为本申请实施例提供的一种HBase集群平衡方法的流程图,该HBase集群平衡方法可以包括如下步骤:
步骤S201:获取Region server上的Region信息。
步骤S202:根据Region信息计算每个HBase表的总访问量,HBase表包括若干个Region,HBase表的总访问量为其对应的Region的访问量之和。
步骤S203:根据多个HBase表的总访问量进行排序。
步骤S204:根据排序结果对HBase集群进行平衡。
下面将结合示例对上述流程进行详细说明。
步骤S201:获取Region server上的Region信息。
本申请实施例中,在进行HBase平衡时,服务器需要获取HBase集群中各个Regionserver上的Region信息。其中,服务器可以通过HBase集群提供的HBasemetric接口获取各Region server上的Region的信息。
具体的,服务器通过HBasemetric接口遍历所有Region server并获取Region信息,Region信息可以包括:Region的访问量、IP地址和对应的HBase表的名称。其中,Region的访问量表征用户对该Region的访问次数,访问量高表示该Region被频繁访问,即该Region对应的Region server被频繁访问。Region的IP地址表征该Region被分配到的Region server的IP地址,用户通过访问该IP地址以找到该Region的位置,进而获得该Region中存储的数据。Region对应的HBase表的名称表征该Region所属的HBase表。
可选的,服务器获得上述Region信息后,会生成一个基于IP地址的Region访问量统计表。该统计表以Region对应的Region server的IP地址为划分依据,表项包括HBase表的名称、Region名称、Region的访问量。将每一个Region server对应的所有Region以及Region的详细信息一一列出来。
步骤S202:根据Region信息计算每个HBase表的总访问量,HBase表包括若干个Region,HBase表的总访问量为其对应的Region的访问量之和。
本申请实施例中,获取Region信息后,根据各个Region的访问量,计算每个HBase表的总访问量。HBase表的总访问量为该HBase表对应的所有Region的访问量之和。可选的,可以根据生成的基于IP地址的Region访问量统计表计算每个HBase表的总访问量。
举例来说,HBase表1包括3个Region:Region1、Region2、Region3。Region1的访问量为20,Region2的访问量为40,Region3的访问量为30,则HBase表1的总访问量为90。
步骤S203:根据多个HBase表的总访问量进行排序。
本申请实施例中,在计算每个HBase表的总访问量后,根据多个HBase表的总访问量进行排序。其中,可以根据总访问量由高到低的顺序进行排序,进而获知HBase集群上访问量高的热点HBase表。
步骤S204:根据排序结果对HBase集群进行平衡。
本申请实施例中,在获取HBase表的总访问量排序结果后,服务器根据排序结果,对HBase集群进行平衡。其中,服务器根据排序结果,选择其中一个HBase表,对该HBase表对应的Region server进行平衡。
需要说明的是,一个HBase集群中会有若干个Region server、若干个HBase表和若干个Region。一个HBase表对应其中的几个Region,这些Region分布在HBase集群上的某几个Region server上,即一个HBase表只对应HBase集群中的某几个Region server。在本申请实施例提供的平衡方法中,服务器会选择HBase集群中的一个HBase表,然后对该HBase表对应的Region server进行平衡,而不会对HBase集群中的所有Region server进行平衡。
而且,由于一个Region server上包含有多个Region,多个Region可能属于同一个的HBase表,也可能属于不同的HBase表。当多个Region属于不同的HBase表时,在进行HBase集群平衡时,既可以选择对Region server上的所有Region进行平衡,也可以只针对选择的HBase表对应的Region进行平衡。
以下结合具体示例进行解释。
在进行HBase集群平衡时,当只针对选择的HBase表对应的Region进行平衡时,举例来说,在一个HBase集群中,存在3个HBase表,3个Region server,8个Region。HBase表1包括Region1、Region2、Region3和Region4;HBase表2包括Region5和Region6;HBase表3包括Region7和Region8。Region1、Region2、Region3和Region5分布在Region server A上,Region4和Region6分布在Region server B上,Region7、Region8分布在Region server C上。即HBase表1对应Region server A和Region server B,HBase表2对应Region server A和Region server B,HBase表3对应Region server C。
在进行HBase集群平衡时,当只针对选择的HBase表对应的Region进行平衡时,在服务器选择HBase表1进行HBase集群平衡时,由于HBase表1对应Region server A和Regionserver B,因此,只会对Region server A和Region server B进行平衡,而不会考虑Regionserver C。进一步的,Region server A中除了包含HBase表1包括的Region1、Region2、Region3以外,还包括了HBase表2包括的Region5,在进行HBase集群时,不会考虑Region5。同理,不会考虑Region server B上的Region6。即在选择平衡HBase表1进行HBase集群的情况下,只会针对Region server A和Region server B进行平衡,待平衡的Region为Region1、Region2、Region3和Region4。
可以理解,当对Region server上的所有Region进行平衡时,在选择平衡HBase表1进行HBase集群的情况下,会针对Region server A和Region server B进行平衡,待平衡的Region为Region1、Region2、Region3、Region4、Region5和Region6。
通过根据HBase表进行HBase集群平衡,减少需要平衡的Region server和Region数量,降低平衡耗时,减少占用的系统带宽。由于本申请实施例提供的平衡方法占用的带宽低,因此,可以随时进行HBase集群平衡,不受系统负载高低的影响。
进一步的,根据排序结果对HBase集群进行平衡时,需要选择HBase表。其中,选择HBase表可以有多种实现方式,下面介绍两种实现方式。可以理解的是,下面介绍的两种的实现方式仅为本申请实施例提供的示例,本申请实施例不以此为限。
作为一种实施方式,步骤S204可以包括如下步骤:
第一步,根据排序结果选取访问量高的HBase表;
第二步,对访问量高的HBase表对应的Region server进行平衡。
具体的,访问量高的HBase表对应的Region server会被用户频繁访问。如果Region在这些Region server上分布不均,会导致访问集中在其中几个Region server上,造成集群的处理能力下降及HBase集群服务器资源的浪费。因此,选择访问量高的HBase表对应的Region server进行平衡,可以有效地提高HBase集群的处理能力,减少HBase集群服务器资源的浪费。
进一步的,对访问量高的HBase表对应的Region server进行平衡时,服务器根据确定的HBase表确定其对应的Region server和Region,进而根据Region server数量和Region数量,计算出每个Region server需要分配的对应HBase表的Region数量,然后对Region进行迁移,完成对HBase集群的平衡。
可选的,在对访问量高的HBase表对应的Region server进行平衡时,可以包括以下步骤:
第一步,获取平衡度;
第二步,根据平衡度确定平衡策略;
第三步,根据平衡策略对HBase集群进行平衡。
具体的,平衡度可以由用户手动输入,也可以为预先设置好的一个值。平衡度是一个用于评判一个Region server是否需要进行平衡的指标。当平衡度为100%时,即表示需要将确定的Region平均分配到每一个Region server中。举例来说,当有10个Region,2个Region server,平衡度为100%时,平衡策略为:每个Region server上需要分配5个Region。如果一个Region server中4个Region,另一个Region server中有6个Region,则需要从有6个Region的Region server中,迁移一个Region到有4个Region的Region server中,以满足平衡策略。
当平衡度为80%时,表示将确定的Region平均分配到每一个Region server时,当其中一个Region server有绝对平均分配的数量的80%时,认为该Region server已经完成了平衡,不需要迁移Region了。举例来说,有10个Region,2个Region server,平衡度为80%,其中一个Region server有4个Region,另一个Region server中有6个Region。由于其中一个Region server有4个Region,其数量为绝对平均分配的数量(5个Region)的80%,所以该Region server不需要进行平衡。
根据平衡度确定平衡策略后,服务器通过HBase集群提供的HBase shell接口,对Region进行迁移,当每个Region server上的Region满足平衡策略后,完成对HBase集群的平衡。
通过获取平衡度,在HBase集群负载高时,用户可以选择低平衡度,以减少需要进行迁移的Region数量,使得HBase集群平衡耗时短,影响小,提高了HBase集群平衡的灵活度。
作为另一种实施方式,步骤S204可以包括如下步骤:
第一步,接收用户根据排序结果选择的HBase表;
第二步,对用户选择的HBase表对应的Region server进行平衡。
具体的,用户可以根据HBase集群运行的实际情况,选择需要进行平衡的HBase表,增加了HBase集群平衡的灵活性。
进一步的,在确定需要平衡的HBase表后,服务器根据确定的HBase表确定其对应的Region server和Region,服务器根据Region server数量和Region数量,计算出每个Region server需要分配Region数量。
可以理解,上述根据平衡度确定平衡策略的方案也可以应用在该实施方式中,相同之处可以互相对应,在此不做赘述。
作为一种实施方式,步骤S204可以包括如下步骤:
第一步,当对HBase集群进行平衡时检测到有Region处于rit状态时,对该Region的实体文件进行检测;
第二步,若Region不存在实体文件,忽略该Region;
第三步,若Region存在实体文件,控制该Region上线。
具体的,现有技术中,在对HBase集群进行平衡时,如果检测到Region处于rit(Region-In-Transition,Region变迁机制)状态时,会认为Region正在进行迁移,因此,整个HBase集群不会进行平衡。但问题在于,HBase集群在运行时,会因为一些误操作,导致某些Region一直处于rit状态,从而HBase集群一直不能进行平衡,导致HBase集群处理能力下降。为了解决上述问题,在本申请实施例在对HBase集群进行平衡时,若检测到有Region处于rit状态时,并不会马上停止对HBase集群进行平衡,而是会对该Region的实体文件进行检测。若该Region不存在实体文件,即该Region已经是废弃Region,则忽略该Region,对其余的Region进行平衡。若该Region存在实体文件,即该Region为健康Region,对该Region进行上线处理,使得该Region不再处于rit状态,并将该Region加入到平衡策略中,进行平衡。
当Region出现rit状态时,通过对Region的实体文件进行检测,可以实现对该Region的健康状态进行检测,并对该Region进行相应的忽略或上线操作,从而保证HBase集群平衡的顺利进行。
综上所述,通过根据HBase表进行HBase集群平衡,减少需要平衡的Region server和Region数量,降低平衡耗时,减少占用的系统带宽。由于本申请实施例提供的平衡方法占用的带宽低,因此,可以随时进行HBase集群平衡,不受系统负载高低的影响。
基于同一发明构思,本申请实施例提供一种HBase集群平衡装置。请参阅图3,图3为本发明实施例提供的一种HBase集群平衡装置的结构框图,该HBase集群平衡装置300包括:
获取模块301,用于接收Region server上的Region信息;
计算模块302,用于根据所述Region信息计算每个HBase表的总访问量,所述HBase表包括若干个Region,所述HBase表的总访问量为其对应的所述Region的访问量之和;
排序模块303,用于根据多个所述HBase表的总访问量进行排序;
平衡模块304,用于根据排序结果对HBase集群进行平衡。
作为一种实施方式,所述平衡模块304还用于根据所述排序结果选取访问量高的HBase表;对所述访问量高的HBase表对应的Region server进行平衡。
作为一种实施方式,所述平衡模块304还用于获取平衡度;根据所述平衡度确定平衡策略;根据所述平衡策略对所述HBase集群进行平衡。
作为一种实施方式,所述平衡模块304还用于当对HBase集群进行平衡时检测到有Region处于rit状态时,对所述Region的实体文件进行检测;若所述Region不存在实体文件,忽略所述Region;若所述Region存在实体文件,控制所述Region上线。
作为一种实施方式,所述获取模块301还用于遍历所有Region server并获取Region信息,所述Region信息包括:各个Region的访问量、IP地址和对应的HBase表的名称。
作为一种实施方式,所述平衡模块304还用于接收用户根据所述排序结果选择的HBase表;对所述用户选择的HBase表对应的Region server进行平衡。
请参照图4,图4为本申请实施例提供一种电子设备的结构示意图,所述电子设备400可以是个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personal digital assistant,PDA)等。
电子设备400可以包括:处理401、存储器402和通信总线,通信总线用于实现这些组件的连接通信。
存储器402用于存储本申请实施例提供的HBase集群平衡方法对应的计算程序指令等各种数据,其中,存储器402可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
处理器401用于读取并运行存储于存储器中的计算机程序指令时,执行本申请实施例提供的HBase集群平衡方法的步骤。
其中,处理器401可能是一种集成电路芯片,具有信号的处理能力。上述的处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
此外,本申请实施例还提供了一种存储介质,在该存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行本申请任一项实施方式所提供的方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种HBase集群平衡方法,其特征在于,包括:
获取Region server上的Region信息;
根据所述Region信息计算每个HBase表的总访问量,所述HBase表包括若干个Region,所述HBase表的总访问量为其对应的所述Region的访问量之和;
根据多个所述HBase表的总访问量进行排序;
根据排序结果对HBase集群进行平衡。
2.根据权利要求1所述的方法,其特征在于,所述根据排序结果对HBase集群进行平衡包括:
根据所述排序结果选取访问量高的HBase表;
对所述访问量高的HBase表对应的Region server进行平衡。
3.根据权利要求2所述的方法,其特征在于,所述对所述访问量高的HBase表对应的Region server进行平衡,包括:
获取平衡度;
根据所述平衡度确定平衡策略;
根据所述平衡策略对所述HBase集群进行平衡。
4.根据权利要求1所述的方法,其特征在于,所述根据排序结果对HBase集群进行平衡,包括:
当对HBase集群进行平衡时检测到有Region处于rit状态时,对所述Region的实体文件进行检测;
若所述Region不存在实体文件,忽略所述Region;
若所述Region存在实体文件,控制所述Region上线。
5.根据权利要求1所述的方法,其特征在于,所述获取Region server上的Region信息包括:
遍历所有Region server并获取Region信息,所述Region信息包括:各个Region的访问量、IP地址和对应的HBase表的名称。
6.根据据权利要求1所述的方法,其特征在于,所述根据排序结果对HBase集群进行平衡,包括:
接收用户根据所述排序结果选择的HBase表;
对所述用户选择的HBase表对应的Region server进行平衡。
7.一种HBase集群平衡装置,其特征在于,包括:
获取模块,用于获取Region server上的Region信息;
计算模块,用于根据所述Region信息计算每个HBase表的总访问量,所述HBase表包括若干个Region,所述HBase表的总访问量为其对应的所述Region的访问量之和;
排序模块,用于根据多个所述HBase表的总访问量进行排序;
平衡模块,用于根据排序结果对HBase集群进行平衡。
8.根据权利要求7所述的装置,其特征在于,所述平衡模块还用于根据所述排序结果选取访问量高的HBase表;
对所述访问量高的HBase表对应的Region server进行平衡。
9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行如权利要求1-6中任一项所述的方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被计算机读取并运行时,执行如权利要求1-6中任一项所述的方法的步骤。
CN202010868605.8A 2020-08-25 2020-08-25 HBase集群平衡方法、装置、电子设备和存储介质 Pending CN112015718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010868605.8A CN112015718A (zh) 2020-08-25 2020-08-25 HBase集群平衡方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010868605.8A CN112015718A (zh) 2020-08-25 2020-08-25 HBase集群平衡方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112015718A true CN112015718A (zh) 2020-12-01

Family

ID=73503183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010868605.8A Pending CN112015718A (zh) 2020-08-25 2020-08-25 HBase集群平衡方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112015718A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714016A (zh) * 2020-12-25 2021-04-27 国网河北省电力有限公司信息通信分公司 一种电力物联网大数据边缘分析方法
CN116069594A (zh) * 2023-03-07 2023-05-05 武汉工程大学 一种负载均衡预测方法、装置、系统以及存储介质
CN112714016B (zh) * 2020-12-25 2024-09-27 国网河北省电力有限公司信息通信分公司 一种电力物联网大数据边缘分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379024A1 (en) * 2014-06-27 2015-12-31 International Business Machines Corporation File storage processing in hdfs
CN110019528A (zh) * 2017-12-26 2019-07-16 中国移动通信集团湖北有限公司 数据库操作负载均衡方法、装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379024A1 (en) * 2014-06-27 2015-12-31 International Business Machines Corporation File storage processing in hdfs
CN110019528A (zh) * 2017-12-26 2019-07-16 中国移动通信集团湖北有限公司 数据库操作负载均衡方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714016A (zh) * 2020-12-25 2021-04-27 国网河北省电力有限公司信息通信分公司 一种电力物联网大数据边缘分析方法
CN112714016B (zh) * 2020-12-25 2024-09-27 国网河北省电力有限公司信息通信分公司 一种电力物联网大数据边缘分析方法
CN116069594A (zh) * 2023-03-07 2023-05-05 武汉工程大学 一种负载均衡预测方法、装置、系统以及存储介质

Similar Documents

Publication Publication Date Title
CN106407207B (zh) 一种实时新增数据更新方法和装置
US8745633B2 (en) System and method for managing resources in a partitioned computing system based on resource usage volatility
CN110633296A (zh) 数据查询方法、装置、介质及电子设备
CN112395322B (zh) 一种基于分级缓存的列表数据显示方法、装置及终端设备
CN113568940B (zh) 数据查询的方法、装置、设备以及存储介质
EP3482294A1 (en) Methods and modules relating to allocation of host machines
CN112148693A (zh) 一种数据处理方法、装置及存储介质
CN114996173B (zh) 一种管理存储设备写操作的方法和装置
CN111143331A (zh) 数据迁移方法、装置及计算机存储介质
CN109697019B (zh) 基于fat文件系统的数据写入的方法和系统
CN111562884A (zh) 一种数据存储方法、装置及电子设备
CN110333944B (zh) 话单数据业务处理方法及设备
CN103345519A (zh) 无共享分布式数据库的数据分布的方法和装置
CN112015718A (zh) HBase集群平衡方法、装置、电子设备和存储介质
CN106649210A (zh) 一种数据转换方法及装置
CN110555014A (zh) 一种数据迁移方法和系统、电子设备、存储介质
CN112069175A (zh) 数据查询的方法、装置及电子设备
CN115629708A (zh) 一种存储系统中冷热数据监测方法、装置、终端及介质
CN110866127A (zh) 建立索引的方法以及相关装置
CN111259012B (zh) 数据均匀化方法、装置、计算机设备及存储介质
CN115617800A (zh) 数据读取方法、装置、电子设备及存储介质
CN115422293A (zh) 一种分布式数据库及其数据检索方法
CN115033551A (zh) 一种数据库迁移方法、装置、电子设备及存储介质
CN114298585A (zh) 一种面向采购场景的物料采购配额分配方法及装置
US20160232166A1 (en) Method and Apparatus for Accessing File

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination