CN116303357A

CN116303357A - 一种HBase数据方法、装置、电子设备及可读介质

Info

Publication number: CN116303357A
Application number: CN202310260881.XA
Authority: CN
Inventors: 宋文豪
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-23

Abstract

本发明提供一种HBase数据方法、装置、电子设备及可读介质，通过确定HBase数据中数据块分别所在的目标服务器节点，计算目标服务器节点中区域数据的数据块与区域数据之间的比值，作为区域数据在目标服务器节点的数据本地化率，将数据本地化率与预设阈值进行比较，将数据本地化率低于预设阈值的区域数据确定为目标区域数据，当目标区域数据的数据块所在的目标服务器节点与分布信息中记录的目标区域数据对应的服务器节点不一致时，则将目标区域数据迁移到分布信息中记录的所述目标区域数据对应的服务器节点，从而实现HBase数据的迁移，快速提高HBase数据的数据本地化率，极大降低数据迁移量，降低磁盘、网络io的使用。

Description

一种HBase数据方法、装置、电子设备及可读介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种HBase数据迁移方法、一种HBase数据迁移装置、一种电子设备以及一种计算机可读介质。

背景技术

HBase作为大数据领域常用的分布式数据库，支持千亿行、百万列的数据存储，适用于海量数据下的数据实时读写场景，被广泛应用于电商、用户画像、时空数据等场景。但是在HBase集群运行过程中，一旦HBase集群出现故障并恢复后，会导致大量区域数据与其管理的文件副本所在节点不一致，从而查询时无法开启短路读，需要跨网络查询和数据传输，大大增加了查询耗时，严重影响用户体验。业内常见处理方案是将数据表所有数据读取后重新写入，该方案会占用特别大的磁盘/网络io，且耗时较久。当数据规模达到PB量级时，该方案需要的时间成本基本无法接受。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种HBase数据迁移方法和相应的一种HBase数据迁移装置、电子设备以及存储介质。

本发明实施例公开了一种HBase数据迁移方法，所述HBase数据存储于HDFS系统，所述HDFS系统包含多个服务器节点，所述HBase数据划分多个区域数据，所述区域数据中包含多个数据块，所述区域数据以及所述数据块分布在所述服务器节点上，所述HDFS系统中存储有记录所述区域数据以及所述数据块所在服务器节点的分布信息，所述方法包括：

确定所述HBase数据中的数据块分别所在的目标服务器节点；

计算各个所述目标服务器节点中所述区域数据的数据块与所述区域数据之间的比值，作为所述区域数据在所述目标服务器节点的数据本地化率；

将所述数据本地化率与预设阈值进行比较，将所述数据本地化率低于预设阈值的区域数据确定为目标区域数据；

比对所述目标区域数据的数据块所在的目标服务器节点与所述分布信息中记录的所述目标区域数据对应的服务器节点是否一致；

若不一致，则将所述目标区域数据迁移到所述分布信息中记录的所述目标区域数据对应的服务器节点。

可选的，所述将所述目标区域数据迁移到所述分布信息中记录的所述目标区域数据对应的服务器节点的步骤包括：

基于所述目标区域数据中的数据块构建移动对象；所述移动对象中包含所述目标区域数据的名称信息，数据块名称信息，源节点信息，目标节点信息；其中，所述源节点信息用于确定所述目标区域数据中的数据块所在的目标服务器节点，所述目标节点信息用于确定所述分布信息中记录的所述目标区域数据对应的服务器节点；

将所述移动对象保存到预设的迁移队列中；

按照预设的周期从所述迁移队列中获取所述移动对象；

基于所述数据块名称信息将所述移动对象对应的数据块迁移到所述目标节点信息对应的服务器节点。

可选的，所述基于所述数据块名称信息将所述移动对象对应的数据块迁移到所述目标节点信息对应的服务器节点的步骤包括：

基于所述目标区域数据的名称信息确定所述移动对象所属的目标区域数据；

基于所述数据块名称信息确定所述移动对象对应的数据块；

针对所述目标区域数据，根据所述源节点信息以及所述目标节点信息将所述移动对象对应的数据块从所述源节点信息对应的目标服务器节点迁移至所述目标节点信息对应的服务器节点。

可选的，所述针对所述目标区域数据，根据所述源节点信息以及所述目标节点信息将所述移动对象对应的数据块从所述源节点信息对应的目标服务器节点迁移至所述目标节点信息对应的服务器节点的步骤包括：

基于所述HDFS系统构建分布式文件系统客户端，所述分布式文件系统客户端具有应用接口；

针对所述目标区域数据，根据所述源节点信息以及所述目标节点信息，通过调用所述应用接口将所述移动对象对应的数据块从所述源节点信息对应的目标服务器节点迁移至所述目标节点信息对应的服务器节点。

可选的，所述基于所述目标区域数据的名称信息确定所述移动对象所属的目标区域数据的步骤之后还包括：

对所述目标区域数据进行锁操作；

判断所述锁操作是否异常，若异常，则迁移失败，将所述移动对象对应的数据块回退至所述源节点信息对应的目标服务器节点；

若正常，则迁移成功。

可选的，所述方法还包括：

通过调用预设的获取接口，获取所述HBase数据中所述区域数据以及所述数据块所在服务器节点的分布信息。

可选的，所述数据块具有第二预设数量的副本文件，所述副本文件分布在不同所述服务器节点上；所述计算各个所述目标服务器节点中所述区域数据的数据块与所述区域数据之间的比值，作为所述区域数据在所述目标服务器节点的数据本地化率的步骤包括：

针对一所述区域数据，判断所述区域数据中数据块的所述副本文件所在服务器节点与所述分布信息中记录的所述区域数据对应的服务器节点是否相同；若相同，则将所述数据块确定为目标数据块；

统计所述区域数据中所述目标数据块的大小；

基于所述目标数据块的大小与所述区域数据中数据块的大小的比值确定所述数据本地化率。

本发明实施例还公开了一种HBase数据迁移装置，所述HBase数据存储于HDFS系统，所述HDFS系统包含多个服务器节点，所述HBase数据划分多个区域数据，所述区域数据包含多个数据块，所述区域数据以及所述数据块分布在所述服务器节点上，所述HDFS系统中存储有记录所述区域数据以及所述数据块所在服务器节点的分布信息，所述装置包括：

确定模块，用于确定所述HBase数据中的数据块分别所在的目标服务器节点；

计算模块，用于计算各个所述目标服务器节点中所述区域数据的数据块与所述区域数据之间的比值，作为所述区域数据在所述目标服务器节点的数据本地化率；

比较模块，用于将所述数据本地化率与预设阈值进行比较，将所述数据本地化率低于预设阈值的区域数据确定为目标区域数据；

比对模块，用于比对所述目标区域数据的数据块所在的目标服务器节点与所述分布信息中记录的所述目标区域数据对应的服务器节点是否一致；

迁移模块，用于若所述目标区域数据的数据块所在的目标服务器节点与所述分布信息中记录的所述目标区域数据对应的服务器节点不一致，则将所述目标区域数据迁移到所述分布信息中记录的所述目标区域数据对应的服务器节点。

本发明实施例还公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如本发明实施例所述的方法。

本发明实施例还公开了一个或多个计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如本发明实施例所述的方法。

本发明实施例包括以下优点：通过确定HBase数据中的区域数据的数据块分别所在的目标服务器节点，计算各个目标服务器节点中区域数据的数据块与区域数据之间的比值，作为区域数据在目标服务器节点的数据本地化率，将数据本地化率与预设阈值进行比较，将数据本地化率低于预设阈值的区域数据确定为目标区域数据，比对目标区域数据的数据块所在的目标服务器节点与分布信息中记录的目标区域数据对应的服务器节点是否一致，若不一致，则将目标区域数据迁移到分布信息中记录的所述目标区域数据对应的服务器节点，从而实现将HBase数据中区域数据的迁移，快速提高HBase数据的数据本地化率，极大降低数据迁移量，降低磁盘、网络io的使用。针对大规模的HBase集群，可极大程度减少数据本地化率提升的耗时。

附图说明

图1是本发明实施例中提供的一种HBase数据迁移方法的步骤流程图；

图2是本发明实施例中提供的另一种HBase数据迁移方法的步骤流程图；

图3是一种HBase数据迁移的示意图；

图4是本发明实施例提供的一种HBase数据迁移方法的示意图；

图5是本发明实施例中提供的一种HBase数据迁移装置的结构框图；

图6是本发明实施例中提供的一种电子设备的框图；

图7是本发明实施例中提供的一种计算机可读介质的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明实施例中提供的一种HBase数据迁移方法的步骤流程图，所述HBase数据存储于HDFS系统，所述HDFS系统包含多个服务器节点，所述HBase数据划分多个区域数据，所述区域数据中包含多个数据块，所述区域数据以及所述数据块分布在所述服务器节点上，所述HDFS系统中存储有记录所述区域数据以及所述数据块所在服务器节点的分布信息，具体可以包括如下步骤：

步骤101，确定所述HBase数据中数据块分别所在的目标服务器节点；

HBase(Hadoop Database)是一个分布式的、面向列的开源数据库，适合于非结构化数据存储的数据库，基于HBase的设计架构，其底层数据存储在HDFS(HadoopDistributed File System，分布式文件系统)上，由HDFS进行管理，具体来说，region(区域数据)是HBase管理数据的最小单位，通过rowkey(行键)可以将一张HBase表分为多个区域数据，实现HBase级别的数据读写优化和负载均衡。但每个区域数据又会管理多个列族，每个列族下管理多个HFile(文件)，HFile才是数据层面的最小单元，也即HDFS层面上一个个文件。当HBase收到一个查询请求时，会以region为单位向下分发，然后对region下所有HFile进行筛选、查询。

HDFS系统是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS实现流式读取文件系统数据的目的。HDFS系统中包含多个服务器节点，由服务器节点管理文件命名空间和调节客户端访问文件，服务器节点提供的服务负责处理实际数据的读写io请求，在读写数据的过程中，会占用服务器节点的磁盘、网络io。HDFS对外开放文件命名空间并允许用户数据以文件形式存储。

在本发明实施例中，将HBase数据划分多个区域数据，每个区域数据中包含多个文件，并由区域数据对文件进行管理，每个文件中包含多个数据块，区域数据和数据块均分布在服务器节点上，区域数据和数据块分布在服务器节点的分布信息存储在HDFS系统中。

当提供HBase服务的HBase集群出现故障并重启后，会导致HBase数据中区域数据下管理的文件与区域数据所在的节点不一致，因此需要重新确定区域数据管理的文件中数据块所在的目标服务器节点。

步骤102，计算各个所述目标服务器节点中所述区域数据的数据块与所述区域数据之间的比值，作为所述区域数据在所述目标服务器节点的数据本地化率；

针对目标服务器节点上的区域数据，在区域数据与区域数据中的数据块所在的服务器节点一致时，可认为数据块在本地。当数据块在本地时，通过短路读机制读取本地服务器节点上的数据，不用经过网络传输，缩短读取数据的时间。当数据块不在本地时，需要跨服务器节点读取数据，从其他的服务器节点读取数据后，需要通过网络传输，传到本服务器节点，通过网络传输的数据之后，会使读取数据的时间变长。

在确定HBase数据中的区域数据的数据块分别所在的目标服务器节点之后，先统计区域数据中在目标服务器节点上的数据块，再计算区域数据中在目标服务器节点上的数据块与区域数据的比值，从而确定区域数据在目标服务器节点的数据本地化率。数据本地化率的最大值可为1，表示数据本地化率为100％，代表该区域数据的所有数据块与区域数据所在的服务器节点均相同。

步骤103，将所述数据本地化率与预设阈值进行比较，将所述数据本地化率低于预设阈值的区域数据确定为目标区域数据；

预设阈值可以基于本领域技术人员的经验确定，在一示例中，可以将阈值确定为0.9。计算出区域数据在目标服务器节点的数据本地化率之后，将该区域数据的数据本地化率与预设阈值进行比较，如果该区域数据本地化率低于预设阈值，将该区域数据确定为目标区域数据。

步骤104，比对所述目标区域数据的数据块所在的目标服务器节点与所述分布信息中记录的所述目标区域数据对应的服务器节点是否一致；

确定目标区域数据之后，将目标区域数据的数据块所在的目标服务器节点与分布信息中记录的所述目标区域数据对应的服务器节点进行比对，确认是否一致。

步骤105，若不一致，则将所述目标区域数据迁移到所述分布信息中记录的所述目标区域数据对应的服务器节点。

如果目标区域数据文件的数据块所在的目标服务器节点与分布信息中记录的所述目标区域数据对应的服务器节点不一致，则可以将目标区域数据迁移到分布信息中记录的目标区域数据对应的服务器节点。在本发明实施例中，为了保证迁移数据不会重复，避免迁移过程中的异常情况，引入事务性保障机制，在迁移时，对目标区域数据下所有不在分布信息中记录的目标区域数据对应的服务器节点的数据块进行迁移。

在本发明实施例中，通过确定HBase数据中数据块分别所在的目标服务器节点，计算各个目标服务器节点中区域数据的数据块与区域数据之间的比值，作为区域数据在目标服务器节点的数据本地化率，将数据本地化率与预设阈值进行比较，将数据本地化率低于预设阈值的区域数据确定为目标区域数据，比对目标区域数据的数据块所在的目标服务器节点与分布信息中记录的目标区域数据对应的服务器节点是否一致，若不一致，则将目标区域数据迁移到分布信息中记录的所述目标区域数据对应的服务器节点，从而实现将HBase数据中数据块的迁移，快速提高hbase数据的数据本地化率，极大降低数据迁移量，降低磁盘、网络io的使用。针对大规模的hbase集群，可极大程度减少数据本地化率提升的耗时。

参照图2，示出了本发明实施例中提供的一种HBase数据迁移方法的步骤流程图，所述HBase数据存储于HDFS系统，所述HDFS系统包含多个服务器节点，所述HBase数据划分多个区域数据，所述区域数据中包含多个数据块，所述区域数据以及所述数据块分布在所述服务器节点上，所述HDFS系统中存储有记录所述区域数据以及所述数据块所在服务器节点的分布信息，具体可以包括如下步骤：

步骤201，确定所述HBase数据中的所述区域数据的数据块分别所在的目标服务器节点；

在本发明实施例中，将HBase数据划分多个区域数据，每个区域数据中包含多个文件，并由区域数据对文件进行管理，每个文件中包含多个数据块，区域数据和数据块均分布在服务器节点上，区域数据和数据块分布在服务器节点的分布信息存储在HDFS系统中。HDFS系统中包含多个服务器节点，由服务器节点管理文件命名空间和调节客户端访问文件，服务器节点提供的服务负责处理实际数据的读写io请求，在读写数据的过程中，会占用服务器节点的磁盘、网络io。HDFS对外开放文件命名空间并允许用户数据以文件形式存储。

在一可选实施例中，所述方法还包括：

在获取HBase数据中区域数据以及数据块所在服务器节点的分布信息之前，可以基于HBase数据库构建HBase客户端，在HBase客户端中，设置有获取接口(get ClusterMetrics接口)，通过获取接口可以获取区域数据所在服务器节点的分布信息，进而获取区域数据中数据块所在服务器节点的分布信息。

步骤202，计算各个所述目标服务器节点中所述区域数据的数据块与所述区域数据之间的比值，作为所述区域数据在所述目标服务器节点的数据本地化率；

在确定HBase数据中的区域数据中文件的数据块分别所在的目标服务器节点之后，先统计区域数据的文件中在目标服务器节点上的数据块，再计算区域数据中在目标服务器节点上的数据块的数量与区域数据的比值，从而确定区域数据在目标服务器节点的数据本地化率。数据本地化率的最大值可为1，表示数据本地化率为100％，代表该区域数据中所有数据块与区域数据所在的服务器节点均相同。

在一可选实施例中，所述数据块具有第二预设数量的副本文件，所述副本文件分布在不同所述服务器节点上；所述步骤202包括：

子步骤S11，针对一所述区域数据，判断所述区域数据中数据块的所述副本文件所在服务器节点与所述分布信息中记录的所述区域数据对应的服务器节点是否相同；若相同，则将所述数据块确定为目标数据块；

由于HDFS系统自带的副本机制，区域数据的数据块具有第二预设数量的副本文件，通常情况下，HDFS系统中的文件有3个副本文件，3个副本文件分布在不同的服务器节点上，某一个副本文件会就近写入区域数据所在的服务器节点。

在本发明一可选的实施例中，针对某一区域数据，区域数据中数据块的副本文件在HBase集群出现故障并重启后，需重新确定副本文件所在的服务器节点，如果副本文件所在的服务器节点与分布信息中记录的区域数据对应的服务器节点相同，则可以将副本文件对应的数据块确定为目标数据块。

子步骤S12，统计所述区域数据中所述目标数据块的大小；

针对该区域数据，可以统计该区域数据中目标数据块的大小。

子步骤S13，基于所述目标数据块的数量与所述区域数据的大小的比值确定所述数据本地化率。

根据目标数据块的大小与区域数据的大小的比值计算该文件的数据本地化率。

在一示例中，如果区域数据A的大小为100M，且区域数据A处于节点1，区域数据A中的一文件包含数据块a，大小为20M，数据块b，大小为30M,数据块c，大小为50M在HBase集群出现故障前，数据块a的三个副本文件所在的节点分别为：节点1、节点2、节点3，数据块b的三个副本文件所在的节点分别为：节点1、节点3、节点5，数据块c的三个副本文件所在的节点分别为：节点1、节点4、节点6，此时数据块a，数据块b，数据块c中均存在与区域数据A所在的服务器节点相同的副本文件，因此，该文件的数据本地化率为1。假设在HBase集群出现故障后，区域数据A被移动到节点2，此时，只有数据块a中存在与区域数据A所在的服务器节点相同的副本文件，数据块b和数据块c读取只能远程跨节点读，因此，区域数据A的数据本地化率为0.2。

步骤203，将所述数据本地化率与预设阈值进行比较，将所述数据本地化率低于预设阈值的区域数据确定为目标区域数据；

预设阈值可以基于本领域技术人员的经验确定，在一示例中，可以将阈值确定为0.9。计算出区域数据在目标服务器节点的数据本地化率之后，将该区域数据的数据本地化率与预设阈值进行比较，如果该区域数据的数据本地化率低于预设阈值，将该区域数据确定为目标区域数据。

步骤204，比对所述目标区域数据的数据块所在的目标服务器节点与所述分布信息中记录的所述目标区域数据对应的服务器节点是否一致；

步骤205，若不一致，则基于所述目标区域数据中的数据块构建移动对象；所述移动对象中包含所述目标区域数据的名称信息，数据块名称信息，源节点信息，目标节点信息；其中，所述源节点信息用于确定所述目标区域数据中的数据块所在的目标服务器节点，所述目标节点信息用于确定所述分布信息中记录的所述目标区域数据对应的服务器节点；

如果目标区域数据的数据块所在的目标服务器节点与分布信息中记录的目标区域数据对应的服务器节点不一致，则可以根据目标区域数据中的数据块构建移动对象，移动对象中设置有目标区域数据的名称信息，数据块名称信息，源节点信息，目标节点信息，其中目标区域数据的名称信息为数据块所属的目标区域数据的名称信息，数据块名称信息为数据块的名称信息，源节点信息为目标区域数据中的数据块所在的目标服务器节点，目标节点信息为分布信息中记录的所述目标区域数据对应的服务器节点。

步骤206，将所述移动对象保存到预设的迁移队列中；

构建移动对象之后，可以将需要迁移的全部移动对象均保存到预设的迁移队列中。迁移队列是一个先进先出的队列，把移动对象保存到迁移队列之后，可以实现异步的效果。在实际工作中，针对一移动对象，计算如何迁移的时间小于实际迁移的时间，将移动对象保存至迁移队列中，可以防止迁移对象阻塞。

步骤207，按照预设的周期从所述迁移队列中获取所述移动对象；

将移动对象保存到迁移队列之后，可以按照预设的周期，每隔一段时间从迁移队列中获取移动对象。

步骤208，基于所述数据块名称信息，将所述移动对象对应的数据块迁移到所述目标节点信息对应的服务器节点。

获取移动对象之后，即可将移动对象对应的数据块迁移到目标节点信息对应的服务器节点。

在一可选实施例中，所述步骤208包括：

子步骤S21,基于所述目标区域数据的名称信息确定所述移动对象所属的目标区域数据；

由于移动对象中包含目标区域数据的名称信息，可以通过目标区域数据的名称信息确定移动对象所属的目标区域数据。

子步骤S22,基于所述数据块名称信息确定所述移动对象对应的数据块；

根据移动对象中的数据块名称信息，可以确定与移动对象对应的数据块；

子步骤S23,针对所述目标区域数据，根据所述源节点信息以及所述目标节点信息将所述移动对象对应的数据块从所述源节点信息对应的目标服务器节点迁移至所述目标节点信息对应的服务器节点。

针对目标区域数据，根据源节点信息可以确定目标区域数据文件中的数据块所在的目标服务器节点，根据目标节点信息确定分布信息中记录的目标区域数据对应的服务器节点。在确定移动对象对应的数据块之后，根据源节点信息以及目标节点信息将目标区域数据的所有文件从源节点信息对应的目标服务器节点迁移至目标节点信息对应的服务器节点。

在一可选实施例中，所述子步骤S23包括：

子步骤S221，基于所述HDFS系统构建分布式文件系统客户端，所述分布式文件系统客户端具有应用接口；

根据HDFS系统可以构建分布式文件系统客户端，分布式文件系统客户端具有应用接口(hdfs api)，通过hdfs api实现数据的读写请求。

子步骤S222，针对所述目标区域数据，根据所述源节点信息以及所述目标节点信息，通过调用所述应用接口将所述移动对象对应的数据块从所述源节点信息对应的目标服务器节点迁移至所述目标节点信息对应的服务器节点。

针对目标区域数据，在对移动对象对应的数据块进行迁移时，通过调用hdfs api，根据源节点信息以及目标节点信息，将目标区域数据中与移动对象对应的数据块从源节点信息对应的目标服务器节点迁移至目标节点信息对应的服务器节点。

在一可选实施例中，所述子步骤S21之后还包括：

对所述目标区域数据进行锁操作；

若正常，则迁移成功。

在确定移动对象对应的数据块之后，可以对目标区域数据进行锁操作，进行锁操作时，设置有响应时间阈值，如果针对目标区域数据进行迁移这一事务，事务响应的时间超过响应时间阈值，则可以判断锁操作异常，此时将移动对象对应的数据块回退至源节点信息对应的目标服务器节点。如果事务响应的时间未超过响应时间阈值，则可以判断锁操作正常，则移动对象对应的数据块迁移成功。

如图3所示，为数据迁移的示意图，区域数据Region1所在的服务器节点为节点worker1，区域数据Region1的数据本地化率为0.6，区域数据中包含多个文件：HFile1，HFile2……HFileN。若预设阈值为0.9，那么针对区域数据Region1，区域数据Region1的数据本地化率低于预设阈值，需对区域数据Region1进行迁移，区域数据Region1中的HFileN中包含数据块：block1，block 2，block 3,和block 4，其中block 1，block 2所在的服务器节点均为worker1，为在本地的数据块，而block3和block4均不处于worker1，因此，可以针对block 3和block 4生成plan1和plan2，并保存至迁移队列Move Plan中。

为使本领域技术人员更好地理解本发明的技术方案，参照图4，为本发明实施例提供的一种HBase数据迁移方法的示意图，其中：

在一HBase数据表中，包含区域数据Region1，Region2……RegionN，其中，Region1包含多个文件：HFile1……HFileN，Region1的数据本地化率为0.6；Region2包含多个文件：HFile1……HFileN，Region2的数据本地化率为0.8；RegionN包含多个文件：HFile1……HFileN，RegionN的数据本地化率为1。若预设阈值为0.9，针对Region1而言，Region1的文件的数据本地化率小于预设阈值，可以将Region1确定为目标区域数据，在Region1的HFileN中，包含多个数据块：block1，block 2，block 3……block N，其中block1和block 2在Region1所在的服务器节点，block 3……block N不在Region1所在的服务器节点，针对Region1中的block 3……block N，可以生成移动对象plan1，plan2，plan3……planM，并将plan1，plan2，plan3……planM保存至迁移队列Move Plan中。然后按照预设的频率，从MovePlan中获取移动对象，将移动对象对应的数据块迁移到Region1所在的服务器节点。可以理解的是，为了保证迁移数据不会重复，在迁移时，对目标区域数据下所有文件均进行迁移。

在本发明实施例中，通过确定HBase数据中的区域数据的数据块分别所在的目标服务器节点，计算各个目标服务器节点中区域数据的数据块与区域数据之间的比值，作为区域数据在目标服务器节点的数据本地化率，将数据本地化率与预设阈值进行比较，将数据本地化率低于预设阈值的区域数据确定为目标区域数据，比对目标区域数据的数据块所在的目标服务器节点与分布信息中记录的目标区域数据对应的服务器节点是否一致，若不一致，则基于目标区域数据中的数据块构建移动对象，移动对象中包含目标区域数据的名称信息，数据块名称信息，源节点信息，目标节点信息；其中，源节点信息用于确定目标区域数据中的数据块所在的目标服务器节点，目标节点信息用于确定分布信息中记录的目标区域数据对应的服务器节点，将移动对象保存到预设的迁移队列中，按照预设的周期从迁移队列中获取移动对象，基于所述数据块名称信息，将所述移动对象对应的数据块迁移到目标节点信息对应的服务器节点，从而实现实现将HBase数据中区域数据的迁移，快速提高HBase数据的数据本地化率，极大降低数据迁移量，降低磁盘、网络io的使用。针对大规模的HBase集群，可极大程度减少数据本地化率提升的耗时。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明实施例中提供的一种HBase数据迁移装置的结构框图，所述HBase数据存储于HDFS系统，所述HDFS系统包含多个服务器节点，所述HBase数据划分多个区域数据，所述区域数据包含多个数据块，所述区域数据以及所述数据块分布在所述服务器节点上，所述HDFS系统中存储有记录所述区域数据以及所述数据块所在服务器节点的分布信息，具体可以包括如下模块：

确定模块501，用于确定所述HBase数据中的数据块分别所在的目标服务器节点；

计算模块502，用于计算各个所述目标服务器节点中所述区域数据与所述区域数据之间的比值，作为所述区域数据在所述目标服务器节点的数据本地化率；

比较模块503，用于将所述数据本地化率与预设阈值进行比较，将所述数据本地化率低于预设阈值的区域数据确定为目标区域数据；

比对模块504，用于比对所述目标区域数据的数据块所在的目标服务器节点与所述分布信息中记录的所述目标区域数据对应的服务器节点是否一致；

迁移模块505，用于若所述目标区域数据的数据块所在的目标服务器节点与所述分布信息中记录的所述目标区域数据对应的服务器节点不一致，则将所述目标区域数据迁移到所述分布信息中记录的所述目标区域数据对应的服务器节点。

在一可选实施例中，所述迁移模块505包括：

构建子模块，用于基于所述目标区域数据中的数据块构建移动对象；所述移动对象中包含所述目标区域数据的名称信息，数据块名称信息，源节点信息，目标节点信息；其中，所述源节点信息用于确定所述目标区域数据中的数据块所在的目标服务器节点，所述目标节点信息用于确定所述分布信息中记录的所述目标区域数据对应的服务器节点；

保存子模块，用于将所述移动对象保存到预设的迁移队列中；

获取子模块，用于按照预设的周期从所述迁移队列中获取所述移动对象；

迁移子模块，用于基于所述数据块名称信息，将所述移动对象对应的数据块迁移到所述目标节点信息对应的服务器节点。

在一可选实施例中，所述迁移子模块包括：

目标区域数据单元，用于基于所述目标区域数据的名称信息确定所述移动对象所属的目标区域数据；

数据块单元，用于基于所述数据块名称信息确定所述移动对象对应的数据块；

迁移单元，用于针对所述目标区域数据，根据所述源节点信息以及所述目标节点信息将所述移动对象对应的数据块从所述源节点信息对应的目标服务器节点迁移至所述目标节点信息对应的服务器节点。

在一可选实施例中，所述迁移单元包括：

应用接口子单元，用于基于所述HDFS系统构建分布式文件系统客户端，所述分布式文件系统客户端具有应用接口；

调用子单元，用于针对所述目标区域数据，根据所述源节点信息以及所述目标节点信息，通过调用所述应用接口将所述移动对象对应的数据块从所述源节点信息对应的目标服务器节点迁移至所述目标节点信息对应的服务器节点。

在一可选实施例中，所述装置还包括：

所操作模块，用于对所述目标区域数据中进行锁操作；

判断模块，用于判断所述锁操作是否异常，若异常，则迁移失败，将所述移动对象对应的数据块回退至所述源节点信息对应的目标服务器节点；若正常，则迁移成功。

在一可选实施例中，所述装置还包括：

获取接口模块，用于通过调用预设的获取接口，获取所述HBase数据中所述区域数据以及所述数据块所在服务器节点的分布信息。

在一可选实施例中，所述数据块具有第二预设数量的副本文件，所述副本文件分布在不同所述服务器节点上；所述计算模块502包括：

目标数据块子模块，用于针对一所述区域数据，判断所述区域数据中数据块的所述副本文件所在服务器节点与所述分布信息中记录的所述区域数据对应的服务器节点是否相同；若相同，则将所述数据块确定为目标数据块；

统计子模块，用于统计所述区域数据中所述目标数据块的大小；

数据本地化率子模块，用于基于所述目标数据块的大小与所述文件中数据块的大小的比值确定所述数据本地化率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

另外，本发明实施例还提供一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

确定所述HBase数据中的数据块分别所在的目标服务器节点；

计算各个所述目标服务器节点中所述区域数据与所述区域数据之间的比值，作为所述区域数据在所述目标服务器节点的数据本地化率；

将所述移动对象保存到预设的迁移队列中；

按照预设的周期从所述迁移队列中获取所述移动对象；

基于所述数据块名称信息确定所述移动对象对应的数据块；

对所述目标区域数据进行锁操作；

若正常，则迁移成功。

可选的，所述方法还包括：

统计所述区域数据中所述目标数据块的大小；

基于所述目标数据块的大小与所述文件中数据块的大小的比值确定所述数据本地化率。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如图7所示，在本发明提供的又一实施例中，还提供了一种计算机可读存储介质701，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中所述的HBase数据迁移方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的HBase数据迁移方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种HBase数据迁移方法，其特征在于，所述HBase数据存储于HDFS系统，所述HDFS系统包含多个服务器节点，所述HBase数据划分多个区域数据，所述区域数据中包含多个数据块，所述区域数据以及所述数据块分布在所述服务器节点上，所述HDFS系统中存储有记录所述区域数据以及所述数据块所在服务器节点的分布信息，所述方法包括：

确定所述HBase数据中的数据块分别所在的目标服务器节点；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标区域数据迁移到所述分布信息中记录的所述目标区域数据对应的服务器节点的步骤包括：

将所述移动对象保存到预设的迁移队列中；

按照预设的周期从所述迁移队列中获取所述移动对象；

基于所述数据块名称信息，将所述移动对象对应的数据块迁移到所述目标节点信息对应的服务器节点。

3.根据权利要求2所述的方法，其特征在于，所述基于所述数据块名称信息将所述移动对象对应的数据块迁移到所述目标节点信息对应的服务器节点的步骤包括：

基于所述数据块名称信息确定所述移动对象对应的数据块；

4.根据权利要求3所述的方法，其特征在于，所述针对所述目标区域数据，根据所述源节点信息以及所述目标节点信息将所述移动对象对应的数据块从所述源节点信息对应的目标服务器节点迁移至所述目标节点信息对应的服务器节点的步骤包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述目标区域数据的名称信息确定所述移动对象所属的目标区域数据的步骤之后还包括：

对所述目标区域数据进行锁操作；

若正常，则迁移成功。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述数据块具有第二预设数量的副本文件，所述副本文件分布在不同所述服务器节点上；所述计算各个所述目标服务器节点中所述区域数据的数据块与所述区域数据之间的比值，作为所述区域数据在所述目标服务器节点的数据本地化率的步骤包括：

统计所述区域数据中所述目标数据块的大小；

基于所述目标数据块的大小与所述区域数据的大小的比值确定所述数据本地化率。

8.一种HBase数据迁移装置，其特征在于，所述HBase数据存储于HDFS系统，所述HDFS系统包含多个服务器节点，所述HBase数据划分多个区域数据，所述区域数据中包含多个数据块，所述区域数据以及所述数据块分布在所述服务器节点上，所述HDFS系统中存储有记录所述区域数据以及所述数据块所在服务器节点的分布信息，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如权利要求1-7任一项所述的方法。

10.一个或多个计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-7任一项所述的方法。