CN109165210A

CN109165210A - 一种集群Hbase数据迁移的方法及装置

Info

Publication number: CN109165210A
Application number: CN201811024215.1A
Authority: CN
Inventors: 姜鲁林; 姜亚楠; 班浩然
Original assignee: Shandong Wave Cloud Mdt Infotech Ltd
Current assignee: Shandong Wave Cloud Mdt Infotech Ltd
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2019-01-08

Abstract

本发明提供了一种集群Hbase数据迁移的方法及装置，该方法，包括：确定第一集群的Hbase的第一协处理器的至少一个待迁移表；创建每个所述待迁移表的快照；将每个所述待迁移表的快照传输到第二集群中；分别对每个所述待迁移表的快照进行恢复处理，生成每个所述待迁移表对应的目标表；将每个所述待迁移表对应的目标表保存到所述第二集群的Hbase中；安装所述第二集群的Hbase的第二协处理器，将每个所述目标表加载到所述第二协处理器中。本发明提供了一种集群Hbase数据迁移的方法及装置，能够更加方便地进行集群之间Hbase数据的迁移。

Description

一种集群Hbase数据迁移的方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种集群Hbase数据迁移的方法及装置。

背景技术

Hbase是一个分布式的、面向列的开源数据库，Hbase广泛应用于集群中。在集群之间，经常需要将一个集群的Hbase中的数据迁移到另一个集群的Hbase中。在现有技术中，Hbase中的数据在集群之间迁移需要用到大量的技术组件，在使用这些技术组件之前，需要人工对这些技术组件进行配置，迁移难度较大。

发明内容

本发明实施例提供了一种集群Hbase数据迁移的方法及装置，能够更加方便地进行集群之间Hbase数据的迁移。

一方面，本发明实施例提供了一种集群Hbase数据迁移的方法，包括：

确定第一集群的Hbase的第一协处理器的至少一个待迁移表；

创建每个所述待迁移表的快照；

将每个所述待迁移表的快照传输到第二集群中；

分别对每个所述待迁移表的快照进行恢复处理，生成每个所述待迁移表对应的目标表；

将每个所述待迁移表对应的目标表保存到所述第二集群的Hbase中；

安装所述第二集群的Hbase的第二协处理器，将每个所述目标表加载到所述第二协处理器中。

进一步地，

该方法进一步包括：

确定每个所述待迁移表所在的位于所述第一集群的Hbase中的第一命名空间；

根据每个所述第一命名空间，在所述第二集群的Hbase中创建每个所述第一命名空间对应的第二命名空间；

所述将每个所述待迁移表对应的目标表保存到所述第二集群的Hbase中，包括：

针对每个所述目标表，均执行：

确定当前目标表对应的所述待迁移表；

确定所述当前目标表对应的所述待迁移表所在的当前第一命名空间；

确定所述当前第一命名空间对应的当前第二命名空间；

将所述当前目标表保存到所述当前第二命名空间中。

进一步地，

在所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表之后，进一步包括：

确定每个所述待迁移表的名称和每个所述待迁移表中每条记录的时间戳；

在所述分别对每个所述待迁移表的快照进行恢复处理，生成每个所述待迁移表对应的目标表之后，进一步包括：

针对每个所述目标表，均执行：

获取当前目标表的名称，以及，所述当前目标表中每条记录的时间戳；

确定所述当前目标表对应的当前待迁移表；

确定所述当前待迁移表的名称，以及，所述当前待迁移表中每条记录的时间戳；

判断所述当前目标表是否满足：所述当前目标表的名称与所述当前待迁移表的名称相同，且，所述当前目标表中每条记录的时间戳与所述当前待迁移表中对应的记录的时间戳相同；

如果满足，则确定所述当前目标表恢复成功，如果不满足，则确定所述当前目标表恢复失败。

进一步地，

所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表，包括：

卸载所述第一协处理器，获取所述第一协处理器的处理权限；

基于所述第一协处理器的处理权限，获取每个所述待迁移表的名称和存储位置；

根据每个所述待迁移表的名称和存储位置，确定每个所述待迁移表。

进一步地，

在所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表之前，进一步包括：

调整所述第一协处理器需要执行的命令，使得所述第一协处理器停止接收数据。

进一步地，

该方法进一步包括：

预先设置迁移脚本；

运行所述迁移脚本，利用所述迁移脚本执行所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表。

另一方面，本发明实施例提供了一种集群Hbase数据迁移的装置，包括：

确定单元，用于确定第一集群的Hbase的第一协处理器的至少一个待迁移表；

快照处理单元，用于创建每个所述待迁移表的快照；将每个所述待迁移表的快照传输到第二集群中；

恢复单元，用于分别对每个所述待迁移表的快照进行恢复处理，生成每个所述待迁移表对应的目标表；将每个所述待迁移表对应的目标表保存到所述第二集群的Hbase中；

加载单元，用于安装所述第二集群的Hbase的第二协处理器，将每个所述目标表加载到所述第二协处理器中。

进一步地，

该装置进一步包括：

命名空间处理单元，用于确定每个所述待迁移表所在的位于所述第一集群的Hbase中的第一命名空间；根据每个所述第一命名空间，在所述第二集群的Hbase中创建每个所述第一命名空间对应的第二命名空间；

所述恢复单元，在执行所述将每个所述待迁移表对应的目标表保存到所述第二集群的Hbase中时，用于：

针对每个所述目标表，均执行：

确定当前目标表对应的所述待迁移表；

确定所述当前第一命名空间对应的当前第二命名空间；

将所述当前目标表保存到所述当前第二命名空间中。

进一步地，

所述确定单元，进一步用于在所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表之后，执行：

所述恢复单元，进一步用于在所述分别对每个所述待迁移表的快照进行恢复处理，生成每个所述待迁移表对应的目标表之后，执行：

针对每个所述目标表，均执行：

确定所述当前目标表对应的当前待迁移表；

进一步地，

所述确定单元，用于：

进一步地，

所述确定单元，进一步用于在所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表之前，执行：

进一步地，

该装置进一步包括：

保存单元，用于保存迁移脚本；

所述确定单元，用于运行所述迁移脚本，利用所述迁移脚本执行所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表。

在本发明实施例中，确定出各个待迁移表之后，创建每个待迁移表的快照，将快照传输到第二集群中，在第二集群中对快照进行恢复，得到各个待迁移表对应的目标表，将各个目标表加载到第二协处理器后，实现将第一集群中的待迁移表迁移到第二集群中，整个过程无需大量技术组件，无需人工参与，大大节省了人工的工作量，能够更加方便地进行集群之间Hbase数据的迁移。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种集群Hbase数据迁移的方法的流程图；

图2是本发明一实施例提供的另一种集群Hbase数据迁移的方法的流程图；

图3是本发明一实施例提供的一种集群Hbase数据迁移的装置的示意图；

图4是本发明一实施例提供的另一种集群Hbase数据迁移的装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种集群Hbase数据迁移的方法，该方法可以包括以下步骤：

步骤101：确定第一集群的Hbase的第一协处理器的至少一个待迁移表；

步骤102：创建每个所述待迁移表的快照；

步骤103：将每个所述待迁移表的快照传输到第二集群中；

步骤104：分别对每个所述待迁移表的快照进行恢复处理，生成每个所述待迁移表对应的目标表；

步骤105：将每个所述待迁移表对应的目标表保存到所述第二集群的Hbase中；

步骤106：安装所述第二集群的Hbase的第二协处理器，将每个所述目标表加载到所述第二协处理器中。

在本发明一实施例中，该方法进一步包括：

针对每个所述目标表，均执行：

确定当前目标表对应的所述待迁移表；

确定所述当前第一命名空间对应的当前第二命名空间；

将所述当前目标表保存到所述当前第二命名空间中。

在本发明实施例中，为了保证第一集群和第二集群的一致，在第二集群中创建与第一命名空间相对应的第二命名空间，例如：可以保持第一命名空间与对应的第二命名空间的名称相同。

在第一集群的Hbase中，待迁移表存储在第一命名空间中，在进行迁移时，也需要在第二集群中创建第二命名空间。

具体地，针对每个目标表，在确定当前第一命名空间对应的当前第二命名空间时，将与当前第一命名空间的名称相同的第二命名空间作为当前第二命名空间。

在本发明一实施例中，在所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表之后，进一步包括：

针对每个所述目标表，均执行：

确定所述当前目标表对应的当前待迁移表；

在本发明实施例中，通过名称和时间戳对目标表的恢复进行验证。具体地，每个待迁移表中可以包含多条记录，而每条记录都有对应的时间戳。在对快照进行恢复处理后，生成了目标表，可以直接对目标表进行读取，进而获取目标表的名称和目标表的每条记录的时间戳。对于当前目标表，如果当前目标表的名称与对应的当前待迁移表的名称相同，且，当前目标表中每条记录的时间戳与当前待迁移表中对应的记录的时间戳相同，那么，可以确定当前目标表恢复成功，如果这两个条件有一个不满足，那么，当前目标表恢复失败，在迁移过程中，可能被篡改，例如：当前目标表中的第一条记录的时间戳与当前待迁移表中对应的记录的时间戳不同，那么，当前目标表中的第一条记录可能被篡改了。

在本发明实施例中，通过名称和时间戳对目标表的恢复进行验证，保证了Hbase数据迁移的安全性。

在本发明一实施例中，所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表，包括：

在本发明实施例中，通过卸载第一协处理器的方式获取对第一协处理器的处理权限，然后，才能获取第一协处理器的各个待迁移表的名称、存储位置等信息，进而能够确定出各个待迁移表。

在本发明一实施例中，在所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表之前，进一步包括：

在本发明实施例中，在确定第一协处理器的待迁移表之前，控制第一协处理器停止接收数据，这样，第一协处理器中不会保存新的数据，避免了待迁移表的更新，进而避免了由于待迁移表的更新而与对应的目标表不一致的问题。

在本发明一实施例中，该方法进一步包括：

预先设置迁移脚本；

在本发明实施例中，可以通过迁移脚本来实现确定待迁移表的步骤，这里的迁移脚本可以是shell脚本。

如图2所示，本发明实施例提供了一种集群Hbase数据迁移的方法，包括：

步骤201：预先设置迁移脚本。

具体地，可以通过Shell编写迁移脚本对数据迁移进行调度编排。

步骤202：运行迁移脚本，利用迁移脚本调整第一集群的Hbase的第一协处理器需要执行的命令，使得第一协处理器停止接收数据。

具体地，使得第一协处理器停止接收数据，保持第一协处理器的各个待迁移表中的数据不被修改。

步骤203：利用迁移脚本卸载第一协处理器，获取第一协处理器的处理权限。

步骤204：基于第一协处理器的处理权限，利用迁移脚本获取第一协处理器的每个待迁移表的名称和存储位置。

步骤205：利用迁移脚本根据每个待迁移表的名称和存储位置，确定每个待迁移表。

具体地，通过存储位置可以确定出待迁移表所在的文件夹等，在结合待迁移表的名称即可确定出待迁移表。

步骤206：确定每个待迁移表所在的位于第一集群的Hbase中的第一命名空间。

具体地，Hbase中可以包括多个第一命名空间，各个待迁移表分别存储在个该多个第一命名空间中。

步骤207：创建每个待迁移表的快照，将每个待迁移表的快照传输到第二集群中。

具体地，可以通过执行snapshot命令来创建快照。

这里通过快照的形式能够更加方便地传输数据。

步骤208：根据每个第一命名空间，在第二集群的Hbase中创建每个第一命名空间对应的第二命名空间。

具体地，在创建第二命名空间时，保持创建的第二命名空间的名称与对应的第一命名空间的名称一致，每个第一命名空间都有对应的第二命名空间。

步骤209：分别对每个待迁移表的快照进行恢复处理，生成每个待迁移表对应的目标表。

具体地，在第二集群中对各个快照进行恢复，恢复得到各个目标表。

步骤210：针对每个目标表，均执行：确定当前目标表对应的待迁移表，确定当前目标表对应的待迁移表所在的当前第一命名空间，确定当前第一命名空间对应的当前第二命名空间，将当前目标表保存到当前第二命名空间中。

具体地，针对当前目标表，从内容上，将当前目标表对应的待迁移表迁移到第二集群中，从存储位置上，保持了当前目标表与对应的待迁移表的命名空间的名称一致。

步骤211：安装第二集群的Hbase的第二协处理器，将每个目标表加载到第二协处理器中。

本发明实施例可以配合Shell、ansible、ambari、Hadoop等技术组件来实现。

本发明实施例适用于大数据集群的Hbase数据的迁移。

本发明实施例，大幅降低大数据领域Hbase数据迁移难度，简化迁移过程，很大程度上降低了迁移过程中出现数据丢失的可能性，同时减少了部署过程的人为参与度，对于迁移效率及数据安全性有重大意义。

如图3、图4所示，本发明实施例提供了一种集群Hbase数据迁移的装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例提供的一种集群Hbase数据迁移的装置所在设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种集群Hbase数据迁移的装置，包括：

确定单元401，用于确定第一集群的Hbase的第一协处理器的至少一个待迁移表；

快照处理单元402，用于创建每个所述待迁移表的快照；将每个所述待迁移表的快照传输到第二集群中；

恢复单元403，用于分别对每个所述待迁移表的快照进行恢复处理，生成每个所述待迁移表对应的目标表；将每个所述待迁移表对应的目标表保存到所述第二集群的Hbase中；

加载单元404，用于安装所述第二集群的Hbase的第二协处理器，将每个所述目标表加载到所述第二协处理器中。

在本发明一实施例中，该装置进一步包括：

针对每个所述目标表，均执行：

确定当前目标表对应的所述待迁移表；

确定所述当前第一命名空间对应的当前第二命名空间；

将所述当前目标表保存到所述当前第二命名空间中。

在本发明一实施例中，所述确定单元，进一步用于在所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表之后，执行：

针对每个所述目标表，均执行：

确定所述当前目标表对应的当前待迁移表；

在本发明一实施例中，所述确定单元，用于：

在本发明一实施例中，所述确定单元，进一步用于在所述确定第一集群的Hbase的第一协处理器的至少一个待迁移表之前，执行：

在本发明一实施例中，该装置进一步包括：

保存单元，用于保存迁移脚本；

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例提供了一种可读介质，包括执行指令，当存储控制器的处理器执行所述执行指令时，所述存储控制器执行本发明实施例提供的任意一种集群Hbase数据迁移的方法。

本发明实施例提供了一种存储控制器，包括：处理器、存储器和总线；

所述存储器用于存储执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的执行指令，以使所述存储控制器执行本发明实施例提供的任意一种集群Hbase数据迁移的方法。

本发明各个实施例至少具有如下有益效果：

1、在本发明实施例中，确定出各个待迁移表之后，创建每个待迁移表的快照，将快照传输到第二集群中，在第二集群中对快照进行恢复，得到各个待迁移表对应的目标表，将各个目标表加载到第二协处理器后，实现将第一集群中的待迁移表迁移到第二集群中，整个过程无需大量技术组件，无需人工参与，大大节省了人工的工作量，能够更加方便地进行集群之间Hbase数据的迁移。

2、本发明实施例，大幅降低大数据领域Hbase数据迁移难度，简化迁移过程，很大程度上降低了迁移过程中出现数据丢失的可能性，同时减少了部署过程的人为参与度，对于迁移效率及数据安全性有重大意义。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种集群Hbase数据迁移的方法，其特征在于，包括：

确定第一集群的Hbase的第一协处理器的至少一个待迁移表；

创建每个所述待迁移表的快照；

将每个所述待迁移表的快照传输到第二集群中；

2.根据权利要求1所述的方法，其特征在于，

进一步包括：

针对每个所述目标表，均执行：

确定当前目标表对应的所述待迁移表；

确定所述当前第一命名空间对应的当前第二命名空间；

将所述当前目标表保存到所述当前第二命名空间中。

3.根据权利要求1所述的方法，其特征在于，

针对每个所述目标表，均执行：

确定所述当前目标表对应的当前待迁移表；

4.根据权利要求1所述的方法，其特征在于，

5.根据权利要求1-4中任一所述的方法，其特征在于，

调整所述第一协处理器需要执行的命令，使得所述第一协处理器停止接收数据；

和/或，

进一步包括：

预先设置迁移脚本；

6.一种集群Hbase数据迁移的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，

进一步包括：

针对每个所述目标表，均执行：

确定当前目标表对应的所述待迁移表；

确定所述当前第一命名空间对应的当前第二命名空间；

将所述当前目标表保存到所述当前第二命名空间中。

8.根据权利要求6所述的装置，其特征在于，

针对每个所述目标表，均执行：

确定所述当前目标表对应的当前待迁移表；

9.根据权利要求6所述的装置，其特征在于，

所述确定单元，用于：

10.根据权利要求6-9中任一所述的装置，其特征在于，

和/或，

进一步包括：

保存单元，用于保存迁移脚本；