CN105045917B

CN105045917B - 一种基于实例的分布式数据恢复方法和装置

Info

Publication number: CN105045917B
Application number: CN201510515919.9A
Authority: CN
Inventors: 赖春波; 薛英飞; 王仆; 赵博
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-08-20
Filing date: 2015-08-20
Publication date: 2019-06-18
Anticipated expiration: 2035-08-20
Also published as: WO2017028394A1; US10783163B2; CN105045917A; US20180150536A1

Abstract

本申请公开了一种基于实例的分布式数据恢复方法，所述方法的一具体实施方式包括：检测到发生宕机的非主节点；将属于宕机节点的多个二级存储单元分配给至少一个在线节点；对日志所存放的实例进行Hash归类并分配到多个线程；以及在所述在线节点内部并行恢复多个一级存储单元的数据。本发明的实施例实现了分布式数据库中宕机节点数据在节点中的并行恢复。

Description

一种基于实例的分布式数据恢复方法和装置

技术领域

本发明涉及数据库领域，具体涉及一种基于实例的分布式数据恢复方法和装置。

背景技术

随着互联网的发展，分布式数据库得到了越来越广泛的应用，因而对其可靠性的要求也不断提高。为了降低中断服务的时间，数据库集群节点宕机后所进行的数据恢复方法就显得至关重要。目前业界所使用的分布式数据恢复方法是将宕机节点的数据分配给多个在线节点进行恢复，而在每个节点内部采用单一线程，或者通过对日志记录排序等重操作后实现多线程恢复。使用这些方法恢复数据明显存在宕机节点数据恢复效率低，对节点利用率低的缺点。

发明内容

本发明实施例提供了一种基于实例的分布式数据恢复方法，可以在分布式数据库系统宕机时，进行并行数据恢复，提高数据恢复效率与节点利用率，从而提高数据库系统的可用性。

本申请的一个方面提供一种基于实例的分布式数据恢复方法，包括：

检测到发生宕机的非主节点，将属于宕机节点的多个二级存储单元分配给至少一个在线节点，对日志所存放的实例进行Hash归类并分配到多个线程，以及在在线节点内部并行恢复多个一级存储单元的数据。

本申请第一方面的一种示例性的实施方式中，三级存储单元存有二级存储节点的索引，多个二级存储单元中的每一个存储有多个一级存储单元的索引，多个一级存储单元中的每一个存储有一个实例，并且多个一级存储单元中存储的数据是按照实例有序的，非主节点与主节点共同构成集群中的节点，非主节点中的每个管理二级存储单元索引的一级存储单元，主节点管理三级存储单元和二级存储单元。

此外，在数据恢复过程中，利用Hash归类以使得相同的实例的日志映射到同一线程，从而根据实例的不同将日志分配到多个线程；至少一个在线节点按照日志的内容在自己的进程内进行逻辑重演恢复数据。在至少一个在线节点完成数据恢复后，将二级存储单元的管理节点更改为执行恢复操作的在线节点。

本申请的第二方面提供一种装置，包括主节点设备和非主节点设备，主节点设备用于管理主节点，非主节点设备用于管理非主节点。

本申请第二方面的一种示例性的实施方式中，主节点设备包括用于检测发生宕机的非主节点的检测模块，以及用于将对应于宕机节点的多个二级存储单元分配给至少一个在线节点的分配模块。

此外，非主节点设备包括：接收模块，用于分配至非主节点的有关对应于宕机节点的多个二级存储单元的信息；扫描模块，用于扫描宕机节点日志；以及处理模块，用于进行Hash归类以使得相同的实例的日志映射到多个线程中的同一个。

其中，分配装置还用于当至少一个在线节点完成数据恢复后，将二级存储单元的管理节点更改为执行恢复操作的在线节点。接收模块还用于接收宕机节点的网络地址和端口命名。

本申请的有益效果为：在节点宕机后，通过对日志中存放的实例进行Hash归类，分配到多个线程，使在线节点在节点内部并行地恢复数据。从而提高了数据恢复效率与对节点的利用率。

附图说明

图1是本发明的实施例提供的一种分布式数据系统整体框架图；

图2是本发明的实施例提供的基于实例的数据存储结构框图；

图3是本发明的实施例提供的基于实例的分布式数据恢复方法的数据恢复流程图；

图4是本发明的实施例提供的基于实例的分布式数据恢复方法在数据恢复过程中，Hash归类过程的示意图；

图5是本发明的实施例提供的一种主节点设备的示例性框图；以及

图6是本发明的实施例提供的一种非主节点设备的示例性框图。

具体实施方式

本发明提供了一种基于实例的分布式数据恢复方法，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1是本发明的实施例提供的一种分布式数据系统整体框架图，但是应理解，本发明实施例并不局限于图1所示的架构。

在本实施例中，数据库集群中存在两种节点：主节点100和非主节点102。在一个集群中，通常配置一个主节点100。在另一种实施方式中，也可以配置多个备用主节点，但只有一个主节点处于工作状态。从图1中可以看出，还包括多个非主节点102。在数据库系统正常工作的状态下，多个节点均在线运行，称为在线节点，如图1中由数字104标示。在分布式数据库中随时会有节点宕机的情况出现，在这种情况下，非主节点102又分为N1(1≤N1<N2)个宕机节点106和N2(N1<N2<N，其中记非节点总数为N)个在线节点104。主节点100与非主节点102一起共同管理数据库中的数据。在分布式数据库中，数据以文件的形式存在于分布式文件系统108中，文件系统108固定地存在于存储器。节点可以对文件系统108中的数据进行读写操作。文件系统108中的日志(Log)110记录了节点对于数据的所有改动(包括插入、删除等)，因而分布式文件系统对于节点是共享的。

图2是本发明的实施例提供的基于实例的数据存储结构框图。在本实例中，技术实现是以实例的存储为基础的。具体地，实例可以为存储对象，例如机器名(如服务器名)、程序名等。此外，数据库为三个层级的存储结构，实例存储于一级存储单元(如SSTABLE)202中。其他两个层级分别为二级存储单元(如Leaf Tablet)204和三级存储单元(如RootTablet)206。

可选地，数据库存储结构中包括多个一级存储单元202，一级存储结构202可以是数据库中最小的存储单元，每个一级存储单元202里的数据是按照主键有序的。实例名作为主键的一部分包含于主键中，因而存储的数据是按照实例有序的。此外，每个一级存储单元202中只存储一个实例的数据，每个一级存储单元202的序号是唯一的。数据库存储结构还可包括多个二级存储单元204，且二级存储单元204可以是集群主节点100元数据存储的最小单位。每个二级存储单元204中存放有按照主键有序的一级存储单元202的索引。此外，数据库存储结构还可包括一个或多个三级存储单元206，三级存储单元206用来索引二级存储单元204，在其中存放有按照主键有序的指向二级存储单元204的索引。

更进一步，在本发明的实施例提供的集群，非主节点102管理一级存储单元202，每一个非主节点102管理一个或多个由二级存储单元204索引的一级存储单元202。一个二级存储单元204不能跨多个节点管理，即一个二级存储单元204中索引的一级存储单元202只能由一个非主节点102管理。具体地，如图2所示，一级存储单元208和210不能分属于两个非主节点管理。此外，当一个一级存储单元不可同时由两个不同的二级存储单元索引。具体地，如图2中所示，一级存储单元212不可同时被二级存储单元214和216索引。主节点100管理二级存储单元204和三级存储单元206。

图3是本发明的实施例提供的基于实例的分布式数据恢复方法的数据恢复流程图。在本发明提供的一个实施例中，某一时刻集群中的某个节点宕机。根据本发明提供的方法，数据恢复可以包括如下步骤。

步骤302中，主节点100检测到发生宕机的节点。

根据本发明提供的一个实施例，即如图2中所示的一种示例性的数据库存储结构，主节点100管理着该索引了宕机节点106所管理的多个一级存储单元202的二级存储单元204。在这种实施方式中，主节点100将宕机节点106管理的多个一级存储存储单元对应的二级存储单元分配给在线节点104，如步骤304。

根据上文说述，对应于一个非主节点102的二级存储单元202可以有多个。在一个实施方式中，为保证数据恢复效率，在执行步骤304时，主节点100将对应于该宕机节点106的多个二级存储单元202均匀分配给多个在线节点104。在另一个实施方式中，每个节点的日志会存放在以该节点的网络地址和端口命名的目录中，在将二级存储单元204分配给在线节点104时，同时将要恢复的宕机节点106的网路地址和端口通知给在线节点。从而使在线节点104可以在日志中找到该宕机节点106的日志区域。

在步骤306，通过对日志进行Hash归类，并将归类后的日志分配到多个线程。

在步骤308，在完成Hash归类并分配线程后，于在线节点104内部多线程并行地进行数据恢复。

进一步的，在一些实施方式中，多个在线节点104在节点内部按照所分配的多个线程，根据日志所存储的内容对宕机节点106的操作进行逻辑重演。

在一个实施方式中，在线节点104完成数据恢复后，主节点可以在三级存储单元206中给原宕机节点106对应的二级存储单元重新分配对应关系，并且将这些二级存储单元对应到恢复它们的在线节点，如步骤310。

图4是本发明的实施例提供的基于实例的分布式数据恢复方法在数据恢复过程中，Hash归类过程的示意图。在本发明提供的实施例中，进行数据恢复过程时，在线节点104根据宕机节点106的网络地址和端口找到该节点日志的存放位置402后，在线节点对日志文件进行逐条扫描。因为每条日志记录中均存有关于二级存储单元204的信息，使得在线节点在对日志的扫描过程中可以找到需要由自己恢复的日志，每发现一条相符的日志，则对该条日志进行Hash归类。

具体地，在一个实施方式中，阶段404的Hash归类方法可以为如下过程。根据实例的存储形式，将日志记录中记载的实例名进行转换。在本实施例中，实例可以为机器名、程序名等，则相当于字符串。可以将字符串转换成ASCⅡ码。然后，将转换后的ASCⅡ码累加，并将所得的和取为一个32bit的整型数字。再对该数字对恢复线程数量取模，得到恢复该实例的线程ID。因为实例名是唯一的，所以相应的线程ID也是唯一的。即，经过这样的转换后，每个实例对应唯一的一个线程。因此可以将存有宕机节点106的日志按照实例映射为多个并行的数据恢复线程。

本申请的第二方面提供了一种用于基于实例的分布式数据库数据恢复的装置。该装置包括主节点设备和非主节点设备。

图5示出了本发明的实施例提供的一种主节点设备的示例性框图。可选择地，主节点设备500包括检测模块502和分配模块504。在一个实施方式中，检测模块502用于检测发生宕机的非主节点102。分配模块504用于将对应于宕机节点106的多个二级存储单元204分配给至少一个在线节点104。在另一个实施方式中，所提供的分配模块504还可以用于，当在线节点104完成数据恢复后，将二级存储单元204的管理节点更改为执行恢复操作的在线节点104。

图6示出了本发明的实施例提供的一种非主节点设备的示例性框图。可选择地，非主节点设备600包括：接收模块602、扫描模块604以及处理模块606。

在一个实施方式中，接收模块602用于分配至非主节点的有关对应于宕机节点106的多个二级存储单元204的信息。扫描模块604用于扫描宕机节点日志。处理模块606用于进行Hash归类以使得相同的实例的日志110映射到多个线程中的同一个。在另一个实施方式中，所提供的接收模块602还用于接收宕机节点106的网络地址和端口命名，以使得用于数据恢复的在线节点104通过接收到的网络地址和端口命名在文件系统108中找到宕机节点106的日志110所在的区域。

本领域技术人员应理解上述实施例方法的全部或部分是可通过计算机程序指示相关硬件来完成的，所述的程序可存储与计算机可读的存储介质中。执行程序时，可包括上述方法的实施例的流程。本发明的描述是为教导本领域技术人员实现本发明的最佳方式而已，不能因此限定本发明的权利范围，因此依照本发明的权利要求的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于实例的分布式数据恢复方法，包括：

检测到发生宕机的非主节点；

将对应于所述发生宕机的非主节点的多个二级存储单元分配给至少一个在线节点；

对日志所存放的实例进行Hash归类并分配到所述在线节点内部的多个线程；以及

在所述多个线程内并行恢复多个一级存储单元的数据；

其中，利用Hash归类以使得相同的所述实例的日志映射到所述多个线程中的同一个，从而根据所述实例的不同将所述日志分配到多个所述线程；

所述二级存储单元的索引存于三级存储单元，所述多个二级存储单元中的每一个存储有所述多个一级存储单元的索引，所述多个一级存储单元中的每一个存储有一个实例。

2.根据权利要求1所述的方法，其中，所述多个一级存储单元中存储的数据是按照所述实例有序的。

3.根据权利要求2所述的方法，其中，主节点与非主节点共同构成集群中的节点，所述非主节点中的每个管理所述二级存储单元索引的所述一级存储单元，所述主节点管理所述三级存储单元和所述二级存储单元。

4.根据权利要求1所述的方法，其中，将对应于所述宕机节点的多个二级存储单元均匀地分配给至少一个在线节点。

5.根据权利要求1所述的方法，其中，所述Hash归类步骤为：对日志记录中记载的实例名进行转换，将字符串的每个字符转变成ASCⅡ码后累加，并将所得的和取为一个32bit的整型数字；以及，对该数字对恢复线程数量取模，得到恢复该实例的线程ID。

6.根据权利要求1所述的方法，其中，所述至少一个在线节点按照所述日志的内容在自己的进程内进行逻辑重演恢复数据。

7.根据权利要求1所述的方法，还包括：

在所述至少一个在线节点完成数据恢复后，将所述二级存储单元的管理节点更改为执行恢复操作的在线节点。

8.一种用于权利要求1所述的方法的装置，包括：

主节点设备，用于管理二级存储单元和三级存储单元；以及

非主节点设备，用于管理一级存储单元；

9.根据权利要求8所述的一种用于权利要求1所述的方法的装置，其中，主节点设备包括：

检测模块，用于检测发生宕机的非主节点；以及

分配模块，用于将对应于宕机节点的多个所述二级存储单元分配给至少一个在线节点。

10.根据权利要求8所述的一种用于权利要求1所述的方法的装置，其中，非主节点设备包括：

接收模块，用于接收分配至所述非主节点的有关对应于宕机节点的多个二级存储单元的信息；

扫描模块，用于扫描所述宕机节点日志；以及

处理模块，用于进行Hash归类以使得相同的所述实例的日志映射到多个线程中的同一个。

11.根据权利要求9所述的一种用于权利要求1所述的方法的装置，其中，分配装置还用于当所述至少一个在线节点完成数据恢复后，将所述二级存储单元的管理节点更改为执行恢复操作的在线节点。

12.根据权利要求10所述的一种用于权利要求1所述的方法的装置，其中，接收模块还用于接收所述宕机节点的网络地址和端口命名。