CN116126969A

CN116126969A - 分布式数据库的重启方法、装置、存储介质以及电子设备

Info

Publication number: CN116126969A
Application number: CN202211667223.4A
Authority: CN
Inventors: 沈左春; 黄健
Original assignee: Jinzhuan Xinke Co Ltd
Current assignee: Jinzhuan Xinke Co Ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-05-16

Abstract

本发明公开了一种分布式数据库的重启方法、装置、存储介质以及电子设备。该方法包括：在确定分布式数据库中的每一个分片的主节点有至少一个状态正常的备节点的情况下，同时启动每一个分片对应的线程，以使每一个分片同时开始重启流程；对目标分片的备节点组中的每一个备节点依次进行重启；在目标分片的备节点组中的所有备节点重启成功的情况下，将目标分片的备节点组中的目标备节点与目标分片的主节点进行切换；对目标分片的主节点进行重启；在目标分片的主节点重启成功的情况下，将目标备节点与目标分片的主节点进行回切；目标分片的重启流程结束并确定目标分片重启成功。本发明解决了分布式数据库的重启效率低的技术问题。

Description

分布式数据库的重启方法、装置、存储介质以及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种分布式数据库的重启方法、装置、存储介质以及电子设备。

背景技术

随着互联网的快速发展，用户消费模式趋于便捷化，不断增长的银行业务对金融级数据库提出了更高的要求。分布式数据库因其高可用，高可靠，高容灾等优势已逐步成为金融行业存储数据的主流选择。金融行业因其业务的特殊性，对数据的存储有着更为严格的要求，涉及到的分布式数据库需保证能够时刻对外提供正常服务，不能影响用户使用，否则后果甚为严重。为了适应各种金融业务场景，会遇到需要重启分布式数据库的情况，比如修改了数据库中只有重启后才会生效的静态参数。处理繁重银行业务的分布式数据库，往往是由海量的单体数据库组建而成。重启分布式数据库需保证所有单体数据库都能成功重启，且在重启过程中需保证整个集群正常对外提供服务。对用户不感知的透明化重启无疑是分布式数据库运维上的一项挑战。目前没有有效的解决方案。若在同一时间点对分布式数据库中所有节点进行重启，会导致重启过程集群的不可用，采用轮流重启方式可以提高重启过程集群的可用性，但是针对单个节点重启失败的情况，往往还是会影响集群对外提供服务。

发明内容

本发明实施例提供了一种分布式数据库的重启方法、装置、存储介质以及电子设备，以至少解决分布式数据库的重启效率低的技术问题。

根据本发明实施例的一个方面，提供了一种分布式数据库的重启方法，包括：在确定分布式数据库中的每一个分片的主节点有至少一个状态正常的备节点的情况下，同时启动每一个分片对应的线程，以使每一个分片同时开始重启流程；对上述目标分片的备节点组中的每一个备节点依次进行重启，其中上述目标分片为上述分布式数据库中的任意一个分片，上述备节点组由上述目标分片的所有状态为正常的备节点组成；在上述目标分片的备节点组中的所有备节点重启成功的情况下，将上述目标分片的备节点组中的目标备节点与上述目标分片的主节点进行切换，其中，上述目标备节点为上述目标分片的备节点组中的任意一个备节点；对上述目标分片的主节点进行重启；在上述目标分片的主节点重启成功的情况下，将上述目标备节点与上述目标分片的主节点进行回切；在上述目标备节点与上述目标分片的主节点回切成功的情况下，上述目标分片的重启流程结束并确定上述目标分片重启成功。

根据本发明实施例的另一方面，提供了一种分布式数据库的重启装置，包括：第一确定模块，用于在确定分布式数据库中的每一个分片的主节点有至少一个状态正常的备节点的情况下，同时启动每一个分片对应的线程，以使每一个分片同时开始重启流程；第一重启模块，用于对上述目标分片的备节点组中的每一个备节点依次进行重启，其中上述目标分片为上述分布式数据库中的任意一个分片，上述备节点组由上述目标分片的所有状态为正常的备节点组成；第一切换模块，用于在上述目标分片的备节点组中的所有备节点重启成功的情况下，将上述目标分片的备节点组中的目标备节点与上述目标分片的主节点进行切换，其中，上述目标备节点为上述目标分片的备节点组中的任意一个备节点；第二重启模块，用于对上述目标分片的主节点进行重启；第一回切模块，用于在上述目标分片的主节点重启成功的情况下，将上述目标备节点与上述目标分片的主节点进行回切；第二确定模块，用于在上述目标备节点与上述目标分片的主节点回切成功的情况下，上述目标分片的重启流程结束并确定上述目标分片重启成功。

作为一种可选的示例，上述第一重启模块包括：处理单元，用于将上述目标分片中的备节点组中的每一个备节点作为当前备节点，对上述当前备节点执行如下操作：获取上述分布式数据库的第一进程号，其中，上述第一进程号为上述当前备节点重启前的进程号；对上述当前备节点进行重启；获取上述分布式数据库的第二进程号，其中，上述第二进程号为上述当前备节点重启后的进程号；在上述第一进程号与上述第二进程号不相同且上述分布式数据库的状态为正常的情况下，确定上述当前备节点重启成功；将上述当前备节点的下一备节点作为上述当前备节点。

作为一种可选的示例，上述处理单元，还用于：在获取上述分布式数据库的第二进程号之后，在上述第一进程号与上述第二进程号相同的情况下，每间隔第一时长获取一次上述第二进程号；在上述当前备节点重启后的第二时长后，上述第一进程号与上述第二进程号相同的情况下，确定上述当前备节点重启失败，终止上述目标分片的重启流程，并将上述当前备节点和上述当前备节点的失败原因记录到失败节点组中。

作为一种可选的示例，上述处理单元，还用于：在获取上述分布式数据库的第二进程号之后，在上述第一进程号与上述第二进程号不相同且上述分布式数据库的状态为不正常的情况下，每间隔第三时长确定一次上述分布式数据库的状态；在上述当前备节点重启后的第四时长后，上述分布式数据库的状态为不正常的情况下，确定上述当前备节点重启失败，终止上述目标分片的重启流程，并将上述当前备节点和上述当前备节点的失败原因记录到失败节点组中。

作为一种可选的示例，上述第一重启模块包括：第一终止单元，用于在上述目标分片中的主节点重启失败的情况下，终止上述目标分片的重启流程，并将上述主节点和上述主节点的失败原因记录到失败节点组中；第二终止单元，用于在上述目标分片的目标备节点与上述目标分片的主节点切换失败的情况下，终止上述目标分片的重启流程，并将上述目标分片的主节点记录到上述失败节点组中；第三终止单元，用于在上述目标分片的目标备节点与上述目标分片的主节点回切失败的情况下，终止上述目标分片的重启流程，并将上述目标分片的主节点记录到上述失败节点组中。

作为一种可选的示例，上述装置还包括：第一重试模块，用于在上述分布式数据库的所有分片的重启流程结束之后，在接收到第一目标失败节点的重试信号的情况下，再次对上述第一目标失败节点进行重启，并在上述第一目标失败节点重启成功后，继续上述第一目标失败节点所在分片的重启流程，其中，上述第一目标失败节点为上述失败节点组中的重启失败的任意一个节点；第二重试模块，用于在接收到第二目标失败节点的重试信号的情况下，再次将上述第二目标失败节点与上述第二目标失败节点对应的目标备节点进行切换，并在上述第二目标失败节点切换成功后，继续上述第二目标失败节点所在分片的重启流程，其中，上述第二目标失败节点为上述失败节点组中的切换失败的任意一个节点；第三重试模块，用于在接收到第三目标失败节点的重试信号的情况下，再次将上述第三目标失败节点与上述第三目标失败节点对应的目标备节点进行回切，并在上述第三目标失败节点回切成功后，上述第三目标失败节点所在分片的重启流程结束，并确定上述第三目标失败节点所在分片重启成功，其中，上述第三目标失败节点为上述失败节点组中的回切失败的任意一个节点。

作为一种可选的示例，上述装置还包括：第一跳过模块，用于在上述分布式数据库的所有分片的重启流程结束之后，在接收到第一目标失败节点的跳过信号的情况下，继续上述第一目标失败节点所在分片的重启流程；第二跳过模块，用于在接收到第二目标失败节点的跳过信号的情况下，继续上述第二目标失败节点所在分片的重启流程；第三跳过模块，用于在接收到第三目标失败节点的跳过信号的情况下，上述第三目标失败节点所在分片的重启流程结束，并确定上述第三目标失败节点所在分片重启成功。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被处理器运行时执行上述分布式数据库的重启方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的分布式数据库的重启方法。

在本发明实施例中，采用了在确定分布式数据库中的每一个分片的主节点有至少一个状态正常的备节点的情况下，同时启动每一个分片对应的线程，以使每一个分片同时开始重启流程；对上述目标分片的备节点组中的每一个备节点依次进行重启，其中上述目标分片为上述分布式数据库中的任意一个分片，上述备节点组由上述目标分片的所有状态为正常的备节点组成；在上述目标分片的备节点组中的所有备节点重启成功的情况下，将上述目标分片的备节点组中的目标备节点与上述目标分片的主节点进行切换，其中，上述目标备节点为上述目标分片的备节点组中的任意一个备节点；对上述目标分片的主节点进行重启；在上述目标分片的主节点重启成功的情况下，将上述目标备节点与上述目标分片的主节点进行回切；在上述目标备节点与上述目标分片的主节点回切成功的情况下，上述目标分片的重启流程结束并确定上述目标分片的重启成功的方法，由于在上述方法中，所有分片同时重启，每个分片根据先重启状态正常的备节点，再在将备节点与主节点进行切换后，重启主节点，最后将两个节点回切的规则进行重启，从而实现了提高分布式数据库的重启效率的目的，进而解决了分布式数据库的重启效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的分布式数据库的重启方法的流程图；

图2是根据本发明实施例的一种可选的分布式数据库的重启方法的重启流程图；

图3是根据本发明实施例的一种可选的分布式数据库的重启方法的重启状态判断流程图；

图4是根据本发明实施例的一种可选的分布式数据库的重启装置的结构示意图；

图5是根据本发明实施例的一种可选的电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的第一方面，提供了一种分布式数据库的重启方法，可选地，如图1所示，上述方法包括：

S102，在确定分布式数据库中的每一个分片的主节点有至少一个状态正常的备节点的情况下，同时启动每一个分片对应的线程，以使每一个分片同时开始重启流程；

S104，对目标分片的备节点组中的每一个备节点依次进行重启，其中目标分片为分布式数据库中的任意一个分片，备节点组由目标分片的所有状态为正常的备节点组成；

S106，在目标分片的备节点组中的所有备节点重启成功的情况下，将目标分片的备节点组中的目标备节点与目标分片的主节点进行切换，其中，目标备节点为目标分片的备节点组中的任意一个备节点；

S108，对目标分片的主节点进行重启；

S110，在目标分片的主节点重启成功的情况下，将目标备节点与目标分片的主节点进行回切；

S112，在目标备节点与目标分片的主节点回切成功的情况下，目标分片的重启流程结束并确定目标分片重启成功。

可选地，本实施例中，线程是操作系统能够进行运算调度的最小单位，它被包涵在进程之中，是行程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并行多个线程，每条线程并行执行不同的任务。

可选地，本实施例中，为了保障分布式数据库重启过程不影响对外提供服务，提升运维对于分布式数据库重启各节点的监控和异常处理效率，分布式数据库重启前先进行预判。预判每一个分片的主节点有至少一个状态正常的备节点的情况下，重启过程不会影响业务的可用性，则可以进行重启。若预判到某个分片中没有一个状态正常的备节点等异常情况时，则给出具体提示信息，以使运维人员处理异常，直到预判通过后执行重启操作。将每一个分片中状态正常的备节点确定为其分片的备节点组，所有分片同时进行重启。

下面以第一分片的重启流程为例，如图2所示：

1、轮流重启第一分片的备节点组中的每一个备节点，且有一个节点重启失败则记录各节点的重启结果，并终止后续节点的重启，避免了大量节点都重启失败导致服务不可用情况；

2、所有备节点重启成功后，随机从备节点组中选择一个备节点与主节点进行切换，若主备切换执行失败，记录该节点状态为主备切换失败，终止后续流程；

3、在切换成功后，重启主节点，若主节点重启失败，记录主节点状态为重启失败，终止后续流程；

4、在主节点重启成功后，将主节点与该备节点回切，以保证分布式数据库的主节点不会发生变化，实现重启前后分布式数据库的状态一致性，若主备回切执行失败，记录该节点状态为主备回切失败，终止后续流程；

5、在主备节点回切成功后，第一分片的重启流程结束并确定第一分片的重启成功。

可选地，本实施例中，以上重启，主备切换和主备回切操作都会记录执行结果，对重启失败节点、切换失败节点以及回切失败节点还会记录具体失败原因。还提供了分布式数据库重启详情管理界面，收集并展示节点重启过程、主备切换以及回切过程的成功节点和失败节点，解决重启失败节点难以感知问题。

可选地，本实施例中，所有分片同时重启，每个分片根据先重启状态正常的备节点，再在将备节点与主节点进行切换后，重启主节点，最后将两个节点回切的规则进行重启，从而实现了提高分布式数据库的重启效率的目的，进而解决了分布式数据库的重启效率低的技术问题。

作为一种可选的示例，对目标分片的备节点组中的每一个备节点依次进行重启包括：

将目标分片中的备节点组中的每一个备节点作为当前备节点，对当前备节点执行如下操作：

获取分布式数据库的第一进程号，其中，第一进程号为当前备节点重启前的进程号；

对当前备节点进行重启；

获取分布式数据库的第二进程号，其中，第二进程号为当前备节点重启后的进程号；

在第一进程号与第二进程号不相同且分布式数据库的状态为正常的情况下，确定当前备节点重启成功；

将当前备节点的下一备节点作为当前备节点。

作为一种可选的示例，在获取分布式数据库的第二进程号之后，上述方法还包括：

在第一进程号与第二进程号相同的情况下，每间隔第一时长获取一次第二进程号；

在当前备节点重启后的第二时长后，第一进程号与第二进程号相同的情况下，确定当前备节点重启失败，终止目标分片的重启流程，并将当前备节点和当前备节点的失败原因记录到失败节点组中。

在第一进程号与第二进程号不相同且分布式数据库的状态为不正常的情况下，每间隔第三时长确定一次分布式数据库的状态；

在当前备节点重启后的第四时长后，分布式数据库的状态为不正常的情况下，确定当前备节点重启失败，终止目标分片的重启流程，并将当前备节点和当前备节点的失败原因记录到失败节点组中。

可选地，本实施例中，以第一分片的第一节点重启过程为例，重启状态判断流程图如图3所示：

1、通过she l l命令获取分布式数据库当前的第一进程号；

2、通过she l l命令发起第一节点的重启指令，以使第一节点进行重启；

3、通过she l l命令再次获取分布式数据库当前的第二进程号；

4、比较重启前后第一进程号与第二进程号是否相同，若不相同，表明第一节点已开始执行重启。此时需判断分布式数据库状态是否正常，若状态正常，则第一节点重启成功。若否，则判断是否超过预定时长第二时长，若已超时，则第一节点重启失败，将第一节点记录到失败节点组中。若否，则间隔短暂时间后，再次判断分布式数据库状态是否正常。

5、若第一进程号与第二进程号相同，表明分布式数据库未执行重启，此时判断是否超过预定时长第二时长。若已超时，则第一节点重启失败，将第一节点记录到失败节点组中，若否，则间隔短暂时间后，再次获取当前的第二进程号，继续和第一进程号比较。在第一节点重启成功后，继续根据上述步骤对下一个节点第二节点进行重启。

作为一种可选的示例，上述方法还包括：

在目标分片中的主节点重启失败的情况下，终止目标分片的重启流程，并将主节点和主节点的失败原因记录到失败节点组中；

在目标分片的目标备节点与目标分片的主节点切换失败的情况下，终止目标分片的重启流程，并将目标分片的主节点记录到失败节点组中；

在目标分片的目标备节点与目标分片的主节点回切失败的情况下，终止目标分片的重启流程，并将目标分片的主节点记录到失败节点组中。

可选地，本实施例中，以第一分片的重启流程，若主节点重启失败，则终止第一分片的重启流程，并将主节点记录到失败节点组中，若主节点与备节点切换失败，则终止第一分片的重启流程，并将主节点和此备节点记录到失败节点组中，若主节点与备节点回切失败，则终止第一分片的重启流程，并将主节点和此备节点记录到失败节点组中。

作为一种可选的示例，在分布式数据库的所有分片的重启流程结束之后，上述方法还包括：

在接收到第一目标失败节点的重试信号的情况下，再次对第一目标失败节点进行重启，并在第一目标失败节点重启成功后，继续第一目标失败节点所在分片的重启流程，其中，第一目标失败节点为失败节点组中的重启失败的任意一个节点；

在接收到第二目标失败节点的重试信号的情况下，再次将第二目标失败节点与第二目标失败节点对应的目标备节点进行切换，并在第二目标失败节点切换成功后，继续第二目标失败节点所在分片的重启流程，其中，第二目标失败节点为失败节点组中的切换失败的任意一个节点；

在接收到第三目标失败节点的重试信号的情况下，再次将第三目标失败节点与第三目标失败节点对应的目标备节点进行回切，并在第三目标失败节点回切成功后，第三目标失败节点所在分片的重启流程结束，并确定第三目标失败节点所在分片重启成功，其中，第三目标失败节点为失败节点组中的回切失败的任意一个节点。

在接收到第一目标失败节点的跳过信号的情况下，继续第一目标失败节点所在分片的重启流程；

在接收到第二目标失败节点的跳过信号的情况下，继续第二目标失败节点所在分片的重启流程；

在接收到第三目标失败节点的跳过信号的情况下，第三目标失败节点所在分片的重启流程结束，并确定第三目标失败节点所在分片重启成功。

可选地，本实施例中，提供重启结果详情管理界面，可便捷掌控各节点的重启状况。针对重启失败节点，提供“重试”和“跳过”功能，保证整个分布式数据库重启过程得到闭环，数据库中各节点状态达到最终一致性。可以在不影响分布式数据库对外提供服务前提下，提升了运维感知重启过程各节点状态以及处理重启异常情况的效率。

可选地，本实施例中，为了便于在分布式数据库重启详情界面查看各节点重启状态、切换状态、回切状态以及进行“重试”和“跳过”操作，在整个重启过程中，会记录每个节点的重启结果，以及过程中的切换结果和以及回结果，共分为10种状态，如表1所示：

(表1)

状态编码	状态含义
		RESTART_SUC	重启成功
RESTART_FAIL	重启失败
		SWITCH_SUC	主备切换成功
SWITCH_FAIL	主备切换失败
		SWITCH_BACK_SUC	主备回切成功
SWITCH_BACK_FAIL	主备回切失败
		EXCEPTION_STATE	初始化状态异常
UNDO_COMPONENT	未执行重启
		NO_COMPONENT_SWITCH	没有正常备机可进行主备切换
UNDO_SWITCH_BACK	未执行主备回切

表1中有10种状态，前6种分别表示分布式数据库各节点在重启、主备切换和主备回切阶段成功与失败的结果状态。EXCEPT ION_STATE表示在执行重启之前的预判阶段发现的关机等异常节点的状态；UNDO_COMPONENT表示轮流重启时，当一个节点重启失败，后续节点终止重启情况下未得到重启节点的状态；NO_COMPONENT_SWITCH表示轮到主节点重启时，找不到正常备节点可以进行主备切换的主节点状态；UNDO_SWITCH_BACK表示主备切换完成后，主节点重启失败，此时不会进行主备回切的主节点的状态。

可选地，本实施例中，分布式数据库重启详情管理界面分为重启、主备切换以及主备回切三部分，分别展示重启、主备切换以及主备回切阶段的成功节点和失败节点信息。对于失败节点，提供“重试”和“跳过”功能。“重试”就是把失败节点重新按照先备后主顺序再次轮流重启，若之前重启失败是由于网络震荡等突发偶现情况导致，往往可以“重试”成功，提升了对于重启失败节点的处理效率。若节点自身存在异常，多次重试还是重启失败，需要根据界面显示的重启失败原因进行人工处理。当运维人员修复该节点异常并且手动成功重启该节点后，可使用界面的“跳过”功能进行节点状态标注。“重试”和“跳过”功能使得整个分布式数据库重启过程即使遇到重启失败节点也能便捷处理，保证集群中各节点状态的最终一致性。

可选地，本申请涉及一种分布式数据库的重启方法，本方法具有以下有益效果：

1、先备后主轮流重启节点，失败一个节点后终止后续节点重启，且分片重启完成后，主节点不会发生变化，不会对分布式数据库环境造成破坏，重启期间对外提供服务不会受到影响，具备高可用性；

2、不会局限于某种特殊类型的分布式数据库，可适用于Mysq l，Oracle甚至各种自研分布式数据库重启场景，具有普适性；

3、带有分布式数据库重启详情管理页面，页面直观展示重启成功失败节点以及重启失败原因。用户还可通过“重试”功能简单高效的对重启失败节点进行再次重启。“跳过”功能可以对已人工处理后正常重启的节点进行标注，最终实现重启后各节点的最终一致性；

4、在进行分布式数据库重启前会进行预判，在无正常备节点可进行主备切换情况下会给用户风险提示，让用户有机会处理风险后在进行重启。在重启主节点之前，会先进行主备切换，重启原主完成后在进行主备回切。使得对外提供服务正常前提下，保障了主节点不会因重启发生改变。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本申请实施例的另一方面，还提供了一种分布式数据库的重启装置，如图4所示，包括：

第一确定模块402，用于在确定分布式数据库中的每一个分片的主节点有至少一个状态正常的备节点的情况下，同时启动每一个分片对应的线程，以使每一个分片同时开始重启流程；

第一重启模块404，用于对目标分片的备节点组中的每一个备节点依次进行重启，其中目标分片为分布式数据库中的任意一个分片，备节点组由目标分片的所有状态为正常的备节点组成；

第一切换模块406，用于在目标分片的备节点组中的所有备节点重启成功的情况下，将目标分片的备节点组中的目标备节点与目标分片的主节点进行切换，其中，目标备节点为目标分片的备节点组中的任意一个备节点；

第二重启模块408，用于对目标分片的主节点进行重启；

第一回切模块410，用于在目标分片的主节点重启成功的情况下，将目标备节点与目标分片的主节点进行回切；

第二确定模块412，用于在目标备节点与目标分片的主节点回切成功的情况下，目标分片的重启流程结束并确定目标分片重启成功。

下面以第一分片的重启流程为例，如图2所示：

作为一种可选的示例，第一重启模块包括：

处理单元，用于将目标分片中的备节点组中的每一个备节点作为当前备节点，对当前备节点执行如下操作：

对当前备节点进行重启；

将当前备节点的下一备节点作为当前备节点。

作为一种可选的示例，处理单元，还用于：

在获取分布式数据库的第二进程号之后，在第一进程号与第二进程号相同的情况下，每间隔第一时长获取一次第二进程号；

作为一种可选的示例，处理单元，还用于：

在获取分布式数据库的第二进程号之后，在第一进程号与第二进程号不相同且分布式数据库的状态为不正常的情况下，每间隔第三时长确定一次分布式数据库的状态；

1、通过she l l命令获取分布式数据库当前的第一进程号；

作为一种可选的示例，第一重启模块包括：

第一终止单元，用于在目标分片中的主节点重启失败的情况下，终止目标分片的重启流程，并将主节点和主节点的失败原因记录到失败节点组中；

第二终止单元，用于在目标分片的目标备节点与目标分片的主节点切换失败的情况下，终止目标分片的重启流程，并将目标分片的主节点记录到失败节点组中；

第三终止单元，用于在目标分片的目标备节点与目标分片的主节点回切失败的情况下，终止目标分片的重启流程，并将目标分片的主节点记录到失败节点组中。

作为一种可选的示例，上述装置还包括：

第一重试模块，用于在分布式数据库的所有分片的重启流程结束之后，在接收到第一目标失败节点的重试信号的情况下，再次对第一目标失败节点进行重启，并在第一目标失败节点重启成功后，继续第一目标失败节点所在分片的重启流程，其中，第一目标失败节点为失败节点组中的重启失败的任意一个节点；

第二重试模块，用于在接收到第二目标失败节点的重试信号的情况下，再次将第二目标失败节点与第二目标失败节点对应的目标备节点进行切换，并在第二目标失败节点切换成功后，继续第二目标失败节点所在分片的重启流程，其中，第二目标失败节点为失败节点组中的切换失败的任意一个节点；

第三重试模块，用于在接收到第三目标失败节点的重试信号的情况下，再次将第三目标失败节点与第三目标失败节点对应的目标备节点进行回切，并在第三目标失败节点回切成功后，第三目标失败节点所在分片的重启流程结束，并确定第三目标失败节点所在分片重启成功，其中，第三目标失败节点为失败节点组中的回切失败的任意一个节点。

作为一种可选的示例，上述装置还包括：

第一跳过模块，用于在分布式数据库的所有分片的重启流程结束之后，在接收到第一目标失败节点的跳过信号的情况下，继续第一目标失败节点所在分片的重启流程；

第二跳过模块，用于在接收到第二目标失败节点的跳过信号的情况下，继续第二目标失败节点所在分片的重启流程；

第三跳过模块，用于在接收到第三目标失败节点的跳过信号的情况下，第三目标失败节点所在分片的重启流程结束，并确定第三目标失败节点所在分片重启成功。

可选地，本实施例中，为了便于在分布式数据库重启详情界面查看各节点重启状态、切换状态、回切状态以及进行“重试”和“跳过”操作，在整个重启过程中，会记录每个节点的重启结果，以及过程中的切换结果和以及回结果。

本实施例的其他示例请参见上述示例，在此不在赘述。

图5是根据本申请实施例的一种可选的电子设备的示意图，如图5所示，包括处理器502、通信接口504、存储器506和通信总线508，其中，处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信，其中，

存储器506，用于存储计算机程序；

处理器502，用于执行存储器506上所存放的计算机程序时，实现如下步骤：

在确定分布式数据库中的每一个分片的主节点有至少一个状态正常的备节点的情况下，同时启动每一个分片对应的线程，以使每一个分片同时开始重启流程；

对目标分片的备节点组中的每一个备节点依次进行重启，其中目标分片为分布式数据库中的任意一个分片，备节点组由目标分片的所有状态为正常的备节点组成；

在目标分片的备节点组中的所有备节点重启成功的情况下，将目标分片的备节点组中的目标备节点与目标分片的主节点进行切换；

对目标分片的主节点进行重启；

在目标分片的主节点重启成功的情况下，将目标备节点与目标分片的主节点进行回切；

目标分片的重启流程结束并确定目标分片的重启成功。

可选地，在本实施例中，上述的通信总线可以是PCI(Per ipheral Component Interconnect，外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volati le memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，上述存储器506中可以但不限于包括上述分布式数据库的重启装置中的第一确定模块402、第一重启模块404、第一切换模块406、第二重启模块408、第一回切模块410以及第二确定模块412。此外，还可以包括但不限于上述分布式数据库的重启装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Appl ication Specific Integrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图5所示的结构仅为示意，实施上述分布式数据库的重启方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobi l e I nternet Devices，MI D)、PAD等终端设备。图5并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图5所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被处理器运行时执行上述分布式数据库的重启方法中的步骤。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-On ly Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种分布式数据库的重启方法，其特征在于，包括：

对目标分片的备节点组中的每一个备节点依次进行重启，其中所述目标分片为所述分布式数据库中的任意一个分片，所述备节点组由所述目标分片的所有状态为正常的备节点组成；

在所述目标分片的备节点组中的所有备节点重启成功的情况下，将所述目标分片的备节点组中的目标备节点与所述目标分片的主节点进行切换，其中，所述目标备节点为所述目标分片的备节点组中的任意一个备节点；

对所述目标分片的主节点进行重启；

在所述目标分片的主节点重启成功的情况下，将所述目标备节点与所述目标分片的主节点进行回切；

在所述目标备节点与所述目标分片的主节点回切成功的情况下，所述目标分片的重启流程结束并确定所述目标分片重启成功。

2.根据权利要求1所述的方法，其特征在于，所述对目标分片的备节点组中的每一个备节点依次进行重启包括：

将所述目标分片中的备节点组中的每一个备节点作为当前备节点，对所述当前备节点执行如下操作：

获取所述分布式数据库的第一进程号，其中，所述第一进程号为所述当前备节点重启前的进程号；

对所述当前备节点进行重启；

获取所述分布式数据库的第二进程号，其中，所述第二进程号为所述当前备节点重启后的进程号；

在所述第一进程号与所述第二进程号不相同且所述分布式数据库的状态为正常的情况下，确定所述当前备节点重启成功；

将所述当前备节点的下一备节点作为所述当前备节点。

3.根据权利要求2所述的方法，其特征在于，在获取所述分布式数据库的第二进程号之后，所述方法还包括：

在所述第一进程号与所述第二进程号相同的情况下，每间隔第一时长获取一次所述第二进程号；

在所述当前备节点重启后的第二时长后，所述第一进程号与所述第二进程号相同的情况下，确定所述当前备节点重启失败，终止所述目标分片的重启流程，并将所述当前备节点和所述当前备节点的失败原因记录到失败节点组中。

4.根据权利要求2所述的方法，其特征在于，在获取所述分布式数据库的第二进程号之后，所述方法还包括：

在所述第一进程号与所述第二进程号不相同且所述分布式数据库的状态为不正常的情况下，每间隔第三时长确定一次所述分布式数据库的状态；

在所述当前备节点重启后的第四时长后，所述分布式数据库的状态为不正常的情况下，确定所述当前备节点重启失败，终止所述目标分片的重启流程，并将所述当前备节点和所述当前备节点的失败原因记录到失败节点组中。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述目标分片中的主节点重启失败的情况下，终止所述目标分片的重启流程，并将所述主节点和所述主节点的失败原因记录到失败节点组中；

在所述目标分片的目标备节点与所述目标分片的主节点切换失败的情况下，终止所述目标分片的重启流程，并将所述目标分片的主节点记录到所述失败节点组中；

在所述目标分片的目标备节点与所述目标分片的主节点回切失败的情况下，终止所述目标分片的重启流程，并将所述目标分片的主节点记录到所述失败节点组中。

6.根据权利要求1所述的方法，其特征在于，在所述分布式数据库的所有分片的重启流程结束之后，所述方法还包括：

在接收到第一目标失败节点的重试信号的情况下，再次对所述第一目标失败节点进行重启，并在所述第一目标失败节点重启成功后，继续所述第一目标失败节点所在分片的重启流程，其中，所述第一目标失败节点为所述失败节点组中的重启失败的任意一个节点；

在接收到第二目标失败节点的重试信号的情况下，再次将所述第二目标失败节点与所述第二目标失败节点对应的目标备节点进行切换，并在所述第二目标失败节点切换成功后，继续所述第二目标失败节点所在分片的重启流程，其中，所述第二目标失败节点为所述失败节点组中的切换失败的任意一个节点；

在接收到第三目标失败节点的重试信号的情况下，再次将所述第三目标失败节点与所述第三目标失败节点对应的目标备节点进行回切，并在所述第三目标失败节点回切成功后，所述第三目标失败节点所在分片的重启流程结束，并确定所述第三目标失败节点所在分片重启成功，其中，所述第三目标失败节点为所述失败节点组中的回切失败的任意一个节点。

7.根据权利要求1所述的方法，其特征在于，在所述分布式数据库的所有分片的重启流程结束之后，所述方法还包括：

在接收到第一目标失败节点的跳过信号的情况下，继续所述第一目标失败节点所在分片的重启流程；

在接收到第二目标失败节点的跳过信号的情况下，继续所述第二目标失败节点所在分片的重启流程；

在接收到第三目标失败节点的跳过信号的情况下，所述第三目标失败节点所在分片的重启流程结束，并确定所述第三目标失败节点所在分片重启成功。

8.一种分布式数据库的重启装置，其特征在于，包括：

第一确定模块，用于在确定分布式数据库中的每一个分片的主节点有至少一个状态正常的备节点的情况下，同时启动每一个分片对应的线程，以使每一个分片同时开始重启流程；

第一重启模块，用于对目标分片的备节点组中的每一个备节点依次进行重启，其中所述目标分片为所述分布式数据库中的任意一个分片，所述备节点组由所述目标分片的所有状态为正常的备节点组成；

第一切换模块，用于在所述目标分片的备节点组中的所有备节点重启成功的情况下，将所述目标分片的备节点组中的目标备节点与所述目标分片的主节点进行切换，其中，所述目标备节点为所述目标分片的备节点组中的任意一个备节点；

第二重启模块，用于对所述目标分片的主节点进行重启；

第一回切模块，用于在所述目标分片的主节点重启成功的情况下，将所述目标备节点与所述目标分片的主节点进行回切；

第二确定模块，用于在所述目标备节点与所述目标分片的主节点回切成功的情况下，所述目标分片的重启流程结束并确定所述目标分片重启成功。

9.一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。