CN112838965B

CN112838965B - 一种强同步角色故障的识别与恢复方法

Info

Publication number: CN112838965B
Application number: CN202110188539.4A
Authority: CN
Inventors: 朱林浩; 徐伟涛; 赵文慧
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2023-03-28
Anticipated expiration: 2041-02-19
Also published as: CN112838965A

Abstract

本发明涉及分布式共识协议技术领域，具体提供了一种强同步角色故障的识别与恢复方法，其特征在于，具有以下步骤：S1、强同步角色故障的识别；S2、告知用户强同步角色故障信息；S3、强同步角色故障的处理；S4、避免重复识别强同步角色故障。与现有技术相比，本发明在强同步角色恢复工作后，也能自动恢复其强同步配置，该自动恢复过程除了在命令行告知将要恢复强同步配置的表名以外，对用户无任何影响，具有良好的推广价值。

Description

一种强同步角色故障的识别与恢复方法

技术领域

本发明涉及分布式共识协议技术领域，具体提供一种强同步角色故障的识别与恢复方法。

背景技术

在raft算法的etcd实现版本中，心跳与心跳回复消息用于维系领导者与其他节点的联系，默认发送心跳的时间间隔(即心跳超过时间)为5tick(raft算法中每个raft结构体定时执行的方法，tick间隔约200毫秒，5tick约为1秒)；Progress结构体用于追踪其他节点的状态，包括角色类型、最后一条日志的索引等；配置变更则用于变更集群中的节点数量、角色(如强同步角色)等。写入数据和配置变更都会产生日志，都需要日志提交后才能生效。

根据《In Search of an Understandable Consensus Algorithm》，在raft分布式一致性算法中，日志的提交需要获得集群中半数以上的赞成投票，若没有获得，则集群将无法继续提交日志导致无法写入数据，即便集群中仍然有半数以上的节点正常工作，这将严重影响分布式集群的容灾能力。

若在raft算法中增加强同步角色，将在原有的日志提交策略的基础上，新增获得全部强同步角色赞成投票的条件，该方案打破了投票权重的均等性，在异地分布的集群中，更好地保证了数据一致性，也提供了更多的个性化功能。而强同步角色的故障处理也将成为随之而来的关键问题。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的强同步角色故障的识别与恢复方法。

本发明解决其技术问题所采用的技术方案是：

一种强同步角色故障的识别与恢复方法，具有以下步骤：

S1、强同步角色故障的识别；

S2、告知用户强同步角色故障信息；

S3、强同步角色故障的处理；

S4、避免重复识别强同步角色故障。

进一步的，在步骤S1中，在progress结构体中添加整型计时变量SynchronizerElapsed，表示距离领导者上一次收到来自强同步角色的心跳回复消息的tick次数，在领导者的每次tick中，所有强同步角色的计时变量自增1，领导者每次收到强同步角色的心跳回复时，则将相应的计时变量清零。

进一步的，在步骤S1中，若领导者在一定时间内未收到强同步角色的心跳回复，致使计时变量达到强同步超时时间，则将该强同步角色的id录入raft结构体中用于记录故障强同步角色的映射表inactiveSynchronizers，至此成功识别强同步角色故障。

进一步的，在步骤S2中，识别到强同步角色故障后，领导者所在的节点通过内部SQL查询，获取发送失败的心跳对应range所属的表名，在数据库命令行告知用户故障信息，包括发送心跳失败的目标节点，以及该节点上将要取消同步配置的表名。

进一步的，在步骤S2中，在强同步角色恢复工作后，若发送成功的心跳对应的range在此之前发生了强同步角色故障，则查询上述映射表获取该range所属的表名，在命令行告知用户恢复工作的目标节点，以及该节点上将要恢复强同步配置的表名；

对于同一个table，每次识别到强同步角色故障或故障的强同步角色恢复时，只告知用户一次。

进一步的，在步骤S3中，在领导者决策行为的replicateQueue方法中触发对故障强同步角色的配置变更，强制取消其强同步属性。

进一步的，在步骤S3中，若领导者重新收到故障的强同步角色的心跳回复消息，则将对应的计时变量清零并将其id从inactiveSynchronizers中移除；

如果该强同步配置已经被取消，会自动复用设置强同步角色的逻辑，通过配置变更恢复其强同步属性。

进一步的，在步骤S4中，识别到强同步副本故障后，在取消强同步配置的过程中将inactiveSynchronizers从raft同步到用于描述range状态的基于protobuf的结构体rangeDescriptor，新分裂出的range初始化时获得旧range的inactiveSynchronizers，并同步到为它创建的raft中。

本发明的一种强同步角色故障的识别与恢复方法和现有技术相比，具有以下突出的有益效果：

(1)本发明在强同步角色发送故障后，识别故障信息，暂时取消了强同步配置，恢复了集群可用性，维持了raft分布式集群原有的容灾能力，并将故障信息告知用户。故障期间的写入操作也会成功。若后续发生range分裂、产生新的raft集群，不需要重新识别故障。在强同步角色恢复工作后，也能自动恢复其强同步配置，该自动恢复过程除了在命令行告知将要恢复强同步配置的表名以外，对用户无任何影响。

(2)强同步角色故障的RTO时间为上文提及的、用户可自行配置的强同步超时时间，而强同步超时时间的配置范围取决于心跳超时时间和往返延时，因此在往返延时为秒级别以内的条件下，RTO至少可以达到10秒级别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种强同步角色故障的识别与恢复方法的时间轴示意图；

附图2是本发明中识别和处理强同步副本故障的流程示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1、2所示，本实施例中的一种强同步角色故障的识别与恢复方法，要通过4个阶段，阶段1为强同步角色故障到识别强同步角色故障告知用户故障信息；阶段2为从识别强同步角色故障告知用户故障信息到取消强同步配置；阶段3为取消强同步配置到强同步角色恢复；阶段4为从强同步角色到恢复强同步配置。

其中，强同步角色故障的识别：

在progress结构体中添加整型计时变量SynchronizerElapsed，表示距离领导者上一次收到来自该强同步角色的心跳回复消息的tick次数。在领导者的每次tick(即tickHeartbeat)中，所有强同步角色的计时变量自增1；领导者每次收到强同步角色的心跳回复时，则将相应的计时变量清零。

若领导者在一定时间内未收到强同步角色的心跳回复，致使其计时变量达到强同步超时时间(用户可配置)，则将该强同步角色的id录入raft结构体中用于记录故障强同步角色的映射表inactiveSynchronizers，至此成功识别了强同步角色故障。由于写入数据和配置变更等行为产生的日志的提交忽略识别到的故障强同步角色的投票，集群可用性在这时也得到了恢复。

告知用户强同步角色故障信息：

识别到强同步角色故障后，领导者所在的节点通过内部SQL查询，获取发送失败的心跳对应range所属的表名(并存到一张映射表中以避免重复查询)，在数据库命令行告知用户故障信息，包括发送心跳失败的目标节点，以及该节点上将要取消强同步配置的表名。

在强同步角色恢复工作后，若发送成功的心跳对应的range在此之前发生了强同步角色故障，则查询上述映射表获取该range所属的表名，在命令行告知用户恢复工作的目标节点，以及该节点上将要恢复强同步配置的表名。对于同一个table(可能包含一个或多个range)，每次识别到强同步角色故障或故障的强同步角色恢复时，只告知用户一次。

强同步角色故障的处理：

在领导者决策行为的replicateQueue的方法中触发对故障强同步角色的配置变更，强制取消其强同步属性。若领导者重新收到故障的强同步角色的心跳回复消息(即强同步角色恢复)，则将对应的计时变量清零并将其id从inactiveSynchronizers中移除；如果该强同步配置已经被取消，会自动复用设置强同步角色的逻辑，通过配置变更恢复其强同步属性。

在阶段2至4期间，日志的提交不再需要故障强同步角色的赞成投票。因此，阶段1期间进行的写入操作会处于等待中，并在阶段2期间得到操作成功的回应；阶段2至4期间进行的写入操作则完全不受影响。强同步角色故障引起的集群不可用时间(即RTO时间)就是图1中的阶段1，时长约为强同步超时时间。

避免重复识别强同步角色故障：

在已经识别并处理强同步角色故障的情况下，若对应的table因数据写入导致range分裂，为了避免重复识别强同步角色故障导致集群再次停用强同步超时时间，应该将记录故障强同步角色的映射直接传递到分裂出的新range的raft中。

具体实现方式是：识别到强同步副本故障后，在取消强同步配置的过程中将inactiveSynchronizers从raft同步到用于描述range状态的基于protobuf的结构体rangeDescriptor(之所以将该同步放在取消强同步配置的过程中，是因为rangeDescriptor的修改与配置变更一样需要获得多数赞成票才能应用)。新分裂出的range初始化时获得旧range的inactiveSynchronizers，并同步到为它创建的raft中。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种强同步角色故障的识别与恢复方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种强同步角色故障的识别与恢复方法，其特征在于，具有以下步骤：

S1、强同步角色故障的识别；

在progress结构体中添加整型计时变量SynchronizerElapsed，表示距离领导者上一次收到来自强同步角色的心跳回复消息的tick次数，在领导者的每次tick中，所有强同步角色的计时变量自增1，领导者每次收到强同步角色的心跳回复时，则将相应的计时变量清零；

若领导者在一定时间内未收到强同步角色的心跳回复，致使计时变量达到强同步超时时间，则将该强同步角色的id录入raft结构体中用于记录故障强同步角色的映射表inactiveSynchronizers，至此成功识别强同步角色故障；

S2、告知用户强同步角色故障信息；

识别到强同步角色故障后，领导者所在的节点通过内部SQL查询，获取发送失败的心跳对应range所属的表名，在数据库命令行告知用户故障信息，包括发送心跳失败的目标节点，以及该节点上将要取消同步配置的表名；

S3、强同步角色故障的处理；

在领导者决策行为的replicateQueue方法中触发对故障强同步角色的配置变更，强制取消其强同步属性；

若领导者重新收到故障的强同步角色的心跳回复消息，则将对应的计时变量清零并将其id从inactiveSynchronizers中移除；

如果该强同步配置已经被取消，会自动复用设置强同步角色的逻辑，通过配置变更恢复其强同步属性；

S4、避免重复识别强同步角色故障；

识别到强同步副本故障后，在取消强同步配置的过程中将inactiveSynchronizers从raft同步到用于描述range状态的基于protobuf的结构体rangeDescriptor，新分裂出的range初始化时获得旧range的inactiveSynchronizers，并同步到为它创建的raft中。

2.根据权利要求1所述的一种强同步角色故障的识别与恢复方法，其特征在于，在步骤S2中，在强同步角色恢复工作后，若发送成功的心跳对应的range在此之前发生了强同步角色故障，则查询上述映射表获取该range所属的表名，在命令行告知用户恢复工作的目标节点，以及该节点上将要恢复强同步配置的表名；