CN113810216A

CN113810216A - 一种集群的故障切换方法、装置及电子设备

Info

Publication number: CN113810216A
Application number: CN202011617314.8A
Authority: CN
Inventors: 罗明; 成龙
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-12-17
Anticipated expiration: 2040-12-31
Also published as: CN113810216B

Abstract

本申请公开了一种集群的故障切换方法、装置及电子设备。该方法适用于从节点，包括：响应于所述从节点所属的第一主节点处于宕机状态，判断所述从节点和所述第一主节点是否属于同一数据中心；响应于所述从节点和所述第一主节点属于同一数据中心，则发起故障切换选举流程。由此，本申请通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。

Description

一种集群的故障切换方法、装置及电子设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种集群的故障切换方法、装置及电子设备。

背景技术

集群，能够通过增加服务器的数量，提供相同的服务，从而使服务器达到一个稳定、高效的状态。其中，分布式服务器群，特别是Redis(Remote Dictionary Server)集群，以其具有复制、高可用和分片特性等众多特点广受青睐。

在实际应用中，Redis等集群常常会面临进行机房(又称数据中心，Data Center)切换或对重要的业务进行多机房容灾的需求。此种情况下，需要在另一个机房对每个主节点再添加一个从节点。这样一来，若集群中有节点发生自动故障切换(Failover)，主节点可能被切换至另一个机房，从而导致同一个集群的主节点分布在不同机房。进一步地，在运行过程中，若机房间网络链路出现问题，则会造成脑裂现象，导致数据无法合并。

相关技术中，集群的故障切换方法尚不完善，为了避免脑裂，通常采用整个集群拒绝服务或者发生脑裂的主节点拒绝写入的方式，或者依赖降级措施。这样一来，势必导致集群的故障切换过程中存在极大降低集群的可用性以及无法从根本上解决脑裂的技术问题。因此，如何提高集群的故障切换过程中的有效性和可靠性，进而在确保集群可用性的同时，从根本上解决脑裂问题，已成为了重要的研究方向之一。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种集群的故障切换方法，用于解决现有集群的故障切换方法过程中存在的有效性低、可靠性差，进而极大降低集群的可用性以及无法从根本上解决脑裂的技术问题。

本发明的第二个目的在于提出另一种集群的故障切换方法。

本发明的第三个目的在于提出一种集群的故障切换装置。

本发明的第四个目的在于提出另一种集群的故障切换装置。

本发明的第五个目的在于提出一种电子设备。

本发明的第六个目的在于提出一种计算机可读存储介质。

为了实现上述目的，本申请第一方面实施例提供了一种集群的故障切换方法，适用于从节点，所述方法包括以下步骤：响应于所述从节点所属的第一主节点处于宕机状态，判断所述从节点和所述第一主节点是否属于同一数据中心；响应于所述从节点和所述第一主节点属于同一数据中心，则发起故障切换选举流程。

另外，根据本申请上述实施例的集群的故障切换方法还可以具有如下附加的技术特征：

根据本申请的一个实施例，所述判断所述从节点和所述第一主节点是否属于同一数据中心，包括：获取所述第一主节点所属数据中心的第一标识；判断所述从节点所属数据中心的第二标识是否与所述第一标识一致；响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述第一主节点属于同一数据中心。

根据本申请的一个实施例，所述发起故障切换选举流程，包括：向多个候选主节点发送故障切换选举请求；接收所述候选主节点基于所述选举请求反馈的应答消息；基于所述应答消息，获取投票数量；响应于所述投票数量大于或者等于预设数量，则切换成主节点。

根据本申请的一个实施例，还包括：响应于所述从节点和所述第一主节点非属于同一数据中心，则等待新的第二主节点发送的通知消息；响应于接收到所述通知消息，切换成所述第二主节点的从节点。

根据本申请的一个实施例，还包括：响应于预设时长内未接收到所述通知消息，则返回执行所述判断所述从节点和所述第一主节点是否属于同一数据中心。

本申请第一方面实施例提供了集群的故障切换方法，从节点可以通过响应于从节点所属的第一主节点处于宕机状态，判断从节点和第一主节点是否属于同一数据中心，进而响应于从节点和第一主节点属于同一数据中心，则发起故障切换选举流程，以实现集群的故障切换，使得通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。

为了实现上述目的，本申请第二方面实施例提供了另一种集群的故障切换方法，适用于主节点，所述方法包括以下步骤：接收从节点发送的故障切换选举请求；根据所述选举请求，判断所述从节点和所述主节点是否属于同一数据中心；响应于所述从节点和所述主节点属于同一数据中心，则向所述从节点投票。

根据本申请的一个实施例，所述根据所述选举请求，判断所述从节点和所述主节点是否属于同一数据中心，包括：从所述选举请求中获取所述从节点所属数据中心的第二标识；判断所述第二标识是否与所述主节点所属数据中心的第一标识一致；响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述主节点属于同一数据中心。

根据本申请的一个实施例，还包括：响应于所述从节点和所述主节点非属于同一数据中心，则拒绝向所述从节点投票。

根据本申请的一个实施例，还包括：向所述从节点发送应答消息，其中，所述应答消息携带投票指示信息。

根据本申请的一个实施例，还包括：响应于所述主节点被确定为所述从节点的新的主节点，则向所述从节点发送通知消息。

本申请第二方面实施例提供了集群的故障切换方法，主节点可以通过接收从节点发送的故障切换选举请求，并根据选举请求，判断从节点和主节点是否属于同一数据中心，进而响应于从节点和主节点属于同一数据中心，则向从节点投票，以实现集群的故障切换，使得通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。

为了实现上述目的，本申请第三方面实施例提供了一种集群的故障切换装置，适用于从节点，所述装置包括：判断模块，用于响应于所述从节点所属的第一主节点处于宕机状态，判断所述从节点和所述第一主节点是否属于同一数据中心；发起模块，用于响应于所述从节点和所述第一主节点属于同一数据中心，则发起故障切换选举流程。

根据本申请的一个实施例，所述判断模块，包括：第一获取子模块，用于获取所述第一主节点所属数据中心的第一标识；判断子模块，用于判断所述从节点所属数据中心的第二标识是否与所述第一标识一致；判定子模块，用于响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述第一主节点属于同一数据中心。

根据本申请的一个实施例，所述发起模块，包括：发起子模块，用于向多个候选主节点发送故障切换选举请求；接收子模块，用于接收所述候选主节点基于所述选举请求反馈的应答消息；第二获取子模块，用于基于所述应答消息，获取投票数量；切换子模块，用于响应于所述投票数量大于或者等于预设数量，则切换成主节点。

根据本申请的一个实施例，还包括：等待模块，用于响应于所述从节点和所述第一主节点非属于同一数据中心，则等待新的第二主节点发送的通知消息；切换模块，用于响应于接收到所述通知消息，切换成所述第二主节点的从节点。

根据本申请的一个实施例，还包括：返回模块，用于响应于预设时长内未接收到所述通知消息，则返回执行所述判断所述从节点和所述第一主节点是否属于同一数据中心。

本申请第三方面实施例提供了集群的故障切换装置，从节点可以通过响应于从节点所属的第一主节点处于宕机状态，判断从节点和第一主节点是否属于同一数据中心，进而响应于从节点和第一主节点属于同一数据中心，则发起故障切换选举流程，以实现集群的故障切换，使得通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。

为了实现上述目的，本申请第四方面实施例提供了另一种集群的故障切换装置，适用于主节点，所述装置包括：接收模块，用于接收从节点发送的故障切换选举请求；判断模块，用于根据所述选举请求，判断所述从节点和所述主节点是否属于同一数据中心；投票模块，用于响应于所述从节点和所述主节点属于同一数据中心，则向所述从节点投票。

根据本申请的一个实施例，所述判断模块，包括：第一获取子模块，用于从所述选举请求中获取所述从节点所属数据中心的第二标识；判断子模块，用于判断所述第二标识是否与所述主节点所属数据中心的第一标识一致；判定子模块，用于响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述主节点属于同一数据中心。

根据本申请的一个实施例，还包括：拒绝模块，用于响应于所述从节点和所述主节点非属于同一数据中心，则拒绝向所述从节点投票。

根据本申请的一个实施例，还包括：第一发送模块，用于向所述从节点发送应答消息，其中，所述应答消息携带投票指示信息。

根据本申请的一个实施例，还包括：第二发送模块，用于响应于所述主节点被确定为所述从节点的新的主节点，则向所述从节点发送通知消息。

本申请第四方面实施例提供了集群的故障切换装置，主节点可以通过接收从节点发送的故障切换选举请求，并根据选举请求，判断从节点和主节点是否属于同一数据中心，进而响应于从节点和主节点属于同一数据中心，则向从节点投票，以实现集群的故障切换，使得通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。

为了实现上述目的，本申请第五方面实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请第一方面实施例或第二方面实施例中任一项所述的集群的故障切换方法。

为了实现上述目的，本申请第六方面实施例提供了一种计算机可读存储介质，该程序被处理器执行时实现如本申请第一方面实施例或第二方面实施例中任一项所述的集群的故障切换方法。

附图说明

图1为本申请一个实施例公开的集群的故障切换方法的流程示意图；

图2为本申请另一个实施例公开的集群的故障切换方法的流程示意图；

图3为本申请另一个实施例公开的集群的故障切换方法的流程示意图；

图4为本申请另一个实施例公开的集群的故障切换方法的流程示意图；

图5为本申请另一个实施例公开的集群的故障切换方法的流程示意图；

图6为本申请另一个实施例公开的集群的故障切换方法的流程示意图；

图7为本申请另一个实施例公开的集群的故障切换方法的流程示意图；

图8为本申请一个实施例公开的集群的故障切换装置的结构示意图；

图9为本申请另一个实施例公开的集群的故障切换装置的结构示意图；

图10为本申请另一个实施例公开的集群的故障切换装置的结构示意图；

图11为本申请另一个实施例公开的集群的故障切换装置的结构示意图；

图12为本申请另一个实施例公开的集群的故障切换装置的结构示意图；

图13为本申请另一个实施例公开的集群的故障切换装置的结构示意图；

图14为本申请另一个实施例公开的集群的故障切换装置的结构示意图；

图15为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

应当理解，本申请实施例中涉及的“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

需要说明的是，以Redis集群为例，其是一个由多个Redis主、从节点(至少3个主节点和3个从节点)组成的分布式服务器群。Redis集群各个节点之间会使用gossip协议(又称流行病协议)保持通讯，并且当某一个节点处于宕机状态时，同一个集群中的其他相邻节点就会感知到。可选地，当从节点(slave)发现自己的主节点(master)变为宕机状态时，便发起故障切换选举流程，以期成为新的主节点。进一步地，当某个从节点发起故障切换选举流程后，由集群中其他可用状态的主节点进行投票，获得多数主节点投票的从节点将升级为新的主节点，此过程称为自动故障切换。

正常情况下，一个缓存集群的节点部署在同一个机房，按最基本的配置，即3个主节点和3个从节点进行部署，每个主节点负责一部分数据。此种情况下，若任一主节点变为宕机状态了，剩余主节点则通过故障切换选举将与它对应的从节点提升为新的主节点，即自动故障切换。

进一步地，若需要进行多机房容灾，则需要在另一个机房对每个主节点再添加一个从节点，这样一来，每个主节点将对应两个从节点。运行过程中，若集群中有节点发生自动故障切换，主节点可能被切换到另一个机房。这样一来，就会出现同一个集群的主节点分布在不同机房的情况。此种情况下，若机房间网络链路出现问题，则势必会发生脑裂现象。

举例而言，A机房的主节点与B机房的主节点会互相认为对方处于故障状态。此种情况下，若多数主节点都在A机房，那么A机房的主节点会从同机房的从节点中选出新的主节点来替代B机房的主节点，导致相同的分片同时被分属两个机房的主节点负责，A机房的客户端把这些分片的数据写到了A机房新选出的主节点，B机房的客户端仍然把数据写到了B机房的主节点上，从而造成脑裂导致数据无法合并。

相关技术中，为了解决Redis集群的脑裂问题，主要采用以下两种方式：其一，开启Redis配置cluster-require-full-coverage参数。可选地，只要有节点宕机导致Redis集群的16384个分片未被全覆盖，整个集群就拒绝服务，因此拥有少数主节点的B机房中Redis将无法提供服务，因此不会造成数据往两个机房中的节点均写入。其二，开启Redis配置min-slaves-to-write参数。可选地，该参数表示连接到主节点的最少从节点数量，比如配置为2，因此要求每个主节点至少2个从节点，否则的话主节点就会拒绝写请求，配置了该参数后，若集群发生脑裂，主节点接收到客户端的写入请求会拒绝，就可以减少数据同步之后的数据丢失。

然而，相关技术中的集群的故障切换方法，存在极大降低集群的可用性以及无法从根本上解决脑裂的技术问题。

由此，本申请中，通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从而避免主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生。

下面参照附图描述根据本申请实施例提出的一种集群的故障切换方法、装置及电子设备。

图1为本申请一个实施例公开的一种集群的故障切换方法的流程示意图。

如图1所示，本申请实施例提出的集群的故障切换方法，适用于从节点，具体包括以下步骤：

S101、响应于从节点所属的第一主节点处于宕机状态，判断从节点和第一主节点是否属于同一数据中心。

本申请实施例中，在运行过程中，若任一主节点宕机，则此主节点则可以作为第一主节点。进一步地，从节点可以响应于从节点所属的第一主节点处于宕机状态，判断从节点和第一主节点是否属于同一数据中心。

其中，第一主节点，可以为任一节点。例如，Redis集群中的3个主节点1～3和3个从节点4～6部署在同一个机房甲内。此种情况下，在进行多机房容灾后，机房乙中部署有对应主节点1～3的增加的从节点7～9，且此时主节点2处于宕机状态，则主节点2则为第一主节点。

S102、响应于从节点和第一主节点属于同一数据中心，则发起故障切换选举流程。

本申请实施例中，若从节点和第一主节点属于同一数据中心，则可以响应于从节点和第一主节点属于同一数据中心，发起故障切换选举流程。此种情况下，和第一主节点不属于同一数据中心的从节点，则无法成为新的主节点，使得相同的分片不会同属被属于两个机房的新的主节点负责。

由此，本申请提出的集群的故障切换方法，从节点可以通过响应于从节点所属的第一主节点处于宕机状态，判断从节点和第一主节点是否属于同一数据中心，进而响应于从节点和第一主节点属于同一数据中心，则发起故障切换选举流程，以实现集群的故障切换，使得通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。

需要说明的是，本申请中，在试图判断从节点和第一主节点是否属于同一数据中心时，可以在Redis节点中加入数据中心标识。

作为一种可能的实现方式，如图2所示，在上述实施例的基础上，上述判断从节点和第一主节点是否属于同一数据中心的具体过程，包括以下步骤：

S201、获取第一主节点所属数据中心的第一标识。

需要说明的是，本申请中，可以在每个Redis节点中加入数据中心表示标识，可选地，可以在Redis的集群gossip通讯消息中加入数据中心标识，部署Redis集群时，管控平台将部署Redis节点的机器所在机房标识写入Redis节点的数据中心字段，即集群部署完成时，每个Redis节点拥有自己的数据中心标识。此种情况下，通过gossip消息通讯，集群中的节点可以相互知道其他节点的数据中心标识。

S202、判断从节点所属数据中心的第二标识是否与第一标识一致。

本申请实施例中，可以将从节点所属数据中心的第二标识与第一标识进行比较，并在识别从节点所属数据中心的第二标识与第一标识一致时，执行步骤S203。

S203、响应于第二标识与第一标识一致，则判定从节点和第一主节点属于同一数据中心。

由此，本申请提出的集群的故障切换方法，可以通过在Redis节点中加入数据中心标识，以及在发起选举和投票流程中控制只有同机房(即数据中心标识相同)从节点可以完成自动故障切换成为新的主节点，从而避免主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，进一步提高了集群的故障切换过程中的有效性和可靠性。

进一步地，本申请中，在响应于从节点和第一主节点属于同一数据中心后，可以发起故障切换选举流程。

作为一种可能的实现方式，如图3所示，在上述实施例的基础上，上述发起故障切换选举流程的具体过程，包括以下步骤：

S301、向多个候选主节点发送故障切换选举请求。

举例而言，若Redis集群中3个主节点1～3和3个从节点4～6部署在同一个机房甲内。此种情况下，在进行多机房容灾后，机房乙中部署有对应主节点1～3的增加的从节点7～9，且主节点2为第一主节点、从节点5为属于同一数据中心的从节点，此种情况下，从节点5可以向候选主节点1和候选主节点3发送故障切换选举请求。

S302、接收候选主节点基于选举请求反馈的应答消息。

其中，应答消息携带投票指示信息。

例如，若候选主节点1向从节点5进行了投票，则应答消息中包括其对应的投票指示信息1；若候选主节点1未向从节点8投票，则应答消息中包括其对应的投票指示信息0。

S303、基于应答消息，获取投票数量。

举例而言，接收到候选主节点1和候选主节点3基于选举请求反馈的应答消息，且候选主节点1和候选主节点3均进行了投票，此种情况下，可以基于应答消息，获取投票数量为2。

S304、响应于投票数量大于或者等于预设数量，则切换成主节点。

其中，预设数量可以根据实际情况进行设定，例如，可以设定预设数量为候选主节点总数量的1/2。

图4为本申请另一个实施例公开的一种集群的故障切换方法的流程示意图。

如图4所示，本申请实施例提出的集群的故障切换方法，适用于从节点，具体包括以下步骤：

S401、响应于从节点所属的第一主节点处于宕机状态。

S402、获取第一主节点所属数据中心的第一标识。

S403、判断从节点所属数据中心的第二标识是否与第一标识一致。

可选地，若识别从节点所属数据中心的第二标识与第一标识一致，则可以执行步骤S404；若识别从节点所属数据中心的第二标识与第一标识不一致，则可以执行步骤S405。

S404、响应于第二标识与第一标识一致，则判定从节点和第一主节点属于同一数据中心。

可选地，完成步骤S404之后，可以执行步骤S406～S410。

S405、响应于第二标识与第一标识不一致，则判定从节点和第一主节点不属于同一数据中心。

可选地，完成步骤S405之后，可以执行步骤S411～S413。

S406、响应于从节点和第一主节点属于同一数据中心。

S407、向多个候选主节点发送故障切换选举请求。

S408、接收候选主节点基于选举请求反馈的应答消息。

S409、基于应答消息，获取投票数量。

S410、响应于投票数量大于或者等于预设数量，则切换成主节点。

S411、响应于从节点和第一主节点非属于同一数据中心，则等待新的第二主节点发送的通知消息。

举例而言，若Redis集群中3个主节点1～3和3个从节点4～6部署在同一个机房甲内。此种情况下，在进行多机房容灾后，机房乙中部署有对应主节点1～3的增加的从节点7～9，且主节点2为第一主节点、从节点5为新的第二主节点、从节点8为不属于同一数据中心的从节点，此种情况下，从节点8可以等待从节点5发送的通知消息。

S412、响应于接收到通知消息，切换成第二主节点的从节点。

举例而言，若Redis集群中3个主节点1～3和3个从节点4～6部署在同一个机房甲内，在进行多机房容灾后，机房乙中部署有对应主节点1～3的增加的从节点7～9。此种情况下，主节点1对应有两个从节点，分别为从节点4和从节点7；主节点2对应有两个从节点，分别为从节点5和从节点8；主节点3对应有两个从节点，分别为从节点6和从节点9。其中，从节点5为新的第二主节点。这样一来，从节点8可以响应于接收到通知消息，切换成从节点5的从节点。

S413、响应于预设时长内未接收到通知消息，则返回执行判断从节点和第一主节点是否属于同一数据中心。

其中，预设时长可以根据实际情况进行设定，例如，可以设定预设时长为30s、3min等。

需要说明的是，上述步骤S401～S410的具体过程请参见前述实施例，此处不再赘述。

由此，本申请提出的集群的故障切换方法，可以通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。进一步地，通过在Redis节点中加入数据中心标识，以及在发起选举和投票流程中控制只有同机房(即数据中心标识相同)从节点可以完成自动故障切换成为新的主节点，进一步提高了集群的故障切换过程中的有效性和可靠性。

图5为本申请另一个实施例公开的一种集群的故障切换方法的流程示意图。

如图5所示，本申请实施例提出的集群的故障切换方法，适用于主节点，具体包括以下步骤：

S501、接收从节点发送的故障切换选举请求。

本申请实施例中，从节点可以向多个候选主节点发送故障切换选举请求。相应地，主节点可以接收从节点发送的故障切换选举请求。

其中，主节点，可以为任一未处于宕机状态的主节点。

S502、根据选举请求，判断从节点和主节点是否属于同一数据中心。

S503、响应于从节点和主节点属于同一数据中心，则向从节点投票。

本申请实施例中，可以将从节点和主节点进行比较，若识别从节点和主节点属于同一数据中心，则可以响应于从节点和主节点属于同一数据中心，则向从节点投票，相应地，从节点可以接收应答消息；若识别从节点和主节点不属于同一数据中心，则可以响应于从节点和主节点不属于同一数据中心，则不向从节点投票。

由此，本申请提出的集群的故障切换方法，主节点可以通过接收从节点发送的故障切换选举请求，并根据选举请求，判断从节点和主节点是否属于同一数据中心，进而响应于从节点和主节点属于同一数据中心，则向从节点投票，以实现集群的故障切换，使得通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。

需要说明的是，本申请中，在试图根据选举请求，判断从节点和主节点是否属于同一数据中心时，可以以Redis节点中加入的数据中心标识作为依据。

作为一种可能的实现方式，如图6所示，在上述实施例的基础上，上述根据选举请求，判断从节点和主节点是否属于同一数据中心的具体过程，包括以下步骤：

S601、从选举请求中获取从节点所属数据中心的第二标识。

需要说明的是，本申请中，每个Redis节点拥有自己的数据中心标识。此种情况下，通过gossip消息通讯，集群中的节点可以相互知道其他节点的数据中心标识。

S602、判断第二标识是否与主节点所属数据中心的第一标识一致。

本申请实施例中，主节点可以将第二标识与主节点所属数据中心的第一标识进行比较，并在识别第二标识与主节点所属数据中心的第一标识一致时，执行步骤S603。

S603、响应于第二标识与第一标识一致，则判定从节点和主节点属于同一数据中心。

可选地，若识别第二标识与主节点所属数据中心的第一标识一致，则可以响应于第二标识与第一标识一致，则判定从节点和主节点属于同一数据中心，进而可以响应于从节点和主节点属于同一数据中心，则向从节点投票。

进一步地，若识别第二标识与主节点所属数据中心的第一标识不一致，则可以响应于从节点和主节点非属于同一数据中心，则拒绝向从节点投票。

需要说明的是，在向从节点投票或者拒绝向从节点投票后，均可以向从节点发送应答消息，其中，应答消息携带投票指示信息。

进一步地，响应于主节点被确定为从节点的新的主节点，则向从节点发送通知消息。

由此，本申请提出的集群的故障切换方法，主节点可以以在Redis节点中的数据中心标识为依据，在发起选举和投票流程中控制只有同机房(即数据中心标识相同)从节点可以完成自动故障切换成为新的主节点，从而避免主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，进一步提高了集群的故障切换过程中的有效性和可靠性。

图7为本申请另一个实施例公开的一种集群的故障切换方法的流程示意图。

如图7所示，本申请实施例提出的集群的故障切换方法，适用于主节点，具体包括以下步骤：

S701、接收从节点发送的故障切换选举请求。

S702、从选举请求中获取从节点所属数据中心的第二标识。

S703、判断第二标识是否与主节点所属数据中心的第一标识一致。

可选地，若识别第二标识与主节点所属数据中心的第一标识一致，则可以执行步骤S704～S705；若识别第二标识与主节点所属数据中心的第一标识不一致，则可以执行步骤S706。

S704、响应于第二标识与第一标识一致，则判定从节点和主节点属于同一数据中心。

S705、响应于从节点和主节点属于同一数据中心，则向从节点投票。

S706、响应于从节点和主节点非属于同一数据中心，则拒绝向从节点投票。

S707、向从节点发送应答消息，其中，应答消息携带投票指示信息。

S708、响应于主节点被确定为从节点的新的主节点，则向从节点发送通知消息。

可选地，在完成步骤S705和步骤S706之后，均可以执行步骤S707、S708。

基于同一申请构思，本申请实施例还提供了一种集群的故障切换方法对应的装置。

图8为本申请实施例提供的集群的故障切换装置的结构示意图。

如图8所示，该集群的故障切换装置1000，包括：判断模块110和发起模块120。其中，

判断模块110，用于响应于所述从节点所属的第一主节点处于宕机状态，判断所述从节点和所述第一主节点是否属于同一数据中心；

发起模块120，用于响应于所述从节点和所述第一主节点属于同一数据中心，则发起故障切换选举流程。

根据本申请的一个实施例，如图9所示，图8中的判断模块110，包括：

第一获取子模块111，用于获取所述第一主节点所属数据中心的第一标识；

判断子模块112，用于判断所述从节点所属数据中心的第二标识是否与所述第一标识一致；

判定子模块113，用于响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述第一主节点属于同一数据中心。

根据本申请的一个实施例，如图10所示，图8中的发起模块120，包括：

发起子模块121，用于向多个候选主节点发送故障切换选举请求；

接收子模块122，用于接收所述候选主节点基于所述选举请求反馈的应答消息；

第二获取子模块123，用于基于所述应答消息，获取投票数量；

切换子模块124，用于响应于所述投票数量大于或者等于预设数量，则切换成主节点。

根据本申请的一个实施例，如图11所示，该集群的故障切换装置1000，还包括：

等待模块130，用于响应于所述从节点和所述第一主节点非属于同一数据中心，则等待新的第二主节点发送的通知消息；

切换模块140，用于响应于接收到所述通知消息，切换成所述第二主节点的从节点。

返回模块150，用于响应于预设时长内未接收到所述通知消息，则返回执行所述判断所述从节点和所述第一主节点是否属于同一数据中心。

由此，本申请提出的集群的故障切换装置，从节点可以通过响应于从节点所属的第一主节点处于宕机状态，判断从节点和第一主节点是否属于同一数据中心，进而响应于从节点和第一主节点属于同一数据中心，则发起故障切换选举流程，以实现集群的故障切换，使得通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。

基于同一申请构思，本申请实施例还提供了另一种集群的故障切换方法对应的装置。

图12为本申请实施例提供的集群的故障切换装置的结构示意图。

如图12所示，该集群的故障切换装置2000，包括：接收模块210、判断模块220和投票模块230。其中，

接收模块210，用于接收从节点发送的故障切换选举请求；

判断模块220，用于根据所述选举请求，判断所述从节点和所述主节点是否属于同一数据中心；

投票模块230，用于响应于所述从节点和所述主节点属于同一数据中心，则向所述从节点投票。

根据本申请的一个实施例，如图13所示，图12中的判断模块220，包括：

第一获取子模块221，用于从所述选举请求中获取所述从节点所属数据中心的第二标识；

判断子模块222，用于判断所述第二标识是否与所述主节点所属数据中心的第一标识一致；

判定子模块223，用于响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述主节点属于同一数据中心。

根据本申请的一个实施例，如图14所示，该集群的故障切换装置2000，还包括：

拒绝模块240，用于响应于所述从节点和所述主节点非属于同一数据中心，则拒绝向所述从节点投票。

第一发送模块250，用于向所述从节点发送应答消息，其中，所述应答消息携带投票指示信息。

第二发送模块260，用于响应于所述主节点被确定为所述从节点的新的主节点，则向所述从节点发送通知消息。

由此，本申请提出的集群的故障切换装置，主节点可以通过接收从节点发送的故障切换选举请求，并根据选举请求，判断从节点和主节点是否属于同一数据中心，进而响应于从节点和主节点属于同一数据中心，则向从节点投票，以实现集群的故障切换，使得通过判断从节点和处于宕机状态的主节点是否属于同一数据中心，并在判定属于同一数据中心后，由该从节点完成自动故障切换成为新的主节点，从根本上避免了主节点分布在多个机房的情况发生，进而避免Redis集群脑裂现象发生，确保了集群的可用性，提高了集群的故障切换过程中的有效性和可靠性。

基于同一申请构思，本申请实施例还提供了一种电子设备。

图15为本申请实施例提供的电子设备的结构示意图。如图15所示，该电子设备3000，包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序，处理器执行程序时，实现前述的集群的故障切换方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种集群的故障切换方法，其特征在于，适用于从节点，所述方法包括：

响应于所述从节点所属的第一主节点处于宕机状态，判断所述从节点和所述第一主节点是否属于同一数据中心；

响应于所述从节点和所述第一主节点属于同一数据中心，则发起故障切换选举流程。

2.根据权利要求1所述的集群的故障切换方法，其特征在于，所述判断所述从节点和所述第一主节点是否属于同一数据中心，包括：

获取所述第一主节点所属数据中心的第一标识；

判断所述从节点所属数据中心的第二标识是否与所述第一标识一致；

响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述第一主节点属于同一数据中心。

3.根据权利要求1所述的集群的故障切换方法，其特征在于，所述发起故障切换选举流程，包括：

向多个候选主节点发送故障切换选举请求；

接收所述候选主节点基于所述选举请求反馈的应答消息；

基于所述应答消息，获取投票数量；

响应于所述投票数量大于或者等于预设数量，则切换成主节点。

4.根据权利要求1所述的集群的故障切换方法，其特征在于，还包括：

响应于所述从节点和所述第一主节点非属于同一数据中心，则等待新的第二主节点发送的通知消息；

响应于接收到所述通知消息，切换成所述第二主节点的从节点。

5.根据权利要求4所述的集群的故障切换方法，其特征在于，还包括：

响应于预设时长内未接收到所述通知消息，则返回执行所述判断所述从节点和所述第一主节点是否属于同一数据中心。

6.一种集群的故障切换方法，其特征在于，适用于主节点，所述方法包括：

接收从节点发送的故障切换选举请求；

根据所述选举请求，判断所述从节点和所述主节点是否属于同一数据中心；

响应于所述从节点和所述主节点属于同一数据中心，则向所述从节点投票。

7.根据权利要求6所述的集群的故障切换方法，其特征在于，所述根据所述选举请求，判断所述从节点和所述主节点是否属于同一数据中心，包括：

从所述选举请求中获取所述从节点所属数据中心的第二标识；

判断所述第二标识是否与所述主节点所属数据中心的第一标识一致；

响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述主节点属于同一数据中心。

8.根据权利要求6所述的集群的故障切换方法，其特征在于，还包括：

响应于所述从节点和所述主节点非属于同一数据中心，则拒绝向所述从节点投票。

9.根据权利要求6或8所述的集群的故障切换方法，其特征在于，还包括：

向所述从节点发送应答消息，其中，所述应答消息携带投票指示信息。

10.根据权利要求6或8所述的集群的故障切换方法，其特征在于，还包括：

响应于所述主节点被确定为所述从节点的新的主节点，则向所述从节点发送通知消息。

11.一种集群的故障切换装置，其特征在于，适用于从节点，所述装置包括：

判断模块，用于响应于所述从节点所属的第一主节点处于宕机状态，判断所述从节点和所述第一主节点是否属于同一数据中心；

发起模块，用于响应于所述从节点和所述第一主节点属于同一数据中心，则发起故障切换选举流程。

12.根据权利要求11所述的集群的故障切换装置，其特征在于，所述判断模块，包括：

第一获取子模块，用于获取所述第一主节点所属数据中心的第一标识；

判断子模块，用于判断所述从节点所属数据中心的第二标识是否与所述第一标识一致；

判定子模块，用于响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述第一主节点属于同一数据中心。

13.根据权利要求11所述的集群的故障切换装置，其特征在于，所述发起模块，包括：

发起子模块，用于向多个候选主节点发送故障切换选举请求；

接收子模块，用于接收所述候选主节点基于所述选举请求反馈的应答消息；

第二获取子模块，用于基于所述应答消息，获取投票数量；

切换子模块，用于响应于所述投票数量大于或者等于预设数量，则切换成主节点。

14.根据权利要求11所述的集群的故障切换装置，其特征在于，还包括：

等待模块，用于响应于所述从节点和所述第一主节点非属于同一数据中心，则等待新的第二主节点发送的通知消息；

切换模块，用于响应于接收到所述通知消息，切换成所述第二主节点的从节点。

15.根据权利要求14所述的集群的故障切换装置，其特征在于，还包括：

返回模块，用于响应于预设时长内未接收到所述通知消息，则返回执行所述判断所述从节点和所述第一主节点是否属于同一数据中心。

16.一种集群的故障切换装置，其特征在于，适用于主节点，所述装置包括：

接收模块，用于接收从节点发送的故障切换选举请求；

判断模块，用于根据所述选举请求，判断所述从节点和所述主节点是否属于同一数据中心；

投票模块，用于响应于所述从节点和所述主节点属于同一数据中心，则向所述从节点投票。

17.根据权利要求16所述的集群的故障切换装置，其特征在于，所述判断模块，包括：

第一获取子模块，用于从所述选举请求中获取所述从节点所属数据中心的第二标识；

判断子模块，用于判断所述第二标识是否与所述主节点所属数据中心的第一标识一致；

判定子模块，用于响应于所述第二标识与所述第一标识一致，则判定所述从节点和所述主节点属于同一数据中心。

18.根据权利要求16所述的集群的故障切换装置，其特征在于，还包括：

拒绝模块，用于响应于所述从节点和所述主节点非属于同一数据中心，则拒绝向所述从节点投票。

19.根据权利要求16或18所述的集群的故障切换装置，其特征在于，还包括：

第一发送模块，用于向所述从节点发送应答消息，其中，所述应答消息携带投票指示信息。

20.根据权利要求16或18所述的集群的故障切换装置，其特征在于，还包括：

第二发送模块，用于响应于所述主节点被确定为所述从节点的新的主节点，则向所述从节点发送通知消息。

21.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-5或6-10中任一项所述的集群的故障切换方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5或6-10中任一项所述的集群的故障切换方法。