CN114461428A

CN114461428A - 一种用于双机集群脑裂的仲裁方法

Info

Publication number: CN114461428A
Application number: CN202111641428.0A
Authority: CN
Inventors: 王飞; 王煜伟; 胡洋; 王海锋; 钱陈虎; 胡伟; 许敏; 何�轩
Original assignee: Guoneng Langxinming Nanjing Environmental Protection Technology Co ltd
Current assignee: Guoneng Langxinming Nanjing Environmental Protection Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-10

Abstract

本发明公开一种用于双机集群脑裂的仲裁方法，在双机集群正常运行时，参考主机定时向集群中的主节点和备节点发送命令，以探测两个节点活跃度；当主备节点间的心跳线断开时，系统发生了故障，此时心跳线的断开，同时参考主机持续主动发送命令；由于故障，参考主机通过发送命令探测到出现故障的节点，并通知所有客户端主机；并将所有客户端主机的连接及数据请求转发到无故障节点；完成上述切换后，参考主机给出相关故障节点的相关提示信息，并仍然按规范定时向两个节点发送命令；重启故障节点，整个集群系统正常工作。本发明针对双机集群的脑裂问题，提高仲裁过程的速度，尽量缩短上述缺陷导致的较长时间的服务中断，从而较快解决脑裂问题。

Description

一种用于双机集群脑裂的仲裁方法

技术领域

本发明属于数据处理技术领域，特别是涉及一种用于双机集群脑裂的仲裁方法。

背景技术

高可用集群(High Availability Cluster，简称HA Cluster)是一组计算机，它们作为一个整体向用户提供网络资源，可以认为是由多个节点计算机最成的可以像单机系统一般操作的一个主机群。双机集群，即只有两个节点的高可用集群,是一种常见且简单的集群实施方式，即使用两台服务器采用主备模式：主节点提供服务而备用节点待命，主备节点间采用热备份。当主节点出现故障时，可由备用节点提供服务，从而在不需要人工干预的情况下，自动保证系统服务不中断。

所谓脑裂(split brain)，是基于以下的情况。在双机集群系统中，当联系两个节点的心跳线断开时，本来为一个整体、动作协调的HA系统，就分裂成为两个独立的节点。由于相互失去了联系，两个节点都以为是对方出了故障，自己应当获得集群的管理权并持续对外提供服务。两个节点上的HA软件像“裂脑人”一样，发生对“共享资源”和“应用服务”的争抢，从而引发严重后果：或者共享资源被瓜分、两边都无法提供服务；或者两边两边同时提供服务，在同时读写“共享存储”区域时导致数据损坏(常见如数据库轮询着的联机日志出错)。

设立仲裁机制是解决高可用集群系统脑裂的方法之一，即当两个节点出现分歧时，由第三方的仲裁者决定听谁的。例如设置参考IP(如网关IP)作为仲裁者，当心跳线完全断开时，两个节点都各自ping一下参考IP，不通则表明断点就出在本端。不仅“心跳”、还兼对外“服务”的本端网络链路断了，即使启动(或继续)应用服务也没有用了，那就主动放弃竞争，让能够ping通参考IP的一端去开启服务。更保险一些，ping不通参考IP的一方干脆就自我重启，以彻底释放有可能还占用着的那些共享资源。这种仲裁机制逻辑清晰，但在应用中存在一些缺陷：从心跳线断开的事实确认，到两个节点各自ping参考IP，再到启动ping通参考IP的节点去启动服务，这一段时间中，双机集群并没有做到高可用性，也就是说可能出现服务中断。所以，有必要。

发明内容

为了解决上述问题，本发明提出了一种用于双机集群脑裂的仲裁方法，针对双机集群的脑裂问题，提高仲裁过程的速度，尽量缩短上述缺陷导致的较长时间的服务中断，从而较快解决脑裂问题。

为达到上述目的，本发明采用的技术方案是：一种用于双机集群脑裂的仲裁方法，包括步骤：

S10,在双机集群正常运行时，参考主机定时向集群中的主节点和备节点发送命令，以探测两个节点活跃度；

S20,当主备节点间的心跳线断开时，系统发生了主节点故障或者备节点故障或者通信故障，此时心跳线的断开；同时参考主机持续主动发送命令；

S30,由于节点故障或者通信故障，参考主机通过发送命令探测到出现故障的节点，并通知所有客户端主机；并将所有客户端主机的连接及数据请求转发到无故障节点；

S40,完成上述切换后，参考主机给出相关故障节点的相关提示信息，并仍然按规范定时向两个节点发送命令；重启故障节点，整个集群系统正常工作。

进一步的是，在双机集群正常运行时，参考主机定时向集群中的主节点和备节点发送ping命令，以探测两个节点是否活跃。

进一步的是，当主备节点间的心跳线断开时，系统发生了主节点故障或者备节点故障或者通信故障，此时心跳线的断开；此时，参考主机仍然定时向集群中的主节点和备节点发送ping命令。

进一步的是，节点故障或者通信故障时，参考主机通过ping命令探测到出现故障的节点，并立即在局域网中发送ARP地址解析协议数据包，通知所有客户端主机。

进一步的是，在故障节点判断时，将当前集群服务器对外服务的虚拟IP地址对应为无故障节点的MAC地址，即设置该节点为集群主节点；随后，所有的客户端主机的连接及数据请求被转发到该无故障节点。

进一步的是，完成切换后，参考主机给出相关故障节点的相关提示信息，并仍然按规范定时向两个节点发送ping命令。

进一步的是，如果故障节点被重启后恢复正常运行，其被认定为备节点，主备节点间恢复热备份，整个集群系统正常工作。

进一步的是，所述客户端通过局域网与双机集群的主节点和备节点共同进行信息交互。

进一步的是，在所述双机集群的主节点和备节点间通过心跳线连接，所述心跳线和参考主机的连接相互独立。

进一步的是，所述参考主机并行分别连接至双机集群的主节点和备节点，并向双机集群的主节点和备节点持续定时发送ping命令。

采用本技术方案的有益效果：

本发明提出的一种用于双机集群脑裂的仲裁方法，加了额外的一台主机作为参考主机，利用参考主机向各个节点发送ping命令，当主备节点间的心跳线断开时，系统发生了主节点故障或者备节点故障或者通信故障，此时心跳线的断开；同时参考主机持续主动发送命令；由于节点故障或者通信故障，参考主机通过发送命令探测到出现故障的节点，并通知所有客户端主机；并将所有客户端主机的连接及数据请求转发到无故障节点；完成上述切换后，参考主机给出相关故障节点的相关提示信息，并仍然按规范定时向两个节点发送命令；重启故障节点，调整后是整个集群系统正常工作。本发明针对双机集群系统的脑裂问题，相对于常规的实现方式，本发明可以较快地对双机集群的脑裂问题进行仲裁，以确定故障节点。本发明节约了常规方法中的仲裁时间，减少主备节点间的切换时间，最大程度上减少了服务中断的可能。

附图说明

图1为本发明的一种用于双机集群脑裂的仲裁方法流程示意图；

图2为本发明实施例中基于参考主机的双机集群系统结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。

在本实施例中，如图2所示，所述客户端通过局域网与双机集群的主节点和备节点共同进行信息交互。在所述双机集群的主节点和备节点间通过心跳线连接，所述心跳线和参考主机的连接相互独立。所述参考主机并行分别连接至双机集群的主节点和备节点，并向双机集群的主节点和备节点持续定时发送ping命令。

参见图1所示，本发明提出了一种用于双机集群脑裂的仲裁方法，包括步骤：

作为上述实施例的优化方案，一种用于双机集群脑裂的仲裁方法，包括步骤：

S10,在双机集群正常运行时，参考主机定时向集群中的主节点和备节点发送ping命令，以探测两个节点是否活跃。

S20,当主备节点间的心跳线断开时，系统发生了主节点故障或者备节点故障或者通信故障，此时心跳线的断开；此时，参考主机仍然定时向集群中的主节点和备节点发送ping命令。

S30,节点故障或者通信故障时，参考主机通过ping命令探测到出现故障的节点，并立即在局域网中发送ARP地址解析协议数据包，通知所有客户端主机。在故障节点判断时，将当前集群服务器对外服务的虚拟IP地址对应为无故障节点的MAC地址，即设置该节点为集群主节点；随后，所有的客户端主机的连接及数据请求被转发到该无故障节点。

S40,完成切换后，参考主机给出相关故障节点的相关提示信息，并仍然按规范定时向两个节点发送ping命令。如果故障节点被重启后恢复正常运行，其被认定为备节点，主备节点间恢复热备份，整个集群系统正常工作。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于双机集群脑裂的仲裁方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种用于双机集群脑裂的仲裁方法，其特征在于，在双机集群正常运行时，参考主机定时向集群中的主节点和备节点发送ping命令，以探测两个节点是否活跃。

3.根据权利要求2所述的一种用于双机集群脑裂的仲裁方法，其特征在于，当主备节点间的心跳线断开时，系统发生了主节点故障或者备节点故障或者通信故障，此时心跳线的断开；此时，参考主机仍然定时向集群中的主节点和备节点发送ping命令。

4.根据权利要求3所述的一种用于双机集群脑裂的仲裁方法，其特征在于，节点故障或者通信故障时，参考主机通过ping命令探测到出现故障的节点，并立即在局域网中发送ARP地址解析协议数据包，通知所有客户端主机。

5.根据权利要求4所述的一种用于双机集群脑裂的仲裁方法，其特征在于，在故障节点判断时，将当前集群服务器对外服务的虚拟IP地址对应为无故障节点的MAC地址，即设置该节点为集群主节点；随后，所有的客户端主机的连接及数据请求被转发到该无故障节点。

6.根据权利要求5所述的一种用于双机集群脑裂的仲裁方法，其特征在于，完成切换后，参考主机给出相关故障节点的相关提示信息，并仍然按规范定时向两个节点发送ping命令。

7.根据权利要求6所述的一种用于双机集群脑裂的仲裁方法，其特征在于，如果故障节点被重启后恢复正常运行，其被认定为备节点，主备节点间恢复热备份，整个集群系统正常工作。

8.根据权利要求1-7任一所述的一种用于双机集群脑裂的仲裁方法，其特征在于，所述客户端通过局域网与双机集群的主节点和备节点共同进行信息交互。

9.根据权利要求1-7任一所述的一种用于双机集群脑裂的仲裁方法，其特征在于，在所述双机集群的主节点和备节点间通过心跳线连接，所述心跳线和参考主机的连接相互独立。

10.根据权利要求1-7任一所述的一种用于双机集群脑裂的仲裁方法，其特征在于，所述参考主机并行分别连接至双机集群的主节点和备节点，并向双机集群的主节点和备节点持续定时发送PING命令。