CN109286529A

CN109286529A - 一种恢复RabbitMQ网络分区的方法及系统

Info

Publication number: CN109286529A
Application number: CN201811289763.7A
Authority: CN
Inventors: 陈林祥; 韩辰音; 邓沛沛
Original assignee: WUHAN FIBERHOME INTERGRATION TECHNOLOGIES Co Ltd
Current assignee: WUHAN FIBERHOME INTERGRATION TECHNOLOGIES Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-01-29
Anticipated expiration: 2038-10-31
Also published as: CN109286529B

Abstract

本发明公开了一种恢复RabbitMQ网络分区的方法及系统，涉及分布式消息系统技术领域，在每个RabbitMQ节点配置Keepalived服务，Keepalived主节点作为中心节点，在每个RabbitMQ节点配置集群状态检测脚本，仅中心节点运行检测脚本，对所有RabbitMQ节点进行周期性集群状态检测，根据检测结果执行对应的恢复操作；每次检测结束时，在所有RabbitMQ节点写入记录检测结果的状态检测文件；在每个RabbitMQ节点配置xinetd服务，将状态检测文件暴露给HTTP接口；配置HAProxy软件调用HTTP接口进行节点健康检测，相关应用客户端通过调用HAProxy软件调用RabbitMQ服务。实现自动检测故障并自动恢复，减轻运维人员工作量。

Description

一种恢复RabbitMQ网络分区的方法及系统

技术领域

本发明涉及分布式消息系统技术领域，具体涉及一种恢复RabbitMQ网络分区的方法及系统。

背景技术

RabbitMQ是一个由erlang开发的基于高级消息队列协议(AMQP，AdvancedMessage Queue)协议的开源实现，用于在分布式系统中存储转发消息，在易用性、扩展性、高可用性等方面都非常的优秀，是当前最主流的消息中间件之一。RabbitMQ集群应用非常广泛，尤其是在需要跨系统异步通信的应用场景比如云计算领域。当多节点出现网络抖动时，集群容易出现网络分区，而RabbitMQ集群自身无法很好的应对网络分区情况。

判定出现网络分区的定义是：如果其他节点无法连接该节点的时间达到1分钟以上，当这两个节点恢复到能联系上的状态时，都会认为对端节点已down掉了，此时Mnesia将会判定发生了网络分区。(Mnesia是一个分布式数据库管理系统，是构建电信应用的控制系统平台开放式电信平台的一部分。)

例如，在实际三节点RabbitMQ测试时，在集群某两个RabbitMQ节点执行管理网网卡闪断操作30次，持续大概一分半钟，将会有很大概率出现网络分区。

当发生网络分区时，可能会产生两个或多个分区，同时认为其他分区里面的节点已经不可用。由于网络分区而被割裂的镜像队列最终会在每个分区中产生一个master,每个分区均能够独立工作(如果达到集群工作条件)，也可能发生其他未定义和奇怪的行为。另外，当网络分区情况得到恢复后，问题依旧存在，需要手动按照步骤进行修复。参见图1所示，此时通过RabbitMQ的web管理界面看告警。

一般情况下，针对RabbitMQ网络分区问题处理，有如下方法：

一、手动处理网络分区：

为了从网络分区中恢复，首先需要挑选一个信任的分区，这个分区才有决定Mnesia内容的权限，发生在其他分区的改变将不被记录到Mnesia中而直接丢弃。手动恢复网络分区有两种思路：

1.停止其他分区中的节点，然后重新启动这些节点。最后重启信任分区中的节点，以去除告警。当出现分区时，当网络恢复或者挂起恢复后，分区独立问题仍旧存在，需要手动恢复。

2.关闭整个集群的节点，然后再启动每一个节点，这里需确保启动的第一个节点在信任的分区之中。

二、自动处理网络分区：

RabbitMQ提供了4种处理网络分区的方式，在详细配置参数rabbitmq.config中配置cluster_partition_handling参数即可，分别为：

1.ignore

2.pause_minority

3.pause_if_all_down,[nodes],ignore|autoheal

4.autoheal

ignore的配置是当网络分区的时候，RabbitMQ不会自动做任何处理，即需要手动处理。

pause_minority配置后，当发生网络分区时，集群中的节点在观察到某些节点down掉时，会自动检测其自身是否处于少数派(小于或者等于集群中一般的节点数)。少数派中的节点在分区发生时会自动关闭，当分区结束时又会启动。需要注意的是RabbitMQ也会关闭不是严格意义上的大多数，如果节点为偶数个，可能导致所有节点都down掉。

在pause_if_all_down模式下，RabbitMQ会自动关闭不能和list中节点通信的节点。需要在配置文件中事先配置好指定的list，如果一个节点与list中的所有节点都无法通信时，自关闭其自身。如果list中的所有节点都down时，其余节点如果是ok的话，也会根据这个规则去关闭其自身，此时集群中所有的节点会关闭。并且需要事先手动配置信任节点，但生产环境中无法保证某些节点服务可靠性更高。

在autoheal模式下，当认为发生网络分区时，RabbitMQ会自动决定一个获胜的分区，然后重启不在这个分区中的节点以恢复网络分区。但即使配置后，网络恢复后，仍旧可能需要手动处理。

可见自动网络分区并不能保证节点不出任何问题，在任何时候都能自动恢复。存在如下缺点：

1)当出现分区时，当网络恢复或者挂起恢复后，分区独立问题仍旧存在，需要手动恢复；

2)当一个或者多个节点出现故障时，没有节点状态监控机制，无法自动恢复；

3)可能需要事先手动配置信任节点，但生产环境中无法保证某些节点服务可靠性更高。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种恢复RabbitMQ网络分区的方法及系统，当出现网络分区后，自动检测故障并自动恢复，减轻运维人员工作量，增强系统可靠性。

为达到以上目的，本发明采取的技术方案是：一种恢复RabbitMQ网络分区的方法，包括以下步骤：

在每个RabbitMQ节点配置Keepalived服务，选取RabbitMQ集群中一个RabbitMQ节点作为Keepalived主节点，将Keepalived主节点作为中心节点；

在每个RabbitMQ节点配置集群状态检测脚本，仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，并根据检测结果执行对应的恢复操作；每次检测结束时，在所有RabbitMQ节点写入用于记录检测结果的状态检测文件；

在每个RabbitMQ节点配置xinetd服务，将状态检测文件暴露给HTTP接口；

配置HAProxy软件调用HTTP接口进行节点健康检测，应用客户端通过调用HAProxy软件调用RabbitMQ服务。

在上述技术方案的基础上，所述仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，具体包括以下步骤：

所述集群状态包括：网络状态，单节点服务状态和网络分区状态；

所述单节点服务状态以及网络分区状态通过RabbitMQ节点的API去获取；所述网络状态通过socket获取。

在上述技术方案的基础上，所述仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，还包括以下步骤：

进行集群状态检测时，所述集群状态的优先级由高至低依次为网络状态，单节点服务状态和网络分区状态；

若网络状态异常，则不去判断剩下状态，直接记录该节点网络状态异常；

若单节点服务异常，则不会判断网络分区状态，记录该节点服务异常；

若网络正常以及服务正常，则去判断是否有网络分区发生。

在上述技术方案的基础上，所述根据检测结果执行对应的恢复操作，具体包括以下步骤：

针对网络异常，默认该节点不采取任何措施，等待下一个周期检测网络恢复再进行判断；

针对检测后的服务异常，如果服务异常节点数量小于节点总数量的一半，执行重启异常节点RabbitMQ服务的命令；如果超过节点总数量的一半，执行重启所有节点RabbitMQ服务的命令；

针对分区异常，按照预设方法执行分区恢复脚本。

在上述技术方案的基础上，该方法还包括以下步骤，当所述Keepalived主节点出现故障时，执行主备切换。

本发明还公开了一种恢复RabbitMQ网络分区的系统，包括：

Keepalived服务配置模块，其用于：在每个RabbitMQ节点配置Keepalived服务，选取RabbitMQ集群中一个RabbitMQ节点作为Keepalived主节点，将Keepalived主节点作为中心节点；

状态检测模块，其用于：在每个RabbitMQ节点配置集群状态检测脚本，仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，并根据检测结果执行对应的恢复操作；每次检测结束时，在所有RabbitMQ节点写入用于记录检测结果的状态检测文件；

接口配置模块，其用于：在每个RabbitMQ节点配置xinetd服务，将状态检测文件暴露给HTTP接口；

HAProxy软件配置模块，其用于：配置HAProxy软件调用HTTP接口进行节点健康检测；应用客户端通过调用HAProxy软件调用RabbitMQ服务。

若网络正常以及服务正常，则去判断是否有网络分区发生。

在上述技术方案的基础上，所述根据检测结果执行对应的恢复操

作，具体包括以下步骤：

针对网络异常，默认该节点不采取任何措施，等待检测网络恢复再进行判断；

针对分区异常，按照预设方法执行分区恢复脚本。

在上述技术方案的基础上，所述Keepalived服务配置模块还用于：当所述Keepalived主节点出现故障时，执行主备切换。

与现有技术相比，本发明的优点在于：

(1)本发明在每个RabbitMQ节点配置Keepalived服务，其中一个RabbitMQ节点作为Keepalived主节点，Keepalived主节点作为中心节点，在每个RabbitMQ节点配置集群状态检测脚本，仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，并根据检测结果执行对应的恢复操作；每次检测结束时，在所有RabbitMQ节点写入记录检测结果的状态检测文件；在每个RabbitMQ节点配置xinetd服务，将状态检测文件暴露给HTTP接口；配置HAProxy软件调用HTTP接口进行节点健康检测，客户端通过调用HAProxy软件调用RabbitMQ节点。当出现网络分区后，自动检测故障并自动恢复，避免人工干预，减轻运维人员工作量；

2)支持检测网络分区以外的原因引起的任意RabbitMQ节点的故障，并且自动恢复，增强系统可靠性。

3)客户端通过调用HAProxy软件调用RabbitMQ节点，实现RabbitMQ集群的负载均衡。

附图说明

图1为背景技术中RabbitMQ的web管理界面告警示意图；

图2为本发明实施例中恢复RabbitMQ网络分区的方法的原理示意图；

图3为本发明实施例中恢复RabbitMQ网络分区的方法的流程示意图。

具体实施方式

术语说明：

HAProxy：一个使用C语言编写的自由及开放源代码软件[1]，其提供高可用性、负载均衡，以及基于TCP和HTTP的应用程序代理。

MQ：全称为Message Queue，消息队列，是一种应用程序对应用程序的通信方法。RabbitMQ是MQ的一种开源实现。

Xinetd：xinetd即extended internet daemon，扩展互联网守护进程。xinetd是新一代的网络守护进程服务程序，又叫超级Internet服务器。经常用来管理多种轻量级Internet服务。xinetd提供类似于inetd+tcp_wrapper的功能，但是更加强大和安全。

以下结合附图及实施例对本发明作进一步详细说明。

实施例1：

参见图2所示，本发明实施例提供一种恢复RabbitMQ网络分区的方法，包括以下步骤：

首先选取中心节点，中心节点是选取RabbitMQ集群的某一个节点作为恢复检测脚本运行的中心节点，集群中另外节点也有脚本存在，但是没有当即运行。通过Keepalived来实现主备的监控切换，Keepalived主节点即为中心节点；当Keepalived主节点发生网络故障时，会自动切换到备用节点继续进行监控。

然后定义针对不同场景的检测和恢复脚本。将影响RabbitMQ的集群状态主要分为三类：网络状态，单节点服务状态，网络分区状态。单节点服务状态以及网络分区状态通过RabbitMQ自带的API去获取；网络状态通过socket来获取。三状态的优先级依次降低，即满足网络状态异常，则不去判断剩下状态，直接记录该节点网络状态异常；否则如果单节点服务异常，则不会判断网络分区状态，记录该节点服务异常；最后如果满足网络正常以及服务正常，则去判断是否有网络分区发生。通过上述判断过程，得到一个集群节点状态的返回对象cluster_status，针对此状态进行进一步判断并根据特定场景执行特定恢复步骤。中心节点每次检测结束会远程各个节点生成状态文件。

针对检测后的服务异常，如果服务异常节点数量小于集群节点总数量的一半，则执行重启异常节点RabbitMQ服务的命令，如果超过集群节点总数量的一半，则认为集群不可用，会执行重启集群所有节点服务的脚本；

针对分区异常，只要任意节点发生网络分区，则会按照指定方法执行分区恢复脚本；

最后增加HAProxy，由xinted将状态文件暴露出指定服务端口供haproxy进行节点健康状态判断，通过haproxy实时反馈状态结果，组件通过HAProxy调用服务，从而实现负载均衡。

采用本发明实施例的方法，当出现网络分区后，自动检测故障并自动恢复，避免人工干预，减轻运维人员工作量。

实施例2：

参见图3所示，本发明实施例提供一种恢复RabbitMQ网络分区的方法，具体包括以下步骤：

步骤1：在每个RabbitMQ节点配置Keepalived服务，配置Keepalived检测脚本，自动将Keepalived主节点作为中心节点。当Keepalived主节点出现故障时，会自动主备切换。进入步骤2；

步骤2：在每个RabbitMQ节点增加集群状态检测脚本，配置只有Keepalived主节点也就是中心节点才会运行检测脚本，其它节点不运行；并将检测结果状态检测文件写入每个节点。首先通过socket检测该节点网络状态是否异常，若是则不去判断剩下状态，直接记录该节点网络状态异常，并跳至步骤5；若否，跳至步骤3；

步骤3：当网络状态正常时，通过RabbitMQ API检测该节点服务是否异常，若是则不会判断网络分区状态，记录该节点服务异常，跳至步骤6；若否，跳至步骤4；

步骤4：如果满足网络正常以及服务正常，则通过RabbitMQ API检测去判断是否有网络分区发生，若是，跳至步骤7；若否，跳至步骤8；

步骤5：当节点网络异常时，不处理；跳至步骤8；

步骤6：当节点服务异常时，根据异常节点的个数，执行不同的恢复操作；跳至步骤8；

步骤7：当节点出现网络分区时，按照指定方法恢复分区；跳至步骤8；

步骤8：每个节点配置xinetd服务，将状态检测文件暴露HTTP接口用于HAProxy健康检测，进入步骤9；

步骤9：配置HAProxy调用检测接口，检测当前节点的服务状态，进入步骤10；

步骤10：应用客户端调用HAProxy前端服务来调用RabbitMQ服务，结束。

本发明实施例的方法支持检测网络分区以外的原因引起的任意RabbitMQ节点的故障，并且自动恢复，增强系统可靠性。

实施例3：

本发明实施例提供一种恢复RabbitMQ网络分区的系统，包括：

状态检测模块，其用于：在每个RabbitMQ节点配置集群状态检测脚本，仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，并根据检测结果执行对应的恢复操作；每次检测结束时，在所有RabbitMQ节点分别写入记录检测结果的状态检测文件；

采用本发明实施例的系统，当出现网络分区后，自动检测故障并自动恢复，避免人工干预，减轻运维人员工作量。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种恢复RabbitMQ网络分区的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于：所述仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，具体包括以下步骤：

3.如权利要求1所述的方法，其特征在于：所述仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，还包括以下步骤：

若网络正常以及服务正常，则去判断是否有网络分区发生。

4.如权利要求1所述的方法，其特征在于：所述根据检测结果执行对应的恢复操作，具体包括以下步骤：

针对分区异常，按照预设方法执行分区恢复脚本。

5.如权利要求1所述的方法，其特征在于：该方法还包括以下步骤，当所述Keepalived主节点出现故障时，执行主备切换。

6.一种恢复RabbitMQ网络分区的系统，其特征在于，包括：

7.如权利要求6所述的系统，其特征在于：所述仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，具体包括以下步骤：

8.如权利要求6所述的系统，其特征在于：所述仅中心节点运行集群状态检测脚本，对所有RabbitMQ节点进行集群状态检测，还包括以下步骤：

若网络正常以及服务正常，则去判断是否有网络分区发生。

9.如权利要求6所述的系统，其特征在于：所述根据检测结果执行对应的恢复操作，具体包括以下步骤：

针对分区异常，按照预设方法执行分区恢复脚本。

10.如权利要求6所述的系统，其特征在于：所述Keepalived服务配置模块还用于：当所述Keepalived主节点出现故障时，执行主备切换。