CN110134518B

CN110134518B - 一种提高大数据集群多节点应用高可用性的方法及系统

Info

Publication number: CN110134518B
Application number: CN201910423927.9A
Authority: CN
Inventors: 吴李烜; 李国涛; 胡清; 王建华
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2023-09-01
Anticipated expiration: 2039-05-21
Also published as: CN110134518A

Abstract

本发明公开了一种提高大数据集群多节点应用高可用性的方法及系统，属于计算机软件领域，本发明要解决的技术问题为如何更有效的保证集群应用的高可用特性，采用的技术方案为：①该方法是基于Pacemaker和Corosync结合python监控服务用以对集群进行有效管理以及实时检测系统应用状态，结合心跳包检测，有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性；具体步骤如下：S1、部署多个负载均衡设备；S2、部署多节点应用；S3、部署Pacemaker&Corosync模块和Python监控服务模块。②该系统包括若干负载设备均衡设备和若干节点，节点上部署Pacemaker&Corosync模块和Python监控服务模块；负载均衡设备之间通过心跳包检测判断对方的状态，节点之间通过心跳包检测对方的状态。

Description

一种提高大数据集群多节点应用高可用性的方法及系统

技术领域

本发明涉及计算机软件领域，具体地说是一种提高大数据集群多节点应用高可用性的方法及系统。

背景技术

随着信息技术的发展，借助“虚拟化”技术，云上应用逐渐成为主流。越来越多“云服务”的出现，用户只需要在线申请若干台“云主机”，即可创建集群、部署分布式应用，用较小的代价实现分布式、高性能并行计算，极大的节约了成本。然而，随着应用增多，集群规模势必愈发庞大，资源的管理、应用乃至系统的稳定运行成为了亟待解决的问题。

目前，“单点”问题是系统或者应用高可用最大的风险点。通过集群化的方式保障系统的高可用，如何保障应用的高可用呢？目前，通用的解决方案是通过冗余+自动故障转移来保证应用的高可用特性，即部署多套应用，搭配资源管理器自动隔离故障应用达到应用高可用的目的。

目前有个比较成熟的开源解决方案就是通过Corosync进行心跳检测，利用Pacemaker进行作业调度，底层再利用DRBD进行数据复制的方式实现应用高可用；另一种解决方案即是Corosync+Pacemaker+共享存储的方式实现应用高可用。

然而，上述两个方案都面临“脑裂”的问题，即由于某些原因，节点之间不能完全通信(比如分成了A和B两部分，其中A包含若干节点，B也包含若干节点)，A部分的节点能收到各自的心跳信息，B部分的节点也可以收到各自的心跳信息，但是A和B收不到对方的心跳信息，因此，它们都以为对方故障，从而出现两个甚至多个集群，造成资源竞争的情况，即时通过投票的方式避免资源抢占，但是还是有每个集群都达不到法定票数导致集群“失活”的情况。同时，由于某些原因，节点重启之后，Pacemaker&Corosync会自动将节点状态置为“Offline”，导致重启后的正常节点上的应用无法正常工作。

由此可见，即使是主流的资源调度系统也不能完全保证集群的高可用性，故如何更有效的保证集群应用的高可用特性是一个亟待解决的问题。

专利号为CN104023061A的专利文献公开了一种LUSTRE的OSS高可用集群方案，属于计算机服务器系统领域，该方案步骤如下：1)将整个文件系统建立；2)在每个OSS上安装pacemaker软件以及corosync软件；3)在命令行中对此高可用集群添加资源；4)配置完成后，启动corosync和pacemaker服务，模拟失败节点；5)在修复失败节点，然后查看资源是否可以重新添加回来，如果可以，说明此方案可行并执行成功。但是该技术方案面临“脑裂”的问题，不能完全保证集群的高可用性。

专利号为CN103942128A的专利文献公开了高性能作业调度管理节点双机加固方法，该方法主要是在高性能计算领域针对作业调度管理节点通过安装以及配置Pacemaker、corosync和drbd软件，达到节点级以及资源级的双重加固；该方法一方面避免了单机部署造成的单点故障问题，另一方面，采用pacemaker软件可以提供对作业系统资源监控，再加上drbd可以对作业调度系统的存储进行双机配置。但是该技术方案面临“脑裂”的问题，不能完全保证集群的高可用性。

发明内容

本发明的技术任务是提供一种提高大数据集群多节点应用高可用性的方法及系统，来解决如何更有效的保证集群应用的高可用特性的问题。

本发明的技术任务是按以下方式实现的，一种提高大数据集群多节点应用高可用性的方法，该方法是基于Pacemaker和Corosync结合python监控服务用以对集群进行有效管理以及实时检测系统应用状态，结合心跳包检测，有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性；具体步骤如下：

S1、部署多个负载均衡设备：集群外层通过部署多个负载均衡设备(LoadBalancer)供外界访问，负载均衡设备之间通过心跳包检测判断对方的状态；

S2、部署多节点应用：确保每个节点上的应用都能正常启动，之后停止应用，并关闭应用开机自启动功能，确保之后集群应用完全交给集群资源管理器(Pacemaker)调度；

S3、部署Pacemaker&Corosync模块和Python监控服务模块：将Pacemaker&Corosync模块以及Python监控服务模块部署在各个节点(Nodel-N)中。其中，部署python监控服务功能包括：心跳包检测、应用迁移、异常节点隔离、清除应用错误状态、发送告警、重启服务等。

作为优选，所述步骤S3中部署Pacemaker&Corosync模块和Python监控服务是通过Ansible脚本结合Jenkins实现自动化部署，Ansible脚本自动识别系统环境差异化部署。

更优地，所述步骤S2中部署多节点应用是将应用以资源的方式添加到监控集群中，以便于集群资源管理器调度；在添加资源的同时，配置资源的启停超时时长、监控间隔、资源默认状态的信息，以保证Pacemaker能够正确的调度应用。

作为优选，所述步骤S4中将Python监控服务部署在各个节点中主要实现如下功能：

①、通过socket通信探测各节点的心跳包，迁移应用、隔离有问题的节点并发出告警；

②、检测应用的进程确认可用性，及时清除应用的错误状态；

③、检测到节点重启会触发Pacemaker&Corosync自动将节点状态置为“Offline”的情况，及时清理应用状态并重启服务，修正异常状态。

一种提高大数据集群多节点应用高可用性的系统，该系统包括若个干负载设备均衡设备(LoadBalancer)和若个干节点，节点上部署Pacemaker&Corosync模块和Python监控服务模块；负载均衡设备之间通过心跳包检测判断对方的状态，节点之间通过心跳包检测对方的状态。

作为优选，所述节点通过Ansible脚本结合Jenkins自动化部署Pacemaker&Corosync模块和Python监控服务模块，Ansible脚本自动识别系统环境差异化部署。

作为优选，所述Python监控服务主要实现如下功能：

作为优选，该系统的工作过程如下：

(1)、初始化负载均衡设备和节点，下一步执行步骤(2)；

(2)、心跳检测，进程检查，下一步执行步骤(3)；

(3)、判断节点状态是否异常：

①、若是，则下一步执行步骤(4)；

②、若否，则下一步跳转至步骤(7)；

(4)、迁移应用，下一步执行步骤(5)；

(5)、清理应用状态，下一步执行步骤(6)；

(6)、发送告警信息，下一步跳转至步骤(2)；

(7)、判断应用状态是否异常：

①、若是，则下一步执行步骤(8)；

②、若否，则下一步跳转至步骤(11)；

(8)、清理应用状态，下一步执行步骤(9)；

(9)、更新配置Pacemaker&Corosync，下一步执行步骤(10)；

(10)、重启服务，下一步执行步骤(11)；

(11)、结束。

更优地，所述步骤(9)中更新配置Pacemaker&Corosync包括配置资源的启停超时时长、监控间隔以及资源默认状态的信息。

本发明的提高大数据集群多节点应用高可用性的方法及系统具有以下优点：

(一)、本发明主要通过自动化部署Pacemaker&Corosync，解决大数据集群应用“单点故障”问题，同时配合python监控服务，解决大数据集群多节点应用运行过程中遇到的“脑裂”问题，有效的弥补了传统应用高可用解决方案的不足，提高了大数据集群应用的可靠性和稳定性，能够保证大数据集群多节点应用的高可用性；

(二)、本发明基于Pacemaker和Corosync结合python监控服务，提出一种提高大数据集群中多节点应用高可用性的方法，用以对集群进行有效管理以及实时检测系统应用状态，结合心跳包检测，能够有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性。

(三)、本发明明显提高了大数据集群应用的稳定性，有效的避免了“应用异常—>人工干预”这种人工运维的方式，降低了人工成本，极大的缩短了应用故障时间，同时为应用乃至集群的扩展提供了一种有效的解决方案，增强了系统的可扩展性，应用高可用极大的增强了用户体验；

(四)、手工或者自动化部署集群资源管理器(包括但不限定于Pacemaker)、心跳检测(包括但不限定于Corosync)以及应用监控服务(包括但不限定于Python服务)，确保具有高可伸缩、高可靠和易管理的集群或者分布式系统环境。

附图说明

下面结合附图对本发明进一步说明。

附图1为提高大数据集群多节点应用高可用性的方法的流程框图；

附图2为提高大数据集群多节点应用高可用性的系统的结构框图；

附图3为提高大数据集群多节点应用高可用性的系统的工作过程的流程框图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种提高大数据集群多节点应用高可用性的方法及系统作以下详细地说明。

实施例1：

如附图1所示，本发明的提高大数据集群多节点应用高可用性的方法,该方法是基于Pacemaker和Corosync结合python监控服务用以对集群进行有效管理以及实时检测系统应用状态，结合心跳包检测，有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性；具体步骤如下：

S1、部署多个负载均衡设备(硬件/软件)：集群外层通过部署多个负载均衡设备(LoadBalancer)供外界访问，负载均衡设备之间通过心跳包检测判断对方的状态；

S3、部署Pacemaker&Corosync模块和Python监控服务模块：将Pacemaker&Corosync模块以及Python监控服务模块部署在各个节点(Nodel-N)中；其中，部署Pacemaker&Corosync：部署多节点应用是通过Ansible脚本结合Jenkins自动化部署Pacemaker&Corosync，Ansible脚本自动识别系统环境差异化部署；将应用以资源的方式添加到监控集群中，以便于集群资源管理器调度；在添加资源的同时，配置资源的启停超时时长、监控间隔、资源默认状态的信息，以保证Pacemaker能够正确的调度应用。

部署python监控服务：将Python监控服务部署在各个节点(Nodel)中，主要实现如下功能：

实施例2：

如附图2所示，本发明的提高大数据集群多节点应用高可用性的系统，该系统包括若干负载设备均衡设备(LoadBalancer)和若干节点，节点上部署Pacemaker&Corosync模块和Python监控服务模块；负载均衡设备之间通过心跳包检测判断对方的状态，节点之间通过心跳包检测对方的状态。节点通过Ansible脚本结合Jenkins自动化部署Pacemaker&Corosync模块和Python监控服务模块，Ansible脚本自动识别系统环境差异化部署。

其中，Python监控服务主要实现如下功能：

如附图3所示，该系统的工作过程如下：

(1)、初始化负载均衡设备和节点，下一步执行步骤(2)；

(2)、心跳检测，进程检查，下一步执行步骤(3)；

(3)、判断节点状态是否异常：

①、若是，则下一步执行步骤(4)；

②、若否，则下一步跳转至步骤(7)；

(4)、迁移应用，下一步执行步骤(5)；

(5)、清理应用状态，下一步执行步骤(6)；

(6)、发送告警信息，下一步跳转至步骤(2)；

(7)、判断应用状态是否异常：

①、若是，则下一步执行步骤(8)；

②、若否，则下一步跳转至步骤(11)；

(8)、清理应用状态，下一步执行步骤(9)；

(9)、更新配置Pacemaker&Corosync，下一步执行步骤(10)；其中，更新配置Pacemaker&Corosync包括配置资源的启停超时时长、监控间隔以及资源默认状态的信息；

(10)、重启服务，下一步执行步骤(11)；

(11)、结束。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种提高大数据集群多节点应用高可用性的方法，其特征在于，该方法是基于Pacemaker和Corosync结合python监控服务用以对集群进行有效管理以及实时检测系统应用状态，结合心跳包检测，有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性；具体步骤如下：

S1、部署多个负载均衡设备：集群外层通过部署多个负载均衡设备供外界访问，负载均衡设备之间通过心跳包检测判断对方的状态；

S2、部署多节点应用：确保每个节点上的应用都能正常启动，之后停止应用，并关闭应用开机自启动功能，确保之后集群应用完全交给集群资源管理器调度；其中，部署多节点应用是将应用以资源的方式添加到监控集群中，以便于集群资源管理器调度；在添加资源的同时，配置资源的启停超时时长、监控间隔、资源默认状态的信息，以保证Pacemaker能够正确的调度应用；

S3、部署Pacemaker&Corosync模块和Python监控服务模块：将Pacemaker&Corosync模块以及Python监控服务模块部署在各个节点中；其中，部署Pacemaker&Corosync模块和Python监控服务模块是通过Ansible脚本结合Jenkins实现自动化部署，Ansible脚本自动识别系统环境差异化部署；Python监控服务模块部署在各个节点中主要实现如下功能：

2.一种提高大数据集群多节点应用高可用性的系统，其特征在于，该系统包括若干负载设备均衡设备和若干节点，节点上部署Pacemaker&Corosync模块和Python监控服务模块；负载均衡设备之间通过心跳包检测判断对方的状态，节点之间通过心跳包检测对方的状态；

其中，节点通过Ansible脚本结合Jenkins自动化部署Pacemaker&Corosync模块和Python监控服务模块，Ansible脚本自动识别系统环境差异化部署；

Python监控服务主要实现如下功能：

③、检测到节点重启会触发Pacemaker&Corosync自动将节点状态置为“Offline”的情况，及时清理应用状态并重启服务，修正异常状态；

该系统的工作过程如下：

（1）、初始化负载均衡设备和节点，下一步执行步骤（2）；

（2）、心跳检测，进程检查，下一步执行步骤（3）；

（3）、判断节点状态是否异常：

①、若是，则下一步执行步骤（4）；

②、若否，则下一步跳转至步骤（7）；

（4）、迁移应用，下一步执行步骤（5）；

（5）、清理应用状态，下一步执行步骤（6）；

（6）、发送告警信息，下一步跳转至步骤（2）；

（7）、判断应用状态是否异常：

①、若是，则下一步执行步骤（8）；

②、若否，则下一步跳转至步骤（11）；

（8）、清理应用状态，下一步执行步骤（9）；

（9）、更新配置Pacemaker&Corosync，下一步执行步骤（10）；其中，更新配置Pacemaker&Corosync包括配置资源的启停超时时长、监控间隔以及资源默认状态的信息；

（10）、重启服务，下一步执行步骤（11）；

（11）、结束。