CN107404522B

CN107404522B - 一种跨节点的虚拟机集群高可用实现方法和装置

Info

Publication number: CN107404522B
Application number: CN201710597777.4A
Authority: CN
Inventors: 孙京本; 刘如意; 李佩
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2020-03-10
Anticipated expiration: 2037-07-20
Also published as: CN107404522A

Abstract

本申请公开了一种跨节点的虚拟机集群高可用实现方法和装置，该方法包括通过pacemaker资源管理工具建立集群；获取所述虚拟机的网络连接方式和虚拟地址；获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息；获取所述集群的状态；查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作，如果所述fence操作失败的次数超过预设阈值，则判断出引起脑裂的宿主机的物理网卡，并将引起脑裂的宿主机上的虚拟机移出所述集群。上述跨节点的虚拟机集群高可用实现方法和装置，能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题，避免外部因素引起的集群状态异常，保证有效的对外提供服务。

Description

一种跨节点的虚拟机集群高可用实现方法和装置

技术领域

本发明属于集群通信技术领域，特别是涉及一种跨节点的虚拟机集群高可用实现方法和装置。

背景技术

现有技术中，集群方案基于pacemaker资源管理器及其组件corosync(提供心跳支持)、fence_virsh(提供故障恢复)等实现的虚拟机集群高可用特性，通过pacemaker使各节点以广播的形式对其他所有的节点发送心跳信号。当某一节点心跳丢失时，其他节点通过启动fence脚本资源的方式对该节点进行fence操作，包括重启和关闭节点等。

集群中互相通信的两个或者多个节点，通常会发送心跳信号，以确保节点都是正常运行的，通常情况下，当一个节点出现故障(宕机、崩溃)时，会停止对对端节点发送心跳信号，对端节点因为收不到该节点的心跳信号，由此认为该节点是死亡的，然后采取一些手段(重启或者关闭)来恢复该节点的运行，以保证业务的不中断。

以孤立物理节点上的虚拟机为节点建立集群时，虚拟机之间不存在物理直接相连的链路作为心跳链路，只能借助宿主机的物理链路发送心跳信号。虚拟机通过桥接或者其他任何方式都要通过宿主机的物理网卡，因此集群是通过宿主机的物理以太网相连。宿主机物理网卡的网线可能由于人为因素或者其他因素被拔出时，造成的集群中节点心跳丢失，这种情况下的心跳丢失时，链路两端的节点都检测不到对端节点的心跳信号，就会持续的对对端节点进行fence操作，但是因为节点的物理网线被拔出或者损坏，针对该链路两端节点的fence操作均不会成功，造成集群的脑裂状态。集群处于脑裂状态时，处于丢失心跳状态的节点会持续不断的发送fence操作执行来让对端节点进行fence操作，但是该fence操作却不会执行成功，结果就是整个集群的状态都是异常的，无法正常的对集群外部继续提供服务。

发明内容

为解决上述问题，本发明提供了一种跨节点的虚拟机集群高可用实现方法和装置，能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题，避免外部因素引起的集群状态异常，保证有效的对外提供服务。

本发明提供的一种跨节点的虚拟机集群高可用实现方法，包括：

通过pacemaker资源管理工具建立集群，所述集群中的节点为运行在宿主机上的虚拟机，所述虚拟机之间的心跳链路基于所述宿主机的物理链路；

获取所述虚拟机的网络连接方式和虚拟地址；

获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息；

获取所述集群的状态，当所述集群中的对端节点offline时，记录当前时间并保存offline信息；

查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作，如果所述fence操作失败的次数超过预设阈值，则判断出引起脑裂的宿主机的物理网卡，并将引起脑裂的宿主机上的虚拟机移出所述集群。

优选的，在上述跨节点的虚拟机集群高可用实现方法中，所述判断出引起脑裂的宿主机的物理网卡包括：

从所述物理网卡的信息中提取Linkdetected：yes\no的信息；

如果提取的信息是no，则判断本端宿主机的物理网卡是down的，并由所述本端宿主机的物理网卡故障引起的脑裂；

如果提取的信息是yes，则判断对端宿主机的物理网卡是down的，并由所述对端宿主机的物理网卡故障引起的脑裂。

优选的，在上述跨节点的虚拟机集群高可用实现方法中，所述将引起脑裂的宿主机上的虚拟机移出所述集群包括：

当由所述本端宿主机的物理网卡故障引起脑裂时，对所述本端宿主机上的虚拟机进行关机，保存操作日志；

当由所述对端宿主机的物理网卡故障引起脑裂时，停止调用对端的fence资源脚本，将所述对端宿主机上的虚拟机移出所述集群。

优选的，在上述跨节点的虚拟机集群高可用实现方法中，所述获取所述集群的状态包括：

以轮询的方式调用集群命令行获取所述集群的状态。

优选的，在上述跨节点的虚拟机集群高可用实现方法中，所述预设阈值为三次。

本发明提供的一种跨节点的虚拟机集群高可用实现装置，包括：

建立单元，用于通过pacemaker资源管理工具建立集群，所述集群中的节点为运行在宿主机上的虚拟机，所述虚拟机之间的心跳链路基于所述宿主机的物理链路；

第一获取单元，用于获取所述虚拟机的网络连接方式和虚拟地址；

第二获取单元，用于获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息；

第三获取单元，用于获取所述集群的状态，当所述集群中的对端节点offline时，记录当前时间并保存offline信息；

判断单元，用于查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作，如果所述fence操作失败的次数超过预设阈值，则判断出引起脑裂的宿主机的物理网卡，并将引起脑裂的宿主机上的虚拟机移出所述集群。

优选的，在上述跨节点的虚拟机集群高可用实现装置中，所述判断单元包括：

提取部件，用于从所述物理网卡的信息中提取Linkdetected：yes\no的信息；

第一判断部件，用于当提取的信息是no，则判断本端宿主机的物理网卡是down的，并由所述本端宿主机的物理网卡故障引起的脑裂；

第二判断部件，用于当提取的信息是yes，则判断对端宿主机的物理网卡是down的，并由所述对端宿主机的物理网卡故障引起的脑裂。

优选的，在上述跨节点的虚拟机集群高可用实现装置中，所述判断单元具体用于当由所述本端宿主机的物理网卡故障引起脑裂时，对所述本端宿主机上的虚拟机进行关机，保存操作日志；当由所述对端宿主机的物理网卡故障引起脑裂时，停止调用对端的fence资源脚本，将所述对端宿主机上的虚拟机移出所述集群。

优选的，在上述跨节点的虚拟机集群高可用实现装置中，所述第三获取单元具体用于以轮询的方式调用集群命令行获取所述集群的状态。

通过上述描述可知，本发明提供的上述跨节点的虚拟机集群高可用实现方法和装置，由于该方法包括获取所述集群的状态，当所述集群中的对端节点offline时，记录当前时间并保存offline信息；查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作，如果所述fence操作失败的次数超过预设阈值，则判断出引起脑裂的宿主机的物理网卡，并将引起脑裂的宿主机上的虚拟机移出所述集群，因此能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题，避免外部因素引起的集群状态异常，保证有效的对外提供服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的第一种跨节点的虚拟机集群高可用实现方法的示意图；

图2为本申请实施例提供的第一种跨节点的虚拟机集群高可用实现装置的示意图。

具体实施方式

本发明的核心思想在于提供一种跨节点的虚拟机集群高可用实现方法和装置，能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题，避免外部因素引起的集群状态异常，保证有效的对外提供服务。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供的第一种跨节点的虚拟机集群高可用实现方法如图1所示，图1为本申请实施例提供的第一种跨节点的虚拟机集群高可用实现方法的示意图，该方法包括如下步骤：

S1：通过pacemaker资源管理工具建立集群，所述集群中的节点为运行在宿主机上的虚拟机，所述虚拟机之间的心跳链路基于所述宿主机的物理链路；

具体的，该步骤可由python编写linux后台运行的进程实现，通过pacemaker资源管理工具创建的集群，集群中的节点为虚拟机，虚拟机之间的心跳链路借助宿主机的物理链路，下述各个步骤在pacemaker创建集群成功之后调用，作用范围为集群运行的整个生命周期内。

S2：获取所述虚拟机的网络连接方式和虚拟地址；

具体的，可以通过在宿主机上读取虚拟机的配置文件获取虚拟机的网络连接方式以及虚拟的ip地址，这里所述的连接方式包括但不限于桥接、mcvtap和net。

S3：获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息；

需要说明的是，可以根据集群的配置信息以及虚拟机的连接方式获取宿主机上用于给虚拟机提供心跳链路的物理网卡，并记录该网卡的相关信息，包括但不限于名称和IP地址。

S4：获取所述集群的状态，当所述集群中的对端节点offline时，记录当前时间并保存offline信息；

具体的，当集群的状态异常时，比如显示对端节点offline时，记录当前时间，并保存offline的信息。

S5：查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作，如果所述fence操作失败的次数超过预设阈值，则判断出引起脑裂的宿主机的物理网卡，并将引起脑裂的宿主机上的虚拟机移出所述集群。

具体的，可以包括查看集群日志，查询是否通过调用对端节点上的fence脚本资源对对端宿主机上的虚拟机进行了fence操作，并且查看fence操作的结果，如果fence操作是失败的，则失败计数+1。

通过上述描述可知，本申请实施例提供的第一种跨节点的虚拟机集群高可用实现方法，由于包括获取所述集群的状态，当所述集群中的对端节点offline时，记录当前时间并保存offline信息；查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作，如果所述fence操作失败的次数超过预设阈值，则判断出引起脑裂的宿主机的物理网卡，并将引起脑裂的宿主机上的虚拟机移出所述集群，因此能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题，避免外部因素引起的集群状态异常，保证有效的对外提供服务。

本申请实施例提供的第二种跨节点的虚拟机集群高可用实现方法，是在上述第一种跨节点的虚拟机集群高可用实现方法的基础上，还包括如下技术特征：

所述判断出引起脑裂的宿主机的物理网卡包括：

从所述物理网卡的信息中提取Linkdetected：yes\no的信息；

具体的，可以通过调用ethtool工具查看该网卡的相关信息，在后台程序中封装命令行的形式执行，在获取的信息中提取Linkdetected：yes\no的信息。

本申请实施例提供的第三种跨节点的虚拟机集群高可用实现方法，是在上述第二种跨节点的虚拟机集群高可用实现方法的基础上，还包括如下技术特征：

所述将引起脑裂的宿主机上的虚拟机移出所述集群包括：

在这种情况下，就能够有效判断出是哪一个宿主机的物理网卡出现故障，并将其移除，避免持续脑裂，影响对外提供服务的质量。

本申请实施例提供的第四种跨节点的虚拟机集群高可用实现方法，是在上述第三种跨节点的虚拟机集群高可用实现方法的基础上，还包括如下技术特征：

所述获取所述集群的状态包括：

以轮询的方式调用集群命令行获取所述集群的状态。

本申请实施例提供的第五种跨节点的虚拟机集群高可用实现方法，是在上述第一种至第四种跨节点的虚拟机集群高可用实现方法中任一种的基础上，还包括如下技术特征：

所述预设阈值为三次。

在这种情况下，就是fence超过三次失败之后，就进行虚拟机移除操作，一般不会出现误判情况，当然，还可以根据实际情况，采用其他次数作为阈值，此处并不限制。

本申请实施例提供的第一种跨节点的虚拟机集群高可用实现装置如图2所示，图2为本申请实施例提供的第一种跨节点的虚拟机集群高可用实现装置的示意图，包括：

建立单元201，用于通过pacemaker资源管理工具建立集群，所述集群中的节点为运行在宿主机上的虚拟机，所述虚拟机之间的心跳链路基于所述宿主机的物理链路，可由python编写linux后台运行的进程实现，通过pacemaker资源管理工具创建的集群，集群中的节点为虚拟机，虚拟机之间的心跳链路借助宿主机的物理链路，下述各个步骤在pacemaker创建集群成功之后调用，作用范围为集群运行的整个生命周期内；

第一获取单元202，用于获取所述虚拟机的网络连接方式和虚拟地址，可以通过在宿主机上读取虚拟机的配置文件获取虚拟机的网络连接方式以及虚拟的ip地址，这里所述的连接方式包括但不限于桥接、mcvtap和net；

第二获取单元203，用于获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息，可以根据集群的配置信息以及虚拟机的连接方式获取宿主机上用于给虚拟机提供心跳链路的物理网卡，并记录该网卡的相关信息，包括但不限于名称和IP地址；

第三获取单元204，用于获取所述集群的状态，当所述集群中的对端节点offline时，记录当前时间并保存offline信息，当集群的状态异常时，比如显示对端节点offline时，记录当前时间，并保存offline的信息；

判断单元205，用于查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作，如果所述fence操作失败的次数超过预设阈值，则判断出引起脑裂的宿主机的物理网卡，并将引起脑裂的宿主机上的虚拟机移出所述集群，可以包括查看集群日志，查询是否通过调用对端节点上的fence脚本资源对对端宿主机上的虚拟机进行了fence操作，并且查看fence操作的结果，如果fence操作是失败的，则失败计数+1。

本申请实施例提供的第二种跨节点的虚拟机集群高可用实现装置，是在上述第一种跨节点的虚拟机集群高可用实现装置的基础上，还包括如下技术特征：

所述判断单元包括：

本申请实施例提供的第三种跨节点的虚拟机集群高可用实现装置，是在上述第二种跨节点的虚拟机集群高可用实现装置的基础上，还包括如下技术特征：

所述判断单元具体用于当由所述本端宿主机的物理网卡故障引起脑裂时，对所述本端宿主机上的虚拟机进行关机，保存操作日志；当由所述对端宿主机的物理网卡故障引起脑裂时，停止调用对端的fence资源脚本，将所述对端宿主机上的虚拟机移出所述集群。

本申请实施例提供的第四种跨节点的虚拟机集群高可用实现装置，是在上述第三种跨节点的虚拟机集群高可用实现装置的基础上，还包括如下技术特征：

所述第三获取单元具体用于以轮询的方式调用集群命令行获取所述集群的状态。

上述方案适用于所有以linux平台上的虚拟机作为集群节点、并且虚拟机借助linux平台的物理网卡对外通信和对内发送心跳的pacemaker集群。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种跨节点的虚拟机集群高可用实现方法，其特征在于，包括：

获取所述虚拟机的网络连接方式和虚拟地址；

查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作，如果所述fence操作失败的次数超过预设阈值，则判断出引起脑裂的宿主机的物理网卡，并将引起脑裂的宿主机上的虚拟机移出所述集群；

所述判断出引起脑裂的宿主机的物理网卡包括：

从所述物理网卡的信息中提取Linkdetected：yes\no的信息；

2.根据权利要求1所述的跨节点的虚拟机集群高可用实现方法，其特征在于，所述将引起脑裂的宿主机上的虚拟机移出所述集群包括：

3.根据权利要求2所述的跨节点的虚拟机集群高可用实现方法，其特征在于，所述获取所述集群的状态包括：

以轮询的方式调用集群命令行获取所述集群的状态。

4.根据权利要求1-3任一项所述的跨节点的虚拟机集群高可用实现方法，其特征在于，所述预设阈值为三次。

5.一种跨节点的虚拟机集群高可用实现装置，其特征在于，包括：

判断单元，用于查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作，如果所述fence操作失败的次数超过预设阈值，则判断出引起脑裂的宿主机的物理网卡，并将引起脑裂的宿主机上的虚拟机移出所述集群；

所述判断单元包括：

6.根据权利要求5所述的跨节点的虚拟机集群高可用实现装置，其特征在于，所述判断单元具体用于当由所述本端宿主机的物理网卡故障引起脑裂时，对所述本端宿主机上的虚拟机进行关机，保存操作日志；当由所述对端宿主机的物理网卡故障引起脑裂时，停止调用对端的fence资源脚本，将所述对端宿主机上的虚拟机移出所述集群。

7.根据权利要求6所述的跨节点的虚拟机集群高可用实现装置，其特征在于，所述第三获取单元具体用于以轮询的方式调用集群命令行获取所述集群的状态。