CN107404522B - 一种跨节点的虚拟机集群高可用实现方法和装置 - Google Patents

一种跨节点的虚拟机集群高可用实现方法和装置 Download PDF

Info

Publication number
CN107404522B
CN107404522B CN201710597777.4A CN201710597777A CN107404522B CN 107404522 B CN107404522 B CN 107404522B CN 201710597777 A CN201710597777 A CN 201710597777A CN 107404522 B CN107404522 B CN 107404522B
Authority
CN
China
Prior art keywords
cluster
host
virtual machine
physical network
network card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710597777.4A
Other languages
English (en)
Other versions
CN107404522A (zh
Inventor
孙京本
刘如意
李佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201710597777.4A priority Critical patent/CN107404522B/zh
Publication of CN107404522A publication Critical patent/CN107404522A/zh
Application granted granted Critical
Publication of CN107404522B publication Critical patent/CN107404522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/131Protocols for games, networked simulations or virtual reality

Abstract

本申请公开了一种跨节点的虚拟机集群高可用实现方法和装置,该方法包括通过pacemaker资源管理工具建立集群;获取所述虚拟机的网络连接方式和虚拟地址;获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息;获取所述集群的状态;查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群。上述跨节点的虚拟机集群高可用实现方法和装置,能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题,避免外部因素引起的集群状态异常,保证有效的对外提供服务。

Description

一种跨节点的虚拟机集群高可用实现方法和装置
技术领域
本发明属于集群通信技术领域,特别是涉及一种跨节点的虚拟机集群高可用实现方法和装置。
背景技术
现有技术中,集群方案基于pacemaker资源管理器及其组件corosync(提供心跳支持)、fence_virsh(提供故障恢复)等实现的虚拟机集群高可用特性,通过pacemaker使各节点以广播的形式对其他所有的节点发送心跳信号。当某一节点心跳丢失时,其他节点通过启动fence脚本资源的方式对该节点进行fence操作,包括重启和关闭节点等。
集群中互相通信的两个或者多个节点,通常会发送心跳信号,以确保节点都是正常运行的,通常情况下,当一个节点出现故障(宕机、崩溃)时,会停止对对端节点发送心跳信号,对端节点因为收不到该节点的心跳信号,由此认为该节点是死亡的,然后采取一些手段(重启或者关闭)来恢复该节点的运行,以保证业务的不中断。
以孤立物理节点上的虚拟机为节点建立集群时,虚拟机之间不存在物理直接相连的链路作为心跳链路,只能借助宿主机的物理链路发送心跳信号。虚拟机通过桥接或者其他任何方式都要通过宿主机的物理网卡,因此集群是通过宿主机的物理以太网相连。宿主机物理网卡的网线可能由于人为因素或者其他因素被拔出时,造成的集群中节点心跳丢失,这种情况下的心跳丢失时,链路两端的节点都检测不到对端节点的心跳信号,就会持续的对对端节点进行fence操作,但是因为节点的物理网线被拔出或者损坏,针对该链路两端节点的fence操作均不会成功,造成集群的脑裂状态。集群处于脑裂状态时,处于丢失心跳状态的节点会持续不断的发送fence操作执行来让对端节点进行fence操作,但是该fence操作却不会执行成功,结果就是整个集群的状态都是异常的,无法正常的对集群外部继续提供服务。
发明内容
为解决上述问题,本发明提供了一种跨节点的虚拟机集群高可用实现方法和装置,能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题,避免外部因素引起的集群状态异常,保证有效的对外提供服务。
本发明提供的一种跨节点的虚拟机集群高可用实现方法,包括:
通过pacemaker资源管理工具建立集群,所述集群中的节点为运行在宿主机上的虚拟机,所述虚拟机之间的心跳链路基于所述宿主机的物理链路;
获取所述虚拟机的网络连接方式和虚拟地址;
获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息;
获取所述集群的状态,当所述集群中的对端节点offline时,记录当前时间并保存offline信息;
查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群。
优选的,在上述跨节点的虚拟机集群高可用实现方法中,所述判断出引起脑裂的宿主机的物理网卡包括:
从所述物理网卡的信息中提取Linkdetected:yes\no的信息;
如果提取的信息是no,则判断本端宿主机的物理网卡是down的,并由所述本端宿主机的物理网卡故障引起的脑裂;
如果提取的信息是yes,则判断对端宿主机的物理网卡是down的,并由所述对端宿主机的物理网卡故障引起的脑裂。
优选的,在上述跨节点的虚拟机集群高可用实现方法中,所述将引起脑裂的宿主机上的虚拟机移出所述集群包括:
当由所述本端宿主机的物理网卡故障引起脑裂时,对所述本端宿主机上的虚拟机进行关机,保存操作日志;
当由所述对端宿主机的物理网卡故障引起脑裂时,停止调用对端的fence资源脚本,将所述对端宿主机上的虚拟机移出所述集群。
优选的,在上述跨节点的虚拟机集群高可用实现方法中,所述获取所述集群的状态包括:
以轮询的方式调用集群命令行获取所述集群的状态。
优选的,在上述跨节点的虚拟机集群高可用实现方法中,所述预设阈值为三次。
本发明提供的一种跨节点的虚拟机集群高可用实现装置,包括:
建立单元,用于通过pacemaker资源管理工具建立集群,所述集群中的节点为运行在宿主机上的虚拟机,所述虚拟机之间的心跳链路基于所述宿主机的物理链路;
第一获取单元,用于获取所述虚拟机的网络连接方式和虚拟地址;
第二获取单元,用于获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息;
第三获取单元,用于获取所述集群的状态,当所述集群中的对端节点offline时,记录当前时间并保存offline信息;
判断单元,用于查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群。
优选的,在上述跨节点的虚拟机集群高可用实现装置中,所述判断单元包括:
提取部件,用于从所述物理网卡的信息中提取Linkdetected:yes\no的信息;
第一判断部件,用于当提取的信息是no,则判断本端宿主机的物理网卡是down的,并由所述本端宿主机的物理网卡故障引起的脑裂;
第二判断部件,用于当提取的信息是yes,则判断对端宿主机的物理网卡是down的,并由所述对端宿主机的物理网卡故障引起的脑裂。
优选的,在上述跨节点的虚拟机集群高可用实现装置中,所述判断单元具体用于当由所述本端宿主机的物理网卡故障引起脑裂时,对所述本端宿主机上的虚拟机进行关机,保存操作日志;当由所述对端宿主机的物理网卡故障引起脑裂时,停止调用对端的fence资源脚本,将所述对端宿主机上的虚拟机移出所述集群。
优选的,在上述跨节点的虚拟机集群高可用实现装置中,所述第三获取单元具体用于以轮询的方式调用集群命令行获取所述集群的状态。
通过上述描述可知,本发明提供的上述跨节点的虚拟机集群高可用实现方法和装置,由于该方法包括获取所述集群的状态,当所述集群中的对端节点offline时,记录当前时间并保存offline信息;查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群,因此能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题,避免外部因素引起的集群状态异常,保证有效的对外提供服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的第一种跨节点的虚拟机集群高可用实现方法的示意图;
图2为本申请实施例提供的第一种跨节点的虚拟机集群高可用实现装置的示意图。
具体实施方式
本发明的核心思想在于提供一种跨节点的虚拟机集群高可用实现方法和装置,能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题,避免外部因素引起的集群状态异常,保证有效的对外提供服务。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供的第一种跨节点的虚拟机集群高可用实现方法如图1所示,图1为本申请实施例提供的第一种跨节点的虚拟机集群高可用实现方法的示意图,该方法包括如下步骤:
S1:通过pacemaker资源管理工具建立集群,所述集群中的节点为运行在宿主机上的虚拟机,所述虚拟机之间的心跳链路基于所述宿主机的物理链路;
具体的,该步骤可由python编写linux后台运行的进程实现,通过pacemaker资源管理工具创建的集群,集群中的节点为虚拟机,虚拟机之间的心跳链路借助宿主机的物理链路,下述各个步骤在pacemaker创建集群成功之后调用,作用范围为集群运行的整个生命周期内。
S2:获取所述虚拟机的网络连接方式和虚拟地址;
具体的,可以通过在宿主机上读取虚拟机的配置文件获取虚拟机的网络连接方式以及虚拟的ip地址,这里所述的连接方式包括但不限于桥接、mcvtap和net。
S3:获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息;
需要说明的是,可以根据集群的配置信息以及虚拟机的连接方式获取宿主机上用于给虚拟机提供心跳链路的物理网卡,并记录该网卡的相关信息,包括但不限于名称和IP地址。
S4:获取所述集群的状态,当所述集群中的对端节点offline时,记录当前时间并保存offline信息;
具体的,当集群的状态异常时,比如显示对端节点offline时,记录当前时间,并保存offline的信息。
S5:查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群。
具体的,可以包括查看集群日志,查询是否通过调用对端节点上的fence脚本资源对对端宿主机上的虚拟机进行了fence操作,并且查看fence操作的结果,如果fence操作是失败的,则失败计数+1。
通过上述描述可知,本申请实施例提供的第一种跨节点的虚拟机集群高可用实现方法,由于包括获取所述集群的状态,当所述集群中的对端节点offline时,记录当前时间并保存offline信息;查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群,因此能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题,避免外部因素引起的集群状态异常,保证有效的对外提供服务。
本申请实施例提供的第二种跨节点的虚拟机集群高可用实现方法,是在上述第一种跨节点的虚拟机集群高可用实现方法的基础上,还包括如下技术特征:
所述判断出引起脑裂的宿主机的物理网卡包括:
从所述物理网卡的信息中提取Linkdetected:yes\no的信息;
如果提取的信息是no,则判断本端宿主机的物理网卡是down的,并由所述本端宿主机的物理网卡故障引起的脑裂;
如果提取的信息是yes,则判断对端宿主机的物理网卡是down的,并由所述对端宿主机的物理网卡故障引起的脑裂。
具体的,可以通过调用ethtool工具查看该网卡的相关信息,在后台程序中封装命令行的形式执行,在获取的信息中提取Linkdetected:yes\no的信息。
本申请实施例提供的第三种跨节点的虚拟机集群高可用实现方法,是在上述第二种跨节点的虚拟机集群高可用实现方法的基础上,还包括如下技术特征:
所述将引起脑裂的宿主机上的虚拟机移出所述集群包括:
当由所述本端宿主机的物理网卡故障引起脑裂时,对所述本端宿主机上的虚拟机进行关机,保存操作日志;
当由所述对端宿主机的物理网卡故障引起脑裂时,停止调用对端的fence资源脚本,将所述对端宿主机上的虚拟机移出所述集群。
在这种情况下,就能够有效判断出是哪一个宿主机的物理网卡出现故障,并将其移除,避免持续脑裂,影响对外提供服务的质量。
本申请实施例提供的第四种跨节点的虚拟机集群高可用实现方法,是在上述第三种跨节点的虚拟机集群高可用实现方法的基础上,还包括如下技术特征:
所述获取所述集群的状态包括:
以轮询的方式调用集群命令行获取所述集群的状态。
本申请实施例提供的第五种跨节点的虚拟机集群高可用实现方法,是在上述第一种至第四种跨节点的虚拟机集群高可用实现方法中任一种的基础上,还包括如下技术特征:
所述预设阈值为三次。
在这种情况下,就是fence超过三次失败之后,就进行虚拟机移除操作,一般不会出现误判情况,当然,还可以根据实际情况,采用其他次数作为阈值,此处并不限制。
本申请实施例提供的第一种跨节点的虚拟机集群高可用实现装置如图2所示,图2为本申请实施例提供的第一种跨节点的虚拟机集群高可用实现装置的示意图,包括:
建立单元201,用于通过pacemaker资源管理工具建立集群,所述集群中的节点为运行在宿主机上的虚拟机,所述虚拟机之间的心跳链路基于所述宿主机的物理链路,可由python编写linux后台运行的进程实现,通过pacemaker资源管理工具创建的集群,集群中的节点为虚拟机,虚拟机之间的心跳链路借助宿主机的物理链路,下述各个步骤在pacemaker创建集群成功之后调用,作用范围为集群运行的整个生命周期内;
第一获取单元202,用于获取所述虚拟机的网络连接方式和虚拟地址,可以通过在宿主机上读取虚拟机的配置文件获取虚拟机的网络连接方式以及虚拟的ip地址,这里所述的连接方式包括但不限于桥接、mcvtap和net;
第二获取单元203,用于获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息,可以根据集群的配置信息以及虚拟机的连接方式获取宿主机上用于给虚拟机提供心跳链路的物理网卡,并记录该网卡的相关信息,包括但不限于名称和IP地址;
第三获取单元204,用于获取所述集群的状态,当所述集群中的对端节点offline时,记录当前时间并保存offline信息,当集群的状态异常时,比如显示对端节点offline时,记录当前时间,并保存offline的信息;
判断单元205,用于查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群,可以包括查看集群日志,查询是否通过调用对端节点上的fence脚本资源对对端宿主机上的虚拟机进行了fence操作,并且查看fence操作的结果,如果fence操作是失败的,则失败计数+1。
本申请实施例提供的第二种跨节点的虚拟机集群高可用实现装置,是在上述第一种跨节点的虚拟机集群高可用实现装置的基础上,还包括如下技术特征:
所述判断单元包括:
提取部件,用于从所述物理网卡的信息中提取Linkdetected:yes\no的信息;
第一判断部件,用于当提取的信息是no,则判断本端宿主机的物理网卡是down的,并由所述本端宿主机的物理网卡故障引起的脑裂;
第二判断部件,用于当提取的信息是yes,则判断对端宿主机的物理网卡是down的,并由所述对端宿主机的物理网卡故障引起的脑裂。
具体的,可以通过调用ethtool工具查看该网卡的相关信息,在后台程序中封装命令行的形式执行,在获取的信息中提取Linkdetected:yes\no的信息。
本申请实施例提供的第三种跨节点的虚拟机集群高可用实现装置,是在上述第二种跨节点的虚拟机集群高可用实现装置的基础上,还包括如下技术特征:
所述判断单元具体用于当由所述本端宿主机的物理网卡故障引起脑裂时,对所述本端宿主机上的虚拟机进行关机,保存操作日志;当由所述对端宿主机的物理网卡故障引起脑裂时,停止调用对端的fence资源脚本,将所述对端宿主机上的虚拟机移出所述集群。
在这种情况下,就能够有效判断出是哪一个宿主机的物理网卡出现故障,并将其移除,避免持续脑裂,影响对外提供服务的质量。
本申请实施例提供的第四种跨节点的虚拟机集群高可用实现装置,是在上述第三种跨节点的虚拟机集群高可用实现装置的基础上,还包括如下技术特征:
所述第三获取单元具体用于以轮询的方式调用集群命令行获取所述集群的状态。
上述方案适用于所有以linux平台上的虚拟机作为集群节点、并且虚拟机借助linux平台的物理网卡对外通信和对内发送心跳的pacemaker集群。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种跨节点的虚拟机集群高可用实现方法,其特征在于,包括:
通过pacemaker资源管理工具建立集群,所述集群中的节点为运行在宿主机上的虚拟机,所述虚拟机之间的心跳链路基于所述宿主机的物理链路;
获取所述虚拟机的网络连接方式和虚拟地址;
获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息;
获取所述集群的状态,当所述集群中的对端节点offline时,记录当前时间并保存offline信息;
查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群;
所述判断出引起脑裂的宿主机的物理网卡包括:
从所述物理网卡的信息中提取Linkdetected:yes\no的信息;
如果提取的信息是no,则判断本端宿主机的物理网卡是down的,并由所述本端宿主机的物理网卡故障引起的脑裂;
如果提取的信息是yes,则判断对端宿主机的物理网卡是down的,并由所述对端宿主机的物理网卡故障引起的脑裂。
2.根据权利要求1所述的跨节点的虚拟机集群高可用实现方法,其特征在于,所述将引起脑裂的宿主机上的虚拟机移出所述集群包括:
当由所述本端宿主机的物理网卡故障引起脑裂时,对所述本端宿主机上的虚拟机进行关机,保存操作日志;
当由所述对端宿主机的物理网卡故障引起脑裂时,停止调用对端的fence资源脚本,将所述对端宿主机上的虚拟机移出所述集群。
3.根据权利要求2所述的跨节点的虚拟机集群高可用实现方法,其特征在于,所述获取所述集群的状态包括:
以轮询的方式调用集群命令行获取所述集群的状态。
4.根据权利要求1-3任一项所述的跨节点的虚拟机集群高可用实现方法,其特征在于,所述预设阈值为三次。
5.一种跨节点的虚拟机集群高可用实现装置,其特征在于,包括:
建立单元,用于通过pacemaker资源管理工具建立集群,所述集群中的节点为运行在宿主机上的虚拟机,所述虚拟机之间的心跳链路基于所述宿主机的物理链路;
第一获取单元,用于获取所述虚拟机的网络连接方式和虚拟地址;
第二获取单元,用于获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息;
第三获取单元,用于获取所述集群的状态,当所述集群中的对端节点offline时,记录当前时间并保存offline信息;
判断单元,用于查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群;
所述判断单元包括:
提取部件,用于从所述物理网卡的信息中提取Linkdetected:yes\no的信息;
第一判断部件,用于当提取的信息是no,则判断本端宿主机的物理网卡是down的,并由所述本端宿主机的物理网卡故障引起的脑裂;
第二判断部件,用于当提取的信息是yes,则判断对端宿主机的物理网卡是down的,并由所述对端宿主机的物理网卡故障引起的脑裂。
6.根据权利要求5所述的跨节点的虚拟机集群高可用实现装置,其特征在于,所述判断单元具体用于当由所述本端宿主机的物理网卡故障引起脑裂时,对所述本端宿主机上的虚拟机进行关机,保存操作日志;当由所述对端宿主机的物理网卡故障引起脑裂时,停止调用对端的fence资源脚本,将所述对端宿主机上的虚拟机移出所述集群。
7.根据权利要求6所述的跨节点的虚拟机集群高可用实现装置,其特征在于,所述第三获取单元具体用于以轮询的方式调用集群命令行获取所述集群的状态。
CN201710597777.4A 2017-07-20 2017-07-20 一种跨节点的虚拟机集群高可用实现方法和装置 Active CN107404522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710597777.4A CN107404522B (zh) 2017-07-20 2017-07-20 一种跨节点的虚拟机集群高可用实现方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710597777.4A CN107404522B (zh) 2017-07-20 2017-07-20 一种跨节点的虚拟机集群高可用实现方法和装置

Publications (2)

Publication Number Publication Date
CN107404522A CN107404522A (zh) 2017-11-28
CN107404522B true CN107404522B (zh) 2020-03-10

Family

ID=60401020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710597777.4A Active CN107404522B (zh) 2017-07-20 2017-07-20 一种跨节点的虚拟机集群高可用实现方法和装置

Country Status (1)

Country Link
CN (1) CN107404522B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109683814A (zh) * 2018-12-03 2019-04-26 郑州云海信息技术有限公司 一种共享存储创建方法、装置、终端及存储介质
US10833918B2 (en) * 2019-01-09 2020-11-10 Vmware, Inc. Automatic rule based grouping of compute nodes for a globally optimal cluster
CN109992531B (zh) * 2019-04-15 2020-11-10 成都四方伟业软件股份有限公司 数据存储方法及装置
CN110134518B (zh) * 2019-05-21 2023-09-01 浪潮软件集团有限公司 一种提高大数据集群多节点应用高可用性的方法及系统
CN110336715B (zh) * 2019-07-12 2021-09-21 广州虎牙科技有限公司 状态检测方法、主节点和集群管理系统
CN110806917A (zh) * 2019-09-19 2020-02-18 烽火通信科技股份有限公司 一种防脑裂的虚拟机高可用的管理装置及方法
CN114880080B (zh) * 2022-07-11 2022-09-20 国网信息通信产业集团有限公司 一种虚拟机高可用方法及计算集群
CN115333944B (zh) * 2022-07-20 2023-08-11 苏州浪潮智能科技有限公司 虚拟机集群ip资源配置方法、系统、设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590737B1 (en) * 2004-07-16 2009-09-15 Symantec Operating Corporation System and method for customized I/O fencing for preventing data corruption in computer system clusters
CN101674331A (zh) * 2009-10-21 2010-03-17 成都市华为赛门铁克科技有限公司 集群存储系统及其脑裂处理方法
US7739541B1 (en) * 2003-07-25 2010-06-15 Symantec Operating Corporation System and method for resolving cluster partitions in out-of-band storage virtualization environments
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法
CN104158707A (zh) * 2014-08-29 2014-11-19 杭州华三通信技术有限公司 一种检测并处理集群脑裂的方法和装置
CN104378232A (zh) * 2014-11-10 2015-02-25 东软集团股份有限公司 主备集群组网模式下的脑裂发现、恢复方法及装置
CN105141400A (zh) * 2015-07-30 2015-12-09 杭州华为数字技术有限公司 一种高可用性集群管理方法及相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739541B1 (en) * 2003-07-25 2010-06-15 Symantec Operating Corporation System and method for resolving cluster partitions in out-of-band storage virtualization environments
US7590737B1 (en) * 2004-07-16 2009-09-15 Symantec Operating Corporation System and method for customized I/O fencing for preventing data corruption in computer system clusters
CN101674331A (zh) * 2009-10-21 2010-03-17 成都市华为赛门铁克科技有限公司 集群存储系统及其脑裂处理方法
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法
CN104158707A (zh) * 2014-08-29 2014-11-19 杭州华三通信技术有限公司 一种检测并处理集群脑裂的方法和装置
CN104378232A (zh) * 2014-11-10 2015-02-25 东软集团股份有限公司 主备集群组网模式下的脑裂发现、恢复方法及装置
CN105141400A (zh) * 2015-07-30 2015-12-09 杭州华为数字技术有限公司 一种高可用性集群管理方法及相关设备

Also Published As

Publication number Publication date
CN107404522A (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
CN107404522B (zh) 一种跨节点的虚拟机集群高可用实现方法和装置
US10491671B2 (en) Method and apparatus for switching between servers in server cluster
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
CN109391691B (zh) 一种单节点故障下nas服务的恢复方法及相关装置
EP3142011A1 (en) Anomaly recovery method for virtual machine in distributed environment
CN102355368B (zh) 一种网络设备的故障处理方法及系统
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN109286529B (zh) 一种恢复RabbitMQ网络分区的方法及系统
CN110716842B (zh) 集群故障检测方法和装置
CN109274544B (zh) 一种分布式存储系统的故障检测方法及装置
CN108429629A (zh) 设备故障恢复方法和装置
CN107729205B (zh) 用于业务系统的故障处理方法和装置
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN111385107B (zh) 一种服务器的主备切换处理方法及装置
CN110933142A (zh) 一种icfs集群网卡监控方法、装置和设备及介质
CN115269248B (zh) 双节点集群下防止脑裂方法和装置、电子设备和存储介质
EP2887592A1 (en) Enum-dns disaster recovery method and system in ims network
JP6421516B2 (ja) サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
CN110224872B (zh) 一种通信方法、装置及存储介质
CN109257218B (zh) 一种基于snmp协议网络系统孤岛自愈方法
CN114884803B (zh) 多重冗余状态的处理方法、装置、设备和介质
CN110597672A (zh) 一种atca交换系统的主备倒换的方法及装置
CN115373916A (zh) 异常检测方法、装置、电子设备及计算机可读存储介质
CN115314361A (zh) 一种服务器集群管理方法及其相关组件
CN110661599A (zh) 一种主、备节点间的ha实现方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200110

Address after: 215100 No. 1 Guanpu Road, Guoxiang Street, Wuzhong Economic Development Zone, Suzhou City, Jiangsu Province

Applicant after: Suzhou Wave Intelligent Technology Co., Ltd.

Address before: 450018 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant before: Zhengzhou Yunhai Information Technology Co. Ltd.

GR01 Patent grant
GR01 Patent grant