CN115858222A - 一种虚拟机故障处理方法、系统及电子设备 - Google Patents

一种虚拟机故障处理方法、系统及电子设备 Download PDF

Info

Publication number
CN115858222A
CN115858222A CN202211632859.5A CN202211632859A CN115858222A CN 115858222 A CN115858222 A CN 115858222A CN 202211632859 A CN202211632859 A CN 202211632859A CN 115858222 A CN115858222 A CN 115858222A
Authority
CN
China
Prior art keywords
virtual machine
standby
state
fault
indication information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211632859.5A
Other languages
English (en)
Other versions
CN115858222B (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anchao Cloud Software Co Ltd
Original Assignee
Anchao Cloud Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anchao Cloud Software Co Ltd filed Critical Anchao Cloud Software Co Ltd
Priority to CN202211632859.5A priority Critical patent/CN115858222B/zh
Publication of CN115858222A publication Critical patent/CN115858222A/zh
Application granted granted Critical
Publication of CN115858222B publication Critical patent/CN115858222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本说明书实施例公开了一种虚拟机故障处理方法、系统及电子设备,能够有效解决热备虚拟机组中的脑裂问题。所述方法应用于虚拟化管理平台,所述虚拟化管理平台包括监视器、计算节点与控制节点,所述方法包括:所述监视器在目标虚拟机组出现故障时向所述计算节点发送故障事件消息;所述计算节点从所述故障事件消息中提取所述目标虚拟机组的状态指示信息并转发至所述控制节点;所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理。所述系统包括虚拟机监视器、计算节点单元与控制节点单元。所述电子设备中的计算机程序用于实现所述虚拟机故障处理方法。

Description

一种虚拟机故障处理方法、系统及电子设备
技术领域
本说明书涉及虚拟机安全技术领域,具体涉及一种虚拟机故障处理方法、系统及电子设备。
背景技术
COLO(COarse-grained LOck-stepping)是一种虚拟机的高可用解决方案。在综合虚拟化管理平台中,通过设置FT(fault tolerance)热备虚拟机组实现COLO功能。在启动COLO功能后,FT虚拟机组中的主虚拟机(PVM,primary VM)和备虚拟机(SVM,secondary VM)都会同时处于running状态。主虚拟机PVM和备虚拟机SVM都可以接收到来自客户端Client的网络数据包,并对数据包做出回应。
在FT虚拟机组中,如果主虚拟机PVM出现故障,会切换到备虚拟机SVM。当备虚拟机故障了,需要重建一个新的备虚拟机从而组建成一组新的FT虚拟机组。但是当虚拟机同步网络出现故障时,其实就有可能出现脑裂的情况出现,主备虚机都认为自己是正常的并各自开始独立工作,这会导致各种异常状况,当FT虚拟机组出现脑裂情况时如何进行仲裁处理使其恢复正常运行是一个亟待解决的问题。
发明内容
有鉴于此,本说明书实施例提供了一种虚拟机故障处理方法、系统及电子设备,以解决FT虚拟机组中主、备虚拟机脑裂的问题。
在第一方面,本说明书实施例提供了一种虚拟机故障处理方法,所述方法应用于虚拟化管理平台,所述虚拟化管理平台包括监视器、计算节点与控制节点。所述方法包括:
所述监视器对目标虚拟机组进行监控,以确定所述目标虚拟机组是否出现故障;
在所述目标虚拟机组出现故障时,所述监视器生成故障事件消息并将所述故障事件消息发送至所述计算节点;
所述计算节点从所述故障事件消息中提取所述目标虚拟机组的状态指示信息并转发至所述控制节点;所述状态指示信息包括备机故障指示、主备切换指示以及关机指示;
所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理。
可选的,在所述状态指示信息为所述备机故障状态时,所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理,包括:
确定所述目标虚拟机组中主虚拟机的存储状态是否正常;
响应于所述主虚拟机的存储状态正常,强制关闭所述目标虚拟机组中的备虚拟机;
响应于所述主虚拟机的存储状态异常,确定所述备虚拟机的存储状态是否正常;
响应于所述备虚拟机的存储状态异常,强制关闭所述备虚拟机;
响应于所述备虚拟机的存储状态正常,确定所述备虚拟机的运行状态是否正常;
响应于所述备虚拟机的运行状态异常,强制关闭所述备虚拟机;
响应于所述备虚拟机的运行状态正常,将所述备虚拟机切换为主虚拟机。
可选的,在所述状态指示信息为所述主备切换状态时,所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理,包括:
确定所述目标虚拟机组中主虚拟机是否正在被删除;
响应于所述主虚拟机正在被删除,终止删除操作并生成示警信息;
响应于所述主虚拟机未被删除,确定所述主虚拟机的运行状态并确定所述主虚拟机是否接收到所述备机故障指示;
响应于所述主虚拟机满足运行状态异常且未接收到所述备机故障指示,确定所述主虚拟机是否接收到所述关机指示并关机;
响应于所述主虚拟机不满足接收到所述关机指示并关机,将所述目标虚拟机组中的备虚拟机切换为主虚拟机;
响应于所述主虚拟机满足接收到所述关机指示并关机,将所述目标虚拟机组中的所述主虚拟机与备虚拟机都关闭;
响应于所述主虚拟机不满足运行状态异常且未接收到所述备机故障指示,确定所述主虚拟机的存储状态是否正常;
响应于所述主虚拟机的存储状态正常,确定所述备虚拟机出现故障,强制关闭所述备虚拟机;
响应于所述主虚拟机的存储状态异常,确定所述备虚拟机的存储状态是否正常;
响应于所述备虚拟机的存储状态正常,将所述备虚拟机切换为主虚拟机;
响应于所述备虚拟机的存储状态异常,确定所述备虚拟机出现故障,强制关闭所述备虚拟机。
可选的,在所述状态指示信息为关机指示时,所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理,包括:
确定所述目标虚拟机组中主虚拟机与备虚拟机是否均关机;
响应于所述主虚拟机或所述备虚拟机未关机,将所述主虚拟机与所述备虚拟机强制关机。
可选的,所述方法在强制关闭所述备虚拟机后还包括针对所述主虚拟机创建新的备虚拟机;
所述方法在创建新的备虚拟机时保持新的备虚拟机中网卡设备处于关闭状态直至需要新的备虚拟机提供服务。
可选的,所述虚拟化管理平台中设置有多个所述控制节点;
在所述计算节点将所述状态指示信息转发至所述控制节点后,还包括:
所述控制节点针对所述状态指示信息进行判断,以确定是否第一次接收到所述状态指示信息;
若是第一次接收到所述状态指示信息,将所述状态指示信息写入数据库进行记录。
可选的,在将所述故障事件消息发送至所述计算节点后,还包括:
利用所述计算节点根据所述事件消息判断所述目标虚拟机组是否为热备虚拟机组。
可选的,所述计算节点选用所述虚拟化管理平台中的compute组件,所述控制节点选用所述虚拟化管理平台中conductor组件。
在第二方面,本说明书实施例还提供了一种虚拟机故障处理系统,所述系统包括虚拟机监视器、计算节点单元与控制节点单元;
所述虚拟机监视器,用于对目标虚拟机组进行监控,以确定所述目标虚拟机组是否出现故障;
所述虚拟机监视器,还用于在所述目标虚拟机组出现故障时,生成故障事件消息并将所述故障事件消息发送至所述计算节点单元;
所述计算节点单元,用于从所述故障事件消息中提取所述目标虚拟机组的状态指示信息并转发至所述控制节点单元;所述状态指示信息包括备机故障指示、主备切换指示以及关机指示;
所述控制节点单元,用于针对所述状态指示信息对所述目标虚拟机组进行仲裁处理。
在第三方面,本说明书实施例还提供了一种虚拟机故障处理电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的虚拟机故障处理方法。
从上面可以看出,本说明书实施例所提供的一种虚拟机故障处理方法、系统及电子设备,具有如下有益技术效果:
利用虚拟机监视器对目标虚拟机组进行监控,能够及时发现目标虚拟机组故障;在所述目标虚拟机出现故障时,由所述计算节点初步提取确定所述目标虚拟机组的状态指示信息,进一步的利用所述控制节点获取所述目标虚拟机组中主备虚拟机的实际运行状态,针对所述状态指示信息进行仲裁处理,从而能够避免所述目标虚拟机组中主备虚拟机误判导致的虚拟机组脑裂问题,保证目标虚拟机组的正常有序运行。
附图说明
通过参考附图会更加清楚的理解本说明书的特征和优点,附图是示意性的而不应理解为对本说明书进行任何限制,在附图中:
图1示出了本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法;
图2示出了本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法中状态指示信息为备机故障状态时所述控制节点根据所述虚拟机状态进行仲裁处理的方法示意图;
图3示出了本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法中状态指示信息为主备切换状态时所述控制节点根据所述虚拟机状态进行仲裁处理的方法示意图;
图4示出了本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法中虚拟化管理平台的技术架构示意图;
图5示出了本说明书一个或多个可选实施例所提供的一种虚拟机故障处理系统结构示意图;
图6示出了本说明书一个或多个可选实施例所提供的一种虚拟机故障处理电子设备结构示意图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
COLO(COarse-grained LOck-stepping)是一种虚拟机的高可用解决方案。在综合虚拟化管理平台中,通过设置FT(fault tolerance)热备虚拟机组实现COLO功能。在启动COLO功能后,FT虚拟机组中的主虚拟机(PVM,primary VM)和备虚拟机(SVM,secondary VM)都会同时处于running状态。主虚拟机PVM和备虚拟机SVM都可以接收到来自客户端Client的网络数据包,并对数据包做出回应。
在FT虚拟机组中,如果主虚拟机PVM出现故障,会切换到备虚拟机SVM。当备虚拟机故障了,需要重建一个新的备虚拟机从而组建成一组新的FT虚拟机组。但是当虚拟机同步网络出现故障时,其实就有可能出现脑裂的情况出现,主备虚机都认为自己是正常的并各自开始独立工作,这会导致各种异常状况,当FT虚拟机组出现脑裂情况时如何进行仲裁处理使其恢复正常运行是一个亟待解决的问题。
针对上述问题,本说明书技术方案的目的在于提出一种虚拟机脑裂故障的处理方法,利用虚拟机管理平台中的控制节点,根据FT虚拟机组中PVM、SVM的实际虚拟机状态进行仲裁处理,避免FT虚拟机组脑裂造成的虚拟机异常。
基于上述目的,在一方面,本说明书实施例提供了一种虚拟机故障处理方法。
如图1所述,本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法,应用于虚拟化管理平台。所述虚拟化管理平台包括监视器、计算节点与控制节点。所述方法包括:
S1:所述监视器对目标虚拟机组进行监控,以确定所述目标虚拟机组是否出现故障。
所述虚拟化管理平台中,所述虚拟机监视器Monitor中设置心跳信号监听进程,对所述目标虚拟机组中的心跳heartbeat信号进行监控,当所述心跳信号中断时确定所述目标虚拟机组出现故障。
S2:在所述目标虚拟机组出现故障时,所述监视器生成故障事件消息并将所述故障事件消息发送至所述计算节点。
当监控到所述目标虚拟机组出现故障时,所述监视器可以触发通知事件,针对所述目标虚拟机组生成故障事件消息并将所述故障事件消息发送至所述计算节点。
S3:所述计算节点从所述故障事件消息中提取所述目标虚拟机组的状态指示信息并转发至所述控制节点;所述状态指示信息包括备机故障指示、主备切换指示以及关机指示。
所述目标虚拟机组出现故障,所述计算节点被触发。所述计算节点中设置过滤进程对多种事件消息进行过滤,可以从所述故障事件消息中提取与所述目标虚拟机组相关的状态指示信息。
所述状态指示信息可以包括备机故障指示svmlost、主备切换指示svmtopvm以及关机指示shutdown。其中,所述备机故障指示svmlost来自所述目标虚拟机组中的主虚拟机,在所述主虚拟机认定所述目标虚拟机组中的备虚拟机出现故障时,会发出所述备机故障指示。所述主备切换指示svmtopvm来自所述备虚拟机,在所述备虚拟机认定所述主虚拟机出现故障需要进行主备切换时,会发出所述主备切换指示。所述关机指示shutdown表示所述目标虚拟机组中的所述主虚拟机或所述备虚拟机内部关机。
一些可选实施例中,所述计算节点在接收到来自所述目标虚拟机组的多项所述事件消息后,还根据所述事件消息针对所述目标虚拟机组进行判断,以确定所述目标虚拟机组是否为热备FT虚拟机组。
S4:所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理。
所述状态指示信息是所述目标虚拟机组中所述主虚拟机或所述备虚拟机所认定的状态,可能与实际状态存在差异。所述控制节点可以通过获取所述目标虚拟机组的虚拟机状态,基于所述虚拟机状态仲裁判断所述目标虚拟机组的真实状态,进一步根据仲裁确定的真实状态进行处理。
其中,根据所述虚拟机状态针对所述状态指示信息进行仲裁处理时,根据所述主虚拟机与备虚拟机的所述虚拟机确定是否正常,所述主虚拟机正常,仲裁控制所述主虚拟机工作;所述主虚拟机异常时,查看所述备虚拟机是否正常,所述备虚拟机正常,则仲裁控制所述备虚拟机工作。
所述虚拟机故障处理方法中,利用虚拟机监视器对目标虚拟机组进行监控,能够及时发现目标虚拟机组故障;在所述目标虚拟机出现故障时,由所述计算节点初步提取确定所述目标虚拟机组的状态指示信息,进一步的利用所述控制节点获取所述目标虚拟机组中主备虚拟机的实际运行状态,针对所述状态指示信息进行仲裁处理,从而能够避免所述目标虚拟机组中主备虚拟机误判导致的虚拟机组脑裂问题,保证目标虚拟机组的正常有序运行。
如图2所示,在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法中,在所述状态指示信息为所述备机故障状态svmlost时,所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理,包括:
S201:确定所述目标虚拟机组中主虚拟机的存储状态是否正常;若所述主虚拟机的存储状态正常,执行步骤S205;
S202:若所述主虚拟机的存储状态异常,确定所述备虚拟机的存储状态是否正常;若所述备虚拟机的存储状态异常,执行步骤S205;
S203:若所述备虚拟机的存储状态正常,确定所述备虚拟机的运行状态是否正常;
若所述备虚拟机的运行状态异常,执行步骤S205;
S204:若所述备虚拟机的运行状态正常,将所述备虚拟机切换为主虚拟机;
S205:强制关闭所述目标虚拟机组中的备虚拟机。
在所述虚拟机故障处理方法中,所述状态指示信息为所述备机故障状态(svmlost)时,所述主虚拟机认为所述备虚拟机出现故障。此时需要利用所述控制节点根据所述目标虚拟机组中所述主虚拟机与所述备虚拟机的实际虚拟机状态进行仲裁处理。
所述控制节点首先获取所述主虚拟机的存储状态信息,以确定所述主虚拟机的存储状态是否正常。在所述主虚拟机的存储状态正常时,可以确定所述主虚拟机所认定的备机故障指示是有效的,所述备虚拟机出现故障,需要强制关闭所述备虚拟机。
当所述主虚拟机的存储状态异常时,所述主虚拟机所认定的备机故障指示并不准确,需要根据所述备虚拟机的虚拟机状态进行进一步仲裁。所述控制节点可以获取所述备虚拟机的存储状态信息,以确定所述备虚拟机的存储状态是否正常。若所述备虚拟机的存储状态异常,说明此时所述备虚拟机也出现故障,这种情况下,需要强制关闭所述备虚拟机;若所述备虚拟机的存储状态正常,还需要进一步确定所述备虚拟机的运行状态是否正常。
所述控制节点可以获取所述备虚拟机的运行状态信息,以确定所述备虚拟机的运行状态是否正常,即确定所述备虚拟机是否在正常运行(running)中。若所述备虚拟机的运行状态异常,说明此时所述备虚拟机也出现故障,同样的需要强制关闭所述备虚拟机;若所述备虚拟机的运行状态正常,这种情况下所述备虚拟机的存储状态与运行状态均正常,反而是所述主虚拟机出现故障,此时可以将所述备虚拟机切换为主虚拟机提供服务。
如图3所示,在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法中,在所述状态指示信息为所述主备切换状态svmtopvm时,所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理,包括:
S301:确定所述目标虚拟机组中主虚拟机是否正在被删除;
S302:响应于所述主虚拟机正在被删除,终止删除操作并生成示警信息;
S303:响应于所述主虚拟机未被删除,确定所述主虚拟机的运行状态并确定所述主虚拟机是否接收到所述备机故障指示,确定所述主虚拟机是否满足运行状态异常且未接收到所述备机故障指示(svmlost);
S304:响应于所述主虚拟机满足运行状态异常且未接收到所述备机故障指示,确定所述主虚拟机是否接收到所述关机指示并关机;若所述主虚拟机不满足接收到所述关机指示并关机,执行步骤S308;
S305:响应于所述主虚拟机满足接收到所述关机指示并关机,将所述目标虚拟机组中的所述主虚拟机与备虚拟机都关闭;
S306:响应于所述主虚拟机不满足运行状态异常且未接收到所述备机故障指示,确定所述主虚拟机的存储状态是否正常;若所述主虚拟机的存储状态正常,执行步骤S309;
S307:响应于所述主虚拟机的存储状态异常,确定所述备虚拟机的存储状态是否正常;若所述备虚拟机的存储状态正常,执行步骤S308,若所述被虚拟机的存储状态异常,执行步骤S309;
S308:将所述目标虚拟机组中的备虚拟机切换为主虚拟机;
S309:确定所述备虚拟机出现故障,强制关闭所述备虚拟机。
在所述虚拟机故障处理方法中,所述状态指示信息为所述主备切换状态(svmtopvm)时,所述备虚拟机认为所述主虚拟机出现故障,需要进行主备切换。此时需要利用所述控制节点根据所述目标虚拟机组中所述主虚拟机与所述备虚拟机的实际虚拟机状态进行仲裁处理。
在所述备虚拟机发出所述主备切换状态时,有可能已经开始执行主备切换操作,所述控制节点首先需要确定的是所述主虚拟机是否正在被删除。若所述主虚拟机正在被删除,所述控制节点控制终止删除操作并生成示警信息向所述虚拟化管理平台进行通报。
在所述主虚拟机未被删除的情况下,所述控制节点可以获取所述主虚拟机的运行状态信息以及指示信息,根据所述运行状态信息与指示信息确定所述主虚拟机是否满足运行状态异常且未接收到所述备机故障指示(svmlost)。若所述主虚拟机运行状态异常且未接收到svmlost,说明所述主虚拟机可能故障,此时还需要进一步确定所述主虚拟机是否因为接受到关机指示关机。
若所述主虚拟机接收到关机指示之后关机,说明当前所述目标虚拟机组处于中止服务状态,需要将所述目标虚拟机组中的所述主虚拟机与所述备虚拟机都关机。若所述主虚拟机不是因为接收到关机指示而关机的,则说明所述主虚拟机出现故障,所述备虚拟机所认定的主虚拟机故障是有效的,此时所述冲裁处理节点将所述备虚拟机切换为主虚拟机继续提供服务。
针对所述主虚拟机,若运行状态异常且未接收到所述备机故障指示的这一判定条件不满足,说明所述主虚拟机可能并未出现故障,此时还需要进一步判定所述主虚拟机的真实状态。所述控制节点可以获取所述主虚拟机的存储状态信息,以确定所述主虚拟机的存储状态是否正常。若所述主虚拟机的存储状态正常,可以确定所述主虚拟机的未出现故障,所述备虚拟机所认定的主虚拟机故障是无效的,从而可以确定所述备虚拟机出现故障,此时所述控制节点强制关闭所述备虚拟机。
若所述主虚拟机的存储状态异常,说明所述主虚拟机出现故障,这种情况下需要确认所述备虚拟机是否保持正常状态。所述控制节点可以获取所述备虚拟机的存储状态信息以确定所述备虚拟机的存储状态是否正常。
若所述备虚拟机的存储状态正常,说明所述目标虚拟机组处于主虚拟机故障、备虚拟机正常的情况,所述控制节点将所述备虚拟机切换为主虚拟机继续提供服务。若所述备虚拟机的存储状态异常,说明所述备虚拟机也出现故障,所述控制节点强制关闭所述备虚拟机。
所述虚拟机故障处理方法中,所述控制节点针对不同所述状态指示信息及相应所表示的含义,有针对性地获取所述目标虚拟机组的实际的虚拟机状态,并针对各种可能的故障情况进行分析仲裁,能够准确确定出所述目标虚拟机组中真实状态,并采取合理的处理策略进行处理,从而能够避免所述目标虚拟机组中主备虚拟机误判导致的虚拟机组脑裂问题,保证目标虚拟机组的正常有序运行。
在本说明书的一些可选实施例中,所述控制节点在强制关闭所述备虚拟机后,还会发出管控通知信息,通知所述虚拟化管理平台进行后续处理。所述虚拟化管理平台进行后续处理时,针对所述目标虚拟机组中的所述主虚拟机创建新的备虚拟机,重新组成虚拟机组。
一些可选实施例中,在创建新的备虚拟机时会先将新的备虚拟机的网卡设备设置为关闭状态并保持,以避免新创建备虚拟机直接工作导致业务出现问题。直到需要新的备虚拟机提供服务时,启动相应的网卡设备。
在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法中,在所述状态指示信息为关机指示时,所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理,包括:确定所述目标虚拟机组中主虚拟机与备虚拟机是否均关机;响应于所述主虚拟机或所述备虚拟机未关机,将所述主虚拟机与所述备虚拟机强制关机。
在所述状态指示信息为关机指示时,所述控制节点将所述目标虚拟机组中的主备虚拟机强制关机,以确保系统稳定性。
如图4所示,为所述虚拟化管理平台对目标虚拟机组进行仲裁管理的技术架构示意图。在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法中,所述虚拟化管理平台中设置有多个所述控制节点,多个所述控制节点间通信连接,共同进行仲裁处理。这样的方式能够有效避免控制节点单点故障问题,保证整体方案运行的稳定性,能够方便、快捷地实现仲裁处理。
在一些可选实施例中,针对所述状态指示信息进行仲裁处理时,可以由多个所述控制节点中的第一控制节点获取所述目标虚拟机组中所述主虚拟机的存储状态信息及运行状态信息,并针对相应的存储状态和/或运行状态进行判定;由第二控制节点获取所述目标虚拟机组中所述备虚拟机的存储状态信息以运行状态信息并进行相应的状态判定;由第三控制节点汇总第一、二控制节点的状态判定结果对目标虚拟机组的真实状态进行仲裁处理。
在一些可选实施例中,多个所述控制节点均可以接收到到所述状态指示信息。所述状态指示信息被转发至所述控制节点后所述控制节点针对所述状态指示信息进行判断,以确定是否第一次接收到所述状态指示信息。若是第一次接收到所述状态指示信息,将所述状态指示信息写入数据库进行记录。
其中,所述控制节点在接收到所述状态指示信息后可以将所述状态指示信息与所述数据库中的数据记录进行对比,根据对比结果即可以确定是否第一次接收到所述状态致死信息。
在所述虚拟化管理平台中,利用数据库实现多个所述控制节点的数据一致性,多个所述冲裁处理节点基于数据库中的一致性数据记录进行仲裁判定,可以进一步保证仲裁判定结果的一致性与统一性。
在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理方法中,所述虚拟化管理平台可以选用OpenStack框架平台,并选用OpenStack管理平台的nova计算服务中的compute组件作为所述计算节点,选用nova计算服务中的conductor组件作为所述控制节点。
选用所述compute组件作为所述计算节点,可以满足所述计算节点多空模式要求以及服务高可用需求。在nova计算服务中,所述conductor组件与数据库直接通信,选用所述conductor组件作为所述仲裁判定节点可以直接将相关数据写入数据库中。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书实施例还提供了一种虚拟机故障处理系统。
参考图5,所述虚拟机故障处理系统,包括:
所述虚拟机监视器,用于对目标虚拟机组进行监控,以确定所述目标虚拟机组是否出现故障;
所述虚拟机监视器,还用于在所述目标虚拟机组出现故障时,生成故障事件消息并将所述故障事件消息发送至所述计算节点单元;
所述计算节点单元,用于从所述故障事件消息中提取所述目标虚拟机组的状态指示信息并转发至所述控制节点单元;所述状态指示信息包括备机故障指示、主备切换指示以及关机指示;
所述控制节点单元,用于针对所述状态指示信息对所述目标虚拟机组进行仲裁处理。
在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理系统中,在所述状态指示信息为所述备机故障状态时,所述控制节点单元,还用于确定所述目标虚拟机组中主虚拟机的存储状态是否正常;响应于所述主虚拟机的存储状态正常,强制关闭所述目标虚拟机组中的备虚拟机;响应于所述主虚拟机的存储状态异常,确定所述备虚拟机的存储状态是否正常;响应于所述备虚拟机的存储状态异常,强制关闭所述备虚拟机;响应于所述备虚拟机的存储状态正常,确定所述备虚拟机的运行状态是否正常;响应于所述备虚拟机的运行状态异常,强制关闭所述备虚拟机;响应于所述备虚拟机的运行状态正常,将所述备虚拟机切换为主虚拟机。
在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理系统中,在所述状态指示信息为所述主备切换状态时,所述控制节点单元,还用于确定所述目标虚拟机组中主虚拟机是否正在被删除;响应于所述主虚拟机正在被删除,终止删除操作并生成示警信息;响应于所述主虚拟机未被删除,确定所述主虚拟机的运行状态并确定所述主虚拟机是否接收到所述备机故障指示;响应于所述主虚拟机满足运行状态异常且未接收到所述备机故障指示,确定所述主虚拟机是否接收到所述关机指示并关机;响应于所述主虚拟机不满足接收到所述关机指示并关机,将所述目标虚拟机组中的备虚拟机切换为主虚拟机;响应于所述主虚拟机满足接收到所述关机指示并关机,将所述目标虚拟机组中的所述主虚拟机与备虚拟机都关闭;响应于所述主虚拟机不满足运行状态异常且未接收到所述备机故障指示,确定所述主虚拟机的存储状态是否正常;响应于所述主虚拟机的存储状态正常,确定所述备虚拟机出现故障,强制关闭所述备虚拟机;响应于所述主虚拟机的存储状态异常,确定所述备虚拟机的存储状态是否正常;响应于所述备虚拟机的存储状态正常,将所述备虚拟机切换为主虚拟机;响应于所述备虚拟机的存储状态异常,确定所述备虚拟机出现故障,强制关闭所述备虚拟机。
在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理系统中,在所述状态指示信息为关机指示时,所述控制节点单元,还用于确定所述目标虚拟机组中主虚拟机与备虚拟机是否均关机;响应于所述主虚拟机或所述备虚拟机未关机,将所述主虚拟机与所述备虚拟机强制关机。
在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理系统中,所述控制节点单元在强制关闭所述备虚拟机后还针对所述主虚拟机创建新的备虚拟机。所述控制节点单元在创建新的备虚拟机时保持新的备虚拟机中网卡设备处于关闭状态直至需要新的备虚拟机提供服务。
在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理系统中,所述虚拟化管理平台中设置有多个所述控制节点单元。所述控制节点单元还用于针对所述状态指示信息进行判断,以确定是否第一次接收到所述状态指示信息;若是第一次接收到所述状态指示信息,将所述状态指示信息写入数据库进行记录。
在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理系统中,所述计算节点单元在利用所述计算节点单元接收所述目标虚拟机组的事件消息后,还用于利用所述计算节点单元根据所述事件消息判断所述目标虚拟机组是否为热备虚拟机组。
在本说明书一个或多个可选实施例所提供的一种虚拟机故障处理系统中,选用所述虚拟化管理平台中的compute服务组件作为计算节点单元,选用所述虚拟化管理平台中conductor服务组件作为所述控制节点单元。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的虚拟机故障处理方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的虚拟机故障处理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种虚拟机故障处理方法,其特征在于,所述方法应用于虚拟化管理平台,所述虚拟化管理平台包括监视器、计算节点与控制节点;所述方法包括:
所述监视器对目标虚拟机组进行监控,以确定所述目标虚拟机组是否出现故障;
在所述目标虚拟机组出现故障时,所述监视器生成故障事件消息并将所述故障事件消息发送至所述计算节点;
所述计算节点从所述故障事件消息中提取所述目标虚拟机组的状态指示信息并转发至所述控制节点;所述状态指示信息包括备机故障指示、主备切换指示以及关机指示;
所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理。
2.根据权利要求1所述的方法,其特征在于,在所述状态指示信息为所述备机故障状态时,所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理,包括:
确定所述目标虚拟机组中主虚拟机的存储状态是否正常;
响应于所述主虚拟机的存储状态正常,强制关闭所述目标虚拟机组中的备虚拟机;
响应于所述主虚拟机的存储状态异常,确定所述备虚拟机的存储状态是否正常;
响应于所述备虚拟机的存储状态异常,强制关闭所述备虚拟机;
响应于所述备虚拟机的存储状态正常,确定所述备虚拟机的运行状态是否正常;
响应于所述备虚拟机的运行状态异常,强制关闭所述备虚拟机;
响应于所述备虚拟机的运行状态正常,将所述备虚拟机切换为主虚拟机。
3.根据权利要求1所述的方法,其特征在于,在所述状态指示信息为所述主备切换状态时,所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理,包括:
确定所述目标虚拟机组中主虚拟机是否正在被删除;
响应于所述主虚拟机正在被删除,终止删除操作并生成示警信息;
响应于所述主虚拟机未被删除,确定所述主虚拟机的运行状态并确定所述主虚拟机是否接收到所述备机故障指示;
响应于所述主虚拟机满足运行状态异常且未接收到所述备机故障指示,确定所述主虚拟机是否接收到所述关机指示并关机;
响应于所述主虚拟机不满足接收到所述关机指示并关机,将所述目标虚拟机组中的备虚拟机切换为主虚拟机;
响应于所述主虚拟机满足接收到所述关机指示并关机,将所述目标虚拟机组中的所述主虚拟机与备虚拟机都关闭;
响应于所述主虚拟机不满足运行状态异常且未接收到所述备机故障指示,确定所述主虚拟机的存储状态是否正常;
响应于所述主虚拟机的存储状态正常,确定所述备虚拟机出现故障,强制关闭所述备虚拟机;
响应于所述主虚拟机的存储状态异常,确定所述备虚拟机的存储状态是否正常;
响应于所述备虚拟机的存储状态正常,将所述备虚拟机切换为主虚拟机;
响应于所述备虚拟机的存储状态异常,确定所述备虚拟机出现故障,强制关闭所述备虚拟机。
4.根据权利要求1所述的方法,其特征在于,在所述状态指示信息为关机指示时,所述控制节点针对所述状态指示信息对所述目标虚拟机组进行仲裁处理,包括:
确定所述目标虚拟机组中主虚拟机与备虚拟机是否均关机;
响应于所述主虚拟机或所述备虚拟机未关机,将所述主虚拟机与所述备虚拟机强制关机。
5.根据权利要求2所述的方法,其特征在于,在强制关闭所述备虚拟机后还包括针对所述主虚拟机创建新的备虚拟机;
所述方法还包括在创建新的备虚拟机时保持新的备虚拟机中网卡设备处于关闭状态直至需要新的备虚拟机提供服务。
6.根据权利要求1所述的方法,其特征在于,所述虚拟化管理平台中设置有多个所述控制节点;
在所述计算节点将所述状态指示信息转发至所述控制节点后,还包括:
所述控制节点针对所述状态指示信息进行判断,以确定是否第一次接收到所述状态指示信息;
若是第一次接收到所述状态指示信息,将所述状态指示信息写入数据库进行记录。
7.根据权利要求1所述的方法,其特征在于,在将所述故障事件消息发送至所述计算节点后,还包括:
所述计算节点根据所述故障事件消息判断所述目标虚拟机组是否为热备虚拟机组。
8.根据权利要求1所述的方法,其特征在于,所述计算节点选用所述虚拟化管理平台中的compute组件,所述控制节点选用所述虚拟化管理平台中conductor组件。
9.一种虚拟机故障处理系统,其特征在于,所述系统包括虚拟机监视器、计算节点单元与控制节点单元;
所述虚拟机监视器,用于对目标虚拟机组进行监控,以确定所述目标虚拟机组是否出现故障;
所述虚拟机监视器,还用于在所述目标虚拟机组出现故障时,生成故障事件消息并将所述故障事件消息发送至所述计算节点单元;
所述计算节点单元,用于从所述故障事件消息中提取所述目标虚拟机组的状态指示信息并转发至所述控制节点单元;所述状态指示信息包括备机故障指示、主备切换指示以及关机指示;
所述控制节点单元,用于针对所述状态指示信息对所述目标虚拟机组进行仲裁处理。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
CN202211632859.5A 2022-12-19 2022-12-19 一种虚拟机故障处理方法、系统及电子设备 Active CN115858222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211632859.5A CN115858222B (zh) 2022-12-19 2022-12-19 一种虚拟机故障处理方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211632859.5A CN115858222B (zh) 2022-12-19 2022-12-19 一种虚拟机故障处理方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN115858222A true CN115858222A (zh) 2023-03-28
CN115858222B CN115858222B (zh) 2024-01-02

Family

ID=85674099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211632859.5A Active CN115858222B (zh) 2022-12-19 2022-12-19 一种虚拟机故障处理方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN115858222B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011051025A1 (en) * 2009-10-30 2011-05-05 International Business Machines Corporation Method and system for fault management in virtual computing environments
US20130061086A1 (en) * 2011-03-09 2013-03-07 Nec Corporation Fault-tolerant system, server, and fault-tolerating method
US20130262647A1 (en) * 2012-03-29 2013-10-03 Fujitsu Limited Network system and communication control method
US20130290771A1 (en) * 2010-11-12 2013-10-31 Hitachi, Ltd. Computer system
JP2014041506A (ja) * 2012-08-23 2014-03-06 Hitachi Ltd 計算機とその障害処理方法およびプログラム
KR20140140719A (ko) * 2013-05-30 2014-12-10 삼성에스디에스 주식회사 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
CN104391764A (zh) * 2014-10-22 2015-03-04 上海海得控制系统股份有限公司 一种计算机容错方法及系统
KR20150111609A (ko) * 2014-03-26 2015-10-06 에스케이텔레콤 주식회사 가상화 환경에서의 장애 처리 방법
CN105024879A (zh) * 2015-07-15 2015-11-04 中国船舶重工集团公司第七0九研究所 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法
CN105279010A (zh) * 2015-10-20 2016-01-27 华为技术有限公司 基于虚拟机的设备热替换方法及装置
CN106452846A (zh) * 2016-09-22 2017-02-22 华为技术有限公司 故障处理方法、虚拟架构管理系统和业务管理系统
WO2017045436A1 (zh) * 2015-09-18 2017-03-23 中兴通讯股份有限公司 虚拟机故障处理方法和装置
CN106970861A (zh) * 2017-03-30 2017-07-21 山东超越数控电子有限公司 一种虚拟机容错方法和系统
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置
CN108733454A (zh) * 2018-05-29 2018-11-02 郑州云海信息技术有限公司 一种虚拟机故障处理方法和装置
CN109614201A (zh) * 2018-12-04 2019-04-12 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用系统
CN109728981A (zh) * 2019-03-19 2019-05-07 江苏汇智达信息科技有限公司 一种云平台故障监测方法及装置
CN112269626A (zh) * 2020-09-21 2021-01-26 西安万像电子科技有限公司 监控虚拟机的方法、装置及设备
JP2022170005A (ja) * 2021-04-28 2022-11-10 三菱重工業株式会社 仮想化システム、及び、仮想化システムの監視方法
CN115480880A (zh) * 2022-10-09 2022-12-16 安超云软件有限公司 一种持续数据保护方法、系统及电子设备

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102597962A (zh) * 2009-10-30 2012-07-18 国际商业机器公司 用于虚拟计算环境中的故障管理的方法和系统
WO2011051025A1 (en) * 2009-10-30 2011-05-05 International Business Machines Corporation Method and system for fault management in virtual computing environments
US20130290771A1 (en) * 2010-11-12 2013-10-31 Hitachi, Ltd. Computer system
US20130061086A1 (en) * 2011-03-09 2013-03-07 Nec Corporation Fault-tolerant system, server, and fault-tolerating method
US20130262647A1 (en) * 2012-03-29 2013-10-03 Fujitsu Limited Network system and communication control method
JP2014041506A (ja) * 2012-08-23 2014-03-06 Hitachi Ltd 計算機とその障害処理方法およびプログラム
KR20140140719A (ko) * 2013-05-30 2014-12-10 삼성에스디에스 주식회사 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
KR20150111609A (ko) * 2014-03-26 2015-10-06 에스케이텔레콤 주식회사 가상화 환경에서의 장애 처리 방법
CN104391764A (zh) * 2014-10-22 2015-03-04 上海海得控制系统股份有限公司 一种计算机容错方法及系统
CN105024879A (zh) * 2015-07-15 2015-11-04 中国船舶重工集团公司第七0九研究所 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法
WO2017045436A1 (zh) * 2015-09-18 2017-03-23 中兴通讯股份有限公司 虚拟机故障处理方法和装置
CN105279010A (zh) * 2015-10-20 2016-01-27 华为技术有限公司 基于虚拟机的设备热替换方法及装置
CN106452846A (zh) * 2016-09-22 2017-02-22 华为技术有限公司 故障处理方法、虚拟架构管理系统和业务管理系统
CN106970861A (zh) * 2017-03-30 2017-07-21 山东超越数控电子有限公司 一种虚拟机容错方法和系统
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置
CN108733454A (zh) * 2018-05-29 2018-11-02 郑州云海信息技术有限公司 一种虚拟机故障处理方法和装置
CN109614201A (zh) * 2018-12-04 2019-04-12 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用系统
CN109728981A (zh) * 2019-03-19 2019-05-07 江苏汇智达信息科技有限公司 一种云平台故障监测方法及装置
CN112269626A (zh) * 2020-09-21 2021-01-26 西安万像电子科技有限公司 监控虚拟机的方法、装置及设备
JP2022170005A (ja) * 2021-04-28 2022-11-10 三菱重工業株式会社 仮想化システム、及び、仮想化システムの監視方法
CN115480880A (zh) * 2022-10-09 2022-12-16 安超云软件有限公司 一种持续数据保护方法、系统及电子设备

Also Published As

Publication number Publication date
CN115858222B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
US9582373B2 (en) Methods and systems to hot-swap a virtual machine
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US9710321B2 (en) Atypical reboot data collection and analysis
CN109101371B (zh) 一种容灾切换方法及装置
CN104160378A (zh) 用于复杂的分布式计算操作的容错功能
EP2645635A1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
US9164825B2 (en) Computing unit, method of managing computing unit, and computing unit management program
JP6232057B2 (ja) 管理装置
CN110881224B (zh) 一种网络长连接方法、装置、设备及存储介质
US11223515B2 (en) Cluster system, cluster system control method, server device, control method, and non-transitory computer-readable medium storing program
CN112463550A (zh) 一种终端设备状态的远程监控方法、装置及设备
CN115858222B (zh) 一种虚拟机故障处理方法、系统及电子设备
CN114064343B (zh) 一种区块链的异常处置方法及装置
JP2012150657A (ja) 計算機システム
CN108717384B (zh) 一种数据备份方法及装置
CN109062718B (zh) 一种服务器及数据处理方法
CN113064798A (zh) 异常处理方法、装置、电子设备及系统
TW201328247A (zh) 系統錯誤處理方法與使用其之伺服器系統
CN113010222A (zh) 一种文件处理的方法和服务器
CN112701759B (zh) 一种终端设备的控制方法、存储介质及终端设备
CN114826886B (zh) 一种应用软件容灾方法、装置及电子设备
CN112463514A (zh) 分布式缓存集群的监测方法和装置
CN117033084B (zh) 虚拟机备份方法、装置、电子设备及存储介质
CN116599830B (zh) 通信节点和链路的配置方法、装置、存储介质和电子设备
CN115766753A (zh) 一种存储网关高可用方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant