CN105024879A - 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法 - Google Patents

虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法 Download PDF

Info

Publication number
CN105024879A
CN105024879A CN201510416209.0A CN201510416209A CN105024879A CN 105024879 A CN105024879 A CN 105024879A CN 201510416209 A CN201510416209 A CN 201510416209A CN 105024879 A CN105024879 A CN 105024879A
Authority
CN
China
Prior art keywords
virtual
machine
virtual machine
fail
machine fail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510416209.0A
Other languages
English (en)
Other versions
CN105024879B (zh
Inventor
徐士伟
江昌庆
胡哲琨
代征
戴新发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
709th Research Institute of CSIC
Original Assignee
709th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 709th Research Institute of CSIC filed Critical 709th Research Institute of CSIC
Priority to CN201510416209.0A priority Critical patent/CN105024879B/zh
Publication of CN105024879A publication Critical patent/CN105024879A/zh
Application granted granted Critical
Publication of CN105024879B publication Critical patent/CN105024879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种虚拟机故障检测和恢复的系统,其包括至少一台虚拟机以及一台虚拟机管理器;通过虚拟机管理器中虚拟机故障检测前端检测虚拟机的心跳信息,并将心跳信息发送至虚拟机管理器;虚拟机管理器包括虚拟机故障检测配置模块、域间共享存储系统、与虚拟机故障检测前端对应的虚拟机故障检测后端、虚拟机故障检测管理模块,通过虚拟机故障检测管理模块启动虚拟机故障检测后端,虚拟机故障检测后端与虚拟机故障检测前端通过树状的域间共享存储系统传递心跳信息。根据心跳信息,虚拟机故障检测后端判断本地虚拟机是否发生故障并将结果报告给虚拟机故障检测管理模块,由虚拟机故障检测管理模块对故障虚拟机进行关闭和恢复。

Description

虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法
技术领域
本发明涉及虚拟化高可用技术领域,特别涉及一种虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法。
背景技术
随着信息技术的发展和人们对计算机资源不断提高的要求,云计算已经成为当前计算机技术研究的热点。云计算使用虚拟化技术对底层计算、网络和存储资源进行封装,通过建立虚拟机并在其中运行操作系统和应用程序的形式,将这些资源提供给远程用户。因此,虚拟机作为用户直接使用的环境,其稳定性和可用性直接关系到用户的使用体验。
在云计算虚拟化平台上,虚拟机管理器(Virtual Machine Monitor,VMM)是整个系统的核心部件。在通常情况下,VMM直接运行在硬件平台之上,以软件方式模拟物理硬件的核心功能,建立多个虚拟机(Virtual Machine,VM),并且为运行在这些虚拟机之上的操作系统和应用程序提供与访问物理硬件相同的访问接口。与普通计算机相同,虚拟机的系统在运行过程中会出现故障(例如:死机和蓝屏等),当虚拟机系统发生故障时,用户程序和业务将无法运行。这样,为了保证业务处理功能的正常实现,需要能够检测和恢复虚拟机系统故障的方法。
为了解决虚拟机系统故障检测的问题,已有研究人员借鉴计算机集群的高可用方案,在虚拟环境下引入心跳检测机制,利用网络连接传递虚拟机和VMM之间的心跳信息,通过让虚拟机和VMM之间保持心跳的方式,检测虚拟机是否发生故障。但是网络环境复杂并且充满了不可预期的因素,这降低了虚拟机和VMM之间心跳的稳定性,增加了虚拟机故障的漏报和误报的概率。
发明内容
有鉴于此,本发明提供一种虚拟机故障检测、恢复系统及其检测、恢复、启动方法。
一种虚拟机故障检测和恢复的系统,其包括至少一台虚拟机以及一台虚拟机管理器;虚拟机运行在虚拟机管理器之上;
虚拟机内设置虚拟机故障检测前端(Fault-detection Front End,FDFE),虚拟机故障检测前端用于检测虚拟机的心跳信息,并将心跳信息发送至虚拟机管理器;
虚拟机管理器包括虚拟机故障检测配置模块(Fault-detectionConfiguration Module,FDCM)、域间共享存储系统(Domain-sharedStorage System,DS3)、与虚拟机故障检测前端对应的虚拟机故障检测后端(Fault-detection Back End,FDBE)、虚拟机故障检测管理模块(Fault-detection Management Module,FDMM);
虚拟机故障检测配置模块用于接收并存储用户指定的虚拟机故障检测配置信息;
域间共享存储系统用于接收并存储虚拟机管理发送的心跳信息;
虚拟机故障检测管理模块用于读取虚拟机故障检测配置信息,并根据虚拟机故障检测配置信息向虚拟机故障检测后端发送检测启动指令;虚拟机故障检测管理模块还用于在虚拟机发生故障时,关闭发生故障的虚拟机以及发生故障的虚拟机对应的故障检测后端,并重新启动发生故障的虚拟机以及发生故障的虚拟机对应的故障检测后端;
虚拟机故障检测后端用于根据检测启动指令从域间共享存储系统中读取心跳信息,并根据心跳信息判断虚拟机是否发生故障,并将检测结果发送至虚拟机故障检测管理模块。
一种虚拟机故障检测和恢复的方法,其通过上述虚拟机故障检测和恢复的系统实现,包括如下步骤:
S1、虚拟机故障检测配置模块接收用户指定的虚拟机故障检测配置信息;
S2、虚拟机故障检测管理模块从虚拟机故障检测模块中读取虚拟机故障检测配置信息,并根据虚拟机故障检测配置信息向虚拟机故障检测后端发送检测启动指令;根据检测启动指令启动虚拟机故障检测后端,虚拟机故障检测后端与设置在虚拟机内的虚拟机故障检测前端通过域间共享存储系统传递检测虚拟机的心跳信息;虚拟机故障检测后端根据心跳信息判断虚拟机是否发生故障并将结果发送至虚拟机故障检测管理模块。
一种虚拟机启动的方法,其通过上述虚拟机故障检测和恢复的系统实现,包括如下步骤:
S01、当虚拟机使用者关闭或者重启虚拟机内操作系统时,关机或者重启操作将首先触发该虚拟机对应的虚拟机故障检测前端向域间共享存储系统的相应心跳关键字中写入关机心跳值;
S02、虚拟机故障检测后端从域间共享存储系统中读取关机心跳值,并将关机心跳值传递给虚拟机故障检测管理模块;
S03、虚拟机故障检测管理模块关闭该虚拟机对应的虚拟机故障检测后端后,再执行虚拟机关闭或者重启。
本发明提供的虚拟机故障检测、恢复系统及其检测、恢复、启动方法,相比于通过网络连接传递虚拟机故障检测心跳而言,使用域间共享存储系统传递心跳信息,不仅能够避免网络连接中存在的大量不可预期因素,保证心跳信息传递的稳定性;而且域间共享存储系统的读写速度高于网络传输速度,读写延时低于网络延时,这有利于提高虚拟机故障检测的准确性和速度。并且通过读取关机心跳值来判断正常关闭或重启虚拟机,避免了虚拟机故障的误报。
附图说明
图1为本发明实施例的虚拟机故障检测、恢复系统的结构框图;
图2为本发明实施例的第一种虚拟机故障检测、恢复方法流程图;
图3为本发明实施例的第二种虚拟机故障检测、恢复方法流程图;
图4为图2中步骤S2的子流程图;
图5为图3中步骤S3的子流程图;
图6为本发明实施例的虚拟机启动的方法流程图。
具体实施方式
如图1所示,一种虚拟机1故障检测和恢复的系统,其主要基于域间共享存储系统22,包括至少一台虚拟机1以及一台虚拟机管理器2;虚拟机1均与虚拟机管理器2相连。实施例中,一台虚拟机管理器2可以管理多台虚拟机1。
虚拟机1内设置虚拟机故障检测前端11,虚拟机故障检测前端11用于检测虚拟机1的心跳信息,并将心跳信息发送至虚拟机管理器2。
虚拟机管理器2包括虚拟机故障检测配置模块21、域间共享存储系统22、与虚拟机故障检测前端11对应的虚拟机故障检测后端23、虚拟机故障检测管理模块24。
虚拟机故障检测配置模块21用于接收并存储用户指定的虚拟机故障检测配置信息。
可选地,虚拟机故障检测配置模块21可以B/S模式提供界面操作和配置功能,用户通过网络和浏览器连接并通过输入用户名和口令登录虚拟机故障检测配置模块21进行配置工作,虚拟机故障检测配置模块21在接收到用户的配置信息后,形成相关虚拟机故障检测配置信息文件,并存储在本地磁盘上以供虚拟机1故障检测过程中使用。B/S模式是一种浏览器/服务器模式,远程用户机3可以通过浏览器对虚拟机故障检测配置模块21中的各个参数进行配置。
可选地,虚拟机故障检测配置信息包括虚拟机1故障检测恢复使能标识、用户指定的心跳丢失判断时间间隔和允许最大自动恢复次数,其中:虚拟机1故障检测恢复使能标识用于表示相应虚拟机1启动时虚拟机管理器2是否对其进行故障检测,心跳丢失判断时间间隔用于表示如果在指定时间间隔内没有接收到心跳那么判断相应虚拟机1发生故障,允许最大自动恢复次数用于表示预设时间内自动恢复虚拟机1的最大次数。用户进行虚拟机1故障检测配置工作包括:标记或取消标记使能标识、输入心跳丢失判断时间间隔和允许最大自动恢复次数等。
域间共享存储系统22用于接收并存储虚拟机1管理发送的心跳信息。域间共享存储系统22是一个由虚拟机管理器2管理的树状分层存储系统,具有树状层次结构的目录,类似于Linux中的树形目录,它存储了虚拟机1和虚拟机管理器2之间共享的配置信息(例如:虚拟机1名和虚拟机1状态等),虚拟机管理器2作为管理域可以查看和修改整个结构的内容,而虚拟机1只能查看和修改自身的信息。通常情况下,域间共享存储系统22用于域间少量信息(例如:虚拟机名字、配置等)的传送,这些信息存储在一个稳定的位置,通过内核提供的接口易于读写。鉴于域间共享存储系统22的特殊结构和作用,通过利用域间共享存储系统22传递虚拟机1和虚拟机管理器2之间的心跳信息,能够保证故障检测心跳信息传递通路的稳定性,减小传递延时。
虚拟机故障检测管理模块24用于读取虚拟机故障检测配置信息,并根据虚拟机故障检测配置信息向虚拟机故障检测后端23发送检测启动指令;虚拟机故障检测管理模块24还用于在虚拟机1发生故障时,关闭发生故障的虚拟机1以及发生故障的虚拟机1对应的故障检测后端,并重新启动发生故障的虚拟机1以及发生故障的虚拟机1对应的故障检测后端。
虚拟机故障检测后端23用于根据检测启动指令从域间共享存储系统22中读取心跳信息,并根据心跳信息判断虚拟机1是否发生故障,并将检测结果发送至虚拟机故障检测管理模块24。
可选地,虚拟机故障检测管理模块24还用于判断心跳信息是否为关机心跳信息,在心跳信息为关机心跳信息时,关闭虚拟机故障检测后端23后,再执行虚拟机1关闭或者重启。
如图2所示,本发明实施例提供一种虚拟机1故障检测和恢复的方法,,其通过上述任一项实施例所述的虚拟机1故障检测和恢复的系统实现,包括如下步骤:
S1、虚拟机故障检测配置模块21接收用户指定的虚拟机故障检测配置信息。
S2、虚拟机故障检测管理模块24从虚拟机1故障检测模块中读取虚拟机故障检测配置信息,并根据虚拟机故障检测配置信息向虚拟机故障检测后端23发送检测启动指令;根据检测启动指令启动虚拟机故障检测后端23,虚拟机故障检测后端23与设置在虚拟机1内的虚拟机故障检测前端11通过域间共享存储系统22传递检测虚拟机1的心跳信息;虚拟机故障检测后端23根据心跳信息判断虚拟机1是否发生故障并将结果发送至虚拟机故障检测管理模块24。
可选地,如图3所示,在步骤S2之后,还包括:
S3、虚拟机故障检测管理模块24在虚拟机1发生故障时,关闭发生故障的虚拟机1以及发生故障的虚拟机1对应的故障检测后端,并重新启动发生故障的虚拟机1以及发生故障的虚拟机1对应的故障检测后端。
可选地,如图4所示,所述步骤S2包括如下子步骤:
S21、在指定虚拟机1启动之前,虚拟机故障检测管理模块24读取虚拟机故障检测配置信息,根据虚拟机故障检测配置信息中的使能标识启动虚拟机1故障检测启动指令,在相应虚拟机1的检测启动指令执行之后启动虚拟机故障检测后端23的功能,并将心跳丢失判断时间间隔作为启动参数。
根据使能标识,虚拟机故障检测管理模块24判断是否启动指定虚拟机1的故障检测。如果使能标识为取消标记状态,则不启动虚拟机1故障检测,如果使能标识为标记状态,则在相应虚拟机1启动命令执行之后紧接着启动虚拟机故障检测后端23,并将心跳丢失判断时间间隔作为启动参数。
S22、虚拟机故障检测后端23在域间共享存储系统22中指定虚拟机1对应的目录下建立用于存储心跳信息的关键字,并开始监听该关键字。
S23、虚拟机故障检测前端11在虚拟机1系统中开机自运行,并且以预设频率向相应关键字覆盖写入心跳计数值。比如间隔为0.5秒,当然也可以为其他值。
S24、在第一次检测到心跳之后,虚拟机故障检测后端23开启计时器,计时周期为心跳丢失判断时间间隔;在一个计时周期内监听到相应关键字有更新时,则立即重新开始一个新的计时周期;在一个计时周期内没有监听到相应关键字的更新时,则判断虚拟机1出现故障,并将检测结果发送至虚拟机故障检测管理模块24。
通过本实施例,避免网络连接中存在的大量不可预期因素,保证心跳信息传递的稳定性;而且域间共享存储系统22的读写速度高于网络传输速度,读写延时低于网络延时,这有利于提高虚拟机1故障检测的准确性和速度。
可选地,如图5所示,所述步骤S3包括如下子步骤:
S31、在指定虚拟机1发生故障时,虚拟机故障检测管理模块24关闭发生故障的虚拟机1对应的故障检测后端,然后强制关闭发生故障的虚拟机1;
S32、根据已经读取的虚拟机故障检测配置信息中允许最大自动恢复次数和当前虚拟机1自动恢复次数,判断是否自动恢复当前虚拟机1的故障;如果当前虚拟机1自动恢复次数超过允许最大自动恢复次数,则放弃自动恢复虚拟机1,并等待管理员手动处理虚拟机1故障;如果当前虚拟机1自动恢复次数未超过允许最大自动恢复次数,则选择自动恢复当前虚拟机1并将当前虚拟机1恢复次数加1,在相应虚拟机1启动命令执行之后,虚拟机故障检测管理模块24启动发生故障的虚拟机1对应的故障检测后端,并将已经读取的心跳丢失判断时间间隔作为启动参数;
S33、跳转到步骤S21,重复依次执行步骤S21至步骤S24。
通过本实施例,避免了虚拟机1的无限制重启的缺陷。
如图6所示,本发明实施例还提供一种虚拟机1启动的方法,其通过上述任一项实施例所述的虚拟机1故障检测和恢复的系统实现,包括如下步骤:
S01、当虚拟机1使用者关闭或者重启虚拟机1内操作系统时,关机或者重启操作将首先触发该虚拟机1对应的虚拟机故障检测前端11向域间共享存储系统22的相应心跳关键字中写入关机心跳值;
S02、虚拟机故障检测后端23从域间共享存储系统22中读取关机心跳值,并将关机心跳值传递给虚拟机故障检测管理模块24;
S03、虚拟机故障检测管理模块24关闭该虚拟机1对应的虚拟机故障检测后端23后,再执行虚拟机1关闭或者重启。
通过本实施例,通过读取关机心跳值来判断正常关闭或重启虚拟机1,避免了将虚拟机1正常重启或关闭作为虚拟机1故障的误报情形。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims (8)

1.一种虚拟机故障检测和恢复的系统,其特征在于,其包括至少一台虚拟机以及一台虚拟机管理器;虚拟机运行在虚拟机管理器之上;
虚拟机内设置虚拟机故障检测前端,虚拟机故障检测前端用于检测虚拟机的心跳信息,并将心跳信息发送至虚拟机管理器;
虚拟机管理器包括虚拟机故障检测配置模块、域间共享存储系统、与虚拟机故障检测前端对应的虚拟机故障检测后端、虚拟机故障检测管理模块;
虚拟机故障检测配置模块用于接收并存储用户指定的虚拟机故障检测配置信息;
域间共享存储系统用于接收并存储虚拟机管理发送的心跳信息;
虚拟机故障检测管理模块用于读取虚拟机故障检测配置信息,并根据虚拟机故障检测配置信息向虚拟机故障检测后端发送检测启动指令;虚拟机故障检测管理模块还用于在虚拟机发生故障时,关闭发生故障的虚拟机以及发生故障的虚拟机对应的故障检测后端,并重新启动发生故障的虚拟机以及发生故障的虚拟机对应的故障检测后端;
虚拟机故障检测后端用于根据检测启动指令,从域间共享存储系统中读取心跳信息,并根据心跳信息判断虚拟机是否发生故障,将检测结果发送至虚拟机故障检测管理模块。
2.如权利要求1所述的虚拟机故障检测和恢复的系统,其特征在于,
虚拟机故障检测管理模块还用于判断心跳信息是否为关机心跳信息,在心跳信息为关机心跳信息时,关闭虚拟机故障检测后端后,再执行虚拟机关闭或者重启。
3.如权利要求1所述的虚拟机故障检测和恢复的系统,其特征在于,
虚拟机故障检测配置信息包括虚拟机故障检测恢复使能标识、用户指定的心跳丢失判断时间间隔和允许最大自动恢复次数,其中:虚拟机故障检测恢复使能标识用于表示相应虚拟机启动时VMM是否对其进行故障检测,心跳丢失判断时间间隔用于表示如果在指定时间间隔内没有接收到心跳那么判断相应虚拟机发生故障,允许最大自动恢复次数用于表示预设时间内自动恢复虚拟机的最大次数。
4.一种虚拟机故障检测和恢复的方法,其特征在于,其通过权利要求1 至3任一项所述的虚拟机故障检测和恢复的系统实现,包括如下步骤:
S1、虚拟机故障检测配置模块接收用户指定的虚拟机故障检测配置信息;
S2、虚拟机故障检测管理模块从虚拟机故障检测模块中读取虚拟机故障检测配置信息,并根据虚拟机故障检测配置信息向虚拟机故障检测后端发送检测启动指令;根据检测启动指令启动虚拟机故障检测后端,虚拟机故障检测后端与设置在虚拟机内的虚拟机故障检测前端通过域间共享存储系统传递检测虚拟机的心跳信息;虚拟机故障检测后端根据心跳信息判断虚拟机是否发生故障并将结果发送至虚拟机故障检测管理模块。
5.如权利要求4所述的虚拟机故障检测和恢复的方法,其特征在于,在步骤S2之后,还包括:
S3、虚拟机故障检测管理模块在虚拟机发生故障时,关闭发生故障的虚拟机以及发生故障的虚拟机对应的故障检测后端,并重新启动发生故障的虚拟机以及发生故障的虚拟机对应的故障检测后端。
6.如权利要求4所述的虚拟机故障检测和恢复的方法,其特征在于,所述步骤S2包括如下子步骤:
S21、在指定虚拟机启动之前,虚拟机故障检测管理模块读取虚拟机故障检测配置信息,根据虚拟机故障检测配置信息中的使能标识启动虚拟机故障检测启动指令,在相应虚拟机的检测启动指令执行之后启动虚拟机故障检测后端的功能,并将心跳丢失判断时间间隔作为启动参数;
S22、虚拟机故障检测后端在域间共享存储系统中指定虚拟机对应的目录下建立用于存储心跳信息的关键字,并开始监听该关键字;
S23、虚拟机故障检测前端在虚拟机系统中开机自运行,并且以预设频率向相应关键字覆盖写入心跳计数值;
S24、在第一次检测到心跳之后,虚拟机故障检测后端开启计时器,计时周期为心跳丢失判断时间间隔;在一个计时周期内监听到相应关键字有更新时,则立即重新开始一个新的计时周期;在一个计时周期内没有监听到相应关键字的更新时,则判断虚拟机出现故障,并将检测结果发送至虚拟机故障检测管理模块。
7.如权利要求5所述的虚拟机故障检测和恢复的方法,其特征在于,所述步骤S3包括如下子步骤:
S31、在指定虚拟机发生故障时,虚拟机故障检测管理模块关闭发生故障的虚拟机对应的故障检测后端,然后强制关闭发生故障的虚拟机;
S32、根据已经读取的虚拟机故障检测配置信息中允许最大自动恢复次数和当前虚拟机自动恢复次数,判断是否自动恢复当前虚拟机的故障;如果当前虚拟机自动恢复次数超过允许最大自动恢复次数,则放弃自动恢复虚拟机,并等待管理员手动处理虚拟机故障;如果当前虚拟机自动恢复次数未超过允许最大自动恢复次数,则选择自动恢复当前虚拟机并将当前虚拟机恢复次数加1,在相应虚拟机启动命令执行之后,虚拟机故障检测管理模块启动发生故障的虚拟机对应的故障检测后端,并将已经读取的心跳丢失判断时间间隔作为启动参数;
S33、跳转到步骤S21,重复依次执行步骤S21至步骤S24。
8.一种虚拟机启动的方法,其特征在于,其通过权利要求1至3任一项所述的虚拟机故障检测和恢复的系统实现,包括如下步骤:
S01、当虚拟机使用者关闭或者重启虚拟机内操作系统时,关机或者重启操作将首先触发该虚拟机对应的虚拟机故障检测前端向域间共享存储系统的相应心跳关键字中写入关机心跳值;
S02、虚拟机故障检测后端从域间共享存储系统中读取关机心跳值,并将关机心跳值传递给虚拟机故障检测管理模块;
S03、虚拟机故障检测管理模块关闭该虚拟机对应的虚拟机故障检测后端后,再执行虚拟机关闭或者重启。
CN201510416209.0A 2015-07-15 2015-07-15 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法 Active CN105024879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510416209.0A CN105024879B (zh) 2015-07-15 2015-07-15 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510416209.0A CN105024879B (zh) 2015-07-15 2015-07-15 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法

Publications (2)

Publication Number Publication Date
CN105024879A true CN105024879A (zh) 2015-11-04
CN105024879B CN105024879B (zh) 2018-03-23

Family

ID=54414604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510416209.0A Active CN105024879B (zh) 2015-07-15 2015-07-15 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法

Country Status (1)

Country Link
CN (1) CN105024879B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550012A (zh) * 2015-12-07 2016-05-04 国云科技股份有限公司 一种自定义恢复故障虚拟机的方法
CN106126365A (zh) * 2016-07-04 2016-11-16 深圳市神云科技有限公司 云计算节点服务防护方法以及云平台管理系统
CN107395387A (zh) * 2016-05-17 2017-11-24 中兴通讯股份有限公司 双机业务恢复的方法、装置和系统
CN107688482A (zh) * 2017-08-30 2018-02-13 联想(北京)有限公司 一种虚拟机状态的监测方法和电子设备
CN108108255A (zh) * 2016-11-25 2018-06-01 中兴通讯股份有限公司 虚拟机故障的检测和恢复方法及装置
WO2018151661A1 (en) * 2017-02-16 2018-08-23 Nasdaq Technology Ab Methods and systems of scheduling computer processes or tasks in a distributed system
CN108733454A (zh) * 2018-05-29 2018-11-02 郑州云海信息技术有限公司 一种虚拟机故障处理方法和装置
CN109460315A (zh) * 2018-12-20 2019-03-12 华迪计算机集团有限公司 共享磁盘故障节点的处理方法、装置、计算机设备
CN111447098A (zh) * 2020-04-20 2020-07-24 北京三快在线科技有限公司 业务监控方法、装置、系统、存储介质及电子设备
US10776428B2 (en) 2017-02-16 2020-09-15 Nasdaq Technology Ab Systems and methods of retrospectively determining how submitted data transaction requests operate against a dynamic data structure
CN114598591A (zh) * 2022-03-07 2022-06-07 中国电子科技集团公司第十四研究所 嵌入式平台节点故障恢复系统及方法
WO2022218346A1 (zh) * 2021-04-13 2022-10-20 超聚变数字技术有限公司 一种故障处理方法及装置
CN115842713A (zh) * 2021-09-09 2023-03-24 中国移动通信集团有限公司 网元故障自愈方法、装置、设备以及存储介质
CN115858222A (zh) * 2022-12-19 2023-03-28 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708018A (zh) * 2012-04-20 2012-10-03 华为技术有限公司 一种异常处理方法及系统、代理设备与控制装置
CN103701627A (zh) * 2012-09-27 2014-04-02 北京搜狐新媒体信息技术有限公司 一种云计算平台故障检测方法、装置及解决方法、装置
CN104199753A (zh) * 2014-09-04 2014-12-10 中标软件有限公司 一种虚拟机应用服务故障恢复系统及其故障恢复方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708018A (zh) * 2012-04-20 2012-10-03 华为技术有限公司 一种异常处理方法及系统、代理设备与控制装置
CN103701627A (zh) * 2012-09-27 2014-04-02 北京搜狐新媒体信息技术有限公司 一种云计算平台故障检测方法、装置及解决方法、装置
CN104199753A (zh) * 2014-09-04 2014-12-10 中标软件有限公司 一种虚拟机应用服务故障恢复系统及其故障恢复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈生栋: ""基于虚拟机监控器的故障检测和恢复系统的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550012A (zh) * 2015-12-07 2016-05-04 国云科技股份有限公司 一种自定义恢复故障虚拟机的方法
CN107395387A (zh) * 2016-05-17 2017-11-24 中兴通讯股份有限公司 双机业务恢复的方法、装置和系统
CN106126365A (zh) * 2016-07-04 2016-11-16 深圳市神云科技有限公司 云计算节点服务防护方法以及云平台管理系统
CN108108255A (zh) * 2016-11-25 2018-06-01 中兴通讯股份有限公司 虚拟机故障的检测和恢复方法及装置
US10789097B2 (en) 2017-02-16 2020-09-29 Nasdaq Technology Ab Methods and systems of scheduling computer processes or tasks in a distributed system
US11740938B2 (en) 2017-02-16 2023-08-29 Nasdaq Technology Ab Methods and systems of scheduling computer processes or tasks in a distributed system
US10776428B2 (en) 2017-02-16 2020-09-15 Nasdaq Technology Ab Systems and methods of retrospectively determining how submitted data transaction requests operate against a dynamic data structure
US11941062B2 (en) 2017-02-16 2024-03-26 Nasdaq Technology Ab Systems and methods of retrospectively determining how submitted data transaction requests operate against a dynamic data structure
WO2018151661A1 (en) * 2017-02-16 2018-08-23 Nasdaq Technology Ab Methods and systems of scheduling computer processes or tasks in a distributed system
US11500941B2 (en) 2017-02-16 2022-11-15 Nasdaq Technology Ab Systems and methods of retrospectively determining how submitted data transaction requests operate against a dynamic data structure
US11561825B2 (en) 2017-02-16 2023-01-24 Nasdaq Technology Ab Methods and systems of scheduling computer processes or tasks in a distributed system
CN107688482A (zh) * 2017-08-30 2018-02-13 联想(北京)有限公司 一种虚拟机状态的监测方法和电子设备
CN108733454A (zh) * 2018-05-29 2018-11-02 郑州云海信息技术有限公司 一种虚拟机故障处理方法和装置
CN108733454B (zh) * 2018-05-29 2021-10-01 郑州云海信息技术有限公司 一种虚拟机故障处理方法和装置
CN109460315A (zh) * 2018-12-20 2019-03-12 华迪计算机集团有限公司 共享磁盘故障节点的处理方法、装置、计算机设备
CN111447098A (zh) * 2020-04-20 2020-07-24 北京三快在线科技有限公司 业务监控方法、装置、系统、存储介质及电子设备
WO2022218346A1 (zh) * 2021-04-13 2022-10-20 超聚变数字技术有限公司 一种故障处理方法及装置
CN115842713A (zh) * 2021-09-09 2023-03-24 中国移动通信集团有限公司 网元故障自愈方法、装置、设备以及存储介质
CN114598591B (zh) * 2022-03-07 2024-02-02 中国电子科技集团公司第十四研究所 嵌入式平台节点故障恢复系统及方法
CN114598591A (zh) * 2022-03-07 2022-06-07 中国电子科技集团公司第十四研究所 嵌入式平台节点故障恢复系统及方法
CN115858222A (zh) * 2022-12-19 2023-03-28 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备
CN115858222B (zh) * 2022-12-19 2024-01-02 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备

Also Published As

Publication number Publication date
CN105024879B (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN105024879A (zh) 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法
US8910172B2 (en) Application resource switchover systems and methods
US9652326B1 (en) Instance migration for rapid recovery from correlated failures
EP4083786A1 (en) Cloud operating system management method and apparatus, server, management system, and medium
CN107179957A (zh) 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN106850260A (zh) 一种虚拟化资源管理平台的部署方法和装置
CN104321748A (zh) 用于捕捉轻量虚拟机管理器中的错误条件的方法、系统和装置
CN107656705B (zh) 一种计算机存储介质和一种数据迁移方法、装置及系统
CN103440160A (zh) 虚拟机恢复方法和虚拟机迁移方法以及装置与系统
CN102708027B (zh) 一种避免通信设备运行中断的方法及系统
US8910161B2 (en) Scan systems and methods of scanning virtual machines
US11880458B2 (en) Malware detection based on user interactions
CN106777126B (zh) 一种支持异构时序数据库的数据在线迁移方法
US10402264B2 (en) Packet-aware fault-tolerance method and system of virtual machines applied to cloud service, computer readable record medium and computer program product
US10061683B2 (en) Systems and methods for collecting error data to troubleshoot product errors
CN106598796A (zh) 一种测试reboot时硬件信息稳定性的方法
CN104216743A (zh) 可配置的虚拟机启动完整性维护的方法及系统
CN111181780A (zh) 基于ha集群的主机池切换方法、系统、终端及存储介质
CN106612314A (zh) 基于虚拟机实现软件定义存储的系统
CN103902401B (zh) 基于监控的虚拟机容错方法及装置
CN105068899A (zh) 一种Vmware系统下自动重启稳定性测试方法
CN105426304B (zh) 一种重启测试的控制方法及装置
US20160266951A1 (en) Diagnostic collector for hadoop
CN108021408B (zh) 升级方法及装置
CN114996955A (zh) 一种云原生混沌工程实验的靶场环境构建方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant