CN105095001B - 分布式环境下虚拟机异常恢复方法 - Google Patents

分布式环境下虚拟机异常恢复方法 Download PDF

Info

Publication number
CN105095001B
CN105095001B CN201410191655.1A CN201410191655A CN105095001B CN 105095001 B CN105095001 B CN 105095001B CN 201410191655 A CN201410191655 A CN 201410191655A CN 105095001 B CN105095001 B CN 105095001B
Authority
CN
China
Prior art keywords
physical machine
machine
abnormal
virtual machine
running status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410191655.1A
Other languages
English (en)
Other versions
CN105095001A (zh
Inventor
柴洪峰
鲁志军
祖立军
严逸兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201410191655.1A priority Critical patent/CN105095001B/zh
Priority to US15/308,497 priority patent/US10095576B2/en
Priority to EP15788953.6A priority patent/EP3142011B9/en
Priority to PCT/CN2015/078248 priority patent/WO2015169199A1/zh
Publication of CN105095001A publication Critical patent/CN105095001A/zh
Application granted granted Critical
Publication of CN105095001B publication Critical patent/CN105095001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提出了分布式环境下虚拟机异常恢复方法,所述方法包括:在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地向状态数据库报告相应的物理机的当前运行状态;高可用控制器周期性地轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;如果所述物理机集群中仅一台物理机的运行状态异常,则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。本发明所公开的分布式环境下虚拟机异常恢复方法能够准确地判断和高效地处理分布式环境下的物理机故障。

Description

分布式环境下虚拟机异常恢复方法
技术领域
本发明涉及虚拟机异常恢复方法,更具体地,涉及分布式环境下虚拟机异常恢复方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,分布式环境下的虚拟机(虚拟机是指通过软件模拟的方式运行于物理机上面、具有完整硬件系统功能的、运行在一个完全隔离环境中的计算机系统)高可用技术(即在物理机A出现宕机等问题后,运行在物理机A上的虚拟机在不需要人工参与的情况下就能够在物理机B上启动起来以确保虚拟机的持续运转的技术)变得越来越重要。
在现有的技术方案中,通常以下列方式实现分布式环境下的虚拟机高可用性:将由多个物理机组成的逻辑集群定义为一个高可用单元,由此,此逻辑集群中的任意物理机出现宕机或问题时,运行在该物理机上的全部虚拟机都会在同一逻辑集群中其他物理机上启动起来,此外,控制节点以心跳方式或定期ping物理机的方式检测物理机的状态,即当控制节点不能探测到某台物理机后就认为这台物理机出现了问题。
然而,现有的技术方案存在如下问题:(1)由于当虚拟机被分配到一个高可用集群后,不论这个虚拟机上运行的业务是否重要,该虚拟机均被默认具有高可用性。故这样的设计不能保证运行重要业务的虚拟机优先启动,并且也会对资源造成一定浪费和冗余;(2)由于仅对物理机的状态进行检测,故检测方式单一和片面,由此可能造成误判(例如如果某台物理机禁用了ping功能,则有可能把运行正常的物理机上的虚拟机迁移到别的物理机上);(3)由于对物理机状态的探测仅从控制节点发起,故对物理机状态的判断不够全面和准确。
因此,存在如下需求:提供能够准确地判断和高效地处理分布式环境下的物理机故障的虚拟机异常恢复方法。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了能够准确地判断和高效地处理分布式环境下的物理机故障的虚拟机异常恢复方法。
本发明的目的是通过以下技术方案实现的:
一种分布式环境下虚拟机异常恢复方法,所述分布式环境下虚拟机异常恢复方法包括下列步骤:
(A1)在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地向状态数据库报告相应的物理机的当前运行状态;
(A2)高可用控制器周期性地轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;
(A3)如果所述物理机集群中的所有物理机的运行状态均正常,则结束本次检查过程,如果所述物理机集群中的多台物理机的运行状态均异常,则结束本次检查过程并且通过日志的方式发出报警,而如果所述物理机集群中仅一台物理机的运行状态异常,则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。
在上面所公开的方案中,优选地,所述异常处理操作包括:所述高可用控制器探测该运行状态异常的物理机针对管理网络的可连通性,其中,所述探测以下列两种方式进行:(1)ping该物理机;(2)监测该物理机的22号端口。
在上面所公开的方案中,优选地,所述异常处理操作进一步包括:如果以任何一种方式探测发现该运行状态异常的物理机针对管理网络是可连通的,则异常处理操作结束,而如果以两种方式探测发现该运行状态异常的物理机针对管理网络均是不可连通的,则探测运行于该运行状态异常的物理机上的所有有效虚拟机针对业务网络的可连通性,并且如果任何一个有效虚拟机针对业务网络是可连通的,则异常处理操作结束,而如果所有有效虚拟机针对业务网络均是不可连通的,则执行二次投票操作以最终确认该运行状态异常的物理机是否发生故障。
在上面所公开的方案中,优选地,所述二次投票操作包括:(1)所述高可用控制器从所述物理机集群中随机选择除该运行状态异常的物理机之外的若干台物理机;(2)所述高可用控制器指示每个所选择出的物理机分别通过ping该运行状态异常的物理机以及监测该运行状态异常的物理机的22号端口来探测该运行状态异常的物理机针对管理网络和/或业务网络的可连通性;(3)如果所选择出的物理机中的任何一台物理机发现该运行状态异常的物理机针对管理网络或业务网络是可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机未发生故障”,而如果所有所选择出的物理机均发现该运行状态异常的物理机针对管理网络和业务网络均是不可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机发生故障”,随之执行虚拟机迁移操作。
在上面所公开的方案中,优选地,所述虚拟机迁移操作包括:(1)所述高可用控制器经由智能平台管理接口(IPMI)向该运行状态异常的物理机发送关机指令以使所述运行状态异常的物理机处于关机状态,从而销毁驻留在其内存中的虚拟机;(2)所述高可用控制器向调度控制器发送迁移调度指令;(3)在接收到所述迁移调度指令后,所述调度控制器选择所述物理机集群中有空闲资源的物理机,并随之逐个向所选择出的有空闲资源的物理机发送迁移指令,以将在该运行状态异常的物理机上运行的所有有效虚拟机迁移到所选择出的有空闲资源的物理机上,其中,分配给不同的有空闲资源的物理机的待迁移的虚拟机是彼此不同的;(4)经由共享存储装置,所述有空闲资源的物理机上运行的计算组件将分配给本物理机的待迁移虚拟机迁移至本物理机。
在上面所公开的方案中,优选地,用户能够配置各个虚拟机的高可用性标志,并且所述高可用控制器在执行虚拟机迁移操作之前判断在该运行状态异常的物理机上运行的所有有效虚拟机的高可用性标志,并且仅对其高可用性标志的值为“启用”的虚拟机执行后续的虚拟机迁移操作。
在上面所公开的方案中,优选地,用户能够配置各个虚拟机的高可用性优先级,并且所述高可用控制器根据每个待迁移虚拟机的高可用性优先级的高低依次迁移各个待迁移虚拟机。
本发明所公开的分布式环境下虚拟机异常恢复方法具有以下优点:(1)能够确保运行重要业务的虚拟机优先被启动和恢复,并且节省资源;(2)由于网络检测方式多样和全面,由此显著地减少了误判的可能性;(3)由于对物理机状态的探测不但能够控制节点发起而且也能够从随机选取的其他物理机发起,故可以更全面和准确的判断物理机的状态。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的分布式环境下虚拟机异常恢复方法的流程图。
具体实施方式
图1是根据本发明的实施例的分布式环境下虚拟机异常恢复方法的流程图。如图1所示,本发明所公开的分布式环境下虚拟机异常恢复方法包括下列步骤:(A1)在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地(例如每隔1分钟)向状态数据库报告相应的物理机的当前运行状态;(A2)高可用控制器周期性地(例如每隔2秒)轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;(A3)如果所述物理机集群中的所有物理机的运行状态均正常,则结束本次检查过程,如果所述物理机集群中的多台物理机的运行状态均异常,则结束本次检查过程并且通过日志的方式发出报警,而如果所述物理机集群中仅一台物理机的运行状态异常(例如某台物理机未在1分钟内报告自己的运行状态),则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,所述异常处理操作包括:所述高可用控制器探测该运行状态异常的物理机针对管理网络的可连通性,其中,所述探测以下列两种方式进行:(1)ping该物理机;(2)监测该物理机的22号端口。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,所述异常处理操作进一步包括:如果以任何一种方式探测发现该运行状态异常的物理机针对管理网络是可连通的,则异常处理操作结束,而如果以两种方式探测发现该运行状态异常的物理机针对管理网络均是不可连通的,则探测运行于该运行状态异常的物理机上的所有有效虚拟机针对业务网络的可连通性,并且如果任何一个有效虚拟机针对业务网络是可连通的,则异常处理操作结束,而如果所有有效虚拟机针对业务网络均是不可连通的,则执行二次投票操作以最终确认该运行状态异常的物理机是否发生故障。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,所述二次投票操作包括:(1)所述高可用控制器从所述物理机集群中随机选择除该运行状态异常的物理机之外的若干台物理机(例如3台物理机);(2)所述高可用控制器指示每个所选择出的物理机分别通过ping该运行状态异常的物理机以及监测该运行状态异常的物理机的22号端口来探测该运行状态异常的物理机针对管理网络和/或业务网络的可连通性;(3)如果所选择出的物理机中的任何一台物理机发现该运行状态异常的物理机针对管理网络或业务网络是可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机未发生故障”,而如果所有所选择出的物理机均发现该运行状态异常的物理机针对管理网络和业务网络均是不可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机发生故障”,随之执行虚拟机迁移操作。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,所述虚拟机迁移操作包括:(1)所述高可用控制器经由智能平台管理接口(IPMI)向该运行状态异常的物理机发送关机指令以使所述运行状态异常的物理机处于关机状态(即不再对外提供任何服务),从而销毁驻留在其内存中的虚拟机(示例性地,如果智能平台管理接口(IPMI)异常则不停止虚拟机迁移操作,但是会以日志的形式告警);(2)所述高可用控制器向调度控制器发送迁移调度指令;(3)在接收到所述迁移调度指令后,所述调度控制器选择所述物理机集群中有空闲资源的物理机,并随之逐个向所选择出的有空闲资源的物理机发送迁移指令,以将在该运行状态异常的物理机上运行的所有有效(active)虚拟机迁移到所选择出的有空闲资源的物理机上,其中,分配给不同的有空闲资源的物理机的待迁移的虚拟机是彼此不同的;(4)经由共享存储装置,所述有空闲资源的物理机上运行的计算组件将分配给本物理机的待迁移虚拟机迁移至本物理机。示例性地,为了确保同一时间点,每个独立的虚拟机镜像文件在整个分布式系统中有且仅有一个虚拟机实例运行,所述高可用控制器会更改虚拟机的镜像文件存储目录,以防止该运行状态异常的物理机在迁移过程中启动虚拟机实例。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,用户能够配置各个虚拟机的高可用性标志,并且所述高可用控制器在执行虚拟机迁移操作之前判断在该运行状态异常的物理机上运行的所有有效虚拟机的高可用性标志,并且仅对其高可用性标志的值为“启用”的虚拟机执行后续的虚拟机迁移操作。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,用户能够配置各个虚拟机的高可用性优先级,并且所述高可用控制器根据每个待迁移虚拟机的高可用性优先级的高低依次迁移各个待迁移虚拟机。示例性地,如果虚拟机的高可用性优先级被配置为“高”,则指示针对该虚拟机,一定确保预留足够的空闲资源来保证该虚拟机可以被迁移,如果虚拟机的高可用性优先级被配置为“中”或“低”,则指示针对该虚拟机,在迁移时确保相应的优先顺序,但是不保证一定有足够的空闲资源被预留。
由上可见,本发明所公开的分布式环境下虚拟机异常恢复方法具有下列优点:(1)能够确保运行重要业务的虚拟机优先被启动和恢复,并且节省资源;(2)由于网络检测方式多样和全面,由此显著地减少了误判的可能性;(3)由于对物理机状态的探测不但能够控制节点发起而且也能够从随机选取的其他物理机发起,故可以更全面和准确的判断物理机的状态。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。

Claims (7)

1.一种分布式环境下虚拟机异常恢复方法,所述分布式环境下虚拟机异常恢复方法包括下列步骤:
(A1)在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地向状态数据库报告相应的物理机的当前运行状态;
(A2)高可用控制器周期性地轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;
(A3)如果所述物理机集群中的所有物理机的运行状态均正常,则结束本次检查过程,如果所述物理机集群中的多台物理机的运行状态均异常,则结束本次检查过程并且通过日志的方式发出报警,而如果所述物理机集群中仅一台物理机的运行状态异常,则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。
2.根据权利要求1所述的分布式环境下虚拟机异常恢复方法,其特征在于,所述异常处理操作包括:所述高可用控制器探测该运行状态异常的物理机针对管理网络的可连通性,其中,所述探测以下列两种方式进行:(1)ping该物理机;(2)监测该物理机的22号端口。
3.根据权利要求2所述的分布式环境下虚拟机异常恢复方法,其特征在于,所述异常处理操作进一步包括:如果以任何一种方式探测发现该运行状态异常的物理机针对管理网络是可连通的,则异常处理操作结束,而如果以两种方式探测发现该运行状态异常的物理机针对管理网络均是不可连通的,则探测运行于该运行状态异常的物理机上的所有有效虚拟机针对业务网络的可连通性,并且如果任何一个有效虚拟机针对业务网络是可连通的,则异常处理操作结束,而如果所有有效虚拟机针对业务网络均是不可连通的,则执行二次投票操作以最终确认该运行状态异常的物理机是否发生故障。
4.根据权利要求3所述的分布式环境下虚拟机异常恢复方法,其特征在于,所述二次投票操作包括:(1)所述高可用控制器从所述物理机集群中随机选择除该运行状态异常的物理机之外的若干台物理机;(2)所述高可用控制器指示每个所选择出的物理机分别通过ping该运行状态异常的物理机以及监测该运行状态异常的物理机的22号端口来探测该运行状态异常的物理机针对管理网络和/或业务网络的可连通性;(3)如果所选择出的物理机中的任何一台物理机发现该运行状态异常的物理机针对管理网络或业务网络是可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机未发生故障”,而如果所有所选择出的物理机均发现该运行状态异常的物理机针对管理网络和业务网络均是不可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机发生故障”,随之执行虚拟机迁移操作。
5.根据权利要求4所述的分布式环境下虚拟机异常恢复方法,其特征在于,所述虚拟机迁移操作包括:(1)所述高可用控制器经由智能平台管理接口IPMI向该运行状态异常的物理机发送关机指令以使所述运行状态异常的物理机处于关机状态,从而销毁驻留在其内存中的虚拟机;(2)所述高可用控制器向调度控制器发送迁移调度指令;(3)在接收到所述迁移调度指令后,所述调度控制器选择所述物理机集群中有空闲资源的物理机,并随之逐个向所选择出的有空闲资源的物理机发送迁移指令,以将在该运行状态异常的物理机上运行的所有有效虚拟机迁移到所选择出的有空闲资源的物理机上,其中,分配给不同的有空闲资源的物理机的待迁移的虚拟机是彼此不同的;(4)经由共享存储装置,所述有空闲资源的物理机上运行的计算组件将分配给本物理机的待迁移虚拟机迁移至本物理机。
6.根据权利要求5所述的分布式环境下虚拟机异常恢复方法,其特征在于,用户能够配置各个虚拟机的高可用性标志,并且所述高可用控制器在执行虚拟机迁移操作之前判断在该运行状态异常的物理机上运行的所有有效虚拟机的高可用性标志,并且仅对其高可用性标志的值为“启用”的虚拟机执行后续的虚拟机迁移操作。
7.根据权利要求6所述的分布式环境下虚拟机异常恢复方法,其特征在于,用户能够配置各个虚拟机的高可用性优先级,并且所述高可用控制器根据每个待迁移虚拟机的高可用性优先级的高低依次迁移各个待迁移虚拟机。
CN201410191655.1A 2014-05-08 2014-05-08 分布式环境下虚拟机异常恢复方法 Active CN105095001B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410191655.1A CN105095001B (zh) 2014-05-08 2014-05-08 分布式环境下虚拟机异常恢复方法
US15/308,497 US10095576B2 (en) 2014-05-08 2015-05-05 Anomaly recovery method for virtual machine in distributed environment
EP15788953.6A EP3142011B9 (en) 2014-05-08 2015-05-05 Anomaly recovery method for virtual machine in distributed environment
PCT/CN2015/078248 WO2015169199A1 (zh) 2014-05-08 2015-05-05 分布式环境下虚拟机异常恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410191655.1A CN105095001B (zh) 2014-05-08 2014-05-08 分布式环境下虚拟机异常恢复方法

Publications (2)

Publication Number Publication Date
CN105095001A CN105095001A (zh) 2015-11-25
CN105095001B true CN105095001B (zh) 2018-01-30

Family

ID=54392140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410191655.1A Active CN105095001B (zh) 2014-05-08 2014-05-08 分布式环境下虚拟机异常恢复方法

Country Status (4)

Country Link
US (1) US10095576B2 (zh)
EP (1) EP3142011B9 (zh)
CN (1) CN105095001B (zh)
WO (1) WO2015169199A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980528A (zh) * 2016-01-18 2017-07-25 中兴通讯股份有限公司 一种恢复虚拟机的方法和装置
CN107453888B (zh) * 2016-05-31 2020-11-20 深信服科技股份有限公司 高可用性的虚拟机集群的管理方法及装置
CN107544839B (zh) * 2016-06-27 2021-05-25 腾讯科技(深圳)有限公司 虚拟机迁移系统、方法及装置
CN107870801B (zh) * 2016-09-26 2020-05-26 中国电信股份有限公司 虚拟机高可用功能自动开通方法、装置和系统
CN106874111A (zh) * 2017-01-11 2017-06-20 深圳证券通信有限公司 一种云计算平台的虚拟机高可用性管理方法
JP2018170618A (ja) * 2017-03-29 2018-11-01 Kddi株式会社 障害自動復旧システム、制御装置、手順作成装置およびプログラム
CN107491344B (zh) * 2017-09-26 2020-09-01 北京思特奇信息技术股份有限公司 一种实现虚拟机高可用性的方法及装置
CN109491836B (zh) * 2018-10-30 2021-04-27 京信通信系统(中国)有限公司 数据恢复方法、装置及基站
CN109710377B (zh) * 2018-12-14 2023-06-30 国云科技股份有限公司 一种从故障的分布式存储里恢复kvm虚拟机的方法
CN110532090B (zh) * 2019-08-16 2022-03-15 国网冀北电力有限公司 私有云计算业务恢复调度方法及装置
CN112148485A (zh) * 2020-09-16 2020-12-29 杭州安恒信息技术股份有限公司 超融合平台故障恢复方法、装置、电子装置和存储介质
CN113608826A (zh) * 2021-06-29 2021-11-05 济南浪潮数据技术有限公司 虚拟化平台迁移方法、装置、电子设备及可读存储介质
CN113568710B (zh) * 2021-08-03 2023-07-21 罗慧 一种虚拟机高可用实现方法、装置和设备
CN113765709B (zh) * 2021-08-23 2022-09-20 中国人寿保险股份有限公司上海数据中心 基于Openstack云平台多维监控的虚拟机高可用实现系统及方法
CN114090184B (zh) * 2021-11-26 2022-11-29 中电信数智科技有限公司 一种虚拟化集群高可用性的实现方法和设备
CN114553917B (zh) * 2021-12-30 2024-01-26 北京天成通链科技有限公司 一种基于区块链的网络智能治理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6986076B1 (en) * 2002-05-28 2006-01-10 Unisys Corporation Proactive method for ensuring availability in a clustered system
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法
CN103118121A (zh) * 2013-02-19 2013-05-22 浪潮电子信息产业股份有限公司 一种高可用集群在虚拟化技术中的应用方法
CN103440160A (zh) * 2013-08-15 2013-12-11 华为技术有限公司 虚拟机恢复方法和虚拟机迁移方法以及装置与系统
CN103559108A (zh) * 2013-11-11 2014-02-05 中国科学院信息工程研究所 一种基于虚拟化实现主备故障自动恢复的方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7197561B1 (en) * 2001-03-28 2007-03-27 Shoregroup, Inc. Method and apparatus for maintaining the status of objects in computer networks using virtual state machines
US20060080678A1 (en) * 2004-09-07 2006-04-13 Bailey Mark W Task distribution method for protecting servers and tasks in a distributed system
US7925923B1 (en) * 2008-01-31 2011-04-12 Hewlett-Packard Development Company, L.P. Migrating a virtual machine in response to failure of an instruction to execute
US8566650B2 (en) 2009-08-04 2013-10-22 Red Hat Israel, Ltd. Virtual machine infrastructure with storage domain monitoring
CN102708018B (zh) * 2012-04-20 2015-04-15 华为技术有限公司 一种异常处理方法及系统、代理设备与控制装置
CN102708818B (zh) 2012-04-24 2014-07-09 京东方科技集团股份有限公司 一种移位寄存器和显示器
JP2013254354A (ja) * 2012-06-07 2013-12-19 Mitsubishi Electric Corp コンピュータ装置及びソフトウェア管理方法及びプログラム
US9146819B2 (en) * 2013-07-02 2015-09-29 International Business Machines Corporation Using RDMA for fast system recovery in virtualized environments
CN103729280A (zh) 2013-12-23 2014-04-16 国云科技股份有限公司 一种虚拟机高可用机制
US10317985B2 (en) * 2014-01-29 2019-06-11 Hewlett Packard Enterprise Development Lp Shutdown of computing devices
US9417976B2 (en) * 2014-08-29 2016-08-16 Vmware, Inc. Preventing migration of a virtual machine from affecting disaster recovery of replica
US9798635B2 (en) * 2015-12-11 2017-10-24 International Business Machines Corporation Service level agreement-based resource allocation for failure recovery
US10521315B2 (en) * 2016-02-23 2019-12-31 Vmware, Inc. High availability handling network segmentation in a cluster

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6986076B1 (en) * 2002-05-28 2006-01-10 Unisys Corporation Proactive method for ensuring availability in a clustered system
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法
CN103118121A (zh) * 2013-02-19 2013-05-22 浪潮电子信息产业股份有限公司 一种高可用集群在虚拟化技术中的应用方法
CN103440160A (zh) * 2013-08-15 2013-12-11 华为技术有限公司 虚拟机恢复方法和虚拟机迁移方法以及装置与系统
CN103559108A (zh) * 2013-11-11 2014-02-05 中国科学院信息工程研究所 一种基于虚拟化实现主备故障自动恢复的方法及系统

Also Published As

Publication number Publication date
WO2015169199A1 (zh) 2015-11-12
EP3142011B9 (en) 2019-05-29
EP3142011B1 (en) 2018-12-12
US10095576B2 (en) 2018-10-09
US20170060671A1 (en) 2017-03-02
EP3142011A4 (en) 2018-01-10
EP3142011A1 (en) 2017-03-15
CN105095001A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN108270726B (zh) 应用实例部署方法及装置
CN105187249B (zh) 一种故障恢复方法及装置
CN102402395B (zh) 基于仲裁磁盘的高可用系统不间断运行方法
EP2614436B1 (en) Controlled automatic healing of data-center services
CN103559108B (zh) 一种基于虚拟化实现主备故障自动恢复的方法及系统
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN105229613A (zh) 协调分布式系统中的故障恢复
CN104408071A (zh) 一种基于集群管理器的分布式数据库高可用方法及系统
CN108632057A (zh) 一种云计算服务器的故障恢复方法、装置及管理系统
CN105243004A (zh) 一种故障资源检测方法及装置
CN103873279A (zh) 一种服务器管理方法,及装置
US9367375B2 (en) Direct connect algorithm
US9210059B2 (en) Cluster system
US20170228250A1 (en) Virtual machine service availability
CN104239548A (zh) 数据库容灾系统和数据库容灾方法
US10102088B2 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
CN107291589B (zh) 在机器人操作系统中提升系统可靠性的方法
CN114064217B (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
CN103902401B (zh) 基于监控的虚拟机容错方法及装置
CN107453888B (zh) 高可用性的虚拟机集群的管理方法及装置
CN105515838A (zh) 一种服务配置方法及ha集群系统
CN117370316A (zh) 数据库的高可用管理方法和装置、电子设备及存储介质
WO2015188619A1 (zh) 物理主机故障检测方法、装置及虚机管理方法、系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant