CN105095001A - 分布式环境下虚拟机异常恢复方法 - Google Patents
分布式环境下虚拟机异常恢复方法 Download PDFInfo
- Publication number
- CN105095001A CN105095001A CN201410191655.1A CN201410191655A CN105095001A CN 105095001 A CN105095001 A CN 105095001A CN 201410191655 A CN201410191655 A CN 201410191655A CN 105095001 A CN105095001 A CN 105095001A
- Authority
- CN
- China
- Prior art keywords
- physical machine
- virtual machine
- machine
- running status
- physical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0712—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0787—Storage of error reports, e.g. persistent data storage, storage using memory protection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking by means of middleware or OS functionality
- G06F11/1484—Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明提出了分布式环境下虚拟机异常恢复方法,所述方法包括:在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地向状态数据库报告相应的物理机的当前运行状态;高可用控制器周期性地轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;如果所述物理机集群中仅一台物理机的运行状态异常,则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。本发明所公开的分布式环境下虚拟机异常恢复方法能够准确地判断和高效地处理分布式环境下的物理机故障。
Description
技术领域
本发明涉及虚拟机异常恢复方法,更具体地,涉及分布式环境下虚拟机异常恢复方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,分布式环境下的虚拟机(虚拟机是指通过软件模拟的方式运行于物理机上面、具有完整硬件系统功能的、运行在一个完全隔离环境中的计算机系统)高可用技术(即在物理机A出现宕机等问题后,运行在物理机A上的虚拟机在不需要人工参与的情况下就能够在物理机B上启动起来以确保虚拟机的持续运转的技术)变得越来越重要。
在现有的技术方案中,通常以下列方式实现分布式环境下的虚拟机高可用性:将由多个物理机组成的逻辑集群定义为一个高可用单元,由此,此逻辑集群中的任意物理机出现宕机或问题时,运行在该物理机上的全部虚拟机都会在同一逻辑集群中其他物理机上启动起来,此外,控制节点以心跳方式或定期ping物理机的方式检测物理机的状态,即当控制节点不能探测到某台物理机后就认为这台物理机出现了问题。
然而,现有的技术方案存在如下问题:(1)由于当虚拟机被分配到一个高可用集群后,不论这个虚拟机上运行的业务是否重要,该虚拟机均被默认具有高可用性。故这样的设计不能保证运行重要业务的虚拟机优先启动,并且也会对资源造成一定浪费和冗余;(2)由于仅对物理机的状态进行检测,故检测方式单一和片面,由此可能造成误判(例如如果某台物理机禁用了ping功能,则有可能把运行正常的物理机上的虚拟机迁移到别的物理机上);(3)由于对物理机状态的探测仅从控制节点发起,故对物理机状态的判断不够全面和准确。
因此,存在如下需求:提供能够准确地判断和高效地处理分布式环境下的物理机故障的虚拟机异常恢复方法。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了能够准确地判断和高效地处理分布式环境下的物理机故障的虚拟机异常恢复方法。
本发明的目的是通过以下技术方案实现的:
一种分布式环境下虚拟机异常恢复方法,所述分布式环境下虚拟机异常恢复方法包括下列步骤:
(A1)在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地向状态数据库报告相应的物理机的当前运行状态;
(A2)高可用控制器周期性地轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;
(A3)如果所述物理机集群中的所有物理机的运行状态均正常,则结束本次检查过程,如果所述物理机集群中的多台物理机的运行状态均异常,则结束本次检查过程并且通过日志的方式发出报警,而如果所述物理机集群中仅一台物理机的运行状态异常,则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。
在上面所公开的方案中,优选地,所述异常处理操作包括:所述高可用控制器探测该运行状态异常的物理机针对管理网络的可连通性,其中,所述探测以下列两种方式进行:(1)ping该物理机;(2)监测该物理机的22号端口。
在上面所公开的方案中,优选地,所述异常处理操作进一步包括:如果以任何一种方式探测发现该运行状态异常的物理机针对管理网络是可连通的,则异常处理操作结束,而如果以两种方式探测发现该运行状态异常的物理机针对管理网络均是不可连通的,则探测运行于该运行状态异常的物理机上的所有有效虚拟机针对业务网络的可连通性,并且如果任何一个有效虚拟机针对业务网络是可连通的,则异常处理操作结束,而如果所有有效虚拟机针对业务网络均是不可连通的,则执行二次投票操作以最终确认该运行状态异常的物理机是否发生故障。
在上面所公开的方案中,优选地,所述二次投票操作包括:(1)所述高可用控制器从所述物理机集群中随机选择除该运行状态异常的物理机之外的若干台物理机;(2)所述高可用控制器指示每个所选择出的物理机分别通过ping该运行状态异常的物理机以及监测该运行状态异常的物理机的22号端口来探测该运行状态异常的物理机针对管理网络和/或业务网络的可连通性;(3)如果所选择出的物理机中的任何一台物理机发现该运行状态异常的物理机针对管理网络或业务网络是可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机未发生故障”,而如果所有所选择出的物理机均发现该运行状态异常的物理机针对管理网络和业务网络均是不可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机发生故障”,随之执行虚拟机迁移操作。
在上面所公开的方案中,优选地,所述虚拟机迁移操作包括:(1)所述高可用控制器经由智能平台管理接口(IPMI)向该运行状态异常的物理机发送关机指令以使所述运行状态异常的物理机处于关机状态,从而销毁驻留在其内存中的虚拟机;(2)所述高可用控制器向调度控制器发送迁移调度指令;(3)在接收到所述迁移调度指令后,所述调度控制器选择所述物理机集群中有空闲资源的物理机,并随之逐个向所选择出的有空闲资源的物理机发送迁移指令,以将在该运行状态异常的物理机上运行的所有有效虚拟机迁移到所选择出的有空闲资源的物理机上,其中,分配给不同的有空闲资源的物理机的待迁移的虚拟机是彼此不同的;(4)经由共享存储装置,所述有空闲资源的物理机上运行的计算组件将分配给本物理机的待迁移虚拟机迁移至本物理机。
在上面所公开的方案中,优选地,用户能够配置各个虚拟机的高可用性标志,并且所述高可用控制器在执行虚拟机迁移操作之前判断在该运行状态异常的物理机上运行的所有有效虚拟机的高可用性标志,并且仅对其高可用性标志的值为“启用”的虚拟机执行后续的虚拟机迁移操作。
在上面所公开的方案中,优选地,用户能够配置各个虚拟机的高可用性优先级,并且所述高可用控制器根据每个待迁移虚拟机的高可用性优先级的高低依次迁移各个待迁移虚拟机。
本发明所公开的分布式环境下虚拟机异常恢复方法具有以下优点:(1)能够确保运行重要业务的虚拟机优先被启动和恢复,并且节省资源;(2)由于网络检测方式多样和全面,由此显著地减少了误判的可能性;(3)由于对物理机状态的探测不但能够控制节点发起而且也能够从随机选取的其他物理机发起,故可以更全面和准确的判断物理机的状态。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的分布式环境下虚拟机异常恢复方法的流程图。
具体实施方式
图1是根据本发明的实施例的分布式环境下虚拟机异常恢复方法的流程图。如图1所示,本发明所公开的分布式环境下虚拟机异常恢复方法包括下列步骤:(A1)在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地(例如每隔1分钟)向状态数据库报告相应的物理机的当前运行状态;(A2)高可用控制器周期性地(例如每隔2秒)轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;(A3)如果所述物理机集群中的所有物理机的运行状态均正常,则结束本次检查过程,如果所述物理机集群中的多台物理机的运行状态均异常,则结束本次检查过程并且通过日志的方式发出报警,而如果所述物理机集群中仅一台物理机的运行状态异常(例如某台物理机未在1分钟内报告自己的运行状态),则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,所述异常处理操作包括:所述高可用控制器探测该运行状态异常的物理机针对管理网络的可连通性,其中,所述探测以下列两种方式进行:(1)ping该物理机;(2)监测该物理机的22号端口。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,所述异常处理操作进一步包括:如果以任何一种方式探测发现该运行状态异常的物理机针对管理网络是可连通的,则异常处理操作结束,而如果以两种方式探测发现该运行状态异常的物理机针对管理网络均是不可连通的,则探测运行于该运行状态异常的物理机上的所有有效虚拟机针对业务网络的可连通性,并且如果任何一个有效虚拟机针对业务网络是可连通的,则异常处理操作结束,而如果所有有效虚拟机针对业务网络均是不可连通的,则执行二次投票操作以最终确认该运行状态异常的物理机是否发生故障。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,所述二次投票操作包括:(1)所述高可用控制器从所述物理机集群中随机选择除该运行状态异常的物理机之外的若干台物理机(例如3台物理机);(2)所述高可用控制器指示每个所选择出的物理机分别通过ping该运行状态异常的物理机以及监测该运行状态异常的物理机的22号端口来探测该运行状态异常的物理机针对管理网络和/或业务网络的可连通性;(3)如果所选择出的物理机中的任何一台物理机发现该运行状态异常的物理机针对管理网络或业务网络是可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机未发生故障”,而如果所有所选择出的物理机均发现该运行状态异常的物理机针对管理网络和业务网络均是不可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机发生故障”,随之执行虚拟机迁移操作。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,所述虚拟机迁移操作包括:(1)所述高可用控制器经由智能平台管理接口(IPMI)向该运行状态异常的物理机发送关机指令以使所述运行状态异常的物理机处于关机状态(即不再对外提供任何服务),从而销毁驻留在其内存中的虚拟机(示例性地,如果智能平台管理接口(IPMI)异常则不停止虚拟机迁移操作,但是会以日志的形式告警);(2)所述高可用控制器向调度控制器发送迁移调度指令;(3)在接收到所述迁移调度指令后,所述调度控制器选择所述物理机集群中有空闲资源的物理机,并随之逐个向所选择出的有空闲资源的物理机发送迁移指令,以将在该运行状态异常的物理机上运行的所有有效(active)虚拟机迁移到所选择出的有空闲资源的物理机上,其中,分配给不同的有空闲资源的物理机的待迁移的虚拟机是彼此不同的;(4)经由共享存储装置,所述有空闲资源的物理机上运行的计算组件将分配给本物理机的待迁移虚拟机迁移至本物理机。示例性地,为了确保同一时间点,每个独立的虚拟机镜像文件在整个分布式系统中有且仅有一个虚拟机实例运行,所述高可用控制器会更改虚拟机的镜像文件存储目录,以防止该运行状态异常的物理机在迁移过程中启动虚拟机实例。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,用户能够配置各个虚拟机的高可用性标志,并且所述高可用控制器在执行虚拟机迁移操作之前判断在该运行状态异常的物理机上运行的所有有效虚拟机的高可用性标志,并且仅对其高可用性标志的值为“启用”的虚拟机执行后续的虚拟机迁移操作。
优选地,在本发明所公开的分布式环境下虚拟机异常恢复方法中,用户能够配置各个虚拟机的高可用性优先级,并且所述高可用控制器根据每个待迁移虚拟机的高可用性优先级的高低依次迁移各个待迁移虚拟机。示例性地,如果虚拟机的高可用性优先级被配置为“高”,则指示针对该虚拟机,一定确保预留足够的空闲资源来保证该虚拟机可以被迁移,如果虚拟机的高可用性优先级被配置为“中”或“低”,则指示针对该虚拟机,在迁移时确保相应的优先顺序,但是不保证一定有足够的空闲资源被预留。
由上可见,本发明所公开的分布式环境下虚拟机异常恢复方法具有下列优点:(1)能够确保运行重要业务的虚拟机优先被启动和恢复,并且节省资源;(2)由于网络检测方式多样和全面,由此显著地减少了误判的可能性;(3)由于对物理机状态的探测不但能够控制节点发起而且也能够从随机选取的其他物理机发起,故可以更全面和准确的判断物理机的状态。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。
Claims (7)
1.一种分布式环境下虚拟机异常恢复方法,所述分布式环境下虚拟机异常恢复方法包括下列步骤:
(A1)在虚拟机驻留于其上的每个物理机上运行独立的计算组件,并且所述计算组件周期性地向状态数据库报告相应的物理机的当前运行状态;
(A2)高可用控制器周期性地轮询所述状态数据库以检查在所述高可用控制器的控制下的物理机集群中的所有物理机的运行状态;
(A3)如果所述物理机集群中的所有物理机的运行状态均正常,则结束本次检查过程,如果所述物理机集群中的多台物理机的运行状态均异常,则结束本次检查过程并且通过日志的方式发出报警,而如果所述物理机集群中仅一台物理机的运行状态异常,则执行后续的异常处理操作以确保该运行状态异常的物理机上的虚拟机继续正常运行。
2.根据权利要求1所述的分布式环境下虚拟机异常恢复方法,其特征在于,所述异常处理操作包括:所述高可用控制器探测该运行状态异常的物理机针对管理网络的可连通性,其中,所述探测以下列两种方式进行:(1)ping该物理机;(2)监测该物理机的22号端口。
3.根据权利要求2所述的分布式环境下虚拟机异常恢复方法,其特征在于,所述异常处理操作进一步包括:如果以任何一种方式探测发现该运行状态异常的物理机针对管理网络是可连通的,则异常处理操作结束,而如果以两种方式探测发现该运行状态异常的物理机针对管理网络均是不可连通的,则探测运行于该运行状态异常的物理机上的所有有效虚拟机针对业务网络的可连通性,并且如果任何一个有效虚拟机针对业务网络是可连通的,则异常处理操作结束,而如果所有有效虚拟机针对业务网络均是不可连通的,则执行二次投票操作以最终确认该运行状态异常的物理机是否发生故障。
4.根据权利要求3所述的分布式环境下虚拟机异常恢复方法,其特征在于,所述二次投票操作包括:(1)所述高可用控制器从所述物理机集群中随机选择除该运行状态异常的物理机之外的若干台物理机;(2)所述高可用控制器指示每个所选择出的物理机分别通过ping该运行状态异常的物理机以及监测该运行状态异常的物理机的22号端口来探测该运行状态异常的物理机针对管理网络和/或业务网络的可连通性;(3)如果所选择出的物理机中的任何一台物理机发现该运行状态异常的物理机针对管理网络或业务网络是可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机未发生故障”,而如果所有所选择出的物理机均发现该运行状态异常的物理机针对管理网络和业务网络均是不可连通的,则结束二次投票操作并且二次投票操作的结果是“该运行状态异常的物理机发生故障”,随之执行虚拟机迁移操作。
5.根据权利要求4所述的分布式环境下虚拟机异常恢复方法,其特征在于,所述虚拟机迁移操作包括:(1)所述高可用控制器经由智能平台管理接口(IPMI)向该运行状态异常的物理机发送关机指令以使所述运行状态异常的物理机处于关机状态,从而销毁驻留在其内存中的虚拟机;(2)所述高可用控制器向调度控制器发送迁移调度指令;(3)在接收到所述迁移调度指令后,所述调度控制器选择所述物理机集群中有空闲资源的物理机,并随之逐个向所选择出的有空闲资源的物理机发送迁移指令,以将在该运行状态异常的物理机上运行的所有有效虚拟机迁移到所选择出的有空闲资源的物理机上,其中,分配给不同的有空闲资源的物理机的待迁移的虚拟机是彼此不同的;(4)经由共享存储装置,所述有空闲资源的物理机上运行的计算组件将分配给本物理机的待迁移虚拟机迁移至本物理机。
6.根据权利要求5所述的分布式环境下虚拟机异常恢复方法,其特征在于,用户能够配置各个虚拟机的高可用性标志,并且所述高可用控制器在执行虚拟机迁移操作之前判断在该运行状态异常的物理机上运行的所有有效虚拟机的高可用性标志,并且仅对其高可用性标志的值为“启用”的虚拟机执行后续的虚拟机迁移操作。
7.根据权利要求6所述的分布式环境下虚拟机异常恢复方法,其特征在于,用户能够配置各个虚拟机的高可用性优先级,并且所述高可用控制器根据每个待迁移虚拟机的高可用性优先级的高低依次迁移各个待迁移虚拟机。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410191655.1A CN105095001B (zh) | 2014-05-08 | 2014-05-08 | 分布式环境下虚拟机异常恢复方法 |
PCT/CN2015/078248 WO2015169199A1 (zh) | 2014-05-08 | 2015-05-05 | 分布式环境下虚拟机异常恢复方法 |
US15/308,497 US10095576B2 (en) | 2014-05-08 | 2015-05-05 | Anomaly recovery method for virtual machine in distributed environment |
EP15788953.6A EP3142011B9 (en) | 2014-05-08 | 2015-05-05 | Anomaly recovery method for virtual machine in distributed environment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410191655.1A CN105095001B (zh) | 2014-05-08 | 2014-05-08 | 分布式环境下虚拟机异常恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095001A true CN105095001A (zh) | 2015-11-25 |
CN105095001B CN105095001B (zh) | 2018-01-30 |
Family
ID=54392140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410191655.1A Active CN105095001B (zh) | 2014-05-08 | 2014-05-08 | 分布式环境下虚拟机异常恢复方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10095576B2 (zh) |
EP (1) | EP3142011B9 (zh) |
CN (1) | CN105095001B (zh) |
WO (1) | WO2015169199A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017124829A1 (zh) * | 2016-01-18 | 2017-07-27 | 中兴通讯股份有限公司 | 恢复虚拟机的方法和装置 |
CN107453888A (zh) * | 2016-05-31 | 2017-12-08 | 深圳市深信服电子科技有限公司 | 高可用性的虚拟机集群的管理方法及装置 |
CN107491344A (zh) * | 2017-09-26 | 2017-12-19 | 北京思特奇信息技术股份有限公司 | 一种实现虚拟机高可用性的方法及装置 |
CN107544839A (zh) * | 2016-06-27 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 虚拟机迁移系统、方法及装置 |
CN107870801A (zh) * | 2016-09-26 | 2018-04-03 | 中国电信股份有限公司 | 虚拟机高可用功能自动开通方法、装置和系统 |
CN109710377A (zh) * | 2018-12-14 | 2019-05-03 | 国云科技股份有限公司 | 一种从故障的分布式存储里恢复kvm虚拟机的方法 |
CN110532090A (zh) * | 2019-08-16 | 2019-12-03 | 国网冀北电力有限公司 | 私有云计算业务恢复调度方法及装置 |
CN112148485A (zh) * | 2020-09-16 | 2020-12-29 | 杭州安恒信息技术股份有限公司 | 超融合平台故障恢复方法、装置、电子装置和存储介质 |
CN113568710A (zh) * | 2021-08-03 | 2021-10-29 | 罗慧 | 一种虚拟机高可用实现方法、装置和设备 |
CN113608826A (zh) * | 2021-06-29 | 2021-11-05 | 济南浪潮数据技术有限公司 | 虚拟化平台迁移方法、装置、电子设备及可读存储介质 |
CN114090184A (zh) * | 2021-11-26 | 2022-02-25 | 中国电信集团系统集成有限责任公司 | 一种虚拟化集群高可用性的实现方法和设备 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874111A (zh) * | 2017-01-11 | 2017-06-20 | 深圳证券通信有限公司 | 一种云计算平台的虚拟机高可用性管理方法 |
JP2018170618A (ja) * | 2017-03-29 | 2018-11-01 | Kddi株式会社 | 障害自動復旧システム、制御装置、手順作成装置およびプログラム |
CN109491836B (zh) * | 2018-10-30 | 2021-04-27 | 京信通信系统(中国)有限公司 | 数据恢复方法、装置及基站 |
CN113765709B (zh) * | 2021-08-23 | 2022-09-20 | 中国人寿保险股份有限公司上海数据中心 | 基于Openstack云平台多维监控的虚拟机高可用实现系统及方法 |
CN113904855A (zh) * | 2021-10-13 | 2022-01-07 | 南方电网科学研究院有限责任公司 | 一种异常检测方法、装置、电子设备及存储介质 |
CN114553917B (zh) * | 2021-12-30 | 2024-01-26 | 北京天成通链科技有限公司 | 一种基于区块链的网络智能治理方法 |
CN115098403B (zh) * | 2022-07-26 | 2024-10-18 | 苏州浪潮智能科技有限公司 | 测试机的网络环境检查和修复方法、系统、装置及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6986076B1 (en) * | 2002-05-28 | 2006-01-10 | Unisys Corporation | Proactive method for ensuring availability in a clustered system |
CN102819465A (zh) * | 2012-06-29 | 2012-12-12 | 华中科技大学 | 一种虚拟化环境中故障恢复的方法 |
CN103118121A (zh) * | 2013-02-19 | 2013-05-22 | 浪潮电子信息产业股份有限公司 | 一种高可用集群在虚拟化技术中的应用方法 |
CN103440160A (zh) * | 2013-08-15 | 2013-12-11 | 华为技术有限公司 | 虚拟机恢复方法和虚拟机迁移方法以及装置与系统 |
CN103559108A (zh) * | 2013-11-11 | 2014-02-05 | 中国科学院信息工程研究所 | 一种基于虚拟化实现主备故障自动恢复的方法及系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7197561B1 (en) * | 2001-03-28 | 2007-03-27 | Shoregroup, Inc. | Method and apparatus for maintaining the status of objects in computer networks using virtual state machines |
US20060080678A1 (en) * | 2004-09-07 | 2006-04-13 | Bailey Mark W | Task distribution method for protecting servers and tasks in a distributed system |
US7925923B1 (en) * | 2008-01-31 | 2011-04-12 | Hewlett-Packard Development Company, L.P. | Migrating a virtual machine in response to failure of an instruction to execute |
US8566650B2 (en) | 2009-08-04 | 2013-10-22 | Red Hat Israel, Ltd. | Virtual machine infrastructure with storage domain monitoring |
CN102708018B (zh) * | 2012-04-20 | 2015-04-15 | 华为技术有限公司 | 一种异常处理方法及系统、代理设备与控制装置 |
CN102708818B (zh) | 2012-04-24 | 2014-07-09 | 京东方科技集团股份有限公司 | 一种移位寄存器和显示器 |
JP2013254354A (ja) * | 2012-06-07 | 2013-12-19 | Mitsubishi Electric Corp | コンピュータ装置及びソフトウェア管理方法及びプログラム |
US9146819B2 (en) * | 2013-07-02 | 2015-09-29 | International Business Machines Corporation | Using RDMA for fast system recovery in virtualized environments |
CN103729280A (zh) | 2013-12-23 | 2014-04-16 | 国云科技股份有限公司 | 一种虚拟机高可用机制 |
WO2015116048A1 (en) * | 2014-01-29 | 2015-08-06 | Hewlett-Packard Development Company, L.P. | Shutdown of computing devices |
US9575856B2 (en) * | 2014-08-29 | 2017-02-21 | Vmware, Inc. | Preventing migration of a virtual machine from affecting disaster recovery of replica |
US9798635B2 (en) * | 2015-12-11 | 2017-10-24 | International Business Machines Corporation | Service level agreement-based resource allocation for failure recovery |
US10521315B2 (en) * | 2016-02-23 | 2019-12-31 | Vmware, Inc. | High availability handling network segmentation in a cluster |
-
2014
- 2014-05-08 CN CN201410191655.1A patent/CN105095001B/zh active Active
-
2015
- 2015-05-05 EP EP15788953.6A patent/EP3142011B9/en active Active
- 2015-05-05 US US15/308,497 patent/US10095576B2/en active Active
- 2015-05-05 WO PCT/CN2015/078248 patent/WO2015169199A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6986076B1 (en) * | 2002-05-28 | 2006-01-10 | Unisys Corporation | Proactive method for ensuring availability in a clustered system |
CN102819465A (zh) * | 2012-06-29 | 2012-12-12 | 华中科技大学 | 一种虚拟化环境中故障恢复的方法 |
CN103118121A (zh) * | 2013-02-19 | 2013-05-22 | 浪潮电子信息产业股份有限公司 | 一种高可用集群在虚拟化技术中的应用方法 |
CN103440160A (zh) * | 2013-08-15 | 2013-12-11 | 华为技术有限公司 | 虚拟机恢复方法和虚拟机迁移方法以及装置与系统 |
CN103559108A (zh) * | 2013-11-11 | 2014-02-05 | 中国科学院信息工程研究所 | 一种基于虚拟化实现主备故障自动恢复的方法及系统 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017124829A1 (zh) * | 2016-01-18 | 2017-07-27 | 中兴通讯股份有限公司 | 恢复虚拟机的方法和装置 |
CN107453888A (zh) * | 2016-05-31 | 2017-12-08 | 深圳市深信服电子科技有限公司 | 高可用性的虚拟机集群的管理方法及装置 |
CN107453888B (zh) * | 2016-05-31 | 2020-11-20 | 深信服科技股份有限公司 | 高可用性的虚拟机集群的管理方法及装置 |
CN107544839A (zh) * | 2016-06-27 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 虚拟机迁移系统、方法及装置 |
CN107870801B (zh) * | 2016-09-26 | 2020-05-26 | 中国电信股份有限公司 | 虚拟机高可用功能自动开通方法、装置和系统 |
CN107870801A (zh) * | 2016-09-26 | 2018-04-03 | 中国电信股份有限公司 | 虚拟机高可用功能自动开通方法、装置和系统 |
CN107491344B (zh) * | 2017-09-26 | 2020-09-01 | 北京思特奇信息技术股份有限公司 | 一种实现虚拟机高可用性的方法及装置 |
CN107491344A (zh) * | 2017-09-26 | 2017-12-19 | 北京思特奇信息技术股份有限公司 | 一种实现虚拟机高可用性的方法及装置 |
CN109710377A (zh) * | 2018-12-14 | 2019-05-03 | 国云科技股份有限公司 | 一种从故障的分布式存储里恢复kvm虚拟机的方法 |
CN109710377B (zh) * | 2018-12-14 | 2023-06-30 | 国云科技股份有限公司 | 一种从故障的分布式存储里恢复kvm虚拟机的方法 |
CN110532090A (zh) * | 2019-08-16 | 2019-12-03 | 国网冀北电力有限公司 | 私有云计算业务恢复调度方法及装置 |
CN112148485A (zh) * | 2020-09-16 | 2020-12-29 | 杭州安恒信息技术股份有限公司 | 超融合平台故障恢复方法、装置、电子装置和存储介质 |
CN113608826A (zh) * | 2021-06-29 | 2021-11-05 | 济南浪潮数据技术有限公司 | 虚拟化平台迁移方法、装置、电子设备及可读存储介质 |
CN113568710A (zh) * | 2021-08-03 | 2021-10-29 | 罗慧 | 一种虚拟机高可用实现方法、装置和设备 |
CN113568710B (zh) * | 2021-08-03 | 2023-07-21 | 罗慧 | 一种虚拟机高可用实现方法、装置和设备 |
CN114090184A (zh) * | 2021-11-26 | 2022-02-25 | 中国电信集团系统集成有限责任公司 | 一种虚拟化集群高可用性的实现方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2015169199A1 (zh) | 2015-11-12 |
EP3142011A4 (en) | 2018-01-10 |
US20170060671A1 (en) | 2017-03-02 |
EP3142011B1 (en) | 2018-12-12 |
US10095576B2 (en) | 2018-10-09 |
CN105095001B (zh) | 2018-01-30 |
EP3142011B9 (en) | 2019-05-29 |
EP3142011A1 (en) | 2017-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095001A (zh) | 分布式环境下虚拟机异常恢复方法 | |
TWI746512B (zh) | 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統 | |
CN103092746B (zh) | 线程异常的定位方法及系统 | |
US9141491B2 (en) | Highly available server system based on cloud computing | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
CN105933407B (zh) | 一种实现Redis集群高可用的方法及系统 | |
CN108270726B (zh) | 应用实例部署方法及装置 | |
CN103559108A (zh) | 一种基于虚拟化实现主备故障自动恢复的方法及系统 | |
CN105243004A (zh) | 一种故障资源检测方法及装置 | |
CN103607297A (zh) | 一种计算机集群系统的故障处理方法 | |
CN105302661A (zh) | 一种实现虚拟化管理平台高可用的系统和方法 | |
CN104408071A (zh) | 一种基于集群管理器的分布式数据库高可用方法及系统 | |
JP2008269194A (ja) | 仮想計算機システム | |
CN106612312A (zh) | 一种虚拟化数据中心调度系统和方法 | |
US9210059B2 (en) | Cluster system | |
CN114090184B (zh) | 一种虚拟化集群高可用性的实现方法和设备 | |
CN104239548A (zh) | 数据库容灾系统和数据库容灾方法 | |
CN102025776A (zh) | 一种容灾控制方法、装置及系统 | |
CN104699589A (zh) | 风扇错误侦测系统及方法 | |
CN114064217B (zh) | 一种基于OpenStack的节点虚拟机迁移方法及装置 | |
CN103902401A (zh) | 基于监控的虚拟机容错方法及装置 | |
US12007820B2 (en) | Systems, devices, and methods for controller devices handling fault events | |
CN104679710A (zh) | 一种面向半导体生产线搬运系统软件故障快速恢复方法 | |
WO2015188619A1 (zh) | 物理主机故障检测方法、装置及虚机管理方法、系统 | |
CN117421158A (zh) | 数据库故障处理方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |