CN103902401A - 基于监控的虚拟机容错方法及装置 - Google Patents

基于监控的虚拟机容错方法及装置 Download PDF

Info

Publication number
CN103902401A
CN103902401A CN201410095757.3A CN201410095757A CN103902401A CN 103902401 A CN103902401 A CN 103902401A CN 201410095757 A CN201410095757 A CN 201410095757A CN 103902401 A CN103902401 A CN 103902401A
Authority
CN
China
Prior art keywords
virtual machine
virtual
object host
place
host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410095757.3A
Other languages
English (en)
Other versions
CN103902401B (zh
Inventor
徐安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Opzoon Technology Co Ltd
Original Assignee
Opzoon Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Opzoon Technology Co Ltd filed Critical Opzoon Technology Co Ltd
Priority to CN201410095757.3A priority Critical patent/CN103902401B/zh
Publication of CN103902401A publication Critical patent/CN103902401A/zh
Application granted granted Critical
Publication of CN103902401B publication Critical patent/CN103902401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于监控的虚拟机容错方法,具体包括:S1:一台源宿主机与至少一台目的宿主机通信,建立虚拟步调一致的成员关系,其中成员包括数个虚拟机,每个虚拟机运行在联网的节点计算机上;S2:目的宿主机监控到源宿主机出现异常时,通过使用共享存储启动虚拟机。本发明提供了一种虚拟机的容错机制的保护方法,使得某台物理机死机后,其他物理机依然可以访问共享存储上的该虚拟机使用的存储资源,也就能正常恢复发生异常了的虚拟机,具有处理任务的高效性与易用性。本发明还公开了一种基于监控的虚拟机容错装置。

Description

基于监控的虚拟机容错方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于监控的虚拟机容错方法及装置。
背景技术
虚拟化容错技术是虚拟化平台的一项重要功能,当前的虚拟化容错技术都需要依靠共享存储支持,共享存储是整个虚拟化平台的核心,而单一的共享存储成为了整个虚拟化平台的单店故障,影响了虚拟化平台的高可用性。并且,现有虚拟化容错技术所需要的共享存储对较小的虚拟化环境而言是比较昂贵的一项开支,制约了虚拟化容错技术的广泛应用。而且,现有服务器配置较大容量的本地存储没有被合理利用。
进一步地,传统技术中,管理员需要实时关心那台物理机有什么异常,同时,需要人为迁移发生异常物理机上的虚拟机,成本大,处理效率低下。
发明内容
本发明所要解决的技术问题是如何低成本、高效的实时监控物理机的异常,且自动迁移发生异常物理机上的虚拟机的问题。
为此目的,本发明提出了一种基于监控的虚拟机容错方法,所述方法具体包括:
S1:一台源宿主机与至少一台目的宿主机通信,建立虚拟步调一致的成员关系,其中所述成员包括数个虚拟机,每个虚拟机运行在联网的节点计算机上;
S2:所述目的宿主机监控到所述源宿主机出现异常时,通过使用共享存储启动所述虚拟机。
进一步地,所述S1之后还包括:
以预定周期将所述虚拟磁盘文件复制到所述多个虚拟机所在的目的宿主机上。
进一步地,所述S2进一步包括:
在启动所述虚拟机的情况下,预先提示用户选择是否对所述虚拟机开启共享存储,并且在用户选择开启共享存储的情况下,确定需要将所述虚拟机所在的目的宿主机的物理磁盘转换为文件形式存在的虚拟磁盘。
具体地,所述目的宿主机以预设频率监控所述源宿主机。
进一步地,所述S2之后还包括:
检测某个虚拟机所在的目的宿主机的运行情况,在检测到所述某个虚拟机所在的目的宿主机出现异常的情况下,所述多个虚拟机中的一个利用所在目的宿主机上的虚拟磁盘文件,接管所述某个虚拟机的工作。
为此目的,本发明还提出了一种基于监控的虚拟机容错装置,包括:
通信建立模块,用于一台源宿主机与至少一台目的宿主机通信,建立虚拟步调一致的成员关系,其中所述成员包括数个虚拟机,每个虚拟机运行在联网的节点计算机上;
启动模块,用于所述目的宿主机监控到所述源宿主机出现异常时,通过使用共享存储启动所述虚拟机。
进一步地,还包括:
提示模块,用于在启动所述虚拟机的情况下,预先提示用户选择是否对所述虚拟机开启共享存储;
确定模块,用于在用户选择开启共享存储的情况下,确定需要将所述虚拟机所在的目的宿主机的物理磁盘转换为文件形式存在的虚拟磁盘。
进一步地,还包括:
检测模块,用于检测某个虚拟机所在的目的宿主机的运行情况,在检测到所述某个虚拟机所在的目的宿主机出现异常的情况下,所述多个虚拟机中的一个利用所在目的宿主机上的虚拟磁盘文件,接管所述某个虚拟机的工作。
通过采用本发明所公开的一种基于监控的虚拟机容错方法,使得某台物理机死机后,其他物理机依然可以访问共享存储上的该虚拟机使用的存储资源,也就能正常恢复发生异常了的虚拟机。具有处理任务的高效性与易用性。本发明还公开了一种基于监控的虚拟机容错装置。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明实施例中的一种基于监控的虚拟机容错方法的步骤流程图;
图2示出了本发明实施例中的一种基于监控的虚拟机容错装置的结构图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
如图1所示,本发明实施例中提供了一种基于监控的虚拟机容错方法,具体包括以下步骤:
步骤S1:一台源宿主机与至少一台目的宿主机通信,建立虚拟步调一致的成员关系,其中成员包括数个虚拟机,每个虚拟机运行在联网的节点计算机上。
步骤S2:目的宿主机监控到源宿主机出现异常时,通过使用共享存储启动虚拟机。
进一步地,步骤S1之后还包括:
以预定周期将虚拟磁盘文件复制到多个虚拟机所在的目的宿主机上。
进一步地,步骤S2进一步包括:
在启动虚拟机的情况下,预先提示用户选择是否对虚拟机开启共享存储,并且在用户选择开启共享存储的情况下,确定需要将虚拟机所在的目的宿主机的物理磁盘转换为文件形式存在的虚拟磁盘。
具体地,目的宿主机以预设频率监控源宿主机。例如,10秒一次实时监控源宿主机的监控状况。
更进一步地,步骤S2之后还包括:
检测某个虚拟机所在的目的宿主机的运行情况,在检测到某个虚拟机所在的目的宿主机出现异常的情况下,多个虚拟机中的一个利用所在目的宿主机上的虚拟磁盘文件,接管某个虚拟机的工作。
如图2所示,本发明实施例中提供了一种基于监控的虚拟机容错装置20,包括:通信建立模块201以及启动模块202。
具体地,通信建立模块201用于一台源宿主机与至少一台目的宿主机通信,建立虚拟步调一致的成员关系,其中成员包括数个虚拟机,每个虚拟机运行在联网的节点计算机上;启动模块202用于目的宿主机监控到源宿主机出现异常时,通过使用共享存储启动虚拟机。
进一步地,还包括:提示模块203用于在启动虚拟机的情况下,预先提示用户选择是否对虚拟机开启共享存储;确定模块204用于在用户选择开启共享存储的情况下,确定需要将虚拟机所在的目的宿主机的物理磁盘转换为文件形式存在的虚拟磁盘。
更进一步地,还包括:检测模块205用于检测某个虚拟机所在的目的宿主机的运行情况,在检测到某个虚拟机所在的目的宿主机出现异常的情况下,多个虚拟机中的一个利用所在目的宿主机上的虚拟磁盘文件,接管某个虚拟机的工作。
为了更好的理解与应用本申请提出的一种基于监控的虚拟机容错方法,进行以下举例:
具体地,目的宿主机上运行源宿主机监控模块,源宿主机监控模块按照一定地频率,例如10秒一次实时监控源宿主机的监控状况;当策略设置模块发现源宿主机死机或者出现故障一端时间后,例如30秒,调用虚拟机启动模块启动虚拟机,其中,虚拟机启动模块使用共享存储在目的宿主机上重新启动虚拟机。
进一步地,对虚拟机的恢复来说,最重要的是它的磁盘数据。普通的笔记本或者台式机突然死机后,只要硬盘没有问题,同样能启动就是这个道理,所以物理机死机或者网络异常不能导致虚拟机存储的不可用。本申请限定要提供容错服务的虚拟机必须使用共享存储,这样,某台物理机死机后,其他物理机依然可以访问共享存储上的该虚拟机使用的存储资源,也就能正常恢复发生异常了的虚拟机。
通过采用本发明所公开的一种基于监控的虚拟机容错方法,使得某台物理机死机后,其他物理机依然可以访问共享存储上的该虚拟机使用的存储资源,也就能正常恢复发生异常了的虚拟机。具有处理任务的高效性与易用性。本发明还公开了一种基于监控的虚拟机容错装置。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (8)

1.一种基于监控的虚拟机容错方法,其特征在于,所述方法具体包括:
S1:一台源宿主机与至少一台目的宿主机通信,建立虚拟步调一致的成员关系,其中所述成员包括数个虚拟机,每个虚拟机运行在联网的节点计算机上;
S2:所述目的宿主机监控到所述源宿主机出现异常时,通过使用共享存储启动所述虚拟机。
2.如权利要求1所述的方法,其特征在于,所述S1之后还包括:
以预定周期将所述虚拟磁盘文件复制到所述多个虚拟机所在的目的宿主机上。
3.如权利要求1所述的方法,其特征在于,所述S2进一步包括:
在启动所述虚拟机的情况下,预先提示用户选择是否对所述虚拟机开启共享存储,并且在用户选择开启共享存储的情况下,确定需要将所述虚拟机所在的目的宿主机的物理磁盘转换为文件形式存在的虚拟磁盘。
4.如权利要求1所述的方法,其特征在于,所述目的宿主机以预设频率监控所述源宿主机。
5.如权利要求1所述的方法,其特征在于,所述S2之后还包括:
检测某个虚拟机所在的目的宿主机的运行情况,在检测到所述某个虚拟机所在的目的宿主机出现异常的情况下,所述多个虚拟机中的一个利用所在目的宿主机上的虚拟磁盘文件,接管所述某个虚拟机的工作。
6.一种基于监控的虚拟机容错装置,其特征在于,包括:
通信建立模块,用于一台源宿主机与至少一台目的宿主机通信,建立虚拟步调一致的成员关系,其中所述成员包括数个虚拟机,每个虚拟机运行在联网的节点计算机上;
启动模块,用于所述目的宿主机监控到所述源宿主机出现异常时,通过使用共享存储启动所述虚拟机。
7.如权利要求6所述的装置,其特征在于,还包括:
提示模块,用于在启动所述虚拟机的情况下,预先提示用户选择是否对所述虚拟机开启共享存储;
确定模块,用于在用户选择开启共享存储的情况下,确定需要将所述虚拟机所在的目的宿主机的物理磁盘转换为文件形式存在的虚拟磁盘。
8.如权利要求6所述的装置,其特征在于,还包括:
检测模块,用于检测某个虚拟机所在的目的宿主机的运行情况,在检测到所述某个虚拟机所在的目的宿主机出现异常的情况下,所述多个虚拟机中的一个利用所在目的宿主机上的虚拟磁盘文件,接管所述某个虚拟机的工作。
CN201410095757.3A 2014-03-14 2014-03-14 基于监控的虚拟机容错方法及装置 Active CN103902401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410095757.3A CN103902401B (zh) 2014-03-14 2014-03-14 基于监控的虚拟机容错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410095757.3A CN103902401B (zh) 2014-03-14 2014-03-14 基于监控的虚拟机容错方法及装置

Publications (2)

Publication Number Publication Date
CN103902401A true CN103902401A (zh) 2014-07-02
CN103902401B CN103902401B (zh) 2018-01-12

Family

ID=50993739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410095757.3A Active CN103902401B (zh) 2014-03-14 2014-03-14 基于监控的虚拟机容错方法及装置

Country Status (1)

Country Link
CN (1) CN103902401B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182306A (zh) * 2014-08-08 2014-12-03 成都致云科技有限公司 一种低成本的云主机智能故障瞬时切换方法
CN104281486A (zh) * 2014-09-26 2015-01-14 华为技术有限公司 一种虚拟机处理方法和装置
CN104536842A (zh) * 2014-12-17 2015-04-22 中电科华云信息技术有限公司 基于kvm虚拟化的虚拟机容错方法
CN105991345A (zh) * 2015-04-27 2016-10-05 杭州迪普科技有限公司 虚拟机故障处理方法及装置
CN106844035A (zh) * 2017-02-09 2017-06-13 腾讯科技(深圳)有限公司 一种实现云服务器资源释放或恢复的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521063A (zh) * 2011-11-30 2012-06-27 广东电子工业研究院有限公司 一种适用于虚拟机迁移和容错的共享存储方法
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN103209218A (zh) * 2013-04-23 2013-07-17 深圳市京华科讯科技有限公司 容灾一体机管理系统
CN103268271A (zh) * 2013-04-23 2013-08-28 深圳市京华科讯科技有限公司 一体机容灾实现方法
US20130232487A1 (en) * 2011-11-24 2013-09-05 Chung-I Lee Control computer and method for managing virtual machine
CN103309763A (zh) * 2013-07-04 2013-09-18 曙光信息产业(北京)有限公司 虚拟机的容错机制的保护方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130232487A1 (en) * 2011-11-24 2013-09-05 Chung-I Lee Control computer and method for managing virtual machine
CN102521063A (zh) * 2011-11-30 2012-06-27 广东电子工业研究院有限公司 一种适用于虚拟机迁移和容错的共享存储方法
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN103209218A (zh) * 2013-04-23 2013-07-17 深圳市京华科讯科技有限公司 容灾一体机管理系统
CN103268271A (zh) * 2013-04-23 2013-08-28 深圳市京华科讯科技有限公司 一体机容灾实现方法
CN103309763A (zh) * 2013-07-04 2013-09-18 曙光信息产业(北京)有限公司 虚拟机的容错机制的保护方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182306A (zh) * 2014-08-08 2014-12-03 成都致云科技有限公司 一种低成本的云主机智能故障瞬时切换方法
CN104182306B (zh) * 2014-08-08 2017-10-27 成都致云科技有限公司 一种低成本的云主机智能故障瞬时切换方法
CN104281486A (zh) * 2014-09-26 2015-01-14 华为技术有限公司 一种虚拟机处理方法和装置
CN104281486B (zh) * 2014-09-26 2018-04-20 华为技术有限公司 一种虚拟机处理方法和装置
CN104536842A (zh) * 2014-12-17 2015-04-22 中电科华云信息技术有限公司 基于kvm虚拟化的虚拟机容错方法
CN105991345A (zh) * 2015-04-27 2016-10-05 杭州迪普科技有限公司 虚拟机故障处理方法及装置
CN106844035A (zh) * 2017-02-09 2017-06-13 腾讯科技(深圳)有限公司 一种实现云服务器资源释放或恢复的方法及装置
CN106844035B (zh) * 2017-02-09 2023-03-24 腾讯科技(深圳)有限公司 一种实现云服务器资源释放或恢复的方法及装置

Also Published As

Publication number Publication date
CN103902401B (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
US10152382B2 (en) Method and system for monitoring virtual machine cluster
US9052935B1 (en) Systems and methods for managing affinity rules in virtual-machine environments
JP5562444B2 (ja) クラスタシステムにおいてクラスタ非対応アプリケーションをフェールオーバーするためのシステムおよび方法
US9575789B1 (en) Systems and methods for enabling migratory virtual machines to expedite access to resources
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
EP3142011B9 (en) Anomaly recovery method for virtual machine in distributed environment
US9298724B1 (en) Systems and methods for preserving deduplication efforts after backup-job failures
US9292371B1 (en) Systems and methods for preventing failures of nodes in clusters
EP2802990B1 (en) Fault tolerance for complex distributed computing operations
US8413144B1 (en) Providing application-aware high availability of virtual machines
CN107480014B (zh) 一种高可用设备切换方法及装置
EP2856317B1 (en) System and method for disaster recovery of multi-tier applications
WO2018095414A1 (zh) 虚拟机故障的检测和恢复方法及装置
EP3022647B1 (en) Systems and methods for instantly restoring virtual machines in high input/output load environments
US9805068B1 (en) Systems and methods for facilitating features of system recovery environments during restore operations
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
US9195528B1 (en) Systems and methods for managing failover clusters
US9600487B1 (en) Self healing and restartable multi-steam data backup
CN111538613A (zh) 一种集群系统异常恢复处理方法及装置
US9753810B1 (en) Systems and methods for backing up virtual machines deployed in virtual storage area networks
US11188393B1 (en) Systems and methods for performing load balancing and distributed high-availability
CN105511952A (zh) 基于云计算平台的资源自迁移方法及系统
US9465710B1 (en) Systems and methods for predictively preparing restore packages
US20180225201A1 (en) Preserving volatile memory across a computer system disruption
US8938639B1 (en) Systems and methods for performing fast failovers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20180528

Granted publication date: 20180112