CN102523257A - 一种基于iaas云平台的虚拟机容错方法 - Google Patents

一种基于iaas云平台的虚拟机容错方法 Download PDF

Info

Publication number
CN102523257A
CN102523257A CN2011103906512A CN201110390651A CN102523257A CN 102523257 A CN102523257 A CN 102523257A CN 2011103906512 A CN2011103906512 A CN 2011103906512A CN 201110390651 A CN201110390651 A CN 201110390651A CN 102523257 A CN102523257 A CN 102523257A
Authority
CN
China
Prior art keywords
virtual machine
backup
node
copy
computing node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103906512A
Other languages
English (en)
Inventor
张瑜科
岳强
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Electronic Industry Institute Co Ltd
Original Assignee
Guangdong Electronic Industry Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Electronic Industry Institute Co Ltd filed Critical Guangdong Electronic Industry Institute Co Ltd
Priority to CN2011103906512A priority Critical patent/CN102523257A/zh
Publication of CN102523257A publication Critical patent/CN102523257A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及云计算技术领域,尤其是一种基于IAAS云平台的虚拟机容错方法。本发明通过配置文件把计算节点分成主计算节点和备份节点。然后把计算节点的类型反馈给集群控制器;集群控制器根据调度算法确定主虚拟机的副本运行在哪个备份的计算节点;主虚拟机所在的计算节点调用底层容错的接口,那么同时在备份的计算节点会有一个主虚拟机的一个副本;主虚拟机和副本的内存状态间隔一定时间同步一次;然后,如果主虚拟机或者主计算节点宕机,备份节点接替主虚拟机。本发明解决了IAAS平台虚拟机宕机导致业务长时间中断的问题;可以广泛应用于基于IAAS云平台的虚拟机容错中。

Description

一种基于IAAS云平台的虚拟机容错方法
技术领域
本发明涉及云计算技术领域,尤其是一种基于IAAS云平台的虚拟机容错方法。
背景技术
IAAS(基础设施即服务)平台提供给消费者的服务是对所有设施的利用,包括处理、存储、网络和其它基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。
IAAS由云控制器(CLC)、集群控制器(CC)、计算节点控制器(NC)组成。云控制器管理云平台的集群信息;集群控制器管理云平台的网络资源信息、计算节点信息、集群虚拟机信息;计算节点提供了硬盘、内存、CPU等物理资源的虚拟化基础设施,计算节点控制器管理节点虚拟机实例详细信息。
用户不能管理和控制任何云计算基础设施,只能通过租借虚拟机获取对云计算基础设施的利用。目前主流的IAAS平台提供的虚拟机一旦宕机,只能从当前的镜像存储和虚拟机元数据恢复过来,不仅当前的内存数据丢失,而且导致业务长时间中断。
发明内容
本发明解决的技术问题在于提供一种基于IAAS云平台的虚拟机容错方法,有效解决IAAS平台虚拟机宕机导致业务长时间中断的问题。
本发明解决上述技术问题的技术方案是:
包括有,
第一步,通过配置文件把计算节点分成主计算节点和备份节点,然后把计算节点的类型反馈给集群控制器;
第二步,集群控制器根据调度算法确定主虚拟机的副本运行在哪个备份的计算节点;
第三步,主虚拟机所在的计算节点调用底层容错的接口,那么同时在备份的计算节点会有一个主虚拟机的一个副本;主虚拟机和副本的内存状态间隔一定时间同步一次;
第四步,如果主虚拟机或者主计算节点宕机,备份节点接替主虚拟机。
主虚拟机和副本的内存状态每200ms同步一次。
本发明基于xen虚拟机,无需购买昂贵的热备设备,就能达到主虚拟机和备份虚拟机毫秒级同步;实现虚拟机容错的低成本和高可用性。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明云平台架构图;
图2是本发明云平台容错服务的流程图;
图3是本发明主备虚拟机状态保持一致原理图。
具体实施方式
如图1所示,是本发明改进的IAAS平台的架构图;本发明创建一个虚拟机完全相同的副本,如果虚拟机由于硬件故障宕机,副本能马上接管,实现业务的毫秒级中断。
如图2所示,是虚拟机容错管理的具体方案,基本包括如下步骤:
第一步,云控制器实现管理容错对外接口;集群控制器实现对备份计算机资源的调度。计算节点控制器实现对底层虚拟机容错调用;
第二步,通过虚拟机的状态来描述主虚拟机是否已经出现宕机,还是处于正常状态。
如图3所示,本发明首先主虚拟机运行在一个计算节点(NC)上,同时可以在备份的NC节点创建一个跟主虚拟机相同的副本。主虚拟机跟备份从虚拟机的保持状态一致的方法如下:
1、主NC节点的Heartbeat进程给备NC节点发送一个创建一台虚拟机副本命令,并且处于暂停状态。
2、默认每200毫秒一个检查点,可以自定义检查点的间隔暂停虚拟机,拷贝内存中修改的部分到缓存。这个过程通常被称为Checkpoints。当内存中修改的部分已经拷贝到缓存,虚拟机随机唤醒。
3、缓存传输到备份NC节点,并保存到虚拟机副本的内存中,当缓存已经全部同步到虚拟机副本,最后备NC节点的Heartbeat进程给主NC节点一个确认。
4、如果备份节点的Heartbeat进程如果检查到主NC节点没有向备份节点同步内存,那么就唤醒备份节点的虚拟机副本。

Claims (2)

1.一种基于IAAS云平台的虚拟机容错方法,其特征在于:包括有,
第一步,通过配置文件把计算节点分成主计算节点和备份节点,然后把计算节点的类型反馈给集群控制器;
第二步,集群控制器根据调度算法确定主虚拟机的副本运行在哪个备份的计算节点;
第三步,主虚拟机所在的计算节点调用底层容错的接口,那么同时在备份的计算节点会有一个主虚拟机的一个副本;主虚拟机和副本的内存状态间隔一定时间同步一次;
第四步,如果主虚拟机或者主计算节点宕机,备份节点接替主虚拟机。
2.根据权利要求1所述的虚拟机容错方法,其特征在于:主虚拟机和副本的内存状态每200ms同步一次。
CN2011103906512A 2011-11-30 2011-11-30 一种基于iaas云平台的虚拟机容错方法 Pending CN102523257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103906512A CN102523257A (zh) 2011-11-30 2011-11-30 一种基于iaas云平台的虚拟机容错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103906512A CN102523257A (zh) 2011-11-30 2011-11-30 一种基于iaas云平台的虚拟机容错方法

Publications (1)

Publication Number Publication Date
CN102523257A true CN102523257A (zh) 2012-06-27

Family

ID=46294046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103906512A Pending CN102523257A (zh) 2011-11-30 2011-11-30 一种基于iaas云平台的虚拟机容错方法

Country Status (1)

Country Link
CN (1) CN102523257A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102917064A (zh) * 2012-10-23 2013-02-06 广州杰赛科技股份有限公司 基于私有云计算平台的双机热备方法
CN103067242A (zh) * 2012-12-04 2013-04-24 中国电信股份有限公司云计算分公司 一种用于提供网络服务的虚拟机系统
CN103581177A (zh) * 2013-10-24 2014-02-12 华为技术有限公司 虚拟机管理方法及装置
CN103678023A (zh) * 2012-09-18 2014-03-26 横河电机株式会社 容错系统和用于执行容错的方法
CN103843284A (zh) * 2013-10-23 2014-06-04 华为技术有限公司 一种云应用的容灾方法、系统和装置
WO2015042937A1 (zh) * 2013-09-30 2015-04-02 华为技术有限公司 故障管理的方法、实体和系统
CN104539716A (zh) * 2015-01-04 2015-04-22 国网四川省电力公司信息通信公司 云桌面管理系统桌面虚拟机调度控制系统及方法
CN105677516A (zh) * 2016-01-07 2016-06-15 成都市思叠科技有限公司 一种计算靠近存储云平台中高效可靠的备份恢复方法
CN107995319A (zh) * 2018-01-08 2018-05-04 迈普通信技术股份有限公司 虚拟设备配置方法及网络设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278438A1 (en) * 2004-05-28 2005-12-15 Lucent Technologies, Inc. Cleaning and removing duplicated unique identifiers from remote network nodes
CN1719831A (zh) * 2005-07-15 2006-01-11 清华大学 基于集群路由器结构的高可用分布式边界网关协议系统
CN101593136A (zh) * 2008-05-30 2009-12-02 国际商业机器公司 使得计算机具有高可用性的方法和计算机系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278438A1 (en) * 2004-05-28 2005-12-15 Lucent Technologies, Inc. Cleaning and removing duplicated unique identifiers from remote network nodes
CN1719831A (zh) * 2005-07-15 2006-01-11 清华大学 基于集群路由器结构的高可用分布式边界网关协议系统
CN101593136A (zh) * 2008-05-30 2009-12-02 国际商业机器公司 使得计算机具有高可用性的方法和计算机系统

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776118B (zh) * 2012-09-18 2020-07-17 横河电机株式会社 容错系统
CN103678023A (zh) * 2012-09-18 2014-03-26 横河电机株式会社 容错系统和用于执行容错的方法
CN106776118A (zh) * 2012-09-18 2017-05-31 横河电机株式会社 容错系统
CN103678023B (zh) * 2012-09-18 2017-05-31 横河电机株式会社 容错系统和用于执行容错的方法
CN102917064B (zh) * 2012-10-23 2015-09-02 广州杰赛科技股份有限公司 基于私有云计算平台的双机热备方法
CN102917064A (zh) * 2012-10-23 2013-02-06 广州杰赛科技股份有限公司 基于私有云计算平台的双机热备方法
CN103067242A (zh) * 2012-12-04 2013-04-24 中国电信股份有限公司云计算分公司 一种用于提供网络服务的虚拟机系统
CN104685830B (zh) * 2013-09-30 2018-03-06 华为技术有限公司 故障管理的方法、实体和系统
CN104685830A (zh) * 2013-09-30 2015-06-03 华为技术有限公司 故障管理的方法、实体和系统
US10073729B2 (en) 2013-09-30 2018-09-11 Huawei Technologies Co., Ltd. Fault management method, entity, and system
WO2015042937A1 (zh) * 2013-09-30 2015-04-02 华为技术有限公司 故障管理的方法、实体和系统
US9529683B2 (en) 2013-10-23 2016-12-27 Huawei Technologies Co., Ltd. Method, system, and apparatus for cloud application redundancy
US9703654B2 (en) 2013-10-23 2017-07-11 Huawei Technologies Co., Ltd. Method, system, and apparatus for cloud application redundancy
CN103843284A (zh) * 2013-10-23 2014-06-04 华为技术有限公司 一种云应用的容灾方法、系统和装置
CN103843284B (zh) * 2013-10-23 2015-12-02 华为技术有限公司 一种云应用的容灾方法、系统和装置
CN103581177A (zh) * 2013-10-24 2014-02-12 华为技术有限公司 虚拟机管理方法及装置
CN104539716A (zh) * 2015-01-04 2015-04-22 国网四川省电力公司信息通信公司 云桌面管理系统桌面虚拟机调度控制系统及方法
CN105677516A (zh) * 2016-01-07 2016-06-15 成都市思叠科技有限公司 一种计算靠近存储云平台中高效可靠的备份恢复方法
CN105677516B (zh) * 2016-01-07 2019-11-05 成都市思叠科技有限公司 一种计算靠近存储云平台中高效可靠的备份恢复方法
CN107995319A (zh) * 2018-01-08 2018-05-04 迈普通信技术股份有限公司 虚拟设备配置方法及网络设备
CN107995319B (zh) * 2018-01-08 2021-05-18 迈普通信技术股份有限公司 虚拟设备配置方法及网络设备

Similar Documents

Publication Publication Date Title
CN102523257A (zh) 一种基于iaas云平台的虚拟机容错方法
TWI625621B (zh) 用於資料庫中進行回復的方法、電腦可用程式產品、與資料處理系統
WO2017067484A1 (zh) 一种虚拟化数据中心调度系统和方法
US9720741B2 (en) Maintaining two-site configuration for workload availability between sites at unlimited distances for products and services
CN102394774B (zh) 一种云计算操作系统的控制器服务状态监控和故障恢复方法
US7523344B2 (en) Method and apparatus for facilitating process migration
CN102325192B (zh) 云计算实现方法和系统
US9032180B2 (en) Managing CPU resources for high availability micro-partitions
EP2306318A1 (en) Enhanced solid-state drive management in high availability and virtualization contexts
CN102629906A (zh) 一种将集群管理节点做双机实现提高集群业务可用性的设计办法
US9244825B2 (en) Managing CPU resources for high availability micro-partitions
CN103294787A (zh) 分布式数据库系统的多副本存储方法和系统
US9158470B2 (en) Managing CPU resources for high availability micro-partitions
CN106919473A (zh) 一种数据灾备系统及业务处理方法
CN111400086B (zh) 虚拟机容错的实现方法和系统
CN110083306A (zh) 一种分布式对象存储系统及存储方法
CN103297264B (zh) 一种云平台故障恢复方法和系统
EP3084603B1 (en) System and method for supporting adaptive busy wait in a computing environment
CN103793296A (zh) 一种在集群中用于辅助备份复制计算机系统的方法
US10613789B1 (en) Analytics engine using consistent replication on distributed sites
Gaur et al. Comparative Analysis of Fault Tolerance Techniques in Cloud Computing
EP3961401B1 (en) Real-time fault-tolerant checkpointing
CN117827544B (zh) 热备份系统、方法、电子设备及存储介质
CN113937775A (zh) 一种调度自动化主备系统间模型双活维护方法及装置
JP7056057B2 (ja) 情報処理装置、情報処理方法、情報処理システム、及び、コンピュータ・プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120627