CN102394774B - 一种云计算操作系统的控制器服务状态监控和故障恢复方法 - Google Patents

一种云计算操作系统的控制器服务状态监控和故障恢复方法 Download PDF

Info

Publication number
CN102394774B
CN102394774B CN201110339087.1A CN201110339087A CN102394774B CN 102394774 B CN102394774 B CN 102394774B CN 201110339087 A CN201110339087 A CN 201110339087A CN 102394774 B CN102394774 B CN 102394774B
Authority
CN
China
Prior art keywords
controller
node
service
virtual machine
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110339087.1A
Other languages
English (en)
Other versions
CN102394774A (zh
Inventor
罗义兵
邓校明
莫展鹏
季统凯
岳强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Xiaoding Guangdong Technology Co ltd
Original Assignee
Guangdong Electronic Industry Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Electronic Industry Institute Co Ltd filed Critical Guangdong Electronic Industry Institute Co Ltd
Priority to CN201110339087.1A priority Critical patent/CN102394774B/zh
Publication of CN102394774A publication Critical patent/CN102394774A/zh
Application granted granted Critical
Publication of CN102394774B publication Critical patent/CN102394774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及云计算技术领域,尤其是一种云计算操作系统的控制器服务状态监控和故障恢复方法。本发明在云控制器和集群控制器上分别设置服务监控模块;集群控制器故障恢复时,重启集群控制器,恢复集群控制管理的网络信息、计算节点资源和集群虚拟机信息;节点控制器故障恢复时,重启节点控制器,恢复计算节点控制器所管理的节点资源和虚拟机信息。本发明有效解决了服务恢复内存数据丢失的问题,保证云计算操作系统服务的高可靠性;可广泛应用于云计算操作系统中。

Description

一种云计算操作系统的控制器服务状态监控和故障恢复方法
技术领域
本发明涉及云计算技术领域,尤其是一种云计算操作系统的控制器服务状态监控和故障恢复方法。
背景技术
云计算作为新一代的网络资源计算模型,具有超强的计算能力和低成本、高安全性,以用户为中心等特点。云计算操作系统是云计算的基础设施管理平台,通过云控制器服务将大型基础架构集合(CPU、存储、网络)作为一个无缝、灵活和动态的操作环境进行全面管理,将服务器、存储设备和网络资源进行虚拟化并聚合资源,最终按需分配给用户使用。目前国际知名的IT公司如Google、亚马逊、微软、Oracle、IBM、SUN等都在积极地研究云计算并开展相关商业应用。
云计算操作系统由云控制器、集群控制器、计算节点控制器组成。云控制器管理云系统的集群信息;集群控制器管理云系统的网络资源信息、计算节点信息、集群虚拟机信息;计算节点提供了硬盘、内存、CPU等物理资源的虚拟化基础设施,计算节点控制器管理节点虚拟机实例详细信息。因服务器故障、网络故障、软件故障等问题,云计算中心很难保证云系统中控制器随时随地提供正常的服务,例如亚马逊在弗吉尼亚州(Virginia)北部的云计算系统出现过云系统中控制器故障问题。目前一般是研究物理服务器故障问题,而面向云计算操作系统的控制器故障服务技术甚少,而控制器故障恢复在云计算中有重要意义,保证云计算操作系统的高可靠性。
发明内容
本发明解决的技术问题在于提供一种云计算操作系统的控制器服务状态监控和故障恢复方法。
本发明解决前述技术问题的技术方案是:
所述的监控包括如下步骤:
第1步,建立状态监控模块,所述的模块包括有集群控制器服务监控模块和节点控制器服务监控模块,服务状态有正常状态、故障状态;
第2步,状态监控;所述的集群控制器服务监控模块添加在云控制器上,云控制器调用集群控制器服务监控模块,根据返回结果来设定集群控制器的状态;所述的节点控制器服务监控模块添加在集群控制器上,根据返回结果来设定节点控制器的状态;
所述的故障恢复包括如下步骤:
第1步,建立云计算操作系统集群控制器服务所需要的网络资源、计算节点资源信息、虚拟机信息的内存块,并将内存块映射到硬盘文件上;节点控制器服务随着虚拟机的创建并相应构造虚拟机元数据的内存块,并备份到硬盘文件上;
第2步,通过集群控制器或节点控制器服务监控模块,将故障的集群控制器或节点控制器标识反馈给系统管理员;根据反馈的标识对发生故障的集群控制器服务和/或节点控制器服务进行重启;
当集群控制器服务发生故障时,重启集群控制服务,将包含着网络资源、计算节点资源信息的硬盘文件重新映射到内存中,恢复集群控制器所管理的网络资源信息、节点资源信息、虚拟机信息;
当节点控制器服务发生故障时,重启节点控制服务,首先扫描虚拟机实例存储的数据中心,读取虚拟机元数据的硬盘文件并将其映射到内存中;然后同步虚拟机监视器上的虚拟机状态信息;节点控制器物理机发生故障时,集群控制器将通过计算节点资源调度算法为故障控制器上的虚拟机分配新的计算节点,新的节点控制器将读取虚拟机元数据的硬盘文件并将其映射到内存中,最后利用虚拟机的配置文件启动虚拟机。
本发明提出了一种基于云计算服务状态模型来监控云计算控制器服务是否正常,基于硬盘文件的内存映射机制的云计算控制器服务重启和跨计算节点启动虚拟机的故障恢复方法。有效解决了现有服务故障后重新恢复软件服务,但原先软件程序使用的内存数据很难恢复的问题。本发明的方法可以确保服务恢复后所有内存数据都可以保留;避免了数据丢失。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的整体系统示意图;
图2是本发明的控制器服务状态转换图;
图3是本发明的控制器故障恢复流程图;
具体实施方式
如附图1-3所示,本发明提出了一种基于云计算服务状态模型来监控云计算控制器服务是否正常,基于硬盘文件的内存映射机制的云计算控制器服务重启和跨计算节点启动虚拟机的故障恢复方法。具体的状态监控和故障恢复按照如下步骤进行:
第1步,建立云计算操作系统集群控制器服务所需要的网络资源、计算节点资源信息、集群虚拟机信息的内存块,将内存块的数据结构热备到硬盘文件上;节点控制器服务随着虚拟机的创建并相应构造虚拟机元数据的内存块,同时备份到硬盘文件上。其中硬盘文件保存在数据中心上,保证单集群控制器节点和节点控制器物理机故障时,能够跨集群控制器节点和计算控制器节点恢复用户的网络资源、虚拟机信息。
第2步,建立云计算操作系统的云计算控制器服务监控模块,云计算控制器服务状态有正常状态、故障状态,其模块属于动态变迁模型,服务处于故障状态恢复后服务状态将变为正常状态,服务由于异常原因不能提供服务时将标识为故障状态,可以动态变更集群控制器服务、计算节点控制器服务的状态。
第3步,在云控制节点器和集群控制器上添加服务监控模块,云控制器上的集群控制器服务监控模块根据设定的时间间隔定期通过SOAP(简单对象访问协议)调用扫描集群信息服务,将返回信息为空的集群节点服务标识为集群控制器服务故障状态;集群控制器上的节点控制器服务监控模块根据设定的时间间隔定期通过SOAP(简单对象访问协议)调用扫描计算节点服务,将返回信息为空的计算节点服务标识为节点控制器服务故障状态。
第4步,通过集群控制器或节点控制器服务监控模块,将发生故障的集群控制器或节点控制器反馈给云计算操作系统管理员;集群控制器服务发生故障时,重启集群控制服务,服务将包含着网络资源、计算节点资源信息的硬盘文件重新映射到内存中,然后读取内存中用户组安全规则和虚拟机网络地址信息,构造iptable命令集和DHCP服务配置文件,重新生成防火墙规则和虚拟机私有地址,恢复集群控制器所管理的网络资源信息、节点资源信息、虚拟机信息。集群控制器物理机发生故障不能修复时,将重建根据原有集群控制器的备份硬盘文件备重建集群控制器,具体步骤如前所述;节点控制器服务发生故障时,重启节点控制服务,服务首先将扫描虚拟机实例存储的数据中心,读取虚拟机元数据的硬盘文件并将其映射到内存中,然后同步虚拟机监视器上的虚拟机状态信息;节点控制器物理机发生故障时,集群控制器将通过计算节点资源调度算法为故障控制器上的虚拟机分配新的计算节点,新的节点控制器将读取虚拟机元数据的硬盘文件并将其映射到内存中,最后利用虚拟机的配置文件启动虚拟机。

Claims (1)

1.一种云计算操作系统的控制器服务状态监控及其故障恢复方法,其特征在于:所述的监控包括如下步骤:
第1步,建立状态监控模块,所述的模块包括有集群控制器服务监控模块和节点控制器服务监控模块,服务状态有正常状态、故障状态;
第2步,状态监控;所述的集群控制器服务监控模块添加在云控制器上,云控制器调用集群控制器服务监控模块,根据返回结果来设定集群控制器的状态;所述的节点控制器服务监控模块添加在集群控制器上,根据返回结果来设定节点控制器的状态;
所述的故障恢复包括如下步骤:
第1步,建立云计算操作系统集群控制器服务所需要的网络资源、计算节点资源信息、虚拟机信息的内存块,并将内存块映射到硬盘文件上;节点控制器服务随着虚拟机的创建并相应构造虚拟机元数据的内存块,并备份到硬盘文件上;
第2步,通过集群控制器或节点控制器服务监控模块,将故障的集群控制器或节点控制器标识反馈给系统管理员;根据反馈的标识对发生故障的集群控制器服务和/或节点控制器服务进行重启;
当集群控制器服务发生故障时,重启集群控制服务,将包含着网络资源、计算节点资源信息的硬盘文件重新映射到内存中,恢复集群控制器所管理的网络资源信息、节点资源信息、虚拟机信息;
当节点控制器服务发生故障时,重启节点控制服务,首先扫描虚拟机实例存储的数据中心,读取虚拟机元数据的硬盘文件并将其映射到内存中;然后同步虚拟机监视器上的虚拟机状态信息;节点控制器物理机发生故障时,集群控制器将通过计算节点资源调度算法为故障控制器上的虚拟机分配新的计算节点,新的节点控制器将读取虚拟机元数据的硬盘文件并将其映射到内存中,最后利用虚拟机的配置文件启动虚拟机。
CN201110339087.1A 2011-10-31 2011-10-31 一种云计算操作系统的控制器服务状态监控和故障恢复方法 Active CN102394774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110339087.1A CN102394774B (zh) 2011-10-31 2011-10-31 一种云计算操作系统的控制器服务状态监控和故障恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110339087.1A CN102394774B (zh) 2011-10-31 2011-10-31 一种云计算操作系统的控制器服务状态监控和故障恢复方法

Publications (2)

Publication Number Publication Date
CN102394774A CN102394774A (zh) 2012-03-28
CN102394774B true CN102394774B (zh) 2014-03-26

Family

ID=45861984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110339087.1A Active CN102394774B (zh) 2011-10-31 2011-10-31 一种云计算操作系统的控制器服务状态监控和故障恢复方法

Country Status (1)

Country Link
CN (1) CN102394774B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629224B (zh) * 2012-04-26 2014-11-26 广东电子工业研究院有限公司 一种基于云平台的一体化数据容灾方法及其装置
CN102917046B (zh) * 2012-10-17 2015-06-24 广州杰赛科技股份有限公司 云系统中的虚拟机启动控制方法
CN102932210B (zh) * 2012-11-23 2015-06-24 北京搜狐新媒体信息技术有限公司 一种PaaS云平台的节点监控方法和系统
US9141487B2 (en) * 2013-01-15 2015-09-22 Microsoft Technology Licensing, Llc Healing cloud services during upgrades
CN103209218A (zh) * 2013-04-23 2013-07-17 深圳市京华科讯科技有限公司 容灾一体机管理系统
WO2015013896A1 (zh) * 2013-07-30 2015-02-05 华为技术有限公司 一种网络控制方法及装置
CN103457771B (zh) * 2013-08-30 2016-12-28 杭州华三通信技术有限公司 一种ha的虚拟机集群的管理方法和设备
CN103458055A (zh) * 2013-09-22 2013-12-18 广州中国科学院软件应用技术研究所 一种云计算平台
CN108418711B (zh) * 2013-09-30 2021-05-18 华为技术有限公司 故障管理的存储介质
CN103888510B (zh) * 2014-01-14 2017-07-14 无锡城市云计算中心有限公司 一种云计算数据中心的业务高可用方法
CN105515886B (zh) * 2014-10-15 2019-01-01 中国移动通信集团公司 一种网元故障监控的方法、网元及系统
CN107179957B (zh) * 2016-03-10 2020-08-25 阿里巴巴集团控股有限公司 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN107426005B (zh) * 2017-05-15 2021-03-09 苏州浪潮智能科技有限公司 一种云平台中节点重启的控制方法及系统
US10379923B2 (en) 2017-09-15 2019-08-13 International Business Machines Corporation Efficiently repairing virtual machines by means of DVFS-aware proactive scheduling
CN108388433B (zh) * 2017-12-28 2021-09-17 深圳创新科软件技术有限公司 超融合系统的管理平台部署方法
CN108965002B (zh) * 2018-07-16 2021-06-22 北京韦加航通科技有限责任公司 一种移动云计算网络中突发服务故障的解决方法及系统
CN109117317A (zh) * 2018-11-01 2019-01-01 郑州云海信息技术有限公司 一种集群故障恢复方法和相关装置
CN109522095B (zh) * 2018-11-27 2020-04-10 无锡华云数据技术服务有限公司 云主机异常故障检测恢复系统、方法及云平台
CN110688259B (zh) * 2019-09-26 2024-02-06 上海仪电(集团)有限公司中央研究院 一种私有云备份恢复系统及其备份恢复方法
CN110673978B (zh) * 2019-09-29 2023-01-10 苏州浪潮智能科技有限公司 一种双控集群掉电后的数据恢复方法及相关装置
CN112527469B (zh) * 2020-12-29 2024-03-01 浙江工业大学 一种云计算服务器的容错组合方法
CN113064762B (zh) * 2021-04-09 2024-02-23 上海新炬网络信息技术股份有限公司 基于多样探测的服务自恢复方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136783A (zh) * 2007-10-15 2008-03-05 中兴通讯股份有限公司 一种网管系统配置数据的备份、恢复方法及装置
CN101765225A (zh) * 2008-12-24 2010-06-30 华为技术有限公司 一种虚拟化的集群管理方法和集群节点
CN102035662A (zh) * 2009-09-27 2011-04-27 中国移动通信集团公司 一种虚拟服务器管理系统、方法及装置
CN102164184A (zh) * 2011-04-22 2011-08-24 广州杰赛科技股份有限公司 云计算网络中计算机实体的接入和管理方法及云计算网络

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136783A (zh) * 2007-10-15 2008-03-05 中兴通讯股份有限公司 一种网管系统配置数据的备份、恢复方法及装置
CN101765225A (zh) * 2008-12-24 2010-06-30 华为技术有限公司 一种虚拟化的集群管理方法和集群节点
CN102035662A (zh) * 2009-09-27 2011-04-27 中国移动通信集团公司 一种虚拟服务器管理系统、方法及装置
CN102164184A (zh) * 2011-04-22 2011-08-24 广州杰赛科技股份有限公司 云计算网络中计算机实体的接入和管理方法及云计算网络

Also Published As

Publication number Publication date
CN102394774A (zh) 2012-03-28

Similar Documents

Publication Publication Date Title
CN102394774B (zh) 一种云计算操作系统的控制器服务状态监控和故障恢复方法
CN102981931B (zh) 虚拟机备份方法及装置
CN103440160B (zh) 虚拟机恢复方法和虚拟机迁移方法以及装置与系统
AU2013207906B2 (en) Fault tolerance for complex distributed computing operations
CN102681917B (zh) 一种操作系统及其修复方法
CN102833310B (zh) 一种基于虚拟化技术的工作流引擎集群系统
CN103778031A (zh) 一种云环境下的分布式系统多级故障容错方法
CN105141456A (zh) 一种高可用集群资源监控方法
CN106528327A (zh) 一种数据处理方法以及备份服务器
CN103345470A (zh) 一种数据库容灾方法、系统及服务器
CN104427002A (zh) 集群系统及用于在集群系统中提供服务可用性的方法
CN103532753A (zh) 一种基于内存换页同步的双机热备方法
CN103500130A (zh) 一种对双机热备数据进行实时备份的方法
CN103176831A (zh) 一种虚拟机系统及其管理方法
CN104077199A (zh) 基于共享磁盘的高可用集群的隔离方法和系统
CN104679579A (zh) 一种集群系统中的虚拟机迁移方法和装置
CN108469996A (zh) 一种基于自动快照的系统高可用方法
CN102523257A (zh) 一种基于iaas云平台的虚拟机容错方法
CN111935244B (zh) 一种业务请求处理系统及超融合一体机
CN109361777A (zh) 分布式集群节点状态的同步方法、同步系统及相关装置
CN106612314A (zh) 基于虚拟机实现软件定义存储的系统
CN105068763A (zh) 一种针对存储故障的虚拟机容错系统和方法
CN101686261A (zh) 一种基于rac的冗余服务器系统
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN104753992A (zh) 一种数据存储、虚拟平台故障恢复的方法、设备和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201222

Address after: Room 701, 7th floor, Cloud Computing Center, Chinese Academy of Sciences, No.1 Kehui Road, Songshanhu high tech Industrial Development Zone, Dongguan City, Guangdong Province, 523000

Patentee after: Guangdong Zhongke Xiaoding Information Technology Co.,Ltd.

Address before: 523808 Guangdong province Dongguan City Songshan Lake Science and Technology Industrial Park Building No. 10 Keyuan pine

Patentee before: GUANGDONG ELECTRONICS INDUSTRY INSTITUTE Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 1501, Building 1, No. 4, Headquarters Second Road, Songshan Lake Park, Dongguan City, Guangdong Province, 523000

Patentee after: Zhongke Xiaoding (Guangdong) Technology Co.,Ltd.

Country or region after: China

Address before: Room 701, 7th floor, Cloud Computing Center, Chinese Academy of Sciences, No.1 Kehui Road, Songshanhu high tech Industrial Development Zone, Dongguan City, Guangdong Province, 523000

Patentee before: Guangdong Zhongke Xiaoding Information Technology Co.,Ltd.

Country or region before: China