CN105550012A - 一种自定义恢复故障虚拟机的方法 - Google Patents

一种自定义恢复故障虚拟机的方法 Download PDF

Info

Publication number
CN105550012A
CN105550012A CN201510895562.1A CN201510895562A CN105550012A CN 105550012 A CN105550012 A CN 105550012A CN 201510895562 A CN201510895562 A CN 201510895562A CN 105550012 A CN105550012 A CN 105550012A
Authority
CN
China
Prior art keywords
virtual machine
recovery
module
fault
monitoring module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510895562.1A
Other languages
English (en)
Inventor
胡雨欣
杨松
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Cloud Technology Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201510895562.1A priority Critical patent/CN105550012A/zh
Publication of CN105550012A publication Critical patent/CN105550012A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45575Starting, stopping, suspending or resuming virtual machine instances

Abstract

本发明涉及云计算技术领域,特别是一种自定义恢复故障虚拟机的方法。本发明首先在云平台上创建虚拟机,自定义设置虚拟机故障时的恢复策略;监控模块监控到虚拟机发生故障时发送告警通知恢复模块,恢复模块根据设置的恢复策略,自动执行相应的恢复方法恢复虚拟机;恢复执行完成后,监控模块检测恢复是否成功,如未恢复成功,则尝试再次恢复,可设置最大恢复次数,恢复最大次数后仍未恢复成功,则自动发送告警通知运维人员人工处理故障虚拟机。本发明解决了云平台虚拟机故障时需要运维人员人工查看故障原因并修复故障虚拟机的问题;可以用于故障虚拟机的自定义恢复。

Description

一种自定义恢复故障虚拟机的方法
技术领域
本发明涉及云计算技术领域,特别是一种自定义恢复故障虚拟机的方法。
背景技术
云平台提供的虚拟机服务,由于外界发生的一些不可控因素,如断电、物理机磁盘问题导致虚拟机无法正常运行,部署在虚拟机内部的应用无法提供正常的服务。传统的云平台虚拟机维护主要是依赖人工,这种维护方法存在以下问题:
一是管理员需花费大量时间检查虚拟机是否存在发生故障的情况,发生故障后,需手动恢复虚拟机以确保虚拟机应用的正常运行。
二是人工维护的时效性无法确保,管理员无法第一时间获取到虚拟机发生故障的信息。对于政务云等部署了政务网站应用的云平台,需要虚拟机上的应用长期稳定的运行,如果发生了应用一段时间无法访问的问题,会严重影响政府部门的公信力。
为了减轻运维人员负担,提高运维工作效率,保证云平台虚拟机能持续正常运行,为用户提供稳定可靠的服务,需要一种自定义恢复故障虚拟机的方法。
发明内容
本发明解决的技术问题在于提供了一种自定义恢复故障虚拟机的方法,解决了云平台虚拟机故障时需要运维人员人工查看故障原因并修复故障虚拟机的问题。
本发明解决上述技术问题的技术方案是:
所述的方法包括如下步骤:
步骤1:在云平台上创建虚拟机,给虚拟机设置恢复策略及最大恢复次数;
步骤2:创建虚拟机状态监控模块,实时监控虚拟机运行是否正常,出现异常时,监控模块发送告警通知;
步骤3:平台接收到告警通知,判断虚拟机设置的恢复策略;
步骤4:恢复模块调用相应的恢复方法,执行恢复流程;
步骤5:监控模块检测恢复是否成功,如恢复成功,则执行步骤8结束流程;如未恢复成功,执行步骤6;
步骤6:判断是否达到最大恢复次数,未达到,则执行步骤4;如已达到,则执行步骤7;
步骤7:监控模块发送告警通知运维人员手动恢复虚拟机;
步骤8:结束。
所述的恢复策略包括重启虚拟机、系统还原虚拟机、备份还原、快照还原等恢复虚拟机策略;
所述的异常是指虚拟机发生死机等不能正常运行操作系统的状态。
所述的监控模块通过agent模块向虚拟机发送消息,如果连续尝试3次都未接收到虚拟机内部agent返回的数据,则认为虚拟机已经发生故障;检测到故障时,通知恢复模块开始恢复虚拟机;检测到虚拟机从故障状态恢复到正常时,终止恢复流程;检测到虚拟机恢复失败并超过最大恢复次数时,向管理员发送告警通知,提醒手工进行故障恢复;其中,agent模块是使用串口让物理机和虚拟机通信的工具。
所述的恢复模块获取虚拟机设置的恢复策略,然后调用对应的功能模块;当恢复策略为重启虚拟机时,恢复模块调用重启虚拟机接口执行重启操作恢复虚拟机;当恢复策略为系统还原时,恢复模块调用系统还原接口,获取虚拟机镜像,重新生成系统盘代替现有的系统盘,达到恢复虚拟机的目的;当恢复策略为备份还原时,恢复模块使用虚拟机最新的备份还原虚拟机;当恢复策略为快照还原时,恢复模块使用虚拟机最新的快照文件还原虚拟机。
本发明解决了云平台虚拟机故障时需要运维人员人工查看故障原因并修复故障虚拟机的问题,减轻了运维人员的负担,提高了运维效率,同时保证了云平台虚拟机能持续正常运行,为用户提供稳定可靠的服务。
附图说明
下面结合附图对本发明进一步说明:
图1为本发明方法流程图。
具体实施方式
如图1所示,本发明的方法包括以下步骤:
给云平台上的虚拟机设置恢复策略及最大恢复次数
监控模块定时查询虚拟机状态,发现虚拟机故障时通知恢复模块进行恢复。
恢复模块根据恢复次数决定需不需要对虚拟机进行恢复,同时调用不同的恢复策略开始恢复虚拟机。

Claims (5)

1.一种自定义恢复故障虚拟机的方法,其特征在于:所述的方法包括如下步骤:
步骤1:在云平台上创建虚拟机,给虚拟机设置恢复策略及最大恢复次数;
步骤2:创建虚拟机状态监控模块,实时监控虚拟机运行是否正常,出现异常时,监控模块发送告警通知;
步骤3:平台接收到告警通知,判断虚拟机设置的恢复策略;
步骤4:恢复模块调用相应的恢复方法,执行恢复流程;
步骤5:监控模块检测恢复是否成功,如恢复成功,则执行步骤8结束流程;如未恢复成功,执行步骤6;
步骤6:判断是否达到最大恢复次数,未达到,则执行步骤4;如已达到,则执行步骤7;
步骤7:监控模块发送告警通知运维人员手动恢复虚拟机;
步骤8:结束。
2.根据权利要求1所述的自定义恢复故障虚拟机的方法,其特征在于:所述的恢复策略包括重启虚拟机、系统还原虚拟机、备份还原、快照还原等恢复虚拟机策略;
所述的异常是指虚拟机发生死机等不能正常运行操作系统的状态。
3.根据权利要求1所述的自定义恢复故障虚拟机的方法,其特征在于:所述的监控模块通过agent模块向虚拟机发送消息,如果连续尝试3次都未接收到虚拟机内部agent返回的数据,则认为虚拟机已经发生故障;检测到故障时,通知恢复模块开始恢复虚拟机;检测到虚拟机从故障状态恢复到正常时,终止恢复流程;检测到虚拟机恢复失败并超过最大恢复次数时,向管理员发送告警通知,提醒手工进行故障恢复;其中,agent模块是使用串口让物理机和虚拟机通信的工具。
4.根据权利要求2所述的自定义恢复故障虚拟机的方法,其特征在于:所述的监控模块通过agent模块向虚拟机发送消息,如果连续尝试3次都未接收到虚拟机内部agent返回的数据,则认为虚拟机已经发生故障;检测到故障时,通知恢复模块开始恢复虚拟机;检测到虚拟机从故障状态恢复到正常时,终止恢复流程;检测到虚拟机恢复失败并超过最大恢复次数时,向管理员发送告警通知,提醒手工进行故障恢复;其中,agent模块是使用串口让物理机和虚拟机通信的工具。
5.根据权利要求1至4任一项所述的自定义恢复故障虚拟机的方法,其特征在于:所述的恢复模块获取虚拟机设置的恢复策略,然后调用对应的功能模块;当恢复策略为重启虚拟机时,恢复模块调用重启虚拟机接口执行重启操作恢复虚拟机;当恢复策略为系统还原时,恢复模块调用系统还原接口,获取虚拟机镜像,重新生成系统盘代替现有的系统盘,达到恢复虚拟机的目的;当恢复策略为备份还原时,恢复模块使用虚拟机最新的备份还原虚拟机;当恢复策略为快照还原时,恢复模块使用虚拟机最新的快照文件还原虚拟机。
CN201510895562.1A 2015-12-07 2015-12-07 一种自定义恢复故障虚拟机的方法 Pending CN105550012A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510895562.1A CN105550012A (zh) 2015-12-07 2015-12-07 一种自定义恢复故障虚拟机的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510895562.1A CN105550012A (zh) 2015-12-07 2015-12-07 一种自定义恢复故障虚拟机的方法

Publications (1)

Publication Number Publication Date
CN105550012A true CN105550012A (zh) 2016-05-04

Family

ID=55829210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510895562.1A Pending CN105550012A (zh) 2015-12-07 2015-12-07 一种自定义恢复故障虚拟机的方法

Country Status (1)

Country Link
CN (1) CN105550012A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357635A (zh) * 2017-07-20 2017-11-17 郑州云海信息技术有限公司 一种用于获知虚拟机宕机的实现方法和装置
CN108429629A (zh) * 2017-02-14 2018-08-21 腾讯科技(深圳)有限公司 设备故障恢复方法和装置
CN109086166A (zh) * 2018-07-09 2018-12-25 郑州云海信息技术有限公司 一种虚拟机备份与恢复方法及装置
CN109284204A (zh) * 2018-09-10 2019-01-29 福建星瑞格软件有限公司 一种基于虚拟化计算的大数据平台运维方法以及系统
CN111104237A (zh) * 2018-10-26 2020-05-05 上海宝信软件股份有限公司 可配置的故障自动化处理方法和系统及计算机存储介质
CN111224841A (zh) * 2019-12-31 2020-06-02 湖北省楚天云有限公司 一种政务云平台网站应用的运维方法和系统
CN111355605A (zh) * 2019-10-18 2020-06-30 烽火通信科技股份有限公司 一种云平台的虚拟机故障恢复方法及服务器
CN111865695A (zh) * 2020-07-28 2020-10-30 浪潮云信息技术股份公司 一种云环境下自动故障处理的方法及系统
CN112596946A (zh) * 2020-12-10 2021-04-02 长沙市到家悠享网络科技有限公司 服务的运行状态控制方法、装置、电子设备及存储介质
CN112965787A (zh) * 2021-03-10 2021-06-15 浪潮云信息技术股份公司 一种基于政务云的虚拟机容灾方法和装置
CN113220409A (zh) * 2021-02-01 2021-08-06 浪潮云信息技术股份公司 虚拟机监控系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070043896A1 (en) * 2005-08-17 2007-02-22 Burzin Daruwala Virtualized measurement agent
CN102708018A (zh) * 2012-04-20 2012-10-03 华为技术有限公司 一种异常处理方法及系统、代理设备与控制装置
CN102902599A (zh) * 2012-09-17 2013-01-30 华为技术有限公司 虚拟机内部故障处理方法、装置及系统
CN104268061A (zh) * 2014-09-12 2015-01-07 国云科技股份有限公司 一种适用于虚拟机的存储状态监控机制
CN105024879A (zh) * 2015-07-15 2015-11-04 中国船舶重工集团公司第七0九研究所 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070043896A1 (en) * 2005-08-17 2007-02-22 Burzin Daruwala Virtualized measurement agent
CN102708018A (zh) * 2012-04-20 2012-10-03 华为技术有限公司 一种异常处理方法及系统、代理设备与控制装置
CN102902599A (zh) * 2012-09-17 2013-01-30 华为技术有限公司 虚拟机内部故障处理方法、装置及系统
CN104268061A (zh) * 2014-09-12 2015-01-07 国云科技股份有限公司 一种适用于虚拟机的存储状态监控机制
CN105024879A (zh) * 2015-07-15 2015-11-04 中国船舶重工集团公司第七0九研究所 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108429629A (zh) * 2017-02-14 2018-08-21 腾讯科技(深圳)有限公司 设备故障恢复方法和装置
CN107357635A (zh) * 2017-07-20 2017-11-17 郑州云海信息技术有限公司 一种用于获知虚拟机宕机的实现方法和装置
CN109086166A (zh) * 2018-07-09 2018-12-25 郑州云海信息技术有限公司 一种虚拟机备份与恢复方法及装置
CN109284204A (zh) * 2018-09-10 2019-01-29 福建星瑞格软件有限公司 一种基于虚拟化计算的大数据平台运维方法以及系统
CN109284204B (zh) * 2018-09-10 2022-10-25 福建星瑞格软件有限公司 一种基于虚拟化计算的大数据平台运维方法以及系统
CN111104237A (zh) * 2018-10-26 2020-05-05 上海宝信软件股份有限公司 可配置的故障自动化处理方法和系统及计算机存储介质
CN111355605A (zh) * 2019-10-18 2020-06-30 烽火通信科技股份有限公司 一种云平台的虚拟机故障恢复方法及服务器
CN111224841B (zh) * 2019-12-31 2021-07-23 湖北省楚天云有限公司 一种政务云平台网站应用的运维方法和系统
CN111224841A (zh) * 2019-12-31 2020-06-02 湖北省楚天云有限公司 一种政务云平台网站应用的运维方法和系统
CN111865695A (zh) * 2020-07-28 2020-10-30 浪潮云信息技术股份公司 一种云环境下自动故障处理的方法及系统
CN112596946A (zh) * 2020-12-10 2021-04-02 长沙市到家悠享网络科技有限公司 服务的运行状态控制方法、装置、电子设备及存储介质
CN113220409A (zh) * 2021-02-01 2021-08-06 浪潮云信息技术股份公司 虚拟机监控系统及方法
CN112965787A (zh) * 2021-03-10 2021-06-15 浪潮云信息技术股份公司 一种基于政务云的虚拟机容灾方法和装置

Similar Documents

Publication Publication Date Title
CN105550012A (zh) 一种自定义恢复故障虚拟机的方法
CN102364448B (zh) 一种计算机故障管理系统的容错方法
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN105677500A (zh) 一种实时服务器故障诊断的方法
CN105808394A (zh) 一种服务器自愈的方法和装置
CN103927239A (zh) 一种终端设备的系统恢复方法及装置
CN103092724A (zh) 用于嵌入式电力终端的系统自恢复方法
CN106407045B (zh) 一种数据灾难恢复方法、系统及服务器虚拟化系统
CN108737153B (zh) 区块链灾备系统、方法、服务器和计算机可读存储介质
WO2020000956A1 (zh) 一种bmc监控可恢复ecc错误的方法、装置及设备
CN101145983B (zh) 一种网管系统的自诊断和自恢复子系统及方法
CN105426263A (zh) 一种实现金库系统安全运行的方法及系统
CN104111878A (zh) 基于虚拟机快照的hadoop集群自动化恢复技术
CN102662787A (zh) 一种保护系统盘raid的方法
CN103793292A (zh) 用于磁盘阵列的容灾恢复方法
CN112910751A (zh) 一种用于vpn设备的异常检测及恢复方法和装置
CN107491344B (zh) 一种实现虚拟机高可用性的方法及装置
CN106445746A (zh) 一种面向应急接替的容灾备份方法及装置
CN100337211C (zh) 保障计算机持续安全运行的方法
JPH10214208A (ja) ソフトウェアの異常監視方式
CN101557307B (zh) 调度自动化系统应用状态管理方法
CN103995759A (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN112650620B (zh) 一种存在主从关系的双机冷备份自主冗余方法
CN102231124A (zh) 一种嵌入式系统任务的守护方法
CN103177213A (zh) 一种软件漏洞修复方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160504

RJ01 Rejection of invention patent application after publication