CN105550012A - 一种自定义恢复故障虚拟机的方法 - Google Patents
一种自定义恢复故障虚拟机的方法 Download PDFInfo
- Publication number
- CN105550012A CN105550012A CN201510895562.1A CN201510895562A CN105550012A CN 105550012 A CN105550012 A CN 105550012A CN 201510895562 A CN201510895562 A CN 201510895562A CN 105550012 A CN105550012 A CN 105550012A
- Authority
- CN
- China
- Prior art keywords
- virtual machine
- recovery
- module
- fault
- monitoring module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1461—Backup scheduling policy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking by means of middleware or OS functionality
- G06F11/1484—Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45575—Starting, stopping, suspending or resuming virtual machine instances
Abstract
本发明涉及云计算技术领域,特别是一种自定义恢复故障虚拟机的方法。本发明首先在云平台上创建虚拟机,自定义设置虚拟机故障时的恢复策略;监控模块监控到虚拟机发生故障时发送告警通知恢复模块,恢复模块根据设置的恢复策略,自动执行相应的恢复方法恢复虚拟机;恢复执行完成后,监控模块检测恢复是否成功,如未恢复成功,则尝试再次恢复,可设置最大恢复次数,恢复最大次数后仍未恢复成功,则自动发送告警通知运维人员人工处理故障虚拟机。本发明解决了云平台虚拟机故障时需要运维人员人工查看故障原因并修复故障虚拟机的问题;可以用于故障虚拟机的自定义恢复。
Description
技术领域
本发明涉及云计算技术领域,特别是一种自定义恢复故障虚拟机的方法。
背景技术
云平台提供的虚拟机服务,由于外界发生的一些不可控因素,如断电、物理机磁盘问题导致虚拟机无法正常运行,部署在虚拟机内部的应用无法提供正常的服务。传统的云平台虚拟机维护主要是依赖人工,这种维护方法存在以下问题:
一是管理员需花费大量时间检查虚拟机是否存在发生故障的情况,发生故障后,需手动恢复虚拟机以确保虚拟机应用的正常运行。
二是人工维护的时效性无法确保,管理员无法第一时间获取到虚拟机发生故障的信息。对于政务云等部署了政务网站应用的云平台,需要虚拟机上的应用长期稳定的运行,如果发生了应用一段时间无法访问的问题,会严重影响政府部门的公信力。
为了减轻运维人员负担,提高运维工作效率,保证云平台虚拟机能持续正常运行,为用户提供稳定可靠的服务,需要一种自定义恢复故障虚拟机的方法。
发明内容
本发明解决的技术问题在于提供了一种自定义恢复故障虚拟机的方法,解决了云平台虚拟机故障时需要运维人员人工查看故障原因并修复故障虚拟机的问题。
本发明解决上述技术问题的技术方案是:
所述的方法包括如下步骤:
步骤1:在云平台上创建虚拟机,给虚拟机设置恢复策略及最大恢复次数;
步骤2:创建虚拟机状态监控模块,实时监控虚拟机运行是否正常,出现异常时,监控模块发送告警通知;
步骤3:平台接收到告警通知,判断虚拟机设置的恢复策略;
步骤4:恢复模块调用相应的恢复方法,执行恢复流程;
步骤5:监控模块检测恢复是否成功,如恢复成功,则执行步骤8结束流程;如未恢复成功,执行步骤6;
步骤6:判断是否达到最大恢复次数,未达到,则执行步骤4;如已达到,则执行步骤7;
步骤7:监控模块发送告警通知运维人员手动恢复虚拟机;
步骤8:结束。
所述的恢复策略包括重启虚拟机、系统还原虚拟机、备份还原、快照还原等恢复虚拟机策略;
所述的异常是指虚拟机发生死机等不能正常运行操作系统的状态。
所述的监控模块通过agent模块向虚拟机发送消息,如果连续尝试3次都未接收到虚拟机内部agent返回的数据,则认为虚拟机已经发生故障;检测到故障时,通知恢复模块开始恢复虚拟机;检测到虚拟机从故障状态恢复到正常时,终止恢复流程;检测到虚拟机恢复失败并超过最大恢复次数时,向管理员发送告警通知,提醒手工进行故障恢复;其中,agent模块是使用串口让物理机和虚拟机通信的工具。
所述的恢复模块获取虚拟机设置的恢复策略,然后调用对应的功能模块;当恢复策略为重启虚拟机时,恢复模块调用重启虚拟机接口执行重启操作恢复虚拟机;当恢复策略为系统还原时,恢复模块调用系统还原接口,获取虚拟机镜像,重新生成系统盘代替现有的系统盘,达到恢复虚拟机的目的;当恢复策略为备份还原时,恢复模块使用虚拟机最新的备份还原虚拟机;当恢复策略为快照还原时,恢复模块使用虚拟机最新的快照文件还原虚拟机。
本发明解决了云平台虚拟机故障时需要运维人员人工查看故障原因并修复故障虚拟机的问题,减轻了运维人员的负担,提高了运维效率,同时保证了云平台虚拟机能持续正常运行,为用户提供稳定可靠的服务。
附图说明
下面结合附图对本发明进一步说明:
图1为本发明方法流程图。
具体实施方式
如图1所示,本发明的方法包括以下步骤:
给云平台上的虚拟机设置恢复策略及最大恢复次数
监控模块定时查询虚拟机状态,发现虚拟机故障时通知恢复模块进行恢复。
恢复模块根据恢复次数决定需不需要对虚拟机进行恢复,同时调用不同的恢复策略开始恢复虚拟机。
Claims (5)
1.一种自定义恢复故障虚拟机的方法,其特征在于:所述的方法包括如下步骤:
步骤1:在云平台上创建虚拟机,给虚拟机设置恢复策略及最大恢复次数;
步骤2:创建虚拟机状态监控模块,实时监控虚拟机运行是否正常,出现异常时,监控模块发送告警通知;
步骤3:平台接收到告警通知,判断虚拟机设置的恢复策略;
步骤4:恢复模块调用相应的恢复方法,执行恢复流程;
步骤5:监控模块检测恢复是否成功,如恢复成功,则执行步骤8结束流程;如未恢复成功,执行步骤6;
步骤6:判断是否达到最大恢复次数,未达到,则执行步骤4;如已达到,则执行步骤7;
步骤7:监控模块发送告警通知运维人员手动恢复虚拟机;
步骤8:结束。
2.根据权利要求1所述的自定义恢复故障虚拟机的方法,其特征在于:所述的恢复策略包括重启虚拟机、系统还原虚拟机、备份还原、快照还原等恢复虚拟机策略;
所述的异常是指虚拟机发生死机等不能正常运行操作系统的状态。
3.根据权利要求1所述的自定义恢复故障虚拟机的方法,其特征在于:所述的监控模块通过agent模块向虚拟机发送消息,如果连续尝试3次都未接收到虚拟机内部agent返回的数据,则认为虚拟机已经发生故障;检测到故障时,通知恢复模块开始恢复虚拟机;检测到虚拟机从故障状态恢复到正常时,终止恢复流程;检测到虚拟机恢复失败并超过最大恢复次数时,向管理员发送告警通知,提醒手工进行故障恢复;其中,agent模块是使用串口让物理机和虚拟机通信的工具。
4.根据权利要求2所述的自定义恢复故障虚拟机的方法,其特征在于:所述的监控模块通过agent模块向虚拟机发送消息,如果连续尝试3次都未接收到虚拟机内部agent返回的数据,则认为虚拟机已经发生故障;检测到故障时,通知恢复模块开始恢复虚拟机;检测到虚拟机从故障状态恢复到正常时,终止恢复流程;检测到虚拟机恢复失败并超过最大恢复次数时,向管理员发送告警通知,提醒手工进行故障恢复;其中,agent模块是使用串口让物理机和虚拟机通信的工具。
5.根据权利要求1至4任一项所述的自定义恢复故障虚拟机的方法,其特征在于:所述的恢复模块获取虚拟机设置的恢复策略,然后调用对应的功能模块;当恢复策略为重启虚拟机时,恢复模块调用重启虚拟机接口执行重启操作恢复虚拟机;当恢复策略为系统还原时,恢复模块调用系统还原接口,获取虚拟机镜像,重新生成系统盘代替现有的系统盘,达到恢复虚拟机的目的;当恢复策略为备份还原时,恢复模块使用虚拟机最新的备份还原虚拟机;当恢复策略为快照还原时,恢复模块使用虚拟机最新的快照文件还原虚拟机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510895562.1A CN105550012A (zh) | 2015-12-07 | 2015-12-07 | 一种自定义恢复故障虚拟机的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510895562.1A CN105550012A (zh) | 2015-12-07 | 2015-12-07 | 一种自定义恢复故障虚拟机的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105550012A true CN105550012A (zh) | 2016-05-04 |
Family
ID=55829210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510895562.1A Pending CN105550012A (zh) | 2015-12-07 | 2015-12-07 | 一种自定义恢复故障虚拟机的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105550012A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357635A (zh) * | 2017-07-20 | 2017-11-17 | 郑州云海信息技术有限公司 | 一种用于获知虚拟机宕机的实现方法和装置 |
CN108429629A (zh) * | 2017-02-14 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 设备故障恢复方法和装置 |
CN109086166A (zh) * | 2018-07-09 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种虚拟机备份与恢复方法及装置 |
CN109284204A (zh) * | 2018-09-10 | 2019-01-29 | 福建星瑞格软件有限公司 | 一种基于虚拟化计算的大数据平台运维方法以及系统 |
CN111104237A (zh) * | 2018-10-26 | 2020-05-05 | 上海宝信软件股份有限公司 | 可配置的故障自动化处理方法和系统及计算机存储介质 |
CN111224841A (zh) * | 2019-12-31 | 2020-06-02 | 湖北省楚天云有限公司 | 一种政务云平台网站应用的运维方法和系统 |
CN111355605A (zh) * | 2019-10-18 | 2020-06-30 | 烽火通信科技股份有限公司 | 一种云平台的虚拟机故障恢复方法及服务器 |
CN111865695A (zh) * | 2020-07-28 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种云环境下自动故障处理的方法及系统 |
CN112596946A (zh) * | 2020-12-10 | 2021-04-02 | 长沙市到家悠享网络科技有限公司 | 服务的运行状态控制方法、装置、电子设备及存储介质 |
CN112965787A (zh) * | 2021-03-10 | 2021-06-15 | 浪潮云信息技术股份公司 | 一种基于政务云的虚拟机容灾方法和装置 |
CN113220409A (zh) * | 2021-02-01 | 2021-08-06 | 浪潮云信息技术股份公司 | 虚拟机监控系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070043896A1 (en) * | 2005-08-17 | 2007-02-22 | Burzin Daruwala | Virtualized measurement agent |
CN102708018A (zh) * | 2012-04-20 | 2012-10-03 | 华为技术有限公司 | 一种异常处理方法及系统、代理设备与控制装置 |
CN102902599A (zh) * | 2012-09-17 | 2013-01-30 | 华为技术有限公司 | 虚拟机内部故障处理方法、装置及系统 |
CN104268061A (zh) * | 2014-09-12 | 2015-01-07 | 国云科技股份有限公司 | 一种适用于虚拟机的存储状态监控机制 |
CN105024879A (zh) * | 2015-07-15 | 2015-11-04 | 中国船舶重工集团公司第七0九研究所 | 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法 |
-
2015
- 2015-12-07 CN CN201510895562.1A patent/CN105550012A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070043896A1 (en) * | 2005-08-17 | 2007-02-22 | Burzin Daruwala | Virtualized measurement agent |
CN102708018A (zh) * | 2012-04-20 | 2012-10-03 | 华为技术有限公司 | 一种异常处理方法及系统、代理设备与控制装置 |
CN102902599A (zh) * | 2012-09-17 | 2013-01-30 | 华为技术有限公司 | 虚拟机内部故障处理方法、装置及系统 |
CN104268061A (zh) * | 2014-09-12 | 2015-01-07 | 国云科技股份有限公司 | 一种适用于虚拟机的存储状态监控机制 |
CN105024879A (zh) * | 2015-07-15 | 2015-11-04 | 中国船舶重工集团公司第七0九研究所 | 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108429629A (zh) * | 2017-02-14 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 设备故障恢复方法和装置 |
CN107357635A (zh) * | 2017-07-20 | 2017-11-17 | 郑州云海信息技术有限公司 | 一种用于获知虚拟机宕机的实现方法和装置 |
CN109086166A (zh) * | 2018-07-09 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种虚拟机备份与恢复方法及装置 |
CN109284204A (zh) * | 2018-09-10 | 2019-01-29 | 福建星瑞格软件有限公司 | 一种基于虚拟化计算的大数据平台运维方法以及系统 |
CN109284204B (zh) * | 2018-09-10 | 2022-10-25 | 福建星瑞格软件有限公司 | 一种基于虚拟化计算的大数据平台运维方法以及系统 |
CN111104237A (zh) * | 2018-10-26 | 2020-05-05 | 上海宝信软件股份有限公司 | 可配置的故障自动化处理方法和系统及计算机存储介质 |
CN111355605A (zh) * | 2019-10-18 | 2020-06-30 | 烽火通信科技股份有限公司 | 一种云平台的虚拟机故障恢复方法及服务器 |
CN111224841B (zh) * | 2019-12-31 | 2021-07-23 | 湖北省楚天云有限公司 | 一种政务云平台网站应用的运维方法和系统 |
CN111224841A (zh) * | 2019-12-31 | 2020-06-02 | 湖北省楚天云有限公司 | 一种政务云平台网站应用的运维方法和系统 |
CN111865695A (zh) * | 2020-07-28 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种云环境下自动故障处理的方法及系统 |
CN112596946A (zh) * | 2020-12-10 | 2021-04-02 | 长沙市到家悠享网络科技有限公司 | 服务的运行状态控制方法、装置、电子设备及存储介质 |
CN113220409A (zh) * | 2021-02-01 | 2021-08-06 | 浪潮云信息技术股份公司 | 虚拟机监控系统及方法 |
CN112965787A (zh) * | 2021-03-10 | 2021-06-15 | 浪潮云信息技术股份公司 | 一种基于政务云的虚拟机容灾方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105550012A (zh) | 一种自定义恢复故障虚拟机的方法 | |
CN102364448B (zh) | 一种计算机故障管理系统的容错方法 | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
CN105677500A (zh) | 一种实时服务器故障诊断的方法 | |
CN105808394A (zh) | 一种服务器自愈的方法和装置 | |
CN103927239A (zh) | 一种终端设备的系统恢复方法及装置 | |
CN103092724A (zh) | 用于嵌入式电力终端的系统自恢复方法 | |
CN106407045B (zh) | 一种数据灾难恢复方法、系统及服务器虚拟化系统 | |
CN108737153B (zh) | 区块链灾备系统、方法、服务器和计算机可读存储介质 | |
WO2020000956A1 (zh) | 一种bmc监控可恢复ecc错误的方法、装置及设备 | |
CN101145983B (zh) | 一种网管系统的自诊断和自恢复子系统及方法 | |
CN105426263A (zh) | 一种实现金库系统安全运行的方法及系统 | |
CN104111878A (zh) | 基于虚拟机快照的hadoop集群自动化恢复技术 | |
CN102662787A (zh) | 一种保护系统盘raid的方法 | |
CN103793292A (zh) | 用于磁盘阵列的容灾恢复方法 | |
CN112910751A (zh) | 一种用于vpn设备的异常检测及恢复方法和装置 | |
CN107491344B (zh) | 一种实现虚拟机高可用性的方法及装置 | |
CN106445746A (zh) | 一种面向应急接替的容灾备份方法及装置 | |
CN100337211C (zh) | 保障计算机持续安全运行的方法 | |
JPH10214208A (ja) | ソフトウェアの異常監視方式 | |
CN101557307B (zh) | 调度自动化系统应用状态管理方法 | |
CN103995759A (zh) | 基于核内外协同的高可用计算机系统故障处理方法及装置 | |
CN112650620B (zh) | 一种存在主从关系的双机冷备份自主冗余方法 | |
CN102231124A (zh) | 一种嵌入式系统任务的守护方法 | |
CN103177213A (zh) | 一种软件漏洞修复方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160504 |
|
RJ01 | Rejection of invention patent application after publication |