CN105335214A - 一种虚拟机故障检测和恢复的方法 - Google Patents

一种虚拟机故障检测和恢复的方法 Download PDF

Info

Publication number
CN105335214A
CN105335214A CN201510777745.3A CN201510777745A CN105335214A CN 105335214 A CN105335214 A CN 105335214A CN 201510777745 A CN201510777745 A CN 201510777745A CN 105335214 A CN105335214 A CN 105335214A
Authority
CN
China
Prior art keywords
virtual machine
machine
virtual
nfs
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510777745.3A
Other languages
English (en)
Inventor
张志江
杨松
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Cloud Technology Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201510777745.3A priority Critical patent/CN105335214A/zh
Publication of CN105335214A publication Critical patent/CN105335214A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及云计算与网络技术领域,特别是一种虚拟机故障检测和恢复的方法。本发明包括:1、部署一个NFS网络文件系统环境,在NFS服务器上面建立一个挂载点,把镜像放在NFS服务器的挂载点上,所有节点都挂载共享存储,然后用该镜像创建一台虚拟机;2:启动检测节点定时器,检测网络和电源是否处于正常状态,否则需要向调度器发送故障恢复指令;3:通过调度器根据预先设定的cpu负载策略等调度规选择可用的节点;4:根据创建虚拟机的时候生成的配置文件,重新生成一台跟原来一样的虚拟机;5:启动创建完的虚拟机;本发明解决了物理机节点宕机之后的虚拟机继续用问题;可以用于拟机故障检测和恢复。

Description

一种虚拟机故障检测和恢复的方法
技术领域
本发明涉及云计算与网络技术领域,特别是一种虚拟机故障检测和恢复的方法。
背景技术
随着云计算行业日益发展,信息安全早已成为众人关注的焦点。数据的安全和应用业务运行的稳定性越来越重要,如果物理机发生故障,没有及时将虚拟机进行迁移,会带来以下问题:
一是虚拟机上的业务中断,外界无法继续进行访问,业务也无法继续进行,导致给用户带来的损失不断增加。
二是数据丢失,没有了故障恢复机制,虚拟机上的数据不能得以迁移,导致故障前的数据不能继续使用,业务也无法继续正常进行,人工修复数据工作量大,又消耗时间长。
三是用户不能及时得知物理机故障消息,业务中断也有可能无人知晓。
四是运维人员恢复虚拟机难度大,步骤复杂繁琐,易出错。
为了提升虚拟机的稳定性,增强虚拟机上面应用的稳定性,需要一种通过虚拟机故障检测和恢复的方法,就算遭遇节点故障,也能在较短时间内执行故障恢复,让虚拟机在别的节点上启动起来,减少带来的损失。
发明内容
本发明解决的技术问题在于提供一种虚拟机故障检测和恢复的方法,解决了节点故障带来的业务中断问题,能在较短时间内自动实现故障恢复,启动虚拟机继续运行业务。
本发明解决上述技术问题的技术方案是:
所述的方法包括如下步骤:
步骤1:部署一个NFS网络文件系统环境,在NFS服务器上面建立一个挂载点,把镜像放在NFS服务器的挂载点上,所有节点都挂载共享存储,然后用该镜像创建一台虚拟机;
步骤2:启动检测节点定时器,检测网络和电源是否处于正常状态,否则需要向调度器发送故障恢复指令;
步骤3:通过调度器根据预先设定的cpu负载策略等调度规选择可用的节点;
步骤4:根据创建虚拟机的时候生成的配置文件,重新生成一台跟原来一样的虚拟机;
步骤5:启动创建完的虚拟机;
步骤6:结束。
定时任务不断检测物理机状态,在满足网络不通和电源状态异常时执行故障恢复;以有效区分网络阻塞还是物理机故障,防止错误判断导致两边启动相同的虚拟机、同时读写同一个镜像。
所述cpu负载策略是指调度器会寻找cpu较低的物理机节点来分配,可以有效做到负载均衡;
所述配置文件是指创建虚拟机的时候就以xml形式记录下这台虚拟机配置属性;
所述创建虚拟机是指libvirt命令里面的virshdefine,根据配置文件,通过NFS上面的镜像创建出跟原有一样的虚拟机;
所述启动虚拟机是指libvirt命令里面的virshstart,可以启动某一台虚拟机;
所述ipmi是一个智能平台管理服务器,可以检测物理机健康特征,如温度、电压、风扇工作状态、电源状态等;
所述NFS是一个网络文件系统,允许网络中的计算机之间通过TCP/IP网络共享资源。
通过物理机执行libvirt命令来实现虚拟机的冷迁移,存储数据依赖于NFS网络文件系统保证数据完整和一致性。
所述的调度规则指的是策略可以同时满足多个,也可以有指定的规则限制虚拟机。
所述的重新生成一台跟原来一样的虚拟机,指的是创建虚拟机生成出来的配置文件跟原来的虚拟机配置一样,并且镜像文件和磁盘文件跟原来一样,因而生成出来的虚拟机跟故障前的虚拟机一模一样,上面的业务数据也保持故障前的一致。
本发明通过定时检测来发送故障恢复指令,让虚拟机在另一个节点服务器上启动。现在云计算上千个节点的场景好多,节点失去连接也成为常事,为了防止业务中断,我们需要快速自动将故障节点上面的虚拟机进行迁移,保证业务可以尽快恢复,也能让用户第一时间知道节点故障。检测机制也能区分开始网络阻塞还是节点故障,更加智能地执行故障恢复,防止错误迁移虚拟机。让集群上面的虚拟机可以更加稳定地运行,当节点发生故障的时候,将损失降到最低,保护了用户的数据。
附图说明
下面结合附图对本发明进一步说明:
图1为本发明方法流程图;
图2为本发明故障恢复模块结构框图。
具体实施方式
见图1、2所示,本发明的方法包括如下步骤:
步骤1:部署一个NFS网络文件系统环境,在NFS服务器上面建立一个挂载点,把镜像放在NFS服务器的挂载点上,所有节点都挂载共享存储,然后用该镜像创建一台虚拟机;
步骤2:启动检测节点定时器,检测网络和电源是否处于正常状态,否则需要向调度器发送故障恢复指令;
步骤3:通过调度器根据预先设定的cpu负载策略等调度规选择可用的节点;
步骤4:根据创建虚拟机的时候生成的配置文件,重新生成一台跟原来一样的虚拟机;
步骤5:启动创建完的虚拟机;
步骤6:结束。
定时任务不断检测物理机状态,在满足网络不通和电源状态异常时执行故障恢复;以有效区分网络阻塞还是物理机故障,防止错误判断导致两边启动相同的虚拟机、同时读写同一个镜像。
前述cpu负载策略是指调度器会寻找cpu较低的物理机节点来分配,可以有效做到负载均衡。配置文件是指创建虚拟机的时候就以xml形式记录下这台虚拟机配置属性。创建虚拟机是指libvirt命令里面的virshdefine,根据配置文件,通过NFS上面的镜像创建出跟原有一样的虚拟机。启动虚拟机是指libvirt命令里面的virshstart,可以启动某一台虚拟机。ipmi是一个智能平台管理服务器,可以检测物理机健康特征,如温度、电压、风扇工作状态、电源状态等。NFS是一个网络文件系统,允许网络中的计算机之间通过TCP/IP网络共享资源。
本发明通过物理机执行libvirt命令来实现虚拟机的冷迁移,存储数据依赖于NFS网络文件系统保证数据完整和一致性。
本发明的:
监控器伪代码:
监听器线程定时执行run方法,检测节点状态,代码如下:
控制器伪代码:
收到监控发送的指令,执行故障恢复的业务流程,获取故障节点上面的虚拟机,然后根据虚拟机需要的资源通过调度器获取可用节点,然后发送告警邮件,代码如下:
调度器代码:
根据请求的cpu数量,内存数量,虚拟机数量来获取可用的节点,代码如下:
备选节点伪代码:

Claims (10)

1.一种虚拟机故障检测和恢复的方法,其特征在于:所述的方法包括如下步骤:
步骤1:部署一个NFS网络文件系统环境,在NFS服务器上面建立一个挂载点,把镜像放在NFS服务器的挂载点上,所有节点都挂载共享存储,然后用该镜像创建一台虚拟机;
步骤2:启动检测节点定时器,检测网络和电源是否处于正常状态,否则需要向调度器发送故障恢复指令;
步骤3:通过调度器根据预先设定的cpu负载策略等调度规选择可用的节点;
步骤4:根据创建虚拟机的时候生成的配置文件,重新生成一台跟原来一样的虚拟机;
步骤5:启动创建完的虚拟机;
步骤6:结束。
2.根据权利要求1所述的虚拟机故障检测和恢复的方法,其特征在于:定时任务不断检测物理机状态,在满足网络不通和电源状态异常时执行故障恢复;以有效区分网络阻塞还是物理机故障,防止错误判断导致两边启动相同的虚拟机、同时读写同一个镜像。
3.根据权利要求1所述的虚拟机故障检测和恢复的方法,其特征在于:
所述cpu负载策略是指调度器会寻找cpu较低的物理机节点来分配,可以有效做到负载均衡;
所述配置文件是指创建虚拟机的时候就以xml形式记录下这台虚拟机配置属性;
所述创建虚拟机是指libvirt命令里面的virshdefine,根据配置文件,通过NFS上面的镜像创建出跟原有一样的虚拟机;
所述启动虚拟机是指libvirt命令里面的virshstart,可以启动某一台虚拟机;
所述ipmi是一个智能平台管理服务器,可以检测物理机健康特征,如温度、电压、风扇工作状态、电源状态等;
所述NFS是一个网络文件系统,允许网络中的计算机之间通过TCP/IP网络共享资源。
4.根据权利要求2所述的虚拟机故障检测和恢复的方法,其特征在于:
所述cpu负载策略是指调度器会寻找cpu较低的物理机节点来分配,可以有效做到负载均衡;
所述配置文件是指创建虚拟机的时候就以xml形式记录下这台虚拟机配置属性;
所述创建虚拟机是指libvirt命令里面的virshdefine,根据配置文件,通过NFS上面的镜像创建出跟原有一样的虚拟机;
所述启动虚拟机是指libvirt命令里面的virshstart,可以启动某一台虚拟机;
所述ipmi是一个智能平台管理服务器,可以检测物理机健康特征,如温度、电压、风扇工作状态、电源状态等;
所述NFS是一个网络文件系统,允许网络中的计算机之间通过TCP/IP网络共享资源。
5.根据权利要求1至4任一项所述的一种虚拟机故障检测和恢复的方法,其特征在于:通过物理机执行libvirt命令来实现虚拟机的冷迁移,存储数据依赖于NFS网络文件系统保证数据完整和一致性。
6.根据权利要求1至4任一项所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的调度规则指的是策略可以同时满足多个,也可以有指定的规则限制虚拟机。
7.根据权利要求5所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的调度规则指的是策略可以同时满足多个,也可以有指定的规则限制虚拟机。
8.根据权利要求1至4任一项所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的重新生成一台跟原来一样的虚拟机,指的是创建虚拟机生成出来的配置文件跟原来的虚拟机配置一样,并且镜像文件和磁盘文件跟原来一样,因而生成出来的虚拟机跟故障前的虚拟机一模一样,上面的业务数据也保持故障前的一致。
9.根据权利要求5所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的重新生成一台跟原来一样的虚拟机,指的是创建虚拟机生成出来的配置文件跟原来的虚拟机配置一样,并且镜像文件和磁盘文件跟原来一样,因而生成出来的虚拟机跟故障前的虚拟机一模一样,上面的业务数据也保持故障前的一致。
10.根据权利要求6所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的重新生成一台跟原来一样的虚拟机,指的是创建虚拟机生成出来的配置文件跟原来的虚拟机配置一样,并且镜像文件和磁盘文件跟原来一样,因而生成出来的虚拟机跟故障前的虚拟机一模一样,上面的业务数据也保持故障前的一致。
CN201510777745.3A 2015-11-12 2015-11-12 一种虚拟机故障检测和恢复的方法 Pending CN105335214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510777745.3A CN105335214A (zh) 2015-11-12 2015-11-12 一种虚拟机故障检测和恢复的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510777745.3A CN105335214A (zh) 2015-11-12 2015-11-12 一种虚拟机故障检测和恢复的方法

Publications (1)

Publication Number Publication Date
CN105335214A true CN105335214A (zh) 2016-02-17

Family

ID=55285773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510777745.3A Pending CN105335214A (zh) 2015-11-12 2015-11-12 一种虚拟机故障检测和恢复的方法

Country Status (1)

Country Link
CN (1) CN105335214A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808381A (zh) * 2016-03-05 2016-07-27 成都云祺科技有限公司 一种虚拟机瞬时恢复方法
CN106445684A (zh) * 2016-09-14 2017-02-22 郑州云海信息技术有限公司 一种服务部署方法及装置
CN106972970A (zh) * 2017-03-31 2017-07-21 山东超越数控电子有限公司 一种避免oVirt云平台管理节点单点故障的方法
CN107122229A (zh) * 2017-04-21 2017-09-01 紫光华山信息技术有限公司 一种虚拟机恢复方法及装置
CN107426012A (zh) * 2017-05-27 2017-12-01 深信服科技股份有限公司 一种基于超融合架构的故障恢复方法及其装置
CN107590033A (zh) * 2017-09-07 2018-01-16 网宿科技股份有限公司 一种创建docker容器的方法、装置和系统
CN107656796A (zh) * 2017-09-04 2018-02-02 顺丰科技有限公司 一种虚拟机冷迁移方法、系统及设备
CN107885758A (zh) * 2016-09-30 2018-04-06 华为技术有限公司 一种虚拟节点的数据迁移方法和虚拟节点
CN108121558A (zh) * 2017-12-29 2018-06-05 上海优刻得信息科技有限公司 软件更新方法、装置、存储介质及设备
CN108958883A (zh) * 2018-06-15 2018-12-07 北京奇艺世纪科技有限公司 云计算集群中虚拟机的恢复方法及系统
CN109710378A (zh) * 2018-12-18 2019-05-03 广东微云科技股份有限公司 虚拟机的故障检测方法
CN110968444A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 云计算平台的数据处理方法和装置
CN111158851A (zh) * 2019-12-10 2020-05-15 航天物联网技术有限公司 一种虚拟机快速部署方法
CN112148485A (zh) * 2020-09-16 2020-12-29 杭州安恒信息技术股份有限公司 超融合平台故障恢复方法、装置、电子装置和存储介质
CN114185641A (zh) * 2021-11-11 2022-03-15 北京百度网讯科技有限公司 虚拟机冷迁移方法、装置、电子设备及存储介质
WO2023020141A1 (zh) * 2021-08-19 2023-02-23 北京字节跳动网络技术有限公司 云服务器控制方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398770A (zh) * 2007-09-30 2009-04-01 赛门铁克公司 迁移一个或多个虚拟机的系统和方法
CN101425021A (zh) * 2007-10-31 2009-05-06 卢玉英 基于虚拟机技术的个人计算机可迁移应用模式
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398770A (zh) * 2007-09-30 2009-04-01 赛门铁克公司 迁移一个或多个虚拟机的系统和方法
CN101425021A (zh) * 2007-10-31 2009-05-06 卢玉英 基于虚拟机技术的个人计算机可迁移应用模式
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808381A (zh) * 2016-03-05 2016-07-27 成都云祺科技有限公司 一种虚拟机瞬时恢复方法
CN105808381B (zh) * 2016-03-05 2018-11-02 成都云祺科技有限公司 一种虚拟机瞬时恢复方法
CN106445684A (zh) * 2016-09-14 2017-02-22 郑州云海信息技术有限公司 一种服务部署方法及装置
CN107885758A (zh) * 2016-09-30 2018-04-06 华为技术有限公司 一种虚拟节点的数据迁移方法和虚拟节点
CN107885758B (zh) * 2016-09-30 2021-11-19 华为技术有限公司 一种虚拟节点的数据迁移方法和虚拟节点
CN106972970A (zh) * 2017-03-31 2017-07-21 山东超越数控电子有限公司 一种避免oVirt云平台管理节点单点故障的方法
CN107122229A (zh) * 2017-04-21 2017-09-01 紫光华山信息技术有限公司 一种虚拟机恢复方法及装置
CN107426012A (zh) * 2017-05-27 2017-12-01 深信服科技股份有限公司 一种基于超融合架构的故障恢复方法及其装置
CN107656796B (zh) * 2017-09-04 2021-02-12 顺丰科技有限公司 一种虚拟机冷迁移方法、系统及设备
CN107656796A (zh) * 2017-09-04 2018-02-02 顺丰科技有限公司 一种虚拟机冷迁移方法、系统及设备
CN107590033A (zh) * 2017-09-07 2018-01-16 网宿科技股份有限公司 一种创建docker容器的方法、装置和系统
CN108121558A (zh) * 2017-12-29 2018-06-05 上海优刻得信息科技有限公司 软件更新方法、装置、存储介质及设备
CN108958883A (zh) * 2018-06-15 2018-12-07 北京奇艺世纪科技有限公司 云计算集群中虚拟机的恢复方法及系统
CN108958883B (zh) * 2018-06-15 2021-04-09 北京奇艺世纪科技有限公司 云计算集群中虚拟机的恢复方法及系统
CN110968444A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 云计算平台的数据处理方法和装置
CN109710378A (zh) * 2018-12-18 2019-05-03 广东微云科技股份有限公司 虚拟机的故障检测方法
CN111158851A (zh) * 2019-12-10 2020-05-15 航天物联网技术有限公司 一种虚拟机快速部署方法
CN111158851B (zh) * 2019-12-10 2022-04-29 航天物联网技术有限公司 一种虚拟机快速部署方法
CN112148485A (zh) * 2020-09-16 2020-12-29 杭州安恒信息技术股份有限公司 超融合平台故障恢复方法、装置、电子装置和存储介质
WO2023020141A1 (zh) * 2021-08-19 2023-02-23 北京字节跳动网络技术有限公司 云服务器控制方法、装置、存储介质及电子设备
CN114185641A (zh) * 2021-11-11 2022-03-15 北京百度网讯科技有限公司 虚拟机冷迁移方法、装置、电子设备及存储介质
CN114185641B (zh) * 2021-11-11 2024-02-27 北京百度网讯科技有限公司 虚拟机冷迁移方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105335214A (zh) 一种虚拟机故障检测和恢复的方法
US11106388B2 (en) Monitoring storage cluster elements
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
CN108270726B (zh) 应用实例部署方法及装置
CN108023967B (zh) 一种数据平衡方法、装置及分布式存储系统中的管理设备
CN105245381B (zh) 云服务器宕机监控迁移系统和方法
US9292371B1 (en) Systems and methods for preventing failures of nodes in clusters
JP2020035430A (ja) ホットバックアップシステム、ホットバックアップ方法、及びコンピュータ機器
CN106371974A (zh) Docker容器内应用程序的监控方法和发布平台
CN102394914A (zh) 集群脑裂处理方法和装置
WO2016183967A1 (zh) 一种关键组件的故障告警方法、装置及大数据管理系统
CN105812169B (zh) 一种主备机切换方法及装置
CN111813497A (zh) 一种容器环境异常检测的方法、装置、介质及计算机设备
CN103581322A (zh) 一种监控服务器的方法、系统及一种服务器设备
CN106021070A (zh) 服务器集群监测方法及装置
CN105335256A (zh) 在整机柜服务器中切换备份磁盘的方法、装置和系统
CN108694093A (zh) 进程异常监控方法及装置
CN112256498A (zh) 一种故障处理的方法和装置
CN104753992A (zh) 一种数据存储、虚拟平台故障恢复的方法、设备和系统
CN103902401B (zh) 基于监控的虚拟机容错方法及装置
CN110708177B (zh) 分布式系统中的异常处理方法、系统和装置
CN110413435A (zh) 一种通信故障恢复方法、系统及相关组件
CN105849699B (zh) 控制数据中心架构设备的方法
WO2015034500A1 (en) Storage array confirmation of use of a path
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160217