CN105335214A - 一种虚拟机故障检测和恢复的方法 - Google Patents
一种虚拟机故障检测和恢复的方法 Download PDFInfo
- Publication number
- CN105335214A CN105335214A CN201510777745.3A CN201510777745A CN105335214A CN 105335214 A CN105335214 A CN 105335214A CN 201510777745 A CN201510777745 A CN 201510777745A CN 105335214 A CN105335214 A CN 105335214A
- Authority
- CN
- China
- Prior art keywords
- virtual machine
- machine
- virtual
- nfs
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明涉及云计算与网络技术领域,特别是一种虚拟机故障检测和恢复的方法。本发明包括:1、部署一个NFS网络文件系统环境,在NFS服务器上面建立一个挂载点,把镜像放在NFS服务器的挂载点上,所有节点都挂载共享存储,然后用该镜像创建一台虚拟机;2:启动检测节点定时器,检测网络和电源是否处于正常状态,否则需要向调度器发送故障恢复指令;3:通过调度器根据预先设定的cpu负载策略等调度规选择可用的节点;4:根据创建虚拟机的时候生成的配置文件,重新生成一台跟原来一样的虚拟机;5:启动创建完的虚拟机;本发明解决了物理机节点宕机之后的虚拟机继续用问题;可以用于拟机故障检测和恢复。
Description
技术领域
本发明涉及云计算与网络技术领域,特别是一种虚拟机故障检测和恢复的方法。
背景技术
随着云计算行业日益发展,信息安全早已成为众人关注的焦点。数据的安全和应用业务运行的稳定性越来越重要,如果物理机发生故障,没有及时将虚拟机进行迁移,会带来以下问题:
一是虚拟机上的业务中断,外界无法继续进行访问,业务也无法继续进行,导致给用户带来的损失不断增加。
二是数据丢失,没有了故障恢复机制,虚拟机上的数据不能得以迁移,导致故障前的数据不能继续使用,业务也无法继续正常进行,人工修复数据工作量大,又消耗时间长。
三是用户不能及时得知物理机故障消息,业务中断也有可能无人知晓。
四是运维人员恢复虚拟机难度大,步骤复杂繁琐,易出错。
为了提升虚拟机的稳定性,增强虚拟机上面应用的稳定性,需要一种通过虚拟机故障检测和恢复的方法,就算遭遇节点故障,也能在较短时间内执行故障恢复,让虚拟机在别的节点上启动起来,减少带来的损失。
发明内容
本发明解决的技术问题在于提供一种虚拟机故障检测和恢复的方法,解决了节点故障带来的业务中断问题,能在较短时间内自动实现故障恢复,启动虚拟机继续运行业务。
本发明解决上述技术问题的技术方案是:
所述的方法包括如下步骤:
步骤1:部署一个NFS网络文件系统环境,在NFS服务器上面建立一个挂载点,把镜像放在NFS服务器的挂载点上,所有节点都挂载共享存储,然后用该镜像创建一台虚拟机;
步骤2:启动检测节点定时器,检测网络和电源是否处于正常状态,否则需要向调度器发送故障恢复指令;
步骤3:通过调度器根据预先设定的cpu负载策略等调度规选择可用的节点;
步骤4:根据创建虚拟机的时候生成的配置文件,重新生成一台跟原来一样的虚拟机;
步骤5:启动创建完的虚拟机;
步骤6:结束。
定时任务不断检测物理机状态,在满足网络不通和电源状态异常时执行故障恢复;以有效区分网络阻塞还是物理机故障,防止错误判断导致两边启动相同的虚拟机、同时读写同一个镜像。
所述cpu负载策略是指调度器会寻找cpu较低的物理机节点来分配,可以有效做到负载均衡;
所述配置文件是指创建虚拟机的时候就以xml形式记录下这台虚拟机配置属性;
所述创建虚拟机是指libvirt命令里面的virshdefine,根据配置文件,通过NFS上面的镜像创建出跟原有一样的虚拟机;
所述启动虚拟机是指libvirt命令里面的virshstart,可以启动某一台虚拟机;
所述ipmi是一个智能平台管理服务器,可以检测物理机健康特征,如温度、电压、风扇工作状态、电源状态等;
所述NFS是一个网络文件系统,允许网络中的计算机之间通过TCP/IP网络共享资源。
通过物理机执行libvirt命令来实现虚拟机的冷迁移,存储数据依赖于NFS网络文件系统保证数据完整和一致性。
所述的调度规则指的是策略可以同时满足多个,也可以有指定的规则限制虚拟机。
所述的重新生成一台跟原来一样的虚拟机,指的是创建虚拟机生成出来的配置文件跟原来的虚拟机配置一样,并且镜像文件和磁盘文件跟原来一样,因而生成出来的虚拟机跟故障前的虚拟机一模一样,上面的业务数据也保持故障前的一致。
本发明通过定时检测来发送故障恢复指令,让虚拟机在另一个节点服务器上启动。现在云计算上千个节点的场景好多,节点失去连接也成为常事,为了防止业务中断,我们需要快速自动将故障节点上面的虚拟机进行迁移,保证业务可以尽快恢复,也能让用户第一时间知道节点故障。检测机制也能区分开始网络阻塞还是节点故障,更加智能地执行故障恢复,防止错误迁移虚拟机。让集群上面的虚拟机可以更加稳定地运行,当节点发生故障的时候,将损失降到最低,保护了用户的数据。
附图说明
下面结合附图对本发明进一步说明:
图1为本发明方法流程图;
图2为本发明故障恢复模块结构框图。
具体实施方式
见图1、2所示,本发明的方法包括如下步骤:
步骤1:部署一个NFS网络文件系统环境,在NFS服务器上面建立一个挂载点,把镜像放在NFS服务器的挂载点上,所有节点都挂载共享存储,然后用该镜像创建一台虚拟机;
步骤2:启动检测节点定时器,检测网络和电源是否处于正常状态,否则需要向调度器发送故障恢复指令;
步骤3:通过调度器根据预先设定的cpu负载策略等调度规选择可用的节点;
步骤4:根据创建虚拟机的时候生成的配置文件,重新生成一台跟原来一样的虚拟机;
步骤5:启动创建完的虚拟机;
步骤6:结束。
定时任务不断检测物理机状态,在满足网络不通和电源状态异常时执行故障恢复;以有效区分网络阻塞还是物理机故障,防止错误判断导致两边启动相同的虚拟机、同时读写同一个镜像。
前述cpu负载策略是指调度器会寻找cpu较低的物理机节点来分配,可以有效做到负载均衡。配置文件是指创建虚拟机的时候就以xml形式记录下这台虚拟机配置属性。创建虚拟机是指libvirt命令里面的virshdefine,根据配置文件,通过NFS上面的镜像创建出跟原有一样的虚拟机。启动虚拟机是指libvirt命令里面的virshstart,可以启动某一台虚拟机。ipmi是一个智能平台管理服务器,可以检测物理机健康特征,如温度、电压、风扇工作状态、电源状态等。NFS是一个网络文件系统,允许网络中的计算机之间通过TCP/IP网络共享资源。
本发明通过物理机执行libvirt命令来实现虚拟机的冷迁移,存储数据依赖于NFS网络文件系统保证数据完整和一致性。
本发明的:
监控器伪代码:
监听器线程定时执行run方法,检测节点状态,代码如下:
控制器伪代码:
收到监控发送的指令,执行故障恢复的业务流程,获取故障节点上面的虚拟机,然后根据虚拟机需要的资源通过调度器获取可用节点,然后发送告警邮件,代码如下:
调度器代码:
根据请求的cpu数量,内存数量,虚拟机数量来获取可用的节点,代码如下:
备选节点伪代码:
Claims (10)
1.一种虚拟机故障检测和恢复的方法,其特征在于:所述的方法包括如下步骤:
步骤1:部署一个NFS网络文件系统环境,在NFS服务器上面建立一个挂载点,把镜像放在NFS服务器的挂载点上,所有节点都挂载共享存储,然后用该镜像创建一台虚拟机;
步骤2:启动检测节点定时器,检测网络和电源是否处于正常状态,否则需要向调度器发送故障恢复指令;
步骤3:通过调度器根据预先设定的cpu负载策略等调度规选择可用的节点;
步骤4:根据创建虚拟机的时候生成的配置文件,重新生成一台跟原来一样的虚拟机;
步骤5:启动创建完的虚拟机;
步骤6:结束。
2.根据权利要求1所述的虚拟机故障检测和恢复的方法,其特征在于:定时任务不断检测物理机状态,在满足网络不通和电源状态异常时执行故障恢复;以有效区分网络阻塞还是物理机故障,防止错误判断导致两边启动相同的虚拟机、同时读写同一个镜像。
3.根据权利要求1所述的虚拟机故障检测和恢复的方法,其特征在于:
所述cpu负载策略是指调度器会寻找cpu较低的物理机节点来分配,可以有效做到负载均衡;
所述配置文件是指创建虚拟机的时候就以xml形式记录下这台虚拟机配置属性;
所述创建虚拟机是指libvirt命令里面的virshdefine,根据配置文件,通过NFS上面的镜像创建出跟原有一样的虚拟机;
所述启动虚拟机是指libvirt命令里面的virshstart,可以启动某一台虚拟机;
所述ipmi是一个智能平台管理服务器,可以检测物理机健康特征,如温度、电压、风扇工作状态、电源状态等;
所述NFS是一个网络文件系统,允许网络中的计算机之间通过TCP/IP网络共享资源。
4.根据权利要求2所述的虚拟机故障检测和恢复的方法,其特征在于:
所述cpu负载策略是指调度器会寻找cpu较低的物理机节点来分配,可以有效做到负载均衡;
所述配置文件是指创建虚拟机的时候就以xml形式记录下这台虚拟机配置属性;
所述创建虚拟机是指libvirt命令里面的virshdefine,根据配置文件,通过NFS上面的镜像创建出跟原有一样的虚拟机;
所述启动虚拟机是指libvirt命令里面的virshstart,可以启动某一台虚拟机;
所述ipmi是一个智能平台管理服务器,可以检测物理机健康特征,如温度、电压、风扇工作状态、电源状态等;
所述NFS是一个网络文件系统,允许网络中的计算机之间通过TCP/IP网络共享资源。
5.根据权利要求1至4任一项所述的一种虚拟机故障检测和恢复的方法,其特征在于:通过物理机执行libvirt命令来实现虚拟机的冷迁移,存储数据依赖于NFS网络文件系统保证数据完整和一致性。
6.根据权利要求1至4任一项所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的调度规则指的是策略可以同时满足多个,也可以有指定的规则限制虚拟机。
7.根据权利要求5所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的调度规则指的是策略可以同时满足多个,也可以有指定的规则限制虚拟机。
8.根据权利要求1至4任一项所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的重新生成一台跟原来一样的虚拟机,指的是创建虚拟机生成出来的配置文件跟原来的虚拟机配置一样,并且镜像文件和磁盘文件跟原来一样,因而生成出来的虚拟机跟故障前的虚拟机一模一样,上面的业务数据也保持故障前的一致。
9.根据权利要求5所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的重新生成一台跟原来一样的虚拟机,指的是创建虚拟机生成出来的配置文件跟原来的虚拟机配置一样,并且镜像文件和磁盘文件跟原来一样,因而生成出来的虚拟机跟故障前的虚拟机一模一样,上面的业务数据也保持故障前的一致。
10.根据权利要求6所述的一种虚拟机故障检测和恢复的方法,其特征在于:所述的重新生成一台跟原来一样的虚拟机,指的是创建虚拟机生成出来的配置文件跟原来的虚拟机配置一样,并且镜像文件和磁盘文件跟原来一样,因而生成出来的虚拟机跟故障前的虚拟机一模一样,上面的业务数据也保持故障前的一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510777745.3A CN105335214A (zh) | 2015-11-12 | 2015-11-12 | 一种虚拟机故障检测和恢复的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510777745.3A CN105335214A (zh) | 2015-11-12 | 2015-11-12 | 一种虚拟机故障检测和恢复的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105335214A true CN105335214A (zh) | 2016-02-17 |
Family
ID=55285773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510777745.3A Pending CN105335214A (zh) | 2015-11-12 | 2015-11-12 | 一种虚拟机故障检测和恢复的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105335214A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808381A (zh) * | 2016-03-05 | 2016-07-27 | 成都云祺科技有限公司 | 一种虚拟机瞬时恢复方法 |
CN106445684A (zh) * | 2016-09-14 | 2017-02-22 | 郑州云海信息技术有限公司 | 一种服务部署方法及装置 |
CN106972970A (zh) * | 2017-03-31 | 2017-07-21 | 山东超越数控电子有限公司 | 一种避免oVirt云平台管理节点单点故障的方法 |
CN107122229A (zh) * | 2017-04-21 | 2017-09-01 | 紫光华山信息技术有限公司 | 一种虚拟机恢复方法及装置 |
CN107426012A (zh) * | 2017-05-27 | 2017-12-01 | 深信服科技股份有限公司 | 一种基于超融合架构的故障恢复方法及其装置 |
CN107590033A (zh) * | 2017-09-07 | 2018-01-16 | 网宿科技股份有限公司 | 一种创建docker容器的方法、装置和系统 |
CN107656796A (zh) * | 2017-09-04 | 2018-02-02 | 顺丰科技有限公司 | 一种虚拟机冷迁移方法、系统及设备 |
CN107885758A (zh) * | 2016-09-30 | 2018-04-06 | 华为技术有限公司 | 一种虚拟节点的数据迁移方法和虚拟节点 |
CN108121558A (zh) * | 2017-12-29 | 2018-06-05 | 上海优刻得信息科技有限公司 | 软件更新方法、装置、存储介质及设备 |
CN108958883A (zh) * | 2018-06-15 | 2018-12-07 | 北京奇艺世纪科技有限公司 | 云计算集群中虚拟机的恢复方法及系统 |
CN109710378A (zh) * | 2018-12-18 | 2019-05-03 | 广东微云科技股份有限公司 | 虚拟机的故障检测方法 |
CN110968444A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 云计算平台的数据处理方法和装置 |
CN111158851A (zh) * | 2019-12-10 | 2020-05-15 | 航天物联网技术有限公司 | 一种虚拟机快速部署方法 |
CN112148485A (zh) * | 2020-09-16 | 2020-12-29 | 杭州安恒信息技术股份有限公司 | 超融合平台故障恢复方法、装置、电子装置和存储介质 |
CN114185641A (zh) * | 2021-11-11 | 2022-03-15 | 北京百度网讯科技有限公司 | 虚拟机冷迁移方法、装置、电子设备及存储介质 |
WO2023020141A1 (zh) * | 2021-08-19 | 2023-02-23 | 北京字节跳动网络技术有限公司 | 云服务器控制方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398770A (zh) * | 2007-09-30 | 2009-04-01 | 赛门铁克公司 | 迁移一个或多个虚拟机的系统和方法 |
CN101425021A (zh) * | 2007-10-31 | 2009-05-06 | 卢玉英 | 基于虚拟机技术的个人计算机可迁移应用模式 |
CN102819465A (zh) * | 2012-06-29 | 2012-12-12 | 华中科技大学 | 一种虚拟化环境中故障恢复的方法 |
-
2015
- 2015-11-12 CN CN201510777745.3A patent/CN105335214A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398770A (zh) * | 2007-09-30 | 2009-04-01 | 赛门铁克公司 | 迁移一个或多个虚拟机的系统和方法 |
CN101425021A (zh) * | 2007-10-31 | 2009-05-06 | 卢玉英 | 基于虚拟机技术的个人计算机可迁移应用模式 |
CN102819465A (zh) * | 2012-06-29 | 2012-12-12 | 华中科技大学 | 一种虚拟化环境中故障恢复的方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808381A (zh) * | 2016-03-05 | 2016-07-27 | 成都云祺科技有限公司 | 一种虚拟机瞬时恢复方法 |
CN105808381B (zh) * | 2016-03-05 | 2018-11-02 | 成都云祺科技有限公司 | 一种虚拟机瞬时恢复方法 |
CN106445684A (zh) * | 2016-09-14 | 2017-02-22 | 郑州云海信息技术有限公司 | 一种服务部署方法及装置 |
CN107885758A (zh) * | 2016-09-30 | 2018-04-06 | 华为技术有限公司 | 一种虚拟节点的数据迁移方法和虚拟节点 |
CN107885758B (zh) * | 2016-09-30 | 2021-11-19 | 华为技术有限公司 | 一种虚拟节点的数据迁移方法和虚拟节点 |
CN106972970A (zh) * | 2017-03-31 | 2017-07-21 | 山东超越数控电子有限公司 | 一种避免oVirt云平台管理节点单点故障的方法 |
CN107122229A (zh) * | 2017-04-21 | 2017-09-01 | 紫光华山信息技术有限公司 | 一种虚拟机恢复方法及装置 |
CN107426012A (zh) * | 2017-05-27 | 2017-12-01 | 深信服科技股份有限公司 | 一种基于超融合架构的故障恢复方法及其装置 |
CN107656796B (zh) * | 2017-09-04 | 2021-02-12 | 顺丰科技有限公司 | 一种虚拟机冷迁移方法、系统及设备 |
CN107656796A (zh) * | 2017-09-04 | 2018-02-02 | 顺丰科技有限公司 | 一种虚拟机冷迁移方法、系统及设备 |
CN107590033A (zh) * | 2017-09-07 | 2018-01-16 | 网宿科技股份有限公司 | 一种创建docker容器的方法、装置和系统 |
CN108121558A (zh) * | 2017-12-29 | 2018-06-05 | 上海优刻得信息科技有限公司 | 软件更新方法、装置、存储介质及设备 |
CN108958883A (zh) * | 2018-06-15 | 2018-12-07 | 北京奇艺世纪科技有限公司 | 云计算集群中虚拟机的恢复方法及系统 |
CN108958883B (zh) * | 2018-06-15 | 2021-04-09 | 北京奇艺世纪科技有限公司 | 云计算集群中虚拟机的恢复方法及系统 |
CN110968444A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 云计算平台的数据处理方法和装置 |
CN109710378A (zh) * | 2018-12-18 | 2019-05-03 | 广东微云科技股份有限公司 | 虚拟机的故障检测方法 |
CN111158851A (zh) * | 2019-12-10 | 2020-05-15 | 航天物联网技术有限公司 | 一种虚拟机快速部署方法 |
CN111158851B (zh) * | 2019-12-10 | 2022-04-29 | 航天物联网技术有限公司 | 一种虚拟机快速部署方法 |
CN112148485A (zh) * | 2020-09-16 | 2020-12-29 | 杭州安恒信息技术股份有限公司 | 超融合平台故障恢复方法、装置、电子装置和存储介质 |
WO2023020141A1 (zh) * | 2021-08-19 | 2023-02-23 | 北京字节跳动网络技术有限公司 | 云服务器控制方法、装置、存储介质及电子设备 |
CN114185641A (zh) * | 2021-11-11 | 2022-03-15 | 北京百度网讯科技有限公司 | 虚拟机冷迁移方法、装置、电子设备及存储介质 |
CN114185641B (zh) * | 2021-11-11 | 2024-02-27 | 北京百度网讯科技有限公司 | 虚拟机冷迁移方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105335214A (zh) | 一种虚拟机故障检测和恢复的方法 | |
US11106388B2 (en) | Monitoring storage cluster elements | |
CN105095001B (zh) | 分布式环境下虚拟机异常恢复方法 | |
CN108270726B (zh) | 应用实例部署方法及装置 | |
CN108023967B (zh) | 一种数据平衡方法、装置及分布式存储系统中的管理设备 | |
CN105245381B (zh) | 云服务器宕机监控迁移系统和方法 | |
US9292371B1 (en) | Systems and methods for preventing failures of nodes in clusters | |
JP2020035430A (ja) | ホットバックアップシステム、ホットバックアップ方法、及びコンピュータ機器 | |
CN106371974A (zh) | Docker容器内应用程序的监控方法和发布平台 | |
CN102394914A (zh) | 集群脑裂处理方法和装置 | |
WO2016183967A1 (zh) | 一种关键组件的故障告警方法、装置及大数据管理系统 | |
CN105812169B (zh) | 一种主备机切换方法及装置 | |
CN111813497A (zh) | 一种容器环境异常检测的方法、装置、介质及计算机设备 | |
CN103581322A (zh) | 一种监控服务器的方法、系统及一种服务器设备 | |
CN106021070A (zh) | 服务器集群监测方法及装置 | |
CN105335256A (zh) | 在整机柜服务器中切换备份磁盘的方法、装置和系统 | |
CN108694093A (zh) | 进程异常监控方法及装置 | |
CN112256498A (zh) | 一种故障处理的方法和装置 | |
CN104753992A (zh) | 一种数据存储、虚拟平台故障恢复的方法、设备和系统 | |
CN103902401B (zh) | 基于监控的虚拟机容错方法及装置 | |
CN110708177B (zh) | 分布式系统中的异常处理方法、系统和装置 | |
CN110413435A (zh) | 一种通信故障恢复方法、系统及相关组件 | |
CN105849699B (zh) | 控制数据中心架构设备的方法 | |
WO2015034500A1 (en) | Storage array confirmation of use of a path | |
CN109271270A (zh) | 存储系统中底层硬件的故障排除方法、系统及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160217 |