CN109522145A - 一种虚拟机故障自动恢复系统及其方法 - Google Patents

一种虚拟机故障自动恢复系统及其方法 Download PDF

Info

Publication number
CN109522145A
CN109522145A CN201811351494.2A CN201811351494A CN109522145A CN 109522145 A CN109522145 A CN 109522145A CN 201811351494 A CN201811351494 A CN 201811351494A CN 109522145 A CN109522145 A CN 109522145A
Authority
CN
China
Prior art keywords
node
recovery system
automatic recovery
openstack
pacemaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811351494.2A
Other languages
English (en)
Inventor
杨顺卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU HONGXIN SYSTEM INTEGRATION CO Ltd
Original Assignee
JIANGSU HONGXIN SYSTEM INTEGRATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU HONGXIN SYSTEM INTEGRATION CO Ltd filed Critical JIANGSU HONGXIN SYSTEM INTEGRATION CO Ltd
Priority to CN201811351494.2A priority Critical patent/CN109522145A/zh
Publication of CN109522145A publication Critical patent/CN109522145A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种虚拟机故障自动恢复系统及其方法,包含Openstack云平台、pacemaker集群和自动恢复系统;Openstack云平台用于云主机的创建、管理及疏散;pacemaker集群用于Openstack云平台集群灾难预警及高可用,一旦某个计算节点出现故障,Pacemaker将调用自动恢复系统;自动恢复系统接收Pacemaker的故障信号,根据信号的类型执行相应的动作。本发明能有效的缩短业务故障恢复的时间,同时大大降低了运维人员的运维成本。

Description

一种虚拟机故障自动恢复系统及其方法
技术领域
本发明涉及一种自动恢复系统及其方法,特别是一种虚拟机故障自动恢复系统及其方法。
背景技术
随着企业规模的扩展,部署私有云服务来满足公司业务的发展已成为一种趋势。然而在云服务平台的维护当中,运维人员面对的最棘手的问题就是保证服务的高可用以及快速恢复。虚拟机故障自动恢复解决方案的出现则可通过虚拟机的及时迁移实现业务的快速恢复。
目前常见的业务高可用方法基本都是采用双活这种模式,虽然保证了业务的高可用,但是对于出故障的服务器,后续还需要运维人员排查问题,花费大量时间来恢复。无疑这种方法的成本太高,同时也会造成服务器硬件资源的浪费。
发明内容
本发明所要解决的技术问题是提供一种虚拟机故障自动恢复系统及其方法,能有效的缩短业务故障恢复的时间,同时大大降低了运维人员的运维成本。
为解决上述技术问题,本发明所采用的技术方案是:
一种虚拟机故障自动恢复系统,其特征在于:包含Openstack云平台、pacemaker集群和自动恢复系统;
Openstack云平台用于云主机的创建、管理及疏散;
pacemaker集群用于Openstack云平台集群灾难预警及高可用,一旦某个计算节点出现故障,Pacemaker将调用自动恢复系统;
自动恢复系统接收Pacemaker的故障信号,根据信号的类型执行相应的动作。
进一步地,虚拟机数据存储于ceph集群中。
进一步地,创建的云主机的详细信息保存于Mysql数据库中。
一种虚拟机故障自动恢复系统的恢复方法,其特征在于包含以下步骤:
步骤一:部署Openstack云平台、pacemaker集群和自动恢复系统;
步骤二:一旦发现计算节点出现故障,则通知自动恢复系统,自动恢复系统则将该计算节点隔离并将其上的虚拟机迁移至正常的计算节点上,然后自动开机恢复其业务;
步骤三:尝试恢复出故障的计算节点,恢复成功后,删除其上原有的虚拟机资源并恢复计算服务,最后将该节点纳入Openstack集群中。
进一步地,所述步骤一具体为部署一套Openstack云平台,底层驱动采用KVM,后端块数据存储采用Ceph分布式存储;在Openstack控制节点部署pacemaker集群,在Openstack计算节点部署pacemaker-remote节点代理,通过pacemaker集群与pacemaker-remote通信来监控Openstack计算节点物理机状态。
进一步地,所述步骤二具体为
当接收到计算节点故障信号后,将该计算节点隔离,并通知openstack控制节点,表明该节点暂时不可用,将该节点进行隔离;然后自动恢复系统调用openstack的疏散功能迁移该节点上面的虚拟机,疏散后的虚拟机会在新的节点上启动。
进一步地,所述步骤三具体为
自动恢复系统通过IPMI来尝试恢复故障计算节点,并继续接收pacemaker发送的有关该故障计算节点的状态信号,当检测到该节点正常的信号后,为避免该节点上面原有的虚拟机启动造成脑裂,自动恢复系统首先清除该节点上的虚拟机信息,然后恢复其计算服务,通知openstack控制节点将其纳入openstack集群中,恢复其提供业务的能力。
本发明与现有技术相比,具有以下优点和效果:本发明不但实现了虚拟机故障的自动恢复,而且也能恢复物理机计算服务;大大的缩短了服务器故障恢复时间,降低了运维人员的运维成本,节省了大量的运维时间;同时相对于业务双活也降低了建设成本。
附图说明
图1是本发明的一种虚拟机故障自动恢复方法的流程图。
具体实施方式
下面通过实施例对本发明作进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
本发明的一种虚拟机故障自动恢复系统,包含Openstack云平台、pacemaker集群和自动恢复系统;
Openstack云平台用于云主机的创建、管理及疏散;虚拟机数据存储于ceph集群中。创建的云主机的详细信息保存于Mysql数据库中。
OpenStack是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作。OpenStack支持几乎所有类型的云环境,项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenStack通过各种互补的服务提供了基础设施即服务(IaaS)的解决方案,每个服务提供API以进行集成。OpenStack云计算平台,帮助服务商和企业内部实现类似于 Amazon EC2 和 S3 的云基础架构服务(Infrastructure as aService, IaaS)。OpenStack 主要包含六大核心模块:Keystone、Glance、Nova、Neutron、Cinder和 Swift,前五大模块是用来部署以及管理虚拟机的模块,Swift作为对象存储可以和前五大模块结合起来使用,也可以单独使用。
pacemaker集群用于Openstack云平台集群灾难预警及高可用,一旦某个计算节点出现故障,Pacemaker将调用自动恢复系统;
Pacemaker是一个集群资源管理器。它利用集群基础构件(OpenAIS 、heartbeat或corosync)提供的消息和成员管理能力来探测并从节点或资源级别的故障中恢复,以实现群集服务(亦称资源)的最大可用性。它可以做几乎任何规模的集群,并带有一个强大的依赖模式,让管理员能够准确地表达集群资源之间的关系(包括顺序和位置)。几乎任何可以编写的脚本,都可以作为管理心跳集群的一部分。
自动恢复系统接收Pacemaker的故障信号,根据信号的类型执行相应的动作。
pacemaker_remote服务允许将没有在corosync中运行的节点整合到该集群,并让该集群如管理真正集群节点一样管理这些资源。就是说Pacemaker集群现在可以管理虚拟环境(KVM/LXC)以及处于虚拟环境中的资源,而无需该虚拟环境真的在pacemaker或corosync中运行。
一种虚拟机故障自动恢复系统的恢复方法,包含以下步骤:
步骤一:部署Openstack云平台、pacemaker集群和自动恢复系统;
部署一套Openstack云平台,底层驱动采用KVM,后端块数据存储采用Ceph分布式存储;在Openstack控制节点部署pacemaker集群,在Openstack计算节点部署pacemaker-remote节点代理,通过pacemaker集群与pacemaker-remote通信来监控Openstack计算节点物理机状态。
步骤二:一旦发现计算节点出现故障,则通知自动恢复系统,自动恢复系统则将该计算节点隔离并将其上的虚拟机迁移至正常的计算节点上,然后自动开机恢复其业务;
当接收到计算节点故障信号后,将该计算节点隔离,并通知openstack控制节点,表明该节点暂时不可用,将该节点进行隔离;然后自动恢复系统调用openstack的疏散功能迁移该节点上面的虚拟机,疏散后的虚拟机会在新的节点上启动。
步骤三:尝试恢复出故障的计算节点,恢复成功后,删除其上原有的虚拟机资源并恢复计算服务,最后将该节点纳入Openstack集群中。
自动恢复系统通过IPMI来尝试恢复故障计算节点,并继续接收pacemaker发送的有关该故障计算节点的状态信号,当检测到该节点正常的信号后,为避免该节点上面原有的虚拟机启动造成脑裂,自动恢复系统首先清除该节点上的虚拟机信息,然后恢复其计算服务(创建虚拟机),通知openstack控制节点将其纳入openstack集群中,恢复其提供业务的能力。
本发明不但实现了虚拟机故障的自动恢复,而且也能恢复物理机计算服务;大大的缩短了服务器故障恢复时间,降低了运维人员的运维成本,节省了大量的运维时间;同时相对于业务双活也降低了建设成本。
本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代,只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (7)

1.一种虚拟机故障自动恢复系统,其特征在于:包含Openstack云平台、pacemaker集群和自动恢复系统;
Openstack云平台用于云主机的创建、管理及疏散;
pacemaker集群用于Openstack云平台集群灾难预警及高可用,一旦某个计算节点出现故障,Pacemaker将调用自动恢复系统;
自动恢复系统接收Pacemaker的故障信号,根据信号的类型执行相应的动作。
2.按照权利要求1所述的一种虚拟机故障自动恢复系统,其特征在于:虚拟机数据存储于ceph集群中。
3.按照权利要求1所述的一种虚拟机故障自动恢复系统,其特征在于:创建的云主机的详细信息保存于Mysql数据库中。
4.一种权利要求1-3任一项所述的虚拟机故障自动恢复系统的恢复方法,其特征在于包含以下步骤:
步骤一:部署Openstack云平台、pacemaker集群和自动恢复系统;
步骤二:一旦发现计算节点出现故障,则通知自动恢复系统,自动恢复系统则将该计算节点隔离并将其上的虚拟机迁移至正常的计算节点上,然后自动开机恢复其业务;
步骤三:尝试恢复出故障的计算节点,恢复成功后,删除其上原有的虚拟机资源并恢复计算服务,最后将该节点纳入Openstack集群中。
5.按照权利要求4所述的一种恢复方法,其特征在于:所述步骤一具体为部署一套Openstack云平台,底层驱动采用KVM,后端块数据存储采用Ceph分布式存储;在Openstack控制节点部署pacemaker集群,在Openstack计算节点部署pacemaker-remote节点代理,通过pacemaker集群与pacemaker-remote通信来监控Openstack计算节点物理机状态。
6.按照权利要求4所述的一种恢复方法,其特征在于:所述步骤二具体为
当接收到计算节点故障信号后,将该计算节点隔离,并通知openstack控制节点,表明该节点暂时不可用,将该节点进行隔离;然后自动恢复系统调用openstack的疏散功能迁移该节点上面的虚拟机,疏散后的虚拟机会在新的节点上启动。
7.按照权利要求4所述的一种恢复方法,其特征在于:所述步骤三具体为
自动恢复系统通过IPMI来尝试恢复故障计算节点,并继续接收pacemaker发送的有关该故障计算节点的状态信号,当检测到该节点正常的信号后,为避免该节点上面原有的虚拟机启动造成脑裂,自动恢复系统首先清除该节点上的虚拟机信息,然后恢复其计算服务,通知openstack控制节点将其纳入openstack集群中,恢复其提供业务的能力。
CN201811351494.2A 2018-11-14 2018-11-14 一种虚拟机故障自动恢复系统及其方法 Pending CN109522145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811351494.2A CN109522145A (zh) 2018-11-14 2018-11-14 一种虚拟机故障自动恢复系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811351494.2A CN109522145A (zh) 2018-11-14 2018-11-14 一种虚拟机故障自动恢复系统及其方法

Publications (1)

Publication Number Publication Date
CN109522145A true CN109522145A (zh) 2019-03-26

Family

ID=65776378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811351494.2A Pending CN109522145A (zh) 2018-11-14 2018-11-14 一种虚拟机故障自动恢复系统及其方法

Country Status (1)

Country Link
CN (1) CN109522145A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112003895A (zh) * 2020-07-24 2020-11-27 苏州浪潮智能科技有限公司 OpenStack云平台中云主机疏散方法、装置、设备及存储介质
CN112398668A (zh) * 2019-08-14 2021-02-23 北京东土科技股份有限公司 一种基于IaaS集群的云平台和节点的切换方法
CN113965459A (zh) * 2021-10-08 2022-01-21 浪潮云信息技术股份公司 基于consul进行主机网络监控实现计算节点高可用的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103595572A (zh) * 2013-11-27 2014-02-19 牛永伟 一种云计算集群中节点自修复的方法
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置
CN107526653A (zh) * 2017-07-31 2017-12-29 华为技术有限公司 一种虚拟机的管理方法和服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103595572A (zh) * 2013-11-27 2014-02-19 牛永伟 一种云计算集群中节点自修复的方法
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置
CN107526653A (zh) * 2017-07-31 2017-12-29 华为技术有限公司 一种虚拟机的管理方法和服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WZISUNICE88: "4年!我对OpenStack运维架构的总结", 《CSDN》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112398668A (zh) * 2019-08-14 2021-02-23 北京东土科技股份有限公司 一种基于IaaS集群的云平台和节点的切换方法
CN112398668B (zh) * 2019-08-14 2022-08-23 北京东土科技股份有限公司 一种基于IaaS集群的云平台和节点的切换方法
CN112003895A (zh) * 2020-07-24 2020-11-27 苏州浪潮智能科技有限公司 OpenStack云平台中云主机疏散方法、装置、设备及存储介质
CN113965459A (zh) * 2021-10-08 2022-01-21 浪潮云信息技术股份公司 基于consul进行主机网络监控实现计算节点高可用的方法

Similar Documents

Publication Publication Date Title
CN106919346B (zh) 一种基于clvm的共享存储虚拟化实现方法
US10169173B2 (en) Preserving management services with distributed metadata through the disaster recovery life cycle
CN102394774B (zh) 一种云计算操作系统的控制器服务状态监控和故障恢复方法
AU2013207906B2 (en) Fault tolerance for complex distributed computing operations
US9098439B2 (en) Providing a fault tolerant system in a loosely-coupled cluster environment using application checkpoints and logs
CN103995868B (zh) 面向分布式系统的全局事务管理器及事务处理方法
US9342390B2 (en) Cluster management in a shared nothing cluster
CN109522145A (zh) 一种虚拟机故障自动恢复系统及其方法
CN110912991A (zh) 一种基于超融合双节点高可用的实现方法
CN106528327A (zh) 一种数据处理方法以及备份服务器
WO2016045439A1 (zh) 一种vnfm容灾保护的方法、装置和nfvo、存储介质
CN110377456A (zh) 一种虚拟化平台容灾的管理方法及装置
CN106777394B (zh) 一种集群文件系统
CN107111530A (zh) 一种容灾方法、系统和装置
CN103795742B (zh) 异构存储容灾管理系统及方法
CN110209497B (zh) 一种主机资源动态扩缩容的方法及系统
CN106612314A (zh) 基于虚拟机实现软件定义存储的系统
CN113722156B (zh) 一种PCIe设备N+1冗余备份方法及系统
CN111767169A (zh) 数据处理方法、装置、电子设备及存储介质
CN110737503B (zh) 容器服务快照的管理方法和装置
CN109308232B (zh) 虚拟机热迁移故障后回滚的方法、装置以及系统
CN115391106A (zh) 一种备端资源池化的方法、系统及装置
CN115292004A (zh) 故障应急方法、装置、电子设备及存储介质
CN113055462A (zh) 一种云服务架构设计方法
CN112463248A (zh) 基于OpenStack云平台挂载及卸载云硬盘的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190326

RJ01 Rejection of invention patent application after publication