CN107239383A - 一种OpenStack虚拟机的故障监控方法及装置 - Google Patents

一种OpenStack虚拟机的故障监控方法及装置 Download PDF

Info

Publication number
CN107239383A
CN107239383A CN201710507063.XA CN201710507063A CN107239383A CN 107239383 A CN107239383 A CN 107239383A CN 201710507063 A CN201710507063 A CN 201710507063A CN 107239383 A CN107239383 A CN 107239383A
Authority
CN
China
Prior art keywords
monitored
virtual machine
status information
node
openstack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710507063.XA
Other languages
English (en)
Inventor
杨勇
亓开元
刘俊朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710507063.XA priority Critical patent/CN107239383A/zh
Publication of CN107239383A publication Critical patent/CN107239383A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种OpenStack虚拟机的故障监控方法及装置,通过运行预存储于pacemaker集群节点的ocf监控脚本,监控OpenStack的待监控虚拟机;获取待监控虚拟机的状态信息;根据状态信息,判断待监控虚拟机是否出现故障;若是,运行预存储于pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对待监控虚拟机进行修复操作。本申请将pacemaker集群作为故障监控中心,ocf脚本作为监控手段,实现自动监控OpenStack虚拟机的故障;且调用OpenStack自身提供的应用程序接口,自动修复故障,提高了虚拟机的故障监控效率。

Description

一种OpenStack虚拟机的故障监控方法及装置
技术领域
本发明涉及云计算数据中心技术领域,特别涉及一种OpenStack虚拟机的故障监控方法及装置。
背景技术
OpenStack是一个由NASA和Rackspace合作研发并发起的、以Apache许可证授权的自由软件和开放源代码项目。该项目支持几乎所有类型的云环境,其目标是提供实施简单、可大规模扩展、丰富及标准统一的云计算管理平台。OpenStack通过各种互补的服务提供基础设施即服务(IaaS)的解决方案,每个服务提供API以进行集成。
目前,OpenStack只提供一个API,用于疏散指定节点上的虚拟机,并没有自动检测故障、自动执行疏散的机制。在实际应用中,OpenStack虚拟机的故障仍需要人工检测、人工修复,进而导致OpenStack虚拟机故障监控效率低。
发明内容
本发明的目的是提供一种OpenStack虚拟机的故障监控方法及装置,目的在于解决现有人工检测修复OpenStack虚拟机故障导致的故障监控效率低的问题。
为解决上述技术问题,本发明提供一种OpenStack虚拟机的故障监控方法,该方法包括:
运行预存储于pacemaker集群节点的ocf监控脚本,监控OpenStack的待监控虚拟机;
获取所述待监控虚拟机的状态信息,所述状态信息至少包括节点状态信息、进程状态信息及节点性能信息;
根据所述状态信息,判断所述待监控虚拟机是否出现故障;
若是,运行预存储于所述pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对所述待监控虚拟机进行修复操作。
可选地,所述根据所述状态信息,判断所述待监控虚拟机是否出现故障包括:
根据所述节点状态信息、所述进程状态信息、所述节点性能信息,分别判断所述待监控虚拟机的节点状态是否正常、所述待监控虚拟机的进程状态是否正常、所述待监控虚拟机的性能是否正常;
当所述节点状态、所述进程状态及所述性能中至少一个异常时,判断所述待监控虚拟机出现故障;
当所述节点状态、所述进程状态及所述性能全部正常时,判断所述待监控虚拟机正常。
可选地,所述若是,运行预存储于所述pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对所述待监控虚拟机进行修改操作包括:
若是,运行预存储于所述pacemaker集群节点的所述修复脚本;
执行所述应用程序接口中的隔离命令,隔离所述待监控虚拟机的节点;
执行所述应用程序接口中的疏散命令,疏散所述待监控虚拟机。
可选地,在所述执行所述应用程序接口中的疏散命令,疏散所述待监控虚拟机之后还包括:
更新所述节点的节点状态为已疏散,并发送告警信息给管理员。
可选地,所述获取所述待监控虚拟机的状态信息包括:
根据所述ocf脚本内预定义的监测手段,获取与所述监测手段对应的所述待监控虚拟机的所述状态信息。
此外,本发明还提供了一种OpenStack虚拟机的故障监控装置,该装置包括:
运行模块,用于运行预存储于pacemaker集群节点的ocf监控脚本,监控OpenStack的待监控虚拟机;
获取模块,用于获取所述待监控虚拟机的状态信息,所述状态信息至少包括节点状态信息、进程状态信息及节点性能信息;
判断模块,用于根据所述状态信息,判断所述待监控虚拟机是否出现故障;
修复模块,用于若是,运行预存储于所述pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对所述待监控虚拟机进行修复操作。
可选地,所述判断模块包括:
指标判断单元,用于根据所述节点状态信息、所述进程状态信息、所述节点性能信息,分别判断所述待监控虚拟机的节点状态是否正常、所述待监控虚拟机的进程状态是否正常、所述待监控虚拟机的性能是否正常;
第一故障判断单元,用于当所述节点状态、所述进程状态及所述性能中至少一个异常时,判断所述待监控虚拟机出现故障;
第二故障判断单元,用于当所述节点状态、所述进程状态及所述性能全部正常时,判断所述待监控虚拟机正常。
可选地,所述修复模块包括:
修复脚本运行单元,用于若是,运行预存储于所述pacemaker集群节点的所述修复脚本;
节点隔离单元,用于执行所述应用程序接口中的隔离命令,隔离所述待监控虚拟机的节点;
疏散单元,用于执行所述应用程序接口中的疏散命令,疏散所述待监控虚拟机。
可选地,所述修复模块还包括:
更新告警单元,用于更新所述节点的节点状态为已疏散,并发送告警信息给管理员。
可选地,所述获取模块包括:
监测手段获取单元,用于根据所述ocf脚本内预定义的监测手段,获取与所述监测手段对应的所述待监控虚拟机的所述状态信息。
本发明实施例所提供的一种OpenStack虚拟机的故障监控方法及装置,通过运行预存储于pacemaker集群节点的ocf监控脚本,监控OpenStack的待监控虚拟机;获取待监控虚拟机的状态信息,状态信息至少包括节点状态信息、进程状态信息及节点性能信息;根据状态信息,判断待监控虚拟机是否出现故障;若是,运行预存储于pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对待监控虚拟机进行修复操作。本申请将pacemaker集群作为故障监控中心,ocf脚本作为监控手段,实现自动监控OpenStack虚拟机的故障;且调用OpenStack自身提供的应用程序接口,自动修复故障,以提高了OpenStack虚拟机的故障监控效率。可见,本申请有利于提高OpenStack虚拟机故障监控效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的OpenStack虚拟机的故障监控方法的一种具体实施方式的流程示意图;
图2为本发明实施例提供的监控流程示意图;
图3为本发明实施例提供的基于pacemaker的OpenStack虚拟机高可用方案架构示意框图;
图4为本发明实施例提供的OpenStack虚拟机的故障监控装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例提供的OpenStack虚拟机的故障监控方法的一种具体实施方式的流程示意图,该方法包括以下步骤:
步骤101:运行预存储于pacemaker集群节点的ocf监控脚本,监控OpenStack的待监控虚拟机。
需要说明的是,上述pacemaker集群节点可以是预先创建的,该集群至少可以包括3个节点,以保证pacemaker资源选举主节点时的投票能产生多数。该pacemaker集群的建立过程可以为:选择至少3个节点,在各个节点上安装pacemaker集群软件,接着将安装了pacemaker集群软件的节点互相认证,配置成一个整体。
上述ocf脚本可以是指根据ocf脚本规范格式编写的OpenStack节点状态监控脚本。可以在该ocf脚本内自定义监控条件,即自主选择所需的监测手段,例如,CPU利用率、内存利用率等性能数据、nova-compute进程信息等。
该ocf脚本可以预先上传至pacemaker集群节点上,具体可以存储于每个pacemaker节点上的/usr/lib/ocf/resource.d/openstack/目录下。pacemaker节点运行ocf脚本,可以创建一个pacemaker资源,该pacemaker资源相当于一个由pacemaker集群保证执行和监控状态的服务实例。每个资源本身可能在pacemaker集群的各个节点上选举而启动,按照资源内部定义的逻辑,控制pacemaker框架执行相应动作,例如,在ocf脚本的meta标签中定义action时指定interval和timeout,即可定义action的执行间隔和超时时间。
步骤102:获取所述待监控虚拟机的状态信息,所述状态信息至少包括节点状态信息、进程状态信息及节点性能信息。
可以理解,上述状态信息可以包括但不限于待监控虚拟机对应节点的节点状态信息、nova-compute进程状态信息、节点性能信息、nova-compute节点虚拟机数量及其它预设监控信息。
具体地,监测服务实例可以根据循环节点列表,对各个节点进行状态监测。循环节点列表上有各个待监控虚拟机对应的节点ID信息,根据节点ID信息,循环对各个节点上的虚拟机进行监控。
监控虚拟机的哪些故障信息可以由ocf脚本内自定义的监测条件决定,故作为一种具体实施方式,上述获取所述待监控虚拟机的状态信息的过程可以具体为:根据所述ocf脚本内预定义的监测手段,获取与所述监测手段对应的所述待监控虚拟机的所述状态信息。
上述监测手段可以是指故障监测的各个指标的监控方法,其可以在编写ocf脚本时设定。例如,可以将该监测手段设为:检查nova-compute节点状态信息、检查nova-compute进程状态信息、检查节点性能信息(例如CPU利用率)、检查nova-compute节点虚拟机数量。所需监测指标可以人为根据实际需求进行设定,在此不作限定。
步骤103:根据所述状态信息,判断所述待监控虚拟机是否出现故障。
具体地,可以根据各个监测指标的信息,分别确定其对应的监测指标的正常与否。
作为一种具体实施方式,上述根据所述状态信息,判断所述待监控虚拟机是否出现故障的过程可以具体为:根据所述节点状态信息、所述进程状态信息、所述节点性能信息,分别判断所述待监控虚拟机的节点状态是否正常、所述待监控虚拟机的进程状态是否正常、所述待监控虚拟机的性能是否正常;当所述节点状态、所述进程状态及所述性能中至少一个异常时,判断所述待监控虚拟机出现故障;当所述节点状态、所述进程状态及所述性能全部正常时,判断所述待监控虚拟机正常。
步骤104:若是,运行预存储于所述pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对所述待监控虚拟机进行修复操作。
需要说明,上述修复脚本可以是指用于执行虚拟机高可用操作的fencecompute脚本,其是预先上传至各个pacemaker集群节点的相应目录下。
上述修复操作可以具体包括节点隔离、虚拟机重建和重启、疏散等;上述应用程序接口为OpenStack自身提供的nova api。
调用应用程序接口,执行该接口内的命令,可以进行相应修复操作。故作为一种具体实施方式,上述若是,运行预存储于所述pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对所述待监控虚拟机进行修改操作的过程可以具体为:若是,运行预存储于所述pacemaker集群节点的所述修复脚本;执行所述应用程序接口中的隔离命令,隔离所述待监控虚拟机的节点;执行所述应用程序接口中的疏散命令,疏散所述待监控虚拟机。
可以理解,上述隔离命令可以具体为nova service-force-down命令,该命令可以将故障节点强制下线,防止产生脑裂现象。上述疏散命令可以具体为nova evacuate命令,该命令可以疏散故障节点上的虚拟机,具体地,该命令自动收集故障节点上的虚拟机信息,并在其它健康节点上进行重建和重启,且重建后的虚拟机名字、id及ip等信息均不变化。
在疏散节点后,可以及时告知相关管理人员,故作为一种具体实施方式,在上述执行所述应用程序接口中的疏散命令,疏散所述待监控虚拟机之后还可以包括:更新所述节点的节点状态为已疏散,并发送告警信息给管理员。
上述节点为故障虚拟机对应的故障节点。而告警信息的发送方式可以具体为邮件、短信等。当然,不发送告警信息也不影响本发明实施例的实现。
在判断出当前节点没有出现故障时,可以判断下一节点的相关信息,依次循环。具体流程可以参见图2,图2为本发明实施例提供的监控流程示意图。如图2所示,在更新节点状态并发送告警通知管理员后,开始判断下一个节点。显然,也可以在疏散故障节点上的虚拟机后就进行下一次判断,即修复成功后开始下一次判断。而图2中的各个步骤可以参见文中相应内容,在此不再赘述。
基于pacemaker集群节点,对OpenStack集群上的虚拟机节点进行故障监控,即将pacemaker节点作为故障检测中心,运行ocf脚本和fencecompute脚本,实现自动监控节点状态,自动执行隔离、疏散、重启等修复操作。具体实现方案可以参见图3,图3为本发明实施例提供的基于pacemaker的OpenStack虚拟机高可用方案架构示意框图。
如图3所示,该方案包括pacemaker集群和OpenStack集群,pacemaker集群包括Node1、Node2、Node3这3个节点,Node1上运行novaMonitor脚本,通过OpenStack集群提供的Nova-api定时监控节点状态,如果发现故障,则运行fencecompute脚本,通过OpenStack集群提供的Nova-api,执行隔离、疏散、重启操作来修复故障节点。
本实施例所提供的OpenStack虚拟机的故障监控方法,通过运行预存储于pacemaker集群节点的ocf监控脚本,监控OpenStack的待监控虚拟机;获取待监控虚拟机的状态信息,状态信息至少包括节点状态信息、进程状态信息及节点性能信息;根据状态信息,判断待监控虚拟机是否出现故障;若是,运行预存储于pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对待监控虚拟机进行修复操作。该方法将pacemaker集群作为故障监控中心,ocf脚本作为监控手段,实现自动监控OpenStack虚拟机的故障;且调用OpenStack自身提供的应用程序接口,自动修复故障,以提高了OpenStack虚拟机的故障监控效率。
下面对本发明实施例提供的一种OpenStack虚拟机的故障监控装置进行介绍,下文描述的一种OpenStack虚拟机的故障监控装置与上文描述的一种OpenStack虚拟机的故障监控方法可相互对应参照。
请参考图4,图4为本发明实施例提供的OpenStack虚拟机的故障监控装置的结构框图,该装置包括:
运行模块41,用于运行预存储于pacemaker集群节点的ocf监控脚本,监控OpenStack的待监控虚拟机;
获取模块42,用于获取待监控虚拟机的状态信息,上述状态信息至少包括节点状态信息、进程状态信息及节点性能信息;
判断模块43,用于根据状态信息,判断待监控虚拟机是否出现故障;
修复模块44,用于若是,运行预存储于pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对待监控虚拟机进行修复操作。
作为一种具体实施方式,上述判断模块可以包括:
指标判断单元,用于根据节点状态信息、进程状态信息、节点性能信息,分别判断待监控虚拟机的节点状态是否正常、待监控虚拟机的进程状态是否正常、待监控虚拟机的性能是否正常;
第一故障判断单元,用于当节点状态、进程状态及性能中至少一个异常时,判断待监控虚拟机出现故障;
第二故障判断单元,用于当节点状态、进程状态及性能全部正常时,判断待监控虚拟机正常。
作为一种具体实施方式,上述修复模块可以包括:
修复脚本运行单元,用于若是,运行预存储于pacemaker集群节点的修复脚本;
节点隔离单元,用于执行应用程序接口中的隔离命令,隔离待监控虚拟机的节点;
疏散单元,用于执行应用程序接口中的疏散命令,疏散待监控虚拟机。
作为一种具体实施方式,上述修复模块还可以包括:
更新告警单元,用于更新节点的节点状态为已疏散,并发送告警信息给管理员。
作为一种具体实施方式,上述获取模块可以包括:
监测手段获取单元,用于根据ocf脚本内预定义的监测手段,获取与监测手段对应的待监控虚拟机的状态信息。
本实施例所提供的OpenStack虚拟机的故障监控装置,将pacemaker集群作为故障监控中心,ocf脚本作为监控手段,实现自动监控OpenStack虚拟机的故障;且调用OpenStack自身提供的应用程序接口,自动修复故障,以提高了OpenStack虚拟机的故障监控效率。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的OpenStack虚拟机的故障监控方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种OpenStack虚拟机的故障监控方法,其特征在于,包括:
运行预存储于pacemaker集群节点的ocf监控脚本,监控OpenStack的待监控虚拟机;
获取所述待监控虚拟机的状态信息,所述状态信息至少包括节点状态信息、进程状态信息及节点性能信息;
根据所述状态信息,判断所述待监控虚拟机是否出现故障;
若是,运行预存储于所述pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对所述待监控虚拟机进行修复操作。
2.根据权利要求1所述的故障监控方法,其特征在于,所述根据所述状态信息,判断所述待监控虚拟机是否出现故障包括:
根据所述节点状态信息、所述进程状态信息、所述节点性能信息,分别判断所述待监控虚拟机的节点状态是否正常、所述待监控虚拟机的进程状态是否正常、所述待监控虚拟机的性能是否正常;
当所述节点状态、所述进程状态及所述性能中至少一个异常时,判断所述待监控虚拟机出现故障;
当所述节点状态、所述进程状态及所述性能全部正常时,判断所述待监控虚拟机正常。
3.根据权利要求2所述的故障监控方法,其特征在于,所述若是,运行预存储于所述pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对所述待监控虚拟机进行修改操作包括:
若是,运行预存储于所述pacemaker集群节点的所述修复脚本;
执行所述应用程序接口中的隔离命令,隔离所述待监控虚拟机的节点;
执行所述应用程序接口中的疏散命令,疏散所述待监控虚拟机。
4.根据权利要求3所述的故障监控方法,其特征在于,在所述执行所述应用程序接口中的疏散命令,疏散所述待监控虚拟机之后还包括:
更新所述节点的节点状态为已疏散,并发送告警信息给管理员。
5.根据权利要求1至4任一项所述的故障监控方法,其特征在于,所述获取所述待监控虚拟机的状态信息包括:
根据所述ocf脚本内预定义的监测手段,获取与所述监测手段对应的所述待监控虚拟机的所述状态信息。
6.一种OpenStack虚拟机的故障监控装置,其特征在于,包括:
运行模块,用于运行预存储于pacemaker集群节点的ocf监控脚本,监控OpenStack的待监控虚拟机;
获取模块,用于获取所述待监控虚拟机的状态信息,所述状态信息至少包括节点状态信息、进程状态信息及节点性能信息;
判断模块,用于根据所述状态信息,判断所述待监控虚拟机是否出现故障;
修复模块,用于若是,运行预存储于所述pacemaker集群节点的修复脚本,调用OpenStack提供的应用程序接口,对所述待监控虚拟机进行修复操作。
7.根据权利要求6所述的故障监控装置,其特征在于,所述判断模块包括:
指标判断单元,用于根据所述节点状态信息、所述进程状态信息、所述节点性能信息,分别判断所述待监控虚拟机的节点状态是否正常、所述待监控虚拟机的进程状态是否正常、所述待监控虚拟机的性能是否正常;
第一故障判断单元,用于当所述节点状态、所述进程状态及所述性能中至少一个异常时,判断所述待监控虚拟机出现故障;
第二故障判断单元,用于当所述节点状态、所述进程状态及所述性能全部正常时,判断所述待监控虚拟机正常。
8.根据权利要求7所述的故障监控装置,其特征在于,所述修复模块包括:
修复脚本运行单元,用于若是,运行预存储于所述pacemaker集群节点的所述修复脚本;
节点隔离单元,用于执行所述应用程序接口中的隔离命令,隔离所述待监控虚拟机的节点;
疏散单元,用于执行所述应用程序接口中的疏散命令,疏散所述待监控虚拟机。
9.根据权利要求8所述的故障监控装置,其特征在于,所述修复模块还包括:
更新告警单元,用于更新所述节点的节点状态为已疏散,并发送告警信息给管理员。
10.根据权利要求6至9任一项所述的故障监控装置,其特征在于,所述获取模块包括:
监测手段获取单元,用于根据所述ocf脚本内预定义的监测手段,获取与所述监测手段对应的所述待监控虚拟机的所述状态信息。
CN201710507063.XA 2017-06-28 2017-06-28 一种OpenStack虚拟机的故障监控方法及装置 Pending CN107239383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710507063.XA CN107239383A (zh) 2017-06-28 2017-06-28 一种OpenStack虚拟机的故障监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710507063.XA CN107239383A (zh) 2017-06-28 2017-06-28 一种OpenStack虚拟机的故障监控方法及装置

Publications (1)

Publication Number Publication Date
CN107239383A true CN107239383A (zh) 2017-10-10

Family

ID=59990001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710507063.XA Pending CN107239383A (zh) 2017-06-28 2017-06-28 一种OpenStack虚拟机的故障监控方法及装置

Country Status (1)

Country Link
CN (1) CN107239383A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107612787A (zh) * 2017-11-06 2018-01-19 南京易捷思达软件科技有限公司 一种基于Openstack开源云平台的云主机故障检测方法
CN108062471A (zh) * 2017-12-19 2018-05-22 龙岩学院 一种云计算网络运行过程中的风险处理方法及设备
CN108449200A (zh) * 2018-02-02 2018-08-24 云宏信息科技股份有限公司 一种基于控制节点的屏蔽信息写入方法及装置
CN109144788A (zh) * 2018-09-10 2019-01-04 网宿科技股份有限公司 一种重建osd的方法、装置及系统
CN109391691A (zh) * 2018-10-18 2019-02-26 郑州云海信息技术有限公司 一种单节点故障下nas服务的恢复方法及相关装置
CN109522145A (zh) * 2018-11-14 2019-03-26 江苏鸿信系统集成有限公司 一种虚拟机故障自动恢复系统及其方法
CN109669841A (zh) * 2018-12-20 2019-04-23 成都四方伟业软件股份有限公司 一种监控方法、装置、服务器、客户终端及监控系统
CN110134518A (zh) * 2019-05-21 2019-08-16 浪潮软件集团有限公司 一种提高大数据集群多节点应用高可用性的方法及系统
CN110515702A (zh) * 2019-08-29 2019-11-29 浪潮云信息技术有限公司 一种计算节点故障虚拟机的自动疏散方法及装置
CN110868394A (zh) * 2019-09-25 2020-03-06 上海数荃数据科技有限公司 OpenStack云环境安全检测方法、装置、服务器以及存储介质
CN110990118A (zh) * 2019-11-24 2020-04-10 北京浪潮数据技术有限公司 一种虚拟机高可用方法、装置及设备
CN111211924A (zh) * 2019-12-29 2020-05-29 苏州浪潮智能科技有限公司 一种计算节点单点高可用控制方法及装置
WO2020113668A1 (zh) * 2018-12-04 2020-06-11 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用管理端装置及管理方法
WO2020113670A1 (zh) * 2018-12-04 2020-06-11 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用系统
WO2020113669A1 (zh) * 2018-12-04 2020-06-11 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用计算节点装置及管理方法
CN112817686A (zh) * 2019-11-15 2021-05-18 北京百度网讯科技有限公司 检测虚拟机异常的方法、装置、设备和计算机存储介质
CN115190040A (zh) * 2022-05-23 2022-10-14 浪潮通信技术有限公司 虚拟机高可用的实现方法及装置
CN115766405A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 一种故障处理方法、装置、设备和存储介质
CN115858222A (zh) * 2022-12-19 2023-03-28 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457400A (zh) * 2011-06-09 2012-05-16 中标软件有限公司 一种防止磁盘镜像资源发生脑裂的方法
CN103942128A (zh) * 2014-04-29 2014-07-23 浪潮电子信息产业股份有限公司 一种高性能作业调度管理节点双机加固方法
US20140297604A1 (en) * 2013-03-28 2014-10-02 Ctera Networks, Ltd. Techniques for reconciling metadata and data in a cloud storage system without service interruption
CN104679611A (zh) * 2015-03-05 2015-06-03 浙江宇视科技有限公司 数据资源复制方法以及装置
CN106775953A (zh) * 2016-12-30 2017-05-31 北京中电普华信息技术有限公司 实现OpenStack高可用的方法与系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457400A (zh) * 2011-06-09 2012-05-16 中标软件有限公司 一种防止磁盘镜像资源发生脑裂的方法
US20140297604A1 (en) * 2013-03-28 2014-10-02 Ctera Networks, Ltd. Techniques for reconciling metadata and data in a cloud storage system without service interruption
CN103942128A (zh) * 2014-04-29 2014-07-23 浪潮电子信息产业股份有限公司 一种高性能作业调度管理节点双机加固方法
CN104679611A (zh) * 2015-03-05 2015-06-03 浙江宇视科技有限公司 数据资源复制方法以及装置
CN106775953A (zh) * 2016-12-30 2017-05-31 北京中电普华信息技术有限公司 实现OpenStack高可用的方法与系统

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107612787A (zh) * 2017-11-06 2018-01-19 南京易捷思达软件科技有限公司 一种基于Openstack开源云平台的云主机故障检测方法
CN107612787B (zh) * 2017-11-06 2021-01-12 南京易捷思达软件科技有限公司 一种基于Openstack开源云平台的云主机故障检测方法
CN108062471A (zh) * 2017-12-19 2018-05-22 龙岩学院 一种云计算网络运行过程中的风险处理方法及设备
CN108062471B (zh) * 2017-12-19 2021-07-20 龙岩学院 一种云计算网络运行过程中的风险处理方法及设备
CN108449200A (zh) * 2018-02-02 2018-08-24 云宏信息科技股份有限公司 一种基于控制节点的屏蔽信息写入方法及装置
CN109144788A (zh) * 2018-09-10 2019-01-04 网宿科技股份有限公司 一种重建osd的方法、装置及系统
CN109144788B (zh) * 2018-09-10 2021-10-22 网宿科技股份有限公司 一种重建osd的方法、装置及系统
CN109391691A (zh) * 2018-10-18 2019-02-26 郑州云海信息技术有限公司 一种单节点故障下nas服务的恢复方法及相关装置
CN109522145A (zh) * 2018-11-14 2019-03-26 江苏鸿信系统集成有限公司 一种虚拟机故障自动恢复系统及其方法
WO2020113668A1 (zh) * 2018-12-04 2020-06-11 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用管理端装置及管理方法
WO2020113670A1 (zh) * 2018-12-04 2020-06-11 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用系统
WO2020113669A1 (zh) * 2018-12-04 2020-06-11 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用计算节点装置及管理方法
CN109669841A (zh) * 2018-12-20 2019-04-23 成都四方伟业软件股份有限公司 一种监控方法、装置、服务器、客户终端及监控系统
CN110134518A (zh) * 2019-05-21 2019-08-16 浪潮软件集团有限公司 一种提高大数据集群多节点应用高可用性的方法及系统
CN110134518B (zh) * 2019-05-21 2023-09-01 浪潮软件集团有限公司 一种提高大数据集群多节点应用高可用性的方法及系统
CN110515702A (zh) * 2019-08-29 2019-11-29 浪潮云信息技术有限公司 一种计算节点故障虚拟机的自动疏散方法及装置
CN110868394A (zh) * 2019-09-25 2020-03-06 上海数荃数据科技有限公司 OpenStack云环境安全检测方法、装置、服务器以及存储介质
CN112817686B (zh) * 2019-11-15 2023-07-25 北京百度网讯科技有限公司 检测虚拟机异常的方法、装置、设备和计算机存储介质
CN112817686A (zh) * 2019-11-15 2021-05-18 北京百度网讯科技有限公司 检测虚拟机异常的方法、装置、设备和计算机存储介质
CN110990118A (zh) * 2019-11-24 2020-04-10 北京浪潮数据技术有限公司 一种虚拟机高可用方法、装置及设备
CN111211924A (zh) * 2019-12-29 2020-05-29 苏州浪潮智能科技有限公司 一种计算节点单点高可用控制方法及装置
CN115190040A (zh) * 2022-05-23 2022-10-14 浪潮通信技术有限公司 虚拟机高可用的实现方法及装置
CN115190040B (zh) * 2022-05-23 2023-09-29 浪潮通信技术有限公司 虚拟机高可用的实现方法及装置
CN115858222A (zh) * 2022-12-19 2023-03-28 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备
CN115858222B (zh) * 2022-12-19 2024-01-02 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备
CN115766405B (zh) * 2023-01-09 2023-04-28 苏州浪潮智能科技有限公司 一种故障处理方法、装置、设备和存储介质
CN115766405A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 一种故障处理方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN107239383A (zh) 一种OpenStack虚拟机的故障监控方法及装置
Chen et al. Towards intelligent incident management: why we need it and how we make it
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
CN107660289B (zh) 自动网络控制
US10326645B2 (en) System and methods for configuration management
US10489232B1 (en) Data center diagnostic information
CN110134518A (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
CN103209197B (zh) 集群服务器部署方法及系统
CN107147540A (zh) 高可用性系统中的故障处理方法和故障处理集群
US9697068B2 (en) Building an intelligent, scalable system dump facility
CN109656742B (zh) 一种节点异常处理方法、装置及存储介质
CN111698283B (zh) 分布式集群主机的管控方法、装置、设备及存储介质
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
CN109684032A (zh) 防脑裂的OpenStack虚拟机高可用计算节点装置及管理方法
CN103595572B (zh) 一种云计算集群中节点自修复的方法
US10484300B2 (en) Admission control based on the end-to-end availability
CN106875018B (zh) 一种超大规模机器自动化维修的方法和装置
CN108199901A (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN112714022A (zh) 多套集群的控制处理方法、装置及计算机设备
US10997042B2 (en) Systems and methods for configuration management
WO2014022789A2 (en) Systems and methods for configuration management
EP3993353A2 (en) System and method for managing clusters in an edge network
CN113746676B (zh) 基于容器集群的网卡管理方法、装置、设备、介质及产品
CN111966469B (zh) 一种集群虚拟机高可用方法及系统
CN112035295A (zh) 一种虚拟机崩溃事件处理方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171010

RJ01 Rejection of invention patent application after publication