CN110515702A - 一种计算节点故障虚拟机的自动疏散方法及装置 - Google Patents

一种计算节点故障虚拟机的自动疏散方法及装置 Download PDF

Info

Publication number
CN110515702A
CN110515702A CN201910805630.9A CN201910805630A CN110515702A CN 110515702 A CN110515702 A CN 110515702A CN 201910805630 A CN201910805630 A CN 201910805630A CN 110515702 A CN110515702 A CN 110515702A
Authority
CN
China
Prior art keywords
virtual machine
calculate node
oshield
monitor control
control index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910805630.9A
Other languages
English (en)
Inventor
谢涛涛
蔡卫卫
宋伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN201910805630.9A priority Critical patent/CN110515702A/zh
Publication of CN110515702A publication Critical patent/CN110515702A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45587Isolation or security of virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种计算节点故障虚拟机的自动疏散方法及装置,涉及计算机技术领域。针对OpenStack环境下的计算节点出现故障时需要耗费大量的人力和精力来进行疏散的问题,在使用OpenStack搭建的环境中,采用技术方案利用计算节点的采集程序定期去采集监控指标,并上报到Prometheus,Prometheus的exporter对监控指标进行分析,如超出阈值并满足触发告警规则,则发送告警到Alert Manager,Alert Manager发送告警到运维人员,并通过Receiver调用oshield的API,oshield处理API请求,对计算节点的故障虚拟机进行状态标记,通过oshield调用IPMI命令对标记的故障虚拟机进行下电,完成隔离,同时,通过oshield调用nova evacuate API疏散计算节点上的其余虚拟机,实现了自动化运维,适用于大规模的应用环境。

Description

一种计算节点故障虚拟机的自动疏散方法及装置
技术领域
本发明涉及计算机技术领域,具体的说是一种云计算下计算节点故障虚拟机的自动疏散方法及装置。
背景技术
OpenStack是一个开源的云计算管理平台项目,旨在为公共及私有云的建设与管理。随着越来越多的企业选择OpenStack作为云建设的基础软件,OpenStack运行的稳定性和可运维性提出越来越高的要求。OpenStack环境中分为控制节点和计算节点,控制节点包含各组件(nova/cinder/neutron/…)的API和调度等服务,已具备很成熟的高可用方案,如使用keepalived+haproxy保证各API服务的稳定性,MQ和DB都有各自的高可用方案,但是在计算节点仍缺少可靠的保障方案,尽管nova组件已提供疏散(evacuate)的API,但仅仅是一个疏散的工具,距离完整的解决方案还有很大的差距,特别是在运维成本上,需要技术能力高的运维人员进行精确的判断,然后再手动对故障计算节点上的虚拟机一一进行疏散,耗费大量的人力和精力,且很容易出现人为判断出错导致更严重的故障。
目前,业界使用的方案一般会使用pacemaker+corosync的方案,使用pacemaker的心跳来判断计算节点是否存在故障,如果存在故障则执行隔离和疏散策略。但此方案具有几个比较关键的限制,1)心跳的互传使用管理网,租户使用的是业务网,这样心跳如果存在丢失,并不能代表业务网出现问题,这时执行疏散会导致业务中断,反过来,如果心跳完好,但业务不通了,这时无法触发疏散操作;2)心跳丢失并不能判断计算节点出现了影响业务的故障,比如因bug或者系统资源争用,心跳的程序停止或者崩溃,但用户的业务还在正常运行,这时疏散也会影响业务,还需要更丰富和精准的监控指标供程序进行精准判断;3)此方案受限于pacemaker支持的节点数,无法满足大规模环境下的应用。
发明内容
本发明针对OpenStack环境下的计算节点出现故障时需要耗费大量的人力和精力来进行疏散的问题,提供一种计算节点故障虚拟机的自动疏散方法及装置。
首先,本发明提供一种计算节点故障虚拟机的自动疏散方法,解决上述技术问题采用的技术方案如下:
一种计算节点故障虚拟机的自动疏散方法,在使用OpenStack搭建的环境中,
1)计算节点的采集程序定期去采集监控指标,并上报到Prometheus;
2)Prometheus的exporter对监控指标进行分析,如超出阈值并满足触发告警规则,则发送告警到Alert Manager;
3)Alert Manager发送告警到运维人员,并通过Receiver调用oshield的API;
4)oshield处理API请求,对计算节点的故障虚拟机进行状态标记和隔离,同时,疏散计算节点上的其余虚拟机。
在步骤2)中,Prometheus的exporter首先对监控指标进行组合,随后对组合后监控指标进行权重和打分,最后将打分结果与设定阈值进行比较,在打分结果超出设定阈值时,触发告警规则。
在步骤4)中,oshield调用IPMI命令对标记的故障虚拟机进行下电,完成隔离,同时,oshield调用nova evacuate API疏散计算节点上的其余虚拟机。
可选的,所涉及计算节点为source计算节点,且source计算节点发生故障时,首先对source计算节点进行隔离,随后调用evacuate API对source计算节点上的虚拟机进行疏散。
具体的,所涉及计算节点从主机、进程、虚拟机三个层面采集监控指标;
所涉及主机的CPU、内存条、硬盘三方面容易发生故障,所述主机发生故障时,运行在主机的虚拟机宕机,且无法运行,此时业务处于断掉状态;
所涉及进程发生故障时,一定会影响即将部署的虚拟机,已部署运行的虚拟机可能继续运行且业务不中断,但是,进程故障的发生必然影响对虚拟机将要进行的操作;
所涉及虚拟机发生故障时,不影响其余未发生故障的虚拟机。
其次,本发明还提供一种计算节点故障虚拟机的自动疏散装置,其包括:
采集端,部署于计算节点,用于定期采集计算节点的监控指标;
服务端,包括使用容器部署的Prometheus、Alert Manager和oshield,
其中,Prometheus的exporter对监控指标进行分析,并在分析结果超出阈值且满足触发告警规则时发送告警到Alert Manager,
Alert Manager发送告警到运维人员,并通过Receiver调用oshield的API,
oshield处理API请求,对计算节点的故障虚拟机进行状态标记和隔离,同时,疏散计算节点上的其余虚拟机。
可选的,一个计算节点部署有一个采集端telegraf;
一个服务端对多个计算节点的监控指标进行采集。
具体的,所涉及Prometheus的exporter首先对监控指标进行组合,随后对组合后监控指标进行权重和打分,最后将打分结果与设定阈值进行比较,在打分结果超出设定阈值时,触发告警规则。
具体的,所涉及oshield调用IPMI命令对标记的故障虚拟机进行下电,完成隔离,同时,oshield调用nova evacuate API疏散计算节点上的其余虚拟机。
具体的,所涉及计算节点从主机、进程、虚拟机三个层面采集监控指标;
所涉及主机的CPU、内存条、硬盘三方面容易发生故障,所述主机发生故障时,运行在主机的虚拟机宕机,且无法运行,此时业务处于断掉状态;
所涉及进程发生故障时,一定会影响即将部署的虚拟机,已部署运行的虚拟机可能继续运行且业务不中断,但是,进程故障的发生必然影响对虚拟机将要进行的操作;
所涉及虚拟机发生故障时,不影响其余未发生故障的虚拟机。
本发明的一种计算节点故障虚拟机的自动疏散方法及装置,与现有技术相比具有的有益效果是:
本发明在使用OpenStack搭建的环境中,利用计算节点的采集程序定期去采集监控指标,并上报到Prometheus,Prometheus的exporter对监控指标进行分析,如超出阈值并满足触发告警规则,则发送告警到Alert Manager,Alert Manager发送告警到运维人员,并通过Receiver调用oshield的API,oshield处理API请求,对计算节点的故障虚拟机进行状态标记,通过oshield调用IPMI命令对标记的故障虚拟机进行下电,完成隔离,同时,通过oshield调用nova evacuate API疏散计算节点上的其余虚拟机,解决了现有手动疏散计算节点上故障虚拟机时耗时耗力的问题,实现了自动化运维,适用于大规模的应用环境。
附图说明
附图1是本发明自动疏散方法的流程图;
附图2是本发明自动疏散装置的连接框图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。
实施例一:
结合附图1,本实施例提出一种计算节点故障虚拟机的自动疏散方法,在使用OpenStack搭建的环境中,
1)计算节点的采集程序定期去采集监控指标,并上报到Prometheus;
2)Prometheus的exporter首先对监控指标进行组合,随后对组合后监控指标进行权重和打分,最后将打分结果与设定阈值进行比较,在打分结果超出设定阈值时,触发告警规则,进而发送告警到Alert Manager;
3)Alert Manager发送告警到运维人员,并通过Receiver调用oshield的API;
4)oshield处理API请求,对计算节点的故障虚拟机进行状态标记,oshield调用IPMI命令对标记的故障虚拟机进行下电,完成隔离,同时,oshield调用nova evacuate API疏散计算节点上的其余虚拟机。
在本实施例中,所涉及计算节点为source计算节点,且source计算节点发生故障时,首先对source计算节点进行隔离,随后调用evacuate API对source计算节点上的虚拟机进行疏散。
在本实施例中,所涉及计算节点从主机、进程、虚拟机三个层面采集监控指标;
所涉及主机的CPU、内存条、硬盘三方面容易发生故障,所述主机发生故障时,运行在主机的虚拟机宕机,且无法运行,此时业务处于断掉状态;
所涉及进程发生故障时,一定会影响即将部署的虚拟机,已部署运行的虚拟机可能继续运行且业务不中断,但是,进程故障的发生必然影响对虚拟机将要进行的操作;
所涉及虚拟机发生故障时,不影响其余未发生故障的虚拟机。
实施例二:
结合附图1、2,本实施例提出一种计算节点故障虚拟机的自动疏散装置,其包括:
采集端,部署于计算节点,用于定期采集计算节点的监控指标;
服务端,包括使用容器部署的Prometheus、Alert Manager和oshield,
其中,Prometheus的exporter首先对监控指标进行组合,随后对组合后监控指标进行权重和打分,最后将打分结果与设定阈值进行比较,在打分结果超出设定阈值时,触发告警规则,进而发送告警到Alert Manager,
Alert Manager发送告警到运维人员,并通过Receiver调用oshield的API,
oshield处理API请求,对计算节点的故障虚拟机进行状态标记,
oshield调用IPMI命令对标记的故障虚拟机进行下电,完成隔离,同时,oshield调用nova evacuate API疏散计算节点上的其余虚拟机。
结合附图2,在本实施例中,一个计算节点部署有一个采集端telegraf;
一个服务端对多个计算节点的监控指标进行采集。
在本实施例中,所涉及计算节点从主机、进程、虚拟机三个层面采集监控指标;
所涉及主机的CPU、内存条、硬盘三方面容易发生故障,所述主机发生故障时,运行在主机的虚拟机宕机,且无法运行,此时业务处于断掉状态;
所涉及进程发生故障时,一定会影响即将部署的虚拟机,已部署运行的虚拟机可能继续运行且业务不中断,但是,进程故障的发生必然影响对虚拟机将要进行的操作;
所涉及虚拟机发生故障时,不影响其余未发生故障的虚拟机。
综上可知,采用本发明的一种计算节点故障虚拟机的自动疏散方法及装置,可以通过oshield调用IPMI命令对标记的故障虚拟机进行下电,完成隔离,同时,通过oshield调用nova evacuate API疏散计算节点上的其余虚拟机,解决现有手动疏散计算节点上故障虚拟机时耗时耗力的问题,实现自动化运维,尤其适用于大规模的应用环境。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容,并不用于限制本发明的保护范围。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (10)

1.一种计算节点故障虚拟机的自动疏散方法,其特征在于,在使用OpenStack搭建的环境中,
1)计算节点的采集程序定期去采集监控指标,并上报到Prometheus;
2)Prometheus的exporter对监控指标进行分析,如超出阈值并满足触发告警规则,则发送告警到Alert Manager;
3)Alert Manager发送告警到运维人员,并通过Receiver调用oshield的API;
4)oshield处理API请求,对计算节点的故障虚拟机进行状态标记和隔离,同时,疏散计算节点上的其余虚拟机。
2.根据权利要求1所述的一种计算节点故障虚拟机的自动疏散方法,其特征在于,在步骤2)中,Prometheus的exporter首先对监控指标进行组合,随后对组合后监控指标进行权重和打分,最后将打分结果与设定阈值进行比较,在打分结果超出设定阈值时,触发告警规则。
3.根据权利要求2所述的一种计算节点故障虚拟机的自动疏散方法,其特征在于,在步骤4)中,oshield调用IPMI命令对标记的故障虚拟机进行下电,完成隔离,
同时,oshield调用nova evacuate API疏散计算节点上的其余虚拟机。
4.根据权利要求1或2或3所述的一种计算节点故障虚拟机的自动疏散方法,其特征在于,所述计算节点为source计算节点,且source计算节点发生故障时,首先对source计算节点进行隔离,随后调用evacuate API对source计算节点上的虚拟机进行疏散。
5.根据权利要求1或2或3所述的一种计算节点故障虚拟机的自动疏散方法,其特征在于,所述计算节点从主机、进程、虚拟机三个层面采集监控指标;
所述主机的CPU、内存条、硬盘三方面容易发生故障,所述主机发生故障时,运行在主机的虚拟机宕机,且无法运行,此时业务处于断掉状态;
所述进程发生故障时,一定会影响即将部署的虚拟机,已部署运行的虚拟机可能继续运行且业务不中断,但是,进程故障的发生必然影响对虚拟机将要进行的操作;
所述虚拟机发生故障时,不影响其余未发生故障的虚拟机。
6.一种计算节点故障虚拟机的自动疏散装置,其特征在于,其包括:
采集端,部署于计算节点,用于定期采集计算节点的监控指标;
服务端,包括使用容器部署的Prometheus、Alert Manager和oshield,
其中,Prometheus的exporter对监控指标进行分析,并在分析结果超出阈值且满足触发告警规则时发送告警到Alert Manager,
Alert Manager发送告警到运维人员,并通过Receiver调用oshield的API,
oshield处理API请求,对计算节点的故障虚拟机进行状态标记和隔离,同时,疏散计算节点上的其余虚拟机。
7.根据权利要求6所述的一种计算节点故障虚拟机的自动疏散装置,其特征在于,所述一个计算节点部署有一个采集端telegraf;
一个服务端对多个计算节点的监控指标进行采集。
8.根据权利要求6所述的一种计算节点故障虚拟机的自动疏散装置,其特征在于,所述Prometheus的exporter首先对监控指标进行组合,随后对组合后监控指标进行权重和打分,最后将打分结果与设定阈值进行比较,在打分结果超出设定阈值时,触发告警规则。
9.根据权利要求8所述的一种计算节点故障虚拟机的自动疏散装置,其特征在于,所述oshield调用IPMI命令对标记的故障虚拟机进行下电,完成隔离,
同时,oshield调用nova evacuate API疏散计算节点上的其余虚拟机。
10.根据权利要求6所述的一种计算节点故障虚拟机的自动疏散装置,其特征在于,所述计算节点从主机、进程、虚拟机三个层面采集监控指标;
所述主机的CPU、内存条、硬盘三方面容易发生故障,所述主机发生故障时,运行在主机的虚拟机宕机,且无法运行,此时业务处于断掉状态;
所述进程发生故障时,一定会影响即将部署的虚拟机,已部署运行的虚拟机可能继续运行且业务不中断,但是,进程故障的发生必然影响对虚拟机将要进行的操作;
所述虚拟机发生故障时,不影响其余未发生故障的虚拟机。
CN201910805630.9A 2019-08-29 2019-08-29 一种计算节点故障虚拟机的自动疏散方法及装置 Pending CN110515702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910805630.9A CN110515702A (zh) 2019-08-29 2019-08-29 一种计算节点故障虚拟机的自动疏散方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910805630.9A CN110515702A (zh) 2019-08-29 2019-08-29 一种计算节点故障虚拟机的自动疏散方法及装置

Publications (1)

Publication Number Publication Date
CN110515702A true CN110515702A (zh) 2019-11-29

Family

ID=68628792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910805630.9A Pending CN110515702A (zh) 2019-08-29 2019-08-29 一种计算节点故障虚拟机的自动疏散方法及装置

Country Status (1)

Country Link
CN (1) CN110515702A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111427749A (zh) * 2020-04-01 2020-07-17 山东汇贸电子口岸有限公司 一种openstack环境下针对ironic服务的监控工具及方法
CN111510351A (zh) * 2020-04-10 2020-08-07 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控系统的异常检测方法和装置
CN111682976A (zh) * 2020-04-26 2020-09-18 合肥中科类脑智能技术有限公司 一种保证分布式多机通信监控的方法
CN112036828A (zh) * 2020-08-28 2020-12-04 北京浪潮数据技术有限公司 一种裸金属的管理方法、装置、设备及介质
CN112486716A (zh) * 2020-10-29 2021-03-12 中国农业银行股份有限公司福建省分行 计算机io hung事件的预警方法、装置、设备和介质
CN116405391A (zh) * 2023-04-10 2023-07-07 长扬科技(北京)股份有限公司 基于OpenStack的虚拟机节点筛选方法、系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559077A (zh) * 2013-11-08 2014-02-05 北京华胜天成科技股份有限公司 一种优化的虚拟机自动迁移方法和系统
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置
CN107819632A (zh) * 2017-11-24 2018-03-20 郑州云海信息技术有限公司 一种基于性能监控系统和Docker Swarm的动态负载均衡集群系统
CN108089911A (zh) * 2017-12-14 2018-05-29 郑州云海信息技术有限公司 OpenStack环境中的计算节点的控制方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559077A (zh) * 2013-11-08 2014-02-05 北京华胜天成科技股份有限公司 一种优化的虚拟机自动迁移方法和系统
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置
CN107819632A (zh) * 2017-11-24 2018-03-20 郑州云海信息技术有限公司 一种基于性能监控系统和Docker Swarm的动态负载均衡集群系统
CN108089911A (zh) * 2017-12-14 2018-05-29 郑州云海信息技术有限公司 OpenStack环境中的计算节点的控制方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111427749A (zh) * 2020-04-01 2020-07-17 山东汇贸电子口岸有限公司 一种openstack环境下针对ironic服务的监控工具及方法
CN111427749B (zh) * 2020-04-01 2023-07-11 山东汇贸电子口岸有限公司 一种openstack环境下针对ironic服务的监控工具及方法
CN111510351A (zh) * 2020-04-10 2020-08-07 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控系统的异常检测方法和装置
CN111682976A (zh) * 2020-04-26 2020-09-18 合肥中科类脑智能技术有限公司 一种保证分布式多机通信监控的方法
CN111682976B (zh) * 2020-04-26 2022-03-01 合肥中科类脑智能技术有限公司 一种保证分布式多机通信监控的方法
CN112036828A (zh) * 2020-08-28 2020-12-04 北京浪潮数据技术有限公司 一种裸金属的管理方法、装置、设备及介质
CN112036828B (zh) * 2020-08-28 2022-06-07 北京浪潮数据技术有限公司 一种裸金属的管理方法、装置、设备及介质
CN112486716A (zh) * 2020-10-29 2021-03-12 中国农业银行股份有限公司福建省分行 计算机io hung事件的预警方法、装置、设备和介质
CN112486716B (zh) * 2020-10-29 2022-08-19 中国农业银行股份有限公司福建省分行 计算机io hung事件的预警方法、装置、设备和介质
CN116405391A (zh) * 2023-04-10 2023-07-07 长扬科技(北京)股份有限公司 基于OpenStack的虚拟机节点筛选方法、系统和存储介质

Similar Documents

Publication Publication Date Title
CN110515702A (zh) 一种计算节点故障虚拟机的自动疏散方法及装置
US20230297882A1 (en) Ml ue capability and inability
CN104184819B (zh) 多层级负载均衡云资源监控方法
CN110430071A (zh) 业务节点故障自愈方法、装置、计算机设备及存储介质
CN107544839A (zh) 虚拟机迁移系统、方法及装置
CN103713974B (zh) 一种高性能作业调度管理节点双机加固方法及设备
CN109088794A (zh) 一种节点的故障监测方法和装置
CN105516292A (zh) 一种智能变电站云平台的热备方法
CN110177020A (zh) 一种基于Slurm的高性能集群管理方法
CN103780696A (zh) 基于分布式推送的云监控方法、装置及系统
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
CN107872339A (zh) 一种虚拟化网络中的运维实现方法及装置、虚拟网络系统
US20180269963A1 (en) Method and apparatus for hot standby of controllers in distributed protection
CN105068763B (zh) 一种针对存储故障的虚拟机容错系统和方法
CN106383771A (zh) 一种主机集群监控方法及装置
CN103152210A (zh) 修复生成树协议转发状态异常的方法及堆叠设备
CN104219211B (zh) 一种云计算网络中网络安全的检测方法及装置
CN103905271B (zh) 一种告警风暴抑制方法
CN105207856A (zh) 一种基于sdn虚拟交换机的负载均衡的系统及方法
CN107888427A (zh) 基于sdn架构的电力信息通信网络控制方法
CN103152420B (zh) 一种避免Ovirt虚拟管理平台单点失效的方法
CN110750425A (zh) 数据库监控方法、装置、系统和存储介质
CN104852865A (zh) 一种基于sdn架构的流量控制方法及系统
CN106959885A (zh) 一种虚拟机高可用实现系统及其实现方法
CN105388882B (zh) 一种电网事故预案确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129