CN106874111A - 一种云计算平台的虚拟机高可用性管理方法 - Google Patents

一种云计算平台的虚拟机高可用性管理方法 Download PDF

Info

Publication number
CN106874111A
CN106874111A CN201710018575.XA CN201710018575A CN106874111A CN 106874111 A CN106874111 A CN 106874111A CN 201710018575 A CN201710018575 A CN 201710018575A CN 106874111 A CN106874111 A CN 106874111A
Authority
CN
China
Prior art keywords
machine
cloud
virtual machine
compute
cloud computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710018575.XA
Other languages
English (en)
Inventor
陈帮民
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN SECURITIES COMMUNICATION CO Ltd
Original Assignee
SHENZHEN SECURITIES COMMUNICATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN SECURITIES COMMUNICATION CO Ltd filed Critical SHENZHEN SECURITIES COMMUNICATION CO Ltd
Priority to CN201710018575.XA priority Critical patent/CN106874111A/zh
Publication of CN106874111A publication Critical patent/CN106874111A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种云计算平台的虚拟机高可用性管理方法,通过物理服务器提供的IPMI协议命令控制物理服务器启停,当感知到物理服务器已经宕机时,将物理服务器关掉,然后将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。本发明的有益效果是:为云计算平台的虚拟机提供高效的高可用性,缩短出现云物理主机宕机情况时云主机RTO(Recovery Time Objective)时间;为云计算技术在证券、银行、期货等金融行业的推广应用提供高可用性、高靠性的保障。

Description

一种云计算平台的虚拟机高可用性管理方法
技术领域
本发明涉及虚拟机管理方法,尤其涉及一种云计算平台的虚拟机高可用性管理方法。
背景技术
全球云计算市场迅速增长,世界信息产业强国和地区对云计算高度关注,已把云计算作为未来战略产业的重点,纷纷研究制定并出台云计算发展战略规划,加快部署国家级云计算基础设施,并加快推动云计算的应用。但是当前主流云计算管理平台中如何实现虚拟机的高可用性仍是业界一个难题,如出现云物理机宕机时,如何保证该主机上面的所有虚拟机的高可用性,即如何将该主机上面的所有虚拟机资源如何快速、自动化的迁移到另外一台物理主机上面运行,这还没有一个好的有效解决方案。
当前主流云计算平台中有OpenStack、VMWare、CloudStack等,对于三种主流行云计算平台的已有高可用技术描述如下:
OpenStack平源云平台:平台提供救起(evacuate)命令,通过人工手动判断、迁移宕机云物理机上面的所有虚拟机。
VMWare商业云平台:仅提供单个虚拟机的HA,即当一台标识为高可用性的虚拟机由于某些原因以外关机,可以通过原始镜像在另外一台空闲物云理机上面创建新的虚拟机,然后启动运行。
CloudStack商业云平台:仅提供单个虚拟机的HA,即当一台标识为高可用性的虚拟机由于某些原因以外关机,可以迁移在另外一台空闲云物理机上面运行。
当前主流云计算平台中,基本没有提供整个云物理机的高可用(HA)的功能;对于OpenStack、VMWare、CloudStack三种流行云计算平台的技术问题及缺陷描述如下:
开源OpenStack云管理平台需要人工去判断云物理机是否真正宕机, 人工确认云物理机宕机或者异常后,再登录相关服务器运行命令操作。
VMWare商业云平台在云物理机宕机情况下,没有提出对云物理机上所有虚拟机高可用的技术方案;同时,VMWare商业云平台单个虚拟机的高可用(HA)是没有状态的,即通过原始虚拟机镜像在其它存活云物理机上创建新虚拟机,新建虚拟机是没有原始虚拟机的应用程序与业务数据;最后一个大缺陷是VMWare商业云平台依赖于特定厂家的分布式存储vSan,在技术上有锁定(Lock in)风险。
CloudStack商业云平台没有针对整个云物理机宕机情况下,物理机上面所有虚拟机高可用的技术方案。
发明内容
本发明针对上面问题提出一种云计算平台的虚拟机高可用性(HA, HighAvailability) 管理方法,为云计算平台的虚拟机提供高效的高可用性,缩短出现云物理主机宕机情况时云主机RTO(Recovery Time Objective)时间;为云计算技术在证券、银行、期货等金融行业的推广应用提供高可用性、高靠性的保障。
本发明提供了一种云计算平台的虚拟机高可用性管理方法,通过物理服务器提供的IPMI协议命令控制物理服务器启停,当感知到物理服务器已经宕机时,将物理服务器关掉,然后将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。
作为本发明的进一步改进,当服务器ping不通超过30s时,则判断服务器已经宕机。
作为本发明的进一步改进,当感知到物理服务器已经宕机时,程序通过服务器impitool 发送关机命令将物理服务器关掉。
作为本发明的进一步改进,通过Openstack救起虚拟机的命令将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。
作为本发明的进一步改进,在云计算平台的云物理机上后台运行一个常驻标准Linux 服务sscc_check_compute_ha,支持service sscc_check_compute_ha start/stop/status 命令。
作为本发明的进一步改进,sscc_check_compute_ha 服务以后台方式运行examine_compute_avail.py,examine_compute_avail.py为每个云物理机spawn出进程,调用check_compute.sh脚本检查,当发生云物理机宕机或者灾难时,调用evacuate_compute.py脚本执行救起操作,check_examine_compute(服务监控脚本)是符合nagios监控接口的脚本,会监测sscc_check_compute_ha服务的运行状态。
作为本发明的进一步改进,computer_nodes_cfg.py配置所有待检测的云物理机的两个心跳IP、IPMI管理IP和hostname;为程序examine_compute_avail.py引用。
作为本发明的进一步改进,check_compute.sh脚本中配置IPMI接口管理的用户名和密码。
本发明的有益效果是:通过上述方案,为云计算平台的虚拟机提供高效的高可用性,缩短出现云物理主机宕机情况时云主机RTO(Recovery Time Objective)时间;为云计算技术在证券、银行、期货等金融行业的推广应用提供高可用性、高靠性的保障。
附图说明
图1是本发明一种云计算平台的虚拟机高可用性管理方法的示意图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进一步说明。
如图1所示,一种云计算平台的虚拟机高可用性管理方法,通过物理服务器提供的IPMI协议命令控制物理服务器启停。当感知到服务器已经宕机(如服务器ping不通超过30s)时,程序通过服务器impitool 发送关机命令将服务器关掉,然后通过Openstack救起(evacuate)虚拟机的命令将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器,整个过程程序自动化完成。
一种云计算平台的虚拟机高可用性管理方法与程序系统实现如下:
1 程序名称:在云计算平台的云物理机上后台运行一个常驻标准Linux 服务sscc_check_compute_ha,支持service sscc_check_compute_ha start/stop/status 命令。
2 程序设计:sscc_check_compute_ha 服务以后台(daemon)方式运行examine_compute_avail.py,examine_compute_avail.py为每个云物理机spawn出进程,调用check_compute.sh脚本检查,当发生云物理机宕机或者灾难时,调用evacuate_compute.py脚本执行救起(evacuate)操作。check_examine_compute是符合nagios监控接口的脚本,会监测sscc_check_compute_ha服务的运行状态。
3 参数配置:
A computer_nodes_cfg.py,配置所有待检测的云物理机的两个心跳IP、IPMI管理IP和hostname;为程序examine_compute_avail.py引用。
B check_compute.sh脚本中IPMI接口管理的用户名和密码。
本发明提供的一种云计算平台的虚拟机高可用性管理方法,就云计算平台上云物理机上所有虚拟机的高可用性,提供一种自动化方案并最后实现程序系统。对比OpenStack云管理平台现在方式,此发明高效、全程自动化实现;保持了虚拟机中应用程序与业务数据完整性。同时,方案可以基于任何类型的共享存储实现,在技术上没有锁定(Lock in)风险。此云计算平台高可用性方案的提出与自动化程序系统的实现,缩短云物理发生宕机或者灾难时虚拟机恢复的RTO时间,为云计算技术在证券、银行期货等金融行业的推广应用扫清技术障碍。
本发明提供的一种云计算平台的虚拟机高可用性管理方法,为满足证券、银行等金融行业对云平台中虚拟机高可用性要求,加速云计算技术在金融行业的推广应用;同时,促进金融行业的各项业务发展与创新。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种云计算平台的虚拟机高可用性管理方法,其特征在于:通过物理服务器提供的IPMI协议命令控制物理服务器启停,当感知到物理服务器已经宕机时,将物理服务器关掉,然后将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。
2.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:当服务器ping不通超过30s时,则判断服务器已经宕机。
3.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:当感知到物理服务器已经宕机时,程序通过服务器impitool 发送关机命令将物理服务器关掉。
4.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:通过Openstack救起虚拟机的命令将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。
5.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:在云计算平台的云物理机上后台运行一个常驻标准Linux 服务sscc_check_compute_ha,支持service sscc_check_compute_ha start/stop/status 命令。
6.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:sscc_check_compute_ha 服务以后台方式运行examine_compute_avail.py,examine_compute_avail.py为每个云物理机spawn出进程,调用check_compute.sh脚本检查,当发生云物理机宕机或者灾难时,调用evacuate_compute.py脚本执行救起操作,check_examine_compute是符合nagios监控接口的脚本,会监测sscc_check_compute_ha服务的运行状态。
7.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:computer_nodes_cfg.py配置所有待检测的云物理机的两个心跳IP、IPMI管理IP和hostname;为程序examine_compute_avail.py引用。
8.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:check_compute.sh脚本中配置IPMI接口管理的用户名和密码。
CN201710018575.XA 2017-01-11 2017-01-11 一种云计算平台的虚拟机高可用性管理方法 Pending CN106874111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710018575.XA CN106874111A (zh) 2017-01-11 2017-01-11 一种云计算平台的虚拟机高可用性管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710018575.XA CN106874111A (zh) 2017-01-11 2017-01-11 一种云计算平台的虚拟机高可用性管理方法

Publications (1)

Publication Number Publication Date
CN106874111A true CN106874111A (zh) 2017-06-20

Family

ID=59157345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710018575.XA Pending CN106874111A (zh) 2017-01-11 2017-01-11 一种云计算平台的虚拟机高可用性管理方法

Country Status (1)

Country Link
CN (1) CN106874111A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107733717A (zh) * 2017-11-01 2018-02-23 国云科技股份有限公司 一种云平台移动式运维的网络配置方法
CN108234271A (zh) * 2017-10-25 2018-06-29 国云科技股份有限公司 一种云平台业务网ip管理方法
CN108255575A (zh) * 2017-12-06 2018-07-06 顺丰科技有限公司 一种虚拟机迁移方法及装置
CN109962820A (zh) * 2017-12-22 2019-07-02 中移(苏州)软件技术有限公司 一种云平台的检测方法和检测平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法
CN104113596A (zh) * 2014-07-15 2014-10-22 华侨大学 一种私有云的云监控系统及方法
WO2015169199A1 (zh) * 2014-05-08 2015-11-12 中国银联股份有限公司 分布式环境下虚拟机异常恢复方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法
WO2015169199A1 (zh) * 2014-05-08 2015-11-12 中国银联股份有限公司 分布式环境下虚拟机异常恢复方法
CN104113596A (zh) * 2014-07-15 2014-10-22 华侨大学 一种私有云的云监控系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234271A (zh) * 2017-10-25 2018-06-29 国云科技股份有限公司 一种云平台业务网ip管理方法
CN107733717A (zh) * 2017-11-01 2018-02-23 国云科技股份有限公司 一种云平台移动式运维的网络配置方法
CN107733717B (zh) * 2017-11-01 2021-07-30 国云科技股份有限公司 一种云平台移动式运维的网络配置方法
CN108255575A (zh) * 2017-12-06 2018-07-06 顺丰科技有限公司 一种虚拟机迁移方法及装置
CN109962820A (zh) * 2017-12-22 2019-07-02 中移(苏州)软件技术有限公司 一种云平台的检测方法和检测平台
CN109962820B (zh) * 2017-12-22 2021-03-09 中移(苏州)软件技术有限公司 一种云平台的检测方法和检测平台

Similar Documents

Publication Publication Date Title
US11301342B2 (en) Methods, systems, and computer readable storage devices for managing faults in a virtual machine network
US10169173B2 (en) Preserving management services with distributed metadata through the disaster recovery life cycle
CN103778031B (zh) 一种云环境下的分布式系统多级故障容错方法
CN106874111A (zh) 一种云计算平台的虚拟机高可用性管理方法
CN108270726B (zh) 应用实例部署方法及装置
US10061665B2 (en) Preserving management services with self-contained metadata through the disaster recovery life cycle
US20210165693A1 (en) Control token and hierarchical dynamic control
CN106911648B (zh) 一种环境隔离方法及设备
TW201502774A (zh) 協調分散式系統中的故障復原
US20210250233A1 (en) Methods, systems, and computer readable mediums for selecting and configuring a computing system to support a replicated application
CN104038376A (zh) 一种管理真实服务器的方法、装置及lvs集群系统
US11424940B2 (en) Standalone tool for certificate management
CN102708027B (zh) 一种避免通信设备运行中断的方法及系统
CN113595782B (zh) 一种基于sdn的网络设备管理方法
CN110008005B (zh) 基于云平台的电网通信资源虚拟机迁移系统及方法
CN110221949A (zh) 自动化运维管理方法、装置、设备及可读存储介质
US10374924B1 (en) Virtualized network device failure detection
WO2017045436A1 (zh) 虚拟机故障处理方法和装置
US8156212B2 (en) Method, system and apparatus for managing computer processes
CN114691304B (zh) 实现集群虚拟机高可用的方法和装置、设备和介质
CN116192885A (zh) 高可用集群架构人工智能实验云平台数据处理方法及系统
CN113746676B (zh) 基于容器集群的网卡管理方法、装置、设备、介质及产品
US9886070B2 (en) Method, system, and computer program product for taking an I/O enclosure offline
Wang et al. The Application Research of Private Cloud in the Data Centers Colleges of Universities
CN111338886A (zh) 基于云环境虚拟机的高可用保护方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620

RJ01 Rejection of invention patent application after publication