CN106874111A - 一种云计算平台的虚拟机高可用性管理方法 - Google Patents
一种云计算平台的虚拟机高可用性管理方法 Download PDFInfo
- Publication number
- CN106874111A CN106874111A CN201710018575.XA CN201710018575A CN106874111A CN 106874111 A CN106874111 A CN 106874111A CN 201710018575 A CN201710018575 A CN 201710018575A CN 106874111 A CN106874111 A CN 106874111A
- Authority
- CN
- China
- Prior art keywords
- machine
- cloud
- virtual machine
- compute
- cloud computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种云计算平台的虚拟机高可用性管理方法,通过物理服务器提供的IPMI协议命令控制物理服务器启停,当感知到物理服务器已经宕机时,将物理服务器关掉,然后将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。本发明的有益效果是:为云计算平台的虚拟机提供高效的高可用性,缩短出现云物理主机宕机情况时云主机RTO(Recovery Time Objective)时间;为云计算技术在证券、银行、期货等金融行业的推广应用提供高可用性、高靠性的保障。
Description
技术领域
本发明涉及虚拟机管理方法,尤其涉及一种云计算平台的虚拟机高可用性管理方法。
背景技术
全球云计算市场迅速增长,世界信息产业强国和地区对云计算高度关注,已把云计算作为未来战略产业的重点,纷纷研究制定并出台云计算发展战略规划,加快部署国家级云计算基础设施,并加快推动云计算的应用。但是当前主流云计算管理平台中如何实现虚拟机的高可用性仍是业界一个难题,如出现云物理机宕机时,如何保证该主机上面的所有虚拟机的高可用性,即如何将该主机上面的所有虚拟机资源如何快速、自动化的迁移到另外一台物理主机上面运行,这还没有一个好的有效解决方案。
当前主流云计算平台中有OpenStack、VMWare、CloudStack等,对于三种主流行云计算平台的已有高可用技术描述如下:
OpenStack平源云平台:平台提供救起(evacuate)命令,通过人工手动判断、迁移宕机云物理机上面的所有虚拟机。
VMWare商业云平台:仅提供单个虚拟机的HA,即当一台标识为高可用性的虚拟机由于某些原因以外关机,可以通过原始镜像在另外一台空闲物云理机上面创建新的虚拟机,然后启动运行。
CloudStack商业云平台:仅提供单个虚拟机的HA,即当一台标识为高可用性的虚拟机由于某些原因以外关机,可以迁移在另外一台空闲云物理机上面运行。
当前主流云计算平台中,基本没有提供整个云物理机的高可用(HA)的功能;对于OpenStack、VMWare、CloudStack三种流行云计算平台的技术问题及缺陷描述如下:
开源OpenStack云管理平台需要人工去判断云物理机是否真正宕机, 人工确认云物理机宕机或者异常后,再登录相关服务器运行命令操作。
VMWare商业云平台在云物理机宕机情况下,没有提出对云物理机上所有虚拟机高可用的技术方案;同时,VMWare商业云平台单个虚拟机的高可用(HA)是没有状态的,即通过原始虚拟机镜像在其它存活云物理机上创建新虚拟机,新建虚拟机是没有原始虚拟机的应用程序与业务数据;最后一个大缺陷是VMWare商业云平台依赖于特定厂家的分布式存储vSan,在技术上有锁定(Lock in)风险。
CloudStack商业云平台没有针对整个云物理机宕机情况下,物理机上面所有虚拟机高可用的技术方案。
发明内容
本发明针对上面问题提出一种云计算平台的虚拟机高可用性(HA, HighAvailability) 管理方法,为云计算平台的虚拟机提供高效的高可用性,缩短出现云物理主机宕机情况时云主机RTO(Recovery Time Objective)时间;为云计算技术在证券、银行、期货等金融行业的推广应用提供高可用性、高靠性的保障。
本发明提供了一种云计算平台的虚拟机高可用性管理方法,通过物理服务器提供的IPMI协议命令控制物理服务器启停,当感知到物理服务器已经宕机时,将物理服务器关掉,然后将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。
作为本发明的进一步改进,当服务器ping不通超过30s时,则判断服务器已经宕机。
作为本发明的进一步改进,当感知到物理服务器已经宕机时,程序通过服务器impitool 发送关机命令将物理服务器关掉。
作为本发明的进一步改进,通过Openstack救起虚拟机的命令将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。
作为本发明的进一步改进,在云计算平台的云物理机上后台运行一个常驻标准Linux 服务sscc_check_compute_ha,支持service sscc_check_compute_ha start/stop/status 命令。
作为本发明的进一步改进,sscc_check_compute_ha 服务以后台方式运行examine_compute_avail.py,examine_compute_avail.py为每个云物理机spawn出进程,调用check_compute.sh脚本检查,当发生云物理机宕机或者灾难时,调用evacuate_compute.py脚本执行救起操作,check_examine_compute(服务监控脚本)是符合nagios监控接口的脚本,会监测sscc_check_compute_ha服务的运行状态。
作为本发明的进一步改进,computer_nodes_cfg.py配置所有待检测的云物理机的两个心跳IP、IPMI管理IP和hostname;为程序examine_compute_avail.py引用。
作为本发明的进一步改进,check_compute.sh脚本中配置IPMI接口管理的用户名和密码。
本发明的有益效果是:通过上述方案,为云计算平台的虚拟机提供高效的高可用性,缩短出现云物理主机宕机情况时云主机RTO(Recovery Time Objective)时间;为云计算技术在证券、银行、期货等金融行业的推广应用提供高可用性、高靠性的保障。
附图说明
图1是本发明一种云计算平台的虚拟机高可用性管理方法的示意图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进一步说明。
如图1所示,一种云计算平台的虚拟机高可用性管理方法,通过物理服务器提供的IPMI协议命令控制物理服务器启停。当感知到服务器已经宕机(如服务器ping不通超过30s)时,程序通过服务器impitool 发送关机命令将服务器关掉,然后通过Openstack救起(evacuate)虚拟机的命令将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器,整个过程程序自动化完成。
一种云计算平台的虚拟机高可用性管理方法与程序系统实现如下:
1 程序名称:在云计算平台的云物理机上后台运行一个常驻标准Linux 服务sscc_check_compute_ha,支持service sscc_check_compute_ha start/stop/status 命令。
2 程序设计:sscc_check_compute_ha 服务以后台(daemon)方式运行examine_compute_avail.py,examine_compute_avail.py为每个云物理机spawn出进程,调用check_compute.sh脚本检查,当发生云物理机宕机或者灾难时,调用evacuate_compute.py脚本执行救起(evacuate)操作。check_examine_compute是符合nagios监控接口的脚本,会监测sscc_check_compute_ha服务的运行状态。
3 参数配置:
A computer_nodes_cfg.py,配置所有待检测的云物理机的两个心跳IP、IPMI管理IP和hostname;为程序examine_compute_avail.py引用。
B check_compute.sh脚本中IPMI接口管理的用户名和密码。
本发明提供的一种云计算平台的虚拟机高可用性管理方法,就云计算平台上云物理机上所有虚拟机的高可用性,提供一种自动化方案并最后实现程序系统。对比OpenStack云管理平台现在方式,此发明高效、全程自动化实现;保持了虚拟机中应用程序与业务数据完整性。同时,方案可以基于任何类型的共享存储实现,在技术上没有锁定(Lock in)风险。此云计算平台高可用性方案的提出与自动化程序系统的实现,缩短云物理发生宕机或者灾难时虚拟机恢复的RTO时间,为云计算技术在证券、银行期货等金融行业的推广应用扫清技术障碍。
本发明提供的一种云计算平台的虚拟机高可用性管理方法,为满足证券、银行等金融行业对云平台中虚拟机高可用性要求,加速云计算技术在金融行业的推广应用;同时,促进金融行业的各项业务发展与创新。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1.一种云计算平台的虚拟机高可用性管理方法,其特征在于:通过物理服务器提供的IPMI协议命令控制物理服务器启停,当感知到物理服务器已经宕机时,将物理服务器关掉,然后将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。
2.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:当服务器ping不通超过30s时,则判断服务器已经宕机。
3.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:当感知到物理服务器已经宕机时,程序通过服务器impitool 发送关机命令将物理服务器关掉。
4.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:通过Openstack救起虚拟机的命令将宕机云物理机上所有虚拟机自动迁移到其它空闲云物理服务器。
5.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:在云计算平台的云物理机上后台运行一个常驻标准Linux 服务sscc_check_compute_ha,支持service sscc_check_compute_ha start/stop/status 命令。
6.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:sscc_check_compute_ha 服务以后台方式运行examine_compute_avail.py,examine_compute_avail.py为每个云物理机spawn出进程,调用check_compute.sh脚本检查,当发生云物理机宕机或者灾难时,调用evacuate_compute.py脚本执行救起操作,check_examine_compute是符合nagios监控接口的脚本,会监测sscc_check_compute_ha服务的运行状态。
7.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:computer_nodes_cfg.py配置所有待检测的云物理机的两个心跳IP、IPMI管理IP和hostname;为程序examine_compute_avail.py引用。
8.根据权利要求1所述的云计算平台的虚拟机高可用性管理方法,其特征在于:check_compute.sh脚本中配置IPMI接口管理的用户名和密码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710018575.XA CN106874111A (zh) | 2017-01-11 | 2017-01-11 | 一种云计算平台的虚拟机高可用性管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710018575.XA CN106874111A (zh) | 2017-01-11 | 2017-01-11 | 一种云计算平台的虚拟机高可用性管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106874111A true CN106874111A (zh) | 2017-06-20 |
Family
ID=59157345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710018575.XA Pending CN106874111A (zh) | 2017-01-11 | 2017-01-11 | 一种云计算平台的虚拟机高可用性管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106874111A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107733717A (zh) * | 2017-11-01 | 2018-02-23 | 国云科技股份有限公司 | 一种云平台移动式运维的网络配置方法 |
CN108234271A (zh) * | 2017-10-25 | 2018-06-29 | 国云科技股份有限公司 | 一种云平台业务网ip管理方法 |
CN108255575A (zh) * | 2017-12-06 | 2018-07-06 | 顺丰科技有限公司 | 一种虚拟机迁移方法及装置 |
CN109962820A (zh) * | 2017-12-22 | 2019-07-02 | 中移(苏州)软件技术有限公司 | 一种云平台的检测方法和检测平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103152419A (zh) * | 2013-03-08 | 2013-06-12 | 中标软件有限公司 | 一种云计算平台的高可用集群管理方法 |
CN104113596A (zh) * | 2014-07-15 | 2014-10-22 | 华侨大学 | 一种私有云的云监控系统及方法 |
WO2015169199A1 (zh) * | 2014-05-08 | 2015-11-12 | 中国银联股份有限公司 | 分布式环境下虚拟机异常恢复方法 |
-
2017
- 2017-01-11 CN CN201710018575.XA patent/CN106874111A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103152419A (zh) * | 2013-03-08 | 2013-06-12 | 中标软件有限公司 | 一种云计算平台的高可用集群管理方法 |
WO2015169199A1 (zh) * | 2014-05-08 | 2015-11-12 | 中国银联股份有限公司 | 分布式环境下虚拟机异常恢复方法 |
CN104113596A (zh) * | 2014-07-15 | 2014-10-22 | 华侨大学 | 一种私有云的云监控系统及方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108234271A (zh) * | 2017-10-25 | 2018-06-29 | 国云科技股份有限公司 | 一种云平台业务网ip管理方法 |
CN107733717A (zh) * | 2017-11-01 | 2018-02-23 | 国云科技股份有限公司 | 一种云平台移动式运维的网络配置方法 |
CN107733717B (zh) * | 2017-11-01 | 2021-07-30 | 国云科技股份有限公司 | 一种云平台移动式运维的网络配置方法 |
CN108255575A (zh) * | 2017-12-06 | 2018-07-06 | 顺丰科技有限公司 | 一种虚拟机迁移方法及装置 |
CN109962820A (zh) * | 2017-12-22 | 2019-07-02 | 中移(苏州)软件技术有限公司 | 一种云平台的检测方法和检测平台 |
CN109962820B (zh) * | 2017-12-22 | 2021-03-09 | 中移(苏州)软件技术有限公司 | 一种云平台的检测方法和检测平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11301342B2 (en) | Methods, systems, and computer readable storage devices for managing faults in a virtual machine network | |
US10169173B2 (en) | Preserving management services with distributed metadata through the disaster recovery life cycle | |
CN103778031B (zh) | 一种云环境下的分布式系统多级故障容错方法 | |
CN106874111A (zh) | 一种云计算平台的虚拟机高可用性管理方法 | |
CN108270726B (zh) | 应用实例部署方法及装置 | |
US10061665B2 (en) | Preserving management services with self-contained metadata through the disaster recovery life cycle | |
US20210165693A1 (en) | Control token and hierarchical dynamic control | |
CN106911648B (zh) | 一种环境隔离方法及设备 | |
TW201502774A (zh) | 協調分散式系統中的故障復原 | |
US20210250233A1 (en) | Methods, systems, and computer readable mediums for selecting and configuring a computing system to support a replicated application | |
CN104038376A (zh) | 一种管理真实服务器的方法、装置及lvs集群系统 | |
US11424940B2 (en) | Standalone tool for certificate management | |
CN102708027B (zh) | 一种避免通信设备运行中断的方法及系统 | |
CN113595782B (zh) | 一种基于sdn的网络设备管理方法 | |
CN110008005B (zh) | 基于云平台的电网通信资源虚拟机迁移系统及方法 | |
CN110221949A (zh) | 自动化运维管理方法、装置、设备及可读存储介质 | |
US10374924B1 (en) | Virtualized network device failure detection | |
WO2017045436A1 (zh) | 虚拟机故障处理方法和装置 | |
US8156212B2 (en) | Method, system and apparatus for managing computer processes | |
CN114691304B (zh) | 实现集群虚拟机高可用的方法和装置、设备和介质 | |
CN116192885A (zh) | 高可用集群架构人工智能实验云平台数据处理方法及系统 | |
CN113746676B (zh) | 基于容器集群的网卡管理方法、装置、设备、介质及产品 | |
US9886070B2 (en) | Method, system, and computer program product for taking an I/O enclosure offline | |
Wang et al. | The Application Research of Private Cloud in the Data Centers Colleges of Universities | |
CN111338886A (zh) | 基于云环境虚拟机的高可用保护方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170620 |
|
RJ01 | Rejection of invention patent application after publication |