CN110134518B - 一种提高大数据集群多节点应用高可用性的方法及系统 - Google Patents

一种提高大数据集群多节点应用高可用性的方法及系统 Download PDF

Info

Publication number
CN110134518B
CN110134518B CN201910423927.9A CN201910423927A CN110134518B CN 110134518 B CN110134518 B CN 110134518B CN 201910423927 A CN201910423927 A CN 201910423927A CN 110134518 B CN110134518 B CN 110134518B
Authority
CN
China
Prior art keywords
application
state
pacemaker
node
corosync
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910423927.9A
Other languages
English (en)
Other versions
CN110134518A (zh
Inventor
吴李烜
李国涛
胡清
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201910423927.9A priority Critical patent/CN110134518B/zh
Publication of CN110134518A publication Critical patent/CN110134518A/zh
Application granted granted Critical
Publication of CN110134518B publication Critical patent/CN110134518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrotherapy Devices (AREA)

Abstract

本发明公开了一种提高大数据集群多节点应用高可用性的方法及系统,属于计算机软件领域,本发明要解决的技术问题为如何更有效的保证集群应用的高可用特性,采用的技术方案为:①该方法是基于Pacemaker和Corosync结合python监控服务用以对集群进行有效管理以及实时检测系统应用状态,结合心跳包检测,有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性;具体步骤如下:S1、部署多个负载均衡设备;S2、部署多节点应用;S3、部署Pacemaker&Corosync模块和Python监控服务模块。②该系统包括若干负载设备均衡设备和若干节点,节点上部署Pacemaker&Corosync模块和Python监控服务模块;负载均衡设备之间通过心跳包检测判断对方的状态,节点之间通过心跳包检测对方的状态。

Description

一种提高大数据集群多节点应用高可用性的方法及系统
技术领域
本发明涉及计算机软件领域,具体地说是一种提高大数据集群多节点应用高可用性的方法及系统。
背景技术
随着信息技术的发展,借助“虚拟化”技术,云上应用逐渐成为主流。越来越多“云服务”的出现,用户只需要在线申请若干台“云主机”,即可创建集群、部署分布式应用,用较小的代价实现分布式、高性能并行计算,极大的节约了成本。然而,随着应用增多,集群规模势必愈发庞大,资源的管理、应用乃至系统的稳定运行成为了亟待解决的问题。
目前,“单点”问题是系统或者应用高可用最大的风险点。通过集群化的方式保障系统的高可用,如何保障应用的高可用呢?目前,通用的解决方案是通过冗余+自动故障转移来保证应用的高可用特性,即部署多套应用,搭配资源管理器自动隔离故障应用达到应用高可用的目的。
目前有个比较成熟的开源解决方案就是通过Corosync进行心跳检测,利用Pacemaker进行作业调度,底层再利用DRBD进行数据复制的方式实现应用高可用;另一种解决方案即是Corosync+Pacemaker+共享存储的方式实现应用高可用。
然而,上述两个方案都面临“脑裂”的问题,即由于某些原因,节点之间不能完全通信(比如分成了A和B两部分,其中A包含若干节点,B也包含若干节点),A部分的节点能收到各自的心跳信息,B部分的节点也可以收到各自的心跳信息,但是A和B收不到对方的心跳信息,因此,它们都以为对方故障,从而出现两个甚至多个集群,造成资源竞争的情况,即时通过投票的方式避免资源抢占,但是还是有每个集群都达不到法定票数导致集群“失活”的情况。同时,由于某些原因,节点重启之后,Pacemaker&Corosync会自动将节点状态置为“Offline”,导致重启后的正常节点上的应用无法正常工作。
由此可见,即使是主流的资源调度系统也不能完全保证集群的高可用性,故如何更有效的保证集群应用的高可用特性是一个亟待解决的问题。
专利号为CN104023061A的专利文献公开了一种LUSTRE的OSS高可用集群方案,属于计算机服务器系统领域,该方案步骤如下:1)将整个文件系统建立;2)在每个OSS上安装pacemaker软件以及corosync软件;3)在命令行中对此高可用集群添加资源;4)配置完成后,启动corosync和pacemaker服务,模拟失败节点;5)在修复失败节点,然后查看资源是否可以重新添加回来,如果可以,说明此方案可行并执行成功。但是该技术方案面临“脑裂”的问题,不能完全保证集群的高可用性。
专利号为CN103942128A的专利文献公开了高性能作业调度管理节点双机加固方法,该方法主要是在高性能计算领域针对作业调度管理节点通过安装以及配置Pacemaker、corosync和drbd软件,达到节点级以及资源级的双重加固;该方法一方面避免了单机部署造成的单点故障问题,另一方面,采用pacemaker软件可以提供对作业系统资源监控,再加上drbd可以对作业调度系统的存储进行双机配置。但是该技术方案面临“脑裂”的问题,不能完全保证集群的高可用性。
发明内容
本发明的技术任务是提供一种提高大数据集群多节点应用高可用性的方法及系统,来解决如何更有效的保证集群应用的高可用特性的问题。
本发明的技术任务是按以下方式实现的,一种提高大数据集群多节点应用高可用性的方法,该方法是基于Pacemaker和Corosync结合python监控服务用以对集群进行有效管理以及实时检测系统应用状态,结合心跳包检测,有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性;具体步骤如下:
S1、部署多个负载均衡设备:集群外层通过部署多个负载均衡设备(LoadBalancer)供外界访问,负载均衡设备之间通过心跳包检测判断对方的状态;
S2、部署多节点应用:确保每个节点上的应用都能正常启动,之后停止应用,并关闭应用开机自启动功能,确保之后集群应用完全交给集群资源管理器(Pacemaker)调度;
S3、部署Pacemaker&Corosync模块和Python监控服务模块:将Pacemaker&Corosync模块以及Python监控服务模块部署在各个节点(Nodel-N)中。其中,部署python监控服务功能包括:心跳包检测、应用迁移、异常节点隔离、清除应用错误状态、发送告警、重启服务等。
作为优选,所述步骤S3中部署Pacemaker&Corosync模块和Python监控服务是通过Ansible脚本结合Jenkins实现自动化部署,Ansible脚本自动识别系统环境差异化部署。
更优地,所述步骤S2中部署多节点应用是将应用以资源的方式添加到监控集群中,以便于集群资源管理器调度;在添加资源的同时,配置资源的启停超时时长、监控间隔、资源默认状态的信息,以保证Pacemaker能够正确的调度应用。
作为优选,所述步骤S4中将Python监控服务部署在各个节点中主要实现如下功能:
①、通过socket通信探测各节点的心跳包,迁移应用、隔离有问题的节点并发出告警;
②、检测应用的进程确认可用性,及时清除应用的错误状态;
③、检测到节点重启会触发Pacemaker&Corosync自动将节点状态置为“Offline”的情况,及时清理应用状态并重启服务,修正异常状态。
一种提高大数据集群多节点应用高可用性的系统,该系统包括若个干负载设备均衡设备(LoadBalancer)和若个干节点,节点上部署Pacemaker&Corosync模块和Python监控服务模块;负载均衡设备之间通过心跳包检测判断对方的状态,节点之间通过心跳包检测对方的状态。
作为优选,所述节点通过Ansible脚本结合Jenkins自动化部署Pacemaker&Corosync模块和Python监控服务模块,Ansible脚本自动识别系统环境差异化部署。
作为优选,所述Python监控服务主要实现如下功能:
①、通过socket通信探测各节点的心跳包,迁移应用、隔离有问题的节点并发出告警;
②、检测应用的进程确认可用性,及时清除应用的错误状态;
③、检测到节点重启会触发Pacemaker&Corosync自动将节点状态置为“Offline”的情况,及时清理应用状态并重启服务,修正异常状态。
作为优选,该系统的工作过程如下:
(1)、初始化负载均衡设备和节点,下一步执行步骤(2);
(2)、心跳检测,进程检查,下一步执行步骤(3);
(3)、判断节点状态是否异常:
①、若是,则下一步执行步骤(4);
②、若否,则下一步跳转至步骤(7);
(4)、迁移应用,下一步执行步骤(5);
(5)、清理应用状态,下一步执行步骤(6);
(6)、发送告警信息,下一步跳转至步骤(2);
(7)、判断应用状态是否异常:
①、若是,则下一步执行步骤(8);
②、若否,则下一步跳转至步骤(11);
(8)、清理应用状态,下一步执行步骤(9);
(9)、更新配置Pacemaker&Corosync,下一步执行步骤(10);
(10)、重启服务,下一步执行步骤(11);
(11)、结束。
更优地,所述步骤(9)中更新配置Pacemaker&Corosync包括配置资源的启停超时时长、监控间隔以及资源默认状态的信息。
本发明的提高大数据集群多节点应用高可用性的方法及系统具有以下优点:
(一)、本发明主要通过自动化部署Pacemaker&Corosync,解决大数据集群应用“单点故障”问题,同时配合python监控服务,解决大数据集群多节点应用运行过程中遇到的“脑裂”问题,有效的弥补了传统应用高可用解决方案的不足,提高了大数据集群应用的可靠性和稳定性,能够保证大数据集群多节点应用的高可用性;
(二)、本发明基于Pacemaker和Corosync结合python监控服务,提出一种提高大数据集群中多节点应用高可用性的方法,用以对集群进行有效管理以及实时检测系统应用状态,结合心跳包检测,能够有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性。
(三)、本发明明显提高了大数据集群应用的稳定性,有效的避免了“应用异常—>人工干预”这种人工运维的方式,降低了人工成本,极大的缩短了应用故障时间,同时为应用乃至集群的扩展提供了一种有效的解决方案,增强了系统的可扩展性,应用高可用极大的增强了用户体验;
(四)、手工或者自动化部署集群资源管理器(包括但不限定于Pacemaker)、心跳检测(包括但不限定于Corosync)以及应用监控服务(包括但不限定于Python服务),确保具有高可伸缩、高可靠和易管理的集群或者分布式系统环境。
附图说明
下面结合附图对本发明进一步说明。
附图1为提高大数据集群多节点应用高可用性的方法的流程框图;
附图2为提高大数据集群多节点应用高可用性的系统的结构框图;
附图3为提高大数据集群多节点应用高可用性的系统的工作过程的流程框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种提高大数据集群多节点应用高可用性的方法及系统作以下详细地说明。
实施例1:
如附图1所示,本发明的提高大数据集群多节点应用高可用性的方法,该方法是基于Pacemaker和Corosync结合python监控服务用以对集群进行有效管理以及实时检测系统应用状态,结合心跳包检测,有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性;具体步骤如下:
S1、部署多个负载均衡设备(硬件/软件):集群外层通过部署多个负载均衡设备(LoadBalancer)供外界访问,负载均衡设备之间通过心跳包检测判断对方的状态;
S2、部署多节点应用:确保每个节点上的应用都能正常启动,之后停止应用,并关闭应用开机自启动功能,确保之后集群应用完全交给集群资源管理器(Pacemaker)调度;
S3、部署Pacemaker&Corosync模块和Python监控服务模块:将Pacemaker&Corosync模块以及Python监控服务模块部署在各个节点(Nodel-N)中;其中,部署Pacemaker&Corosync:部署多节点应用是通过Ansible脚本结合Jenkins自动化部署Pacemaker&Corosync,Ansible脚本自动识别系统环境差异化部署;将应用以资源的方式添加到监控集群中,以便于集群资源管理器调度;在添加资源的同时,配置资源的启停超时时长、监控间隔、资源默认状态的信息,以保证Pacemaker能够正确的调度应用。
部署python监控服务:将Python监控服务部署在各个节点(Nodel)中,主要实现如下功能:
①、通过socket通信探测各节点的心跳包,迁移应用、隔离有问题的节点并发出告警;
②、检测应用的进程确认可用性,及时清除应用的错误状态;
③、检测到节点重启会触发Pacemaker&Corosync自动将节点状态置为“Offline”的情况,及时清理应用状态并重启服务,修正异常状态。
实施例2:
如附图2所示,本发明的提高大数据集群多节点应用高可用性的系统,该系统包括若干负载设备均衡设备(LoadBalancer)和若干节点,节点上部署Pacemaker&Corosync模块和Python监控服务模块;负载均衡设备之间通过心跳包检测判断对方的状态,节点之间通过心跳包检测对方的状态。节点通过Ansible脚本结合Jenkins自动化部署Pacemaker&Corosync模块和Python监控服务模块,Ansible脚本自动识别系统环境差异化部署。
其中,Python监控服务主要实现如下功能:
①、通过socket通信探测各节点的心跳包,迁移应用、隔离有问题的节点并发出告警;
②、检测应用的进程确认可用性,及时清除应用的错误状态;
③、检测到节点重启会触发Pacemaker&Corosync自动将节点状态置为“Offline”的情况,及时清理应用状态并重启服务,修正异常状态。
如附图3所示,该系统的工作过程如下:
(1)、初始化负载均衡设备和节点,下一步执行步骤(2);
(2)、心跳检测,进程检查,下一步执行步骤(3);
(3)、判断节点状态是否异常:
①、若是,则下一步执行步骤(4);
②、若否,则下一步跳转至步骤(7);
(4)、迁移应用,下一步执行步骤(5);
(5)、清理应用状态,下一步执行步骤(6);
(6)、发送告警信息,下一步跳转至步骤(2);
(7)、判断应用状态是否异常:
①、若是,则下一步执行步骤(8);
②、若否,则下一步跳转至步骤(11);
(8)、清理应用状态,下一步执行步骤(9);
(9)、更新配置Pacemaker&Corosync,下一步执行步骤(10);其中,更新配置Pacemaker&Corosync包括配置资源的启停超时时长、监控间隔以及资源默认状态的信息;
(10)、重启服务,下一步执行步骤(11);
(11)、结束。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (2)

1.一种提高大数据集群多节点应用高可用性的方法,其特征在于,该方法是基于Pacemaker和Corosync结合python监控服务用以对集群进行有效管理以及实时检测系统应用状态,结合心跳包检测,有效的提高应用的稳定性并自发进行故障转移以保证集群应用的高可用特性;具体步骤如下:
S1、部署多个负载均衡设备:集群外层通过部署多个负载均衡设备供外界访问,负载均衡设备之间通过心跳包检测判断对方的状态;
S2、部署多节点应用:确保每个节点上的应用都能正常启动,之后停止应用,并关闭应用开机自启动功能,确保之后集群应用完全交给集群资源管理器调度;其中,部署多节点应用是将应用以资源的方式添加到监控集群中,以便于集群资源管理器调度;在添加资源的同时,配置资源的启停超时时长、监控间隔、资源默认状态的信息,以保证Pacemaker能够正确的调度应用;
S3、部署Pacemaker&Corosync模块和Python监控服务模块:将Pacemaker&Corosync模块以及Python监控服务模块部署在各个节点中;其中,部署Pacemaker&Corosync模块和Python监控服务模块是通过Ansible脚本结合Jenkins实现自动化部署,Ansible脚本自动识别系统环境差异化部署;Python监控服务模块部署在各个节点中主要实现如下功能:
①、通过socket通信探测各节点的心跳包,迁移应用、隔离有问题的节点并发出告警;
②、检测应用的进程确认可用性,及时清除应用的错误状态;
③、检测到节点重启会触发Pacemaker&Corosync自动将节点状态置为“Offline”的情况,及时清理应用状态并重启服务,修正异常状态。
2.一种提高大数据集群多节点应用高可用性的系统,其特征在于,该系统包括若干负载设备均衡设备和若干节点,节点上部署Pacemaker&Corosync模块和Python监控服务模块;负载均衡设备之间通过心跳包检测判断对方的状态,节点之间通过心跳包检测对方的状态;
其中,节点通过Ansible脚本结合Jenkins自动化部署Pacemaker&Corosync模块和Python监控服务模块,Ansible脚本自动识别系统环境差异化部署;
Python监控服务主要实现如下功能:
①、通过socket通信探测各节点的心跳包,迁移应用、隔离有问题的节点并发出告警;
②、检测应用的进程确认可用性,及时清除应用的错误状态;
③、检测到节点重启会触发Pacemaker&Corosync自动将节点状态置为“Offline”的情况,及时清理应用状态并重启服务,修正异常状态;
该系统的工作过程如下:
(1)、初始化负载均衡设备和节点,下一步执行步骤(2);
(2)、心跳检测,进程检查,下一步执行步骤(3);
(3)、判断节点状态是否异常:
①、若是,则下一步执行步骤(4);
②、若否,则下一步跳转至步骤(7);
(4)、迁移应用,下一步执行步骤(5);
(5)、清理应用状态,下一步执行步骤(6);
(6)、发送告警信息,下一步跳转至步骤(2);
(7)、判断应用状态是否异常:
①、若是,则下一步执行步骤(8);
②、若否,则下一步跳转至步骤(11);
(8)、清理应用状态,下一步执行步骤(9);
(9)、更新配置Pacemaker&Corosync,下一步执行步骤(10);其中,更新配置Pacemaker&Corosync包括配置资源的启停超时时长、监控间隔以及资源默认状态的信息;
(10)、重启服务,下一步执行步骤(11);
(11)、结束。
CN201910423927.9A 2019-05-21 2019-05-21 一种提高大数据集群多节点应用高可用性的方法及系统 Active CN110134518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910423927.9A CN110134518B (zh) 2019-05-21 2019-05-21 一种提高大数据集群多节点应用高可用性的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910423927.9A CN110134518B (zh) 2019-05-21 2019-05-21 一种提高大数据集群多节点应用高可用性的方法及系统

Publications (2)

Publication Number Publication Date
CN110134518A CN110134518A (zh) 2019-08-16
CN110134518B true CN110134518B (zh) 2023-09-01

Family

ID=67572165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910423927.9A Active CN110134518B (zh) 2019-05-21 2019-05-21 一种提高大数据集群多节点应用高可用性的方法及系统

Country Status (1)

Country Link
CN (1) CN110134518B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112564927B (zh) * 2019-09-10 2022-11-25 无锡江南计算技术研究所 自适应的资源多域动态组织方法
CN110784350B (zh) * 2019-10-25 2022-04-05 北京计算机技术及应用研究所 一种实时高可用集群管理系统的设计方法
CN111641680A (zh) * 2020-05-11 2020-09-08 紫光云技术有限公司 一种Ambari高可用集群的管理方法
CN113852475A (zh) * 2020-06-28 2021-12-28 京东方科技集团股份有限公司 运维方法及系统、主控节点
CN112099928A (zh) * 2020-08-28 2020-12-18 上海微亿智造科技有限公司 Maxwell进程意外停止的恢复方法、系统及介质
CN112367386B (zh) * 2020-10-30 2023-05-30 中国平安人寿保险股份有限公司 基于Ignite的自动化运维方法、装置及计算机设备
CN113608836A (zh) * 2021-08-06 2021-11-05 上海英方软件股份有限公司 一种基于集群的虚拟机高可用方法及系统
CN115883547A (zh) * 2022-11-15 2023-03-31 浪潮云信息技术股份公司 一种基于DRBD的NiFi高可用部署方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674331A (zh) * 2009-10-21 2010-03-17 成都市华为赛门铁克科技有限公司 集群存储系统及其脑裂处理方法
CN103942128A (zh) * 2014-04-29 2014-07-23 浪潮电子信息产业股份有限公司 一种高性能作业调度管理节点双机加固方法
CN104023061A (zh) * 2014-06-10 2014-09-03 浪潮电子信息产业股份有限公司 一种lustre的oss高可用集群方案
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置
CN107404522A (zh) * 2017-07-20 2017-11-28 郑州云海信息技术有限公司 一种跨节点的虚拟机集群高可用实现方法和装置
CN107707393A (zh) * 2017-09-26 2018-02-16 赛尔网络有限公司 基于Openstack O版特性的多活系统
CN108449200A (zh) * 2018-02-02 2018-08-24 云宏信息科技股份有限公司 一种基于控制节点的屏蔽信息写入方法及装置
CN109634716A (zh) * 2018-12-04 2019-04-16 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用管理端装置及管理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150006846A1 (en) * 2013-06-28 2015-01-01 Saratoga Speed, Inc. Network system to distribute chunks across multiple physical nodes with disk support for object storage

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674331A (zh) * 2009-10-21 2010-03-17 成都市华为赛门铁克科技有限公司 集群存储系统及其脑裂处理方法
CN103942128A (zh) * 2014-04-29 2014-07-23 浪潮电子信息产业股份有限公司 一种高性能作业调度管理节点双机加固方法
CN104023061A (zh) * 2014-06-10 2014-09-03 浪潮电子信息产业股份有限公司 一种lustre的oss高可用集群方案
CN107239383A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种OpenStack虚拟机的故障监控方法及装置
CN107404522A (zh) * 2017-07-20 2017-11-28 郑州云海信息技术有限公司 一种跨节点的虚拟机集群高可用实现方法和装置
CN107707393A (zh) * 2017-09-26 2018-02-16 赛尔网络有限公司 基于Openstack O版特性的多活系统
CN108449200A (zh) * 2018-02-02 2018-08-24 云宏信息科技股份有限公司 一种基于控制节点的屏蔽信息写入方法及装置
CN109634716A (zh) * 2018-12-04 2019-04-16 武汉烽火信息集成技术有限公司 防脑裂的OpenStack虚拟机高可用管理端装置及管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Comparing Pacemaker with OpenSAF for Availability Management in the Cloud;Mehran Khan;《 2017 IEEE International Conference on Edge Computing (EDGE)》;20170911;106-111 *

Also Published As

Publication number Publication date
CN110134518A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134518B (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
CN111290834B (zh) 一种基于云管理平台实现业务高可用的方法、装置及设备
Bailis et al. The network is reliable: An informal survey of real-world communications failures
US9454469B2 (en) Cloud-based test execution
EP2946293B1 (en) Healing cloud services during upgrades
US9311200B1 (en) Method and system for providing high availability to computer applications
CN103778031B (zh) 一种云环境下的分布式系统多级故障容错方法
US8910172B2 (en) Application resource switchover systems and methods
CN108270726B (zh) 应用实例部署方法及装置
EP3210367B1 (en) System and method for disaster recovery of cloud applications
CN106657167B (zh) 管理服务器、服务器集群、以及管理方法
CN109286529B (zh) 一种恢复RabbitMQ网络分区的方法及系统
WO2017067484A1 (zh) 一种虚拟化数据中心调度系统和方法
CN103200036B (zh) 一种电力系统云计算平台的自动化配置方法
CN109347681A (zh) 分布式系统中的自更新功能
EP1697842A2 (en) Method and an apparatus for controlling executables running on blade servers
CN103595572B (zh) 一种云计算集群中节点自修复的方法
US10120779B1 (en) Debugging of hosted computer programs
CN103532753A (zh) 一种基于内存换页同步的双机热备方法
CN114338670B (zh) 一种边缘云平台和具有其的网联交通三级云控平台
US11074120B2 (en) Preventing corruption by blocking requests
US10365934B1 (en) Determining and reporting impaired conditions in a multi-tenant web services environment
CN109150941B (zh) 一种数据中心物理资源浮动方法
US20210247996A1 (en) Service continuation system and service continuation method
CN110677288A (zh) 一种通用于多场景部署的边缘计算系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant