CN111355775B - CloudStack集群子服务器状态判断方法、装置、设备及存储介质 - Google Patents

CloudStack集群子服务器状态判断方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111355775B
CN111355775B CN201911396885.0A CN201911396885A CN111355775B CN 111355775 B CN111355775 B CN 111355775B CN 201911396885 A CN201911396885 A CN 201911396885A CN 111355775 B CN111355775 B CN 111355775B
Authority
CN
China
Prior art keywords
server
sub
ping
rbd
host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911396885.0A
Other languages
English (en)
Other versions
CN111355775A (zh
Inventor
刘美华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Innovation Technology Co ltd
Original Assignee
Shenzhen Innovation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Innovation Technology Co ltd filed Critical Shenzhen Innovation Technology Co ltd
Priority to CN201911396885.0A priority Critical patent/CN111355775B/zh
Publication of CN111355775A publication Critical patent/CN111355775A/zh
Application granted granted Critical
Publication of CN111355775B publication Critical patent/CN111355775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1012Server selection for load balancing based on compliance of requirements or conditions with available server resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种CloudStack集群子服务器状态判断方法、装置、设备及存储介质,涉及云技术领域,包括如下步骤:子服务器编写心跳文件并存储在Ceph RBD块存储中,在所述Ceph RBD块存储中创建KVMHA块设备,通过rbd image‑meta set命令所述KVMHA块设备写入键为主机IP,值为当前时间戳的元数据;管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果;当管理节点获取目标子服务器Ping通结果为否时,管理节点通过其他子服务器用rbd image‑meta get命令确定目标子服务器是否可用。通过Ceph RBD块存储来存储心跳文件,避免现有的NFS存储造成的CloudStack集群的超融合环境下支持更多主流存储技术,提升了CloudStack集群的高可适用性。

Description

CloudStack集群子服务器状态判断方法、装置、设备及存储 介质
技术领域
本发明涉及云技术领域,尤其是涉及一种CloudStack集群子服务器状态判断方法、装置、设备及存储介质。
背景技术
CloudStack是一个开源的具有高可用性及扩展性的云计算平台,其通过组织用户的虚拟化资源,让用户构建出安全的、多租户的云计算环境。
CloudStack集群在超融合部署状态下,当遇到突发硬件故障时,如主机断电、断网等特殊情形下,如何确保主机及虚拟机能够继续提供服务,是确保CloudStack高可用性的关键。
现有解决方案在子服务器编写心跳文件时,需要在主存中存储文件,导致集群共享的其他子服务器在问题服务器无法连接主存,不适用于超融合部署状态的CloudStack集群。
发明内容
有鉴于此,本发明的目的在于提供一种CloudStack集群子服务器状态判断方法、装置、设备及存储介质,以提高CloudStack集群的高可适用应用范围。
第一方面,本发明实施例提供了一种CloudStack集群状态判断方法,所述CloudStack集群包括多个子服务器,包括如下步骤:
子服务器编写心跳文件并存储在Ceph RBD块存储中,在所述Ceph RBD 块存储中创建KVMHA块设备,通过rbd image-meta set命令所述KVMHA块设备写入键为主机IP,值为当前时间戳的元数据;
管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果;
当管理节点获取目标子服务器Ping通结果为否时,管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。
进一步的,所述其他子服务器用rbd image-meta get命令确定目标子服务器是否可用的步骤包括:
其他子服务器用rbd image-meta get命令确定目标子服务器的Ceph RBD块存储中是否持续编写有心跳文件。
进一步的,所述当管理节点获取目标子服务器Ping通结果为否时,管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用的步骤还包括:
目标服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。
进一步的,所述目标服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态的步骤还包括:
当目标服务器判断自身不可用时,通过命令ps axu|grep qemu|awk '{print$2}’将该主机上的虚拟机进程全部删除。
第二方面,本发明实施例还提供一种CloudStack集群状态判断装置,包括:
元数据创建模块,用于子服务器编写心跳文件并存储在Ceph RBD块存储中,在所述Ceph RBD块存储中创建KVMHA块设备,通过rbd image-meta set命令所述KVMHA块设备写入键为主机IP,值为当前时间戳的元数据;
Ping通判断模块,用于管理节点定时Ping子服务器的主机IP并获取 Ping通与否的结果;
目标子服务器状态判断模块,用于当管理节点获取目标子服务器Ping 通结果为否时,管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。
进一步的,其他子服务器用rbd image-meta get命令确定目标子服务器的CephRBD块存储中是否持续编写有心跳文件。
进一步的,还包括:目标服务器自身状态判断模块,用于通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。
进一步的,还包括:虚拟机删除模块,用于当目标服务器判断自身不可用时,通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。
第三方面,本发明实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述任一项所述CloudStack集群状态判断方法的步骤。
第四方面,本发明实施例还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述任一项所述 CloudStack集群状态判断方法的步骤。
本发明实施例带来了以下有益效果:通过Ceph RBD块存储来存储心跳文件,避免现有的NFS存储造成的CloudStack集群的超融合环境下支持更多主流存储技术,提升了CloudStack集群的高可适用性。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的CloudStack集群状态判断方法的流程示意图;
图2为本发明另一实施例提供的CloudStack集群状态判断方法的流程示意图;
图3为本发明实施例提供的CloudStack集群状态判断装置的结构示意图;
图4为本发明实施例提供的电子设备的结构示意图。
图5为本发明实施例提供的判断逻辑的示意图。
图标:
100-元数据创建模块;200-Ping通判断模块;300-目标子服务器状态判断模块;501-存储器;502-处理器;503-总线。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种 CloudStack集群状态判断方法进行详细介绍。
实施例一:
CloudStack是一个开源的具有高可用性及扩展性的云计算平台,通常用于帮助用户利用自己的硬件提供公共云服务。在CloudStack集群,特别是超融合部署环境下,在遇到突发的硬件故障,如主机断电、断网等特殊情况下,如何确保主机及虚拟机能继续提供服务,以保证CloudStack的高可用性是当前必须解决的问题。
在解决该问题中重点解决的核心问题是:1,管理节点如何判断主机不可使用(如意外断电、断网);2,当管理节点判断上述主机为不可使用状态时,主机本身如何判断自身不可用以及如何响应。
现有解决方案在子服务器编写心跳文件时,需要在主存中存储文件,导致集群共享的其他子服务器在问题服务器无法连接主存,不适用于超融合部署状态的CloudStack集群。
本实施例提供一种CloudStack集群状态判断方法,所述CloudStack 集群包括多个子服务器,如图1所示,包括如下步骤:
S110:子服务器编写心跳文件并存储在Ceph RBD块存储中,在所述Ceph RBD块存储中创建KVMHA块设备,通过rbd image-meta set命令所述KVMHA 块设备写入键为主机IP,值为当前时间戳的元数据;
S120:管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果;
S130:当管理节点获取目标子服务器Ping通结果为否时,管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。
本方法通过Ceph RBD块存储来存储心跳文件,避免现有的NFS存储造成的CloudStack集群的超融合环境下支持更多主流存储技术,提升了 CloudStack集群的高可适用性。
实施例二:
本实施例提供一种CloudStack集群状态判断方法,所述CloudStack 集群包括多个子服务器,如图2所示,包括如下步骤:
S210:子服务器编写心跳文件并存储在Ceph RBD块存储中,在所述Ceph RBD块存储中创建KVMHA块设备,通过rbd image-meta set命令所述KVMHA 块设备写入键为主机IP,值为当前时间戳的元数据;
S220:管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果;
S230:当管理节点获取目标子服务器Ping通结果为否时,管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器的Ceph RBD 块存储中是否持续编写有心跳文件。
S240:目标服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。
现有技术中,子服务器Agent判定自身不可用逻辑简单,会出现误判、漏判等情况。本方案通过同时判断自身主机网口状态及Ping网关结果来判断自身状态的判断方法逻辑更加复杂严密,判断结果更加准确。
具体判断逻辑如图5所示,采用间隔时间为1分钟的定时任务来检测,初始offlineNum=0,首先检测网口状态,若网口状态为offline,则 offlineNum+1,若网口状态为online,则继续检测Ping网关,若Ping网关结果OK,则offlineNum为0,若Ping网关结果为Fail,则offlineNum+1,当offlineNum>4时,判断目标子服务器已断网不可用。
S250:当目标服务器判断自身不可用时,通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。
现有的子服务器Agent判断自身不可用后,进行重启机器操作,造成自身运行正常的虚拟机也被中断删除,从而影响了服务的正常提供。
本方法在目标服务器判断自身不可用时,通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除,避免了重启机器造成的对正常服务的影响。这种方法的目的在于在目标服务器判断自身不可用时,有可能只是计算部分断网,而存储部分或者其他服务模块的网卡是正常的,避免了误删除的情况。
而且,在目标服务器断网之后,管理节点将该目标服务器的所有虚拟机在其他服务器重新启动,断网目标服务器如果不将虚拟机删除,会存在一个虚拟机多个实例的清洗,进而产生脏数据。
实施例三
本发明实施例还提供一种CloudStack集群状态判断装置,如图3所示,包括:
元数据创建模块100,用于子服务器编写心跳文件并存储在Ceph RBD 块存储中,在所述Ceph RBD块存储中创建KVMHA块设备,通过rbd image-meta set命令所述KVMHA块设备写入键为主机IP,值为当前时间戳的元数据。
Ping通判断模块200,用于管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果。
目标子服务器状态判断模块300,用于当管理节点获取目标子服务器 Ping通结果为否时,管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。
目标服务器自身状态判断模块,用于通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。
虚拟机删除模块,用于当目标服务器判断自身不可用时,通过命令ps axu|grepqemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。
实施例四
本发明实施例还提供一种电子设备,如图4所示,包括:处理器502、存储器501和总线503,所述存储器501存储有所述处理器502可执行的机器可读指令,当电子设备运行时,所述处理器502与所述存储器501之间通过总线503通信,所述处理器502执行所述机器可读指令,以执行上述任一项所述CloudStack集群状态判断方法的步骤。
实施例五
本发明实施例还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器502运行时执行上述任一项所述CloudStack 集群状态判断方法的步骤。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种CloudStack集群状态判断方法,所述CloudStack集群包括多个子服务器,其特征在于,包括如下步骤:
子服务器编写心跳文件并存储在Ceph RBD块存储中,在所述Ceph RBD块存储中创建KVMHA块设备,通过rbd image-meta set命令所述KVMHA块设备写入键为主机IP,值为当前时间戳的元数据;
管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果;
当管理节点获取目标子服务器Ping通结果为否时,管理节点通过其他子服务器用rbdimage-meta get命令确定目标子服务器是否可用。
2.根据权利要求1所述的CloudStack集群状态判断方法,其特征在于,所述其他子服务器用rbd image-meta get命令确定目标子服务器是否可用的步骤包括:
其他子服务器用rbd image-meta get命令确定目标子服务器的Ceph RBD块存储中是否持续编写有心跳文件。
3.根据权利要求2所述的CloudStack集群状态判断方法,其特征在于,所述其他子服务器用rbd image-meta get命令确定目标子服务器的Ceph RBD块存储中是否持续编写有心跳文件之后,还包括:
目标子服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。
4.根据权利要求3所述的CloudStack集群状态判断方法,其特征在于,所述目标子服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态之后,还包括:
当目标子服务器判断自身不可用时,通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。
5.一种CloudStack集群状态判断装置,其特征在于,包括:
元数据创建模块,用于子服务器编写心跳文件并存储在Ceph RBD块存储中,在所述Ceph RBD块存储中创建KVMHA块设备,通过rbd image-meta set命令所述KVMHA块设备写入键为主机IP,值为当前时间戳的元数据;
Ping通判断模块,用于管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果;
目标子服务器状态判断模块,用于当管理节点获取目标子服务器Ping通结果为否时,管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。
6.根据权利要求5所述的CloudStack集群状态判断装置,其特征在于,目标子服务器状态判断模块,还用于当管理节点获取目标子服务器Ping通结果为否时,其他子服务器用rbdimage-meta get命令确定目标子服务器的Ceph RBD块存储中是否持续编写有心跳文件。
7.根据权利要求6所述的CloudStack集群状态判断装置,其特征在于,还包括:
目标服务器自身状态判断模块,用于通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。
8.根据权利要求7所述的CloudStack集群状态判断装置,其特征在于,还包括:
虚拟机删除模块,用于当目标服务器判断自身不可用时,通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-4任一项所述CloudStack集群状态判断方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-4任一项所述CloudStack集群状态判断方法的步骤。
CN201911396885.0A 2019-12-30 2019-12-30 CloudStack集群子服务器状态判断方法、装置、设备及存储介质 Active CN111355775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911396885.0A CN111355775B (zh) 2019-12-30 2019-12-30 CloudStack集群子服务器状态判断方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911396885.0A CN111355775B (zh) 2019-12-30 2019-12-30 CloudStack集群子服务器状态判断方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111355775A CN111355775A (zh) 2020-06-30
CN111355775B true CN111355775B (zh) 2022-11-18

Family

ID=71197050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911396885.0A Active CN111355775B (zh) 2019-12-30 2019-12-30 CloudStack集群子服务器状态判断方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111355775B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307221A (zh) * 2011-03-25 2012-01-04 国云科技股份有限公司 一种云存储系统及其实现方法
CN103475696A (zh) * 2013-08-23 2013-12-25 汉柏科技有限公司 云计算集群服务器状态监控系统和方法
CN106357430A (zh) * 2016-08-29 2017-01-25 桂林浩新科技服务有限公司 一种云计算集群服务状态监控方法和系统
CN106815298A (zh) * 2016-12-09 2017-06-09 中电科华云信息技术有限公司 基于块存储的分布式共享文件系统
WO2018001004A1 (zh) * 2016-06-27 2018-01-04 中兴通讯股份有限公司 一种基于Docker的云平台控制方法及装置
CN107888689A (zh) * 2017-11-16 2018-04-06 无锡地铁集团有限公司 基于共享存储的加锁资源配置方法
CN107911238A (zh) * 2017-11-13 2018-04-13 郑州云海信息技术有限公司 一种基于ipsan服务器双机备份方法和系统
CN108092853A (zh) * 2017-12-27 2018-05-29 珠海市君天电子科技有限公司 监控服务器链路状态的方法、装置、系统、电子设备及存储介质
CN108600284A (zh) * 2017-12-28 2018-09-28 武汉噢易云计算股份有限公司 一种基于Ceph的虚拟机高可用实现方法及系统
CN108804038A (zh) * 2018-05-29 2018-11-13 新华三技术有限公司 日志数据迁移的方法、装置、服务器和计算机可读介质
CN108924195A (zh) * 2018-06-20 2018-11-30 郑州云海信息技术有限公司 一种单向心跳机制实现方法、装置、设备及系统
CN110505114A (zh) * 2019-07-23 2019-11-26 昆明理工大学 一种云计算环境下节点异常判断方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7383313B2 (en) * 2003-11-05 2008-06-03 Hitachi, Ltd. Apparatus and method of heartbeat mechanism using remote mirroring link for multiple storage system
US9632813B2 (en) * 2015-06-22 2017-04-25 Vmware, Inc. High availability for virtual machines in nested hypervisors
US10725804B2 (en) * 2015-08-05 2020-07-28 Vmware, Inc. Self triggered maintenance of state information of virtual machines for high availability operations

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307221A (zh) * 2011-03-25 2012-01-04 国云科技股份有限公司 一种云存储系统及其实现方法
CN103475696A (zh) * 2013-08-23 2013-12-25 汉柏科技有限公司 云计算集群服务器状态监控系统和方法
WO2018001004A1 (zh) * 2016-06-27 2018-01-04 中兴通讯股份有限公司 一种基于Docker的云平台控制方法及装置
CN106357430A (zh) * 2016-08-29 2017-01-25 桂林浩新科技服务有限公司 一种云计算集群服务状态监控方法和系统
CN106815298A (zh) * 2016-12-09 2017-06-09 中电科华云信息技术有限公司 基于块存储的分布式共享文件系统
CN107911238A (zh) * 2017-11-13 2018-04-13 郑州云海信息技术有限公司 一种基于ipsan服务器双机备份方法和系统
CN107888689A (zh) * 2017-11-16 2018-04-06 无锡地铁集团有限公司 基于共享存储的加锁资源配置方法
CN108092853A (zh) * 2017-12-27 2018-05-29 珠海市君天电子科技有限公司 监控服务器链路状态的方法、装置、系统、电子设备及存储介质
CN108600284A (zh) * 2017-12-28 2018-09-28 武汉噢易云计算股份有限公司 一种基于Ceph的虚拟机高可用实现方法及系统
CN108804038A (zh) * 2018-05-29 2018-11-13 新华三技术有限公司 日志数据迁移的方法、装置、服务器和计算机可读介质
CN108924195A (zh) * 2018-06-20 2018-11-30 郑州云海信息技术有限公司 一种单向心跳机制实现方法、装置、设备及系统
CN110505114A (zh) * 2019-07-23 2019-11-26 昆明理工大学 一种云计算环境下节点异常判断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Ceph的分布式存储系统跨机架修复技术优化;娄红敏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815;全文 *

Also Published As

Publication number Publication date
CN111355775A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
US10884837B2 (en) Predicting, diagnosing, and recovering from application failures based on resource access patterns
US8910172B2 (en) Application resource switchover systems and methods
US9652326B1 (en) Instance migration for rapid recovery from correlated failures
US9355005B2 (en) Detection apparatus and detection method
CN113312153A (zh) 一种集群部署方法、装置、电子设备及存储介质
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
US8621260B1 (en) Site-level sub-cluster dependencies
US20140164851A1 (en) Fault Processing in a System
CN111355775B (zh) CloudStack集群子服务器状态判断方法、装置、设备及存储介质
Riabko et al. Cluster fault tolerance model with migration of virtual machines
CN112540873B (zh) 容灾方法、装置、电子设备及容灾系统
CN114996955A (zh) 一种云原生混沌工程实验的靶场环境构建方法及装置
US8595349B1 (en) Method and apparatus for passive process monitoring
CN110287066B (zh) 一种服务器分区迁移方法及相关装置
US10365934B1 (en) Determining and reporting impaired conditions in a multi-tenant web services environment
CN110727652B (zh) 一种云存储处理系统及其实现数据处理的方法
US20210182116A1 (en) Method for running a quorum-based system by dynamically managing the quorum
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
US8533331B1 (en) Method and apparatus for preventing concurrency violation among resources
CN117395263B (zh) 一种数据同步方法、装置、设备和存储介质
CN110688193B (zh) 磁盘处理方法以及装置
US20180225201A1 (en) Preserving volatile memory across a computer system disruption
US10049011B2 (en) Continuing operation of a quorum based system after failures
CN111124797A (zh) 一种Redis组件测试的方法和设备
Sathyanarayanan Reliablity, resiliency and fault management in network function virtualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant