CN103019889A - 分布式文件系统及其故障处理方法 - Google Patents

分布式文件系统及其故障处理方法 Download PDF

Info

Publication number
CN103019889A
CN103019889A CN201210564481XA CN201210564481A CN103019889A CN 103019889 A CN103019889 A CN 103019889A CN 201210564481X A CN201210564481X A CN 201210564481XA CN 201210564481 A CN201210564481 A CN 201210564481A CN 103019889 A CN103019889 A CN 103019889A
Authority
CN
China
Prior art keywords
node
file system
distributed file
malfunctioning
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210564481XA
Other languages
English (en)
Inventor
张攀勇
苗艳超
赵力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201210564481XA priority Critical patent/CN103019889A/zh
Publication of CN103019889A publication Critical patent/CN103019889A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种分布式文件系统及其故障处理方法,其中,该方法包括:在分布式文件系统中存在故障节点的情况下,从所述分布式文件系统中的其他节点中选择备份节点;所述故障节点向所述备份节点发送接管请求,且所述故障节点进行重启;所述分布式文件系统对重启后的所述故障节点分配任务。借助于本发明的上述技术方案,通过在确定分布式文件系统中存在故障节点的情况下,从其他节点中选择负载最轻的节点作为备份节点,向其发送接管请求,备份节点的服务进程进行服务的接管,且重启故障节点再对其进行任务分配,能够保证文件系统的不间断服务,有效应对故障情况,提高分布式文件系统的可靠性。

Description

分布式文件系统及其故障处理方法
技术领域
本发明涉及计算机领域,并且特别地,涉及一种分布式文件系统及其故障处理方法。
背景技术
为了保证分布式文件系统的高可靠性,对于分布式文件系统中的关键服务,如元数据服务、数据服务等,都需要通过冗余的方式来提高其可靠性。对于可靠性的实现方法,一般有两种:
(1)主备方式:主节点进行系统服务,备份节点不工作,处于备份状态,一旦主节点出现故障,则将服务切换到备份节点,由备份节点提供服务,当故障节点修复完成之后,变成新的备份节点,等待后续切换;
(2)热备模式:在该模式下,正常情况下,高可靠组中间的所有节点都向外提供不同的服务,同时互为备份。当某一个节点出现故障时,高可靠组中的其他节点接管故障节点的服务。
现有的高可用系统,一般支持双机高可用,通过两个节点之间的心跳消息判定节点故障并进行备份系统的切换。或采用多机均衡方式,该方式实现中存在一个前端节点,和多个后端服务节点,前端节点负责监控后端节点,并将服务请求转向到后端服务节点,后端服务节点定期向前端节点报告节点状态,并对传入的请求进行服务。多机机群方式,指多个节点组成一个高可靠性组,节点内部的某一个节点出现故障,系统内部的其他节点根据规则进行接管。
现有的高可靠性系统的协议实现较为简单,如双机热备份的方式只支持双机的服务备份,多机负载均衡只支持单一的服务,同时需要复杂的前端节点的服务重定向。同时多机机群方式在实现上往往比较复杂。
分布式文件系统对可靠性的需求相对复杂,在节点出现故障之后,需要通知可靠性组中相关节点准备接管,选择一个负载低的节点接管服务;在系统恢复之后,需要进行上线处理。对于分布式文件系统的特殊环境来说,现有可靠性协议支持不足。
并且,在目前的方案中,恢复后重新上线的节点不能够投入工作,导致系统中可工作和进行后续备份的节点数量减少,既不利于提高系统的可靠性,还会导致系统的资源利用率降低。
针对相关技术中分布式文件系统可靠性低、系统资源利用率差的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中分布式文件系统可靠性低、系统资源利用率差的问题,本发明提出一种分布式文件系统及其故障处理方法,能够重启故障节点且对其重新分配任务,保证文件系统的不间断服务,有效应对故障情况,并提高分布式文件系统的可靠性和资源利用率。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种分布式文件系统的故障处理方法,其特征在于,故障处理方法包括:
在分布式文件系统中存在故障节点的情况下,从分布式文件系统中的其他节点中选择备份节点;
故障节点向备份节点发送接管请求,且故障节点进行重启;
分布式文件系统对重启后的故障节点分配任务。
此外,该方法还包括:通过以下方式确定分布式文件系统中的节点是否出现故障:
在分布式文件系统中节点的监控进程在预定周期内未收到该节点的服务进程发送的心跳消息的情况下,分布式文件系统中的其他部分或全部节点向该节点发送待响应消息;
如果该节点无法对来自其他节点的待响应消息进行响应,则确定该节点为故障节点。
其中,该方法进一步包括:
服务进程按预定周期向监控进程发送心跳消息;
监控进程实时查询服务进程的心跳消息。
另外,从分布式文件系统中的其他节点中选择备份节点包括:
选择分布式文件系统中负载最轻的节点作为备份节点接管故障节点的服务。
可选地,故障节点向备份节点发送接管请求包括:
故障节点的服务进程通过数据网络向分布式文件系统中的备份节点的服务进程发送接管请求。
其中,在故障节点向备份节点发送接管请求之后,故障处理方法进一步包括:
备份节点接收接管请求,该备份节点的服务进程进行服务的接管。
另外,分布式文件系统对重启后的故障节点分配任务包括:
根据分布式文件系统中除了重启后的故障节点之外其他部分或全部节点的负载对该重启后的故障节点分配任务。
根据本发明的另一个方面,提供了一种分布式文件系统,包括多个节点、选择模块、任务分配模块;
其中,选择模块用于在分布式文件系统中存在故障节点的情况下,从分布式文件系统中的其他节点中选择备份节点;
每个节点包括重启操作模块,用于在所在节点出现故障的情况下对所在节点进行重启;
任务分配模块,用于对分布式文件系统中重启后的故障节点分配任务。
此外,该分布式文件系统还包括:
确定模块,用于在分布式文件系统中节点的监控进程在预定周期内未收到该节点的服务进程发送的心跳消息、且该节点无法对来自其他节点的待响应消息进行响应的情况下,确定该节点为故障节点。
其中,任务分配模块用于根据分布式文件系统中除了重启后的故障节点之外其他部分或全部节点的负载,对该重启后的故障节点分配任务。
本发明通过在确定分布式文件系统中存在故障节点的情况下,从其他节点中选择负载最轻的节点作为备份节点,向其发送接管请求,备份节点的服务进程进行服务的接管,且重启故障节点再对其进行任务分配,能够保证文件系统的不间断服务,有效应对故障情况,提高分布式文件系统的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的分布式文件系统的故障处理方法的流程图;
图2是根据本发明实施例的分布式文件系统的故障处理方法的实现原理示意图;
图3是根据本发明实施例的分布式文件系统的故障处理方法中故障节点确定及通知的原理示意图;
图4是根据本发明的实施例的分布式文件系统的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种分布式文件系统的故障处理方法。
如图1所示,根据本发明实施例的分布式文件系统的故障处理方法,包括:
步骤101,在分布式文件系统中存在故障节点的情况下,从分布式文件系统中的其他节点中选择备份节点;
步骤103,故障节点向备份节点发送接管请求,且故障节点进行重启;
步骤105,分布式文件系统对重启后的故障节点分配任务。
此外,该方法还可以包括:通过以下方式确定分布式文件系统中的节点是否出现故障:
在分布式文件系统中节点的监控进程在预定周期内未收到该节点的服务进程发送的心跳消息的情况下,分布式文件系统中的其他部分或全部节点向该节点发送待响应消息;
如果该节点无法对来自其他节点的待响应消息进行响应,则确定该节点为故障节点。
其中,在上述方法中,服务进程按预定周期向监控进程发送心跳消息;监控进程实时查询服务进程的心跳消息。
另外,从分布式文件系统中的其他节点中选择备份节点包括:
选择分布式文件系统中负载最轻的节点作为备份节点接管故障节点的服务。
可选地,故障节点向备份节点发送接管请求包括:
故障节点的服务进程通过数据网络向分布式文件系统中的备份节点的服务进程发送接管请求。
其中,在故障节点向备份节点发送接管请求之后,根据本发明的分布式文件系统的故障处理方法可以进一步包括:
备份节点接收接管请求,该备份节点的服务进程进行服务的接管。
另外,分布式文件系统对重启后的故障节点分配任务包括:
根据分布式文件系统中除了重启后的故障节点之外其他部分或全部节点的负载对该重启后的故障节点分配任务。
根据本发明实施例的分布式文件系统的故障处理方法可以采用面向分布式文件系统的可靠性组协议实现方法。如图2所示,这种可靠性组协议实现方法的实现主要借助于两类进程,即,监控进程和服务进程。监控进程和服务进程之间采用定期心跳的方式来交换系统状态,同时,监控进程和可靠性组中的其他监控进程通过监控网络定期交换心跳消息,获取组中间其他节点的状态。可靠性组中的服务进程通过数据网络连接,进行数据交互;监控进程通过监控网络连接,交互心跳消息和监控命令。这里,进程之间通信的网络可以包括多种网络,例如,可以是以太网,也可以是高性能的通信网络,如Infiniband,此外,也可以是串口、USB等设备。
服务进程负责实现实际的分布式文件系统服务,并定期和监控进程交换心跳消息,报告服务的状态。
在实际应用中,系统中监控进程和服务进程之间的监控流程如下:
第一步,在系统初始化时监控进程启动,根据配置文件配置可靠性组信息,读取系统可靠性组配置,并启动本地服务进程;
第二步,在服务进程启动之后,启动对应的心跳线程,通过消息向监控进程报告服务状态,并发出心跳消息,心跳消息的传输方式为共享内存,或者系统提供的socket、消息队列等;
第三步,监控进程查询服务进程的心跳消息,确定服务进程的状态,如果发现服务进程故障,则通过监控网络和可靠性组中间的其他监控进程交互,决定对服务进程的动作。监控进程也向外发出监控进程心跳消息,如果其他监控进程发现某一个节点死机,同时通过数据网络验证节点死机,则通知可靠性组里面的监控进程进行接管服务的协议交互;
第四步,监控进程之间通过协议交互决定需要对该故障服务进程做何种处理;
第五步,监控进程如果决定需要重启服务进程,则直接跳到第一步,重启服务进程。如果其他监控进程通过协议交互认为需要重启机器,则通过管理接口如IPMI接口重启物理机器。本步骤操作均需要在第四步的协议交互完成之后进行。
在判断某个节点出现服务失效的情况下,本发明可以采用以下协议处理步骤:
监控进程通过定期监视服务进程的心跳消息确定服务进程是否故障,通过其他监控进程的心跳消息和数据网络上的数据消息确定节点是否死机;
发现节点服务状态异常后,向可靠性组内部的其他节点发送通知消息,报告节点服务异常;
可靠性组内部通过选举协议进行选择,根据当前服务的负载情况,选择一个负载轻的节点作为接管节点,通知接管节点接管故障节点上的服务;
接管节点在接收到接管请求之后,通知服务进程进行服务的接管,当服务进程完成对故障节点的服务接管之后,通知故障节点上的监控节点准备重启服务进程,如果故障节点死机,则直接通过IPMI接口重启节点1的物理机器,并重启故障上的监控进程和服务进程;
故障节点在进程重启动成功,将状态改为备份节点状态,等待后续节点故障的服务切换。
具体地,图3示出了在判断某个节点出现服务失效的情况下的协议处理步骤。
如图3所示,处理过程包括:
步骤S1,发现服务故障或者节点故障,如果监控进程在一定时间内未接收到服务进程发送过来的心跳消息,同时通过系统接口确定服务进程死机,则认为该服务故障。例如,如图3所示,如果其他节点通过数据网络和监控网络发现节点1长时间未发送心跳消息,认为节点1死机。
步骤S2,发现节点1服务状态异常后,向可靠性组内部的其他节点发送通知消息,报告节点1服务异常。
步骤S3,可靠性组内部通过选举协议进行选择,根据当前服务的负载情况,选择一个负载轻的节点作为接管节点(节点2),通知节点2进行节点1服务的接管。
步骤S4,节点2在接收到接管请求之后,通知服务进程进行服务的接管,当服务进程完成对节点1的服务接管之后,通知节点1上的监控进程准备重启服务进程,如果节点1为死机状态,则直接通过IPMI接口重启节点1的物理机器,并重启节点1上的监控进程和服务进程。
节点1上的进程重启动成功,将状态改为备份节点状态,等待后续节点故障的服务切换。
根据本发明的一个实施例,提供了一种分布式文件系统。
如图4所示,根据本发明的实施例提供的分布式文件系统包括选择模块、多个节点、任务分配模块;
选择模块41,用于在分布式文件系统中存在故障节点的情况下,从分布式文件系统中的其他节点中选择备份节点;
多个节点42,每个节点包括重启操作模块,用于在所在节点出现故障的情况下对所在节点进行重启;
任务分配模块43,用于对分布式文件系统中重启后的故障节点分配任务。
此外,该分布式文件系统还包括:
确定模块(未示出),用于在分布式文件系统中节点的监控进程在预定周期内未收到该节点的服务进程发送的心跳消息、且该节点无法对来自其他节点的待响应消息进行响应的情况下,确定该节点为故障节点。
其中,任务分配模块43用于根据分布式文件系统中除了重启后的故障节点之外其他部分或全部节点的负载,对该重启后的故障节点分配任务。
综上所述,借助于本发明的上述技术方案,通过在确定分布式文件系统中存在故障节点的情况下,从其他节点中选择负载最轻的节点作为备份节点,向其发送接管请求,备份节点的服务进程进行服务的接管,且重启故障节点再对其进行任务分配,能够保证可靠性组中节点服务的高可靠性,在系统故障时通过协议实现故障节点服务接管并重启服务,以保证不间断的文件系统服务,该方案有效应对故障情况,降低了可靠性的实现难度,提高分布式文件系统的可靠性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式文件系统的故障处理方法,其特征在于,所述故障处理方法包括:
在分布式文件系统中存在故障节点的情况下,从所述分布式文件系统中的其他节点中选择备份节点;
所述故障节点向所述备份节点发送接管请求,且所述故障节点进行重启;
所述分布式文件系统对重启后的所述故障节点分配任务。
2.根据权利要求1所述的故障处理方法,其特征在于,进一步包括:通过以下方式确定所述分布式文件系统中的节点是否出现故障:
在所述分布式文件系统中节点的监控进程在预定周期内未收到所述该节点的服务进程发送的心跳消息的情况下,所述分布式文件系统中的其他部分或全部节点向该节点发送待响应消息;
如果该节点无法对来自其他节点的待响应消息进行响应,则确定该节点为故障节点。
3.根据权利要求2所述的故障处理方法,其特征在于,进一步包括:
所述服务进程按预定周期向所述监控进程发送心跳消息;
所述监控进程实时查询所述服务进程的心跳消息。
4.根据权利要求1所述的故障处理方法,其特征在于,从所述分布式文件系统中的其他节点中选择备份节点包括:
选择所述分布式文件系统中负载最轻的节点作为备份节点接管所述故障节点的服务。
5.根据权利要求1所述的故障处理方法,其特征在于,所述故障节点向所述备份节点发送接管请求包括:
所述故障节点的服务进程通过数据网络向所述分布式文件系统中的备份节点的服务进程发送接管请求。
6.根据权利要求1所述的故障处理方法,其特征在于,在所述故障节点向所述备份节点发送接管请求之后,所述故障处理方法进一步包括:
备份节点接收所述接管请求,该备份节点的服务进程进行服务的接管。
7.根据权利要求1所述的故障处理方法,其特征在于,所述分布式文件系统对重启后的所述故障节点分配任务包括:
根据所述分布式文件系统中除了重启后的所述故障节点之外其他部分或全部节点的负载对该重启后的所述故障节点分配任务。
8.一种分布式文件系统,其特征在于,包括多个节点、选择模块、任务分配模块;
其中,所述选择模块用于在分布式文件系统中存在故障节点的情况下,从所述分布式文件系统中的其他节点中选择备份节点;
每个节点包括重启操作模块,用于在所在节点出现故障的情况下对所在节点进行重启;
任务分配模块,用于对所述分布式文件系统中重启后的故障节点分配任务。
9.根据权利要求8所述的分布式文件系统,其特征在于,进一步包括:
确定模块,用于在所述分布式文件系统中节点的监控进程在预定周期内未收到所述该节点的服务进程发送的心跳消息、且该节点无法对来自其他节点的待响应消息进行响应的情况下,确定该节点为故障节点。
10.根据权利要求8所述的分布式文件系统,其特征在于,所述任务分配模块用于根据所述分布式文件系统中除了重启后的故障节点之外其他部分或全部节点的负载,对该重启后的故障节点分配任务。
CN201210564481XA 2012-12-21 2012-12-21 分布式文件系统及其故障处理方法 Pending CN103019889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210564481XA CN103019889A (zh) 2012-12-21 2012-12-21 分布式文件系统及其故障处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210564481XA CN103019889A (zh) 2012-12-21 2012-12-21 分布式文件系统及其故障处理方法

Publications (1)

Publication Number Publication Date
CN103019889A true CN103019889A (zh) 2013-04-03

Family

ID=47968519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210564481XA Pending CN103019889A (zh) 2012-12-21 2012-12-21 分布式文件系统及其故障处理方法

Country Status (1)

Country Link
CN (1) CN103019889A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103595572A (zh) * 2013-11-27 2014-02-19 牛永伟 一种云计算集群中节点自修复的方法
CN106021005A (zh) * 2016-05-10 2016-10-12 北京金山安全软件有限公司 一种提供应用业务的方法、装置及电子设备
CN106155770A (zh) * 2015-03-30 2016-11-23 联想(北京)有限公司 任务调度方法和电子设备
WO2017041671A1 (zh) * 2015-09-10 2017-03-16 华为技术有限公司 故障恢复的方法和装置
CN106537352A (zh) * 2014-06-17 2017-03-22 慧与发展有限责任合伙企业 分布式存储数据恢复
WO2017107828A1 (zh) * 2015-12-23 2017-06-29 阿里巴巴集团控股有限公司 一种节点重启后的数据处理方法及设备
CN107302600A (zh) * 2017-08-25 2017-10-27 郑州云海信息技术有限公司 一种分布式ftp服务的实现方法及装置
CN107453932A (zh) * 2017-09-29 2017-12-08 郑州云海信息技术有限公司 一种分布式存储系统管理方法及其装置
CN107656847A (zh) * 2017-09-19 2018-02-02 郑州云海信息技术有限公司 基于分布式集群的节点管理方法、系统、装置及存储介质
CN108089911A (zh) * 2017-12-14 2018-05-29 郑州云海信息技术有限公司 OpenStack环境中的计算节点的控制方法和装置
CN108270598A (zh) * 2016-12-30 2018-07-10 北京酷我科技有限公司 一种分布式系统容灾方法、装置和系统
CN108270634A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种心跳探测的方法及系统
CN108510702A (zh) * 2018-04-27 2018-09-07 太原工业学院 火灾检测方法及系统
CN108809768A (zh) * 2018-06-30 2018-11-13 甘肃万维信息技术有限责任公司 一种共享交换平台的故障监控和恢复系统
CN108829564A (zh) * 2018-06-26 2018-11-16 郑州云海信息技术有限公司 一种对Samba的故障诊断方法、装置、设备及存储介质
CN108847980A (zh) * 2018-06-21 2018-11-20 郑州云海信息技术有限公司 一种ctdb节点故障虚拟ip迁移的方法及装置
CN109002478A (zh) * 2018-06-19 2018-12-14 郑州云海信息技术有限公司 分布式文件系统的故障处理方法及相关设备
CN109213571A (zh) * 2018-08-30 2019-01-15 北京百悟科技有限公司 一种内存共享方法、容器管理平台及计算机可读存储介质
CN109634787A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 分布式文件系统监控器切换方法、装置、设备及存储介质
CN109684128A (zh) * 2018-11-16 2019-04-26 深圳证券交易所 消息中间件的集群整体故障恢复方法、服务器及存储介质
CN111193600A (zh) * 2018-11-14 2020-05-22 杭州海康威视系统技术有限公司 一种接管服务的方法、装置及系统
CN111367202A (zh) * 2018-12-26 2020-07-03 华为技术有限公司 监控节点、系统和方法
CN113778744A (zh) * 2021-01-05 2021-12-10 北京沃东天骏信息技术有限公司 任务处理方法、设备、系统以及存储介质
CN114780296A (zh) * 2022-05-09 2022-07-22 马上消费金融股份有限公司 数据库集群的数据备份方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739233B1 (en) * 2003-02-14 2010-06-15 Google Inc. Systems and methods for replicating data
CN102394922A (zh) * 2011-10-27 2012-03-28 上海文广互动电视有限公司 分布式集群文件系统及文件访问方法
CN102752093A (zh) * 2012-06-29 2012-10-24 中国联合网络通信集团有限公司 基于分布式文件系统的数据处理方法、设备和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739233B1 (en) * 2003-02-14 2010-06-15 Google Inc. Systems and methods for replicating data
CN102394922A (zh) * 2011-10-27 2012-03-28 上海文广互动电视有限公司 分布式集群文件系统及文件访问方法
CN102752093A (zh) * 2012-06-29 2012-10-24 中国联合网络通信集团有限公司 基于分布式文件系统的数据处理方法、设备和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李明栋等: "云计算关键技术及标准化", 《电信网技术》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103595572A (zh) * 2013-11-27 2014-02-19 牛永伟 一种云计算集群中节点自修复的方法
CN103595572B (zh) * 2013-11-27 2018-03-27 安徽斯百德信息技术有限公司 一种云计算集群中节点自修复的方法
CN106537352A (zh) * 2014-06-17 2017-03-22 慧与发展有限责任合伙企业 分布式存储数据恢复
CN106537352B (zh) * 2014-06-17 2020-03-10 慧与发展有限责任合伙企业 分布式存储数据恢复
CN106155770A (zh) * 2015-03-30 2016-11-23 联想(北京)有限公司 任务调度方法和电子设备
CN106155770B (zh) * 2015-03-30 2019-11-26 联想(北京)有限公司 任务调度方法和电子设备
WO2017041671A1 (zh) * 2015-09-10 2017-03-16 华为技术有限公司 故障恢复的方法和装置
WO2017107828A1 (zh) * 2015-12-23 2017-06-29 阿里巴巴集团控股有限公司 一种节点重启后的数据处理方法及设备
CN106021005B (zh) * 2016-05-10 2019-01-22 北京金山安全软件有限公司 一种提供应用业务的方法、装置及电子设备
CN106021005A (zh) * 2016-05-10 2016-10-12 北京金山安全软件有限公司 一种提供应用业务的方法、装置及电子设备
CN108270634A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种心跳探测的方法及系统
CN108270598A (zh) * 2016-12-30 2018-07-10 北京酷我科技有限公司 一种分布式系统容灾方法、装置和系统
CN108270598B (zh) * 2016-12-30 2021-07-23 北京酷我科技有限公司 一种分布式系统容灾方法、装置和系统
CN108270634B (zh) * 2016-12-30 2021-08-24 中移(苏州)软件技术有限公司 一种心跳探测的方法及系统
CN107302600A (zh) * 2017-08-25 2017-10-27 郑州云海信息技术有限公司 一种分布式ftp服务的实现方法及装置
CN107656847A (zh) * 2017-09-19 2018-02-02 郑州云海信息技术有限公司 基于分布式集群的节点管理方法、系统、装置及存储介质
CN107453932B (zh) * 2017-09-29 2020-12-01 苏州浪潮智能科技有限公司 一种分布式存储系统管理方法及其装置
CN107453932A (zh) * 2017-09-29 2017-12-08 郑州云海信息技术有限公司 一种分布式存储系统管理方法及其装置
CN108089911A (zh) * 2017-12-14 2018-05-29 郑州云海信息技术有限公司 OpenStack环境中的计算节点的控制方法和装置
CN108510702B (zh) * 2018-04-27 2020-08-04 太原工业学院 火灾检测方法及系统
CN108510702A (zh) * 2018-04-27 2018-09-07 太原工业学院 火灾检测方法及系统
CN109002478A (zh) * 2018-06-19 2018-12-14 郑州云海信息技术有限公司 分布式文件系统的故障处理方法及相关设备
CN108847980A (zh) * 2018-06-21 2018-11-20 郑州云海信息技术有限公司 一种ctdb节点故障虚拟ip迁移的方法及装置
CN108829564A (zh) * 2018-06-26 2018-11-16 郑州云海信息技术有限公司 一种对Samba的故障诊断方法、装置、设备及存储介质
CN108809768B (zh) * 2018-06-30 2021-02-05 中电万维信息技术有限责任公司 一种共享交换平台的故障监控和恢复系统
CN108809768A (zh) * 2018-06-30 2018-11-13 甘肃万维信息技术有限责任公司 一种共享交换平台的故障监控和恢复系统
CN109213571A (zh) * 2018-08-30 2019-01-15 北京百悟科技有限公司 一种内存共享方法、容器管理平台及计算机可读存储介质
CN109213571B (zh) * 2018-08-30 2020-12-29 北京百悟科技有限公司 一种内存共享方法、容器管理平台及计算机可读存储介质
CN111193600A (zh) * 2018-11-14 2020-05-22 杭州海康威视系统技术有限公司 一种接管服务的方法、装置及系统
CN109684128A (zh) * 2018-11-16 2019-04-26 深圳证券交易所 消息中间件的集群整体故障恢复方法、服务器及存储介质
CN109634787A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 分布式文件系统监控器切换方法、装置、设备及存储介质
CN109634787B (zh) * 2018-12-17 2022-04-26 浪潮电子信息产业股份有限公司 分布式文件系统监控器切换方法、装置、设备及存储介质
CN111367202A (zh) * 2018-12-26 2020-07-03 华为技术有限公司 监控节点、系统和方法
CN113778744A (zh) * 2021-01-05 2021-12-10 北京沃东天骏信息技术有限公司 任务处理方法、设备、系统以及存储介质
CN113778744B (zh) * 2021-01-05 2024-06-18 北京沃东天骏信息技术有限公司 任务处理方法、设备、系统以及存储介质
CN114780296A (zh) * 2022-05-09 2022-07-22 马上消费金融股份有限公司 数据库集群的数据备份方法、装置及系统

Similar Documents

Publication Publication Date Title
CN103019889A (zh) 分布式文件系统及其故障处理方法
US7457236B2 (en) Method for providing fault-tolerant application cluster service
US10983880B2 (en) Role designation in a high availability node
CN103199972B (zh) 基于soa、rs485总线实现的双机热备份切换方法及热备份系统
US8032786B2 (en) Information-processing equipment and system therefor with switching control for switchover operation
CN101776983B (zh) 磁盘阵列中双控制器信息的同步方法、及磁盘阵列系统
US20140026000A1 (en) Highly available server system based on cloud computing
CN102761528A (zh) 数据管理系统及方法
CN106487486B (zh) 业务处理方法和数据中心系统
WO2016058307A1 (zh) 资源的故障处理方法及装置
CN1892612A (zh) 集群可用性管理方法和系统
CN104468151B (zh) 一种集群切换时保持tcp会话的系统和方法
CN105302661A (zh) 一种实现虚拟化管理平台高可用的系统和方法
CN103647668A (zh) 一种高可用集群内主机群体决策系统及切换方法
US20170270015A1 (en) Cluster Arbitration Method and Multi-Cluster Cooperation System
CN102394914A (zh) 集群脑裂处理方法和装置
CN112181660A (zh) 一种基于服务器集群的高可用方法
CN110704250B (zh) 一种分布式系统的热备份装置
CN103346923A (zh) 双机负载均衡设备的管理方法和装置
EP3087483A1 (en) System and method for supporting asynchronous invocation in a distributed data grid
CN104917827A (zh) 一种实现oracle负载均衡集群的方法
CN103001787B (zh) 用于数据处理中心容灾备份的系统及方法
CN114553900B (zh) 一种分布式块存储管理系统、方法及电子设备
CN101442437B (zh) 一种实现高可用性的方法、系统及设备
CN102932118B (zh) 一种双机主备裁决的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130403