CN111586110A - 一种raft在出现点对点故障时的优化处理方法 - Google Patents

一种raft在出现点对点故障时的优化处理方法 Download PDF

Info

Publication number
CN111586110A
CN111586110A CN202010321478.XA CN202010321478A CN111586110A CN 111586110 A CN111586110 A CN 111586110A CN 202010321478 A CN202010321478 A CN 202010321478A CN 111586110 A CN111586110 A CN 111586110A
Authority
CN
China
Prior art keywords
node
following
point
message
involved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010321478.XA
Other languages
English (en)
Other versions
CN111586110B (zh
Inventor
马俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jeeseen Network Technologies Co Ltd
Original Assignee
Guangzhou Jeeseen Network Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jeeseen Network Technologies Co Ltd filed Critical Guangzhou Jeeseen Network Technologies Co Ltd
Priority to CN202010321478.XA priority Critical patent/CN111586110B/zh
Publication of CN111586110A publication Critical patent/CN111586110A/zh
Application granted granted Critical
Publication of CN111586110B publication Critical patent/CN111586110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供了一种raft在出现点对点故障时的优化处理方法,涉及分布式系统领域,该方法包括如下步骤:S1:领导节点向所有追随节点发送心跳包;S2:超时收不到领导节点心跳包的追随节点确定为故障涉及的追随节点;S3:S2中确定的故障涉及的追随节点向其他追随节点发送消息,询问领导节点状态;S4:收到询问消息的追随节点检测领导节点的状态;S5:收到询问消息的追随节点将含有领导节点状态的消息发送给故障涉及的追随节点;S6:故障涉及的追随节点根据收到的消息发起选举或不发起选举。本发明避免了点对点故障时,涉及故障的两个节点出现循环选举的问题。

Description

一种raft在出现点对点故障时的优化处理方法
技术领域
本发明涉及分布式系统领域,尤其涉及一种raft在出现点对点故障时的优化处理方法。
背景技术
随着大数据的发展,各大网站的负载也越来越高,在这种情况下,就要提高服务器的承受能力。一般有两种方法可以解决承载能力的提升问题:一种是升级服务器;另一种是增加服务器。而增加服务器所说的就是服务器集群,这样新的服务器可以动态地加入到集群,更方便管理;同时服务器之间可以互相通信,它有一个监听的机制,如果一台服务器发生故障,由另一台服务器自动接管,容错能力高。而分布式系统,可以用最有效的方式将工作任务分配到可以使用的多个服务器上进行,提高了计算速度和效率。结合分布式和集群的优点,就可以实现,按照一定的算法来分配任务,如果有一台服务器出问题了,我们还可以根据一定的算法转移到另一台服务器上。这就是所谓的分布式集群。
分布式集群中,目前广泛采用的一致性算法是raft算法,例如常见的:etcd及使用etcd的Kubernetes,都是使用raft算法来解决分布式的一致性问题的。同样作为一致性算法,raft与paxos相比,更容易让人理解,因此现在被广泛运用在分布式系统中。
在一个raft集群中通常有5个节点,可以容许两个节点失效。任一时刻某个节点只能有leader、follower和candidate三种状态(或者说角色)中的一种。正常情况下只有一个leader,其他的都是follower。candidate是用来发起选举的。leader周期性地发送心跳给所有followers,如果一个follower超过一个选举时长(election timeout)没有收到任何通信,它就假定没有生存着的leader了,它将当前的term加1并且变为candidate状态,开始发起选举来竞选新的leader。leader被选出来后,处理所有的client请求,followers不能主动发出请求,但是可以响应leader和candidates的请求。
分布式集群中出现点对点通信故障是不可避免的,如果当前集群中,leader与一个follower的通信发生故障,而其他follower节点间,以及leader与其他follower节点间通信都是正常的,那么,参照图1,以含5个节点的集群为例,通常,此时的处理方法如下:
1.领导节点为leader a,追随节点分别为follower b、follower c、follower d和follower e,此时各个节点的term假设都为3;此时,领导节点leader a向follower b、follower c、follower d和follower e发送心跳包;
a.Follower b因为与leader a之间的通信发生故障,而长时间未收到leader a的心跳包。当等待时间超过选举超时election timeout,如150ms时,follower b将自己的term加1变为4,同时将自身状态变为candidate,自荐为候选节点candidate b。
2.候选节点candidate b向各follower节点发送投票请求,发起选举;
3.Follower c、follower d和follower e收到candidate b的投票请求,以选举成功为例,则follower c、follower d和follower e会将各自的term加1,然后为候选节点candidate b投票,candidate b成功当选为新领导节点,成为领导节点leader b;
b.此时,原领导节点a发送心跳包,会发现follower c、follower d和follower e的term均大于自己的term,则原领导节点a修改自己为follower状态,成为追随节点follower a,同时将自己的term加1,变为4;
4.新当选的领导节点leader b向各追随节点发送心跳包。
5.追随节点follower a因为与领导节点leader b之间的通信发生故障,超过一个election timeout时间,如120ms,未收到来自领导节点leader b的消息,会如前面步骤a中所述,变为候选节点candidate a,term加1,变为5,然后向各追随节点发送投票请求。
6.候选节点candidate a再次当选为领导节点,成为leader a。
此后会重复出现步骤1-步骤6的操作,导致节点a和节点b出现循环选举,产生不必要的系统开销。
现有技术至少存在以下不足:
1.如果当前集群中,leader节点与一个follower节点的通信发生故障,而其他follower节点间,以及leader节点与其他follower节点间通信都是正常的,那么会发生通信故障涉及的两个节点间的循环选举,产生不必要的系统开销。
发明内容
为解决现有技术中存在的技术问题,本发明提供了一种raft在出现点对点故障时的优化处理方法,该方法中,如果当前集群中,leader节点与一个follower节点的通信发生故障,而其他follower节点间,以及leader节点与其他follower节点间通信都是正常的,当follower节点因为通信故障长时间收不到leader节点的心跳包时,当等待时间超过等待超时时间时,该follower节点不变成candidate节点,也不立即发起选举,而是先向所有follower节点发送消息,询问leader节点的状态,如果收到的应答消息表明leader节点是正常的,那么该通信故障涉及的追随节点将自身状态设置为不可用状态,如果收到的应答消息表明leader节点是异常的,那么该通信故障涉及的追随节点将自身状态设置为candidate状态,发起选举。该方法成功避免了现有技术中通信故障涉及的两个节点间循环选举的现象,节省了不必要的系统开销。
本发明提供了一种raft在出现点对点故障时的优化处理方法,这里所说的点对点故障为在该集群中一个追随节点与领导节点之间发生通信故障,而该领导节点与其他追随节点之间以及所有追随节点之间通信正常,该方法包括如下步骤:
S1:领导节点向所有追随节点发送心跳包;
S2:若追随节点过了等待超时时间,还没有收到领导节点发送的心跳包,则确定该追随节点为通信故障涉及的追随节点;
S3:步骤S2中确定的通信故障涉及的追随节点向其他追随节点发送询问消息,用于获得当前领导节点的状态;
S4:收到询问消息的追随节点检测当前领导节点的状态;
S5:收到询问消息的追随节点向所述通信故障涉及的追随节点发送应答消息,告知当前领导节点状态;
S6:所述通信故障涉及的追随节点接收应答消息,所述通信故障涉及的追随节点根据所述应答消息中当前领导节点的状态发起选举或者不发起选举。
优选地,步骤S6中,如果当前领导节点的状态显示当前领导节点正常,则所述通信故障涉及的追随节点不发起选举,而进行自身状态设置;如果当前领导节点的状态显示当前领导节点异常,则所述通信故障涉及的追随节点发起选举。
优选地,步骤S6中进行所述自身状态设置为所述通信故障涉及的追随节点将自身状态设置为不可用状态。
优选地,所述设置为不可用状态的通信故障涉及的追随节点,待通信故障解除后,恢复成追随节点。
优选地,步骤S3中所述询问消息包括以下信息:消息的序列号、当前领导节点的身份标识和通信故障涉及的追随节点身份标识。
优选地,步骤S5中所述应答消息包括以下信息:消息的序列号、当前领导节点的身份标识、通信故障涉及的追随节点身份标识和当前领导节点的状态。
优选地,所述询问消息及所述应答消息中的消息可以定义为包含如下信息的新消息:消息的序列号、当前领导节点的身份标识、通信故障涉及的追随节点身份标识、当前领导节点的状态和消息类型。
优选地,所述新消息中包含的消息类型信息表示该消息为请求消息或应答消息。
优选地,步骤S6中所述发起选举包括如下步骤:
S61:通信故障涉及的追随节点将自己的任期增加1;
S62:通信故障涉及的追随节点成为候选节点;
S63:该候选节点发起选举。
优选地,当前领导节点的状态表示当前领导节点正常或当前领导节点异常。
与现有技术相对比,本发明的有益效果如下:
(1)本发明在领导节点与一个追随节点的通信发生故障,而其他追随节点间,以及领导节点与其他追随节点间通信都是正常的情况下,通信故障涉及的两个节点因通信故障出现长时间收不到当前领导节点心跳包时,不立即发起选举,而是询问领导节点状态,如果收到应答消息显示当前领导节点正常,则该追随节点将自身状态设置为不可用状态,从而避免了现有技术中通信故障涉及的领导节点与追随节点出现循环选举的现象,从而减小了系统开销。
附图说明
图1是现有技术中raft在出现点对点故障时处理方法流程图;
图2是本发明中raft在出现点对点故障时处理方法流程图;
具体实施方式
下面结合附图2,对本发明的具体实施方式作详细的说明。
本发明提供了一种raft在出现点对点故障时的优化处理方法,所述点对点故障为在该集群中领导节点与一个追随节点之间发生通信故障,而领导节点与其他追随节点之间以及所有追随节点之间通信正常,该方法包括如下步骤:
S1:领导节点向所有追随节点发送心跳包;
S2:若追随节点过了等待超时时间,还没有收到领导节点的发送心跳包,则确定该追随节点为通信故障涉及的追随节点;
S3:步骤S2中确定的通信故障涉及的追随节点向其他追随节点发送询问消息,用于获得当前领导节点的状态;
S4:收到询问消息的追随节点检测当前领导节点的状态;
S5:收到询问消息的追随节点向所述通信故障涉及的追随节点发送应答消息,告知当前领导节点状态;
S6:所述通信故障涉及的追随节点接收应答消息,所述通信故障涉及的追随节点根据所述应答消息中当前领导节点的状态发起选举或者不发起选举。
作为优选实施方式,步骤S6中,如果当前领导节点的状态显示当前领导节点正常,则所述通信故障涉及的追随节点不发起选举,而进行自身状态设置;如果当前领导节点的状态显示当前领导节点异常,则所述通信故障涉及的追随节点发起选举。
作为优选实施方式,步骤S6中进行所述自身状态设置为所述通信故障涉及的追随节点将自身状态设置为不可用状态。
作为优选实施方式,所述设置为不可用状态的通信故障涉及的追随节点,待通信故障解除后,恢复成追随节点。
作为优选实施方式,步骤S3中所述询问消息包括以下信息:消息的序列号、当前领导节点的身份标识和通信故障涉及的追随节点身份标识。
作为优选实施方式,步骤S5中所述应答消息包括以下信息:消息的序列号、当前领导节点的身份标识、通信故障涉及的追随节点身份标识和当前领导节点的状态。
作为优选实施方式,所述询问消息及所述应答消息中的消息可以定义为包含如下信息的新消息:消息的序列号、当前领导节点的身份标识、通信故障涉及的追随节点身份标识、当前领导节点的状态和消息类型。
作为优选实施方式,所述新消息中包含的消息类型信息表示该消息为请求消息或应答消息。
作为优选实施方式,步骤S6中所述发起选举包括如下步骤:
S61:通信故障涉及的追随节点将自己的任期增加1;
S62:通信故障涉及的追随节点成为候选节点;
S63:该候选节点发起选举。
作为优选实施方式,当前领导节点的状态表示当前领导节点正常或当前领导节点异常。
实施例1
本发明提供了一种raft在出现点对点故障时的优化处理方法,所述点对点故障为在该集群中领导节点与一个追随节点之间发生通信故障,而该领导节点与其他追随节点之间以及所有追随节点之间通信正常,以下实施例以含5个节点的分布式集群为例,领导节点为leader a,追随节点分别为follower b、follower c、follower d和follower e,此时各个节点的任期term假设都为3,即term=3。领导节点leader a与追随节点follower b之间发生通信故障,下面结合图2对该方法进行详细说明,该方法包括如下步骤:
S1:领导节点leader a向所有追随节点follower b、follower c、follower d和follower e发送心跳包;
S2:追随节点follower b过了等待超时时间150ms,还没有收到领导节点leader a发送的心跳包,确定追随节点follower b为通信故障涉及的追随节点;
在raft中定义新消息类型,包括信息:消息的序列号、当前领导节点的身份标识、通信故障涉及的追随节点身份标识、当前领导节点的状态和消息类型。比如:定义新消息类型CHECK_LEADER,结构为:{int reqnum,int leadid,int reqid,int leaderflag,intmsgtype},其中:
reqnum为消息的序列号;
leadid为当前领导节点的身份标识;
reqid为通信故障涉及的追随节点身份标识;
leaderflag为当前领导节点的状态,表示该领导节点正常或异常;
msgtype为消息类型,表示该消息为询问消息或应答消息。
S3:步骤S2中确定的通信故障涉及的追随节点follower b向其他追随节点follower c、follower d和follower e发送CHECK_LEADER询问消息,用于询问当前领导节点leader a的状态;
S4:收到该CHECK_LEADER询问消息的追随节点follower c、follower d和follower e检测当前领导节点leader a的状态;
S5:收到该CHECK_LEADER询问消息的追随节点follower c、follower d和follower e将含有当前领导节点leader a状态的CHECK_LEADER应答消息发送给通信故障涉及的追随节点follower b;
S6:通信故障涉及的追随节点follower b接收CHECK_LEADER应答消息,通信故障涉及的追随节点follower b根据CHECK_LEADER应答消息中当前领导节点leader a的状态发起选举或者不发起选举。
步骤S6中,如果当前领导节点的状态显示当前领导节点leader a正常,则通信故障涉及的追随节点follower b不发起选举,而进行自身状态设置,将自身状态设置为不可用状态freeze,成为节点freeze b;如果当前领导节点的状态显示当前领导节点leader a异常,则通信故障涉及的追随节点follower b发起选举。
设置为不可用状态的通信故障涉及的节点freeze b,待通信故障解除后,恢复成追随节点follower b。
步骤S6中所述的发起选举,包括以下步骤:
S61:通信故障涉及的追随节点follower b将自己的任期增加1,term=4;
S62:通信故障涉及的追随节点follower b成为候选节点candidate b;
S63:候选节点candidate b发起选举。
本发明实施例提供了一种raft在出现点对点故障时的优化处理方法,使得当通信故障涉及的追随节点在得知当前领导节点状态为正常时,变为候选节点,但不发起选举,而是将自身状态设置为不可用状态,从而避免了因此而导致的通信故障涉及的领导节点与追随节点间的循环选举,节省了系统开销。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。

Claims (10)

1.一种raft在出现点对点故障时的优化处理方法,其中点对点故障为一个追随节点与领导节点之间发生通信故障,而该领导节点与其他追随节点之间以及所有追随节点之间通信正常,其特征在于,该方法包括如下步骤:
S1:领导节点向所有追随节点发送心跳包;
S2:若追随节点过了等待超时时间,还没有收到领导节点发送的心跳包,则确定该追随节点为通信故障涉及的追随节点;
S3:步骤S2中确定的通信故障涉及的追随节点向其他追随节点发送询问消息,用于获得当前领导节点的状态;
S4:收到询问消息的追随节点检测当前领导节点的状态;
S5:收到询问消息的追随节点向所述通信故障涉及的追随节点发送应答消息,告知当前领导节点状态;
S6:所述通信故障涉及的追随节点接收应答消息,所述通信故障涉及的追随节点根据所述应答消息中当前领导节点的状态发起选举或者不发起选举。
2.根据权利要求1所述的一种raft在出现点对点故障时的优化处理方法,其特征在于,步骤S6中,如果当前领导节点的状态显示当前领导节点正常,则所述通信故障涉及的追随节点不发起选举,而进行自身状态设置;如果当前领导节点的状态显示当前领导节点异常,则所述通信故障涉及的追随节点发起选举。
3.根据权利要求2所述的一种raft在出现点对点故障时的优化处理方法,其特征在于,步骤S6中进行所述自身状态设置为所述通信故障涉及的追随节点将自身状态设置为不可用状态。
4.根据权利要求3所述的一种raft在出现点对点故障时的优化处理方法,其特征在于,设置为不可用状态的通信故障涉及的追随节点,待通信故障解除后,恢复成追随节点。
5.根据权利要求1所述的一种raft在出现点对点故障时的优化处理方法,其特征在于,步骤S3中所述询问消息包括以下信息:消息的序列号、当前领导节点的身份标识和通信故障涉及的追随节点身份标识。
6.根据权利要求1所述的一种raft在出现点对点故障时的优化处理方法,其特征在于,步骤S5中所述应答消息包括以下信息:消息的序列号、当前领导节点的身份标识、通信故障涉及的追随节点身份标识和当前领导节点的状态。
7.根据权利要求1所述的一种raft在出现点对点故障时的优化处理方法,其特征在于,所述询问消息及所述应答消息中的消息可以定义为包含如下信息的新消息:消息的序列号、当前领导节点的身份标识、通信故障涉及的追随节点身份标识、当前领导节点的状态和消息类型。
8.根据权利要求7所述的一种raft在出现点对点故障时的优化处理方法,其特征在于,所述新消息中包含的消息类型信息表示该消息为请求消息或应答消息。
9.根据权利要求1所述的一种raft在出现点对点故障时的优化处理方法,其特征在于,步骤S6中所述发起选举包括如下步骤:
S61:通信故障涉及的追随节点将自己的任期增加1;
S62:通信故障涉及的追随节点成为候选节点;
S63:该候选节点发起选举。
10.根据权利要求1所述的一种raft在出现点对点故障时的优化处理方法,其特征在于,当前领导节点的状态表示当前领导节点正常或当前领导节点异常。
CN202010321478.XA 2020-04-22 2020-04-22 一种raft在出现点对点故障时的优化处理方法 Active CN111586110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010321478.XA CN111586110B (zh) 2020-04-22 2020-04-22 一种raft在出现点对点故障时的优化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010321478.XA CN111586110B (zh) 2020-04-22 2020-04-22 一种raft在出现点对点故障时的优化处理方法

Publications (2)

Publication Number Publication Date
CN111586110A true CN111586110A (zh) 2020-08-25
CN111586110B CN111586110B (zh) 2021-03-19

Family

ID=72113684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010321478.XA Active CN111586110B (zh) 2020-04-22 2020-04-22 一种raft在出现点对点故障时的优化处理方法

Country Status (1)

Country Link
CN (1) CN111586110B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204424A (zh) * 2021-04-12 2021-08-03 网络通信与安全紫金山实验室 一种优化Raft集群的方法、装置及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702721A (zh) * 2009-10-26 2010-05-05 北京航空航天大学 一种多集群系统的可重组方法
CN102402395A (zh) * 2010-09-16 2012-04-04 上海中标软件有限公司 基于仲裁磁盘的高可用系统不间断运行方法
CN104933132A (zh) * 2015-06-12 2015-09-23 广州巨杉软件开发有限公司 基于操作序列号的分布式数据库有权重选举方法
CN106301853A (zh) * 2015-06-05 2017-01-04 华为技术有限公司 集群系统中节点的故障检测方法和装置
CN106559263A (zh) * 2016-11-17 2017-04-05 杭州沃趣科技股份有限公司 一种改进的分布式一致性算法
CN106789095A (zh) * 2017-03-30 2017-05-31 腾讯科技(深圳)有限公司 分布式系统及消息处理方法
CN107124305A (zh) * 2017-04-20 2017-09-01 腾讯科技(深圳)有限公司 节点设备运行方法及节点设备
CN107528710A (zh) * 2016-06-22 2017-12-29 华为技术有限公司 raft分布式系统领导节点的切换方法、设备及系统
CN108810046A (zh) * 2017-04-28 2018-11-13 华为技术有限公司 一种选举领导者Leader的方法、装置及设备
CN109088794A (zh) * 2018-08-20 2018-12-25 郑州云海信息技术有限公司 一种节点的故障监测方法和装置
CN109726211A (zh) * 2018-12-27 2019-05-07 无锡华云数据技术服务有限公司 一种分布式时序数据库

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702721A (zh) * 2009-10-26 2010-05-05 北京航空航天大学 一种多集群系统的可重组方法
CN102402395A (zh) * 2010-09-16 2012-04-04 上海中标软件有限公司 基于仲裁磁盘的高可用系统不间断运行方法
CN106301853A (zh) * 2015-06-05 2017-01-04 华为技术有限公司 集群系统中节点的故障检测方法和装置
CN104933132A (zh) * 2015-06-12 2015-09-23 广州巨杉软件开发有限公司 基于操作序列号的分布式数据库有权重选举方法
CN107528710A (zh) * 2016-06-22 2017-12-29 华为技术有限公司 raft分布式系统领导节点的切换方法、设备及系统
CN106559263A (zh) * 2016-11-17 2017-04-05 杭州沃趣科技股份有限公司 一种改进的分布式一致性算法
CN106789095A (zh) * 2017-03-30 2017-05-31 腾讯科技(深圳)有限公司 分布式系统及消息处理方法
CN107124305A (zh) * 2017-04-20 2017-09-01 腾讯科技(深圳)有限公司 节点设备运行方法及节点设备
CN108810046A (zh) * 2017-04-28 2018-11-13 华为技术有限公司 一种选举领导者Leader的方法、装置及设备
CN109088794A (zh) * 2018-08-20 2018-12-25 郑州云海信息技术有限公司 一种节点的故障监测方法和装置
CN109726211A (zh) * 2018-12-27 2019-05-07 无锡华云数据技术服务有限公司 一种分布式时序数据库

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204424A (zh) * 2021-04-12 2021-08-03 网络通信与安全紫金山实验室 一种优化Raft集群的方法、装置及存储介质

Also Published As

Publication number Publication date
CN111586110B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
US7370223B2 (en) System and method for managing clusters containing multiple nodes
EP3543870B1 (en) Exactly-once transaction semantics for fault tolerant fpga based transaction systems
EP1654645B1 (en) Fast application notification in a clustered computing system
US5621884A (en) Distributed data access system including a plurality of database access processors with one-for-N redundancy
US20050055418A1 (en) Method to manage high availability equipments
US7518983B2 (en) Proxy response apparatus
US20030005350A1 (en) Failover management system
EP1697843B1 (en) System and method for managing protocol network failures in a cluster system
CN103019889A (zh) 分布式文件系统及其故障处理方法
US10911295B2 (en) Server apparatus, cluster system, cluster control method and program
EP3343836A1 (en) Hot backup method, device and system
EP2597818A1 (en) Cluster management system and method
CN114844809B (zh) 基于网络心跳和内核磁盘心跳的多因子仲裁方法、装置
CN111586110B (zh) 一种raft在出现点对点故障时的优化处理方法
JP2000250771A (ja) サーバ二重化方式
CN110958151B (zh) 保活检测方法、装置、节点、存储介质及通信系统
CN111314443A (zh) 基于分布式存储系统的节点处理方法、装置和设备及介质
US20030145050A1 (en) Node self-start in a decentralized cluster
CN111865659A (zh) 主备控制器的切换方法和装置、控制器、网络设备
CN114039978B (zh) 一种去中心化的PoW算力集群部署方法
CN114116178A (zh) 集群框架任务管理方法以及相关装置
CN113794595A (zh) 一种基于工业互联网的IoT设备高可用方法
CN113625946A (zh) 一种实现存储集群仲裁的方法、系统及计算机设备
JP2000215076A (ja) クラスタシステム及びクラスタシステムにおけるフェ―ルオ―バ処理方法
CN111966488B (zh) 接口网关多中心应用系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant