CN106330531A

CN106330531A - 节点故障记录和处理的方法以及装置

Info

Publication number: CN106330531A
Application number: CN201610670595.0A
Authority: CN
Inventors: 郝健; 于洋; 王冰倩; 沈牧溪
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-08-15
Filing date: 2016-08-15
Publication date: 2017-01-11
Anticipated expiration: 2036-08-15
Also published as: CN106330531B

Abstract

本发明公开了一种节点故障记录和处理的方法以及装置，用以解决现有技术中故障处理被遗漏的技术问题。该方法包括：确定所述分布式系统中的任一节点发生故障；获取发生故障的所述节点的故障信息；将所述故障信息广播给所述分布式系统中的其他所有节点，以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。本发明实施例用于故障节点的记录以及处理。

Description

节点故障记录和处理的方法以及装置

技术领域

本发明涉及通信技术领域，具体地，涉及一种节点故障记录和处理的方法以及装置。

背景技术

在分布式系统中，分布在不同地方的各个节点作为一个集群对外提供服务。针对集群环境下的故障处理，现有技术均采用单一的主节点记录故障节点并进行故障处理。也就是说，任一节点在检测到某一节点发送故障后，自身不做记录，而是将故障上报至主节点，由主节点记录并处理。

主节点在进行故障处理时，每处理完一个故障会删除对应的故障记录。但是，主节点自身也可能发生故障，在此种情况下，集群中新竞选出来的主节点不能获取到上一任主节点未处理完成的故障记录。这样，新竞选出来的主节点无法对之前的故障进行处理，导致某些节点故障处理被遗漏。

由上可知，现有技术中存在故障处理被遗漏的技术问题。

发明内容

本发明的目的是提供一种节点故障记录和处理的方法以及装置，用以解决现有技术中故障处理被遗漏的技术问题。

为了实现上述目的，本发明提供一种节点故障记录的方法，所述方法应用于分布式系统，所述分布式系统包括多个节点，所述方法包括：

确定所述分布式系统中的任一节点发生故障；

获取发生故障的所述节点的故障信息；

将所述故障信息广播给所述分布式系统中的其他所有节点，以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。

可选地，所述确定分布式系统中的任一节点发生故障包括：

第一节点向与所述第一节点相邻的第二节点发送心跳报文，所述第一节点是所述分布式系统中的任一节点；

所述第一节点在时间阈值之前，未收到所述第二节点发送的心跳响应报文时，确定所述第二节点发生故障。

可选地，所述获取发生故障的所述节点的故障信息，包括：

所述第一节点获取所述第二节点的故障信息；

所述将所述故障信息广播给所述分布式系统中的其他所有节点包括：

所述第一节点记录所述故障信息，并将所述故障信息广播给所述分布式系统中的其他所有节点。

本发明还提供一种节点故障处理的方法，所述方法应用于分布式系统，所述分布式系统包括多个节点，包括：

主节点对所述主节点记录的第一故障记录进行处理；

所述主节点在处理完成所述第一故障记录后，广播处理完成消息给所述分布式系统中的其他所有节点，以便接收到所述处理完成消息的节点删除自身记录的第一故障记录，其中，所述分布式系统中的所有节点均记录有相同的故障记录集合，所述第一故障记录是所述故障记录集合中的任一故障记录。

可选地，在所述主节点对所述主节点记录的第一故障记录进行处理之前，所述方法还包括：

在上一任主节点发生故障时，记录所述上一任主节点的故障信息，其中，所述故障记录集合包括所述上一任主节点的故障信息；

确定自身作为新的所述主节点。

本发明还提供一种节点故障记录的装置，所述装置包括：

确定单元，用于确定分布式系统中的任一节点发生故障；

获取单元，用于获取发生故障的所述节点的故障信息；

广播单元，用于将所述故障信息广播给所述分布式系统中的其他所有节点，以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。

可选地，所述装置应用于所述分布式系统中的第一节点，所述第一节点是所述分布式系统中的任一节点，所述装置还包括：

发送单元，用于向与所述第一节点相邻的第二节点发送心跳报文；

所述确定单元具体用于，所述在时间阈值之前，未收到所述第二节点发送的心跳响应报文时，确定所述第二节点发生故障。

可选地，所述获取单元具体用于：

获取所述第二节点的故障信息；

所述装置还包括：

记录单元，用于记录所述第二节点的故障信息。

本发明还提供一种节点故障处理的装置，所述装置应用于所述分布式系统中的主节点，所述装置包括：

故障处理单元，用于对主节点记录的第一故障记录进行处理；

广播单元，用于在所述故障数量范元处理完成所述第一故障记录后，广播处理完成消息给所述分布式系统中的其他所有节点，以便接收到所述处理完成消息的节点删除自身记录的第一故障记录，其中，所述分布式系统中的所有节点均记录有相同的故障记录集合，所述第一故障记录是所述故障记录集合中的任一故障记录。

可选地，所述装置还包括记录单元，用于在上一任主节点发生故障时，记录所述上一任主节点的故障信息，其中，所述故障记录集合包括所述上一任主节点的故障信息；

确定单元，用于确定自身作为新的所述主节点。

通过上述技术方案，分布式系统中任意节点发生故障后，其他所有节点均记录发生故障的节点的故障信息。这样，保证了在分布式系统当前的主节点发生故障后，新的主节点中记录有完整故障信息，避免了故障处理的遗漏，也就是说，只要分布式系统中存在一个正常运行的节点，该节点仍记录有该分布式系统中所有的发生故障的节点的故障信息，该节点仍可以对每一个故障节点进行处理，提高了分布式系统的安全性能。

具体地，本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明实施例提供的一种分布式系统的架构示意图；

图2是本发明实施例提供的一种节点故障记录的方法的流程示意图；

图3是本发明实施例提供的一种节点故障处理的方法的流程示意图；

图4是基于图1所示的系统架构提供的一种节点故障记录和处理的方法的流程示意图；

图5是本发明实施例提供的一种节点故障记录的装置的结构示意图；

图6是本发明实施例提供的一种节点故障处理的装置的结构示意图；

图7是本发明实施例提供的一种分布式系统中的节点的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

为了使本领域的技术人员更容易理解本发明实施例提供的技术方案，下面首先对相关的技术实施环境进行简单介绍。

如图1所示，分布式系统100中包括多个节点，如图1中示出的节点1、节点2、节点3、节点4、节点5、节点6。其中，分布式系统中的每一个节点到另一个节点之间均有至少一条可达路径，图1中所示的拓扑结构只是一种举例说明，在具体实施时，节点间连接的拓扑结构可以有其他形式。

值得说明的是，本发明实施例所描述的分布式系统可以是分布式存储系统，在此种情况下，分布式系统中的每一个节点可以为一个存储服务器，还可以是其他分布式系统，本发明对比不做限定。

在现有的相关技术中，分布式系统中仅主节点记录节点故障信息。例如，参照图1，在节点1为主节点的情况下，节点2至节点6中的任意节点发送故障时，均向节点1上报故障信息，由该节点1统一记录并处理。这样，若节点1自身在处理完所有的故障之前发生故障，新竞选出来的主节点，例如节点2，是无法继续处理节点1之前记录的故障信息的，造成故障处理的遗漏。

为了解决上述技术问题，本发明实施例提供一种节点故障记录的方法，该方法应用于分布式系统，该分布式系统包括多个节点，如图2所示，该方法包括：

S201、确定所述分布式系统中的任一节点发生故障。

值得说明的是，本发明实施例可以通过心跳机制判断节点是否发生故障。

S202、获取发生故障的所述节点的故障信息。

示例地，故障信息可以是表单形式的信息，该表单可以记录发生故障的节点的标识，故障类型以及对应的处理方法等。

S203、将所述故障信息广播给所述分布式系统中的其他所有节点，以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。

也就是说，分布式系统中任意节点发生故障后，其他所有节点均记录发生故障的节点的故障信息。这样，保证了在分布式系统当前的主节点发生故障后，新的主节点中记录有完整故障信息，避免了故障处理的遗漏。并且，只要分布式系统中存在一个正常运行的节点，该节点仍记录有该分布式系统中所有的发生故障的节点的故障信息，该节点仍可以对每一个故障节点进行处理，提高了分布式系统的安全性能。

为了使本领域的技术人员更加理解本发明实施例提供的一种节点故障记录的方法，下面对上述步骤进行详细说明。

在本发明实施例的一种可能的实现方式中，上述方法步骤的执行主体可以是分布式系统中的节点。在此种情况下，上述步骤S201包括：第一节点向与所述第一节点相邻的第二节点发送心跳报文，所述第一节点是所述分布式系统中的任一节点；所述第一节点在时间阈值之前，未收到所述第二节点发送的心跳响应报文时，确定所述第二节点发生故障。

也就是说，该分布式系统中的每相邻的两个节点之间可以通过心跳机制互相检查对方是否发生故障。

进一步地，所述第一节点获取所述第二节点的故障信息；所述第一节点记录所述故障信息，并将所述故障信息广播给所述分布式系统中的其他所有节点。

也就是说，该分布式系统中的每一个节点在检测到相邻节点发生故障后，除了自身记录该相邻节点的故障信息，还将该故障信息广播至分布式系统中的其他所有节点。

上述只是举例说明，可替换的，在本发明实施例中，分布式系统中的每个节点还可以定时向相邻节点发送心跳包，以证明自身还处于正常运行状态，在此种情况下，若在一定时间内未接收到相邻节点主动发送的心跳包即可确定该相邻节点发生故障。

在本发明实施例的另一种可能的实现方式中，执行上述步骤S201至步骤S203的主体是分布式系统的所有节点之外的一服务器，该服务器专门用于管理节点的故障记录，即该服务器同时对分布式系统中的所有节点进行监测，在监测到任一节点发生故障时，将该故障节点的故障信息广播至分布式系统中的其他所有节点。

本发明实施例还提供一种节点故障处理的方法，该方法应用于分布式系统，所述分布式系统包括多个节点，如图3所示，该方法包括：

S301、主节点对所述主节点记录的第一故障记录进行处理。

S302、所述主节点在处理完成所述第一故障记录后，广播处理完成消息给所述分布式系统中的其他所有节点，以便接收到所述处理完成消息的节点删除自身记录的第一故障记录。

其中，所述分布式系统中的所有节点均记录有相同的故障记录集合，所述第一故障记录是所述故障记录集合中的任一故障记录。

具体地，分布式系统中的每个节点均存储相同的故障记录集合的实现方式可以参照图2所示的方法实施例的具体描述，此处不再赘述。

这样，主节点在处理完成所述第一故障记录后，其他节点也相应删除该第一故障记录，避免了该主节点发生故障后，新的主节点重复处理该第一故障记录。

值得说明的是，步骤301中所描述的主节点可能是在上一任主节点发生故障后，分布式系统中重新竞选出的主节点。因此，该节点在对第一故障记录进行处理之前，还包括：在上一任主节点发生故障时，记录所述上一任主节点的故障信息，其中，所述故障记录集合包括所述上一任主节点的故障信息，并确定自身作为新的所述主节点。

下面结合图1对本发明实施例提供的一种节点故障处理的方法进行详细说明。如图4所示，在节点1为分布式系统100的主节点的情况下，该方法包括：

S401、节点2在检测到节点3发生故障时，获取节点3的故障信息。

具体地，节点2可以通过心跳机制检测节点3是否发生故障，此处不再赘述。

S402、节点2记录节点3的故障信息，并将节点3的故障信息广播至分布式系统100中的其他节点。

参照图1，节点2与节点1、节点4、节点5、节点6均相连，因此节点2可以将节点3的故障信息广播至节点1、节点4、节点5和节点6。这样，每个接收到节点3的故障信息的节点均对节点3的故障信息进行记录。

S403、节点2确定节点1发生故障，记录节点1的故障信息，并将节点1的故障信息广播至分布式系统100中的其他节点。

S404、节点2确定自身为主节点。

具体地，分布式系统中，主节点发生故障后，各个节点可以通过竞选机制选出新的主节点，此处不加赘述。其中，本发明实施例是以节点2竞选为新的主节点为例进行说明，在具体实施时，也可能是其他节点竞选为新的主节点，此时，新的主节点也可以执行步骤S405和S406。

S405、节点2对节点3的故障信息进行处理，并在处理完成后，广播处理完成消息给其他节点。

以便接收到该处理完成消息的节点，删除自身记录的节点3的故障信息。

S406、节点2对节点1的故障信息进行处理，并在处理完成后，广播处理完成消息给其他节点。

采用上述方法，每个节点均记录故障节点的信息，避免了主节点发生故障后，新的主节点对故障的处理产生遗漏，并且，主节点每处理完成一个故障即通知其他节点删除对应的故障记录，避免了新的主节点重复处理故障信息。提高了分布式系统的性能。

另外，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

本发明实施例还提供一种节点故障记录的装置50，用于实施图2所示的方法实施例的步骤，如图5所示，该装置50包括：

确定单元51，用于确定分布式系统中的任一节点发生故障。

获取单元52，用于获取发生故障的所述节点的故障信息。

广播单元53，用于将所述故障信息广播给所述分布式系统中的其他所有节点，以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。

采用上述节点故障记录的装置，该装置使得分布式系统中任意节点发生故障后，其他所有节点均记录发生故障的节点的故障信息。这样，保证了在分布式系统当前的主节点发生故障后，新的主节点中记录有完整故障信息，避免了故障处理的遗漏，也就是说，只要分布式系统中存在一个正常运行的节点，该节点仍记录有该分布式系统中所有的发生故障的节点的故障信息，该节点仍可以对每一个故障节点进行处理，提高了分布式系统的安全性能。

可选地，所述装置50应用于所述分布式系统中的第一节点，所述第一节点是所述分布式系统中的任一节点，在此种情况下，如图5中的虚线框所示，所述装置50还包括：

发送单元54，用于向与所述第一节点相邻的第二节点发送心跳报文；

所述确定单元51具体用于，所述在时间阈值之前，未收到所述第二节点发送的心跳响应报文时，确定所述第二节点发生故障。

可选地，所述获取单元52具体用于：获取所述第二节点的故障信息；并且，如图5中的虚线框所示，所述装置50还包括：记录单元55，用于记录所述第二节点的故障信息。

值得说明的是，以上对该装置50的单元划分，仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。并且，上述各功能单元的物理实现也可能有多种实现方式。

另外，所属本领域的技术人员应该清楚地了解到，为描述的方便和简洁，上述描述的装置的各单元的具体工作过程，可以参考前述方法实施例中的对应过程，此处不再赘述。

本发明实施例还提供一种节点故障处理的装置60，所述装置60应用于所述分布式系统中的主节点，用于实施上述图3所示的方法实施例的步骤，如图6所示，所述装置60包括：

故障处理单元61，用于对主节点记录的第一故障记录进行处理；

广播单元62，用于在所述故障数量范元处理完成所述第一故障记录后，广播处理完成消息给所述分布式系统中的其他所有节点，以便接收到所述处理完成消息的节点删除自身记录的第一故障记录，其中，所述分布式系统中的所有节点均记录有相同的故障记录集合，所述第一故障记录是所述故障记录集合中的任一故障记录。

采用上述装置，该装置使得主节点在处理完成所述第一故障记录后，其他节点也相应删除该第一故障记录，避免了该主节点发生故障后，新的主节点重复处理该第一故障记录。

可选地，如图6中的虚线框所示，所述装置60还包括记录单元63，用于在上一任主节点发生故障时，记录所述上一任主节点的故障信息，其中，所述故障记录集合包括所述上一任主节点的故障信息；确定单元64，用于确定自身作为新的所述主节点。

在具体实施时，图5所示的装置50可以处于分布式系统的节点中，也可以是分布式系统所有节点以外的服务器中，该服务器还可以包括其他部件，图5中未一一示出。另外，图5所示的装置50以及图6所示的装置60还可以同时处于该分布式系统的一个节点中。也就是说，该分布式系统中的任意节点均包括节点故障记录的装置50以及节点故障处理的装置60。

图7提供了分布式系统中的节点的结构示意图，如图所示，节点70包括节点故障记录的装置50以及节点故障处理的装置60。

在本申请所提供的实施例中，应该理解到，所公开的装置和方法，可以通过其它的方式实现。例如，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储数据的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种节点故障记录的方法，其特征在于，所述方法应用于分布式系统，所述分布式系统包括多个节点，所述方法包括：

确定所述分布式系统中的任一节点发生故障；

获取发生故障的所述节点的故障信息；

2.根据权利要求1所述的方法，其特征在于，所述确定分布式系统中的任一节点发生故障包括：

3.根据权利要求2所述的方法，其特征在于，所述获取发生故障的所述节点的故障信息，包括：

所述第一节点获取所述第二节点的故障信息；

4.一种节点故障处理的方法，其特征在于，所述方法应用于分布式系统，所述分布式系统包括多个节点，包括：

主节点对所述主节点记录的第一故障记录进行处理；

5.根据权利要求4所述的方法，其特征在于，在所述主节点对所述主节点记录的第一故障记录进行处理之前，所述方法还包括：

确定自身作为新的所述主节点。

6.一种节点故障记录的装置，其特征在于，所述装置包括：

确定单元，用于确定分布式系统中的任一节点发生故障；

获取单元，用于获取发生故障的所述节点的故障信息；

7.根据权利要求6所述的装置，其特征在于，所述装置应用于所述分布式系统中的第一节点，所述第一节点是所述分布式系统中的任一节点，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述获取单元具体用于：

获取所述第二节点的故障信息；

所述装置还包括：

记录单元，用于记录所述第二节点的故障信息。

9.一种节点故障处理的装置，其特征在于，所述装置应用于所述分布式系统中的主节点，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，还包括记录单元，用于在上一任主节点发生故障时，记录所述上一任主节点的故障信息，其中，所述故障记录集合包括所述上一任主节点的故障信息；

确定单元，用于确定自身作为新的所述主节点。