CN116846740A - 一种节点故障处理方法及装置 - Google Patents

一种节点故障处理方法及装置 Download PDF

Info

Publication number
CN116846740A
CN116846740A CN202310660596.7A CN202310660596A CN116846740A CN 116846740 A CN116846740 A CN 116846740A CN 202310660596 A CN202310660596 A CN 202310660596A CN 116846740 A CN116846740 A CN 116846740A
Authority
CN
China
Prior art keywords
node
target
forwarding
nodes
alternative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310660596.7A
Other languages
English (en)
Inventor
白娟
孙玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Macrosan Technologies Co Ltd
Original Assignee
Macrosan Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Macrosan Technologies Co Ltd filed Critical Macrosan Technologies Co Ltd
Priority to CN202310660596.7A priority Critical patent/CN116846740A/zh
Publication of CN116846740A publication Critical patent/CN116846740A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种节点故障处理方法及装置,该方法包括:通过监控集群中各个节点的的网口状态,以确定备选转发节点,当集群中节点的网口状态为down时,确定该节点与和该节点连接的其他节点的连通状态,当确定无法连通时,则从备选转发节点中确定目标转发节点,并通过所述目标转发节点向上述无法连通的其他节点发送数据。在本申请中,当不同节点上不同子网心跳链路故障时,还能保持各个节点连通,以维持集群中的各个节点稳定在线,减少不必要的集群切换。

Description

一种节点故障处理方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种节点故障处理方法及装置。
背景技术
随着信息化建设的持续推进,电子信息化办公已逐渐取代了传统的纸质办公,日常科研、生产、办公时产生的电子文档日益增加,这些电子数据一般集中存储在集群服务器上。
集群各个节点之间通过心跳来判断对端是否异常,相邻两节点之间通过心跳链路发送数据令牌,数据令牌通道上的节点可相互通信时,令牌才能发送成功。通常,集群各节点之间的心跳链路属于同一子网,多条心跳链路对应多个子网,分别对应连接多个交换机。当其中一条链路不通时,可通过其他子网链路进行发送数据令牌。
在当前多心跳链路集群数据令牌转发方案中,当不同节点上的不同子网心跳链路故障时,各个节点之间数据令牌无法正常转发,导致部分节点被踢出集群,而如果集群资源运行到即将被踢出集群的节点时,会引起集群资源切换到其他节点,业务稳定性降低。
发明内容
有鉴于此,本申请提供一种节点故障处理方法及装置,使不同节点上不同子网心跳链路故障时,还能保持各个节点连通,维持集群中的各个节点稳定在线,减少不必要的集群切换。
本申请实施例提供的技术方案包括:
一种节点故障处理方法,应用于多心跳链路集群中的节点,所述方法包括:
监控所述节点的各心跳链路的网口状态,并确定所述节点的备选转发节点;
当检测到其中一个心跳链路的网口状态为down时,确定所述节点和目标节点的连通状态,所述目标节点为与所述节点连接的其他节点;
当确定所述节点与目标节点无法连通时,从所述备选转发节点中确定目标转发节点,并通过所述目标转发节点向所述目标节点发送数据。
可选的,所述通过所述目标转发节点向所述目标节点发送数据包括:
将所述目标转发节点分别配置到原节点和所述目标节点的通信接口,当原节点向目标节点发送数据时,先通过所述通信接口将所述数据发送到所述目标转发节点,以使所述目标转发节点通过所述通信接口将所述数据发送到所述目标节点。
可选的,所述确定所述节点的备选转发节点包括:
监控其他节点的网口状态,依据所述其他节点的网口状态确定备选转发节点列表,所述备选转发节点列表包含所述备选转发节点;
依据所述备选转发节点列表确定备选转发节点。
可选的,所述依据所述其他节点的网口状态确定备选转发节点列表包括:
当所述其他节点的各心跳链路的网口状态都为UP时,则将所述其他节点加入所述备选转发节点列表;
当所述备选转发节点列表中的备选转发节点的心跳链路的网口状态down时,则将所述备选转发节点从所述备选转发节点列表中删除;
所述从所述备选转发节点中确定目标转发节点包括:
依据加入所述备选转发节点列表的时间顺序对备用转发节点进行排序,按预定规则从所述备选转发节点列表选取一个备用转发节点,将其确定为目标转发节点。
可选的,所述方法还包括:
当检测到所述心跳链路的网口状态为up时,确定所述节点和目标节点的连通状态;
当确定与目标节点连通时,将所述目标转发节点的通信接口从所述节点和目标节点删除,以使所述节点通过所述双心跳链路网口向所述目标节点发送数据。
本申请实施例还提供了一种节点故障处理装置,应用于双心跳链路集群中的节点,所述装置包括:
监控单元:用于监控所述节点的双心跳链路网口状态,并确定所述节点的备选转发节点;
确定单元:用于当检测到其中一个心跳链路的网口状态为down时,确定所述节点和目标节点的连通状态,所述目标节点为与所述节点连接的其他节点;
发送单元:用于当确定所述节点与目标节点无法连通时,从所述备选转发节点中确定目标转发节点,并通过所述目标转发节点向所述目标节点发送数据。
可选的,所述确定单元通过所述目标转发节点向所述目标节点发送数据包括:
将所述目标转发节点分别配置到原节点和所述目标节点的通信接口,当原节点向目标节点发送数据时,先通过所述通信接口将所述数据发送到所述目标转发节点,以使所述目标转发节点通过所述通信接口将所述数据发送到所述目标节点。
可选的,所述确定所述节点的备选转发节点包括:
监控其他节点的网口状态,依据所述其他节点的网口状态确定备选转发节点列表,所述备选转发节点列表包含所述备选转发节点;
依据所述备选转发节点列表确定备选转发节点。
可选的,所述依据所述其他节点的网口状态确定备选转发节点列表包括:
当所述其他节点的各心跳链路的网口状态都为UP时,则将所述其他节点加入所述备选转发节点列表;
当所述备选转发节点列表中的备选转发节点的心跳链路的网口状态down时,则将所述备选转发节点从所述备选转发节点列表中删除;
所述从所述备选转发节点中确定目标转发节点包括:
依据加入所述备选转发节点列表的时间顺序对备用转发节点进行排序,按预定规则从所述备选转发节点列表选取一个备用转发节点,将其确定为目标转发节点。
可选的,所述装置还包括:
删除单元:用于当检测到所述心跳链路的网口状态为up时,确定所述节点和目标节点的连通状态;
当确定与目标节点连通时,将所述目标转发节点的通信接口从所述节点和目标节点删除,以使所述节点通过所述双心跳链路网口向所述目标节点发送数据。
本申请提供的节点故障处理方法,通过监控集群中各个节点的的网口状态,以确定备选转发节点,当集群中节点的网口状态为down时,确定该节点与和该节点连接的其他节点的连通状态,当确定无法连通时,则从备选转发节点中确定目标转发节点,并通过所述目标转发节点向上述无法连通的其他节点发送数据。在本申请中,当不同节点上不同子网心跳链路故障时,还能保持各个节点连通,以维持集群中的各个节点稳定在线,减少不必要的集群切换。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的集群三节点在线的结构图;
图2为本申请实施例提供的的方法流程图;
图3为本申请实施例提供的转发节点确定的流程图;
图4为本申请实施例提供的集群转发节点结构图
图5为本申请实施例提供的装置结构图;
图6为本申请实施例提供的电子设备结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种器件,但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如,在不脱离本申请范围的情况下,第一器件也可以被称为第二器件,类似地,第二器件也可以被称为第一器件。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
在当前双心跳链路集群数据令牌转发方案中,相邻两节点只能通过同网段的心跳链路进行发送数据。如图1所示,当集群有四个节点,分别为A、B、C和D时,A节点私有链路子网1故障,B节点私有链路子网2故障,此时数据令牌转发不能形成四节点环路,导致A和B两节点之间无法连通。这种情况下,集群只能监测到三个节点,从而将A节点或者B节点踢出集群,重组为3个节点在线提供业务。这就导致该集群不能维持四节点稳定在线。如果集群资源运行到即将被踢出集群的节点,将会引起集群资源切换到其他节点,业务稳定性降低。
为了解决上述问题,本申请提供了一种节点故障处理方法。
参见图2,为本发明实施例示出的一种节点故障处理方法的流程图,该方法应用于多心跳链路集群中的节点。
如图2所示,该流程可包括以下步骤:
步骤S201,监控上述节点的各心跳链路的网口状态,并确定上述节点的备选转发节点。
可以通过网络接口监测工具对集群中各节点的网口状态进行监控,例如OpenNMS、SugarNMS、Nagios、Collectd等等。
在本实施例中,所述确定所述节点的备选转发节点包括:
监控其他节点的网口状态,依据所述其他节点的网口状态确定备选转发节点列表,所述备选转发节点列表包含所述备选转发节点;
依据所述备选转发节点列表确定备选转发节点。
在本实施例中,可以通过备选转发节点列表记录可能存在的多个备选转发节点,再从该备选转发节点列表中选择一个备选转发节点,并将其确定为目标转发节点。从备选转发节点列表中选择一个备选转发节点的方法有很多,例如依据加入备选转发节点列表的时间,依据各备选转发节点的性能等等,本申请对此并不进行限制。
在本实施例中,所述依据所述其他节点的网口状态确定备选转发节点列表包括:
当所述其他节点的各心跳链路的网口状态都为UP时,则将所述其他节点加入所述备选转发节点列表;
当所述备选转发节点列表中的备选转发节点的心跳链路的网口状态down时,则将所述备选转发节点从所述备选转发节点列表中删除;
所述从所述备选转发节点中确定目标转发节点包括:
依据加入所述备选转发节点列表的时间顺序对备用转发节点进行排序,按预定规则从所述备选转发节点列表选取一个备用转发节点,将其确定为目标转发节点。
在本实施例中,如图3所示,对于双心跳链路集群,当节点的两个心跳网口状态都为UP时,则确定该节点可以转发数据,将其确定为备选转发节点,并加入备选转发节点列表。当备选转发节点列表中的备选转发节点的网口状态down为时,则将其从备选转发节点列表中删除,以实现对备选转发节点列表的实时更新,以避免从备选转发节点列表中确定的转发节点因为网口状态的问题而无法转发。
步骤S202,当检测到其中一个心跳链路的网口状态为down时,确定所述节点和目标节点的连通状态,所述目标节点为与所述节点连接的其他节点。
在本实施例中,由于在本多心跳链路集群中,各个节点之间存在多个心跳链路,即使其中一个心跳链路的发生故障,节点之间可能通过其他链路发送数据。以双心跳链路集群为例,如图1所示,集群C节点和集群D节点之间通过子网2交换机的通信链路连通,即使某个节点与子网2交换机之间的链路发生故障,两个节点之间还可以通过与子网1交换机的备选链路连通。因此,在确定一个节点的网口状态为down时,需要先判断该节点与通过该网口连接的其他节点是否连通。例如,两个节点之间可以进行TCP/IP通信测试,当两个节点之间无法接收到对方的请求时,则可以确定两节点之间并不连通,此时再执行步骤S103。若确定两个节点之间可以接收到对方的请求时,则说明其还可以通过其他链路连通,此时可以进行其他处理,例如向管理人员发出告警信息,使其尽快进行故障排查。
步骤S203,当确定所述节点与目标节点无法连通时,从所述备选转发节点中确定目标转发节点,并通过所述目标转发节点向所述目标节点发送数据。
在本实施例中,由于本方法应用于多心跳链路集群,两个节点之间存在多个心跳链路,因此当确定上述节点与目标节点无法连通时,则可以确定两个节点之间多个链路发生故障。如图1所示,集群A节点与子网1交换机的链路故障,集群B节点与子网2交换机的链路故障,这就导致了不管是通过子网2交换机的通信链路,还是子网1交换机的备选链路,集群A节点和集群B节点都无法连通。
在本实施例中,通过所述目标转发节点向所述目标节点发送数据包括:
将所述目标转发节点分别配置到原节点和所述目标节点的通信接口,当原节点向目标节点发送数据时,先通过所述通信接口将所述数据发送到所述目标转发节点,以使所述目标转发节点通过所述通信接口将所述数据发送到所述目标节点。
如图1所示,当集群A节点与子网1交换机的链路故障,集群B节点与子网2交换机的链路故障,导致集群A节点和集群B节点无法连通时,此时C节点和D节点的两个网口状态都为UP,因此C、D节点都在属于备选转发节点,此时可以将集群D节点确定为转发节点,如图4所示,集群A节点和集群B将集群D节点配置为通信接口,当集群A节点向集群B节点发送数据时,可以通过路线集群A节点--子网2交换机--集群D节点--子网1交换机--集群B节点,实现集群A节点和集群B节点之间的数据传输。因此,在原本集群A节点和集群B节点无法连通的情况下,通过集群D节点的转发,实现了集群A节点和集群B之间的连通。
在本实施例中,上述方法还包括:
当检测到所述心跳链路的网口状态为up时,确定所述节点和目标节点的连通状态;
当确定与目标节点连通时,将所述目标转发节点的通信接口从所述节点和目标节点删除,以使所述节点通过所述双心跳链路网口向所述目标节点发送数据。
还是如图4所示,当发送故障的链路,即集群A节点到子网1交换机的链路,或集群B节点到子网2交换机的链路恢复时,恢复的链路对应的网口状态变为UP,此时集群A节点和集群B节点之间可以再次进行TCP/IP通信测试,当确定两者连通时,集群A节点和集群B节点将配置的集群D节点通信接口删除,使得集群A节点和集群B节点之间不需要通过转发节点就能连通。
至此,完成图2所示流程。
通过图2所示流程可以看出,在本实施例中,通过监控集群中各个节点的的网口状态,以确定备选转发节点,当集群中节点的网口状态为down时,确定该节点与和该节点连接的其他节点的连通状态,当确定无法连通时,则从备选转发节点中确定目标转发节点,并通过所述目标转发节点向上述无法连通的其他节点发送数据。在本申请中,当不同节点上不同子网心跳链路故障时,还能保持各个节点连通,以维持集群中的各个节点稳定在线,减少不必要的集群切换。
参见图5所示,本申请还提供了一种节点故障处理装置,应用于多心跳链路集群中的节点,所述装置包括:
监控单元501:用于监控所述节点的双心跳链路网口状态,并确定所述节点的备选转发节点;
确定单元502:用于当检测到其中一个心跳链路的网口状态为down时,确定所述节点和目标节点的连通状态,所述目标节点为与所述节点连接的其他节点;
发送单元503:用于当确定所述节点与目标节点无法连通时,从所述备选转发节点中确定目标转发节点,并通过所述目标转发节点向所述目标节点发送数据。
可选的,所述确定单元通过所述目标转发节点向所述目标节点发送数据包括:
将所述目标转发节点分别配置到原节点和所述目标节点的通信接口,当原节点向目标节点发送数据时,先通过所述通信接口将所述数据发送到所述目标转发节点,以使所述目标转发节点通过所述通信接口将所述数据发送到所述目标节点。
可选的,所述确定所述节点的备选转发节点包括:
监控其他节点的网口状态,依据所述其他节点的网口状态确定备选转发节点列表,所述备选转发节点列表包含所述备选转发节点;
依据所述备选转发节点列表确定备选转发节点。
可选的,所述依据所述其他节点的网口状态确定备选转发节点列表包括:
当所述其他节点的各心跳链路的网口状态都为UP时,则将所述其他节点加入所述备选转发节点列表;
当所述备选转发节点列表中的备选转发节点的心跳链路的网口状态down时,则将所述备选转发节点从所述备选转发节点列表中删除;
所述从所述备选转发节点中确定目标转发节点包括:
依据加入所述备选转发节点列表的时间顺序对备用转发节点进行排序,按预定规则从所述备选转发节点列表选取一个备用转发节点,将其确定为目标转发节点。
可选的,所述装置还包括:
删除单元504:用于当检测到所述心跳链路的网口状态为up时,确定所述节点和目标节点的连通状态;
当确定与目标节点连通时,将所述目标转发节点的通信接口从所述节点和目标节点删除,以使所述节点通过所述双心跳链路网口向所述目标节点发送数据。
至此,完成图5所示的装置结构。
本申请实施例还提供了图5所示装置的硬件结构。参见图6,图6为本申请实施例提供的电子设备结构图。如图6所示,该硬件结构可包括:处理器和机器可读存储介质,机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现本申请上述示例公开的方法。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本申请上述示例公开的方法。
示例性的,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种节点故障处理方法,应用于多心跳链路集群中的节点,其特征在于,所述方法包括:
监控所述节点的各心跳链路的网口状态,并确定所述节点的备选转发节点;
当检测到其中一个心跳链路的网口状态为down时,确定所述节点和目标节点的连通状态,所述目标节点为与所述节点连接的其他节点;
当确定所述节点与目标节点无法连通时,从所述备选转发节点中确定目标转发节点,并通过所述目标转发节点向所述目标节点发送数据。
2.根据权利要求1所述的方法,其特征在于,所述通过所述目标转发节点向所述目标节点发送数据包括:
将所述目标转发节点分别配置到原节点和所述目标节点的通信接口,当原节点向目标节点发送数据时,先通过所述通信接口将所述数据发送到所述目标转发节点,以使所述目标转发节点通过所述通信接口将所述数据发送到所述目标节点。
3.根据权利要求1所述的方法,其特征在于,所述确定所述节点的备选转发节点包括:
监控其他节点的网口状态,依据所述其他节点的网口状态确定备选转发节点列表,所述备选转发节点列表包含所述备选转发节点;
依据所述备选转发节点列表确定备选转发节点。
4.根据权利要求3所述的方法,其特征在于,所述依据所述其他节点的网口状态确定备选转发节点列表包括:
当所述其他节点的各心跳链路的网口状态都为UP时,则将所述其他节点加入所述备选转发节点列表;
当所述备选转发节点列表中的备选转发节点的心跳链路的网口状态down时,则将所述备选转发节点从所述备选转发节点列表中删除;
所述从所述备选转发节点中确定目标转发节点包括:
依据加入所述备选转发节点列表的时间顺序对备用转发节点进行排序,按预定规则从所述备选转发节点列表选取一个备用转发节点,将其确定为目标转发节点。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当检测到所述心跳链路的网口状态为up时,确定所述节点和目标节点的连通状态;
当确定与目标节点连通时,将所述目标转发节点的通信接口从所述节点和目标节点删除,以使所述节点通过所述心跳链路的网口向所述目标节点发送数据。
6.一种节点故障处理装置,应用于多心跳链路集群中的节点,其特征在于,所述装置包括:
监控单元:用于监控所述节点的双心跳链路网口状态,并确定所述节点的备选转发节点;
确定单元:用于当检测到其中一个心跳链路的网口状态为down时,确定所述节点和目标节点的连通状态,所述目标节点为与所述节点连接的其他节点;
发送单元:用于当确定所述节点与目标节点无法连通时,从所述备选转发节点中确定目标转发节点,并通过所述目标转发节点向所述目标节点发送数据。
7.根据权利要求6所述的装置,其特征在于,所述确定单元通过所述目标转发节点向所述目标节点发送数据包括:
将所述目标转发节点分别配置到原节点和所述目标节点的通信接口,当原节点向目标节点发送数据时,先通过所述通信接口将所述数据发送到所述目标转发节点,以使所述目标转发节点通过所述通信接口将所述数据发送到所述目标节点。
8.根据权利要求6所述的装置,其特征在于,所述确定所述节点的备选转发节点包括:
监控其他节点的网口状态,依据所述其他节点的网口状态确定备选转发节点列表,所述备选转发节点列表包含所述备选转发节点;
依据所述备选转发节点列表确定备选转发节点。
9.根据权利要求8所述的装置,其特征在于,所述依据所述其他节点的网口状态确定备选转发节点列表包括:
当所述其他节点的各心跳链路的网口状态都为UP时,则将所述其他节点加入所述备选转发节点列表;
当所述备选转发节点列表中的备选转发节点的心跳链路的网口状态down时,则将所述备选转发节点从所述备选转发节点列表中删除;
所述从所述备选转发节点中确定目标转发节点包括:
依据加入所述备选转发节点列表的时间顺序对备用转发节点进行排序,按预定规则从所述备选转发节点列表选取一个备用转发节点,将其确定为目标转发节点。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
删除单元:用于当检测到所述心跳链路的网口状态为up时,确定所述节点和目标节点的连通状态;
当确定与目标节点连通时,将所述目标转发节点的通信接口从所述节点和目标节点删除,以使所述节点通过所述双心跳链路网口向所述目标节点发送数据。
CN202310660596.7A 2023-06-05 2023-06-05 一种节点故障处理方法及装置 Pending CN116846740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310660596.7A CN116846740A (zh) 2023-06-05 2023-06-05 一种节点故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310660596.7A CN116846740A (zh) 2023-06-05 2023-06-05 一种节点故障处理方法及装置

Publications (1)

Publication Number Publication Date
CN116846740A true CN116846740A (zh) 2023-10-03

Family

ID=88167956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310660596.7A Pending CN116846740A (zh) 2023-06-05 2023-06-05 一种节点故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN116846740A (zh)

Similar Documents

Publication Publication Date Title
CN108696581B (zh) 分布式信息的缓存方法、装置、计算机设备以及存储介质
CN112039769B (zh) 一种处理路由的方法及网络设备
CN112104478B (zh) 一种链路切换方法、装置、设备及机器可读存储介质
CN108134707B (zh) 一种路由检测的方法、系统及网络设备
CN109756382B (zh) 故障定位方法和装置
CN109428740B (zh) 设备故障恢复的方法和装置
CN108390954B (zh) 一种报文传输方法和设备
CN107547283B (zh) 分布式聚合组的管理方法及装置
CN109167700B (zh) 段路由sr隧道的检测方法和装置
CN109167819A (zh) 数据同步系统、方法、装置及存储介质
CN113328916A (zh) Bfd检测模式的切换方法、装置及设备
CN113489149B (zh) 基于实时状态感知的电网监控系统业务主节点选取方法
CN114640553A (zh) 一种报文处理方法及装置
CN108509296B (zh) 一种处理设备故障的方法和系统
CN113507431A (zh) 一种报文管理方法、装置、设备及机器可读存储介质
CN109587218B (zh) 一种集群选举的方法和装置
CN109617716B (zh) 数据中心异常处理方法及装置
CN108259340B (zh) 一种拓扑信息传输方法和装置
CN116846740A (zh) 一种节点故障处理方法及装置
CN102387198A (zh) 一种分布式网络的业务处理方法和设备
US10666553B2 (en) Method for quick reconfiguration of routing in the event of a fault in a port of a switch
CN108471364B (zh) 一种异常处理方法及装置
US20200341968A1 (en) Differential Update of Local Cache from Central Database
CN109218135B (zh) 一种bfd检测方法和装置
CN113472642B (zh) 一种保护切换方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination