CN113794593B - 一种集群故障处理方法及装置 - Google Patents

一种集群故障处理方法及装置 Download PDF

Info

Publication number
CN113794593B
CN113794593B CN202111075103.0A CN202111075103A CN113794593B CN 113794593 B CN113794593 B CN 113794593B CN 202111075103 A CN202111075103 A CN 202111075103A CN 113794593 B CN113794593 B CN 113794593B
Authority
CN
China
Prior art keywords
group
member device
equipment
state
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111075103.0A
Other languages
English (en)
Other versions
CN113794593A (zh
Inventor
邓士恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Security Technologies Co Ltd
Original Assignee
New H3C Security Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Security Technologies Co Ltd filed Critical New H3C Security Technologies Co Ltd
Priority to CN202111075103.0A priority Critical patent/CN113794593B/zh
Publication of CN113794593A publication Critical patent/CN113794593A/zh
Application granted granted Critical
Publication of CN113794593B publication Critical patent/CN113794593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供了一种集群故障处理方法和装置,应用于第一成员设备,第一成员设备为集群中的任一成员设备,该方法包括:当检测到集群中存在处于第一指定状态的第二成员设备时,确定包含第二成员设备的第一成员设备组;其中,第一指定状态表示与第一成员设备之间拓扑不可达;确定包含第一成员设备和处于第二指定状态的第三成员设备的成员设备组,作为第二成员设备组;其中,第二指定状态表示与第一成员设备之间路由可达;对第一成员设备组中的成员设备,与第二成员设备组中的成员设备进行比对,确定第一成员设备的运行状态;其中,运行状态为工作状态或挂起状态。如此,能够在一定程度上避免网络业务出错。

Description

一种集群故障处理方法及装置
技术领域
本申请涉及通信技术领域,特别是涉及一种集群故障处理方法及装置。
背景技术
核心路由器集群是一种虚拟化技术,可以将多台核心路由器虚拟化成一个集群。基于此,可以集合多台核心路由器的硬件资源和软件处理能力,实现多台核心路由器协同工作和统一管理。集群中的成员设备可以包括:LCC(Line Card Chassis,线卡框)和FCC(Fabric Card Chassis,交换框)。另外,集群中还可以包括CCU(Control Card Unit,控制交换单元)。
参见图1,图1所示的集群包括:FCC1、FCC2、CCU1、CCU2、LCC1和LCC2。当该集群发生网络故障,例如,CCU1与CCU2之间的链路断开时,该集群会分裂为两部分。若该两部分同时工作,则网络中会存在标识相同的两个集群,导致网络业务出错。
因此,亟需一种集群故障处理方法,以避免网络业务出错。
发明内容
本申请实施例的目的在于提供一种集群故障处理方法及装置,能够在一定程度上避免网络业务出错。具体技术方案如下:
第一方面,为了达到上述目的,本申请实施例公开了一种集群故障处理方法,所述方法应用于第一成员设备,所述第一成员设备为集群中的任一成员设备,所述方法包括:
当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组;其中,所述第一指定状态表示与所述第一成员设备之间拓扑不可达;
确定包含所述第一成员设备和处于第二指定状态的第三成员设备的成员设备组,作为第二成员设备组;其中,所述第二指定状态表示与所述第一成员设备之间路由可达;
对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态;其中,所述运行状态为工作状态或挂起状态。
可选的,在所述对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态之前,所述方法还包括:
判断所述第二成员设备组是否具备预设的集群接管条件;
若所述第二成员设备组不具备所述集群接管条件,则将所述第一成员设备切换为挂起状态;
所述对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态,包括:
在所述第二成员设备组具备所述集群接管条件的情况下,对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态。
可选的,所述对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态,包括:
对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,得到所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级;
基于所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级,确定所述第一成员设备的运行状态。
可选的,所述基于所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级,确定所述第一成员设备的运行状态,包括:
判断所述第二成员设备组的接管优先级,是否高于所述第一成员设备组的接管优先级;
若是,则确定所述第一成员设备为工作状态;
若否,则判断所述第一成员设备组中的线卡框LCC,与所述第二成员设备组中各成员设备之间的数据通道是否均为断开状态;若是,则确定所述第一成员设备为工作状态;若否,则将所述第一成员设备切换为挂起状态。
可选的,在所述判断所述第二成员设备组是否具备预设的集群接管条件之前,所述方法还包括:
判断所述第二成员设备组是否满足第一预设条件,且满足第二预设条件;
其中,所述第一预设条件为:所述第一成员设备组中的LCC,与所述第二成员设备组中各成员设备之间的数据通道均为断开状态;所述第二预设条件包括:不具备所述集群接管条件;或者,具备所述集群接管条件,且所述第二成员设备组的接管优先级高于所述第一成员设备组的接管优先级;
所述判断所述第二成员设备组是否具备预设的集群接管条件,包括:
在不满足所述第一预设条件,且满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第一预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
在不满足所述第一预设条件,且不满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第二预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
其中,所述第二预设时长不小于所述第一预设时长;所述第二预设时长为基于所述第一预设时长、以及所述第二成员设备组中的FCC的最小设备编号确定的。
可选的,所述集群接管条件,包括:
包含LCC,且包含交换框FCC;
或,
包含LCC,且包含当前的主用成员设备。
可选的,在所述当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组之前,所述方法还包括:
当检测到所述集群中存在处于第三指定状态的第四成员设备时,确定包含所述第四成员设备的第三成员设备组;其中,所述第三指定状态表示与所述第一成员设备之间拓扑可达,且路由不可达;
在所述集群中,确定与所述第三成员设备组中的成员设备之间路由可达的成员设备,得到路由可达成员设备组;
基于所述第二成员设备组的接管优先级,以及所述路由可达成员设备组的接管优先级,得到处于所述第一指定状态的成员设备。
可选的,所述基于所述第二成员设备组的接管优先级,以及所述路由可达成员设备组的接管优先级,得到处于所述第一指定状态的成员设备,包括:
判断所述第二成员设备组的接管优先级,是否高于所述路由可达成员设备组的接管优先级;
若是,断开所述第二成员设备组与所述第三成员设备组之间的控制通道,以使所述第三成员设备组中的成员设备处于所述第一指定状态;
若否,断开目标成员设备组与所述路由可达成员设备组之间的控制通道,以使所述路由可达成员设备组中的成员设备处于所述第一指定状态;其中,所述目标成员设备组表示所述第二成员设备组与所述路由可达成员设备组的差值。
可选的,一个成员设备组的接管优先级为基于预设优先级参数,并按照所述预设优先级参数对应的指定顺序确定的;
所述预设优先级参数包括:该成员设备组是否具备预设的集群接管条件、该成员设备组是否包含当前的主用成员设备、该成员设备组中的LCC的数目、该成员设备组中的FCC的数目,以及该成员设备组中的成员设备的最小设备编号。
第二方面,为了达到上述目的,本申请实施例公开了一种集群故障处理装置,所述装置应用于第一成员设备,所述第一成员设备为集群中的任一成员设备,所述装置包括:
第一成员设备组确定模块,用于当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组;其中,所述第一指定状态表示与所述第一成员设备之间拓扑不可达;
第二成员设备组确定模块,用于确定包含所述第一成员设备和处于第二指定状态的第三成员设备的成员设备组,作为第二成员设备组;其中,所述第二指定状态表示与所述第一成员设备之间路由可达;
运行状态确定模块,用于对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态;其中,所述运行状态为工作状态或挂起状态。
可选的,所述装置还包括:
第一判断模块,用于在所述对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态之前,判断所述第二成员设备组是否具备预设的集群接管条件;
切换模块,用于若所述第二成员设备组不具备所述集群接管条件,则将所述第一成员设备切换为挂起状态;
所述运行状态确定模块,具体用于在所述第二成员设备组具备所述集群接管条件的情况下,对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态。
可选的,所述运行状态确定模块,包括:
接管优先级确定子模块,用于对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,得到所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级;
运行状态确定子模块,用于基于所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级,确定所述第一成员设备的运行状态。
可选的,所述运行状态确定子模块,具体用于判断所述第二成员设备组的接管优先级,是否高于所述第一成员设备组的接管优先级;
若是,则确定所述第一成员设备为工作状态;
若否,则判断所述第一成员设备组中的线卡框LCC,与所述第二成员设备组中各成员设备之间的数据通道是否均为断开状态;若是,则确定所述第一成员设备为工作状态;若否,则将所述第一成员设备切换为挂起状态。
可选的,所述装置还包括:
第二判断模块,用于在所述判断所述第二成员设备组是否具备预设的集群接管条件之前,判断所述第二成员设备组是否满足第一预设条件,且满足第二预设条件;
其中,所述第一预设条件为:所述第一成员设备组中的LCC,与所述第二成员设备组中各成员设备之间的数据通道均为断开状态;所述第二预设条件包括:不具备所述集群接管条件;或者,具备所述集群接管条件,且所述第二成员设备组的接管优先级高于所述第一成员设备组的接管优先级;
所述第一判断模块,具体用于在不满足所述第一预设条件,且满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第一预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
在不满足所述第一预设条件,且不满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第二预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
其中,所述第二预设时长不小于所述第一预设时长;所述第二预设时长为基于所述第一预设时长、以及所述第二成员设备组中的FCC的最小设备编号确定的。
可选的,所述集群接管条件,包括:
包含LCC,且包含交换框FCC;
或,
包含LCC,且包含当前的主用成员设备。
可选的,所述装置还包括:
第三成员设备组确定模块,用于在所述当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组之前,当检测到所述集群中存在处于第三指定状态的第四成员设备时,确定包含所述第四成员设备的第三成员设备组;其中,所述第三指定状态表示与所述第一成员设备之间拓扑可达,且路由不可达;
路由可达成员设备组确定模块,用于在所述集群中,确定与所述第三成员设备组中的成员设备之间路由可达的成员设备,得到路由可达成员设备组;
处理模块,用于基于所述第二成员设备组的接管优先级,以及所述路由可达成员设备组的接管优先级,得到处于所述第一指定状态的成员设备。
可选的,所述处理模块,具体用于判断所述第二成员设备组的接管优先级,是否高于所述路由可达成员设备组的接管优先级;
若是,断开所述第二成员设备组与所述第三成员设备组之间的控制通道,以使所述第三成员设备组中的成员设备处于所述第一指定状态;
若否,断开目标成员设备组与所述路由可达成员设备组之间的控制通道,以使所述路由可达成员设备组中的成员设备处于所述第一指定状态;其中,所述目标成员设备组表示所述第二成员设备组与所述路由可达成员设备组的差值。
可选的,一个成员设备组的接管优先级为基于预设优先级参数,并按照所述预设优先级参数对应的指定顺序确定的;
所述预设优先级参数包括:该成员设备组是否具备预设的集群接管条件、该成员设备组是否包含当前的主用成员设备、该成员设备组中的LCC的数目、该成员设备组中的FCC的数目,以及该成员设备组中的成员设备的最小设备编号。
在本申请实施的另一方面,为了达到上述目的,本申请实施例还公开了一种电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现如上述第一方面所述的集群故障处理方法。
在本申请实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的集群故障处理方法。
在本申请实施的又一方面,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的集群故障处理方法。
本申请实施例有益效果:
本申请实施例提供的集群故障处理方法,应用于第一成员设备,第一成员设备为集群中的任一成员设备。当检测到集群中存在处于第一指定状态的第二成员设备时,确定包含第二成员设备的第一成员设备组;其中,第一指定状态表示与第一成员设备之间拓扑不可达;确定包含第一成员设备和处于第二指定状态的第三成员设备的成员设备组,作为第二成员设备组;其中,第二指定状态表示与第一成员设备之间路由可达;对第一成员设备组中的成员设备,与第二成员设备组中的成员设备进行比对,确定第一成员设备的运行状态;其中,运行状态为工作状态或挂起状态。
针对集群中的每一成员设备,其对应的第一成员设备组与该成员设备为集群分裂得到的不同部分,且该成员设备可以确定自身的运行状态,即,能够确定出分裂得到的不同部分中继续工作的部分,以及挂起的部分。且由于各个成员设备均基于相同的规则确定运行状态,各成员设备确定出的结果一致。因此,基于本申实施例提供的方法,能够确定出集群分裂得到的不同部分中继续工作的部分,以及挂起的部分,避免网络中存在标识相同的多个集群,进而,能够在一定程度上避免网络业务出错。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本申请实施例提供的一种集群的架构图;
图2为本申请实施例提供的一种集群故障处理方法的流程图;
图3为本申请实施例提供的另一种集群故障处理方法的流程图;
图4为本申请实施例提供的一种状态转换示意图;
图5为本申请实施例提供的另一种集群故障处理方法的流程图;
图6为本申请实施例提供的另一种集群故障处理方法的流程图;
图7为本申请实施例提供的另一种集群故障处理方法的流程图;
图8为本申请实施例提供的一种集群故障处理装置的结构图;
图9为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种集群故障处理方法,该方法可以应用于第一成员设备,该第一成员设备为集群中的任一成员设备。该集群中的成员设备可以包括:LCC和FCC。也就是说,该集群中的每一成员设备,均可以基于本申请实施例提供的集群故障处理方法进行处理。
例如,若该集群为图1所示的集群,则当CCU1与CCU2之间的链路断开时,图1中FCC1、FCC2、LCC1和LCC2均可以基于本申请实施例提供的集群故障处理方法进行处理。
参见图2,图2为本申请实施例提供的一种集群故障处理方法的流程图,该方法可以包括以下步骤:
S201:当检测到集群中存在处于第一指定状态的第二成员设备时,确定包含第二成员设备的第一成员设备组。
其中,第一指定状态表示与第一成员设备之间拓扑不可达。
S202:确定包含第一成员设备和处于第二指定状态的第三成员设备的成员设备组,作为第二成员设备组。
其中,第二指定状态表示与第一成员设备之间路由可达。
S203:对第一成员设备组中的成员设备,与第二成员设备组中的成员设备进行比对,确定第一成员设备的运行状态。
其中,运行状态为工作状态或挂起状态。
针对集群中的每一成员设备,其对应的第一成员设备组与该成员设备为集群分裂得到的不同部分,且该成员设备可以确定自身的运行状态,即,能够确定出分裂得到的不同部分中继续工作的部分,以及挂起的部分。且由于各个成员设备均基于相同的规则确定运行状态,各成员设备确定出的结果一致。因此,基于本申实施例提供的方法,能够确定出集群分裂得到的不同部分中继续工作的部分,以及挂起的部分,避免网络中存在标识相同的多个集群,进而,能够在一定程度上避免网络业务出错。
本申请实施例中,线卡框提供对外的网络接口,用于用户和业务的接入;交换框中不存在业务接口,负责控制平面跨框连接和数据平面跨框转发,使多台线卡框在逻辑上连接,实现网络流量跨框传输,以实现集群的统一控制和管理。
针对步骤S201,集群中每一成员设备可以建立该集群的链路状态拓扑,即,每一成员设备可以确定该集群包含的各成员设备,以及各成员设备之间的链路关系。另外,每一成员设备还可以获取针对其他每一成员设备的路由。
基于上述信息,第一成员设备可以确定集群中其他各成员设备相对自身的拓扑状态和路由状态,也就可以确定出处于第一指定状态的成员设备(即第二成员设备)。
例如,当集群中新增链路时,如果该链路所属的成员设备为首次出现在集群中,则可以生成该成员设备的状态(即新增该成员设备)。当集群中删除链路时,如果该链路是所属成员设备的最后一个链路,则可以更新该成员设备的状态(即删除该成员设备)。另外,针对某一成员设备,在生成其最优路由以及路由不可达时,均可以更新该成员设备的状态。
一种实现方式中,成员设备的状态可以包括Init、Active(活跃)、Lost(丢失)和Down(停止)。其中,Init表示网络中当前不存在该成员设备;Active表示正常工作状态;Lost表示拓扑可达,且路由不可达。Down表示拓扑不可达,即,上述第一指定状态。可以理解的是,若一个成员设备拓扑不可达,则路由也不可达;反之,若一个成员设备路由可达,则拓扑也可达。
参见图3,若LCC1与CCU1之间的链路断开,则对于LCC1而言,FCC1和FCC2均拓扑可达,且路由不可达。因此,对于LCC1而言,FCC1和FCC2为Lost状态。
参见图4,图4为本申请实施例提供的一种状态转换示意图。
其中,一个成员设备当前为Active状态,若该成员设备变为路由不可达,则状态变为Lost;若该成员设备变为拓扑不可达,则状态变为Down。
一个成员设备当前为Lost状态,若该成员设备变为拓扑不可达,则状态变为Down;若该成员设备变为路由可达,则状态变为Active。
一个成员设备当前为Down状态,若该成员设备从系统中删除,则状态变为Init;若该成员设备变为路由可达,则状态变为Active。
参见图1,图1中,若CCU1与CCU2之间的链路断开,则针对LCC1而言,FCC2和LCC2均为拓扑不可达的成员设备,也就是说,对于LCC1,其对应的第二成员设备包括FCC2和LCC2,即对应的第一成员设备组包括FCC2和LCC2。同理,对于FCC1,其对应的第二成员设备也包括FCC2和LCC2,即对应的第一成员设备组包括FCC2和LCC2。
相应的,对于FCC2,其对应的第二成员设备包括FCC1和LCC1,即对应的第一成员设备组包括FCC1和LCC1。同理,对于LCC2,其对应的第二成员设备包括FCC1和LCC1,即对应的第一成员设备组包括FCC1和LCC1。
针对步骤S202,第二指定状态表示上述Active状态。
参见图1,图1中,若CCU1与CCU2之间的链路断开,则针对LCC1,FCC1为路由可达的成员设备,也就是说,对于LCC1,其对应的第三成员设备包括FCC1,即对应的第二成员设备组包括LCC1和FCC1。同理,对于FCC1,其对应的第三成员设备包括LCC1,即对应的第二成员设备组包括LCC1和FCC1。
相应的,对于FCC2,其对应的第三成员设备包括LCC2,即对应的第二成员设备组包括LCC2和FCC2。对于LCC2,其对应的第三成员设备包括FCC2,即对应的第二成员设备组包括LCC2和FCC2。
针对步骤S203,运行状态为工作状态或挂起状态。
一种实现方式中,当确定一个成员设备为工作状态时,表明在集群分裂后,该成员设备需要继续正常工作,即,保持该成员设备的状态不变。
当确定一个成员设备为挂起状态时,表明在集群分裂后,该成员设备不需要继续正常工作。例如,针对FCC,则可以关闭(shutdown)其管理网口;针对LCC,则可以关闭其网络接口和数据通道端口。
在一个实施例中,参见图5,在图2的基础上,在上述步骤S203之前,该方法还可以包括以下步骤:
S204:判断第二成员设备组是否具备预设的集群接管条件。
S205:若第二成员设备组不具备集群接管条件,则将第一成员设备切换为挂起状态。
相应的,上述步骤S203可以包括:
S2031:在第二成员设备组具备集群接管条件的情况下,对第一成员设备组中的成员设备,与第二成员设备组中的成员设备进行比对,确定第一成员设备的运行状态。
在本申请实施例中,若第二成员设备组不具备集群接管条件,表明集群分裂后,该第一成员设备所属的部分无法接管集群,即,该第一成员设备所属的部分无法实现分裂前集群的功能。因此,集群分裂后,该第一成员设备不需要继续正常工作,该第一成员设备可以切换为挂起状态。
相应的,若第二成员设备组具备集群接管条件,则可以通过将第一成员设备组和第二成员设备组进行比对,以确定出更适合接管集群的部分。
在一个实施例中,上述集群接管条件,包括:
包含LCC,且包含FCC;
或,
包含LCC,且包含当前的主用成员设备。
一种实现方式中,当判定一个成员设备组既包含线卡框,又包含交换框时,可以确定该成员设备组具备集群接管条件。
另一种实现方式中,当判定一个成员设备组既包含线卡框,又包含当前的主用成员设备(即Master成员设备)时,可以确定该成员设备组具备集群接管条件。
一个集群中存在一个主用成员设备,其它成员设备作为从设备。例如,可以选取集群中的一个交换框作为主用成员设备。若该集群中不存在交换框,则可以选取一个线卡框作为主用成员设备。另外,可以优先选取设备编号较小的成员设备作为主用成员设备。
在集群中,线卡框的设备编号为LCC1、LCC2、并依次递增;交换框的设备编号为FCC1、FCC2、并依次递增。
在一个实施例中,参见图6,在图5的基础上,上述步骤S2031可以包括以下步骤:
S20311:在第二成员设备组具备集群接管条件的情况下,对第一成员设备组中的成员设备,与第二成员设备组中的成员设备进行比对,得到第一成员设备组的接管优先级,以及第二成员设备组的接管优先级。
S20312:基于第一成员设备组的接管优先级,以及第二成员设备组的接管优先级,确定第一成员设备的运行状态。
在本申请实施例中,在集群分裂后,一个成员设备组的接管优先级,能够体现该成员设备组接管集群的优先级。因此,可以基于成员设备组的接管优先级,确定成员设备的运行状态。
在一个实施例中,一个成员设备组的接管优先级为基于预设优先级参数,并按照预设优先级参数对应的指定顺序确定的。
预设优先级参数包括:该成员设备组是否具备预设的集群接管条件、该成员设备组是否包含当前的主用成员设备、该成员设备组中的LCC的数目、该成员设备组中的FCC的数目,以及该成员设备组中的成员设备的最小设备编号。
一种实现方式中,可以按照是否具备集群接管条件、是否包含当前的主用成员设备、包含的LCC的数目、包含的FCC的数目,以及包含的成员设备的最小设备编号的顺序,比较两个成员设备组的接管优先级。
例如,针对两个成员设备组,可以确定具备集群接管条件的成员设备组的接管优先级,高于不具备集群接管条件的成员设备组的接管优先级。
若该两个成员设备组均具备集群接管条件,则可以确定包含当前的主用成员设备的成员设备组的接管优先级,高于不包含当前的主用成员设备的成员设备组的接管优先级。
若该两个成员设备组均不包含当前的主用成员设备,则可以确定包含的线卡框的数目较大的成员设备组的接管优先级,高于包含的线卡框的数目较小的成员设备组的接管优先级。
若该两个成员设备组包含的线卡框的数目相同,则可以确定包含的交换框的数目较大的成员设备组的接管优先级,高于包含的交换框的数目较小的成员设备组的接管优先级。
若该两个成员设备组包含的交换框的数目相同,则可以确定包含的成员设备的最小设备编号较小的成员设备组的接管优先级,高于包含的交换框的数目较大的成员设备组的接管优先级。
在一个实施例中,上述步骤S20312可以包括以下步骤:
步骤一:判断第二成员设备组的接管优先级,是否高于第一成员设备组的接管优先级。若是,执行步骤二;若否,执行步骤三。
步骤二:确定第一成员设备为工作状态。
步骤三:判断第一成员设备组中的LCC,与第二成员设备组中各成员设备之间的数据通道是否均为断开状态。若是,执行步骤二;若否,执行步骤四。
步骤四:将第一成员设备切换为挂起状态。
在本申请实施例中,若第二成员设备组的接管优先级,高于第一成员设备组的接管优先级,则可以确定第二成员设备组用于接管集群,即,确定第二成员设备组中的成员设备为工作状态,也就可以确定第一成员设备为工作状态。
反之,若第二成员设备组的接管优先级,低于第一成员设备组的接管优先级,且第一成员设备组中的线卡框与第二成员设备组中各成员设备之间的数据通道均为断开状态,表明第一成员设备组中的线卡框均切换为挂起状态。也就是说,第一成员设备组中的线卡框确定不接管集群,因此,第一成员设备可以确定第二成员设备组接管集群,即,确定第二成员设备组中的成员设备为工作状态,也就可以确定第一成员设备为工作状态。
相应的,若第二成员设备组的接管优先级,低于第一成员设备组的接管优先级,且第一成员设备组中的线卡框与第二成员设备组中各成员设备之间的数据通道并不全是断开状态,表明第一成员设备组中的成员设备可能会接管集群,因此,第一成员设备确定自身不需要继续工作,即,切换为挂起状态。
在一个实施例中,参见图7,在图5的基础上,在上述步骤S204之前,该方法还可以包括以下步骤:
S206:判断第二成员设备组是否满足第一预设条件,且满足第二预设条件。
其中,第一预设条件为:第一成员设备组中的LCC,与第二成员设备组中各成员设备之间的数据通道均为断开状态。第二预设条件包括:不具备集群接管条件;或者,具备集群接管条件,且第二成员设备组的接管优先级高于第一成员设备组的接管优先级。
相应的,上述步骤S204可以包括以下步骤:
S2041:在不满足第一预设条件,且满足第二预设条件的情况下,当第二成员设备处于第一指定状态的时长达到第一预设时长时,判断第二成员设备组是否具备预设的集群接管条件。
S2042:在不满足第一预设条件,且不满足第二预设条件的情况下,当第二成员设备处于第一指定状态的时长达到第二预设时长时,判断第二成员设备组是否具备预设的集群接管条件。
其中,第二预设时长不小于第一预设时长。第二预设时长为基于第一预设时长、以及第二成员设备组中的FCC的最小设备编号确定的。
一种实现方式中,当确定第二成员设备组不具备集群接管条件时,可以确定第二成员设备组满足第二预设条件。另一种方式中,当确定第二成员设备组具备集群接管条件,且其接管优先级高于第一成员设备组的接管优先级时,可以确定第二成员设备组满足第二预设条件。第二成员设备组满足不第一预设条件,且满足第二预设条件,表明相对于第一成员设备组,可以优先确定第二成员设备组中成员设备的运行状态。
在实际集群中,由于网络环境不稳定,会导致成员设备在某一时刻为第一指定状态。因此,为了避免由于网络环境不稳定导致的情况,可以在第二成员设备处于第一指定状态的时长达到第一预设时长时,判断第二成员设备组是否具备预设的集群接管条件,以确定成员设备的运行状态。例如,第一预设时长可以为10秒,或者,也可以为11秒,但并不限于此。
若第二成员设备组不满足第一预设条件,且不满足第二预设条件,表明相对于第二成员设备组,可以优先确定第一成员设备组中成员设备的运行状态,即,第一成员设备可以延迟确定运行状态。也就是说,第一成员设备可以在第一成员设备组中的成员设备确定运行状态后,再进行运行状态的确定。因此,第一成员设备可以在达到第二预设时长时确定运行状态。
一种实现方式中,第二预设时长可以基于公式(1)确定。
T2=(A-1)×T3+T1 (1)
其中,T2表示第二预设时长,T1表示第一预设时长,T3表示第三预设时长,A表示第二成员设备组中交换框的最小设备编号。T3的数值可以由技术人员根据经验进行设置,例如,第三预设时长可以为3秒,或者,也可以为4秒,但并不限于此。另外,若第二成员设备组中不包含交换框,则A的值可以为1。
在一个实施例中,若满足第一预设条件,即,第一成员设备组中的LCC,与第二成员设备组中各成员设备之间的数据通道均为断开状态,则不需要判断第二成员设备组是否满足第二预设条件,且不需要等待,直接执行步骤S204,即,不需要等待,直接确定第二成员设备组中成员设备的运行状态。
基于上述处理,由于各成员设备组确定运行状态等待的时长不同,彼此之间存在先后的顺序,进而,后确定运行状态的成员设备,也就可以根据先确定运行状态的成员设备的确定结果进行处理,进而,也就能够保证各成员设备组中的成员设备确定出的运行状态一致。
在一个实施例中,在上述步骤S201之前,该方法还可以包括以下步骤:
步骤一:当检测到集群中存在处于第三指定状态的第四成员设备时,确定包含第四成员设备的第三成员设备组。
其中,第三指定状态表示与第一成员设备之间拓扑可达,且路由不可达。
步骤二:在集群中,确定与第三成员设备组中的成员设备之间路由可达的成员设备,得到路由可达成员设备组。
步骤三:基于第二成员设备组的接管优先级,以及路由可达成员设备组的接管优先级,得到处于第一指定状态的成员设备。
在本申请实施例中,第三指定状态也就是上述Lost状态。
例如,针对图3,若LCC1与CCU1之间的链路断开。对于LCC1而言,FCC1和FCC2为Lost状态,即第三成员设备组包含FCC1和FCC2。
图3中,与FCC1和FCC2之间路由可达的成员设备包括:FCC1、FCC2和LCC2,因此,可以确定路由可达成员设备组包括:FCC1、FCC2和LCC2。
基于第二成员设备组和路由可达成员设备组各自的接管优先级,得到处于第一指定状态的成员设备,即,能够将一部分成员设备切换为第一指定状态。进而,则可以基于上述步骤S201-S203进行处理。
同理,在实际集群中,由于网络环境不稳定,会导致成员设备在某一时刻为第三指定状态。因此,为了避免由于网络环境不稳定导致的情况,可以在第四成员设备处于第三指定状态的时长达到第四预设时长时,执行上述确定包含第四成员设备的第三成员设备组的步骤。例如,第四预设时长可以为10秒,或者,也可以为11秒,但并不限于此。
在一个实施例中,上述步骤三,可以包括以下步骤:
步骤1:判断第二成员设备组的接管优先级,是否高于路由可达成员设备组的接管优先级。若是,执行步骤2;若否,执行步骤3。
步骤2:断开第二成员设备组与第三成员设备组之间的控制通道,以使第三成员设备组中的成员设备处于第一指定状态。
步骤3:断开目标成员设备组与路由可达成员设备组之间的控制通道,以使路由可达成员设备组中的成员设备处于第一指定状态。
其中,目标成员设备组为第二成员设备组与路由可达成员设备组的差值。
上述步骤2中,断开第二成员设备组与第三成员设备组之间的控制通道,也就使得第二成员设备组与第三成员设备组之间隔离,第三成员设备组中的成员设备与第一成员设备之间拓扑不可达。
例如,第一成员设备可以通知第二成员设备组中的其他成员设备,断开与第三成员设备组之间的控制通道。
上述步骤3中,断开目标成员设备组与路由可达成员设备组之间的控制通道,即,使目标成员设备组与路由可达成员设备组之间隔离。
例如,第一成员设备可以通知目标成员设备组中的成员设备,断开与路由可达成员设备组之间的控制通道。
针对图3,若LCC1与CCU1之间的链路断开。对于LCC1而言,第二成员设备组包含LCC1和LCC2,第三成员设备组包含FCC1和FCC2,路由可达成员设备组包括FCC1、FCC2和LCC2。相应的,目标成员设备组包括LCC1。进而,断开LCC1,与FCC1、FCC2和LCC2之间的控制通道,即,使LCC1,与FCC1、FCC2和LCC2之间隔离,使得对于LCC1而言,FCC1、FCC2和LCC2均拓扑不可达(即为Down状态)。
在一个实施例中,可以通过定时器进行集群故障处理。例如,该定时器的循环定时时长可以为500毫秒。针对集群中的任一成员设备,当达到定时时长时,可以检测集群中是否存在Lost状态的成员设备;若不存在,则检测是否存在Down状态的成员设备。
若检测到存在Down状态的成员设备,且第一成员设备组中的LCC,与第二成员设备组中各成员设备之间的数据通道均为断开状态,则可以执行上述步骤S204,以确定成员设备的运行状态。
若检测到存在Down状态的成员设备,且第一成员设备组中的LCC,与第二成员设备组中各成员设备之间的数据通道并不全是断开状态,且第二成员设备组不具备集群接管条件,则达到第一预设时长时,可以执行上述步骤S204,以确定成员设备的运行状态。
若检测到存在Down状态的成员设备,且第一成员设备组中的LCC,与第二成员设备组中各成员设备之间的数据通道并不全是断开状态,且第二成员设备组具备集群接管条件,第二成员设备组的接管优先级高于第一成员设备组的接管优先级,则达到第一预设时长,可以执行上述步骤S204,以确定成员设备的运行状态。
若检测到存在Down状态的成员设备,且第一成员设备组中的LCC,与第二成员设备组中各成员设备之间的数据通道并不全是断开状态,第二成员设备组具备集群接管条件,且第二成员设备组的接管优先级低于第一成员设备组的接管优先级,则达到第二预设时长,可以执行上述步骤S204,以确定成员设备的运行状态。
另外,若检测到存在Lost状态的成员设备达到第四预设时长,则可以基于第三成员设备组,将一部分成员设备切换为Down状态。
示例性地,针对图1的集群,若分裂为三部分:(FCC1)、(LCC1)、(FCC2、LCC2),且第一预设时长为10秒,第三预设时长为3秒,当前的主用成员设备为FCC1。集群接管条件为包含LCC,且包含FCC。
对于FCC1而言,确定第二成员设备组不具备集群接管条件,在检测到存在第二成员设备达到10秒时,切换为挂起状态。对于LCC1而言,确定第二成员设备组不具备集群接管条件,在检测到存在第二成员设备达到10秒时,切换为挂起状态。
对于FCC2和LCC2而言,第一成员设备组包含FCC1和LCC1,可以确定第二成员设备组具备集群接管条件,且第二成员设备组的接管优先级低于第一成员设备组的接管优先级。因此,在检测到存在第二成员设备达到第二预设时长(即13秒)时进行处理。此时,LCC1与FCC2之间的数据通道已断开,因此,可以确定第二成员设备组(即FCC2和LCC2)为工作状态。即,在集群分裂后,FCC2和LCC2继续工作。
示例性地,针对图1的集群,若分裂为两部分:(FCC1、LCC1)、(FCC2、LCC2),且第一预设时长为10秒,第三预设时长为3秒,当前的主用成员设备为FCC1。集群接管条件为包含LCC,且包含FCC。
对于FCC1和LCC1而言,可以确定第二成员设备组具备集群接管条件,且第二成员设备组的接管优先级高于第一成员设备组的接管优先级,则在检测到存在第二成员设备达到10秒时,确定第二成员设备组(即FCC1和LCC1)为工作状态。即,在集群分裂后,FCC1和LCC1继续工作。
对于FCC2和LCC2而言,可以确定第二成员设备组具备集群接管条件,且第二成员设备组的接管优先级低于第一成员设备组的接管优先级。因此,在检测到存在第二成员设备达到第二预设时长(即13秒)时进行处理。此时,LCC1与FCC2之间的数据通道并未断开,因此,确定FCC2和LCC2切换为挂起状态。
基于相同的发明构思,本申请实施例还提供了一种集群故障处理装置,所述装置应用于第一成员设备,所述第一成员设备为集群中的任一成员设备,参见图8,图8为本申请实施例提供的一种集群故障处理装置的结构图,该装置包括:
第一成员设备组确定模块801,用于当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组;其中,所述第一指定状态表示与所述第一成员设备之间拓扑不可达;
第二成员设备组确定模块802,用于确定包含所述第一成员设备和处于第二指定状态的第三成员设备的成员设备组,作为第二成员设备组;其中,所述第二指定状态表示与所述第一成员设备之间路由可达;
运行状态确定模块803,用于对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态;其中,所述运行状态为工作状态或挂起状态。
可选的,所述装置还包括:
第一判断模块,用于在所述对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态之前,判断所述第二成员设备组是否具备预设的集群接管条件;
切换模块,用于若所述第二成员设备组不具备所述集群接管条件,则将所述第一成员设备切换为挂起状态;
所述运行状态确定模块803,具体用于在所述第二成员设备组具备所述集群接管条件的情况下,对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态。
可选的,所述运行状态确定模块803,包括:
接管优先级确定子模块,用于对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,得到所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级;
运行状态确定子模块,用于基于所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级,确定所述第一成员设备的运行状态。
可选的,所述运行状态确定子模块,具体用于判断所述第二成员设备组的接管优先级,是否高于所述第一成员设备组的接管优先级;
若是,则确定所述第一成员设备为工作状态;
若否,则判断所述第一成员设备组中的线卡框LCC,与所述第二成员设备组中各成员设备之间的数据通道是否均为断开状态;若是,则确定所述第一成员设备为工作状态;若否,则将所述第一成员设备切换为挂起状态。
可选的,所述装置还包括:
第二判断模块,用于在所述判断所述第二成员设备组是否具备预设的集群接管条件之前,判断所述第二成员设备组是否满足第一预设条件,且满足第二预设条件;
其中,所述第一预设条件为:所述第一成员设备组中的LCC,与所述第二成员设备组中各成员设备之间的数据通道均为断开状态;所述第二预设条件包括:不具备所述集群接管条件;或者,具备所述集群接管条件,且所述第二成员设备组的接管优先级高于所述第一成员设备组的接管优先级;
所述第一判断模块,具体用于在不满足所述第一预设条件,且满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第一预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
在不满足所述第一预设条件,且不满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第二预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
其中,所述第二预设时长不小于所述第一预设时长;所述第二预设时长为基于所述第一预设时长、以及所述第二成员设备组中的FCC的最小设备编号确定的。
可选的,所述集群接管条件,包括:
包含LCC,且包含交换框FCC;
或,
包含LCC,且包含当前的主用成员设备。
可选的,所述装置还包括:
第三成员设备组确定模块,用于在所述当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组之前,当检测到所述集群中存在处于第三指定状态的第四成员设备时,确定包含所述第四成员设备的第三成员设备组;其中,所述第三指定状态表示与所述第一成员设备之间拓扑可达,且路由不可达;
路由可达成员设备组确定模块,用于在所述集群中,确定与所述第三成员设备组中的成员设备之间路由可达的成员设备,得到路由可达成员设备组;
处理模块,用于基于所述第二成员设备组的接管优先级,以及所述路由可达成员设备组的接管优先级,得到处于所述第一指定状态的成员设备。
可选的,所述处理模块,具体用于判断所述第二成员设备组的接管优先级,是否高于所述路由可达成员设备组的接管优先级;
若是,断开所述第二成员设备组与所述第三成员设备组之间的控制通道,以使所述第三成员设备组中的成员设备处于所述第一指定状态;
若否,断开目标成员设备组与所述路由可达成员设备组之间的控制通道,以使所述路由可达成员设备组中的成员设备处于所述第一指定状态;其中,所述目标成员设备组表示所述第二成员设备组与所述路由可达成员设备组的差值。
可选的,一个成员设备组的接管优先级为基于预设优先级参数,并按照所述预设优先级参数对应的指定顺序确定的;
所述预设优先级参数包括:该成员设备组是否具备预设的集群接管条件、该成员设备组是否包含当前的主用成员设备、该成员设备组中的LCC的数目、该成员设备组中的FCC的数目,以及该成员设备组中的成员设备的最小设备编号。
本申请实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组;其中,所述第一指定状态表示与所述第一成员设备之间拓扑不可达;
确定包含所述第一成员设备和处于第二指定状态的第三成员设备的成员设备组,作为第二成员设备组;其中,所述第二指定状态表示与所述第一成员设备之间路由可达;
对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态;其中,所述运行状态为工作状态或挂起状态。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一集群故障处理方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一集群故障处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (15)

1.一种集群故障处理方法,其特征在于,所述方法应用于第一成员设备,所述第一成员设备为集群中的任一成员设备,所述方法包括:
当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组;其中,所述第一指定状态表示与所述第一成员设备之间拓扑不可达;
确定包含所述第一成员设备和处于第二指定状态的第三成员设备的成员设备组,作为第二成员设备组;其中,所述第二指定状态表示与所述第一成员设备之间路由可达;
对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态;其中,所述运行状态为工作状态或挂起状态。
2.根据权利要求1所述的方法,其特征在于,在所述对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态之前,所述方法还包括:
判断所述第二成员设备组是否具备预设的集群接管条件;
若所述第二成员设备组不具备所述集群接管条件,则将所述第一成员设备切换为挂起状态;
所述对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态,包括:
在所述第二成员设备组具备所述集群接管条件的情况下,对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态,包括:
对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,得到所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级;
基于所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级,确定所述第一成员设备的运行状态。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级,确定所述第一成员设备的运行状态,包括:
判断所述第二成员设备组的接管优先级,是否高于所述第一成员设备组的接管优先级;
若是,则确定所述第一成员设备为工作状态;
若否,则判断所述第一成员设备组中的线卡框LCC,与所述第二成员设备组中各成员设备之间的数据通道是否均为断开状态;若是,则确定所述第一成员设备为工作状态;若否,则将所述第一成员设备切换为挂起状态。
5.根据权利要求2所述的方法,其特征在于,在所述判断所述第二成员设备组是否具备预设的集群接管条件之前,所述方法还包括:
判断所述第二成员设备组是否满足第一预设条件,且满足第二预设条件;
其中,所述第一预设条件为:所述第一成员设备组中的LCC,与所述第二成员设备组中各成员设备之间的数据通道均为断开状态;所述第二预设条件包括:不具备所述集群接管条件;或者,具备所述集群接管条件,且所述第二成员设备组的接管优先级高于所述第一成员设备组的接管优先级;
所述判断所述第二成员设备组是否具备预设的集群接管条件,包括:
在不满足所述第一预设条件,且满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第一预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
在不满足所述第一预设条件,且不满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第二预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
其中,所述第二预设时长不小于所述第一预设时长;所述第二预设时长为基于所述第一预设时长、以及所述第二成员设备组中的FCC的最小设备编号确定的。
6.根据权利要求1所述的方法,其特征在于,在所述当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组之前,所述方法还包括:
当检测到所述集群中存在处于第三指定状态的第四成员设备时,确定包含所述第四成员设备的第三成员设备组;其中,所述第三指定状态表示与所述第一成员设备之间拓扑可达,且路由不可达;
在所述集群中,确定与所述第三成员设备组中的成员设备之间路由可达的成员设备,得到路由可达成员设备组;
基于所述第二成员设备组的接管优先级,以及所述路由可达成员设备组的接管优先级,得到处于所述第一指定状态的成员设备。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第二成员设备组的接管优先级,以及所述路由可达成员设备组的接管优先级,得到处于所述第一指定状态的成员设备,包括:
判断所述第二成员设备组的接管优先级,是否高于所述路由可达成员设备组的接管优先级;
若是,断开所述第二成员设备组与所述第三成员设备组之间的控制通道,以使所述第三成员设备组中的成员设备处于所述第一指定状态;
若否,断开目标成员设备组与所述路由可达成员设备组之间的控制通道,以使所述路由可达成员设备组中的成员设备处于所述第一指定状态;其中,所述目标成员设备组表示所述第二成员设备组与所述路由可达成员设备组的差值;所述目标成员设备组中的成员设备属于所述第二成员设备组,且不属于所述路由可达成员设备组。
8.一种集群故障处理装置,其特征在于,所述装置应用于第一成员设备,所述第一成员设备为集群中的任一成员设备,所述装置包括:
第一成员设备组确定模块,用于当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组;其中,所述第一指定状态表示与所述第一成员设备之间拓扑不可达;
第二成员设备组确定模块,用于确定包含所述第一成员设备和处于第二指定状态的第三成员设备的成员设备组,作为第二成员设备组;其中,所述第二指定状态表示与所述第一成员设备之间路由可达;
运行状态确定模块,用于对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态;其中,所述运行状态为工作状态或挂起状态。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一判断模块,用于在所述对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态之前,判断所述第二成员设备组是否具备预设的集群接管条件;
切换模块,用于若所述第二成员设备组不具备所述集群接管条件,则将所述第一成员设备切换为挂起状态;
所述运行状态确定模块,具体用于在所述第二成员设备组具备所述集群接管条件的情况下,对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,确定所述第一成员设备的运行状态。
10.根据权利要求9所述的装置,其特征在于,所述运行状态确定模块,包括:
接管优先级确定子模块,用于对所述第一成员设备组中的成员设备,与所述第二成员设备组中的成员设备进行比对,得到所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级;
运行状态确定子模块,用于基于所述第一成员设备组的接管优先级,以及所述第二成员设备组的接管优先级,确定所述第一成员设备的运行状态。
11.根据权利要求10所述的装置,其特征在于,所述运行状态确定子模块,具体用于判断所述第二成员设备组的接管优先级,是否高于所述第一成员设备组的接管优先级;
若是,则确定所述第一成员设备为工作状态;
若否,则判断所述第一成员设备组中的线卡框LCC,与所述第二成员设备组中各成员设备之间的数据通道是否均为断开状态;若是,则确定所述第一成员设备为工作状态;若否,则将所述第一成员设备切换为挂起状态。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于在所述判断所述第二成员设备组是否具备预设的集群接管条件之前,判断所述第二成员设备组是否满足第一预设条件,且满足第二预设条件;
其中,所述第一预设条件为:所述第一成员设备组中的LCC,与所述第二成员设备组中各成员设备之间的数据通道均为断开状态;所述第二预设条件包括:不具备所述集群接管条件;或者,具备所述集群接管条件,且所述第二成员设备组的接管优先级高于所述第一成员设备组的接管优先级;
所述第一判断模块,具体用于在不满足所述第一预设条件,且满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第一预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
在不满足所述第一预设条件,且不满足所述第二预设条件的情况下,当所述第二成员设备处于所述第一指定状态的时长达到第二预设时长时,判断所述第二成员设备组是否具备预设的集群接管条件;
其中,所述第二预设时长不小于所述第一预设时长;所述第二预设时长为基于所述第一预设时长、以及所述第二成员设备组中的FCC的最小设备编号确定的。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第三成员设备组确定模块,用于在所述当检测到所述集群中存在处于第一指定状态的第二成员设备时,确定包含所述第二成员设备的第一成员设备组之前,当检测到所述集群中存在处于第三指定状态的第四成员设备时,确定包含所述第四成员设备的第三成员设备组;其中,所述第三指定状态表示与所述第一成员设备之间拓扑可达,且路由不可达;
路由可达成员设备组确定模块,用于在所述集群中,确定与所述第三成员设备组中的成员设备之间路由可达的成员设备,得到路由可达成员设备组;
处理模块,用于基于所述第二成员设备组的接管优先级,以及所述路由可达成员设备组的接管优先级,得到处于所述第一指定状态的成员设备。
14.根据权利要求13所述的装置,其特征在于,所述处理模块,具体用于判断所述第二成员设备组的接管优先级,是否高于所述路由可达成员设备组的接管优先级;
若是,断开所述第二成员设备组与所述第三成员设备组之间的控制通道,以使所述第三成员设备组中的成员设备处于所述第一指定状态;
若否,断开目标成员设备组与所述路由可达成员设备组之间的控制通道,以使所述路由可达成员设备组中的成员设备处于所述第一指定状态;其中,所述目标成员设备组表示所述第二成员设备组与所述路由可达成员设备组的差值;所述目标成员设备组中的成员设备属于所述第二成员设备组,且不属于所述路由可达成员设备组。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
CN202111075103.0A 2021-09-14 2021-09-14 一种集群故障处理方法及装置 Active CN113794593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111075103.0A CN113794593B (zh) 2021-09-14 2021-09-14 一种集群故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111075103.0A CN113794593B (zh) 2021-09-14 2021-09-14 一种集群故障处理方法及装置

Publications (2)

Publication Number Publication Date
CN113794593A CN113794593A (zh) 2021-12-14
CN113794593B true CN113794593B (zh) 2023-05-26

Family

ID=78880301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111075103.0A Active CN113794593B (zh) 2021-09-14 2021-09-14 一种集群故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN113794593B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1295370C (en) * 1988-10-13 1992-02-04 Nancy Limpinsel Hall Radio trunking fault detection system
CN109257195A (zh) * 2017-07-12 2019-01-22 华为技术有限公司 集群中节点的故障处理方法及设备
CN112073250A (zh) * 2020-09-17 2020-12-11 新华三信息安全技术有限公司 控制器集群故障处理方法、装置、控制器及控制器集群

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1266882C (zh) * 2002-12-04 2006-07-26 华为技术有限公司 一种网络设备的管理方法
CN100375427C (zh) * 2005-11-25 2008-03-12 杭州华三通信技术有限公司 一种集群设备批量传输文件的方法及文件传输设备
US9769016B2 (en) * 2010-06-07 2017-09-19 Brocade Communications Systems, Inc. Advanced link tracking for virtual cluster switching
CN103312605B (zh) * 2013-05-29 2017-06-20 华为技术有限公司 一种网关设备身份设置的方法及管理网关设备
WO2019239189A1 (en) * 2018-06-13 2019-12-19 Telefonaktiebolaget Lm Ericsson (Publ) Robust node failure detection mechanism for sdn controller cluster
CN109104298B (zh) * 2018-07-10 2021-09-21 新华三技术有限公司 一种线卡框选择方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1295370C (en) * 1988-10-13 1992-02-04 Nancy Limpinsel Hall Radio trunking fault detection system
CN109257195A (zh) * 2017-07-12 2019-01-22 华为技术有限公司 集群中节点的故障处理方法及设备
CN112073250A (zh) * 2020-09-17 2020-12-11 新华三信息安全技术有限公司 控制器集群故障处理方法、装置、控制器及控制器集群

Also Published As

Publication number Publication date
CN113794593A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN108667777B (zh) 一种服务链生成方法及网络功能编排器nfvo
RU2761186C1 (ru) Способ и устройство для обмена трафиком центра обработки данных, устройство и носитель данных
CN112217658B (zh) 一种堆叠分裂处理方法及装置
CN114978978A (zh) 一种算力资源调度方法、装置、电子设备及介质
CN106797319B (zh) 网络服务感知路由器及其应用
WO2019105360A1 (zh) 数据传输方法、相关装置及网络
CN113193996B (zh) 一种电力光传输网优化方法、装置、设备及存储介质
US11855855B2 (en) Network operation method based on network functions virtualization device and storage medium
US20140047260A1 (en) Network management system, network management computer and network management method
EP3253030B1 (en) Method and device for reporting openflow switch capability
CN113794593B (zh) 一种集群故障处理方法及装置
CN115242698A (zh) 报文转发方法、装置、网络设备及存储介质
EP3104561A1 (en) Communication control system, communication control method, and communication control program
CN107534575A (zh) 一种网络虚拟化环境下的监控方法、监控装置和网络节点
CN116055446B (zh) 跨网络的报文转发方法、电子设备及机器可读存储介质
WO2023124743A1 (zh) 区块同步
CN104348737A (zh) 一种组播报文的传输方法及交换机
CN112751768A (zh) 业务报文转发方法、装置及计算机存储介质
EP4002779B1 (en) Method and apparatus for sharing information in redundant network, and computer storage medium
CN114374659A (zh) 一种堆叠系统中实现本地优先转发的方法、装置及存储介质
CN110581807B (zh) 节点设备、路由方法及互联系统
CN114124780B (zh) 路由发布方法、装置、电子设备及存储介质
CN113098914B (zh) 消息总线系统及消息传输方法、装置、电子设备
CN115460040A (zh) 一种业务处理方法、装置、终端设备和存储介质
KR100903130B1 (ko) 메쉬 타입 온 칩 네트워크의 스위치 및 스위칭 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant