CN105656645A - 堆叠系统的故障处理的决策方法和装置 - Google Patents

堆叠系统的故障处理的决策方法和装置 Download PDF

Info

Publication number
CN105656645A
CN105656645A CN201410637355.1A CN201410637355A CN105656645A CN 105656645 A CN105656645 A CN 105656645A CN 201410637355 A CN201410637355 A CN 201410637355A CN 105656645 A CN105656645 A CN 105656645A
Authority
CN
China
Prior art keywords
group
decision
equipment
retention strategy
equipment group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410637355.1A
Other languages
English (en)
Other versions
CN105656645B (zh
Inventor
陈世兴
周晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou H3C Technologies Co Ltd
Original Assignee
Hangzhou H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou H3C Technologies Co Ltd filed Critical Hangzhou H3C Technologies Co Ltd
Priority to CN201410637355.1A priority Critical patent/CN105656645B/zh
Priority to PCT/CN2015/094330 priority patent/WO2016074622A1/en
Priority to US15/526,399 priority patent/US10277454B2/en
Publication of CN105656645A publication Critical patent/CN105656645A/zh
Application granted granted Critical
Publication of CN105656645B publication Critical patent/CN105656645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/58Association of routers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种堆叠系统的故障处理的决策方法,应用在有成员设备离开的堆叠系统的主设备上,所述方法包括:根据预置的保留策略,收集本端设备组的决策参数值;所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组;将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备;接收携带对端设备组决策参数值的分裂检测报文;根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。本申请的技术方案使得堆叠分裂后更为符合应用环境需求的设备组能够被保留,实现了基于应用场景的故障恢复。

Description

堆叠系统的故障处理的决策方法和装置
技术领域
本申请涉及网络通信技术领域,尤其涉及一种堆叠系统的故障处理的决策方法和装置。
背景技术
IRF(IntelligentResilientFramework,智能弹性架构)是一种堆叠交换机系统,利用软件虚拟化技术,将至少两台网络设备连接在一起,进行必要的配置后,虚拟化成一台“分布式设备”。使用这种虚拟化技术可以集合多台设备的硬件资源和软件处理能力,实现多台设备的协同工作、统一管理和不间断维护。
IRF能够简化管理,在形成之后,用户通过任意成员设备的任意端口都可以登录IRF系统,对IRF内所有成员设备进行统一管理。IRF的高可靠性体现在多个方面,例如:IRF由多台成员设备组成,Master(主)设备负责IRF的运行、管理和维护,Slave(从)设备在作为备份的同时也可以处理业务;一旦Master设备故障,系统会迅速自动选举新的Master,以保证业务不中断,从而实现了设备的1:N备份;此外,成员设备之间的IRF链路支持聚合功能,IRF和上、下层设备之间的物理链路也支持聚合功能,多条链路之间可以互为备份也可以进行负载分担,从而进一步提高了IRF的可靠性。IRF有良好的扩展能力,通过增加成员设备,可以轻松自如的扩展IRF的端口数、带宽;因为各成员设备都有CPU,能够独立处理协议报文、进行报文转发,所以IRF还能够轻松自如的扩展处理能力。
随着语音、视频等新网络业务的出现和发展,对网络的可靠性和性能都提出了更高的要求。IRF不仅需要提供高的可靠性,还要尽量减少故障对所运行业务性能的影响。因此,在发生故障后如何能根据具体的应用场景进行故障恢复,就成为IRF技术需要解决的问题。
发明内容
有鉴于此,本申请提供一种堆叠系统的故障处理的决策方法,应用在有成员设备离开的堆叠系统的主设备上,所述方法包括:
根据预置的保留策略,收集本端设备组的决策参数值;所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组;
将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备;
接收携带对端设备组决策参数值的分裂检测报文;
根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。
本申请还提供了一种堆叠系统的故障处理的决策装置,应用在有成员设备离开的堆叠系统的主设备上,所述装置包括:
决策参数收集单元,用于根据预置的保留策略,收集本端设备组的决策参数值;所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组;
检测报文发送单元,用于将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备;
检测报文接收单元,用于接收携带对端设备组决策参数值的分裂检测报文;
分裂决策单元,用于根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。
由以上技术方案可见,本申请的实施例中利用保留策略来体现堆叠系统所在的应用环境的具体需求,在堆叠系统有成员设备离开后,通过采集并交换两端设备组的决策参数值并将决策参数值通知对端设备组,将两端设备组的决策参数值应用于保留策略来确定所要保留的设备组,使得堆叠分裂后更为符合应用环境需求的设备组能够继续分裂前堆叠系统的业务,实现了基于应用场景的故障恢复。
附图说明
图1是一个例子中堆叠系统的组网结构示例图;
图2是一个例子中堆叠系统成员设备的硬件架构示意图;
图3是一个例子中一种堆叠系统的故障处理的决策方法的流程图;
图4是另一个例子中一种堆叠系统的故障处理的决策方法的流程图;
图5是一个例子中一种堆叠系统的故障处理的决策装置的逻辑结构图。
具体实施方式
在堆叠系统的一种实现方式中,成员设备间通过具有特殊功能的堆叠口连接,通过堆叠口交互Hello报文来通告成员设备的状态、成员设备编号、成员设备优先级、成员设备的连接关系等内容。每个成员设备在本地记录已知的拓扑信息并将已知的拓扑信息周期性的从堆叠口发送出去,在收到其他成员设备的拓扑信息后,更新本地记录的拓扑信息,这样,所有成员设备都会收集到完整的拓扑信息。
当某个成员设备发生故障或某两个堆叠口之间的连接链路发生故障后,与故障点直接连接的成员设备感知到故障发生,会将发生故障的消息广播给堆叠系统中的其他成员设备,收到这些消息的成员设备更新本地记录的拓扑信息。更新拓扑信息后,不可达的成员设备被认为离开了堆叠系统。如果主设备离开,则在当前在线的从设备中选举新的主设备,继续原堆叠系统的转发业务。
一些故障可能导致堆叠系统分成两个设备组,这两个设备组之间无法通过堆叠口通信,并且都认为对端设备组已经离开堆叠系统,这种情况称为分裂。分裂后,每个设备组都成为一个独立的堆叠系统,并且都具有与原堆叠系统相同的地址和配置。
例如,在图1所示的堆叠系统中,成员设备110、120、130、140和150通过各自的堆叠口连接为链形拓扑,并且分别通过各自的其他端口连接到网络设备161和网络设备162,成员设备150为堆叠系统的主设备。当连接成员设备120的堆叠口122和成员设备130的堆叠口131的链路断开时,成员设备110和120认为成员设备130、140和150已经离开,选举出新的主设备——成员设备110;而成员设备130、140和150也认为成员设备110和120已经离开,继续以成员设备150为主设备。这样,成员设备110和120作为一个设备组,成员设备130、140和150作为另一个设备组,形成两个地址相同、配置相同的堆叠系统。类似的,当成员设备130发生故障宕机时,也会发生堆叠系统的分裂。
现有技术中,MAD(Multi-ActiveDetection,多活跃检测)技术用来防止网络中出现两个相同地址、相同配置的堆叠系统。具体而言,当堆叠系统中有成员设备离开后,主设备生成分裂检测报文,其中带有本端设备组的ActiveID(活跃标识)。通常将主设备在堆叠系统中的成员编号作为该设备组的ActiveID,堆叠系统中的每个成员设备的编号都不相同,因此如果堆叠分裂为两个设备组,则其主设备的成员编号必定不同。主设备将生成的分裂检测报文通过其他端口(非堆叠口)发送给堆叠系统中的其他成员设备。如果主设备接收到来自其他成员设备的分裂检测报文,该报文携带的ActiveID不同于本端设备组的ActiveID,则可以判定堆叠系统发生分裂。两个设备组的主设备比较本端设备组和对端设备组的ActiveID,保留ActiveID较大或较小的一个设备组,将另一个设备组的业务端口关闭。业务端口包括用于堆叠系统业务转发的端口,但不包括堆叠口。这样,网络中将不会同时存在两个相同地址、相同配置的堆叠系统。并非所有有成员离开的情况都会导致堆叠分裂(例如图1中的成员设备110宕机),此时主设备不会收到具有不同ActiveID的分裂检测报文,不需进行堆叠分裂的保留决策和处理。
在堆叠系统发生分裂后,根据设备组ActiveID的大小来决定保留哪个设备组,可能使得更为符合应用环境需要的设备组被关闭。仍以图1所示的堆叠系统为例,当成员设备110的堆叠口112和成员设备120的堆叠口121之间的链路中断后,成员设备110成为一个设备组并成为该设备组的主设备,其成员设备编号10成为该设备组的ActiveID;成员设备120、130、140和150成为一个设备组并仍以成员设备150为主设备,成员设备150的编号50成为该设备组的ActiveID;如果保留ActiveID较小的设备组,则拥有4个设备、带宽和处理能力更高的设备组将被关闭,并且原堆叠系统的主设备——成员设备150上的业务主进程也将被关闭,成员设备110需要重新进行路由计算以获得原来的主设备150上已有的数据。再如,如果因为成员设备110的堆叠口所在的板卡故障导致与成员设备120之间的通信故障,则不仅堆叠业务会迁移到带宽较小、处理能力较差的设备组,并且还是故障点所在的设备组,在该设备组进行故障修复的过程中,很可能需要堆叠业务的再次切换,影响网络的性能和稳定性。
在本申请的一个例子中,运行在有成员设备离开的堆叠系统的主设备上的故障处理决策控制逻辑能够按照预先配置的保留策略,根据堆叠系统的具体情形进行设备组的保留决策。请参考图2,堆叠系统成员设备20包括处理器211、内存212、以及网络接口214,这些硬件通过内部总线215相互连接;此外,成员设备20还可以包括机框、电源、风扇、网络转发芯片、以太网模块或光模块等部件。成员设备在启动后将故障处理决策控制逻辑加载到内存212中,当堆叠系统有成员设备离开后,主设备上的处理器211将运行内存212中的故障处理决策控制逻辑,其运行流程如图3所示。
步骤310,根据预置的保留策略,收集本端设备组的决策参数值。
本例中,在堆叠系统的成员设备上预先设置保留策略,保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组。当堆叠系统中发生有成员设备离开的事件后,通过堆叠口仍然可达的若干个成员设备成为一个设备组,如果离开的是从设备,则设备组的主设备保持不变;如果离开的是主设备,则在该设备组的成员设备中选举中新的主设备。对保留策略中所采用的决策参数,主设备获取所在设备组(即本端设备组)当前这些决策参数的具体值。视故障点的不同,离开的若干个成员设备可能成为另一个设备组,这个设备组的主设备也会执行本步骤,收集本端设备组的决策参数值。
保留策略的设置可以采用多种方式,如由管理员对堆叠系统的保留策略进行设置;或者提供缺省的保留策略,在管理员未进行设置则采用缺省的保留策略;还可以预先设置几种保留策略,由堆叠系统根据其业务、成员设备的配置情况等自动采用其中的一种;在本例中对具体的设置方式不做限定。
可以根据堆叠系统所在的网络环境、具体的应用场景来确定保留策略中要采用哪些决策参数,以及将这些决策参数应用于怎样的判断条件,来确定要保留的设备组。所有主设备可以获得的设备组的硬件配置、软件配置、性能指标、运行状态等参数都可以作为决策参数,包括但不限于:硬件配置、硬件健康状况、软件配置、软件健康状况、成员设备数量、业务流量的大小和重要性等,这些参数可以通过主设备或者堆叠系统的健康检测特性、业务流量监控功能、系统软件监控功能等来获得。以下为几个保留策略的示例:
示例一:采用故障级别作为决策参数,保留策略为:当两端设备组的故障级别不同时,保留故障级别低的设备组。可以将主设备可以收集到的各种硬件和/或软件故障对应于不同的故障级别,主设备根据收集到的故障确定本端设备组的故障级别值。主设备可以利用堆叠系统本身的健康检查功能、故障检测功能、成员设备的硬件及软件监测功能等来确定发生的故障,考虑故障对设备组的影响、排除故障时对业务的影响等因素来设置对应的故障级别。例如,如果本端设备组发生硬件故障或软件故障,将故障级别置为高;否则将故障级别置为普通。
示例二:以设备组中是否包括有成员设备离开前堆叠系统的主设备为决策参数,保留策略为:保留有成员设备离开前堆叠系统主设备所在的设备组。主设备上通常运行着堆叠系统的业务主进程,保存有最为全面的路由数据,保留原主设备所在的设备组可以避免路由数据的重新计算,减少对网络稳定性的影响。
示例三:以设备组中的设备数量为决策参数,保留策略为:保留设备数量多的设备组。通常堆叠系统会采用带宽和处理能力接近的成员设备,因此两个设备组中的设备数量的对比往往能够近似的衡量两个设备组带宽和处理能力的对比,保留设备数量多的设备组,使得保留的堆叠系统可以提供更大的带宽和更高的处理能力。
示例四:以成员设备在堆叠系统中的优先级为决策参数,保留策略为:保留具有最高堆叠优先级的成员设备所在的设备组。成员设备的优先级可以由管理员指定,也可以在加入堆叠时由堆叠系统自动生成,根据具体的场景,成员设备的优先级高可能表示该成员设备上运行更为重要的业务、有更高的硬件或软件配置等情况。
示例五:以设备组中是否包括具有指定编号的成员设备为决策参数,保留策略为:保留具有指定编号的成员设备所在的设备组。例如,将转发重要业务数据的成员设备作为指定编号的成员设备,可以尽量避免堆叠系统分裂时对重要业务的影响。
另外,可以基于两个以上的决策参数,采用多个判断条件来设置保留策略,这些决策参数之间可以具有相同或不同的优先级,对具有不同优先级的情形,只有在两端设备组所收集的优先级更高的决策参数值相同的时候,才考虑较低优先级的决策参数。在一个例子中,可以将故障级别作为最高优先级的决策参数,而将上述示例中的其他决策参数分别作为较低优先级的决策参数来设置四种保留策略:当两端设备组的故障级别不同时,保留故障级别低的设备组;当两端设备组的故障级别相同时,保留的分裂前主设备所在的设备组、保留设备数量多的设备组、保留具有最高堆叠优先级的成员设备所在的设备组、或保留具有指定编号的成员设备所在的设备组。
需要说明的是,在特定的情况下,依据某些保留策略,两端设备组所收集的决策参数值可能完全相同。例如,上述示例一中两端设备组的故障级别相同,示例二中主设备宕机导致堆叠分裂,示例三中两端设备组设备数量相同等等。此时,保留策略无法决策出要保留的设备组。可以在保留策略外,指定其他条件作为最终判断条件来在这种情况下确定要保留设备组,最终判断条件采用的参数能够确保两端设备组的该参数值不同。例如,可以采用现有技术中按照设备组的ActiveID来确定要保留的设备组的方法。
步骤320,将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备。
在收集到本端设备组的决策参数值后,主设备将这些决策参数值封装在分裂检测报文中,发送给堆叠系统的成员设备。分裂检测报文可以采用对现有的协议报文的扩展格式,也可以采用自定义的格式,能够发送到其他成员设备并能被其他成员设备正确解读即可。在一个例子中,可以将LACP(LinkAggregationControlProtocol,链路聚合控制协议)报文作为分裂检测报文,在其扩展TLV(Type-Length-Value,类型-长度-值)字段携带决策参数值。
在发生堆叠系统分裂后,两端设备组的主设备都生成并发送分裂检测报文。分裂检测报文通过非堆叠口发送,如果发生堆叠分裂后的对端设备组与本端设备组在网络上连通,则对端设备组的主设备会收到该分裂检测报文;如果发生两端的设备组分别在两个不连通的网络中,则两个设备组同时在线,在各自连通的网络范围内以堆叠系统的地址和配置运行不会产生冲突。
如前所述,如果按照某些保留策略,可能发生两端设备组决策参数值完全相同的情形,则可以用其他条件作为最终判断条件来决策要保留的设备组。这种情况下,这些判断依据所采用的设备组的参数也可以在分裂检测报文中发送给对端设备组。
步骤330,接收携带对端设备组决策参数值的分裂检测报文。
如果主设备未收到对端设备组的分裂检测报文,则可能发生的情况有两种,一种是堆叠系统并未发生分裂(如离开的成员设备已宕机),另一种是分裂后的两端设备组在网络中不连通。这两种情况下本端设备组均可以以堆叠系统正常运行,不必进行设备组是否保留的决策。
需要说明的是,步骤330与步骤340之间没有时序关系。
步骤340,根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。
在收到对端设备组的主设备发送的分裂检测报文后,主设备从中解析出对端设备组的决策参数值,将本端设备组决策参数值和对端设备组决策参数值应用于预置保留策略,确定出要保留的设备组。
在堆叠系统的运行过程中,可能出现成员设备上的保留策略不同的情况,例如,两个预置保留策略不同的堆叠系统合并。为了避免两端设备组应用不同的保留策略不同进行决策,可以在分裂检测报文中携带本端设备组的保留策略、以及前述最终判断条件所采用的参数,发送给对端设备组。在收到对端设备组的分裂检测报文后,主设备先比较本端设备组的保留策略和对端设备组的保留策略是否相同,如果相同则应用保留策略决策出要保留的设备组;否则根据最终判断条件所采用的参数来确定要保留的设备组。
一个例子中,在主设备应用保留策略决策出要保留的设备组后,可以将决策结果发送给对端设备组。两端设备组的主设备在收到对端的决策结果后,与本端的决策结果进行比较,如果相同则执行决策结果,或者保留本端设备组,或则关闭本端设备组的业务端口;否则根据最终判断条件来确定要保留的设备组。
需要说明的是,当决策参数包括故障级别时,对分布式的成员设备收集故障信息有可能耗时较长,此时应等待分布式设备的故障信息状态稳定后再生成分裂检测报文或者进行与对端故障级别的比较,以得到准确的决策结果。
可见,本例中用保留策略来描述堆叠系统所在的应用环境的具体需求,在堆叠系统发生分裂后,通过采集两端设备组的决策参数值并将决策参数值通知对端设备组,由两端设备组的主设备分别将两端的决策参数值应用于相同的保留策略,以确定所要保留的设备组,使得堆叠分裂后更为符合应用环境需求的设备组能够被保留,从而实现了基于应用场景的故障恢复。由于两端设备组的主设备将同样的决策参数应用于相同的保留策略来得出结果,两端设备组会得出同样的决策结果,一端设备组得以保留,另一端关闭业务。
仍以图1所示的堆叠系统为例,假设其应用场景中,堆叠系统具有的带宽和处理能力最为关键,由于每个成员设备的带宽和处理能力几乎相同,因而在每个成员设备上预置的保留策略为:当两端设备组的故障级别不同时,保留故障级别低的设备组;当两端设备组的故障级别相同时,保留设备数量多的设备组。堆叠系统的工作过程中,当连接成员设备120的堆叠口122和成员设备130的堆叠口131的链路断开时,成员设备110和120认为成员设备130、140和150已经离开,成员设备110和120成为第一设备组,选举出新的主设备——成员设备110;而成员设备130、140和150也认为成员设备110和120已经离开,成员设备130、140和150成为第二设备组,继续以成员设备150为主设备。
第一设备组的主设备110收集本端设备组的故障级别和设备数量,假设链路中断对应的故障级别为普通,则其得到的第一设备组的决策参数值为:故障级别普通,设备数量2。主设备110将这两个决策参数值封装在LACP报文的扩展TLV字段,从连接网络设备161和162的端口发送给原堆叠系统的各个成员设备。同样,第二设备组的主设备150收集本端设备组的故障级别和设备数量,由于链路中断对应的故障级别为普通,则第二设备组的决策参数值为:故障级别普通,设备数量3。主设备150将这两个决策参数值携带在LACP报文中,从连接网络设备161和162的端口发送给原堆叠系统的各个成员设备。
第一设备组的主设备110和第二设备组的主设备150分别收到对端设备组的LACP报文,从中得到对端设备组的决策参数值,并将两端的决策参数值应用于保留策略:由于两端设备组的故障级别相同,因此保留设备数量多的设备组,即第二设备组。第一设备组的主设备110关闭本设备上的业务端口,并通知其成员设备120关闭业务端口。第二设备组成为分裂后的堆叠系统,继续其业务。
在本申请的另一个例子中,主设备在分裂检测报文中携带本端设备组的ActiveID,作为最终判断条件来确定要保留的设备组;并携带本端设备组的保留策略来避免出现两端设备组所应用的保留策略不同。本例的流程如图4所示:
步骤401,检测到堆叠系统中有成员设备离开。
步骤402,根据预置的保留策略,主设备收集本端设备组的决策参数值。
步骤403,将本端设备组的ActiveID、保留策略、收集的决策参数值封装在分裂检测报文中,发送给堆叠系统的成员设备。其中,保留策略可以是用约定格式描述的保留策略本身,也可以是对应于预定的若干个保留策略的编号,或者其他能够表明所应用的保留策略的代码,本例中不做限定。
步骤404,接收对端设备组的分裂检测报文,其中同样携带有对端设备组的ActiveID、保留策略和决策参数值。
步骤405,判断本端设备组的保留策略与对端设备组是否相同,如果相同,执行步骤406,否则转步骤410。
步骤406,根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。
步骤407,将本端设备组应用保留策略的决策结果发送给对端设备组。
步骤408,接收对端设备组应用保留策略的决策结果。
步骤409,判断本端设备组的决策结果与对端设备的决策结果是否相同,如果相同,转步骤411;否则执行步骤410。
步骤410,根据本端设备组和对端设备组的ActiveID确定要保留的设备组。
步骤411,判断本端设备组是否为要保留的设备组,如果是,执行步骤412;否则执行步骤413。
步骤412,保留本设备组,采用分裂前堆叠系统的地址和配置继续完成原堆叠系统的业务,流程结束。
步骤413,关闭本端设备组的业务端口,流程结束。
需要说明的是,步骤403与步骤404之间没有时序关系,步骤407和步骤408之间也没有时序关系。
本例中,两端设备组在分别应用保留策略得出决策结果后,将本端的决策结果通知对端,在两端决策结果一致时按照决策结果关闭其中之一的设备组,否则按照ActiveID来决策。在两端设备组交换决策参数、应用保留策略的过程中,本端的决策参数可能发生变化,本例中增加决策结果的确认过程,可以防止这种情形导致的两端决策结果不一致,以避免两端设备组均保留或均关闭的情况出现。
与上述流程实现对应,本申请还提供了堆叠系统的故障处理的决策装置,应用在有成员设备离开的堆叠系统的主设备上,该装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,可以通过图2中的处理器211将故障处理决策控制逻辑读取到内存212中运行而形成。
图5所示为本申请一个例子中的一种堆叠系统的故障处理的决策装置,应用在有成员设备离开的堆叠系统的主设备上,所述装置包括决策参数收集单元510、检测报文发送单元520、检测报文接收单元530和分裂决策单元540,其中:决策参数收集单元510用于根据预置的保留策略,收集本端设备组的决策参数值;所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组;检测报文发送单元520用于将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备;检测报文接收单元530用于接收携带对端设备组决策参数值的分裂检测报文;分裂决策单元540用于根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。
所述决策参数可以包括故障级别;所述保留策略可以包括:当两端设备组的故障级别不同时,保留故障级别低的设备组。
在将故障级别用作决策参数时,所述决策参数收集单元510可以具体用于:当本端设备组发生硬件故障或软件故障时,将故障级别置为高;否则将故障级别置为普通。
所述保留策略还可以包括:当两端设备组的故障级别相同时,保留有成员设备离开前堆叠系统主设备所在的设备组、保留设备数量多的设备组、保留具有最高堆叠优先级的成员设备所在的设备组、或保留具有指定编号的成员设备所在的设备组。
一个例子中,所述分裂检测报文还携带有设备组的活跃标识ActiveID;所述装置还包括决策结果发送单元、决策结果接收单元和决策结果确认单元,其中:决策结果发送单元用于将本端设备组应用保留策略的决策结果发送给对端设备组;决策结果接收单元用于接收对端设备组应用保留策略的决策结果;决策结果确认单元用于当两端的决策结果相同时,按照决策结果保留本端设备组或关闭本端设备组的业务端口;否则根据ActiveID来决定要保留的设备组。
所述分裂检测报文还可以携带有设备组的ActiveID和保留策略;此时,所述分裂决策单元540具体用于:比较本端设备组的保留策略和对端设备组的保留策略,如果相同则应用保留策略决策出要保留的设备组;否则根据ActiveID来确定要保留的设备组。
所述分裂检测报文可以是LACP报文。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (14)

1.一种堆叠系统的故障处理的决策方法,应用在有成员设备离开的堆叠系统的主设备上,其特征在于,所述方法包括:
根据预置的保留策略,收集本端设备组的决策参数值;所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组;
将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备;
接收携带对端设备组决策参数值的分裂检测报文;
根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。
2.根据权利要求1所述的方法,其特征在于,所述决策参数包括故障级别;所述保留策略包括:当两端设备组的故障级别不同时,保留故障级别低的设备组。
3.根据权利要求2所述的方法,其特征在于,所述收集本端设备组的决策参数值,包括:如果本端设备组发生硬件故障或软件故障,将故障级别置为高;否则将故障级别置为普通。
4.根据权利要求2所述的方法,其特征在于,所述保留策略还包括:当两端设备组的故障级别相同时,保留有成员设备离开前堆叠系统主设备所在的设备组、保留设备数量多的设备组、保留具有最高堆叠优先级的成员设备所在的设备组、或保留具有指定编号的成员设备所在的设备组。
5.根据权利要求1所述的方法,其特征在于,所述分裂检测报文还携带有设备组的活跃标识ActiveID;
所述方法还包括:
将本端设备组应用保留策略的决策结果发送给对端设备组;
接收对端设备组应用保留策略的决策结果;
如果两端的决策结果相同,则按照决策结果保留本端设备组或关闭本端设备组的业务端口;否则根据ActiveID来决定要保留的设备组。
6.根据权利要求1所述的方法,其特征在于,所述分裂检测报文还携带有设备组的ActiveID和保留策略;
所述应用保留策略决策出要保留的设备组,包括:比较本端设备组的保留策略和对端设备组的保留策略,如果相同则应用保留策略决策出要保留的设备组;否则根据ActiveID来确定要保留的设备组。
7.根据权利要求1所述的方法,其特征在于,所述分裂检测报文为链路聚合控制协议LACP报文。
8.一种堆叠系统的故障处理的决策装置,应用在有成员设备离开的堆叠系统的主设备上,其特征在于,所述装置包括:
决策参数收集单元,用于根据预置的保留策略,收集本端设备组的决策参数值;所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组;
检测报文发送单元,用于将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备;
检测报文接收单元,用于接收携带对端设备组决策参数值的分裂检测报文;
分裂决策单元,用于根据本端设备组决策参数值和对端设备组决策参数值,应用保留策略决策出要保留的设备组。
9.根据权利要求8所述的装置,其特征在于,所述决策参数包括故障级别;所述保留策略包括:当两端设备组的故障级别不同时,保留故障级别低的设备组。
10.根据权利要求9所述的装置,其特征在于,所述决策参数收集单元具体用于:当本端设备组发生硬件故障或软件故障时,将故障级别置为高;否则将故障级别置为普通。
11.根据权利要求9所述的装置,其特征在于,所述保留策略还包括:当两端设备组的故障级别相同时,保留有成员设备离开前堆叠系统主设备所在的设备组、保留设备数量多的设备组、保留具有最高堆叠优先级的成员设备所在的设备组、或保留具有指定编号的成员设备所在的设备组。
12.根据权利要求8所述的装置,其特征在于,所述分裂检测报文还携带有设备组的活跃标识ActiveID;
所述装置还包括:
决策结果发送单元,用于将本端设备组应用保留策略的决策结果发送给对端设备组;
决策结果接收单元,用于接收对端设备组应用保留策略的决策结果;
决策结果确认单元,用于当两端的决策结果相同时,按照决策结果保留本端设备组或关闭本端设备组的业务端口;否则根据ActiveID来决定要保留的设备组。
13.根据权利要求8所述的装置,其特征在于,所述分裂检测报文还携带有设备组的ActiveID和保留策略;
所述分裂决策单元具体用于:比较本端设备组的保留策略和对端设备组的保留策略,如果相同则应用保留策略决策出要保留的设备组;否则根据ActiveID来确定要保留的设备组。
14.根据权利要求8所述的装置,其特征在于,所述分裂检测报文为链路聚合控制协议LACP报文。
CN201410637355.1A 2014-11-12 2014-11-12 堆叠系统的故障处理的决策方法和装置 Active CN105656645B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410637355.1A CN105656645B (zh) 2014-11-12 2014-11-12 堆叠系统的故障处理的决策方法和装置
PCT/CN2015/094330 WO2016074622A1 (en) 2014-11-12 2015-11-11 Handling failure of stacking system
US15/526,399 US10277454B2 (en) 2014-11-12 2015-11-11 Handling failure of stacking system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410637355.1A CN105656645B (zh) 2014-11-12 2014-11-12 堆叠系统的故障处理的决策方法和装置

Publications (2)

Publication Number Publication Date
CN105656645A true CN105656645A (zh) 2016-06-08
CN105656645B CN105656645B (zh) 2019-08-06

Family

ID=55953747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410637355.1A Active CN105656645B (zh) 2014-11-12 2014-11-12 堆叠系统的故障处理的决策方法和装置

Country Status (3)

Country Link
US (1) US10277454B2 (zh)
CN (1) CN105656645B (zh)
WO (1) WO2016074622A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106936646A (zh) * 2017-04-24 2017-07-07 新华三技术有限公司 主用主控板的确定方法及装置
CN108063778A (zh) * 2016-11-07 2018-05-22 台达电子工业股份有限公司 电源分配单元及其所适用的电源管理系统
CN108880843A (zh) * 2017-05-11 2018-11-23 中兴通讯股份有限公司 堆叠分裂后的处理方法及计算机设备
CN109039887A (zh) * 2018-09-10 2018-12-18 迈普通信技术股份有限公司 一种堆叠系统故障处理方法以及设备
CN111224803A (zh) * 2018-11-23 2020-06-02 中兴通讯股份有限公司 一种堆叠系统中多主检测方法及堆叠系统
CN112910734A (zh) * 2021-01-29 2021-06-04 新华三技术有限公司 一种切换链路聚合组的方法及系统
WO2022033119A1 (zh) * 2020-08-14 2022-02-17 苏州浪潮智能科技有限公司 一种基于异构存储的集群仲裁的方法、系统、设备及介质
CN114244736A (zh) * 2021-12-14 2022-03-25 浪潮思科网络科技有限公司 一种基于堆叠环境的多主检测方法、设备及介质
WO2023202565A1 (zh) * 2022-04-20 2023-10-26 华为技术有限公司 一种通信方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11310097B2 (en) 2019-01-24 2022-04-19 Hewlett Packard Enterprise Development Lp Virtual stack recovery
US11979283B2 (en) * 2020-01-07 2024-05-07 Rvckus IP Holdings LLC Stacking-port configuration using zero-touch provisioning

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6111881A (en) * 1997-12-29 2000-08-29 Nortel Networks Corporation Signaling protocol for rerouting ATM connections in PNNI environments
CN101145895A (zh) * 2007-09-20 2008-03-19 中兴通讯股份有限公司 主备设备倒换方法
CN101442484A (zh) * 2008-12-05 2009-05-27 杭州华三通信技术有限公司 一种检测堆叠多Active的方法、系统及设备
CN101917287A (zh) * 2010-08-04 2010-12-15 杭州华三通信技术有限公司 一种irf故障处理方法和irf故障检测系统
CN102457402A (zh) * 2010-10-14 2012-05-16 杭州华三通信技术有限公司 一种检测多主用设备冲突的方法和装置
CN103200134A (zh) * 2013-04-11 2013-07-10 杭州华三通信技术有限公司 一种Active状态的IRF堆叠确定方法和设备
CN104104596A (zh) * 2014-07-28 2014-10-15 杭州华三通信技术有限公司 一种irf分裂处理方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6832331B1 (en) * 2000-02-25 2004-12-14 Telica, Inc. Fault tolerant mastership system and method
US9391844B2 (en) * 2014-01-15 2016-07-12 Dell Products, L.P. System and method for network topology management
US9609590B2 (en) * 2014-04-29 2017-03-28 Aruba Networks, Inc. Eco-friendly power over ethernet

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6111881A (en) * 1997-12-29 2000-08-29 Nortel Networks Corporation Signaling protocol for rerouting ATM connections in PNNI environments
CN101145895A (zh) * 2007-09-20 2008-03-19 中兴通讯股份有限公司 主备设备倒换方法
CN101442484A (zh) * 2008-12-05 2009-05-27 杭州华三通信技术有限公司 一种检测堆叠多Active的方法、系统及设备
CN101917287A (zh) * 2010-08-04 2010-12-15 杭州华三通信技术有限公司 一种irf故障处理方法和irf故障检测系统
CN102457402A (zh) * 2010-10-14 2012-05-16 杭州华三通信技术有限公司 一种检测多主用设备冲突的方法和装置
CN103200134A (zh) * 2013-04-11 2013-07-10 杭州华三通信技术有限公司 一种Active状态的IRF堆叠确定方法和设备
CN104104596A (zh) * 2014-07-28 2014-10-15 杭州华三通信技术有限公司 一种irf分裂处理方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108063778A (zh) * 2016-11-07 2018-05-22 台达电子工业股份有限公司 电源分配单元及其所适用的电源管理系统
CN106936646B (zh) * 2017-04-24 2019-12-06 新华三技术有限公司 主用主控板的确定方法及装置
CN106936646A (zh) * 2017-04-24 2017-07-07 新华三技术有限公司 主用主控板的确定方法及装置
CN108880843A (zh) * 2017-05-11 2018-11-23 中兴通讯股份有限公司 堆叠分裂后的处理方法及计算机设备
CN109039887A (zh) * 2018-09-10 2018-12-18 迈普通信技术股份有限公司 一种堆叠系统故障处理方法以及设备
CN109039887B (zh) * 2018-09-10 2021-06-29 迈普通信技术股份有限公司 一种堆叠系统故障处理方法以及设备
CN111224803B (zh) * 2018-11-23 2023-08-04 中兴通讯股份有限公司 一种堆叠系统中多主检测方法及堆叠系统
CN111224803A (zh) * 2018-11-23 2020-06-02 中兴通讯股份有限公司 一种堆叠系统中多主检测方法及堆叠系统
WO2022033119A1 (zh) * 2020-08-14 2022-02-17 苏州浪潮智能科技有限公司 一种基于异构存储的集群仲裁的方法、系统、设备及介质
US11762601B2 (en) 2020-08-14 2023-09-19 Inspur Suzhou Intelligent Technology Co., Ltd. Method for arbitrating heterogeneous storage-based cluster, and system, computer device and non-transitory computer-readable medium thereof
CN112910734A (zh) * 2021-01-29 2021-06-04 新华三技术有限公司 一种切换链路聚合组的方法及系统
CN112910734B (zh) * 2021-01-29 2022-07-12 新华三技术有限公司 一种切换链路聚合组的方法及系统
CN114244736A (zh) * 2021-12-14 2022-03-25 浪潮思科网络科技有限公司 一种基于堆叠环境的多主检测方法、设备及介质
WO2023202565A1 (zh) * 2022-04-20 2023-10-26 华为技术有限公司 一种通信方法及装置

Also Published As

Publication number Publication date
US10277454B2 (en) 2019-04-30
WO2016074622A1 (en) 2016-05-19
US20170331676A1 (en) 2017-11-16
CN105656645B (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN105656645A (zh) 堆叠系统的故障处理的决策方法和装置
EP1982447B1 (en) System and method for detecting and recovering from virtual switch link failures
US10454806B2 (en) SDN controller, data center system, and routing connection method
US9385944B2 (en) Communication system, path switching method and communication device
US8438307B2 (en) Method and device of load-sharing in IRF stack
US11811511B2 (en) Method, apparatus, and system for communication between controllers in TSN
CN103534982B (zh) 保护业务可靠性的方法、设备及网络虚拟化系统
CN101588304B (zh) 一种vrrp的实现方法和设备
CN108306777B (zh) 基于sdn控制器的虚拟网关主备切换方法及装置
US20120113835A1 (en) Inter-network carrier ethernet service protection
US20080068985A1 (en) Network redundancy method and middle switch apparatus
CN102984057B (zh) 一种多业务一体化双冗余网络系统
CN102916857B (zh) 一种堆叠分裂的快速检测方法和装置
CN104104570A (zh) Irf系统中的聚合处理方法及装置
US8320281B2 (en) Methods, systems and computer readable media for utilizing a standard spanning tree protocol to indicate an active switching fabric in a network node
CN105340230A (zh) 虚拟机架拓扑管理
CN112491700A (zh) 网络路径调整方法、系统、装置、电子设备及存储介质
WO2020114017A1 (zh) 数据中心流量互通方法、装置、设备及存储介质
CN105191339A (zh) 在非同构虚拟机架中的软件冗余
CN115152192B (zh) Pce受控网络可靠性
AU2011229566B2 (en) Load sharing method and apparatus
CN106850268B (zh) 一种线性保护倒换的实现装置及方法
CN104104596B (zh) 一种irf分裂处理方法和装置
US20200044960A1 (en) Network automatic link backup method and network system thereof
CN106330783B (zh) 一种OpenFlow交换机能力上报的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No.

Applicant after: Xinhua three Technology Co., Ltd.

Address before: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No.

Applicant before: Huasan Communication Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant