CN109445975A - 异常处理方法、逻辑装置及成员设备 - Google Patents

异常处理方法、逻辑装置及成员设备 Download PDF

Info

Publication number
CN109445975A
CN109445975A CN201811214770.0A CN201811214770A CN109445975A CN 109445975 A CN109445975 A CN 109445975A CN 201811214770 A CN201811214770 A CN 201811214770A CN 109445975 A CN109445975 A CN 109445975A
Authority
CN
China
Prior art keywords
processor
exchange chip
logic device
member device
exchange
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811214770.0A
Other languages
English (en)
Other versions
CN109445975B (zh
Inventor
李跃武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Information Technologies Co Ltd
Original Assignee
New H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd filed Critical New H3C Technologies Co Ltd
Priority to CN201811214770.0A priority Critical patent/CN109445975B/zh
Publication of CN109445975A publication Critical patent/CN109445975A/zh
Application granted granted Critical
Publication of CN109445975B publication Critical patent/CN109445975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/24Resetting means

Abstract

本申请提供了一种异常处理方法、逻辑装置及成员设备,涉及通信技术领域,其中由逻辑装置控制处理器对交换芯片的复位通道和管理通道的开启和关断,实现对交换芯片控制权的切换;当处理器运行异常时,逻辑装置通过关断该处理器对交换芯片的复位通道和管理通道,接管对交换芯片的控制权,控制交换芯片正常工作,同时对该交换芯片进行异常配置,使得交换芯片的转发业务可以经由邻居成员设备进行,从而实现在处理器运行异常时无需复位该交换芯片,保证堆叠设备业务的正常进行,提高网络的可靠性。

Description

异常处理方法、逻辑装置及成员设备
技术领域
本申请涉及通信技术领域,尤其是涉及一种异常处理方法、逻辑装置及成员设备。
背景技术
堆叠是指将一台以上的网络设备起来共同工作,以便在有限的空间内提供尽可能多的端口。作为网络设备的重要功能,堆叠最重要的作用是冗余备份,提供网络可靠性。一般情况下,堆叠的多台网络设备(形成堆叠设备)会承担各自业务,而其中一台网络设备中的处理器如果出现异常,那么该网络设备承担的业务也会中断。交换芯片作为网络设备的重要组成器件,其承担了很重要的网络业务,设备异常情况下,往往交换芯片也会被复位导致无法正常工作。
因此,目前如果堆叠设备的任一网络设备中的处理器异常,则需要进行对该处理器进行重启操作,交换芯片被复位,导致堆叠设备业务全部停止,严重影响网络的可靠性。
发明内容
有鉴于此,本申请的目的在于提供一种异常处理方法、逻辑装置及成员设备,以缓解目前如果堆叠设备的任一网络设备中的处理器异常,导致交换芯片被复位,堆叠设备业务全部停止,严重影响网络的可靠性的问题。
第一方面,本申请实施例提供了一种异常处理方法,所述方法应用于成员设备的逻辑装置,至少两个所述成员设备构成堆叠设备,所述成员设备还包括处理器及交换芯片,所述逻辑装置分别与所述处理器、所述交换芯片连接;所述方法包括:
当确定所述处理器运行异常时,关断所述处理器对所述交换芯片的复位通道,并控制所述处理器复位以使所述处理器重新启动;
关断所述处理器对所述交换芯片的管理通道;
基于预先存储的异常配置信息,更改所述交换芯片内的转发表项,使报文经过所述交换芯片的堆叠口上传至与所述成员设备连接的邻居成员设备的处理器。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述确定所述处理器运行异常的步骤包括:
当接收到所述处理器发送的心跳指令时,重置计时器并开始计时;
当计时时长超过预设时长时,确定所述处理器运行异常。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,还包括:
当确定所述处理器重启完成时,开启所述处理器对所述交换芯片的复位通道,以及所述处理器对所述交换芯片的管理通道,以使所述处理器对所述交换芯片进行管理控制。
第二方面,本申请实施例提供了一种逻辑装置,应用于成员设备,至少两个所述成员设备构成堆叠设备,所述成员设备还包括处理器及交换芯片,所述逻辑装置分别与所述处理器、所述交换芯片连接;所述逻辑装置包括检测模块、重启模块、第一控制模块、第二控制模块及异常配置模块;
所述检测模块,用于检测所述处理器是否出现异常;
当所述检测模块确定所述处理器运行异常时:
所述重启模块,用于控制所述处理器复位以使所述处理器重新启动;
所述第一控制模块,关断所述处理器对所述交换芯片的复位通道;
所述第二控制模块,关断所述处理器对所述交换芯片的管理通道;
所述异常配置模块,基于预先存储的异常配置信息,更改所述交换芯片内的转发表项,使报文经过所述交换芯片的堆叠口上传至与所述成员设备连接的邻居成员设备的处理器。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述检测模块,还用于:
当接收到所述处理器发送的心跳指令时,重置计时器并开始计时;
当计时时长超过预设时长时,确定所述处理器运行异常。
结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述检测模块,还用于检测所述处理器是否重启完成;
当所述检测模块确定所述处理器重启完成时:
所述第一控制模块,还用于开启所述处理器对所述交换芯片的复位通道;
所述第二控制模块,还用于开启所述处理器对所述交换芯片的管理通道,以使所述处理器对所述交换芯片进行管理控制。
第三方面,本申请实施例还提供一种成员设备,包括处理器、交换芯片以及如第二方面及其任一种可能的实施方式所述的逻辑装置;所述逻辑装置分别与所述处理器、所述交换芯片连接。
结合第三方面,本申请实施例提供了第三方面的第一种可能的实施方式,其中,还包括存储器,所述存储器与所述处理器连接,用于存储设备配置信息;
在所述处理器重新启动过程中,所述处理器从所述存储器读取所述设备配置信息,基于所述设备配置信息对所述成员设备进行配置恢复。
结合第三方面的第一种可能的实施方式,本申请实施例提供了第三方面的第二种可能的实施方式,其中,在配置恢复过程中,当所述处理器检测到所述设备配置信息中包括对应于所述交换芯片的硬件配置信息时,忽略所述硬件配置信息以跳过对所述交换芯片的硬件配置。
结合第三方面,本申请实施例提供了第三方面的第三种可能的实施方式,其中,所述处理器中设置有寄存器,所述寄存器用于存储异常标识,所述异常标识默认为第一预设值;
所述逻辑装置每间隔预设时长,读取所述处理器中的寄存器中存储的异常标识;
若所述异常标识为第一预设值,则所述逻辑装置将所述第一预设值变更为第二预设值;
所述处理器检测到所述异常标识变更为第二预设值后,所述处理器将所述第二预设值变更为第一预设值;
若所述异常标识为第二预设值,则所述逻辑装置确定所述处理器运行异常。
结合第三方面,本申请实施例提供了第三方面的第四种可能的实施方式,其中,所述逻辑装置中设置有计时器;
当所述逻辑装置接收到所述处理器发送的心跳指令时,重置所述计时器并开始计时;当计时时长超过预设时长时,所述逻辑装置确定所述处理器运行异常。
结合第三方面,本申请实施例提供了第三方面的第五种可能的实施方式,其中,当所述逻辑装置确定所述处理器重启完成时,开启所述处理器对所述交换芯片的复位通道,以及所述处理器对所述交换芯片的管理通道,以使所述处理器对所述交换芯片进行管理控制;
所述处理器更改所述交换芯片内的转发表项,使报文经过所述交换芯片与所述处理器之间的数据通道上传至所述处理器。
本申请实施例带来了以下有益效果:
在本申请实施例中,该异常处理方法应用于成员设备的逻辑装置,至少两个成员设备构成堆叠设备,该成员设备还包括处理器及交换芯片,逻辑装置分别与处理器、交换芯片连接;该方法在确定处理器运行异常时,关断处理器对交换芯片的复位通道,并控制处理器复位以使处理器重新启动;关断处理器对交换芯片的管理通道;基于预先存储的异常配置信息,更改交换芯片内的转发表项,使报文经过交换芯片的堆叠口上传至与成员设备连接的邻居成员设备的处理器。该方法中,由于处理器对交换芯片的复位通道和管理通道可以由逻辑装置进行的开关控制,实现对交换芯片控制权的切换,因此当处理器运行异常时,逻辑装置通过关断该处理器对交换芯片的复位通道和管理通道,接管对交换芯片的控制权,控制交换芯片正常工作,同时对该交换芯片进行异常配置,使得交换芯片的转发业务可以经由邻居成员设备进行,从而实现在处理器运行异常时无需复位该交换芯片,保证堆叠设备业务的正常进行,提高网络的可靠性。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种逻辑装置的结构连接图;
图2为本申请实施例提供的一种成员设备之间的连接示意图;
图3为本申请实施例提供的一种异常处理方法的流程示意图;
图4为本申请实施例提供的一种堆叠设备的控制方法的流程示意图;
图5为本申请实施例提供的一种堆叠设备的结构示意图。
图标:
10-逻辑装置;110-检测模块;120-重启模块;130-第一控制模块;140-第二控制模块;150-异常配置模块;160-逻辑访问总线接口;170-第一复位接口;180-第二复位接口;190-管理通道接口;20-处理器;30-交换芯片;40-堆叠口;50-数据流量接口;60-存储器。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前如果堆叠设备中的任一网络设备中的处理器异常,则需要进行对该处理器进行重启操作,交换芯片被复位,导致堆叠设备业务全部停止,严重影响网络的可靠性。
基于此,本申请实施例提供的一种异常处理方法、逻辑装置及成员设备,其中由于处理器对交换芯片的复位通道和管理通道可以由逻辑装置进行的开关控制,实现对交换芯片控制权的切换,因此当处理器运行异常时,逻辑装置关断该处理器对交换芯片的复位通道和管理通道,并接管对交换芯片的控制权,控制交换芯片正常工作;同时对该交换芯片进行异常配置,使得交换芯片的转发业务可以经由邻居成员设备进行,从而实现在处理器运行异常时无需复位该交换芯片,保证堆叠设备业务的正常进行,提高网络的可靠性。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种逻辑装置进行详细介绍。该逻辑装置可以但不限于通过CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)或者FPGA(Field Programmable Gate Array,现场可编程门阵列)器件实现,应用于堆叠设备中的成员设备,其中该堆叠设备至少由两个成员设备构成。该成员设备还包括处理器和交换芯片,逻辑装置用于与该处理器和交换芯片分别连接。
参见图1所示的该逻辑装置的结构示意图,该逻辑装置10包括检测模块110、重启模块120、第一控制模块130、第二控制模块140及异常配置模块150。检测模块与重启模块、第一控制模块、第二控制模块分别连接,异常配置模块还与第二控制模块连接。另外参见图2,检测模块与处理器20连接,逻辑装置10通过复位通道和管理通道与交换芯片30连接。
其中检测模块110用于检测处理器是否出现异常。例如该检测模块连接逻辑访问总线接口160,可以通过逻辑访问总线与处理器连接,其中逻辑访问总线可以但不限于为LocalBus(局部总线)、PCIE(peripheral component interconnect express,外部设备互连高速)总线。
在可能的实施例中,可以由处理器主动通报检测模块异常信息,或者由逻辑装置对处理器运行状态进行检测。可选地,该检测模块可以通过以下方式确定该处理器是否出现异常:当接收到处理器发送的心跳指令时,重置计时器并开始计时;当计时时长超过预设时长时,确定处理器运行异常。
该检测模块中预先设置有计时器,处理器可以按照预设周期或者定时发送心跳指令至检测模块。检测模块接收到该心跳指令后,重置该计时器进行计时。根据实际需求设定预设时长,当计时器的计时时长超过了该预设时长时,说明检测模块在该时间段内一直未接收到处理器发送的心跳指令,此时确定处理器出现故障,运行异常。
在检测模块确定该处理器异常时:
上述重启模块用于控制处理器复位以使处理器重新启动。在可能的实施方式中,参见图1,该逻辑装置还包括第一复位接口170,第一复位接口通过第一复位信号线与处理器连接。该重启模块在检测模块的触发下,通过第一复位接口,传输复位信号至处理器。可选的,该复位信号可以但不限于为开关量信号,由第一复位接口及第一复位信号线传输至处理器。
上述第一控制模块关断处理器对交换芯片的复位通道。该第一控制模块可以但不限于为开关。在可能的实施方式中,参见图1和图2,该逻辑装置还连接第二复位接口180,其中该第二复位接口用于经由复位通道连接至交换芯片。在处理器运行正常时,第一控制模块控制逻辑访问总线接口与第二复位接口之间处于连通状态,处理器通过逻辑访问总线、逻辑访问总线接口、第二复位接口及复位通道,发送复位信号(可以但不限于用开关量表示)至交换芯片;在确定处理器运行异常时,第一控制模块控制逻辑访问总线接口与第二复位接口之间断开,即关断处理器对交换芯片的复位通道,使得处理器的复位信号无法到达交换芯片,从而使交换芯片不会复位,进而维持交换芯片的工作状态。
这样交换芯片的运行不会因处理器的运行异常而发生变化,其二层转发业务保持正常。其中二层转发业务是指计算机网络七层模型中的第二层,数据链路层的转发业务。可选地,可以通过以下方式判断交换芯片的转发业务:交换芯片接收报文后,确定接收到该报文的接口是三层数据接口;或者当确定接收到该报文的接口是二层数据接口,且该报文对应的目的MAC(Media Access Control,媒体访问控制)地址是VLAN(Virtual Local AreaNetwork,虚拟局域网)的虚拟接口MAC地址时,确定该报文为三层转发业务对应的报文。交换芯片接收报文后,当确定接收到该报文的接口是二层数据接口,且该报文对应的目的MAC地址不是VLAN的虚拟接口MAC地址时,确定该报文为三层转发业务对应的报文。
为了保证三层(计算机网络七层模型中的第三层,网络层)转发业务和协议报文转发的正常进行,需要对交换芯片进行配置更新。基于此,在确定处理器运行异常后,第二控制模块用于关断处理器对交换芯片的管理通道。该第一控制模块可以但不限于为开关。在可能的实施方式中,参见图1和图2,该逻辑装置还连接管理通道接口190,其中该管理通道接口用于经由管理通道连接至交换芯片。在处理器运行正常时,第二控制模块控制逻辑访问总线接口与管理通道接口之间处于连通状态,处理器通过逻辑访问总线、逻辑访问总线接口、管理通道接口及管理通道,访问交换芯片;在确定处理器运行异常时,第二控制模块控制逻辑访问总线接口与管理通道接口之间断开,即关断处理器对交换芯片的管理通道,使得处理器无法访问交换芯片,从而无法管理交换芯片。
可选的,第二控制模块在关断处理器对交换芯片的管理通道的同时,还会开启逻辑装置中的异常配置模块对交换芯片的管理通道,也就是控制异常配置模块与管理通道接口之间导通,使得异常配置模块通过管理通道访问交换芯片。
异常配置模块基于预先存储的异常配置信息,更改交换芯片内的转发表项,使报文经过交换芯片的堆叠口上传至与该成员设备连接的邻居成员设备的处理器。
如图2中所示,成员设备1中的交换芯片的处理器出现异常时,其逻辑装置中的异常配置模块访问交换芯片,将交换芯片中存储的用于三层报文转发的转发表项进行修改或者删除,由原来使报文经过交换芯片与成员设备1的处理器(以下称本地处理器)之间的数据通道上送至本地处理器的原转发表项,替换为使报文经过交换芯片的堆叠口上传至与成员设备1连接的邻居成员设备2的处理器(以下称邻居处理器)的异常配置转发表项,相当于关断了交换芯片与本地处理器之间的数据通道。由此,使得当交换芯片确定当前报文属于三层转发业务时,根据该异常配置转发表项,将该报文经过堆叠口上送至邻居处理器进行业务处理,从而保证了三层转发业务正常转发和处理。
因此在申请实施例中,由于处理器对交换芯片的复位通道和管理通道可以由逻辑装置进行的开关控制,实现对交换芯片控制权的切换,因此当处理器运行异常时,逻辑装置通过关断该处理器对交换芯片的复位通道和管理通道,接管对交换芯片的控制权,控制交换芯片正常工作;同时对该交换芯片进行异常配置,使得交换芯片的转发业务可以经由邻居成员设备进行,从而实现在处理器运行异常时无需复位该交换芯片,保证堆叠设备业务的正常进行,提高网络的可靠性。
此外,在重启模块复位成员设备中的处理器后,上述检测模块还用于检测处理器是否重启完成。可选得,该处理器可以在重启完成后,发送相应的完成通知至检测模块,以通知检测模块是否重启完成;或者是通过上述检测处理器是否出现异常的方式,若未出现异常,则确定处理器重启完成。
当该检测模块确定处理器重启完成时:
上述第一控制模块还用于开启处理器对交换芯片的复位通道。参见图1,在确定处理器重启完成时,第一控制模块控制逻辑访问总线接口与第二复位接口之间切换为连通状态,处理器发送的复位信号,可以通过逻辑访问总线、逻辑访问总线接口、第二复位接口及复位通道,到达交换芯片,从而恢复对交换芯片的复位控制。
上述第二控制模块还用于开启处理器对交换芯片的管理通道,以使处理器对交换芯片进行管理控制。参见图1,在确定处理器重启完成时,第二控制模块控制逻辑访问总线接口与管理通道接口之间切换为连通状态,处理器可以通过逻辑访问总线、逻辑访问总线接口、管理通道接口及管理通道,访问交换芯片,从而恢复对交换芯片的管理控制。
因此,在逻辑装置确定处理器重启完成时,重新开启处理器对交换芯片的管理通道和复位通道,以使处理器恢复对交换芯片的复位控制和管理控制,进而保证堆叠设备业务的正常进行。
针对于上述提供的一种逻辑装置,参见图3,本申请实施例还提供了一种异常处理方法,该方法应用于成员设备的逻辑装置,至少两个成员设备构成堆叠设备,成员设备还包括处理器及交换芯片,逻辑装置分别与处理器、交换芯片连接。该异常处理方法包括:
步骤S301,当确定处理器运行异常时,关断处理器对所述交换芯片的复位通道,并控制处理器复位以使处理器重新启动。
步骤S302,关断处理器对交换芯片的管理通道。
步骤S303,基于预先存储的异常配置信息,更改交换芯片内的转发表项,使报文经过交换芯片的堆叠口上传至与成员设备连接的邻居成员设备的处理器。
其中,确定上述处理器运行异常的步骤包括:当接收到所述处理器发送的心跳指令时,重置计时器并开始计时;当计时时长超过预设时长时,确定所述处理器运行异常。
在可能的实施例中,在图3所示的方法的基础上,该异常处理方法还包括步骤S304:当确定处理器重启完成时,开启处理器对交换芯片的复位通道,以及处理器对交换芯片的管理通道,以使处理器对交换芯片进行管理控制。
需要说明的是,上述异常处理方法的相应处理过程与上述逻辑装置的执行过程类似,具体可参见上述逻辑装置实施例的描述,在此不做赘述。
在本实施例的方法中,由于处理器对交换芯片的复位通道和管理通道可以由逻辑装置进行的开关控制,实现对交换芯片控制权的切换,因此当处理器运行异常时,逻辑装置关断该处理器对交换芯片的复位通道和管理通道,并接管对交换芯片的控制权,控制交换芯片正常工作;同时对该交换芯片进行异常配置,使得交换芯片的转发业务可以经由邻居成员设备进行,从而实现在处理器运行异常时无需复位该交换芯片,保证堆叠设备业务的正常进行,提高网络的可靠性。
参见图2,本申请还提供了一种成员设备,该成员设备用于构成堆叠设备,包括处理器20、交换芯片30以及上述实施例中的逻辑装置10。该逻辑装置分别与处理器、交换芯片连接。
可选地,上述逻辑装置10通过逻辑访问总线和第一复位信号线与处理器20连接,通过复位通道和管理通道与交换芯片30连接。其中该逻辑访问总线可以但不限于为LocalBus(局部总线)、PCIE(peripheral component interconnect express,外部设备互连高速)总线;管理通道可以但不限于为逻辑访问总线,复位通道可以但不限于为信号线。
处理器20与交换芯片30通过数据通道连接,以实现处理器与交换芯片之间的数据通信。其中该数据通道可以但不限于包括QSGMII(Quad Serial Gigabit MediaIndependent Interface,四位串行介质媒体独立接口)或者SGMII(Serial Gigabit MediaIndependent Interface,串行介质媒体独立接口)。
另外,上述成员设备还包括堆叠口40和数据流量接口50。其中数据流量接口50用于接收外部设备的数据流量,如数据报文或者协议报文。成员设备1与成员设备2之间通过堆叠线缆连接,该堆叠线缆的两端分别连接成员设备1的堆叠口和成员设备2堆叠口。成员设备1与成员设备2通过该堆叠口实现堆叠协议及数据通信。
在可能的实施例中,该成员设备还包括存储器60,该存储器与处理器连接,用于存储设备配置信息。该处理器与存储器通过存储访问总线连接,通过该存储访问总线读取该设备配置信息。该存储访问总线可以但不限于为IIC(Inter-Integrated Circuit,集成电路总线)或者SPI(Serial Peripheral Interface,串行外设接口)总线。
为了防止设备配置信息在重启后丢失,在可能的实施例中,该存储器为非易失性存储器,例如EEPROM(Electrically Erasable Programmable read only memory,带电可擦可编程只读存储器)或者FLASH(闪存)。
在处理器运行正常时,第一控制模块控制逻辑访问总线接口与第二复位接口之间处于连通状态,处理器通过逻辑访问总线、逻辑访问总线接口、第二复位接口及复位通道,发送复位信号至交换芯片。第二控制模块控制逻辑访问总线接口与管理通道接口之间处于连通状态,处理器通过逻辑访问总线、逻辑访问总线接口、管理通道接口及管理通道,访问交换芯片。
在实现过程中逻辑装置实时检测处理器是否运行异常,本申请实施例中提供以下两种方式确定该处理器是否出现异常:
(a)逻辑装置中设置有计时器,当逻辑装置接收到处理器发送的心跳指令时,重置计时器并开始计时;当计时时长超过预设时长时,逻辑装置确定处理器运行异常。
该检测模块中预先设置有计时器,处理器可以按照预设周期或者定时发送心跳指令至检测模块。检测模块接收到该心跳指令后,重置该计时器进行计时。根据实际需求设定预设时长,当计时器的计时时长超过了该预设时长时,说明检测模块在该时间段内一直未接收到处理器发送的心跳指令,此时确定处理器出现故障,运行异常。
(b)上述处理器中设置有寄存器,寄存器用于存储异常标识,异常标识默认为第一预设值;逻辑装置每间隔预设时长,读取处理器中的寄存器中存储的异常标识。若异常标识为第一预设值,则逻辑装置将该第一预设值变更为第二预设值;处理器检测到异常标识变更为第二预设值后,处理器将第二预设值变更为第一预设值。若异常标识为第二预设值,则逻辑装置确定处理器运行异常。
其中上述逻辑装置读取异常标识的间隔的预设时长,可以根据实际需求设定,这里不做限定。第一预设值和第二预设值可以但不限于用二进制数“0”或者“1”表示,例如第一预设值表示为1,第二预设值表示为0。由此,上述处理器的寄存器中,存储的异常标识默认为1。当逻辑装置读取到该异常标识为1时,并将该异常标识由1改为0。在处理器运行正常的情况下,当检测到异常标识变更为0时,会将异常标识由0修改回至默认值1。因此,当逻辑装置间隔预设时长,再次读取寄存器中的异常标识,若该异常标识为1,则确定此时处理器运行正常;若该异常标识仍然为0,则确定此时处理器出现故障,运行异常。
需要说明的是,上述两种确定该处理器是否出现异常的方式仅是示例性的,其他任何确定该处理器是否出现异常的可行方式,均在本申请的保护范围内,具体方式不作限定。
当逻辑装置确定该处理器运行异常时,逻辑装置如上述实施例所述的方式,执行相应的操作。处理器在逻辑装置的触发下进行重启,由于逻辑装置已经将处理器对交换芯片的复位通道断开,此时处理器无法实现对交换芯片的复位操作。
在该处理器重新启动过程中,处理器从存储器读取设备配置信息,基于设备配置信息对该成员设备进行配置恢复。其中,该设备配置信息包括用于写入成员设备的多种信息,例如处理器型号、处理器系列、允许堆叠的工作模式或者其他关于交换芯片的配置信息等。在配置恢复过程中,当处理器检测到设备配置信息中包括对应于交换芯片的硬件配置信息时,忽略硬件配置信息以跳过对交换芯片的硬件配置。
例如,处理器从存储器中读取各个设备配置信息,分别判断读取到设备配置信息是否为交换芯片对应的硬件配置信息。例如可以预先对设备配置信息中包含的各个设备配置信息进行类别标注,从而在读取到该设备配置信息后通过对应的标注信息确定是否为硬件配置信息;或者是预先设置硬件信息集合,该硬件信息集合中包括所有交换芯片对应的硬件配置信息,或者是硬件配置信息对应的标识,因此在读取到设备配置信息后,将该设备配置信息或者是设备配置信息的标识与硬件信息集合中的元素进行对比,从而确定该设备配置信息是否为硬件配置信息。
如果确定读取到的设备配置信息不是交换芯片对应的硬件配置信息,则按照正常启动流程进行配置恢复;如果确定读取到的设备配置信息是交换芯片对应的硬件配置信息,则忽略该硬件配置信息,即跳过对交换芯片的硬件配置,直接读取下一个设备配置信息或者执行其他操作。这样实现了仅对交换芯片的软件部分进行配置,以防止干扰交换芯片的运行,保证交换芯片的稳定性。
该处理器可以在重启完成后,发送相应的完成通知至检测模块,以通知检测模块是否重启完成;或者是通过上述检测处理器是否出现异常的方式,若未出现异常,则确定处理器重启完成。
当逻辑装置确定处理器重启完成时,开启处理器对交换芯片的复位通道,以及处理器对交换芯片的管理通道,以使处理器对交换芯片进行管理控制。具体可参见上述逻辑装置的实施例,在此不再赘述。
当处理器恢复对交换芯片的管理控制后,处理器更改交换芯片内的转发表项,使报文经过交换芯片与处理器之间的数据通道上传至处理器。可选地,处理器通过逻辑访问总线,经由逻辑装置与交换芯片之间的管理通道访问交换芯片,将交换芯片内的转发表项(即上述实施例中描述的异常配置转发表项)变更为使报文经过交换芯片与处理器之间的数据通道上传至处理器的转发表项(即上述实施例中描述的原转发表项),从而取消了异常时逻辑装置对交换芯片的异常配置,开启了交换芯片与本地处理器之间的数据通道,使得三层转发业务对应的报文不再通过堆叠口上传至邻居处理器,而是直接上送至本地处理器进行处理,从而恢复了数据的正常传输。
为了便于理解,参见图4,本申请提供了一种成员设备的处理流程图,该处理流程图作为一种示例性的实现方式,具体如下:
步骤S401,逻辑装置确定处理器运行异常。
步骤S402,逻辑装置关断处理器对交换芯片的复位通道,并控制处理器复位以使处理器重新启动。
步骤S403,逻辑装置关断处理器对交换芯片的管理通道。
步骤S404,逻辑装置基于预先存储的异常配置信息,更改交换芯片内的转发表项,使报文经过交换芯片的堆叠口上传至与成员设备连接的邻居成员设备的处理器。
步骤S405,逻辑装置检测是否接收到处理器发送的启动完成通知。
如果是,则执行步骤S412,如果否,则重复执行步骤S405。
步骤S406,处理器复位并开启重新启动流程。
步骤S407,处理器从存储器中读取各个设备配置信息。
步骤S408,处理器分别判断读取到的设备配置信息是否对应于交换芯片的硬件配置信息。
如果是,执行步骤S409;如果否,执行步骤S410。
步骤S409,处理器忽略该硬件配置信息以跳过对交换芯片的硬件配置。
步骤S410,处理器按照正常启动流程进行配置恢复。
步骤S411,处理器在确定配置恢复完成后,发送启动完成通知至逻辑装置。
例如,当处理器读取存储器中所有的设备配置信息后,并进行相应配置后,确定配置恢复完成。
步骤S412,逻辑装置开启处理器对交换芯片的复位通道,以及处理器对交换芯片的管理通道,以使处理器对交换芯片进行管理控制。
步骤S413,处理器更改交换芯片内的转发表项,使报文经过交换芯片与处理器之间的数据通道上传至处理器。
需要说明的是,图4所示的成员设备的处理流程图的具体执行过程可以参照前述实施例中的描述,在此不再赘述。
在本实施例的方法中,由于处理器对交换芯片的复位通道和管理通道可以由逻辑装置进行的开关控制,实现对交换芯片控制权的切换,因此当处理器运行异常时,逻辑装置关断该处理器对交换芯片的复位通道和管理通道,并接管对交换芯片的控制权,控制交换芯片正常工作;同时对该交换芯片进行异常配置,使得交换芯片的转发业务可以经由邻居成员设备进行,从而实现在处理器运行异常时无需复位该交换芯片,保证堆叠设备业务的正常进行,提高网络的可靠性。另外,在处理器重启完成后,逻辑装置开启处理器对交换芯片的复位通道和管理通道,使得处理器恢复对交换芯片的控制权,处理器取消异常时逻辑装置对交换芯片的异常配置,开启交换芯片与本地处理器之间的数据通道,从而恢复了数据的正常传输,进一步提高了网络的可靠性。
综上所述,本申请实施例至少存在以下优点:
(1)逻辑装置对于交换芯片的控制权的分配:当处理器异常重启时,由逻辑装置控制交换芯片,当处理器正常启动后,由处理器管理控制芯片。
(2)处理器异常重启后配置恢复的处理:如果是关于交换芯片相关的配置则仅恢复软件配置。
(3)逻辑装置对交换芯片的异常配置,使交换芯片的数据报文可以转发到另一台正常的成员设备的处理器进行处理。
本申请实施例提供了一种堆叠设备。参见图5所示,该堆叠设备包括多个如上述实施例描述的成员设备,多个成员设备之间通过堆叠线缆连接。
本申请实施例提供的堆叠设备,与上述实施例提供的成员设备具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例所提供的进行异常处理方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的异常处理方法及成员设备的具体工作过程,可以参考前述逻辑装置实施例中的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本申请的多个实施例方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种异常处理方法,其特征在于,所述方法应用于成员设备的逻辑装置,至少两个所述成员设备构成堆叠设备,所述成员设备还包括处理器及交换芯片,所述逻辑装置分别与所述处理器、所述交换芯片连接;所述方法包括:
当确定所述处理器运行异常时,关断所述处理器对所述交换芯片的复位通道,并控制所述处理器复位以使所述处理器重新启动;
关断所述处理器对所述交换芯片的管理通道;
基于预先存储的异常配置信息,更改所述交换芯片内的转发表项,使报文经过所述交换芯片的堆叠口上传至与所述成员设备连接的邻居成员设备的处理器。
2.根据权利要求1所述的方法,其特征在于,所述确定所述处理器运行异常的步骤包括:
当接收到所述处理器发送的心跳指令时,重置计时器并开始计时;
当计时时长超过预设时长时,确定所述处理器运行异常。
3.根据权利要求1所述的方法,其特征在于,还包括:
当确定所述处理器重启完成时,开启所述处理器对所述交换芯片的复位通道,以及所述处理器对所述交换芯片的管理通道,以使所述处理器对所述交换芯片进行管理控制。
4.一种逻辑装置,其特征在于,应用于成员设备,至少两个所述成员设备构成堆叠设备,所述成员设备还包括处理器及交换芯片,所述逻辑装置分别与所述处理器、所述交换芯片连接;所述逻辑装置包括检测模块、重启模块、第一控制模块、第二控制模块及异常配置模块;
所述检测模块,用于检测所述处理器是否出现异常;
当所述检测模块确定所述处理器运行异常时:
所述重启模块,用于控制所述处理器复位以使所述处理器重新启动;
所述第一控制模块,关断所述处理器对所述交换芯片的复位通道;
所述第二控制模块,关断所述处理器对所述交换芯片的管理通道;
所述异常配置模块,基于预先存储的异常配置信息,更改所述交换芯片内的转发表项,使报文经过所述交换芯片的堆叠口上传至与所述成员设备连接的邻居成员设备的处理器。
5.根据权利要求4所述的逻辑装置,其特征在于,所述检测模块,还用于:
当接收到所述处理器发送的心跳指令时,重置计时器并开始计时;
当计时时长超过预设时长时,确定所述处理器运行异常。
6.根据权利要求4所述的逻辑装置,其特征在于,所述检测模块,还用于检测所述处理器是否重启完成;
当所述检测模块确定所述处理器重启完成时:
所述第一控制模块,还用于开启所述处理器对所述交换芯片的复位通道;
所述第二控制模块,还用于开启所述处理器对所述交换芯片的管理通道,以使所述处理器对所述交换芯片进行管理控制。
7.一种成员设备,其特征在于,包括处理器、交换芯片以及权利要求4-6中任一项所述的逻辑装置;所述逻辑装置分别与所述处理器、所述交换芯片连接。
8.根据权利要求7所述的成员设备,其特征在于,还包括存储器,所述存储器与所述处理器连接,用于存储设备配置信息;
在所述处理器重新启动过程中,所述处理器从所述存储器读取所述设备配置信息,基于所述设备配置信息对所述成员设备进行配置恢复。
9.根据权利要求8所述的成员设备,其特征在于,在配置恢复过程中,当所述处理器检测到所述设备配置信息中包括对应于所述交换芯片的硬件配置信息时,忽略所述硬件配置信息以跳过对所述交换芯片的硬件配置。
10.根据权利要求7所述的成员设备,其特征在于,所述处理器中设置有寄存器,所述寄存器用于存储异常标识,所述异常标识默认为第一预设值;
所述逻辑装置每间隔预设时长,读取所述处理器中的寄存器中存储的异常标识;
若所述异常标识为第一预设值,则所述逻辑装置将所述第一预设值变更为第二预设值;
所述处理器检测到所述异常标识变更为第二预设值后,所述处理器将所述第二预设值变更为第一预设值;
若所述异常标识为第二预设值,则所述逻辑装置确定所述处理器运行异常。
11.根据权利要求7所述的成员设备,其特征在于,所述逻辑装置中设置有计时器;
当所述逻辑装置接收到所述处理器发送的心跳指令时,重置所述计时器并开始计时;当计时时长超过预设时长时,所述逻辑装置确定所述处理器运行异常。
12.根据权利要求7所述的成员设备,其特征在于,当所述逻辑装置确定所述处理器重启完成时,开启所述处理器对所述交换芯片的复位通道,以及所述处理器对所述交换芯片的管理通道,以使所述处理器对所述交换芯片进行管理控制;
所述处理器更改所述交换芯片内的转发表项,使报文经过所述交换芯片与所述处理器之间的数据通道上传至所述处理器。
CN201811214770.0A 2018-10-18 2018-10-18 异常处理方法、逻辑装置及成员设备 Active CN109445975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811214770.0A CN109445975B (zh) 2018-10-18 2018-10-18 异常处理方法、逻辑装置及成员设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811214770.0A CN109445975B (zh) 2018-10-18 2018-10-18 异常处理方法、逻辑装置及成员设备

Publications (2)

Publication Number Publication Date
CN109445975A true CN109445975A (zh) 2019-03-08
CN109445975B CN109445975B (zh) 2022-05-10

Family

ID=65547130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811214770.0A Active CN109445975B (zh) 2018-10-18 2018-10-18 异常处理方法、逻辑装置及成员设备

Country Status (1)

Country Link
CN (1) CN109445975B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111030851A (zh) * 2019-11-29 2020-04-17 苏州浪潮智能科技有限公司 一种网络诊断恢复的管理方法、设备及可读介质
CN113010349A (zh) * 2021-02-23 2021-06-22 上海中船船舶设计技术国家工程研究中心有限公司 一种以太网交换机的软复位方法及系统
CN114201332A (zh) * 2022-02-21 2022-03-18 岚图汽车科技有限公司 一种冗余控制方法、装置、芯片及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090154342A1 (en) * 2007-12-12 2009-06-18 John Oltman Systems and methods for redundant switch fabric and switch controller
CN102045332A (zh) * 2009-10-26 2011-05-04 杭州华三通信技术有限公司 智能弹性架构中处理控制报文的方法和线卡板
CN102104531A (zh) * 2009-12-17 2011-06-22 华为技术有限公司 一种报文处理装置、方法及系统
CN102238093A (zh) * 2011-08-16 2011-11-09 杭州华三通信技术有限公司 防止业务中断的方法和装置
CN105099754A (zh) * 2015-05-29 2015-11-25 杭州华三通信技术有限公司 网络设备以及用于网络设备交互的方法
CN107547271A (zh) * 2017-08-15 2018-01-05 新华三技术有限公司 堆叠设备的恢复方法及装置
CN107943603A (zh) * 2016-10-13 2018-04-20 迈普通信技术股份有限公司 一种运行状态检测方法、检测电路及电子设备
US10031763B1 (en) * 2015-08-24 2018-07-24 Amazon Technologies, Inc. Network switch recovery after reboot

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090154342A1 (en) * 2007-12-12 2009-06-18 John Oltman Systems and methods for redundant switch fabric and switch controller
CN102045332A (zh) * 2009-10-26 2011-05-04 杭州华三通信技术有限公司 智能弹性架构中处理控制报文的方法和线卡板
CN102104531A (zh) * 2009-12-17 2011-06-22 华为技术有限公司 一种报文处理装置、方法及系统
CN102238093A (zh) * 2011-08-16 2011-11-09 杭州华三通信技术有限公司 防止业务中断的方法和装置
CN105099754A (zh) * 2015-05-29 2015-11-25 杭州华三通信技术有限公司 网络设备以及用于网络设备交互的方法
US10031763B1 (en) * 2015-08-24 2018-07-24 Amazon Technologies, Inc. Network switch recovery after reboot
CN107943603A (zh) * 2016-10-13 2018-04-20 迈普通信技术股份有限公司 一种运行状态检测方法、检测电路及电子设备
CN107547271A (zh) * 2017-08-15 2018-01-05 新华三技术有限公司 堆叠设备的恢复方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111030851A (zh) * 2019-11-29 2020-04-17 苏州浪潮智能科技有限公司 一种网络诊断恢复的管理方法、设备及可读介质
CN111030851B (zh) * 2019-11-29 2022-12-27 苏州浪潮智能科技有限公司 一种网络诊断恢复的管理方法、设备及可读介质
CN113010349A (zh) * 2021-02-23 2021-06-22 上海中船船舶设计技术国家工程研究中心有限公司 一种以太网交换机的软复位方法及系统
CN114201332A (zh) * 2022-02-21 2022-03-18 岚图汽车科技有限公司 一种冗余控制方法、装置、芯片及存储介质

Also Published As

Publication number Publication date
CN109445975B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN102946325B (zh) 一种基于软件定义网络的网络诊断方法、系统及设备
CN109445975A (zh) 异常处理方法、逻辑装置及成员设备
CN110113197A (zh) Sdn控制器配置网络设备的方法和sdn控制器
CN108228374A (zh) 一种设备的故障处理方法、装置及系统
CN106919242A (zh) 服务器系统及其管理方法及计算机可读式存储多媒体
CN104169905A (zh) 可配置和容错的基板管理控制器安排
CN104932329B (zh) 变频器控制方法及系统、变频器
CN104836853A (zh) 编排业务的方法及装置
CN107077366A (zh) 用于主与辅虚拟机之间的检查点/传递的技术
CN109274603A (zh) 异构协议数据之间基于软件定义的互连方法和装置
CN111107572A (zh) 一种冗余备份方法及装置
CN107807630A (zh) 一种主备设备的切换控制方法、其切换控制系统及装置
CN109522171A (zh) 一种故障诊断方法及系统
CN109067650B (zh) 基于srio交换网络的路由自动搜索及配置方法
CN109039799A (zh) 链路状态检测方法、装置和网络设备
CN104980293A (zh) 一种oam报文快速发送和检测处理的方法及装置
CN107785998B (zh) 一种配电系统中配电自动化设备的监控方法
CN104639358B (zh) 批量网络端口切换方法及切换系统
CN103559162B (zh) 一种定位hub组上的usb设备的方法和主机
CN113114491B (zh) 一种网络拓扑的构建方法、装置和设备
CN110046119A (zh) 多控间串口管理方法、系统及多控间串口结构和存储介质
CN104467195B (zh) 一种变电站一体化电源监控系统及方法
US20160182177A1 (en) Techniques for synchronized execution of a command at network fabric nodes
CN102809955B (zh) 用于对基金会现场总线链接装置进行写保护的方法
CN106506074B (zh) 一种检测光口状态的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230626

Address after: 310052 11th Floor, 466 Changhe Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: H3C INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 310052 Changhe Road, Binjiang District, Hangzhou, Zhejiang Province, No. 466

Patentee before: NEW H3C TECHNOLOGIES Co.,Ltd.