CN104283718B - 网络设备及用于网络设备的硬件故障诊断方法 - Google Patents

网络设备及用于网络设备的硬件故障诊断方法 Download PDF

Info

Publication number
CN104283718B
CN104283718B CN201410582694.4A CN201410582694A CN104283718B CN 104283718 B CN104283718 B CN 104283718B CN 201410582694 A CN201410582694 A CN 201410582694A CN 104283718 B CN104283718 B CN 104283718B
Authority
CN
China
Prior art keywords
plate
cpu
hardware
main board
network equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410582694.4A
Other languages
English (en)
Other versions
CN104283718A (zh
Inventor
赵志宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd
Original Assignee
New H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd filed Critical New H3C Technologies Co Ltd
Priority to CN201410582694.4A priority Critical patent/CN104283718B/zh
Publication of CN104283718A publication Critical patent/CN104283718A/zh
Application granted granted Critical
Publication of CN104283718B publication Critical patent/CN104283718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种网络设备及用于网络设备的硬件故障诊断方法。基于本发明,主板集成主控和转发功能、并具有CPU和逻辑装置,其中,主用主板中的逻辑装置实时监测网络设备中各硬件监测点的状态、并在监测到位于本板的硬件监测点的状态异常时以中断方式触发本板的CPU对硬件故障的识别,从而减少本板的CPU的占用率;并且,该逻辑装置在向本板的CPU上报中断时还会启动计时、并等待从本板的CPU接收响应,若逻辑装置由于未接收到响应而计时超时,则主用主板的逻辑装置触发本板与备用主板之间的主备切换,以在主用主板的CPU由于本板的硬件故障而发生异常时替代该CPU将网络设备的转发流量及时切换至备用主板,从而能够提高网络设备的健壮性。

Description

网络设备及用于网络设备的硬件故障诊断方法
技术领域
本发明涉及网络技术,特别涉及一种网络设备、以及一种用于网络设备的硬件故障诊断方法。
背景技术
网络设备可能出现的故障包括软件层面的业务故障和硬件层面的硬件故障,其中,对于硬件故障,需要由CPU对各硬件监测点实施监测,并且,CPU针对从硬件监测点监测到的硬件故障仅仅会产生告警,而没有相应的自动补救措施。
可见,现有技术对于网络设备的硬件故障的诊断方式会增加CPU的占用率,并且无法及时避免由于硬件故障而导致的网络设备转发能力异常。
发明内容
有鉴于此,本发明提供了一种网络设备、以及一种用于网络设备的硬件故障诊断方法。
本发明提供的一种网络设备,包括
集成主控和转发功能的主板、以及提供外部接口的接口板,其中,主板包括主用主板和备用主板,并且,主用主板具有CPU和逻辑装置;
主用主板的逻辑装置实时监测网络设备中的各硬件监测点的状态;
当监测到位于主用主板的硬件监测点的状态异常时,主用主板的逻辑装置向本板的CPU 上报第一中断并启动计时;
若主用主板的逻辑装置在计时到达之前从本板的CPU接收到表示已处理第一中断的响应,则主用主板的逻辑装置停止计时;
若主用主板的逻辑装置计时超时,则主用主板的逻辑装置触发本板与备用主板之间的主备切换。
可选地,当主用主板的CPU处理第一中断时,对本板的该硬件监测点进行诊断测试;
若诊断出本板的该硬件监测点导致网络设备的转发能力异常,则主用主板的CPU触发本板与备用主板之间的主备切换。
可选地,若诊断出本板的该硬件监测点未导致网络设备的转发能力异常,则主用主板的 CPU产生告警。
可选地,第一中断为不可屏蔽中断NMI。
可选地,当监测到位于接口板的硬件监测点的状态异常时,主用主板的逻辑装置对该硬件监测点所在的接口板进行诊断测试;
若诊断出该接口板的硬件监测点的状态异常导致网络设备的转发能力异常,则主用主板的逻辑装置向本板的CPU上报第二中断;
并且,接口板包括主用接口板和备用接口板,主用主板的CPU在识别出该硬件监测点所在的接口板为主用接口板时,根据第二中断触发接口板的主备切换。
可选地,第二中断为NMI。
可选地,主用主板的CPU在识别出该硬件监测点所在的接口板为备用接口板时,根据第二中断产生告警;以及,若诊断出该接口板的硬件监测点的状态异常未导致网络设备的转发能力异常,则主用主板的逻辑装置向本板的CPU上报第三中断,主用主板的CPU根据第三中断产生告警。
可选地,当监测到位于备用主板的硬件监测点的状态异常时,主用主板的逻辑装置向本板的CPU上报第四中断;并且,主用主板的CPU根据第四中断产生告警。
可选地,主用主板的逻辑装置对各硬件监测点实施电压检测。
可选地,主用主板的逻辑装置通过对多个AD芯片的并行采样实施电压检测、并对每个 AD芯片的多路电压数据实施轮询方式的采样;
其中,当连续轮询到任一AD芯片的任一路电压数据异常时,确定该AD芯片的该路电压数据对应的硬件监测点的状态异常。
本发明提供的一种用于网络设备的硬件故障诊断方法,该网络设备包括集成主控和转发功能的主板、以及提供外部接口的接口板,其中,主板包括主用主板和备用主板,并且,该硬件故障诊断方法在主用主板执行的如下步骤:
实时监测网络设备中的各硬件监测点的状态;
当监测到位于主用主板的硬件监测点的状态异常时,向本板的CPU上报第一中断并启动计时;
若在计时到达之前从本板的CPU接收到表示已处理第一中断的响应,则停止计时;
若计时超时,则触发本板与备用主板之间的主备切换。
可选地,当主用主板的CPU处理第一中断时,对本板的该硬件监测点进行诊断测试;
若诊断出本板的该硬件监测点导致网络设备的转发能力异常,则主用主板的CPU触发本板与备用主板之间的主备切换。
可选地,若诊断出本板的该硬件监测点未导致网络设备的转发能力异常,则主用主板的 CPU产生告警。
可选地,第一中断为不可屏蔽中断NMI。
可选地,该硬件故障诊断方法进一步包括在主用主板执行的如下步骤:
当监测到位于接口板的硬件监测点的状态异常时,对该硬件监测点所在的接口板进行诊断测试;
若诊断出该接口板的硬件监测点的状态异常导致网络设备的转发能力异常,则向本板的 CPU上报第二中断;
并且,接口板包括主用接口板和备用接口板,本板的CPU在识别出该硬件监测点所在的接口板为主用接口板时,根据第二中断触发接口板的主备切换。
可选地,第二中断为NMI。
可选地,该硬件故障诊断方法进一步包括在主用主板执行的如下步骤:
主用主板的CPU在识别出该硬件监测点所在的接口板为备用接口板时,根据第二中断产生告警;
以及,若诊断出该接口板的硬件监测点的状态异常未导致网络设备的转发能力异常,则主用主板的逻辑装置向本板的CPU上报第三中断、以触发本板的CPU根据第三中断产生告警。
可选地,该硬件故障诊断方法进一步包括在主用主板执行的如下步骤:
当监测到位于备用主板的硬件监测点的状态异常时,主用主板的逻辑装置向本板的CPU 上报第四中断、以触发本板的CPU根据第四中断产生告警。
可选地,该硬件故障诊断方法对各硬件监测点实施电压检测。
可选地,该硬件故障诊断方法通过对多个AD芯片的并行采样实施电压检测、并对每个 AD芯片的多路电压数据实施轮询方式的采样;
其中,当连续轮询到任一AD芯片的任一路电压数据异常时,确定该AD芯片的该路电压数据对应的硬件监测点的状态异常。
由此可见,基于本发明,主板集成了主控和转发功能、并具有CPU和逻辑装置,其中,主用主板中的逻辑装置实时监测网络设备中的各硬件监测点的状态、并在监测到位于本板的硬件监测点的状态异常时向本板的CPU上报第一中断,因而能够以中断方式触发本板的CPU 对硬件故障的识别,从而能够减少本板的CPU的占用率;并且,主用主板的逻辑装置在向本板的CPU上报第一中断的同时还会启动计时、并等待从本板的CPU接收表示已处理第一中断的响应,若主用主板的逻辑装置由于未接收到上述响应而计时超时,则主用主板的逻辑装置触发本板与备用主板之间的主备切换,以在主用主板的CPU由于本板的硬件故障而发生异常时替代该CPU将网络设备的转发流量及时切换至备用主板,从而能够提高网络设备的健壮性。
进一步地,主用主板的CPU在处理第一中断时可以通过对本板状态异常的硬件监测点进行诊断测试,并在该硬件监测点导致网络设备的转发能力异常的诊断结果时,触发本板与备用主板之间的主备切换、以确保网络设备的转发能力得以维持。
另外,对于状态异常的硬件监测点位于接口板的情况,主用主板的逻辑芯片可以通过对接口板的诊断探测而对接口板的硬件故障进行预分类,当该接口板的硬件监测点的状态异常属于导致网络设备的转发能力异常的故障类别时,主用主板的逻辑芯片通过向本板的CPU上报第二中断能够使本板的CPU辨别该接口板是否属于当前承担转发流量的主用接口板,若是,则可以由本板的CPU触发接口板的主备切换,以确保网络设备的转发能力得以维持。
另外,对于主用主板和主用接口板的硬件故障未导致网络设备的转发能力异常的情况,以及备用主板和备用接口板发生硬件故障的情况,都可以由主用主板的CPU通过产生告警而向网管预警。
附图说明
图1为本发明实施例中的网络设备的示例性结构示意图;
图2为如图1所示的网络设备中的转发原理示意图;
图3为如图1所示的网络设备中的逻辑装置的优选逻辑结构示意图;
图4为如图1所示的网络设备中的CPU的优选软件架构示意图;
图5为本发明实施例中用于网络设备的硬件故障诊断方法的示例性流程示意图;
图6为如图5所示的硬件故障诊断方法的优选流程实例的示意图;
图7为网络设备中的CPU配合如图6所示流程执行的处理流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
如图1所示,本实施例中的网络设备包括集成主控和转发功能的主板、以及提供外部接口的接口板,主板包括主用主板和备用主板。
请在参见图1的同时结合图2,主用主板和备用主板均具有CPU和交换芯片、以支持主控和转发功能。主用主板和备用主板形成双转发架构,即,出方向的转发流量由主用主板和备用主板向接口板冗余发送、并由接口板选择来自主用主板的转发流量发出,入方向的转发流量由接口板向主用主板和备用主板冗余发送。并且,接口板也可以包括主用接口板和备用接口板,相应地,与主用主板和备用主板之间实现上述涉及冗余发送的接口板为主用接口板,而备用接口板则为主用接口板提供冗余备份,即,主用接口板承载网络设备中用于转发流量的主用链路,备用接口板承载网络设备中用于转发流量的备用链路。
仍参见图1,在本实施例的网络设备中,主用主板还具有逻辑装置、以协同CPU实现对网络设备的硬件故障的诊断。可选地,备用主板除了具有支持主控和转发功能的CPU和交换芯片之外,也可以同样具有与主用主板相同的逻辑装置,以便于其在晋升为主用主板之后实施对硬件故障的诊断。
为了实现对硬件故障的诊断,首先需要监测到硬件故障。相应地,主用主板的逻辑装置实时监测网络设备中的各硬件监测点的状态。
其中,所述的硬件监测点是指硬件电路或硬件元器件的状态采集点,所述的硬件监测点可以根据需要而分布在主用主板、备用主板、以及接口板中的任意硬件电路或硬件元器件。而且,各硬件监测点的状态可以是例如电压、电流、时钟、或功率等能够反映硬件状态的参数。
例如,主用主板、备用主板、以及接口板中作为硬件监测点的硬件电路或硬件元器件都会汇聚至本板的AD(数字模拟转换)芯片,相应地,主用主板的逻辑装置通过对分布在主用主板、备用主板、以及接口板的多个AD芯片的并行采样,实施对各硬件监测点的电压监测,其中,对于一个AD芯片汇聚有多个硬件监测点的电压数据的情况,主用主板的逻辑装置可以对该AD芯片的多路电压数据实施轮询方式的采样。进而,为了避免将电压瞬时波动误识别为硬件监测点的电压状态异常,可以在连续多次轮询到任一AD芯片的任一路电压数据异常时,再确定该AD芯片的该路电压数据对应的硬件监测点的状态异常。
其中,对于判断状态异常的标准,可以由主用主板的CPU在本板初始化时向本板的逻辑装置下发相应状态的门限值,以供主用主板的逻辑装置能够根据该门限值量化地判断硬件监测点的状态是否发生异常。
在如图1所示的网络设备中,当主用主板的逻辑装置监测到位于主用主板的硬件监测点的状态异常时,主用主板的逻辑装置向本板的CPU上报第一中断并启动计时。其中,主用主板的CPU通过处理第一中断能够识别出本板的硬件监测点的状态异常,并可选地进行相应的诊断处理,并且,主用主板的CPU在开始处理第一中断时,可以立即向本板的逻辑装置返回一响应,以表示该CPU已处理第一中断。
相应地,若主用主板的逻辑装置在计时到达之前从本板的CPU接收到表示其已处理第一中断的响应,则主用主板的逻辑装置可以判断出本板的CPU并未由于本板的硬件故障而发生异常,因而对计时清零、并停止计时;
但若主用主板的逻辑装置计时超时,即,未从本板的CPU接收到表示其已处理第一中断的响应,则主用主板的逻辑装置确定本板的CPU由于本板的硬件故障而发生异常,因而替代 CPU触发本板与备用主板之间的主备切换。
如上可见,由于主用主板中的逻辑装置能够实时监测网络设备中的各硬件监测点的状态、并在监测到位于本板的硬件监测点的状态异常时向本板的CPU上报第一中断,因而能够以中断方式触发本板的CPU对硬件故障的识别,从而能够减少本板的CPU的占用率;
而且,主用主板的逻辑装置在向本板的CPU上报第一中断的同时还会启动计时、并等待从本板的CPU接收表示已处理第一中断的响应,若主用主板的逻辑装置由于未接收到上述响应而计时超时,则主用主板的逻辑装置能够触发本板与备用主板之间的主备切换,以在主用主板的CPU由于本板的硬件故障而发生异常时替代该CPU将网络设备的转发流量及时切换至备用主板,从而能够提高网络设备的健壮性。
其中,为了避免CPU由于繁忙而延误对第一中断的处理、并由此导致逻辑装置发生误超时,第一中断可以选用NMI(Non Maskable Interrupt,不可屏蔽中断)NMI。
而且,主用主板的CPU在处理第一中断时,除了能够识别出本板的硬件监测点的状态异常之外,还可以进一步对本板发生状态异常的硬件监测点进行诊断测试,以判断本板发生状态异常的硬件监测点是否会导致网络设备的转发能力异常。
例如,假设主用主板的状态异常的硬件监测点位于主用主板的主用链路端口,即,主用主板连接主用接口板的端口,则主用主板的CPU可以通过检测主用链路的物理通道的丢包率来实现诊断测试;其中,若物理通道丢包率高于预定的阈值,即,主用链路在主用主板产生失效点,则判断本板的该硬件监测点的状态异常会导致网络设备的流量转发的失效,属于网络设备的转发能力异常。
再例如,假设主用主板的状态异常的硬件监测点位于主用主板的备用链路端口,即,主用主板连接备用接口板的端口,则主用主板的CPU可以通过链路环回测试实现诊断测试;其中,若链路换回测试失败,即,备用链路在主用主板产生了失效点,则判断本板的该硬件监测点的状态异常导致网络设备的流量转发的可靠性降低,属于网络设备的转发能力异常。
对于其他可能发生状态异常的硬件监测点,也可以按照合适的相应方式实施诊断测试,本文不再一一列举。
如果主用主板的CPU诊断出本板的状态异常的硬件监测点导致网络设备的转发能力异常,则主用主板的CPU确定本板不再适合承担网络设备的流量转发,因而触发本板与备用主板之间的主备切换,以将本板的转发流量切换至备用主板。
如果主用主板的CPU诊断出本板的状态异常的硬件监测点未导致网络设备的转发能力异常,则主用主板的CPU确定本板仍有能力承担网络设备的流量转发、但存在可能的风险,因而向网管产生告警,以实施对网络设备转发能力异常的预警通告。
除了位于主用主板的硬件监测点的状态异常的情况,主用主板的逻辑装置和CPU同样能够协同诊断接口板和备用主板的硬件故障。
在如图1所示的网络设备中,当主用主板的逻辑装置监测到位于接口板的硬件监测点的状态异常时,主用主板的逻辑装置并不立即向本板的CPU上报中断,而是先对该硬件监测点所在的接口板进行诊断测试,以替代本板的CPU预判断接口板的硬件故障是否会导致网络设备的转发能力异常。
例如,主用主板的逻辑装置与设置于接口板的逻辑装置进行数据交互,以触发接口板的逻辑装置在接口板进行本板监测;若通过数据交互获知接口板的检测结果为异常,则诊断该硬件监测点所在的接口板导致网络设备的转发能力异常;若通过数据交互获知接口板的检测结果为正常,则诊断该硬件监测点所在的接口板未导致网络设备的转发能力异常。其中,对于在接口板实现的检测,可以根据接口板的实际元器件类型和布局而采取合适的措施,本文不再一一列举。
如果主用主板的逻辑装置诊断出该接口板的硬件监测点的状态异常导致网络设备的转发能力异常,则主用主板的逻辑装置向本板的CPU上报第二中断;相应地,主用主板的CPU 通过处理第二中断能够识别出有接口板的硬件监测点的状态发生异常,但主用主板的CPU需要根据该硬件监测点所在的接口板是否为主用链路所在的主用接口板来决定所要采取的补救措施,即,判断导致网络设备转发能力异常的接口板是否为主用接口板。
当主用主板的CPU识别出该硬件监测点所在的接口板为主用接口板时,根据第二中断触发接口板的主备切换,即,将转发流量从导致网络设备转发能力异常的主用接口板切换到备用接口板。其中,为了能够针对接口板所导致的网络设备转发能力异常而及时执行切换,第二中断也可以选用NMI。
而当主用主板的CPU识别出该硬件监测点所在的接口板为备用接口板时,根据第二中断产生告警,即,针对失效的备用接口板进行预警通告。
如果主用主板的逻辑装置诊断出该接口板的硬件监测点的状态异常未导致网络设备的转发能力异常,则主用主板的逻辑装置向本板的CPU上报第三中断;相应地,主用主板的CPU 通过处理第三中断能够识别出位于接口板的硬件监测点的状态发生异常、但并未导致网络设备的转发能力异常,因而主用主板的CPU可以不触发切换,而是根据第三中断产生告警,以提示当前承担流量转发的主用链路存在失效的风险。
在如图1所示的网络设备中,当主用主板的逻辑装置监测到位于备用主板的硬件监测点的状态异常时,主用主板的逻辑装置向本板的CPU上报第四中断。相应地,主用主板的CPU 通过处理第四中断能够识别出备用主板的硬件监测点的状态发生异常,由于备用主板的硬件故障并不会妨碍网络设备的当前转发,因而主用主板的CPU可以不触发切换,而是根据第四中断产生告警,以提示当前承担流量转发的备用链路失效。
如图3所示,上述的逻辑装置可以包括:
状态采样器,其通过例如AD芯片等器件连接网络设备中的各硬件监测点,并对网络设备中的各硬件监测点的状态进行采样;
寄存器接口,其通过逻辑访问总线连接本板的CPU,用于接收本板的CPU写入的状态门限值;
状态监测器,根据状态门限值监测状态采样器得到的各硬件监测点的状态是否异常;
主板故障预判器,当状态监测器监测到位于主板的硬件监测点的状态异常时,判断硬件监测点发生状态异常的主板是否为主用主板;若位于主用主板的硬件监测点的状态异常,则触发第一中断发生器和定时器;
第一中断发生器,其连接本板(即主用主板)的CPU的中断管脚,并在被主板故障预判器触发时向本板的CPU产生第一中断;
寄存器接口还用于接收本板的CPU写入的表示已处理第一中断的响应;
定时器,在被触发时开始计时,在寄存器接口写入响应后对计时清零并停止计时,以及,在计时超时后触发主板复位电路;
主板复位电路,其连接本板的CPU的复位管脚,在被触发后将本板CPU的复位管脚置为有效,以触发本板与备用主板之间的主备切换。
仍参见图3,上述的逻辑装置还可以包括:
接口板故障预判器,当状态监测器监测到位于接口板的硬件监测点的状态异常时,触发接口板测试电路;
接口板测试电路,其通过板间互连总线连接接口板,在被触发时对状态异常的硬件监测点所在的接口板进行诊断测试,并将对该接口板的诊断测试结果返回给接口板故障预判器;
相应地,接口板故障预判器根据接口板测试电路返回的诊断测试结果,判断该接口板的状态异常的故障监测点是否导致网络设备的转发能力异常,若是,则触发第二中断发生器,否则触发第三中断发生器;
第二中断发生器和第三中断发生器均连接本板的CPU的中断管脚,并分别在被接口板故障预判器触发后向本板的CPU产生第二和第三中断。
另外,图3中示出的主板故障预判器还可以在判断出位于备用主板的硬件监测点的状态异常时,触发第四中断发生器。并且,第一中断发生器连接本板的CPU的中断管脚,并在被主板故障预判器触发时向本板的CPU产生第四中断。
如图4所示,对应于逻辑装置,主用主板的CPU中运行软件架构可以包括:
初始化模块,在本板初始化时向本板的逻辑装置下发待监测状态的门限值;
第一中断处理模块,通过处理第一中断向本板的逻辑装置返回响应,以表示CPU已处理第一中断;并且,通过处理第一中断触发本板诊断测试模块;
本板诊断测试模块,对本板状态异常的硬件监测点进行例如丢包率分析或环回测试等方式的诊断测试,若根据诊断测试的结果判断出本板状态异常的硬件监测点导致网络设备的转发能力异常,则触发主板主备倒换模块,否则触发告警通告模块;
主板主备倒换模块,触发本板与备用主板之间的主备倒换;
告警通告模块,产生告警通告。
仍参见图4,主用主板的CPU所运行的软件架构中还可以包括:
第二中断处理模块,通过处理第二中断,判断导致网络设备转发能力异常的硬件监测点所在的接口板是否为主用接口板,若是,则触发接口板主备倒换模块,否则触发上述的告警通告模块;
接口板主备倒换模块,触发主用接口板与备用接口板之间的主备倒换;
第三中断处理模块和第四中断处理模块,分别通过处理第三中断和第四中断触发告警通告模块。
以上是对本实施例中的网络设备的详细说明。除了上述的网络设备之外,本实施例还提供一种用于该网络设备的硬件故障诊断方法。
如图5所示,该硬件故障诊断方法包括在网络设备的主用主板执行的如下步骤:
步骤501,实时监测网络设备中的各硬件监测点的状态;其中,对于本步骤所实现的对各硬件监测点状态的方式,可以参照前文网络设备部分的描述,此处不再赘述;
步骤502,当监测到位于主用主板的硬件监测点的状态异常时,向本板的CPU上报第一中断并启动计时;
步骤503,判断在计时到达之前是否从本板的CPU接收到表示已处理第一中断的响应;
步骤504,若在计时到达之前从本板的CPU接收到表示已处理第一中断的响应,则停止计时;
步骤505,若计时超时,则触发本板与备用主板之间的主备切换。
基于上述流程,该硬件故障诊断方法能够替代主用主板的CPU实时监测网络设备中的各硬件监测点的状态、并在监测到位于本板的硬件监测点的状态异常时向本板的CPU上报第一中断,因而能够以中断方式触发本板的CPU对硬件故障的识别,从而能够减少本板的CPU 的占用率;
而且,该硬件故障诊断方法在向本板的CPU上报第一中断的同时还会启动计时、并等待从本板的CPU接收表示已处理第一中断的响应,若由于未接收到上述响应而计时超时,则触发本板与备用主板之间的主备切换,以在主用主板的CPU由于本板的硬件故障而发生异常时替代该CPU将网络设备的转发流量及时切换至备用主板,从而能够提高网络设备的健壮性。
另外,为了针对主用主板的硬件监测点发生的状态异常采取相应的补救措施,主用主板的CPU在处理第一中断时可以对本板的该硬件监测点进行诊断测试,其中,此处所述的对主用主板的诊断测试的方式,可以参照前文网络设备部分的描述;若诊断出本板的该硬件监测点导致网络设备的转发能力异常,则主用主板的CPU触发本板与备用主板之间的主备切换,否则,只需产生告警即可。
对于接口板的硬件监测点状态异常的情况,本实施例中的硬件故障诊断方法可以进一步包括在主用主板执行的如下步骤:
当监测到位于接口板的硬件监测点的状态异常时,对该硬件监测点所在的接口板进行诊断测试;其中,此处所述的对接口板的诊断测试,可以参照前文网络设备部分的描述;
若诊断出该接口板的硬件监测点的状态异常导致网络设备的转发能力异常,则向本板的 CPU上报第二中断;相应地,本板的CPU在识别出该硬件监测点所在的接口板为主用接口板时,根据第二中断触发接口板的主备切换,但在识别出该硬件监测点所在的接口板为备用接口板时,只需根据第二中断产生告警即可;
若诊断出该接口板的硬件监测点的状态异常未导致网络设备的转发能力异常,则主用主板的逻辑装置向本板的CPU上报第三中断、以触发本板的CPU根据第三中断产生告警。
对于备用主板的硬件监测点状态异常的情况,本实施例中的硬件故障诊断方法还可以进一步包括在主用主板执行的如下步骤:
当监测到位于备用主板的硬件监测点的状态异常时,主用主板的逻辑装置向本板的CPU 上报第四中断、以触发本板的CPU根据第四中断产生告警。
如图6所示,对于兼顾到主用主板、接口板、以及备用主板的硬件监测点发生状态异常的情况,本实施例中的硬件故障诊断方法可以优选地采用如下流程予以优化:
步骤601,实时监测网络设备中的各硬件监测点的状态;其中,对于本步骤所实现的对各硬件监测点状态的方式,可以参照前文网络设备部分的描述,此处不再赘述;
步骤602,当监测到有状态异常的硬件监测点时,判断该硬件监测点的位置;
步骤611,当状态异常的硬件监测点位于主用主板时,向本板的CPU上报第一中断并启动计时;其中,第一中断为NMI;
步骤612,判断在计时到达之前是否从本板的CPU接收到表示已处理第一中断的响应;
步骤613,若在计时到达之前从本板的CPU接收到表示已处理第一中断的响应,则停止计时;
步骤614,若计时超时,则触发本板与备用主板之间的主备切换;
步骤621,当状态异常的硬件监测点位于接口板时,对该硬件监测点所在的接口板进行诊断测试;
步骤622,若通过对接口板的诊断测试判断出该接口板的状态异常的硬件监测点导致网络设备的转发能力异常,则向本板的CPU上报第二中断;其中,第二中断为NMI;
步骤623,若通过对接口板的诊断测试判断出该接口板的状态异常的硬件监测点未导致网络设备的转发能力异常,则向本板的CPU上报第三中断;
步骤630,当监测到位于备用主板的硬件监测点的状态异常时,向本板的CPU上报第四中断。
如图7所示,对应于如图6所示的流程,主用主板的CPU中可以对应地执行如下步骤:
步骤701,实时监测是否存在NMI;
步骤702,当存在NMI时,识别该NMI为第一中断还是第二中断;
步骤711,若为表示状态异常的硬件监测点位于本板的第一中断,则对本板的对应硬件监测点进行诊断测试;
步骤712,若通过诊断测试判断出本板的对应硬件监测点导致网络设备的转发能力异常,则触发本板与备用主板的主备切换,然后返回步骤701继续监测NMI;
另外,若通过诊断测试判断出本板的对应硬件监测点未导致网络设备的转发能力异常,则通过执行步骤704产生告警通告,然后返回步骤701继续监测NMI;
步骤721,若为表示状态异常的硬件监测点位于接口板的第二中断,则识别对应的硬件监测点所在的接口板是否为主用接口板;
步骤722,若对应的硬件监测点所在的接口板为主用接口板,则触发该主用接口板与备用接口板之间的主备切换,然后返回步骤701继续监测NMI;
另外,若对应的硬件监测点所在的接口板为被用接口板,则通过执行步骤704产生告警通告,然后返回步骤701继续监测NMI;
步骤703,当不存在上报的NMI时,判断是否存在普通中断,即,是否存在第三或第四中断,若存在第三或第四中断,则通过执行步骤704产生告警通告。
另外,若未存在普通中断,则可以返回步骤701继续监测NMI。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种网络设备,其特征在于,包括集成主控和转发功能的主板、以及提供外部接口的接口板,其中,主板包括主用主板和备用主板,并且,主用主板具有CPU和逻辑装置;
主用主板的逻辑装置实时监测网络设备中的各硬件监测点的状态;
当监测到位于主用主板的硬件监测点的状态异常时,主用主板的逻辑装置向本板的CPU上报用于触发本板的CPU识别本板的硬件监测点的状态异常的第一中断并启动计时;
若主用主板的逻辑装置在计时到达之前从本板的CPU接收到表示已处理第一中断的响应,则主用主板的逻辑装置停止计时;
若主用主板的逻辑装置计时超时,则主用主板的逻辑装置触发本板与备用主板之间的主备切换。
2.根据权利要求1所述的网络设备,其特征在于,当主用主板的CPU处理第一中断时,对本板的该硬件监测点进行诊断测试;
若诊断出本板的该硬件监测点导致网络设备的转发能力异常,则主用主板的CPU触发本板与备用主板之间的主备切换。
3.根据权利要求2所述的网络设备,其特征在于,若诊断出本板的该硬件监测点未导致网络设备的转发能力异常,则主用主板的CPU产生告警。
4.根据权利要求1所述的网络设备,其特征在于,第一中断为不可屏蔽中断NMI。
5.根据权利要求1所述的网络设备,其特征在于,当监测到位于接口板的硬件监测点的状态异常时,主用主板的逻辑装置对该硬件监测点所在的接口板进行诊断测试;
若诊断出该接口板的硬件监测点的状态异常导致网络设备的转发能力异常,则主用主板的逻辑装置向本板的CPU上报第二中断;
并且,接口板包括主用接口板和备用接口板,主用主板的CPU在识别出该硬件监测点所在的接口板为主用接口板时,根据第二中断触发接口板的主备切换。
6.根据权利要求5所述的网络设备,其特征在于,第二中断为NMI。
7.根据权利要求5所述的网络设备,其特征在于,主用主板的CPU在识别出该硬件监测点所在的接口板为备用接口板时,根据第二中断产生告警;以及,若诊断出该接口板的硬件监测点的状态异常未导致网络设备的转发能力异常,则主用主板的逻辑装置向本板的CPU上报第三中断,主用主板的CPU根据第三中断产生告警。
8.根据权利要求1所述的网络设备,其特征在于,
当监测到位于备用主板的硬件监测点的状态异常时,主用主板的逻辑装置向本板的CPU上报第四中断;并且,主用主板的CPU根据第四中断产生告警。
9.根据权利要求1所述的网络设备,其特征在于,主用主板的逻辑装置对各硬件监测点实施电压检测,并且,主用主板的逻辑装置通过对多个AD芯片的并行采样实施电压检测、并对每个AD芯片的多路电压数据实施轮询方式的采样;其中,当连续轮询到任一AD芯片的任一路电压数据异常时,确定该AD芯片的该路电压数据对应的硬件监测点的状态异常。
10.一种用于网络设备的硬件故障诊断方法,其特征在于,该网络设备包括集成主控和转发功能的主板、以及提供外部接口的接口板,其中,主板包括主用主板和备用主板,并且,该硬件故障诊断方法包括 在主用主板执行的如下步骤:
实时监测网络设备中的各硬件监测点的状态;
当监测到位于主用主板的硬件监测点的状态异常时,向本板的CPU上报用于触发本板的CPU识别本板的硬件监测点的状态异常的第一中断并启动计时;
若在计时到达之前从本板的CPU接收到表示已处理第一中断的响应,则停止计时;
若计时超时,则触发本板与备用主板之间的主备切换。
11.根据权利要求10所述的硬件故障诊断方法,其特征在于,当主用主板的CPU处理第一中断时,对本板的该硬件监测点进行诊断测试;
若诊断出本板的该硬件监测点导致网络设备的转发能力异常,则主用主板的CPU触发本板与备用主板之间的主备切换。
12.根据权利要求11所述的硬件故障诊断方法,其特征在于,若诊断出本板的该硬件监测点未导致网络设备的转发能力异常,则主用主板的CPU产生告警。
13.根据权利要求10所述的硬件故障诊断方法,其特征在于,第一中断为不可屏蔽中断NMI。
14.根据权利要求10所述的硬件故障诊断方法,其特征在于,该硬件故障诊断方法进一步包括在主用主板执行的如下步骤:
当监测到位于接口板的硬件监测点的状态异常时,对该硬件监测点所在的接口板进行诊断测试;
若诊断出该接口板的硬件监测点的状态异常导致网络设备的转发能力异常,则向本板的CPU上报第二中断;
并且,接口板包括主用接口板和备用接口板,本板的CPU在识别出该硬件监测点所在的接口板为主用接口板时,根据第二中断触发接口板的主备切换。
15.根据权利要求14所述的硬件故障诊断方法,其特征在于,第二中断为NMI。
16.根据权利要求14所述的硬件故障诊断方法,其特征在于,该硬件故障诊断方法进一步包括在主用主板执行的如下步骤:
主用主板的CPU在识别出该硬件监测点所在的接口板为备用接口板时,根据第二中断产生告警;
以及,若诊断出该接口板的硬件监测点的状态异常未导致网络设备的转发能力异常,则主用主板的逻辑装置向本板的CPU上报第三中断、以触发本板的CPU根据第三中断产生告警。
17.根据权利要求10所述的硬件故障诊断方法,其特征在于,该硬件故障诊断方法进一步包括在主用主板执行的如下步骤:
当监测到位于备用主板的硬件监测点的状态异常时,主用主板的逻辑装置向本板的CPU上报第四中断、以触发本板的CPU根据第四中断产生告警。
18.根据权利要求10所述的硬件故障诊断方法,其特征在于,该硬件故障诊断方法对各硬件监测点实施电压检测,并且,该硬件故障诊断方法通过对多个AD芯片的并行采样实施电压检测、并对每个AD芯片的多路电压数据实施轮询方式的采样;其中,当连续轮询到任一AD芯片的任一路电压数据异常时,确定该AD芯片的该路电压数据对应的硬件监测点的状态异常。
CN201410582694.4A 2014-10-27 2014-10-27 网络设备及用于网络设备的硬件故障诊断方法 Active CN104283718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410582694.4A CN104283718B (zh) 2014-10-27 2014-10-27 网络设备及用于网络设备的硬件故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410582694.4A CN104283718B (zh) 2014-10-27 2014-10-27 网络设备及用于网络设备的硬件故障诊断方法

Publications (2)

Publication Number Publication Date
CN104283718A CN104283718A (zh) 2015-01-14
CN104283718B true CN104283718B (zh) 2018-01-12

Family

ID=52258226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410582694.4A Active CN104283718B (zh) 2014-10-27 2014-10-27 网络设备及用于网络设备的硬件故障诊断方法

Country Status (1)

Country Link
CN (1) CN104283718B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105099754B (zh) * 2015-05-29 2018-05-11 新华三技术有限公司 网络设备以及用于网络设备交互的方法
CN106487721B (zh) * 2015-08-25 2019-10-08 新华三技术有限公司 网络设备和用于网络设备中的报文转发方法
CN108989135B (zh) * 2018-09-29 2021-12-07 新华三技术有限公司合肥分公司 网络设备故障检测方法及装置
CN109347685B (zh) * 2018-11-21 2021-01-26 新华三技术有限公司 一种网络设备、逻辑装置及通知信息传输方法
CN109257185B (zh) * 2018-11-21 2021-01-26 新华三技术有限公司 一种网络设备、业务卡、逻辑装置及通知信息传输方法
CN110691454A (zh) * 2019-09-10 2020-01-14 四川创宏电气有限公司 一种消防灯具轮询方法及应急灯具控制系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115033A (zh) * 2007-09-04 2008-01-30 武汉市中光通信公司 会话初始协议网关主备倒换系统及其方法
CN101136729A (zh) * 2007-09-20 2008-03-05 华为技术有限公司 一种实现高可用性的方法、系统和装置
CN101483540A (zh) * 2008-01-11 2009-07-15 上海博达数据通信有限公司 一种高端数据通信设备中的主备倒换方法
CN102143002A (zh) * 2011-04-07 2011-08-03 中兴通讯股份有限公司 一种单板备份方法及系统
CN102195845A (zh) * 2010-03-03 2011-09-21 杭州华三通信技术有限公司 一种实现主控板主备切换的方法、装置和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025552B (zh) * 2011-01-12 2013-06-05 杭州华三通信技术有限公司 链路状态通告的备份方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115033A (zh) * 2007-09-04 2008-01-30 武汉市中光通信公司 会话初始协议网关主备倒换系统及其方法
CN101136729A (zh) * 2007-09-20 2008-03-05 华为技术有限公司 一种实现高可用性的方法、系统和装置
CN101483540A (zh) * 2008-01-11 2009-07-15 上海博达数据通信有限公司 一种高端数据通信设备中的主备倒换方法
CN102195845A (zh) * 2010-03-03 2011-09-21 杭州华三通信技术有限公司 一种实现主控板主备切换的方法、装置和设备
CN102143002A (zh) * 2011-04-07 2011-08-03 中兴通讯股份有限公司 一种单板备份方法及系统

Also Published As

Publication number Publication date
CN104283718A (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
CN104283718B (zh) 网络设备及用于网络设备的硬件故障诊断方法
CN102111310B (zh) Cdn设备状态监控方法
CN102571498B (zh) 故障注入控制方法和装置
CN110336715B (zh) 状态检测方法、主节点和集群管理系统
CN104076808B (zh) 工控设备的故障诊断系统和方法
CN104104542A (zh) 一种基于rs485的实时智能排障方法
CN102255768A (zh) 一种检测端口的方法和设备
CN103188113A (zh) 一种通信设备的故障处理方法
US6584432B1 (en) Remote diagnosis of data processing units
CN104515945B (zh) 隐藏故障检测电路及利用隐藏故障检测电路检测隐藏故障的方法
CN109802371A (zh) 一种用于继电保护健康管理的集成系统及方法
JP3011925B1 (ja) ネットワーク監視支援装置
CN101964731B (zh) 一种数据链路监测方法及装置
CN207992997U (zh) I2c总线系统
CN112383462B (zh) 一种网络设备以及总线配置方法
TW201835763A (zh) 測試控制器、匯流排系統及測試方法
JP2010245589A (ja) 通信システム、通信装置、被疑箇所の特定方法及びプログラム
EP3555871B1 (en) Fire-prevention control unit
CN109284218A (zh) 一种检测服务器运行故障的方法及其装置
CN218273166U (zh) 控制器复位装置及作业机械
EP0962862B1 (en) Apparatus and method for remote diagnostic of data processing units
CN220455472U (zh) 一种开关检测装置和机器人
CN112929120B (zh) 一种用于时间同步的方法、设备和计算机可读存储介质
JP2003298587A (ja) ネットワーク監視装置
CN117033050A (zh) 状态信息的发送方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No.

Applicant after: Xinhua three Technology Co., Ltd.

Address before: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No.

Applicant before: Huasan Communication Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant