CN107040391A - 一种故障检测方法及转发设备 - Google Patents

一种故障检测方法及转发设备 Download PDF

Info

Publication number
CN107040391A
CN107040391A CN201510451116.1A CN201510451116A CN107040391A CN 107040391 A CN107040391 A CN 107040391A CN 201510451116 A CN201510451116 A CN 201510451116A CN 107040391 A CN107040391 A CN 107040391A
Authority
CN
China
Prior art keywords
state
threshold value
class failure
failure
firmware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510451116.1A
Other languages
English (en)
Other versions
CN107040391B (zh
Inventor
唐湜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
XFusion Digital Technologies Co Ltd
Original Assignee
Beijing Huawei Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huawei Digital Technologies Co Ltd filed Critical Beijing Huawei Digital Technologies Co Ltd
Priority to CN201510451116.1A priority Critical patent/CN107040391B/zh
Publication of CN107040391A publication Critical patent/CN107040391A/zh
Application granted granted Critical
Publication of CN107040391B publication Critical patent/CN107040391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供一种故障检测方法及转发设备,涉及通信技术领域,能够解决现有技术中的检测机制对于少量故障被检测到而终端业务可能会出现大范围故障时无法及时进行修复动作的问题。具体方案为:转发设备检测自身的固件类故障和辅助类故障,根据固件类故障及预设门限策略确定第一状态,根据辅助类故障及预设门限策略确定第二状态,当第一状态为第一疾病状态且第二状态为第二疾病状态时,根据预设修复策略进行修复动作,第一疾病状态为单位时间内固件类故障的数量大于或者等于第一门限值时对应的第一状态,第二疾病状态为单位时间内辅助类故障的数量大于或者等于第二门限值时对应的第二状态。本发明实施例用于故障检测。

Description

一种故障检测方法及转发设备
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种故障检测方法及转发设备。
背景技术
转发设备例如路由器、二层/三层交换机等,以及转发设备之间的物理链路构建的网络,用以提供在终端及服务器之间进行报文转发的功能。转发设备自身通常有故障检测机制用以检测转发设备自身及所在网络的故障。
转发设备自身的故障检测机制可以包括固件类检测机制和辅助类检测机制。固件类检测机制用以检测转发设备自身的固件类故障,例如固件类故障可以包括固件出现的多比特错误检查和纠正(Error CorrectingCode,ECC)错误、奇偶校验错误等。辅助类检测机制用以检测辅助类故障,辅助类故障可以包括转发设备与自身或者与其它网络设备交互的报文出现的丢包类或改包类故障,例如,转发设备与自身或与其它网络设备交互的心跳报文出现的故障,转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障等。
由于转发设备不能直接感知到终端业务的用户业务数据报文的交互情况,所以转发设备检测到的故障情况不能直接指示终端业务的故障情况。例如,转发设备检测到的少量固件类故障有很大可能不会影响终端的业务,所以不能直接对当前转发设备进行修复动作;当检测到大量固件类故障且已达到预设门限值时,表明当前转发设备的固件故障已相当严重,终端出现大范围故障的概率很大,需要进行修复动作。再如,通过辅助类检测机制检测到的少量故障会一定程度上影响终端的业务,但由于通常不能确定该故障是由网络中的哪个网络设备引起的,因而也不能直接对当前转发设备进行修复动作,否则可能是误操作,从而影响终端业务的正常进行;当检测到大量辅助类故障且已达到预设门限值时,表明网络中的故障已相当严重,终端出现大范围故障的概率很大,需要对当前转发设备进行修复动作。其中的修复动作可以包括告警动作或复位动作等。
由于上述故障检测机制在出现的故障达不到预设门限值时无法进行修复动作,因而,对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作。
发明内容
本发明实施例提供一种故障检测方法及转发设备,能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种故障检测方法,包括:
检测转发设备的固件类故障和辅助类故障,所述固件类故障包括所述转发设备的固件故障,所述辅助类故障包括所述转发设备与自身或者与其它网络设备交互的报文出现的故障;
根据所述固件类故障及预设门限策略确定第一状态;
根据所述辅助类故障及预设门限策略确定第二状态;
当所述第一状态为第一疾病状态且所述第二状态为第二疾病状态时,根据预设修复策略进行修复动作,所述第一疾病状态为单位时间内所述固件类故障的数量大于或者等于第一门限值时对应的所述第一状态,所述第二疾病状态为单位时间内所述辅助类故障的数量大于或者等于第二门限值时对应的所述第二状态。
结合第一方面,在第一方面的第一种可能的实现方式中,所述第一疾病状态包括第一轻疾状态和第一重疾状态,所述第一重疾状态对应的故障程度高于所述第一轻疾状态对应的故障程度;所述第二疾病状态包括第二轻疾状态和第二重疾状态,所述第二重疾状态对应的故障程度高于所述第二轻疾状态对应的故障程度;所述修复动作包括告警动作或复位动作;所述根据预设修复策略进行修复动作包括:
当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;
当所述第一状态为所述第一重疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;
当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二重疾状态时,进行复位动作;
当所述第一状态为所述第一重疾状态且所述第二状态为所述第二重疾状态时,进行复位动作。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述辅助类故障包括所述转发设备与自身或与其它网络设备交互的心跳报文出现的故障,以及所述转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障。
结合第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述第一状态还包括第一健康状态,所述第一健康状态对应的故障程度低于所述第一疾病状态对应的故障程度;
在所述第一状态为所述第一健康状态后,若单位时间内所述固件类故障的数量小于所述第一门限值,则所述第一状态为所述第一健康状态;或者,若单位时间内所述固件类故障的数量大于或者等于所述第一门限值且小于第三门限值,则所述第一状态为所述第一轻疾状态,所述第三门限值大于所述第一门限值;或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;
在所述第一状态为所述第一轻疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第一预设时间阈值,则所述第一状态为所述第一健康状态;否则,若单位时间内所述固件类故障的数量小于所述第三门限值,则所述第一状态为所述第一轻疾状态,或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;
在所述第一状态为所述第一重疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第三预设时间阈值,则所述第一状态为所述第一健康状态;否则,所述第一状态为所述第一重疾状态;
其中,所述第三预设时间阈值大于所述第一预设时间阈值。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述第一门限值为单位时间内所述固件类故障的数量为1,所述第三门限值为第五门限值的一半,所述第五门限值为所述第二状态为非所述第二疾病状态时根据所述固件类故障进行告警动作的门限值。
结合第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第一方面的第五种可能的实现方式中,所述第二状态还包括第二健康状态,所述第二健康状态对应的故障程度低于所述第二疾病状态对应的故障程度;
在所述第二状态为所述第二健康状态后,若单位时间内所述辅助类故障的数量小于所述第二门限值,则所述第二状态为所述第二健康状态;或者,若单位时间内所述辅助类故障的数量大于或者等于所述第二门限值且小于第四门限值,则所述第二状态为所述第二轻疾状态,所述第四门限值大于所述第二门限值;或者,若单位时间内所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;
在所述第二状态为所述第二轻疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第二预设时间阈值,则所述第二状态为所述第二健康状态;否则,若单位时间内所述辅助类故障的数量小于所述第四门限值,则所述第二状态为所述第二轻疾状态,或者,若所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;
在所述第二状态为所述第二重疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第四预设时间阈值,则所述第二状态为所述第二健康状态;否则,所述第二状态为所述第二重疾状态;
其中,所述第四预设时间阈值大于所述第二预设时间阈值。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述辅助类故障包括丢包类故障和改包类故障,若所述辅助类故障为所述丢包类故障,则所述第二门限值为第六门限值的一半,若所述辅助类故障为所述改包类故障,则所述第二门限值为单位时间所述改包类故障的数量为1;
所述第四门限值与所述第六门限值相等;
其中,所述第六门限值为所述第一状态为非所述第一疾病状态时根据所述辅助类故障进行告警动作的门限值。
结合第一方面至第一方面的六种可能的实现方式中的任意一种,在第一方面的第七种可能的实现方式中,所述方法还包括:
当所述第二状态为非所述第二疾病状态时,若所述固件类故障大于或者等于第五门限值则进行告警动作,若所述固件类故障大于或者等于第七门限值则进行复位动作,所述第七门限值大于所述第五门限值;
当所述第一状态为非所述第一疾病状态时,若所述辅助类故障大于或者等于第六门限值则进行告警动作。
第二方面,提供一种转发设备,包括:
检测单元,用于检测转发设备的固件类故障和辅助类故障,所述固件类故障包括所述转发设备的固件故障,所述辅助类故障包括所述转发设备与自身或者与其它网络设备交互的报文出现的故障;
确定单元,用于根据所述固件类故障及预设门限策略确定第一状态,并根据所述辅助类故障及预设门限策略确定第二状态;
处理单元,用于当所述第一状态为第一疾病状态且所述第二状态为第二疾病状态时,根据预设修复策略进行修复动作,所述第一疾病状态为单位时间内所述固件类故障的数量大于或者等于第一门限值时对应的所述第一状态,所述第二疾病状态为单位时间内所述辅助类故障的数量大于或者等于第二门限值时对应的所述第二状态。
结合第二方面,在第二方面的第一种可能的实现方式中,所述第一疾病状态包括第一轻疾状态和第一重疾状态,所述第一重疾状态对应的故障程度高于所述第一轻疾状态对应的故障程度;所述第二疾病状态包括第二轻疾状态和第二重疾状态,所述第二重疾状态对应的故障程度高于所述第二轻疾状态对应的故障程度;所述修复动作包括告警动作或复位动作;所述根据预设修复策略进行修复动作包括:
当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;
当所述第一状态为所述第一重疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;
当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二重疾状态时,进行复位动作;
当所述第一状态为所述第一重疾状态且所述第二状态为所述第二重疾状态时,进行复位动作。
结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述辅助类故障包括所述转发设备与自身或与其它网络设备交互的心跳报文出现的故障,以及所述转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障。
结合第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述第一状态还包括第一健康状态,所述第一健康状态对应的故障程度低于所述第一疾病状态对应的故障程度;
在所述第一状态为所述第一健康状态后,若单位时间内所述固件类故障的数量小于所述第一门限值,则所述第一状态为所述第一健康状态;或者,若单位时间内所述固件类故障的数量大于或者等于所述第一门限值且小于第三门限值,则所述第一状态为所述第一轻疾状态,所述第三门限值大于所述第一门限值;或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;
在所述第一状态为所述第一轻疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第一预设时间阈值,则所述第一状态为所述第一健康状态;否则,若单位时间内所述固件类故障的数量小于所述第三门限值,则所述第一状态为所述第一轻疾状态,或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;
在所述第一状态为所述第一重疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第三预设时间阈值,则所述第一状态为所述第一健康状态;否则,所述第一状态为所述第一重疾状态;
其中,所述第三预设时间阈值大于所述第一预设时间阈值。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述第一门限值为单位时间内所述固件类故障的数量为1,所述第三门限值为第五门限值的一半,所述第五门限值为所述第二状态为非所述第二疾病状态时根据所述固件类故障进行告警动作的门限值。
结合第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式,在第二方面的第五种可能的实现方式中,所述第二状态还包括第二健康状态,所述第二健康状态对应的故障程度低于所述第二疾病状态对应的故障程度;
在所述第二状态为所述第二健康状态后,若单位时间内所述辅助类故障的数量小于所述第二门限值,则所述第二状态为所述第二健康状态;或者,若单位时间内所述辅助类故障的数量大于或者等于所述第二门限值且小于第四门限值,则所述第二状态为所述第二轻疾状态,所述第四门限值大于所述第二门限值;或者,若单位时间内所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;
在所述第二状态为所述第二轻疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第二预设时间阈值,则所述第二状态为所述第二健康状态;否则,若单位时间内所述辅助类故障的数量小于所述第四门限值,则所述第二状态为所述第二轻疾状态,或者,若所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;
在所述第二状态为所述第二重疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第四预设时间阈值,则所述第二状态为所述第二健康状态;否则,所述第二状态为所述第二重疾状态;
其中,所述第四预设时间阈值大于所述第二预设时间阈值。
结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式中,所述辅助类故障包括丢包类故障和改包类故障,若所述辅助类故障为所述丢包类故障,则所述第二门限值为第六门限值的一半,若所述辅助类故障为所述改包类故障,则所述第二门限值为单位时间所述改包类故障的数量为1;
所述第四门限值与所述第六门限值相等;
其中,所述第六门限值为所述第一状态为非所述第一疾病状态时根据所述辅助类故障进行告警动作的门限值。
结合第二方面至第二方面的六种可能的实现方式中的任意一种,在第二方面的第七种可能的实现方式中,所述处理单元还用于:
当所述第二状态为非所述第二疾病状态时,若所述固件类故障大于或者等于第五门限值则进行告警动作,若所述固件类故障大于或者等于第七门限值则进行复位动作,所述第七门限值大于所述第五门限值;
当所述第一状态为非所述第一疾病状态时,若所述辅助类故障大于或者等于第六门限值则进行告警动作。
本发明实施例提供一种故障检测方法及转发设备,当转发设备的第一状态为第一疾病状态时可以表明当前转发设备的固件出现少量故障;当转发设备的第二状态为第二疾病状态时通常可以表明当前转发设备所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备的固件故障引起网络出现故障的概率较大,并且当前转发设备将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端业务可能会出现大范围故障的情况无法及时进行修复动作的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基本网络架构示意图;
图2为本发明实施例提供的一种方法流程示意图;
图3为本发明实施例提供的一种设备结构示意图;
图4为本发明实施例提供的另一种设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中的转发设备可以为图1所示基本网络架构中的路由器、交换机等进行报文转发的设备。在图1所示基本网络架构中,终端与服务器之间通过网络进行用户业务数据报文的交互,以实现终端承载的业务;路由器、交换机等转发设备通过协议报文、心跳报文等非用户业务数据报文的交互辅助终端实现其承载的业务。
由于转发设备在出现固件类故障的同时也出现辅助类故障的情况下,使得终端业务出现大范围故障的概率较大,因而本发明以下实施例提供的故障检测方法主要通过在当前转发设备同时出现少量固件类故障和少量辅助类故障的情况下,及时根据预设修复策略进行告警动作或复位动作,从而避免现有技术中对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作。
本发明实施例提供一种故障检测方法,参见图2,可以包括:
101、转发设备检测自身的固件类故障和辅助类故障,固件类故障包括转发设备的固件故障,辅助类故障包括转发设备与自身或者与其它网络设备交互的报文出现的故障。
这里的转发设备可以是如图1所示基本网络架构中的路由器、交换机等进行报文转发的设备。其中的固件是指转发设备的逻辑、硬件等固件,其中的逻辑可以为转发设备中的可编程逻辑阵列器件(ProgrammableLogic Array,PLA),可编程阵列逻辑(Programmable Array Logic,PAL),通用阵列逻辑(Generic Array Logic,GAL),现场可编程门阵列(FieldProgrammable Gate Array,FPGA),可擦除的可编程逻辑器件(EraseProgrammable Logic Device,EPLD)等逻辑部件。固件类故障可以包括转发设备出现的多比特ECC错误、奇偶校验错误、单粒子翻转(Single-EventUpsets,SEU)错误、表项对账错误等故障。
这里的其它网络设备可以为网络中除当前转发设备以外的设备。辅助类故障辅助类故障可以包括转发设备与自身或与其它网络设备交互的心跳报文出现的故障,以及转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障,具体可以包括丢包类故障或改包类故障等。例如,路由器内部的心跳报文或者路由器与其它路由器交互的心跳报文出现的心跳报文丢包或心跳报文改包,或者路由器与交换机交互的协议报文出现的协议报文丢包或协议报文改包,或者路由器参与转发的,且路由器可以感知的用户业务报文的丢包或改包(譬如用户业务数据报文的网络协议(Internet Protocol,IP)头改包)。
示例性的,转发设备可以周期性的检测单位时间内发生固件类故障的数量,这里进行故障检测的周期可以根据需要进行设定(例如为1s),这里的单位时间也可以根据需要进行设定。本发明实施例将以单位时间与检测周期均以1s为例进行说明。辅助类故障的检测方式与固件类故障类似。
102、转发设备根据固件类故障及预设门限策略确定第一状态。
其中,第一状态通常用于表明转发设备固件的健康状态,根据固件类故障的严重程度可以分为多个状态等级。这里的预设门限策略可以包括转发设备为确定第一状态所设定的门限策略。转发设备具体可以根据出现的固件类故障情况以及预设门限策略确定第一状态为哪种状态等级。
103、转发设备根据辅助类故障及预设门限策略确定第二状态。
其中,第二状态通常用于表明转发设备所在网络的健康状态,根据辅助类故障的严重程度可以分为多个状态等级。这里的预设门限策略还可以包括转发设备为确定第二状态所设定的门限策略。转发设备具体可以根据出现的辅助类故障情况以及预设门限策略确定第一状态为哪种状态等级。
具体的,转发设备可以通过故障检测模块周期性地检测并上报固件类故障和辅助类故障,并通过故障联动模块根据故障检测模块上报的故障情况确定第一状态和第二状态。
104、当第一状态为第一疾病状态且第二状态为第二疾病状态时,转发设备根据预设修复策略进行修复动作,第一疾病状态为单位时间内固件类故障的数量大于或者等于第一门限值时对应的第一状态,第二疾病状态为单位时间内辅助类故障的数量大于或者等于第二门限值时对应的第二状态。
第一门限值为转发设备为确定第一疾病状态设定的一个门限值,例如单位时间内出现1个多比特ECC错误,具体可以根据需要进行设定。转发设备可以根据检测到的固件类故障情况确定第一状态,并且当固件类故障大于或者等于第一门限值时,可以确定第一状态为第一疾病状态。需要说明的是,这里的第一门限值较低,用以在出现少量固件类故障时将第一状态确定为第一疾病状态。通常情况下,当转发设备出现少量固件类故障时有很大可能不会影响终端的业务。
第二门限值为转发设备为确定第二疾病状态设定的一个门限值,例如单位时间内出现5个协议报文丢包,具体可以根据需要进行设定。转发设备根据检测到的辅助类故障情况确定第二状态,并在当辅助类故障大于或者等于第二门限值时,可以确定第二状态为第二疾病状态。需要说明的是,这里的第二门限值较低,用以在出现少量辅助类故障时将第二状态确定为第二疾病状态。通常情况下,当出现少量辅助类故障时,会一定程度上影响终端的业务,但不能确定是网络中的哪个设备引起的该辅助类故障,即不能确定是否由当前转发设备引起的该辅助类故障。
当第一状态为第一疾病状态且第二状态为第二疾病状态时,表明当前转发设备的固件出现少量故障且还出现了少量辅助类故障,此时,由当前转发设备的固件故障引起网络出现故障的概率较大,并且当前转发设备将引起终端业务出现大范围故障的概率较大,因而可以根据预设修复策略及时进行告警或复位等修复动作,以避免终端业务出现大范围故障。
可选地,第一疾病状态可以包括第一轻疾状态和第一重疾状态,第一重疾状态对应的故障程度高于第一轻疾状态对应的故障程度;第二疾病状态可以包括第二轻疾状态和第二重疾状态,第二重疾状态对应的故障程度高于第二轻疾状态对应的故障程度;修复动作包括告警动作或复位动作;根据预设修复策略进行修复动作包括:当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,进行告警动作;当第一状态为第一重疾状态且第二状态为第二轻疾状态时,进行告警动作;当第一状态为第一轻疾状态且第二状态为第二重疾状态时,进行复位动作;当第一状态为第一重疾状态且第二状态为第二重疾状态时,进行复位动作。其中的故障程度可以通过单位时间内出现的故障数量类描述,单位时间内出现的故障数量越大可以说明故障程度越高,转发设备的固件或所在网络的健康状态越差。
因而,在上述步骤101至步骤104提供的故障检测方法中,当转发设备的第一状态为第一疾病状态时可以表明当前转发设备的固件出现少量故障;当第二状态为第二疾病状态时通常可以表明当前转发设备所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备的固件故障引起网络出现故障的概率较大,并且当前转发设备将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。
本发明实施例提供的上述故障检测方法中,第一状态还可以包括第一健康状态,第一健康状态对应的故障程度低于第一疾病状态对应的故障程度;第二状态还可以包括第二健康状态,第二健康状态对应的故障程度低于第二疾病状态对应的故障程度。
当第一状态包括第一健康状态,第一疾病状态包括第一轻疾状态和第一重疾状态时,步骤102具体可以包括:
在第一状态为第一健康状态后,若单位时间内固件类故障的数量小于第一门限值,则第一状态为第一健康状态;或者,若单位时间内固件类故障的数量大于或者等于第一门限值且小于第三门限值,则第一状态为第一轻疾状态,第三门限值大于第一门限值;或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;在第一状态为第一轻疾状态后,若未检测到固件类故障的持续时间大于或者等于第一预设时间阈值,则第一状态为第一健康状态;否则,若单位时间内固件类故障的数量小于第三门限值,则第一状态为第一轻疾状态,或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;在第一状态为第一重疾状态后,若未检测到固件类故障的持续时间大于或者等于第三预设时间阈值,则第一状态为第一健康状态;否则,第一状态为第一重疾状态;其中,第三预设时间阈值大于第一预设时间阈值。
需要说明的是,其中的第一门限值、第三门限值可以根据需要进行具体设定。例如,第一门限值可以为单位时间内固件类故障的数量为N,N为正整数。
可选地,第一门限值可以为单位时间内固件类故障的数量为1,第三门限值可以为第五门限值的一半,第五门限值可以为第二状态为非第二疾病状态时根据固件类故障进行告警动作的门限值。
具体的,这里将以固件类故障为出现多比特ECC错误为例进行说明:
在转发设备启动后,可以默认第一状态为第一健康状态。
在第一状态为第一健康状态后,若单位时间内多比特ECC错误的数量小于第一门限值,则保持第一状态为第一健康状态。这里包括两种情况:1、转发设备一直未检测到多比特ECC错误,则保持第一状态为第一健康状态;2、转发设备检测到多比特ECC错误,但单位时间内多比特ECC错误的数量小于第一门限值,则保持第一状态为健康状态。可选地,第一门限值可以为单位时间内多比特ECC错误的数量为1,因而对于该第一门限值下不存在上述第2种情况,即首次检测到多比特ECC错误时一定大于或者等于了第一门限值。
在第一状态为第一健康状态后,若单位时间内多比特ECC错误的数量大于或者等于第一门限值且小于第三门限值,则可以将第一健康状态更新为第一轻疾状态。这里的第三门限值高于第一门限值,且第三门限值可以为第五门限值的一半,而第五门限值可以为当第二状态为非第二疾病状态即第二状态为第二健康状态时根据多比特ECC错误进行告警动作的门限值,第五门限值通常可以设置为现有技术中多比特ECC错误对应的告警门限(例如单位时间内多比特ECC错误的数量为30)。因而,第三门限值可以为单位时间内多比特ECC错误的数量为15。示例性的,在第一状态为第一健康状态后,若当前周期内检测到单位时间内出现1个多比特ECC错误,则可以将第一健康状态更新为第一轻疾状态;或者,若当前周期内检测到单位时间内出现14个多比特ECC错误,则可以将第一健康状态更新为第一轻疾状态。
在第一状态为第一健康状态后,若单位时间内多比特ECC错误的数量大于或者等于第三门限值,则可以将第一健康状态更新为第一重疾状态。示例性的,在第一状态为第一健康状态后,若当前周期内检测到单位时间内出现15个多比特ECC错误,则将第一健康状态更新为第一重疾状态。
在第一状态为第一轻疾状态后,可以在任一周期确定未检测到多比特ECC错误的持续时间是否大于或者等于第一预设时间阈值,若大于或者等于第一预设时间阈值,则将第一状态更新为第一健康状态;若小于第一预设时间阈值,则在当前周期检测到的单位时间内多比特ECC错误的数量小于第三门限值(包括当前周期未检测到多比特ECC错误)时,保持第一状态为第一轻疾状态,或者,在当前周期检测到的单位时间内多比特ECC错误的数量大于或者等于第三门限值时,将第一轻疾状态更新为第一重疾状态。其中,这里的第一预设时间阈值可以理解为第一轻疾状态老化为第一健康状态时对应的老化时间。在第一状态为第一轻疾状态后,若持续未检测到多比特ECC错误的时间大于或者等于第一轻疾状态对应的老化时间,则可以认为第一轻疾状态已恢复为第一健康状态,因而可以将第一轻疾状态更新为第一健康状态。示例性的,第一轻疾状态对应的老化时间可以为30分钟。
在第一状态为第一重疾状态后,可以在任一周期确定未检测到多比特ECC错误的持续时间是否大于或者等于第三预设时间阈值,若大于或者等于第三预设时间阈值,则将第一重疾状态更新为第一健康状态;若小于第三预设时间阈值,则保持第一状态为第一重疾状态。这里的第三预设时间预设可以理解为第一重疾状态老化为第一健康状态的老化时间。在第一状态为第一重疾状态后,若持续未检测到多比特ECC错误的时间大于或者等于第一重疾状态对应的老化时间,则可以认为第一重疾状态已恢复为第一健康状态,因而可以将第一重疾状态更新为第一健康状态。其中,由于第一重疾状态的故障严重等级高于第一轻疾状态的故障干严重等级,因而第一重疾状态对应的老化时间可以大于第一轻疾状态对应的老化时间,即第三预设时间阈值可以大于第一预设时间阈值。示例性的,第三预设时间阈值可以为6小时。
上述确定第一状态的过程是以出现的固件类故障为多比特ECC错误为例进行说明的,对于出现的固件类故障为其它固件类故障例如奇偶校验错误时,转发设备可以采用类似的方法确定第一状态。
需要说明的是,转发设备还可能会检测到多种固件类故障,此时转发设备可以采用上述确定第一状态的方法确定不同固件类故障分别对应的第一子状态,并将严重程度较高的第一子状态确定为第一状态。举例来说,若当前周期多比特ECC错误对应的第一子状态为第一重疾子状态,奇偶校验错误对应的第一子状态为第一轻疾子状态,由于第一重疾子状态的故障严重等级高于第一轻疾子状态,因而转发设备可以确定第一状态为第一重疾状态。当然,在相应条件时,转发设备还可以将多比特ECC错误对应的第一重疾子状态恢复为第一健康子状态,将奇偶校验错误对应的第一轻疾子状态恢复为第一健康子状态。
此外,在本步骤中,转发设备确定第一状态所采用的预设门限策略仅是举例说明,具体可以根据需要进行设置。而且,不同固件类故障对应的预设门限策略可以不同。例如,对于某些固件类故障,第三门限值可以为单位时间内出现1次固件类故障,即首次检测到该固件类故障时即确定该固件类故障对应的第一子状态为第一重疾子状态。
当第二状态包括第二健康状态,第二疾病状态包括第二轻疾状态和第二重疾状态时,步骤103具体可以包括:
在第二状态为第二健康状态后,若单位时间内辅助类故障的数量小于第二门限值,则第二状态为第二健康状态;或者,若单位时间内辅助类故障的数量大于或者等于第二门限值且小于第四门限值,则第二状态为第二轻疾状态,第四门限值大于第二门限值;或者,若单位时间内辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;在第二状态为第二轻疾状态后,若未检测到辅助类故障的持续时间大于或者等于第二预设时间阈值,则第二状态为第二健康状态;否则,若单位时间内辅助类故障的数量小于第四门限值,则第二状态为第二轻疾状态,或者,若辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;在第二状态为第二重疾状态后,若未检测到辅助类故障的持续时间大于或者等于第四预设时间阈值,则第二状态为第二健康状态;否则,第二状态为第二重疾状态;其中,第四预设时间阈值大于第二预设时间阈值。
需要说明的是,其中的第二门限值、第四门限值可以根据需要进行具体设定。例如,第二门限值可以为单位时间内辅助类故障的数量为M,M为正整数。
可选地,辅助类故障可以包括丢包类故障和改包类故障,若辅助类故障为丢包类故障,则第二门限值可以为第六门限值的一半,若辅助类故障为改包类故障,则第二门限值可以为单位时间改包类故障的数量为1;第四门限值与第六门限值相等;其中,第六门限值为第一状态为非第一疾病状态时根据辅助类故障进行告警动作的门限值。
具体的,这里将以辅助类故障为出现心跳报文改包为例进行说明:
在转发设备启动后,转发设备可以默认第二状态为第二健康状态。
在第二状态为第二健康状态后,若单位时间内心跳报文改包数量小于第二门限值,则保持第二状态为第二健康状态。可选地,对于改包类故障,第二门限值可以为单位时间内改包数量为1。因而,在该第二门限值条件下,在第二状态为第二健康状态后,若当前周期内未检测到心跳报文改包,则可以保持第一状态为第一健康状态;或者,若当前周期内检测到心跳报文改包,则心跳报文改包一定大于或者等于第二门限值。
在第二状态为第二健康状态后,若心跳报文改包大于或者等于第二门限值且小于第四门限值,则将第二健康状态更新为第二轻疾状态,第四门限值高于第二门限值。可选地,第四门限值可以与第六门限值一致,第六门限值可以为第一状态为非第一疾病状态(即第一状态为第一健康状态)时根据辅助类故障进行告警动作的门限值,第六门限值通常可以设置为现有技术中心跳报文改包对应的告警门限(即单位时间内心跳报文改包数量为5)。示例性的,若当前周期检测到单位时间内出现3个心跳报文改包,则大于或者等于了第二门限值且小于第四门限值,因而可以将第二健康状态更新为第二轻疾状态。
在第二状态为第二健康状态后,若单位时间内心跳报文改包数量大于或者等于第四门限值,则将第二健康状态更新为第二重疾状态。示例性的,在第二状态为第二健康状态后,若当前周期检测到单位时间内出现5次心跳报文改包(大于或者等于第四门限值),则将第二健康状态更新为第二重疾状态;或者,若当前周期检测到单位时间内出现6次心跳报文改包(大于或者等于第四门限值),则将第二健康状态更新为第二重疾状态。
在第二状态为第二轻疾状态后,可以在任一周期确定未检测到心跳报文改包的持续时间是否大于或者等于第二预设时间阈值,若大于或者等于第二预设时间阈值,则将第二状态更新为第二健康状态;若小于第二预设时间阈值,则在当前周期检测到单位时间内心跳报文改包数量小于第四门限值(包括当前周期未检测到心跳报文改包)时,保持第二状态为第二轻疾状态,或者,在当前周期检测到单位时间内心跳报文改包数量大于或者等于第四门限值时,将第二轻疾状态更新为第二重疾状态。这里的第二预设时间阈值可以理解为第二轻疾状态老化为第二健康状态对应的老化时间。在第二状态为第二轻疾状态后,若在第二轻疾状态对应的老化时间内持续未检测到心跳报文改包,则可以认为第二轻疾状态已恢复为第二健康状态,因而可以将第二轻疾状态更新为第二健康状态。其中,第二预设时间阈值可以与第一时间阈值相同或不同。
在第二状态为第二重疾状态后,在任一周期确定未检测到心跳报文改包的持续时间是否大于或者等于第四预设时间阈值,若大于或者等于第四预设时间阈值,则将第二重疾状态更新为第二健康状态;若小于第四预设时间阈值,则不论当前周期是否检测到心跳报文改包均保持第二状态为第二重疾状态。这里的第四预设时间阈值可以为第二重疾状态老化为第二健康状态的老化时间。在第二状态为第二重疾状态后,若在第二重疾状态对应的老化时间内持续未检测到心跳报文改包,则可以认为第二重疾状态已恢复为第二健康状态,因而可以将第二重疾状态更新为第二健康状态。由于第二重疾状态的故障严重程度高于第二轻疾状态的故障严重程度,因而第二重疾状态对应的老化时间可以大于第二轻疾状态对应的老化时间,即第四预设时间阈值大于第二预设时间阈值。其中,第四预设时间阈值与第三预设时间阈值可以相同或不同。
上述确定第二状态的过程是以出现的辅助类故障为心跳报文改包为例进行说明的,对于出现的其它辅助类故障为其它辅助类故障例如协议报文丢包时,转发设备可以采用类似的方法确定第一状态。需要说明的是,当出现的辅助类故障为协议报文丢包等丢包类业务时,第二门限值可以为第六门限值的一半,第六门限值为第一状态为非第一疾病状态(即第一状态为第一健康状态)时根据辅助类故障进行告警动作的门限值。
上述确定第二状态的方法是以出现的辅助类故障为单一故障为例进行说明的,转发设备还可能会检测到多种辅助类故障,此时转发设备可以采用上述方法确定不同辅助类故障分别对应的第二子状态,并将严重程度较高的第二子状态确定为第二状态。举例来说,若当前周期心跳报文改包对应的第二子状态为第二重疾子状态,协议报文丢包对应的第二子状态为第二轻疾子状态,则由于第一重疾子状态的故障严重等级高于第一轻疾子状态,因而转发设备可以确定第二状态为第二重疾状态。此外,在本步骤中,转发设备确定第二状态所采用的预设门限策略仅是举例说明,不同辅助类故障对应的预设门限策略可以不同,具体可以根据需要进行设定,这里不做限定。
当第一状态包括第一健康状态,第一疾病状态包括第一轻疾状态和第一重疾状态,且第二状态包括第二健康状态,第二疾病状态包括第二轻疾状态和第二重疾状态时,步骤104具体可以包括以下几种情况:
1、当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,进行告警动作。
由于第一门限值小于第五门限值,第五门限值为第二状态为非第二疾病状态即第二状态为第二健康状态时根据固件类故障进行告警动作的门限值,第五门限值可以设置为现有技术中固件类故障对应的告警门限,即第一门限值可以小于现有技术中固件类故障对应的告警门限。同样,由于第二门限值小于第六门限值,第六门限值为第一状态为非第一疾病状态(即第一状态为第一健康状态)时根据辅助类故障进行告警动作的门限值,第六门限值可以设置为现有技术中辅助类故障对应的告警门限,即第二门限值可以小于现有技术中辅助类故障对应的告警门限。
当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,表明当前转发设备出现少量固件类故障且出现少量辅助类故障,由当前转发设备引起终端业务大范围故障的概率较大,此时可以及时进行告警以提醒转发设备及时进行相应处理,因而可以提前于现有技术中的告警门限及时进行告警动作,避免终端业务出现大范围故障。
2、当第一状态为第一重疾状态且第二状态为第二轻疾状态时,进行告警动作。
3、当第一状态为第一轻疾状态且第二状态为第二重疾状态时,进行复位动作。
对于上述2和3,由于少量固件类故障有很大可能不影响终端业务,辅助类故障影响终端业务的可能性较大,因而可以认为辅助类故障对终端业务的影响较固件类故障对终端业务的影响大,因而当第二状态为第二重疾状态且第一状态为第一轻疾状态时可以进行复位动作,而当第二状态为第二轻疾状态且第一状态为第一重疾状态时可以进行告警动作。
对于第2种情况来说,由于第二门限值小于第四门限值,第四门限值与第六门限值一致,因而第二门限值小于第六门限值,即第二门限值可以小于现有技术中辅助类故障对应的告警门限。因而,第2种情况可以提前于现有技术中辅助类故障对应的告警门限及时进行告警动作,以避免终端业务出现大范围故障。
对于第3种情况来说,由于第一门限值小于第五门限值,即第一门限值小于现有技术中固件类故障对应的告警门限;第四门限值与第六门限值一致,即第四门限值与现有技术中辅助类故障对应的告警门限,而现有技术中辅助类故障的告警门限小于现有技术中辅助类故障对应的复位门限,因而第四门限值可以小于现有技术中辅助类故障对应的复位门限。因此,第3种情况可以提前于现有技术中辅助类故障对应的复位门限及时进行复位动作,以避免终端业务出现大范围故障。
4、当第一状态为第一重疾状态且第二状态为第二重疾状态时,进行复位动作。
由于第三门限值小于第五门限值,第五门限值小于现有技术中固件类故障对应的复位门限,因而第三故障小于现有技术中固件类故障对应的复位门限。第四故障可以小于现有技术中辅助类故障对应的复位门限。
当第一状态为第一重疾状态且第二状态为第二重疾状态时,由当前转发设备引起的终端业务出现大范围故障的概率很大,因而可以提前于现有技术中的复位门限及时进行复位动作,从而可以避免终端业务出现大范围故障。
需要说明的是,本发明实施例中根据固件类故障的故障程度将第一状态划分为第一健康状态和第一疾病状态,且将第一疾病状态划分为第一轻疾状态和第一重疾状态仅是举例说明。根据故障程度的不同,第一疾病状态还可以包括故障程度更高的第一病危状态、第一病亡状态等其它状态等级,这里不做限定。当然,根据不同故障程度还可以将第一状态划分为其他状态等级,这里不做限定。第二状态的划分与第一状态类似。
综上可知,本发明实施例提供的故障检测方法通过结合固件类故障和辅助类故障两大类故障进行修复动作。实际上,还可以分别结合两个或多个具体的故障项目进行修复动作,例如结合多比特ECC错误和协议报文丢包进行修复动作,或者结合奇偶校验错误和协议报文丢包进行修复动作,但是由于一个设备可以检测的故障项目非常多(例如路由器中可以检测的故障项目可能达到上千项),因而该方法的实现逻辑过于复杂。而本发明实施例中通过结合固件类故障和辅助类故障两大类故障进行修复动作,可以大大减少逻辑上的复杂度。
进一步地,本发明实施例提供的故障检测方法还可以包括:
当第二状态为非第二疾病状态时,若单位时间内固件类故障的数量大于或者等于第五门限值则进行告警,若单位时间内固件类故障的数量大于或者等于第七门限值则进行复位动作,第七门限值高于第五门限值。其中,这里的第五门限值可以设置为现有技术中固件类故障对应的告警门限,这里的第七门限值可以设置为现有技术中固件类故障对应的复位门限。当第二状态为非第二疾病状态即第二状态为第二疾病状态以外的状态(例如第二健康状态)时,可以认为没有出现或基本没有出现辅助类故障,检测到少量固件类故障时不一定影响终端的业务,因而也不需要对当前转发设备提前进行修复动作,此时可以采用现有技术中的门限策略对辅助类故障进行告警动作或复位动作。
当第一状态为非第一疾病状态时,若单位时间内辅助类故障的数量大于或者等于第六门限值则进行告警动作。其中,这里的第六门限值可以设置为现有技术中辅助类故障对应的告警门限。当第一状态为非第一疾病状态即第一状态为第一疾病状态以外的状态(例如第一健康状态)时,可以认为没有出现或基本没有出现固件类故障,检测到的少量辅助类故障可能是网络中的任一设备引起的,而不一定是当前转发设备引起的,因而不需要对当前转发设备提前进行修复动作,此时可以采用现有技术中的门限策略对辅助类故障进行告警动作。需要说明的是,当第一状态为第一健康状态时,通常很难确定引起辅助类故障的具体是网络中的哪个设备引起的故障,如果不是当前转发设备引起的故障,而对当前转发设备进行复位则一般不能对网络修复带来益处,反而会出现网络震荡等使得网络状况更为糟糕,因而对于辅助类故障通常不需要进行复位,现有技术中通常也不会设置复位门限。此外,对于辅助类故障中转发设备内部的心跳报文故障,由于可以确定是当前转发设备发生了故障,因而可以设置复位门限以便当该故障达到复位门限时对当前转发设备进行复位。
此外,本发明实施例提供的结合固件类故障和辅助类故障两大类故障进行修复动作的方法还可以应用于终端或服务器。对于终端或服务器来说,其辅助类故障包括的具体内容可能与转发设备辅助类故障包括的具体内容不同,但所采用的方法可以与上述过程类似,这里不再详细说明。
本发明实施例提供一种故障检测方法,当转发设备的第一状态为第一疾病状态时可以表明当前转发设备的固件出现少量故障;当转发设备的第二状态为第二疾病状态时通常可以表明当前转发设备所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备的固件故障引起网络出现故障的概率较大,并且当前转发设备将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。
参见图3,本发明另一实施例提供一种转发设备200,该转发设备200可以包括:
检测单元201,可以用于检测转发设备200的固件类故障和辅助类故障,固件类故障包括转发设备200的固件故障,辅助类故障包括转发设备200与自身或者与其它网络设备交互的报文出现的故障;
确定单元202,可以用于根据固件类故障及预设门限策略确定第一状态,并根据辅助类故障及预设门限策略确定第二状态;
处理单元203,可以用于当第一状态为第一疾病状态且第二状态为第二疾病状态时,根据预设修复策略进行修复动作,第一疾病状态为单位时间内固件类故障的数量大于或者等于第一门限值时对应的第一状态,第二疾病状态为单位时间内辅助类故障的数量大于或者等于第二门限值时对应的第二状态。
其中,这里的转发设备200可以是如图1所示基本网络架构中的路由器、交换机等进行报文转发的设备。
可选地,第一疾病状态可以包括第一轻疾状态和第一重疾状态,第一重疾状态对应的故障程度高于第一轻疾状态对应的故障程度;第二疾病状态可以包括第二轻疾状态和第二重疾状态,第二重疾状态对应的故障程度高于第二轻疾状态对应的故障程度;修复动作包括告警动作或复位动作;根据预设修复策略进行修复动作包括:
当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,进行告警动作;
当第一状态为第一重疾状态且第二状态为第二轻疾状态时,进行告警动作;
当第一状态为第一轻疾状态且第二状态为第二重疾状态时,进行复位动作;
当第一状态为第一重疾状态且第二状态为第二重疾状态时,进行复位动作。
可选地,辅助类故障包括转发设备200与自身或与其它网络设备交互的心跳报文出现的故障,以及转发设备200与其它网络设备交互的协议报文或用户业务数据报文出现的故障。
可选地,第一状态还可以包括第一健康状态,第一健康状态对应的故障程度低于第一疾病状态对应的故障程度;
在第一状态为第一健康状态后,若单位时间内固件类故障的数量小于第一门限值,则第一状态为第一健康状态;或者,若单位时间内固件类故障的数量大于或者等于第一门限值且小于第三门限值,则第一状态为第一轻疾状态,第三门限值大于第一门限值;或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;
在第一状态为第一轻疾状态后,若未检测到固件类故障的持续时间大于或者等于第一预设时间阈值,则第一状态为第一健康状态;否则,若单位时间内固件类故障的数量小于第三门限值,则第一状态为第一轻疾状态,或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;
在第一状态为第一重疾状态后,若未检测到固件类故障的持续时间大于或者等于第三预设时间阈值,则第一状态为第一健康状态;否则,第一状态为第一重疾状态;
其中,第三预设时间阈值大于第一预设时间阈值。
可选地,第一门限值可以为单位时间内固件类故障的数量为1,第三门限值可以为第五门限值的一半,第五门限值可以为第二状态为非第二疾病状态时根据固件类故障进行告警动作的门限值。
可选地,第二状态还可以包括第二健康状态,第二健康状态对应的故障程度低于第二疾病状态对应的故障程度;
在第二状态为第二健康状态后,若单位时间内辅助类故障的数量小于第二门限值,则第二状态为第二健康状态;或者,若单位时间内辅助类故障的数量大于或者等于第二门限值且小于第四门限值,则第二状态为第二轻疾状态,第四门限值大于第二门限值;或者,若单位时间内辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;
在第二状态为第二轻疾状态后,若未检测到辅助类故障的持续时间大于或者等于第二预设时间阈值,则第二状态为第二健康状态;否则,若单位时间内辅助类故障的数量小于第四门限值,则第二状态为第二轻疾状态,或者,若辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;
在第二状态为第二重疾状态后,若未检测到辅助类故障的持续时间大于或者等于第四预设时间阈值,则第二状态为第二健康状态;否则,第二状态为第二重疾状态;
其中,第四预设时间阈值大于第二预设时间阈值。
可选地,辅助类故障可以包括丢包类故障和改包类故障,若辅助类故障为丢包类故障,则第二门限值可以为第六门限值的一半,若辅助类故障为改包类故障,则第二门限值可以为单位时间改包类故障的数量为1;
第四门限值与第六门限值相等;
其中,第六门限值可以为第一状态为非第一疾病状态时根据辅助类故障进行告警动作的门限值。
可选地,处理单元203还可以用于:
当第二状态为非第二疾病状态时,若固件类故障大于或者等于第五门限值则进行告警动作,若固件类故障大于或者等于第七门限值则进行复位动作,第七门限值大于第五门限值;
当第一状态为非第一疾病状态时,若辅助类故障大于或者等于第六门限值则进行告警动作。
本发明实施例提供一种转发设备200,当转发设备200的第一状态为第一疾病状态时可以表明当前转发设备200的固件出现少量故障;当转发设备200的第二状态为第二疾病状态时通常可以表明当前转发设备200所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备200的固件故障引起网络出现故障的概率较大,并且当前转发设备200将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。
参见图4,本发明另一实施例提供一种转发设备300,该转发设备300可以包括处理器301,存储器302及总线303,其中,存储器302可以用于存储指令和数据;总线303可以用于连接处理器301和存储器302;处理器301执行该指令可以用于检测转发设备300的固件类故障和辅助类故障,固件类故障包括转发设备300的固件故障,辅助类故障包括转发设备300与自身或者与其它网络设备交互的报文出现的故障;用于根据固件类故障及预设门限策略确定第一状态,并根据辅助类故障及预设门限策略确定第二状态;用于当第一状态为第一疾病状态且第二状态为第二疾病状态时,根据预设修复策略进行修复动作,第一疾病状态为单位时间内固件类故障的数量大于或者等于第一门限值时对应的第一状态,第二疾病状态为单位时间内辅助类故障的数量大于或者等于第二门限值时对应的第二状态。
其中,这里的转发设备300可以是如图1所示基本网络架构中的路由器、交换机等进行报文转发的设备。
可选地,第一疾病状态可以包括第一轻疾状态和第一重疾状态,第一重疾状态对应的故障程度高于第一轻疾状态对应的故障程度;第二疾病状态包括第二轻疾状态和第二重疾状态,第二重疾状态对应的故障程度高于第二轻疾状态对应的故障程度;修复动作包括告警动作或复位动作;根据预设修复策略进行修复动作包括:
当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,进行告警动作;
当第一状态为第一重疾状态且第二状态为第二轻疾状态时,进行告警动作;
当第一状态为第一轻疾状态且第二状态为第二重疾状态时,进行复位动作;
当第一状态为第一重疾状态且第二状态为第二重疾状态时,进行复位动作。
可选地,辅助类故障可以包括转发设备300与自身或与其它网络设备交互的心跳报文出现的故障,以及转发设备300与其它网络设备交互的协议报文或用户业务数据报文出现的故障。
可选地,第一状态还可以包括第一健康状态,第一健康状态对应的故障程度低于第一疾病状态对应的故障程度;
在第一状态为第一健康状态后,若单位时间内固件类故障的数量小于第一门限值,则第一状态为第一健康状态;或者,若单位时间内固件类故障的数量大于或者等于第一门限值且小于第三门限值,则第一状态为第一轻疾状态,第三门限值大于第一门限值;或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;
在第一状态为第一轻疾状态后,若未检测到固件类故障的持续时间大于或者等于第一预设时间阈值,则第一状态为第一健康状态;否则,若单位时间内固件类故障的数量小于第三门限值,则第一状态为第一轻疾状态,或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;
在第一状态为第一重疾状态后,若未检测到固件类故障的持续时间大于或者等于第三预设时间阈值,则第一状态为第一健康状态;否则,第一状态为第一重疾状态;
其中,第三预设时间阈值大于第一预设时间阈值。
可选地,第一门限值可以为单位时间内固件类故障的数量为1,第三门限值可以为第五门限值的一半,第五门限值可以为第二状态为非第二疾病状态时根据固件类故障进行告警动作的门限值。
可选地,第二状态还可以包括第二健康状态,第二健康状态对应的故障程度低于第二疾病状态对应的故障程度;
在第二状态为第二健康状态后,若单位时间内辅助类故障的数量小于第二门限值,则第二状态为第二健康状态;或者,若单位时间内辅助类故障的数量大于或者等于第二门限值且小于第四门限值,则第二状态为第二轻疾状态,第四门限值大于第二门限值;或者,若单位时间内辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;
在第二状态为第二轻疾状态后,若未检测到辅助类故障的持续时间大于或者等于第二预设时间阈值,则第二状态为第二健康状态;否则,若单位时间内辅助类故障的数量小于第四门限值,则第二状态为第二轻疾状态,或者,若辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;
在第二状态为第二重疾状态后,若未检测到辅助类故障的持续时间大于或者等于第四预设时间阈值,则第二状态为第二健康状态;否则,第二状态为第二重疾状态;
其中,第四预设时间阈值大于第二预设时间阈值。
可选地,辅助类故障可以包括丢包类故障和改包类故障,若辅助类故障为丢包类故障,则第二门限值可以为第六门限值的一半,若辅助类故障为改包类故障,则第二门限值可以为单位时间改包类故障的数量为1;
第四门限值与第六门限值相等;
其中,第六门限值可以为第一状态为非第一疾病状态时根据辅助类故障进行告警动作的门限值。
可选地,处理器301执行该指令还可以用于当第二状态为非第二疾病状态时,若固件类故障大于或者等于第五门限值则进行告警动作,若固件类故障大于或者等于第七门限值则进行复位动作,第七门限值大于第五门限值;
当第一状态为非第一疾病状态时,若辅助类故障大于或者等于第六门限值则进行告警动作。
本发明实施例提供一种转发设备300,当转发设备300的第一状态为第一疾病状态时可以表明当前转发设备300的固件出现少量故障;当转发设备300的第二状态为第二疾病状态时通常可以表明当前转发设备300所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备300的固件故障引起网络出现故障的概率较大,并且当前转发设备300将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (16)

1.一种故障检测方法,其特征在于,包括:
检测转发设备的固件类故障和辅助类故障,所述固件类故障包括所述转发设备的固件故障,所述辅助类故障包括所述转发设备与自身或者与其它网络设备交互的报文出现的故障;
根据所述固件类故障及预设门限策略确定第一状态;
根据所述辅助类故障及预设门限策略确定第二状态;
当所述第一状态为第一疾病状态且所述第二状态为第二疾病状态时,根据预设修复策略进行修复动作,所述第一疾病状态为单位时间内所述固件类故障的数量大于或者等于第一门限值时对应的所述第一状态,所述第二疾病状态为单位时间内所述辅助类故障的数量大于或者等于第二门限值时对应的所述第二状态。
2.根据权利要求1所述的方法,其特征在于,所述第一疾病状态包括第一轻疾状态和第一重疾状态,所述第一重疾状态对应的故障程度高于所述第一轻疾状态对应的故障程度;所述第二疾病状态包括第二轻疾状态和第二重疾状态,所述第二重疾状态对应的故障程度高于所述第二轻疾状态对应的故障程度;所述修复动作包括告警动作或复位动作;所述根据预设修复策略进行修复动作包括:
当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;
当所述第一状态为所述第一重疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;
当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二重疾状态时,进行复位动作;
当所述第一状态为所述第一重疾状态且所述第二状态为所述第二重疾状态时,进行复位动作。
3.根据权利要求1或2所述的方法,其特征在于,所述辅助类故障包括所述转发设备与自身或与其它网络设备交互的心跳报文出现的故障,以及所述转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障。
4.根据权利要求2或3所述的方法,其特征在于,所述第一状态还包括第一健康状态,所述第一健康状态对应的故障程度低于所述第一疾病状态对应的故障程度;
在所述第一状态为所述第一健康状态后,若单位时间内所述固件类故障的数量小于所述第一门限值,则所述第一状态为所述第一健康状态;或者,若单位时间内所述固件类故障的数量大于或者等于所述第一门限值且小于第三门限值,则所述第一状态为所述第一轻疾状态,所述第三门限值大于所述第一门限值;或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;
在所述第一状态为所述第一轻疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第一预设时间阈值,则所述第一状态为所述第一健康状态;否则,若单位时间内所述固件类故障的数量小于所述第三门限值,则所述第一状态为所述第一轻疾状态,或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;
在所述第一状态为所述第一重疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第三预设时间阈值,则所述第一状态为所述第一健康状态;否则,所述第一状态为所述第一重疾状态;
其中,所述第三预设时间阈值大于所述第一预设时间阈值。
5.根据权利要求4所述的方法,其特征在于,所述第一门限值为单位时间内所述固件类故障的数量为1,所述第三门限值为第五门限值的一半,所述第五门限值为所述第二状态为非所述第二疾病状态时根据所述固件类故障进行告警动作的门限值。
6.根据权利要求2或3所述的方法,其特征在于,所述第二状态还包括第二健康状态,所述第二健康状态对应的故障程度低于所述第二疾病状态对应的故障程度;
在所述第二状态为所述第二健康状态后,若单位时间内所述辅助类故障的数量小于所述第二门限值,则所述第二状态为所述第二健康状态;或者,若单位时间内所述辅助类故障的数量大于或者等于所述第二门限值且小于第四门限值,则所述第二状态为所述第二轻疾状态,所述第四门限值大于所述第二门限值;或者,若单位时间内所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;
在所述第二状态为所述第二轻疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第二预设时间阈值,则所述第二状态为所述第二健康状态;否则,若单位时间内所述辅助类故障的数量小于所述第四门限值,则所述第二状态为所述第二轻疾状态,或者,若所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;
在所述第二状态为所述第二重疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第四预设时间阈值,则所述第二状态为所述第二健康状态;否则,所述第二状态为所述第二重疾状态;
其中,所述第四预设时间阈值大于所述第二预设时间阈值。
7.根据权利要求6所述的方法,其特征在于,所述辅助类故障包括丢包类故障和改包类故障,若所述辅助类故障为所述丢包类故障,则所述第二门限值为第六门限值的一半,若所述辅助类故障为所述改包类故障,则所述第二门限值为单位时间所述改包类故障的数量为1;
所述第四门限值与所述第六门限值相等;
其中,所述第六门限值为所述第一状态为非所述第一疾病状态时根据所述辅助类故障进行告警动作的门限值。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
当所述第二状态为非所述第二疾病状态时,若所述固件类故障大于或者等于第五门限值则进行告警动作,若所述固件类故障大于或者等于第七门限值则进行复位动作,所述第七门限值大于所述第五门限值;
当所述第一状态为非所述第一疾病状态时,若所述辅助类故障大于或者等于第六门限值则进行告警动作。
9.一种转发设备,其特征在于,包括:
检测单元,用于检测转发设备的固件类故障和辅助类故障,所述固件类故障包括所述转发设备的固件故障,所述辅助类故障包括所述转发设备与自身或者与其它网络设备交互的报文出现的故障;
确定单元,用于根据所述固件类故障及预设门限策略确定第一状态,并根据所述辅助类故障及预设门限策略确定第二状态;
处理单元,用于当所述第一状态为第一疾病状态且所述第二状态为第二疾病状态时,根据预设修复策略进行修复动作,所述第一疾病状态为单位时间内所述固件类故障的数量大于或者等于第一门限值时对应的所述第一状态,所述第二疾病状态为单位时间内所述辅助类故障的数量大于或者等于第二门限值时对应的所述第二状态。
10.根据权利要求9所述的转发设备,其特征在于,所述第一疾病状态包括第一轻疾状态和第一重疾状态,所述第一重疾状态对应的故障程度高于所述第一轻疾状态对应的故障程度;所述第二疾病状态包括第二轻疾状态和第二重疾状态,所述第二重疾状态对应的故障程度高于所述第二轻疾状态对应的故障程度;所述修复动作包括告警动作或复位动作;所述根据预设修复策略进行修复动作包括:
当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;
当所述第一状态为所述第一重疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;
当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二重疾状态时,进行复位动作;
当所述第一状态为所述第一重疾状态且所述第二状态为所述第二重疾状态时,进行复位动作。
11.根据权利要求9或10所述的转发设备,其特征在于,所述辅助类故障包括所述转发设备与自身或与其它网络设备交互的心跳报文出现的故障,以及所述转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障。
12.根据权利要求10或11所述的转发设备,其特征在于,所述第一状态还包括第一健康状态,所述第一健康状态对应的故障程度低于所述第一疾病状态对应的故障程度;
在所述第一状态为所述第一健康状态后,若单位时间内所述固件类故障的数量小于所述第一门限值,则所述第一状态为所述第一健康状态;或者,若单位时间内所述固件类故障的数量大于或者等于所述第一门限值且小于第三门限值,则所述第一状态为所述第一轻疾状态,所述第三门限值大于所述第一门限值;或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;
在所述第一状态为所述第一轻疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第一预设时间阈值,则所述第一状态为所述第一健康状态;否则,若单位时间内所述固件类故障的数量小于所述第三门限值,则所述第一状态为所述第一轻疾状态,或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;
在所述第一状态为所述第一重疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第三预设时间阈值,则所述第一状态为所述第一健康状态;否则,所述第一状态为所述第一重疾状态;
其中,所述第三预设时间阈值大于所述第一预设时间阈值。
13.根据权利要求12所述的转发设备,其特征在于,所述第一门限值为单位时间内所述固件类故障的数量为1,所述第三门限值为第五门限值的一半,所述第五门限值为所述第二状态为非所述第二疾病状态时根据所述固件类故障进行告警动作的门限值。
14.根据权利要求10或11所述的转发设备,其特征在于,所述第二状态还包括第二健康状态,所述第二健康状态对应的故障程度低于所述第二疾病状态对应的故障程度;
在所述第二状态为所述第二健康状态后,若单位时间内所述辅助类故障的数量小于所述第二门限值,则所述第二状态为所述第二健康状态;或者,若单位时间内所述辅助类故障的数量大于或者等于所述第二门限值且小于第四门限值,则所述第二状态为所述第二轻疾状态,所述第四门限值大于所述第二门限值;或者,若单位时间内所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;
在所述第二状态为所述第二轻疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第二预设时间阈值,则所述第二状态为所述第二健康状态;否则,若单位时间内所述辅助类故障的数量小于所述第四门限值,则所述第二状态为所述第二轻疾状态,或者,若所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;
在所述第二状态为所述第二重疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第四预设时间阈值,则所述第二状态为所述第二健康状态;否则,所述第二状态为所述第二重疾状态;
其中,所述第四预设时间阈值大于所述第二预设时间阈值。
15.根据权利要求14所述的转发设备,其特征在于,所述辅助类故障包括丢包类故障和改包类故障,若所述辅助类故障为所述丢包类故障,则所述第二门限值为第六门限值的一半,若所述辅助类故障为所述改包类故障,则所述第二门限值为单位时间所述改包类故障的数量为1;
所述第四门限值与所述第六门限值相等;
其中,所述第六门限值为所述第一状态为非所述第一疾病状态时根据所述辅助类故障进行告警动作的门限值。
16.根据权利要求9-15任一项所述的转发设备,其特征在于,所述处理单元还用于:
当所述第二状态为非所述第二疾病状态时,若所述固件类故障大于或者等于第五门限值则进行告警动作,若所述固件类故障大于或者等于第七门限值则进行复位动作,所述第七门限值大于所述第五门限值;
当所述第一状态为非所述第一疾病状态时,若所述辅助类故障大于或者等于第六门限值则进行告警动作。
CN201510451116.1A 2015-07-28 2015-07-28 一种故障检测方法及转发设备 Active CN107040391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510451116.1A CN107040391B (zh) 2015-07-28 2015-07-28 一种故障检测方法及转发设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510451116.1A CN107040391B (zh) 2015-07-28 2015-07-28 一种故障检测方法及转发设备

Publications (2)

Publication Number Publication Date
CN107040391A true CN107040391A (zh) 2017-08-11
CN107040391B CN107040391B (zh) 2020-06-26

Family

ID=59532895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510451116.1A Active CN107040391B (zh) 2015-07-28 2015-07-28 一种故障检测方法及转发设备

Country Status (1)

Country Link
CN (1) CN107040391B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825315A (zh) * 2018-08-14 2020-02-21 爱思开海力士有限公司 存储器系统、数据处理系统及其操作方法
CN113190405A (zh) * 2021-04-29 2021-07-30 山东英信计算机技术有限公司 一种节点健康检测方法、装置及电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070168711A1 (en) * 2005-09-30 2007-07-19 Chih-Wei Chen Computer-clustering system failback control method and system
CN101626324A (zh) * 2009-08-19 2010-01-13 杭州华三通信技术有限公司 转发路径检测方法和设备
CN102904685A (zh) * 2012-09-29 2013-01-30 杭州华三通信技术有限公司 一种硬件表项校验错误的处理方法及装置
CN104348641A (zh) * 2013-07-30 2015-02-11 华为技术有限公司 一种故障的检测方法和故障检测装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070168711A1 (en) * 2005-09-30 2007-07-19 Chih-Wei Chen Computer-clustering system failback control method and system
CN101626324A (zh) * 2009-08-19 2010-01-13 杭州华三通信技术有限公司 转发路径检测方法和设备
CN102904685A (zh) * 2012-09-29 2013-01-30 杭州华三通信技术有限公司 一种硬件表项校验错误的处理方法及装置
CN104348641A (zh) * 2013-07-30 2015-02-11 华为技术有限公司 一种故障的检测方法和故障检测装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825315A (zh) * 2018-08-14 2020-02-21 爱思开海力士有限公司 存储器系统、数据处理系统及其操作方法
CN110825315B (zh) * 2018-08-14 2023-04-28 爱思开海力士有限公司 存储器系统、数据处理系统及其操作方法
CN113190405A (zh) * 2021-04-29 2021-07-30 山东英信计算机技术有限公司 一种节点健康检测方法、装置及电子设备和存储介质

Also Published As

Publication number Publication date
CN107040391B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN107547252B (zh) 一种网络故障处理方法和装置
Su et al. Redundant rule detection for software-defined networking
US9720766B2 (en) Self-healing, fault-tolerant FPGA computation and architecture
US8050183B2 (en) System and method for implementing reflector ports within hierarchical networks
CN101999223B (zh) 减少eaps系统中的流量损失
CN107547249A (zh) 链路切换方法、装置、sdn交换机、控制器及存储介质
CN109257195A (zh) 集群中节点的故障处理方法及设备
CN104521192B (zh) 用于网络拓扑结构中的链路状态协议的洪泛优化的技术
CN105187249A (zh) 一种故障恢复方法及装置
US9323618B2 (en) Method and apparatus for coordinating fault recovery techniques among domains
CN105379201B (zh) 路径切换的方法、控制器和故障切换交换机
CN103036756B (zh) 一种基于共享通道的混合环网保护方法及系统
TWI455525B (zh) 環狀網路之復原方法
CN106789264A (zh) 一种链路聚合组通道快速切换的方法和装置
CN107612754A (zh) 双向转发链路故障检测方法、装置及网络节点设备
CN107864094A (zh) 一种流量选路方法、装置和机器可读存储介质
Lee et al. Brisk and limited-impact NoC routing reconfiguration
CN109245961A (zh) 链路质量检测方法、装置、存储介质和设备
CN105915426A (zh) 环形网络的故障恢复方法及装置
US9509523B2 (en) Method for protection switching in ethernet ring network
CN103825754B (zh) 一种环网多点故障发现和恢复处理方法
CN107040391A (zh) 一种故障检测方法及转发设备
CN106713132A (zh) 用于更新转发表项的方法和装置
CN104885408B (zh) 一种保护倒换的方法、网络及系统
CN105513645B (zh) 随机存取存储器ram的故障检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211227

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 100085, No. 3, information road, Haidian District, Beijing

Patentee before: Beijing Huawei Digital Technology Co.,Ltd.

Effective date of registration: 20211227

Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province

Patentee after: Super fusion Digital Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211230

Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province

Patentee after: Super fusion Digital Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

Effective date of registration: 20211230

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 100085, No. 3, information road, Haidian District, Beijing

Patentee before: Beijing Huawei Digital Technology Co.,Ltd.

TR01 Transfer of patent right