CN102780576A - 故障产生和消失的上报方法及装置 - Google Patents

故障产生和消失的上报方法及装置 Download PDF

Info

Publication number
CN102780576A
CN102780576A CN2012101145386A CN201210114538A CN102780576A CN 102780576 A CN102780576 A CN 102780576A CN 2012101145386 A CN2012101145386 A CN 2012101145386A CN 201210114538 A CN201210114538 A CN 201210114538A CN 102780576 A CN102780576 A CN 102780576A
Authority
CN
China
Prior art keywords
fault
house dog
link
alarm
disappearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101145386A
Other languages
English (en)
Other versions
CN102780576B (zh
Inventor
宋晓娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201210114538.6A priority Critical patent/CN102780576B/zh
Publication of CN102780576A publication Critical patent/CN102780576A/zh
Priority to PCT/CN2013/073887 priority patent/WO2013155940A1/zh
Application granted granted Critical
Publication of CN102780576B publication Critical patent/CN102780576B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明公开一种故障产生和消失的上报方法,包括以下步骤:A、将链路状态记录为通,同时将看门狗配置为如果在一个周期T内没有收到操作管理维护OAM报文,则直接上报故障产生的告警;B、判断看门狗是否检测到链路有故障产生;C、在看门狗检测到链路有故障产生时将当前链路的状态修改为断,同时对看门狗进行重新配置,将看门狗的故障消失检测周期配置为n*T,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警;所述n为大于1的整数;D、判断看门狗是否上报故障消失告警,在看门狗上报故障消失告警时返回步骤A。本发明还提供一种故障产生和消失的上报装置。本发明操作过程简单,开发维护非常方便。

Description

故障产生和消失的上报方法及装置
技术领域
本发明涉及网络技术应用领域,更具体地,涉及一种故障产生和消失的上报方法及装置。
背景技术
为了提高网络的安全性和可靠性,现在的网络都采用了OAM(OperationAdministration and Maintenance,操作管理维护)的保护机制,使用备用链路来保护工作链路,最大程度地减少了链路发生故障对网络使用者带来的数据丢失,提高了网络安全性和可靠性。
OAM保护机制的工作原理为:在工作链路上运行OAM检测,当工作链路发生故障时,检测机制迅速告警,将业务流切换到备用链路;当工作链路恢复时,再将业务流回切到工作链路。要最大化地减少业务流的丢失,关键是加快切换速度,而切换速度的关键是告警速度。因此告警是保护机制中的至关重要的一个功能点。
告警功能的工作原理是:周期性检测某个业务实例的收包数,如果收包数不在理想范围之内,就上报告警。之前硬件不支持自动告警功能,都是软件周期性统计收包数,然后将收包数与理想值比较,进行告警。现在大部分芯片都支持硬件实现告警检测(一般称为看门狗或watchdog功能),只需要开发者根据需要灵活的配置参数。
开发者在使用看门狗上报链路故障产生时,方法都差不多,直接配置看门狗的参数就可以了。但是在故障消失告警的实现中,就有很大的差异,很多都是利用驱动芯片进行延时上报。例如,当隧道发生故障后,看门狗会上报故障产生,驱动芯片接收告警后将隧道和其状态关联保存下来。当该隧道恢复,交换机收到OAM报文,同时检测到该隧道的记录状态为断时,就上报故障消失告警,每收到一个OAM报文上报一次故障消失告警。而驱动芯片会统计一定时间内的故障消失告警的个数,当总数达到一个阈值,就将故障消失告警设为有效,进行主备隧道的切换,同时将该隧道记录状态改为通。这样的故障上报方式,在故障消失告警的过程中,驱动需要在每收到一个OAM报文就查看隧道的记录状态,操作过程较为复杂,开发维护不够方便。
发明内容
本发明的主要目的在于提供一种故障产生和消失的上报方法,旨在解决现有技术中操作过程较为复杂,开发维护不够方便的技术问题。
为了实现发明目的,本发明提供一种故障产生和消失的上报方法,包括以下步骤:
A、将链路状态记录为通,同时将看门狗配置为如果在一个周期T内没有收到操作管理维护OAM报文,则直接上报故障产生的告警;
B、判断看门狗是否检测到链路有故障产生;
C、在看门狗检测到链路有故障产生时将当前链路的状态修改为断,同时对看门狗进行重新配置,将看门狗的故障消失检测周期配置为n*T,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警;所述n为大于1的整数;
D、判断看门狗是否上报故障消失告警,在看门狗上报故障消失告警时返回步骤A。
优选地,所述T值为10ms、30ms或300ms,所述n的取值范围为40~100,所述预置阈值为3*n。
本发明另提供一种故障产生和消失的上报装置,其包括:
故障产生配置模块,用于将链路状态记录为通,同时将看门狗配置为如果在一个周期T内没有收到操作管理维护OAM报文,则直接上报故障产生的告警;
故障消失配置模块,用于判断看门狗是否检测到链路有故障产生,若是,则将当前链路的状态修改为断,同时对看门狗进行重新配置,将看门狗的故障消失检测周期配置为n*T,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警;所述n为大于1的整数;
告警上报处理模块,用于判断看门狗是否上报故障消失告警,且在看门狗上报故障消失告警时控制故障产生配置模块工作。
优选地,所述故障产生和消失的上报装置设置在驱动芯片中。
本发明通过在看门狗检测到故障产生时,将当前链路的状态修改为断,同时对看门狗进行重新配置,将看门狗对故障消失告警的检测周期配置为其对故障产生告警检测周期的整数倍,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警,这样驱动芯片不必在每收到一个OAM报文就要查看一次隧道的记录状态,相对于现有技术而言,操作过程简单,开发维护非常方便。
附图说明
图1为本发明故障产生和消失的上报方法一实施例的流程图;
图2为本发明故障产生和消失的上报装置一实施例的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种上报故障消失的方法,参照图1,该方法包括以下步骤:
步骤A、将链路状态记录为通,同时将看门狗配置为如果在一个周期T内没有收到操作管理维护OAM报文,则直接上报故障产生的告警;例如,OAM报文的发包速度为3.3ms/包,根据OAM协议规定,检测周期T是OAM报文发包速度的3倍,即10ms。当链路在10ms如果没有接收到OAM报文,则判断链路发生故障,看门狗上报故障产生,故障产生配置模块接收告警后将链路和其状态关联保存下来。
步骤B、判断看门狗是否检测到链路有故障产生,若是,则执行步骤C,若否,则继续判断看门狗是否检测到链路有故障产生;
步骤C、将当前链路的状态修改为断,同时对看门狗进行重新配置,将看门狗的故障消失检测周期配置为n*T,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警;所述n为大于1的整数;本发明实施例中,可通过驱动芯片对看门狗一直进行监测,如果看门狗检测到链路有故障产生,则驱动芯片将当前链路的状态由通改为断,并且对看门狗进行重新配置,修改其配置参数,例如,如果看门狗对于故障产生的检测周期为10ms/次,则将故障消失检测周期配置为10ms的整数倍。一般来说,告警产生后,链路由主隧道切换到备用隧道,这时的切换速度实际上相当于告警产生的一个检测周期的时间加上驱动内部切换时间,快速切换的总时间限制在50ms之内即可。而在故障消失后,链路由备用隧道切换到主隧道时,这时的切换速度可以不必与告警产生时的切换速度一样,可以进行延时。因此,可以将故障消失检测周期配置为600ms/次。本发明实施例中,优选将故障消失检测周期配置为10ms的60倍,当然也可以为其他倍数,例如40或者100等,能保证网络的正常运行速度即可;收包数预置的阈值为180,即60的3倍。步骤D、判断看门狗是否上报故障消失告警,若是,则返回步骤A,若否,则继续判断看门狗是否上报故障消失告警。如果看门狗上报故障消失告警,则表明链路目前的故障已经消失,此时,重新启动对故障产生的检测过程,将链路状态记录为通,同时将看门狗配置为如果在10ms内没有收到操作管理维护OAM报文,则直接上报故障产生的告警。
本发明故障产生和消失的上报方法通过在看门狗检测到故障产生时,将当前链路的状态修改为断,同时对看门狗进行重新配置,将看门狗对故障消失告警的检测周期配置为其对故障产生告警检测周期的整数倍,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警,这样驱动芯片不必在每收到一个OAM报文就要查看一次隧道的记录状态,相对于现有技术而言,操作过程简单,开发维护非常方便。
参照图2,本发明提供一种故障产生和消失的上报装置,可以实现上述方法,其包括:
故障产生配置模块10,用于将链路状态记录为通,同时将看门狗2配置为如果在一个周期T内没有收到操作管理维护OAM报文,则直接上报故障产生的告警;本发明实施例中,故障产生和消失的上报装置可以设置在驱动芯片1中,故障产品配置模块10以及下述的故障消失配置模块20、告警消失配置模块20可基于驱动芯片1来实现其功能。OAM报文的发包速度为3.3ms/包,根据OAM协议规定,检测周期T是OAM报文发包速度的3倍,即10ms。当链路在10ms如果没有接收到OAM报文,则判断链路发生故障,看门狗2上报故障产生,故障产生配置模块10接收告警后将链路和其状态关联保存下来。
故障消失配置模块20,用于判断看门狗是否检测到链路有故障产生,若是,则将当前链路的状态修改为断,同时对看门狗进行重新配置,将看门狗的故障消失检测周期配置为n*T,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警;所述n为大于1的整数;故障消失配置模块20对看门狗一直进行监测,如果看门狗检测到链路有故障产生,则故障消失配置模块20将当前链路的状态由通改为断,并且对看门狗2进行重新配置,修改其配置参数,例如,如果看门狗对于故障产生的检测周期为10ms/次,则故障消失配置模块20将故障消失检测周期配置为10ms的整数倍。一般来说,告警产生后,链路由主隧道切换到备用隧道,这时的切换速度实际上相当于告警产生的一个检测周期的时间加上驱动内部切换时间,必须在50ms之内。而在故障消失后,链路由备用隧道切换到主隧道时,这时的切换速度可以不必与告警产生时的切换速度一样,可以进行延时。因此,可以将故障消失检测周期配置为600ms/次。本发明实施例中,优选将故障消失检测周期配置为10ms的60倍,当然也可以为其他倍数,例如40或者100等,能保证网络的正常运行速度即可;收包数预置的阈值为180,即60的3倍。
告警上报处理模块30,用于判断看门狗2是否上报故障消失告警,且在看门狗2上报故障消失告警时,控制故障产生配置模块10工作。如果看门狗2上报故障消失告警,则表明链路目前的故障已经消失,此时,告警上报处理模块30控制故障产生配置模块10工作,重新启动对故障产生的检测过程。例如,将链路状态记录为通,同时将看门狗2配置为如果在10ms内没有收到操作管理维护OAM报文,则直接上报故障产生的告警。
本发明故障产生和消失的上报装置通过故障消失配置模块20在看门狗2检测到故障产生时,将当前链路的状态修改为断,同时对看门狗2进行重新配置,将看门狗2对故障消失告警的检测周期配置为其对故障产生告警检测周期的整数倍,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警,这样驱动芯片1不必在每收到一个OAM报文就要查看一次隧道的记录状态,相对于现有技术而言,操作过程简单,开发维护非常方便。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种故障产生和消失的上报方法,其特征在于,包括以下步骤:
A、将链路状态记录为通,同时将看门狗配置为如果在一个周期T内没有收到操作管理维护OAM报文,则直接上报故障产生的告警;
B、判断看门狗是否检测到链路有故障产生;
C、在看门狗检测到链路有故障产生时将当前链路的状态修改为断,同时对看门狗进行重新配置,将看门狗的故障消失检测周期配置为n*T,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警;所述n为大于1的整数;
D、判断看门狗是否上报故障消失告警,在看门狗上报故障消失告警时返回步骤A。
2.如权利要求1所述的故障产生和消失的上报方法,其特征在于,所述T值为10ms、30ms或300ms,所述n的取值范围为40~100,所述预置阈值为3*n。
3.一种故障产生和消失的上报装置,其特征在于,包括:
故障产生配置模块,用于将链路状态记录为通,同时将看门狗配置为如果在一个周期T内没有收到操作管理维护OAM报文,则直接上报故障产生的告警;
故障消失配置模块,用于判断看门狗是否检测到链路有故障产生,若是,则将当前链路的状态修改为断,同时对看门狗进行重新配置,将看门狗的故障消失检测周期配置为n*T,且如果链路在一个检测周期内收包数大于预置的阈值,则上报故障消失告警;所述n为大于1的整数;
告警上报处理模块,用于判断看门狗是否上报故障消失告警,且在看门狗上报故障消失告警时控制故障产生配置模块工作。
4.如权利要求3所述的故障产生和消失的上报装置,其特征在于,所述T值为10ms、30ms或300ms,所述n的取值范围为40~100,所述预置阈值为3*n。
5.如权利要求4所述的故障产生和消失的上报装置,其特征在于,所述故障产生和消失的上报装置设置在驱动芯片中。
CN201210114538.6A 2012-04-18 2012-04-18 故障产生和消失的上报方法及装置 Expired - Fee Related CN102780576B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210114538.6A CN102780576B (zh) 2012-04-18 2012-04-18 故障产生和消失的上报方法及装置
PCT/CN2013/073887 WO2013155940A1 (zh) 2012-04-18 2013-04-08 故障产生和消失的上报方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210114538.6A CN102780576B (zh) 2012-04-18 2012-04-18 故障产生和消失的上报方法及装置

Publications (2)

Publication Number Publication Date
CN102780576A true CN102780576A (zh) 2012-11-14
CN102780576B CN102780576B (zh) 2015-06-03

Family

ID=47125342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210114538.6A Expired - Fee Related CN102780576B (zh) 2012-04-18 2012-04-18 故障产生和消失的上报方法及装置

Country Status (2)

Country Link
CN (1) CN102780576B (zh)
WO (1) WO2013155940A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013155940A1 (zh) * 2012-04-18 2013-10-24 中兴通讯股份有限公司 故障产生和消失的上报方法及装置
CN107040392A (zh) * 2015-07-29 2017-08-11 中兴通讯股份有限公司 伪线双归保护管理方法及通信设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117478561B (zh) * 2023-11-08 2024-05-14 上海勃傲自动化系统有限公司 以太网工业总线时延分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090238084A1 (en) * 2008-03-18 2009-09-24 Cisco Technology, Inc. Network monitoring using a proxy
CN101640629A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种链路丢包监控的方法和双向转发探测设备
CN101980171A (zh) * 2010-10-08 2011-02-23 广东威创视讯科技股份有限公司 一种软件系统故障自恢复方法及其使用的软件看门狗系统
CN102281168A (zh) * 2011-05-10 2011-12-14 中兴通讯股份有限公司 基于oam告警检测的链路故障处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780576B (zh) * 2012-04-18 2015-06-03 中兴通讯股份有限公司 故障产生和消失的上报方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090238084A1 (en) * 2008-03-18 2009-09-24 Cisco Technology, Inc. Network monitoring using a proxy
CN101640629A (zh) * 2008-07-29 2010-02-03 华为技术有限公司 一种链路丢包监控的方法和双向转发探测设备
CN101980171A (zh) * 2010-10-08 2011-02-23 广东威创视讯科技股份有限公司 一种软件系统故障自恢复方法及其使用的软件看门狗系统
CN102281168A (zh) * 2011-05-10 2011-12-14 中兴通讯股份有限公司 基于oam告警检测的链路故障处理方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013155940A1 (zh) * 2012-04-18 2013-10-24 中兴通讯股份有限公司 故障产生和消失的上报方法及装置
CN107040392A (zh) * 2015-07-29 2017-08-11 中兴通讯股份有限公司 伪线双归保护管理方法及通信设备
CN107040392B (zh) * 2015-07-29 2020-08-04 南京中兴软件有限责任公司 伪线双归保护管理方法及通信设备

Also Published As

Publication number Publication date
CN102780576B (zh) 2015-06-03
WO2013155940A1 (zh) 2013-10-24

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN105187249B (zh) 一种故障恢复方法及装置
US10095576B2 (en) Anomaly recovery method for virtual machine in distributed environment
CN102681907B (zh) 一种多功能看门狗电路
CN106487679B (zh) 以太网交换机的主备切换系统和切换方法
CN101908986A (zh) 一种链路故障的检测方法和设备
CN101296135A (zh) 故障信息的处理方法和装置
CN103843286A (zh) 基于交换器连接性触发冗余路由器主控/备用状态更改
CN106789264A (zh) 一种链路聚合组通道快速切换的方法和装置
CN102541686A (zh) 一种使用虚拟机来实现系统的备份以及灾难恢复的方法
CN102281168A (zh) 基于oam告警检测的链路故障处理方法及装置
CN102780576B (zh) 故障产生和消失的上报方法及装置
Wäfler et al. Interdependency modeling in smart grid and the influence of ICT on dependability
CN104283718A (zh) 网络设备及用于网络设备的硬件故障诊断方法
CN102045230A (zh) 一种以太环网链路保护倒换的方法及装置
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN110445694A (zh) 一种基于Zabbix监控触发通知的方法
CN103824017A (zh) 监控恶意程序的方法和监控平台
US20180109114A1 (en) Systems and methods for system-wide digital process bus fault recording
CN106209425A (zh) 基于交换机的防火墙自动bypass的方法及系统
CN101854263B (zh) 网络拓扑的分析处理方法、系统和管理服务器
CN102646065A (zh) 具有保护功能的设备上电检测方法及装置
Power et al. Complex patterns of failure: Fault tolerance via complex event processing for iot systems
CN106060681A (zh) 一种光网络设备保护方法及装置
CN101964731B (zh) 一种数据链路监测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150603