CN112751688A - 一种otn设备的流控处理方法、电子设备及存储介质 - Google Patents

一种otn设备的流控处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN112751688A
CN112751688A CN201911044106.0A CN201911044106A CN112751688A CN 112751688 A CN112751688 A CN 112751688A CN 201911044106 A CN201911044106 A CN 201911044106A CN 112751688 A CN112751688 A CN 112751688A
Authority
CN
China
Prior art keywords
chip
fault
flow control
speed data
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911044106.0A
Other languages
English (en)
Other versions
CN112751688B (zh
Inventor
陈冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201911044106.0A priority Critical patent/CN112751688B/zh
Publication of CN112751688A publication Critical patent/CN112751688A/zh
Application granted granted Critical
Publication of CN112751688B publication Critical patent/CN112751688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及通信领域,公开了一种OTN设备的流控处理方法、电子设备及存储介质,OTN设备包括N个芯片,其中,N为大于1的整数,方法包括:根据潜在流量控制故障的故障类型,确定待监测的N个芯片的实时数据;对N个芯片的实时数据进行监测;根据监测到的实时数据确定各芯片是否会引起流量控制故障;若芯片会引起流量控制故障,则根据流量控制故障的故障类型对芯片进行故障处理,通过对各芯片实时数据的监测,实现了对芯片是否会引起流量控制故障的实时监控,并且在芯片处于会引起流量控制故障的故障状态时,根据故障类型及时对芯片进行故障处理,避免了设备发生流量控制故障对设备中的业务造成大面积影响,极大的提高了客户的体验。

Description

一种OTN设备的流控处理方法、电子设备及存储介质
技术领域
本发明实施例涉及通信领域,特别涉及一种OTN设备的流控处理方法、电子设备及存储介质。
背景技术
基于分布式分组交换系统的大容量OTN设备核心组件为用于接入线卡上的分组接入芯片(switch access:SA)和用于交换板卡上的分组交换芯片(switch fabric:SF),它们组成的分组交换套片承担着整个OTN设备中OTN业务的电层交叉调度功能,分组接入芯片和分组交换芯片的交叉调度容量和运行稳定性直接影响整个子架的OTN业务性能。
在实际工程应用中,偶尔会发生分组交换系统的局部或全面的流量控制故障,从而引起整个OTN设备中部分或全部业务的中断。在当前的OTN设备发生业务中断的故障时,需要专业的工程维护人员介入处理,对故障进行排查和修复,进而恢复故障的业务。
发明人发现相关技术中至少存在如下问题:现有技术的处理方案是在设备发生流量控制故障导致业务中断后,由专业人员对故障进行排查,无法在业务受影响前针对可能发生的流量控制故障进行检测和处理,故障处理效率低,客户体验较差。
发明内容
本发明实施方式的目的在于提供一种OTN设备的流控处理方法、电子设备及存储介质,通过对芯片实时数据和状态的监测,在芯片可能引起设备发生流量控制故障时,及时对芯片进行故障处理,避免设备发生流量控制故障影响业务运行,提高用户的体验。
为解决上述技术问题,本发明的实施方式提供了一种OTN设备的流控处理方法,OTN设备包括N个芯片,其中,N为大于1的整数,方法包括:根据潜在流量控制故障的故障类型,确定待监测的N个芯片的实时数据;对N个芯片的实时数据进行监测;根据监测到的实时数据确定各芯片是否会引起流量控制故障;若芯片会引起流量控制故障,则根据流量控制故障的故障类型对芯片进行故障处理。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的OTN设备的流控处理方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述OTN设备的流控处理方法。
本发明实施方式相对于现有技术而言,根据设备的潜在流量控制故障的故障类型,对设备的芯片的实时数据进行监测,在芯片处于可能引起流量控制故障的故障状态时,及时感测到芯片发生故障以及芯片的故障类型,并根据故障类型,对发生故障的芯片进行故障处理,通过对业务板各分组接入芯片和交叉板中各分组交换芯片实时数据的监测,实现了对芯片是否处于可能引起流量控制故障的故障状态的实时监控,并且在芯片发生故障的时候,直接根据故障类型对故障进行处理,避免了由于芯片故障导致的流量控制故障对设备中的业务造成影响,极大的提高了客户的体验。
另外,潜在流量控制故障的故障类型包括以下之一或其任意组合:芯片内部数据缓存异常、传输业务交叉配置错误、高速数据链路异常;若潜在流量控制故障的故障类型包括芯片内部数据缓存异常,则待监测的实时数据包括:芯片的随机存取存储器RAM异常中断信号;若潜在流量控制故障的故障类型包括传输业务交叉配置错误,则待监测的实时数据包括:芯片的实时流量;若潜在流量控制故障的故障类型包括高速数据链路异常,则待监测的实时数据包括:芯片的高速数据总线状态。根据设备潜在流量控制故障的不同故障类型,对设备业务板中各分组接入芯片和交叉板中各分组交换芯片的数据状态进行实时的监控,从而保证了能够及时检测到各芯片是否发生故障,在芯片发生故障时及时确定故障类型。
另外,根据流量控制故障的故障类型对芯片进行故障处理,包括:若故障类型为芯片内部数据缓存异常,则判断芯片的RAM异常中断信号的累计次数是否小于第一预设门限;若芯片的RAM异常中断信号的累计次数小于第一预设门限,则重启芯片;若芯片的RAM异常中断信号的累计次数不小于第一预设门限,则隔离芯片。通过检测第一预设门限值和芯片故障累计次数的关系,在芯片故障属于偶发性故障时,对芯片进行重置,尝试修复芯片的故障,在芯片故障无法通过重置进行修复时,将芯片隔离,避免影响其他芯片的正常运行,引发流量控制故障。
另外,根据流量控制故障的故障类型对芯片进行故障处理,包括:若故障类型为传输业务交叉配置错误,则在芯片的实时流量异常的累计次数小于第二预设门限时,重置芯片的业务传输链路。在芯片流量异常的累计次数小于第二预设门限时,通过对业务传输链路的重置尝试对芯片的故障进行修复,避免由于芯片故障影响设备正常运行。
另外,根据流量控制故障的故障类型对芯片进行故障处理,还包括:若故障类型为传输业务交叉配置错误,则在芯片的实时流量的异常累计次数不小于第二预设门限时,检测芯片的业务交叉配置与控制层面下发的业务交叉配置是否一致;若芯片的业务交叉配置与控制层面下发的业务交叉配置不一致,则按照控制层面下发的业务交叉配置重置芯片的业务交叉配置;若芯片的业务交叉配置与控制层面下发的业务交叉配置一致,则隔离实时流量异常的芯片。在芯片流量异常计数不小于第二预设门限时,检测芯片的业务交叉配置,对交叉配置错误的芯片按照控制层面下发的交叉配置重新设置芯片的交叉配置,尝试修复业务交叉配置错误,保证设备运行正常;对交叉配置无误且流量异常的故障芯片进行隔离,避免了对其余芯片的正常运行造成影响。
另外,根据流量控制故障的故障类型对芯片进行故障处理,包括:若故障类型为高速数据链路异常,且芯片为分组接入芯片,则判断分组接入芯片中存在异常的高速数据总线的异常累计次数是否小于第三预设门限;若异常累计次数小于第三预设门限,则对异常的高速数据总线重新进行适配;若异常累计次数不小于第三预设门限,则隔离异常的高速数据总线,通过对分组接入芯片中存在异常的高速数据总线的异常累计次数进行检验,重新适配异常累计次数小于第三预设门限的高速数据总线,隔离异常累计次数不小于第三预设门限的高速数据总线,避免了故障总线频繁抖动对整个设备和系统的运行产生影响。
另外,隔离异常的高速数据总线后,还包括:判断已隔离的高速数据总线的数量是否小于第四预设门限;若已隔离的高速数据总线的数量不小于第四预设门限,则隔离分组接入芯片。由于分组接入芯片内被隔离的高速总线的数量过多时,说明该分组接入芯片本身出现了故障,因此,通过对隔离高速数据总线数量不小于第四预设门限的分组接入芯片进行隔离,避免了故障芯片对其余芯片造成影响。
另外,根据流量控制故障的故障类型对芯片进行故障处理,还包括:若故障类型为高速数据链路异常,且芯片为分组交换芯片,则检测与分组交换芯片连接的各分组接入芯片间存在隔离的高速数据总线的分组接入芯片的数量;若已隔离有高速数据总线的芯片的数量小于第五预设门限,且分组交换芯片处于离线状态,则上线分组交换芯片;若已隔离有高速数据总线的芯片的数量不小于第五预设门限,则离线分组交换芯片。根据连接的分组接入芯片中已经进行总线隔离的分组接入芯片的数量和第五预设门限的关系可以进一步确定存在故障的是否为分组交换芯片,如存在故障的是分组交换芯片,则通过对分组交换芯片进行处理,避免了故障芯片对其余芯片造成影响;如果存在故障的不是分组交换芯片且该分组交换芯片处于离线状态,则将该分组交换芯片进行重上线,保证故障解除时分组交换芯片能自动重新上线。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是根据本发明第一实施方式中的一种OTN设备的流控处理方法流程图;
图2是根据本发明第一实施方式中的一种OTN设备的流控处理方法中OTN设备的结构示意图;
图3是根据本发明第一实施方式中的一种OTN设备的流控处理方法中的故障处理子流程图;
图4是根据本发明第二实施方式中的一种OTN设备的流控处理方法流程图;
图5是根据本发明第三实施方式中的一种OTN设备的流控处理方法流程图;
图6是根据本发明第四实施方式中的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种OTN设备的流控处理方法,OTN设备包括N个芯片,其中,N为大于1的整数,方法包括:根据潜在流量控制故障的故障类型,确定待监测的N个芯片的实时数据;对N个芯片的实时数据进行监测;根据监测到的实时数据确定各芯片是否会引起流量控制故障;若芯片会引起流量控制故障,则根据流量控制故障的故障类型对芯片进行故障处理,通过根据设备潜在流量控制故障的故障类型对设备业务板和交叉板中各芯片的实时数据进行检测,从而实现了在任一芯片处于可能引起流量控制故障的故障状态时,及时的检测到芯片发生故障并确定故障类型,并根据故障类型进行故障处理,尽可能避免了芯片故障导致流量控制故障对设备中的业务造成影响,提高用户体验。
下面对本实施方式的OTN设备的流控处理方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施方式中的一种OTN设备的流控处理方法的流程图如图1所示,具体包括以下步骤:
步骤101,确定待检测的芯片实时数据。
具体地说,OTN设备根据潜在流量控制故障的故障类型,确定待监测的N个芯片的实时数据,其中,OTN设备的潜在流量控制故障的故障类型包括以下之一或其任意组合:芯片内部数据缓存异常、传输业务交叉配置错误、高速数据链路异常;若潜在流量控制故障的故障类型包括芯片内部数据缓存异常,则待监测的实时数据包括:芯片的随机存取存储器RAM异常中断信号;若潜在流量控制故障的故障类型包括传输业务交叉配置错误,则待监测的实时数据包括:芯片的实时流量;若潜在流量控制故障的故障类型包括高速数据链路异常,则待监测的实时数据包括:芯片的高速数据总线状态。OTN设备的基本组成如图2所示,包括OTN业务板和OTN交换板,业务板和交换板之间通过背板高速总线进行连接,交换板中包含分组交换芯片,业务板中包含分组接入芯片和数据传输的光模块。
在一个例子中,OTN设备潜在流量控制故障的故障类型为芯片内部数据缓存异常,进行芯片实时数据的监测时,OTN设备会自动确定待监测的芯片实时数据为芯片的随机存取存储器RAM异常中断信号。
步骤102,根据实时数据确定芯片是否会引起流量控制故障,若会引起流量控制故障,则进入步骤103,若不会引起流量控制故障,则回到步骤102。
具体地说,OTN设备对各芯片的实时数据进行监测,根据监测到的实时数据确定各芯片是否处于会引起流量控制故障的故障状态,芯片故障状态时,进入步骤103,芯片未处于故障状态时,回到步骤102,继续检测芯片实时数据。
在一个例子中,OTN设备对随机存取存储器RAM的相关寄存器进行读取测试,比较读取到的寄存器存储数据和寄存器中预存的数据是否一致,若读取到的存储数据和寄存器中预存的数据不一致,则判定芯片的RAM发生了异常中断,芯片处在故障状态,并对检测到的RAM异常中断信号的累计次数进行更新;若读取到的存储数据和寄存器中预存的数据一致,则判定芯片的RAM运行正常,未发生异常中断,芯片处于正常状态,将检测到的RAM异常中断信号的累计次数清零,在实际应用中,引起RAM异常的原因包括外部环境的温度、湿度、电磁变化等引起的芯片异常以及由于芯片的硬件原因导致的异常。
步骤103,根据流量控制故障的故障类型对芯片进行故障处理。
具体地说,在监测到芯片处于会引起流量控制故障的故障状态时,根据芯片故障状态的故障类型对芯片进行故障处理,并继续对芯片实时数据进行监测。
在一个例子中,检测到OTN设备中的芯片处于芯片内部缓存异常的状态,此时,需要根据芯片的RAM发生异常中断的次数来进行对应的修复,故障处理流程图如图3所示,具体包括以下步骤:
子步骤301,检测芯片RAM异常中断信号的累计次数是否小于第一预设门限,若累计次数小于第一预设门限,则进入子步骤302,若累计次数不小于第一预设门限,则进入子步骤303。
具体地说,获取芯片发生RAM异常的次数,在RAM发生异常的次数小于第一预设门限的时候,判定芯片可能是由于网络波动等原因发生了偶发性的故障,则进入子步骤302,在RAM发生异常的次数不小于第一预设门限的时候,判定芯片的故障为芯片自身故障,则进入子步骤303。
在实际应用中,可以根据实际应用场景和芯片性能等因素对第一预设门限进行设置,在本实施方式中对第一预设门限的设置不做限制。
子步骤302,重启芯片。
具体地说,芯片RAM异常次数低于第一预设门限的时候,判定芯片的故障为偶发性故障,对芯片进行复位解复位尝试修复芯片的故障,然后继续运行芯片,对芯片实时数据的监测。
子步骤303,隔离芯片。
具体地说,芯片RAM异常次数不低于第一预设门限的时候,判定芯片的故障无法通过对芯片的复位解复位进行自动修复,芯片的故障来源于芯片自身,此时,将故障的芯片离线,与其余芯片进行隔离,将故障芯片上的业务自动转到后备芯片上运行,并根据芯片的故障信息上报告警,结束故障处理流程。
也就是说,在芯片RAM异常累计次数低于第一预设门限的时候,判定芯片的故障时偶发性故障,尝试对芯片的故障进行修复,在芯片RAM异常累计次数不低于第一预设门限的时候,判定芯片故障是由于芯片自身存在问题,此时无法对芯片完成修复,直接将故障的芯片与其余芯片隔离,避免对设备运行造成影响。
子步骤304,继续监测芯片的实时数据。
具体地说,在对芯片重启后,继续监测芯片的实时数据,并在子步骤304后回到子步骤301,检测芯片RAM异常中断信号的累计次数是否小于第一预设门限。
由此本实施方式提供了一种OTN设备的流控处理方法,针对芯片可能因为内部数据缓存异常引起设备发生流量控制故障的情况,实时检测芯片中RAM异常中断信号,从而保证了在芯片发生RAM异常时能够及时感知芯片的异常,并对芯片进行故障处理;进行故障处理的时候根据RAM异常累计次数和第一预设门限的关系进行对应的处理,先尝试对芯片故障进行修复,在无法自动修复芯片的故障时,隔离故障芯片,从而保证能够高效的处理芯片RAM异常的问题,同时避免了故障芯片影响其余芯片的正常工作甚至引起流量控制故障。
本发明的第二实施方式涉及一种OTN设备的流控处理方法,在本实施方式中针对OTN设备潜在流量控制故障的故障类型为芯片传输业务交叉配置错误时,如何进行分组接入芯片实时数据的监测和故障处理进行说明。
本实施方式中的一种OTN设备的流控处理方法的流程图如图4所示,具体包括以下步骤:
步骤400,确定待检测的芯片实时数据。
本实施方式的步骤400和第一实施方式的步骤101相似,在此就不再赘述,针对可能由于分组接入芯片传输业务交叉配置错误而导致流量控制故障,设备自动确定对分组接入芯片的实时流量进行监测。
步骤401,检测芯片实时流量是否正常,若实时流量正常,则进入步骤402,若实时流量异常,则进入步骤403。
具体地说,针对OTN设备可能由于芯片的业务交叉配置错误导致发生流量控制故障的情况,OTN设备针对分组接入芯片的实时流量进行监测,根据芯片收背板的实时流量检测结果确定芯片是否发生流量异常,若检测到芯片收背板的实时流量超过芯片能够承载的收背板最大流量,则芯片处于流量异常状态,更新芯片流量异常的累计次数,进入步骤403,若检测到芯片收背板的实时流量未超过芯片能够承载的收背板最大流量,则芯片处于流量正常状态,进入步骤402。
步骤402,流量异常计数清零。
具体地说,在检测到芯片当前的流量状态为流量正常时,将芯片的流量异常累计次数清零,然后继续对芯片实时流量的进行监测。
步骤403,检测芯片实时流量异常的累计次数是否小于第二预设门限,若小于第二预设门限,则进入步骤404,若不小于第二预设门限,则进入步骤405。
具体地说,在检测到芯片实时流量异常的时候,检测芯片实时流量异常的累计次数是否小于第二预设门限,在流量异常累计次数小于第二预设门限的时候,判定芯片可能是由于网路波动或其他原因产生的偶发性流量异常,则进入步骤404;在流量异常累计次数不小于第二预设门限的时候,判定芯片发生的故障无法通过重置链路进行修复,则进入步骤405。
在实际应用中,可以根据实际情况和需要对第二预设门限进行设置,在本实施方式中对第二预设门限的设置不做限制。
步骤404,重置芯片的业务传输链路。
具体地说,在芯片流量异常累计次数小于第二预设门限的时候,判定芯片故障的原因是业务传输链路故障,此时,对芯片的业务传输链路进行复位解复位,将业务传输链路进行重置,尝试修复芯片的流量异常故障并使芯片继续运行,然后回到对芯片的实时流量监测。
步骤405,检测芯片的业务交叉配置和控制层面下发的业务交叉配置是否一致,若一致,则进入步骤407,若不一致,则进入步骤406。
具体地说,在芯片流量异常累计次数不小于第二预设门限的时候,判定芯片故障的原因可能是业务交叉配置错误,此时,比较芯片当前的业务交叉配置和控制层面下发的业务交叉配置是否一致,若两者不一致,则芯片当前的业务交叉配置是错误的,进入步骤406;若两者一致,则芯片当前的业务交叉配置无误,芯片自身发生了硬件故障,进入步骤407。
在一个例子中,检测到分组接入芯片的流量异常累计次数超过了第二预设门限,分别获取分组接入芯片的ODUk(传输业务)交叉配置及由主控或者主控代理下发的ODUk交叉配置,比较两种交叉配置是否一致,若检测到两者的交叉配置信息不一致,则判定分组接入芯片发生了业务交叉配置错误,需要按照主控或者主控代理下发的ODUk交叉配置对分组接入芯片的业务交叉配置进行重新配置;若检测到两者的交叉配置信息一致,则判定分组接入芯片自身发生了硬件故障。
步骤406,重置芯片的业务交叉配置。
具体地说,芯片的业务交叉配置错误时,按照控制层面下发的业务交叉配置重置芯片的业务交叉配置,然后继续对芯片的实时流量进行监测。
步骤407,隔离实时流量异常的芯片并上报告警。
具体地说,在芯片的故障不是业务交叉配置错误的时候,判定无法通过软件对故障进行修复,此时,复位流量异常芯片的业务传输链路,隔离故障芯片,将实时流量异常的芯片上承载的业务转交给备用芯片进行处理,并上报告警。
由此本实施方式提供了一种OTN设备的流控处理方法,通过对芯片实时流量的监测,能够及时感测到芯片的流量异常,根据流量异常次数和第二预设门限的关系对芯片的流量异常进行处理,先尝试通过复位解复位链路的方式来修复芯片的流量异常,在无法修复流量异常的时候,检测芯片的交叉配置是否正确,在业务交叉配置错误的时候,通过按照控制层面下发的业务交叉配置重置芯片的业务交叉配置,再次尝试修复芯片流量异常故障,在无法通过软件修复芯片流量异常时,隔离故障芯片,避免了对其他芯片运行状态造成影响,从而不仅保证了能够及时监测并处理芯片的故障,而且通过隔离故障芯片,保证了设备的正常运行。
本发明的第三实施方式涉及一种OTN设备的流控处理方法,在本实施方式中针对OTN设备潜在流量控制故障的故障类型为高速数据链路异常时,如何对芯片的实时数据进行监测和故障处理进行说明,在实际应用中高速数据链路异常的芯片包括以下任一或任意组合:分组交换芯片、分组接入芯片。
本实施方式中的一种OTN设备的流控处理方法的流程图如图5所示,具体包括以下步骤:
步骤500,确定待检测的芯片实时数据。
本实施方式的步骤500和第一实施方式中的步骤101相似,在此就不再赘述,针对设备可能由于芯片高速数据总线异常而发生流量控制故障的情况,设备自动确定对芯片的高速数据总线状态进行监测。
步骤501,检测高速数据总线的状态是否正常,若总线状态正常,则进入步骤502,若总线状态异常,则进入步骤503。
具体地说,针对设备可能由于芯片高速数据总线异常发生流量控制故障的情况,OTN设备对芯片的高速数据总线实时状态进行检测,若高速数据总线的各参数数据中,存在参数超出参数的正常范围或者高速数据总线上存在跳变等情况,判定总线状态异常,进入步骤503;若高速数据总线的各参数都保持正常且未发生跳变等异常情况,判定高速数据总线状态正常,进入步骤502,对总线异常的累计次数进行清零。
步骤502,将总线异常累计次数清零。
具体地说,在检测到高速数据总线的状态为正常时,将总线异常累计次数清零,然后回到对高速数据总线状态的监测。
步骤503,判断存在异常的高速数据总线的异常累计次数是否小于第三预设门限,若小于第三预设门限,则进入步骤504,若不小于第三预设门限,则进入步骤505。
具体地说,检测到芯片的高速数据总线中存在异常的高速数据总线时,检测存在异常的高速数据总线的异常累计次数是否小于第三预设门限,若小于第三预设门限,则可能的故障原因是高速数据总线适配异常,进入步骤504,对总线进行重新适配以使链路各参数达到更优,若不小于第三预设门限,则故障原因是高速数据总线故障,进入步骤505。
在实际应用中,可以根据实际情况或使用需求对第三预设门限进行设置和调整,在本实施方式中对第三预设门限的设置不做限制。
步骤504,对异常的高速数据总线重新适配。
具体地说,检测到异常的高速数据总线异常累计次数小于第三预设门限时,根据高速数据总线的适配流程,对异常的高速数据总线进行重新适配,尝试修复发生异常的高速数据总线,并更新异常总线的异常累计次数,然后回到步骤501,继续对高速数据总线的状态进行监测。
步骤505,隔离异常的高速数据总线。
具体地说,异常的高速数据总线的异常累计次数不小于第三预设门限时,说明在适配多次后,依旧无法修复高速数据总线,即无法通过软件层面的重新适配完成对高速数据总线的修复,因此,在本步骤中,将异常的高速数据总线复位,与其他高速数据总线隔离,并将异常的高速数据总线上的流量通过负载均衡的方式转移到其他的高速数据总线上,并向通过该高速数据总线与分组接入芯片连接的分组交换芯片发送离线消息。
在实际应用中,芯片之间的通信方式可以是通过背板高速总线、带内serdes信元通道或逻辑模块进行通信,在本实施方式中对通信方式不做限制。
步骤506,判断已隔离的高速数据总线的数量是否小于第四预设门限,若不小于第四预设门限,则进入步骤507,若小于第四预设门限,则进入步骤501。
具体地说,在对异常的高速数据总线进行隔离后,更新分组接入芯片已隔离的异常总线的数量,然后判断芯片内已隔离的高速数据总线的数量是否小于第四预设门限,在已隔离高速数据总线的数量不小于第四预设门限的时候,判定芯片故障的原因是芯片自身问题,进入
步骤507,在已隔离高速数据总线的数量小于第四预设门限的时候,故障的原因可能是高速数据总线故障,回到步骤501,继续监测高速数据总线状态。
在实际应用中,可以根据实际情况或使用需求对第四预设门限进行设置和调整,在本实施方式中对第四预设门限的设置不做限制。
步骤507,隔离分组接入芯片。
具体地说,在分组接入芯片已隔离的高速数据总线数量不小于第四预设门限的时候,判定故障的原因是芯片自身故障,复位故障的分组接入芯片,将故障芯片与其余正常的芯片隔离,将故障芯片上的业务转到后备芯片上,并根据分组接入芯片故障的信息进行上报告警。
步骤508,检测与分组交换芯片连接的各分组接入芯片中,存在已隔离有高速数据总线的芯片的数量是否小于第五预设门限,若已隔离有高速数据总线的芯片的数量小于第五预设门限,则进入步骤509;若已隔离有高速数据总线的芯片的数量不小于第五预设门限,则进入步骤510。
具体地说,分组接入芯片隔离高速数据总线时,会通过隔离的高速数据总线向与分组接入芯片相连的分组交换芯片发送离线消息,在分组交换芯片接收到来自不同分组接入芯片的离线消息的数量不小于第五预设门限时,离线分组交换芯片。因此,在总线状态异常时,检测与分组交换芯片连接的分组接入芯片中,已经进行过高速数据总线隔离的分组接入芯片的数量,在进行了高速数据总线隔离的分组接入芯片的数量小于第五预设门限时,进入步骤509,在检测到进行了高速数据总线隔离的分组接入芯片的数量不小于第五预设门限时,进入步骤510。
在实际应用中,可以根据实际情况或使用需求对第五预设门限进行设置和调整,在本实施方式中对第五预设门限的设置不做限制。
步骤509,判断分组交换芯片是否处于离线状态,若处于离线状态,则进入步骤511;若未处于离线状态,则回到对高速数据总线状态的监测。
具体地说,检测分组交换芯片的当前状态,若分组交换芯片处于离线状态,则进入步骤511,上线分组交换芯片,具体地说,将已下线的分组交换芯片重新上线,在故障排除完毕后,对已经离线的分组交换芯片进行重新上线,恢复分组交换芯片的运行,并回到对高速数据总线状态的监测;若在步骤509中判定分组交换芯片未处于离线状态,则直接回到高速数据总线状态的监测。
若在步骤508中判定已隔离有高速数据总线的芯片的数量不小于第五预设门限,则进入
步骤510,离线分组交换芯片。
具体地说,与分组交换芯片连接的分组接入芯片中进行过高速数据总线隔离的芯片的数量不小于第五预设门限的时候,判定故障原因是分组交换芯片故障,离线故障的分组交换芯片,将业务转到后备分组交换芯片上进行,并根据分组交换芯片的故障信息上报告警,并回到与分组交换芯片连接的分组接入芯片中进行过高速数据总线隔离的芯片的数量是否小于第五预设门限的检测。
由此,本实施方式提供了一种OTN设备的流控处理方法,通过对高速数据总线状态的监测,能够及时感测到总线异常,根据总线异常累计次数和第三预设门限的关系,先重新适配高速数据总线尝试对高速数据总线异常进行修复,无法恢复总线异常的时候,隔离故障的高速数据总线并向该高速数据总线对应的分组交换芯片发送离线消息,然后根据已隔离总线数量和第四预设门限关系,先通过隔离高速数据总线进行故障处理,在隔离的高速数据总线足够多后依旧无法解决故障时,判定分组接入芯片发生了故障,将故障的分组接入芯片隔离,避免影响其余芯片的运行。在分组交换芯片接收到的离线消息对应分组接入芯片的数量不小于第五预设门限的时候,判定分组交换芯片故障,离线分组交换芯片,在离线消息对应分组接入芯片数量小于第五预设门限的时候,将离线状态的分组交换芯片重新上线,避免对分组交换芯片误下线的同时,能够在故障修复后,恢复分组交换芯片的工作。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第四实施方式涉及一种电子设备,如图6所示,包括至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述的OTN设备的流控处理方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种OTN设备的流控处理方法,其特征在于,所述OTN设备包括N个芯片,其中,N为大于1的整数,所述方法包括:
根据潜在流量控制故障的故障类型,确定待监测的所述N个芯片的实时数据;
对所述N个芯片的实时数据进行监测;
根据监测到的所述实时数据确定各所述芯片是否会引起流量控制故障;
若所述芯片会引起流量控制故障,则根据所述流量控制故障的故障类型对芯片进行故障处理。
2.根据权利要求1所述的OTN设备的流控处理方法,其特征在于,所述潜在流量控制故障的故障类型包括以下之一或其任意组合:
芯片内部数据缓存异常、传输业务交叉配置错误、高速数据链路异常;
若所述潜在流量控制故障的故障类型包括芯片内部数据缓存异常,则待监测的所述实时数据包括:芯片的随机存取存储器RAM异常中断信号;
若所述潜在流量控制故障的故障类型包括传输业务交叉配置错误,则待监测的所述实时数据包括:芯片的实时流量;
若所述潜在流量控制故障的故障类型包括高速数据链路异常,则待监测的所述实时数据包括:芯片的高速数据总线状态。
3.根据权利要求2所述的OTN设备的流控处理方法,其特征在于,所述根据所述流量控制故障的故障类型对芯片进行故障处理,包括:
若所述故障类型为芯片内部数据缓存异常,则判断所述芯片的RAM异常中断信号的累计次数是否小于第一预设门限;
若所述芯片的RAM异常中断信号的累计次数小于所述第一预设门限,则重启所述芯片;
若所述芯片的RAM异常中断信号的累计次数不小于所述第一预设门限,则隔离所述芯片。
4.根据权利要求2所述的OTN设备的流控处理方法,其特征在于,所述根据所述流量控制故障的故障类型对芯片进行故障处理,包括:
若所述故障类型为传输业务交叉配置错误,则在所述芯片的实时流量异常的累计次数小于第二预设门限时,重置所述芯片的业务传输链路。
5.根据权利要求4所述的OTN设备的流控处理方法,其特征在于,所述根据所述流量控制故障的故障类型对芯片进行故障处理,还包括:
若所述故障类型为传输业务交叉配置错误,则在所述芯片的实时流量的异常累计次数不小于所述第二预设门限时,检测所述芯片的业务交叉配置与控制层面下发的业务交叉配置是否一致;
若所述芯片的业务交叉配置与所述控制层面下发的业务交叉配置不一致,则按照所述控制层面下发的业务交叉配置重置所述芯片的业务交叉配置;
若所述芯片的业务交叉配置与所述控制层面下发的业务交叉配置一致,则隔离实时流量异常的所述芯片。
6.根据权利要求2所述的OTN设备的流控处理方法,其特征在于,所述根据所述流量控制故障的故障类型对芯片进行故障处理,包括:
若所述故障类型为高速数据链路异常,且所述芯片为分组接入芯片,则判断所述分组接入芯片中存在异常的高速数据总线的异常累计次数是否小于第三预设门限;
若所述异常累计次数小于所述第三预设门限,则对所述异常的高速数据总线重新进行配置;
若所述异常累计次数不小于所述第三预设门限,则隔离所述异常的高速数据总线。
7.根据权利要求6所述的OTN设备的流控处理方法,其特征在于,所述隔离所述异常的高速数据总线后,还包括:
判断已隔离的高速数据总线的数量是否小于第四预设门限;
若所述高速数据总线的数量不小于所述第四预设门限,则隔离所述分组接入芯片。
8.根据权利要求6所述的OTN设备的流控处理方法,其特征在于,所述根据所述流量控制故障的故障类型对芯片进行故障处理,还包括:
若所述故障类型为高速数据链路异常,且所述芯片为分组交换芯片,则检测与所述分组交换芯片连接的各分组接入芯片中,存在的已隔离有高速数据总线的芯片的数量;
若所述已隔离有高速数据总线的芯片的数量小于第五预设门限,且所述分组交换芯片处于离线状态,则上线所述分组交换芯片;
若所述已隔离有高速数据总线的芯片的数量不小于所述第五预设门限,则离线所述分组交换芯片。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的OTN设备的流控处理方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的OTN设备的流控处理方法。
CN201911044106.0A 2019-10-30 2019-10-30 一种otn设备的流控处理方法、电子设备及存储介质 Active CN112751688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911044106.0A CN112751688B (zh) 2019-10-30 2019-10-30 一种otn设备的流控处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911044106.0A CN112751688B (zh) 2019-10-30 2019-10-30 一种otn设备的流控处理方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112751688A true CN112751688A (zh) 2021-05-04
CN112751688B CN112751688B (zh) 2023-08-01

Family

ID=75640540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911044106.0A Active CN112751688B (zh) 2019-10-30 2019-10-30 一种otn设备的流控处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112751688B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082128A1 (zh) * 2021-11-11 2023-05-19 华为技术有限公司 一种发送故障告警信息的方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0028091A1 (en) * 1979-10-18 1981-05-06 Sperry Corporation Fault detection in integrated circuit chips and in circuit cards and systems including such chips
US5099485A (en) * 1987-09-04 1992-03-24 Digital Equipment Corporation Fault tolerant computer systems with fault isolation and repair
CN1783837A (zh) * 2004-12-02 2006-06-07 华为技术有限公司 一种路由器故障检测方法
CN1794242A (zh) * 2005-09-09 2006-06-28 浙江大学 一种故障诊断数据采集与发布方法
CN101796753A (zh) * 2007-09-06 2010-08-04 哈里斯施特拉特克斯网络运行公司 具有物理层链路聚合、扩展故障检测和负载均衡的可复原数据通信
CN103001893A (zh) * 2012-12-12 2013-03-27 华为技术有限公司 多路径透传方法和交换芯片
CN103200044A (zh) * 2013-03-20 2013-07-10 烽火通信科技股份有限公司 背板测试系统及验证100g背板互连信号质量的方法
US20140310555A1 (en) * 2013-04-12 2014-10-16 Oracle International Corporation Physical domain error isolation and recovery in a multi-domain system
CN104202205A (zh) * 2014-09-26 2014-12-10 烽火通信科技股份有限公司 一种板卡内实现业务保护的方法及装置
CN105513645A (zh) * 2014-09-24 2016-04-20 中兴通讯股份有限公司 随机存取存储器ram的故障检测方法及装置
CN109214090A (zh) * 2018-09-07 2019-01-15 哈尔滨工业大学 基于改进遗传算法的数字微流控芯片故障修复方法
CN109996202A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种流量的计费方法及装置
CN110297737A (zh) * 2019-07-10 2019-10-01 北京汽车股份有限公司 多路输出芯片的故障诊断测试方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0028091A1 (en) * 1979-10-18 1981-05-06 Sperry Corporation Fault detection in integrated circuit chips and in circuit cards and systems including such chips
US5099485A (en) * 1987-09-04 1992-03-24 Digital Equipment Corporation Fault tolerant computer systems with fault isolation and repair
CN1783837A (zh) * 2004-12-02 2006-06-07 华为技术有限公司 一种路由器故障检测方法
CN1794242A (zh) * 2005-09-09 2006-06-28 浙江大学 一种故障诊断数据采集与发布方法
CN101796753A (zh) * 2007-09-06 2010-08-04 哈里斯施特拉特克斯网络运行公司 具有物理层链路聚合、扩展故障检测和负载均衡的可复原数据通信
CN103001893A (zh) * 2012-12-12 2013-03-27 华为技术有限公司 多路径透传方法和交换芯片
CN103200044A (zh) * 2013-03-20 2013-07-10 烽火通信科技股份有限公司 背板测试系统及验证100g背板互连信号质量的方法
US20140310555A1 (en) * 2013-04-12 2014-10-16 Oracle International Corporation Physical domain error isolation and recovery in a multi-domain system
CN105513645A (zh) * 2014-09-24 2016-04-20 中兴通讯股份有限公司 随机存取存储器ram的故障检测方法及装置
CN104202205A (zh) * 2014-09-26 2014-12-10 烽火通信科技股份有限公司 一种板卡内实现业务保护的方法及装置
CN109996202A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种流量的计费方法及装置
CN109214090A (zh) * 2018-09-07 2019-01-15 哈尔滨工业大学 基于改进遗传算法的数字微流控芯片故障修复方法
CN110297737A (zh) * 2019-07-10 2019-10-01 北京汽车股份有限公司 多路输出芯片的故障诊断测试方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
冯杰;王航;金德鹏;伍浩成;: "ASON设备160G交换单元设计与实现", 光通信技术, no. 05 *
朱坚;徐光辉;朱利利;: "基于Serial RapidIO的高速实时数据采集处理系统", 电子质量, no. 10 *
杨培营等: "ARM7与FPGA相结合在工业控制和故障检测中的应用", 《今日电子》 *
杨培营等: "ARM7与FPGA相结合在工业控制和故障检测中的应用", 《今日电子》, no. 12, 15 December 2007 (2007-12-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082128A1 (zh) * 2021-11-11 2023-05-19 华为技术有限公司 一种发送故障告警信息的方法及装置

Also Published As

Publication number Publication date
CN112751688B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN105808394B (zh) 一种服务器自愈的方法和装置
CN113468162B (zh) 用于针对异常数据进行处理的方法、设备和介质
KR950022386A (ko) 커먼 컨트롤 중복 스위치 방법
US7953016B2 (en) Method and system for telecommunication apparatus fast fault notification
CN113176963A (zh) 一种PCIe故障自修复方法、装置、设备及可读存储介质
CN111399879A (zh) 一种cpld的固件升级系统和方法
JP2011138251A (ja) 監視制御ネットワークシステム
US20140298076A1 (en) Processing apparatus, recording medium storing processing program, and processing method
CN104283718A (zh) 网络设备及用于网络设备的硬件故障诊断方法
WO2013071755A1 (zh) 基站设备自愈的实现方法及装置
CN112751688B (zh) 一种otn设备的流控处理方法、电子设备及存储介质
CN103001802A (zh) 以太端口故障自动修复方法及系统
CN115220937A (zh) 存储管理的方法、电子设备和程序产品
CN101854263A (zh) 网络拓扑的分析处理方法、系统和管理服务器
CN114884803B (zh) 多重冗余状态的处理方法、装置、设备和介质
CN109120558B (zh) 一种单板端口故障自动排除方法及系统
CN116340058A (zh) 主备切换方法及装置
CN113315235B (zh) 一种采用环形光纤通信的多单元故障准确定位方法
CN213122705U (zh) 一种故障自诊断的通讯系统
KR101714529B1 (ko) 차량용 네트워크 시스템 및 그 제어방법
CN115065589A (zh) 数据流量采集灾备处理方法、装置、设备、系统及介质
CN113973025A (zh) 基于can总线的星载计算机通讯可靠性与容错设计方法
Ma et al. Troubleshooting and Maintenance of SDH Optical Transmission System
CN112180906A (zh) 一种故障自诊断的通讯系统及其故障自诊断方法
CN108897645B (zh) 一种基于备用心跳磁盘的数据库集群容灾方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant