CN103490928A - 确定报文传输路径故障的方法、装置及系统 - Google Patents

确定报文传输路径故障的方法、装置及系统 Download PDF

Info

Publication number
CN103490928A
CN103490928A CN201310432941.8A CN201310432941A CN103490928A CN 103490928 A CN103490928 A CN 103490928A CN 201310432941 A CN201310432941 A CN 201310432941A CN 103490928 A CN103490928 A CN 103490928A
Authority
CN
China
Prior art keywords
heartbeat message
chip
multicast heartbeat
multicast
web plate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310432941.8A
Other languages
English (en)
Inventor
丁浩巍
王亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310432941.8A priority Critical patent/CN103490928A/zh
Publication of CN103490928A publication Critical patent/CN103490928A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种确定报文传输路径故障的方法、装置、系统、接口板以及网板,该方法包括:第一接口板生成并向网板发送第一组播心跳报文,所述第一组播心跳报文经过所述第一接口板中的TM芯片和NP芯片,所述第一接口板判断在发送第一组播心跳报文后的第一设定时长内,是否接收到所述网板发送的第二组播心跳报文,所述第一接口板判断在发送所述第一组播心跳报文后的第二设定时长内,是否接收到所述网板发送的第三组播心跳报文,根据判断结果,确定报文传输路径中出现故障的故障源。通过本发明实施例提供的技术方案能够准确地确定出报文传输路径故障的故障源,提高报文传输的可靠性。

Description

确定报文传输路径故障的方法、装置及系统
技术领域
本发明涉及网络通信技术领域,尤其是涉及一种确定报文传输路径故障的方法、装置、系统、接口板以及网板。
背景技术
在通信网络中,为增加网络覆盖范围,引入路由设备来转发报文。路由设备中主要包括至少一个用于收发报文的接口板和至少一个用于报文转发的网板。其中,至少一个接口板中的任意一个接口板,和路由设备中的全部网板连接。如图1所示,接口板中,主要包括信号处理器、物理接口卡(英文:PhysicalInterface Card,缩写:PIC)、网络处理器(英文:Network Processer,缩写:NP)芯片以及流量管理(英文:Traffic Management,TM)芯片。信号处理器、PIC、NP芯片、TM芯片以及网板之间可以通过总线连接传输报文。信号处理器是整个接口板的控制中心,用于控制报文在PIC、NP芯片以及TM芯片中转发。NP芯片包括用于将接收到的报文向TM芯片传输的上行处理模块,以及包括将接收到的报文向PIC传输的下行处理模块。TM芯片,同样也包括上行处理模块和下行处理模块。其中,TM芯片中的上行处理模块用于将接收到的报文向网板或TM中的下行处理模块转发,TM中的下行处理模块用于将接收到的报文向NP芯片中的下行处理模块转发。
报文传输路径是指报文在路由设备中传输时,所要经过的芯片路径。如图1中虚线所示的其中一种报文传输路径,报文从PIC流入,通过NP芯片的上行处理模块,传输给TM芯片的上行处理模块,TM芯片中的上行处理模块将报文分片处理后再发送给网板,网板将接收到的报文发送给该TM芯片中的下行处理模块,TM芯片中的下行处理模块将接收到的报文进行组包处理后发送给NP芯片,NP芯片将接收到的报文从PIC发送出去。报文在传输的过程中,会出现传输的报文被错误的改写的情况。该种情况一般是由芯片硬件故障或接口板噪声两种原因引起的。随着半导体技术的发展,工艺越来越先进,芯片规模的增大,报文传输路径故障检测成为一个不可回避的问题。但是通常情况下,还没有提出一种有效且为准确的方式,对报文传输路径故障做有效的排查,确定故障源。
综上所述,由于还没有提出一种有效且为准确的方式,确定报文传输路径故障的故障源,因此使得报文传输的可靠性较差。
发明内容
本发明提供了一种确定报文传输路径故障的方法、装置、系统、接口板以及网板,用于解决现有技术中确定报文传输路径故障的故障源准确性较差的技术问题。
第一方面,提供了一种确定报文传输路径故障的方法,包括:第一接口板生成并向网板发送第一组播心跳报文,所述第一组播心跳报文经过所述第一接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址;
所述第一接口板判断在发送所述第一组播心跳报文后的第一设定时长内,是否接收到所述网板发送的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文;
所述第一接口板判断在发送所述第一组播心跳报文后的第二设定时长内,是否接收到所述网板发送的第三组播心跳报文,所述第三组播心跳报文为第二接口板按照与所述第一接口板生成所述第一组播心跳报文的相同方式生成并发送给网板的报文,并且所述第三组播心跳报文由所述网板转发给所述第一接口板的,所述第三组播心跳报文经过所述第二接口板的TM芯片和NP芯片,所述第一接口板和所述第二接口板均连接在所述网板上,所述第一接口板和所述第二接口板属于所述组播组;
根据判断结果,确定报文传输路径中出现故障的故障源。
结合第一方面,在第一方面的第一种可能的实现方式中,所述根据判断结果,确定报文传输路径中出现故障的故障源,包括:
若所述第一接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第二组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,则确定所述第一接口板中的TM芯片和/或NP芯片出现故障;以及
若所述第一接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第三组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,且确定出所述第一接口板的TM芯片和NP芯片正常时,确定网板出现故障。
结合第一方面,在第一方面的第二种可能的实现方式中,所述根据判断结果,确定报文传输路径中出现故障的故障源,包括:
若所述第一接口板在第一设定时长内,未接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,未接收到所述网板发送的第三组播心跳报文,判断所述第一接口板的NP芯片和TM芯片是否出现故障,如判断所述第一接口板的NP芯片和TM芯片未出现故障,则确定所述网板出现故障。
结合第一方面,在第一方面的第三种可能的实现方式中,所述根据判断结果,确定报文传输路径中出现故障的故障源,包括:
若所述第一接口板在所述第一设定时长内接收到所述第二组播心跳报文,且在所述第二设定时长内未接收到第三组播心跳报文,判断所述第二接口板的TM芯片和NP芯片是否出现故障,如判断所述第二接口板的TM芯片和NP芯片未出现故障,则确定所述网板出现故障。
结合第一方面,在第一方面的第四种可能的实现方式中,在所述确定报文传输路径中出现故障的故障源之后,还包括:
对出现故障的故障源进行复位处理或隔离出现故障的故障源。
第二方面,提供了一种确定报文传输路径故障的方法,包括:网板接收和所述网板连接的至少一个接口板发送的第一组播心跳报文,所述第一组播心跳报文流经所述接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址;
所述网板向连接的至少一个接口板分别发送针对接收到的第一组播心跳报文响应的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文。
第三方面,提供了一种确定报文传输路径故障的装置,包括:发送单元,用于生成并向网板发送第一组播心跳报文,所述第一组播心跳报文经过第一接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组的组地址;
故障检测单元,用于判断在所述发送单元发送所述第一组播心跳报文后的第一设定时长内,是否接收到所述网板发送的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文;以及判断在发送所述第一组播心跳报文后的第二设定时长内,是否接收到所述网板发送的第三组播心跳报文,所述第三组播心跳报文为第二接口板按照与所述第一接口板生成所述第一组播心跳报文的相同方式生成并发送给网板的报文,并所述第三组播心跳报文由所述网板转发给所述第一接口板的,所述第三组播心跳报文经过所述第二接口板的TM芯片和NP芯片,所述第一接口板和所述第二接口板均连接在所述网板上,将所述判断结果传输给故障分析单元;
所述故障分析单元,用于获得所述故障检测单元传输的判断结果,根据判断结果,确定报文传输路径中出现故障的故障源。
结合第三方面,在第三方面的第一种可能的实现方式中,所述故障分析单元,具体用于若判断结果均为是,则比对所述第二组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,在比对结果不相同时,确定所述第一接口板中的TM芯片和/或NP芯片出现故障;以及比对所述第三组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不相同,且所述第一接口板正常时,确定网板出现故障。
结合第三方面,在第三方面的第二种可能的实现方式中,所述故障分析单元,具体用于若判断结果均为否,则确定所述第一接口板的NP芯片出现故障;以及若判断结果均为否,且所述第一接口板和第二接口板正常时,则确定所述网板出现故障。
结合第三方面,在第三方面的第三种可能的实现方式中,所述故障分析单元,具体用于若判断结果均为否,则确定所述第一接口板的NP芯片出现故障;以及若判断结果均为否,且所述第一接口板和第二接口板正常时,则确定所述网板出现故障。
结合第三方面,在第三方面的第四种可能的实现方式中,还包括:
故障处理单元,用于在所述确定报文传输路径中出现故障的故障源之后,对出现故障的故障源进行复位处理或隔离出现故障的故障源。
第四方面,提供了一种确定报文传输路径故障的装置,包括:接收单元,用于接收和网板连接的至少一个接口板发送的第一组播心跳报文,所述第一组播心跳报文流经所述接口板中的流量管理TM芯片和网络处理器NP芯片,并将接收到的第一组播心跳报文传输给发送单元;
发送单元,用于获得所述接收单元传输的第一组播心跳报文,并向和网板连接的至少一个接口板分别发送针对接收到的第一组播心跳报文响应的第二组播心跳报文。
第五方面,提供了一种确定报文传输路径故障的系统,包括至少一个接口板和至少一个网板,所述接口板和全部网板连接,其中:
所述接口板,用于生成并向网板发送第一组播心跳报文,所述第一组播心跳报文经过所述接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述接口板所在组的组地址;并判断在发送所述第一组播心跳报文后的第一设定时长内,是否接收到所述网板发送的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文;以及判断在发送所述第一组播心跳报文后的第二设定时长内,是否接收到所述网板发送的第三组播心跳报文,所述第三组播心跳报文是所述网板转发的除所述接口板之外的其它接口板按照与所述接口板生成所述第一组播心跳报文的相同方式生成并发送给网板的报文,并且所述第三组播心跳报文由所述网板转发给所述第一接口板的,所述第三组播心跳报文经过所述其它接口板的TM芯片和NP芯片,所述接口板和所述其它接口板均连接在所述网板上;根据判断结果,确定报文传输路径中出现故障的故障源;
所述网板,用于接收和所述网板连接的至少一个接口板发送的第一组播心跳报文;并向连接的至少一个接口板分别发送针对接收到的第一组播心跳报文响应的第二组播心跳报文。
结合第五方面,在第五方面的第一种可能的实现方式中,所述接口板,具体用于若判断结果均为是,则比对所述第二组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,在比对结果不相同时,确定所述第一接口板中的TM芯片和/或NP芯片出现故障;以及比对所述第三组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不相同,且所述第一接口板正常时,确定网板出现故障。
结合第五方面,在第五方面的第二种可能的实现方式中,所述接口板,具体用于若判断结果均为否,则确定所述第一接口板的NP芯片出现故障;以及若判断结果均为否,且所述第一接口板和第二接口板正常时,则确定所述网板出现故障。
结合第五方面,在第五方面的第三种可能的实现方式中,所述接口板,具体用于若在所述第一设定时长内接收到第二组播心跳报文,且在所述第二设定时长内未接收到第三组播心跳报文,判断所述第二接口板的TM芯片和NP芯片是否出现故障,如判断所述接口板的TM芯片和NP芯片未出现故障,则确定所述网板出现故障。
本发明提出的技术方案中,通过发送组播心跳报文,组播心跳报文在接口板和网板中传输,判断是否在设定时长内接收到传输后的组播心跳报文,根据判断结果,确定报文传输路径故障的故障源,能够较好地确定出报文传输路径故障的原因,以及出现故障的故障源,提高报文传输的可靠性。
附图说明
图1为现有技术中接口板报文传输路径示意图;
图2为本发明实施例一提供的一种确定报文传输路径故障的系统结构示意图;
图3a为本发明实施例二提供的一种确定报文传输路径故障的方法流程图;
图3b为本发明实施例二提供的一种确定报文传输路径故障的方法流程图;
图4为本发明实施例二提供的一种对确定出的故障源的处理方法流程图;
图5a为本发明实施例二提供的一种确定报文传输路径的装置结构示意图;
图5b为本发明实施例二提供的一种接口板结构示意图;
图6为本发明实施例二提供的一种确定报文传输路径故障的方法流程图;
图7为本发明实施例二提供的一种确定报文传输路径的装置结构示意图;
图8为本发明实施例二提供的一种网板结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对通常情况下无法准确有效的确定报文传输路径故障的故障源,因此使得报文传输的可靠性较差的问题,本发明实施例提出的技术方案中,通过发送组播心跳报文,组播心跳报文接口板和网板中传输,判断是否在设定时长内接收到传输后的组播心跳报文,根据判断结果,确定报文传输路径故障的故障源,能够较好地确定出报文传输路径故障的原因,以及出现故障的故障源,提高报文传输的可靠性。
下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
实施例一
本发明实施例一提出了一种确定报文传输路径故障的系统,如图2所示,包括:
至少一个用于收发报文的接口板,至少一个用于报文转发的网板。至少一个接口板中的任意一个接口板,和系统中的全部网板连接。即若系统中包含三个网板,四个接口板,则四个接口板均和三个网板连接。
针对该系统中的任意一个接口板,主要包括信号处理器、PIC、NP芯片以及TM芯片。信号处理器、PIC、NP芯片、TM芯片以及网板之间可以通过总线连接传输报文。信号处理器是整个接口板的控制中心,用于控制报文在PIC、NP芯片以及TM芯片中转发。
信号处理器可以是中央处理器(英文:central processing unit,缩写:CPU),或者是CPU和硬件芯片的组合。硬件芯片可以是以下一种或多种的组合:专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD)。
本发明实施例一提出的技术方案中,以信号处理器包含CPU和硬件芯片为例来进行详细阐述。在信号处理器为CPU或者CPU与硬件芯片的组合的情况下,接口板中还可以包括存储器,存储器用于存储程序代码,信号处理器从存储器中获得存储的程序代码,按照获得的程序代理执行相应地处理。存储器可以是易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);或者非易失性存储器(英文:non-volatilememory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);或者上述种类的存储器的组合。
NP芯片包括用于将接收到的报文向TM芯片传输的上行处理模块,以及包括将接收到的报文向PIC传输的下行处理模块。TM芯片,同样也包括上行处理模块和下行处理模块。其中,TM中的上行处理模块用于将接收到的报文向网板或TM中的下行处理模块转发,TM中的下行处理模块用于将接收到的报文向NP芯片中的下行处理模块转发。
网板,用于和接口板连接,接收接口板发送的报文,并将接收到的报文转发给发送报文的接口板的TM芯片的下行处理模块,以及将接收到的报文转发给其他和网板连接的接口板。
以附图2中所示的系统架构为例来进行详细阐述,该系统中包括接口板1、接口板2,以及网板3,接口板1、接口板2均和网板3连接。
针对任意一个接口板,接口板中的信号处理器生成并发送用于确定报文传输路径故障的组播心跳报文。
各接口板中的信号处理器可以在存储器中获得存储器中存储的程序,执行相应的处理。其中,组播心跳报文可以是信号处理器生成的,也可以是信号处理器按照获得的程序构建出来的。由于信号处理器发送的组播心跳报文是要在报文传输路径中流经不同的芯片,因此,为便于阐述,本发明实施例一提出的技术方案中,将信号处理器发送的组播心跳报文称之为第一组播心跳报文,第一组播心跳报文的目的地址为接口板所在组播组的地址。
第一组播心跳报文经过接口板的NP芯片的上行处理模块、TM芯片的上行处理模块传输至和该接口板连接的网板。
其中,第一组播心跳报文在接口板中的TM芯片的上行处理模块进行组播发送。TM芯片的上行处理模块根据第一组播心跳报文中所携带的组标识,查找对应的组播成员的数量,根据组播成员的数量,对第一组播心跳报文进行复制,并将复制后的报文发送给网板。例如,假设系统中共有三个接口板,即组播组的成员的数量为3,则接口板中的TM芯片的上行处理模块将接收到的第一组播心跳报文复制为三份后发送给网板。
网板接收到第一组播心跳报文后,将第一组播心跳报文发送给接口板以及其它接口板。为便于阐述,将网板接收到的第一组播心跳报文发送给该接口板的组播心跳报文称之为第二组播心跳报文,第二组播心跳报文为网板针对第一组播心跳报文的响应报文。将网板接收到的第一组播心跳报文发送给其它接口板的组播心跳报文称之为第三组播心跳报文。第二组播心跳报文经过接口板的TM芯片的下行处理模块、NP芯片的下行处理模块传输至接口板中的信号处理器。同样地,第三组播心跳报文,经过其它接口板的TM芯片的下行处理模块、NP芯片的下行处理模块传输至其它接口板中的信号处理器。
在发送第一组播心跳报文后的第一设定时长内,接口板中的信号处理器判断是否接收到第二组播心跳报文。以及在发送第一组播心跳报文后的第二设定时长内,接口板中的信号处理器判断是否接收到第三组播心跳报文。
具体实施中,第一设定时长和第二设定时长可以通过定时器设置,第一设定时长和第二设定时长分别对应的定时器设置可以相同,也可以不相同。本发明实施例一提出的技术方案中,考虑到第三组播心跳报文的传输路径可能大于第二组播心跳报文的传输路径,因此第二设定时长略大于第一设定时长。
接口板中的信号处理器,根据判断结果,确定报文传输路径中出现故障的故障源。具体为下述几种情况:
第一种情况:如果二者的判断结果均为是,即若接口板在第一设定时长内,接收到网板发送的第二组播心跳报文,且该接口板在第二设定时长内,接收到网板发送的第三组播心跳报文,比对第二组播心跳报文的净荷内容和第一组播心跳报文的净荷内容,若比对结果不同,则确定该接口板中的TM芯片和/或NP芯片出现故障。以及若接口板在第一设定时长内,接收到网板发送的第二组播心跳报文,且该接口板在第二设定时长内,接收到网板发送的第三组播心跳报文,比对第三组播心跳报文的净荷内容和第一组播心跳报文的净荷内容,若比对结果不同,且确定出该接口板的TM芯片和NP芯片正常时,确定网板出现故障。
其中,获得第二组播心跳报文的第二净荷内容和第一组播心跳报文的第一净荷内容,若获得的第二净荷内容和第一净荷内容不相同,则确定接口板中的TM芯片和/或NP芯片出现故障。例如,若第二组播心跳报文在传输过程中出现丢包、或者出现报文内容被改写的情况,则接口板接收到的第二组播心跳报文中的净荷内容和第一组播心跳报文中的第一净荷内容不相同。
获得第三组播心跳报文的第三净荷内容和第一组播心跳报文的第一净荷内容,若获得的第三净荷内容和第一净荷内容不相同,且接口板处于正常状态时,则确定网板出现故障。该种情况下,说明接口板接收到的其它接口板发送的组播心跳报文(即本发明实施一上述提出的第三组播心跳报文)在传输过程中出现了丢包或者内容被改写的情况,可以确定为故障是网板故障导致的。进一步地,还可以把错误信息上报,进行二级分析,例如可以将该网板隔离处理。
第二种情况:如果二者的判断结果均为否,即若接口板在第一设定时长内,未接收到网板发送的第二组播心跳报文,且该接口板在第二设定时长内,未接收到网板发送的第三组播心跳报文,判断该接口板的NP芯片和TM芯片是否出现故障,如判断出该接口板的NP芯片和TM芯片未出现故障,则确定网板出现故障。
若接口板的NP芯片或TM芯片出现故障,可以对接口板的NP芯片或TM芯片进行故障处理。例如可以将该NP芯片或TM芯片进行复位,如果复位后,在下一个检测周期内,仍然出现同样的情况,则可以通过告警的方式,提示更换整块接口板。在第二种情况下,还存在一种可能性,如果二者的判断结果均为否,即接口板在发送第一组播心跳报文后的第一设定时长内,未接收到第二组播心跳报文,且在发送第一组播心跳报文后的第二设定时长内,未接收到第三组播心跳报文时,若此时系统中的全部或部分接口板均处于正常状态时,则确定网板出现故障。
第三种情况:如果判断结果不全为是,则将根据接收到的第二组播心跳报文或第三组播心跳报文,确定报文传输路径中出现故障的故障源。
若接口板在第一设定时长内接收到第二组播心跳报文,且在第二设定时长内未接收到第三组播心跳报文,判断其它接口板的TM芯片和NP芯片是否出现故障,如判断出除该接口板之外的其它接口板的TM芯片和NP芯片未出现故障,则确定所述网板出现故障。
该种情况下,接口板能够在第一设定时长内接收到本板发出的组播心跳报文,即能够接收到第二组播心跳报文,但是在第二设定时长内,接口板无法接收到跨板(即其它接口板)发送的组播心跳报文,即无法接收到第三组播心跳报文,该种情况下,说明该接口板中的芯片未出现故障,故障源是网板处。此时可以对网板链路进行检查。
具体地,可以检查网板和该接口板之间的传输链路是否有循环冗余校验(英文:Cyslic Redundancy Check,CRC)或其它硬件问题。可选地,可以检查该接口板上TM芯片的链路状态,如果TM芯片的链路状态正常,则可以将故障源确定为是网板,将错误信息上报,发起对网板的链路检查。
在上述三种情况中,在确定报文传输路径中出现故障的故障源之后,还可以对出现故障的故障源进行复位处理,和/或隔离出现故障的故障源。
其中,对出现故障的故障源进行处理时,可以引入控制中心,为便于阐述,上述确定报文传输路径故障的方式可以统称为心跳检测。
首先,心跳检测开始。
其次,判断心跳检测得到的故障源是在接口板本板上,还是在跨板上,即故障源在其它接口板上。
若确定出是接口板本板的故障,则出现故障的接口板处理确定出的故障源,将出现故障的故障源进行复位处理,或者隔离出现故障的故障源。若确定出是跨板的故障源,则可以将故障源上报给控制中心。控制中心分析是否是多个芯片共有的问题,如果是,则确定网板出现故障。
再次,控制中心根据确定出的结果,对网板进行隔离处理。
具体地,控制中心触发网板,进行隔离和恢复的处理。
然后,控制中心接收到网板隔离接收的处理结果,则通知接口板重新进行心跳检测。
最后,接口板在网板隔离的情况下,重新进行心跳检测,如果仍然出现跨板的故障源,则上报给控制中心,控制中心再次隔离网板。并继续执行心跳检测步骤,直至故障问题解决为止。
下面以图2所示的两个接口板和一个网板为例来进行方案的详细阐述。具体地,以图2所示的接口板2、接口板1和网板1为例,来进行方案的详细阐述。
接口板2中的信号处理器为CPU或者CPU与硬件芯片的组合,接口板2中还可以包括存储器,用于存储程序代码。
接口板2中的CPU获得存储器中存储的程序代码,按照获得的程序代码执行相应的处理。信号处理器发送第一组播心跳报文。第一组播心跳报文经过接口板2中的NP芯片的上行处理模块、TM芯片的上行处理模块传输至和该接口板2连接的网板。
其中,第一组播心跳报文在接口板2中的TM芯片的上行处理模块进行组播发送。TM芯片的上行处理模块根据第一组播心跳报文中所携带的组标识,查找对应的组播成员的数量,根据组播成员的数量,对第一组播心跳报文进行复制,并将复制后的报文发送给网板。例如,若系统中共有三个接口板,即组播组的成员的数量为3,则接口板中的TM芯片的上行处理模块将接收到的第一组播心跳报文复制为三份后发送给网板。
网板在接收到第一组播心跳报文后,将第一组播心跳报文发送给接口板2,以及将第一组播心跳报文发送给接口板1和接口板3。为便于阐述,将网板接收到的第一组播心跳报文发送给该接口板2的组播心跳报文称之为第二组播心跳报文。将网板接收到的第一组播心跳报文发送给其它接口板(例如接口板1和接口板3)的组播心跳报文称之为第三组播心跳报文。
第二组播心跳报文经过接口板2的TM芯片的下行处理模块、NP芯片的下行处理模块传输至接口板2中的信号处理器。第三组播心跳报文,经过其它接口板(如接口板1)的TM芯片的下行处理模块、NP芯片的下行处理模块传输至其它接口板中的信号处理器。
具体地,上述第一组播心跳报文、第二组播心跳报文以及第三组播心跳报文的具体传输路径请参见附图2中所示。
对于接口板2来说,在发送第一组播心跳报文后的第一设定时长内,接口板2中的信号处理器判断是否接收到第二组播心跳报文。以及在发送第一组播心跳报文后的第二设定时长内,接口板2中的信号处理器判断是否接收到第三组播心跳报文。考虑到第三组播心跳报文的传输路径可能大于第二组播心跳报文的传输路径,因此第二设定时长略大于第一设定时长。例如,第二设定时长可以是5ms,第一设定时长可以是3ms。
接口板2中的信号处理器,根据判断结果,确定报文传输路径中出现故障的故障源。
其中,根据判断结果,确定报文传输路径中出现故障的故障源的具体实施方式请参见上文中的详细阐述,这里不再赘述。
本发明实施例一上述提出的技术方案中,第一组播心跳报文、第二组播心跳报文和第三组播心跳报文,都是组播心跳报文,三者的净荷内容相同,为便于阐述,将每个接口板发送的组播心跳报文,按照接收对象进行区分。每个接口板发送的组播心跳报文,在本板中的各芯片的上行处理模块传输后,发送给网板,通过网板,环回本板中的各芯片的下行处理模块,以及通过网板,经过其它接口板中的各芯片的下行处理模块传输,在组播心跳报文的整个传输过程中,覆盖网板芯片、接口板中的TM芯片和NP芯片的整个报文传输路径,能够实现对多个接口板上的转发芯片和网板上的转发芯片的故障检测,既能够确定出单播报文转发路径故障的故障源,也可以确定组播报文转发路径故障的故障源。并进而根据检测的结果,对故障芯片进行处理,从而提高报文传输的可靠性。并且,在方案实施过程中,不需要额外增加硬件设备,能够较好地节省生产成本。
实施例二
基于上述实施例一中提出的系统架构,本发明实施例二提出一种确定报文传输路径故障的方法,如图3a所示,其具体处理流程如下述,为便于阐述,将系统中的接口板做出区分,以第一接口板和第二接口板为例来进行方案的详细阐述,第一接口板和第二接口板都是和网板连接的接口板,其结构组成相同。
步骤31,第一接口板生成并向网板发送第一组播心跳报文。
第一组播心跳报文经过第一接口板中的TM芯片和NP芯片,第一组播心跳报文的目的地址为第一接口板所在组播组的地址。针对系统中包含的全部接口板中的任意一个接口板来说,在上电后,接口板生成并发送第一组播心跳报文。第一组播心跳报文经过本板(即发送第一组播心跳报文的接口板)中的NP芯片的上行处理模块、TM芯片的上行处理模块传输至和该接口板连接的网板。
第一接口板中的TM芯片的上行处理模块根据第一组播心跳报文中所携带组播组的组标识,查找对应的组播成员的数量,根据组播成员的数量,对第一组播心跳报文进行复制,并将复制后的第一组播心跳报文发送给网板。
步骤32,第一接口板判断在发送第一组播心跳报文后的第一设定时长内,是否接收到网板发送的第二组播心跳报文,以及判断在发送第一组播心跳报文后的第二设定时长内,是否接收到网板发送的第三组播心跳报文。
第二组播心跳报文为网板针对第一组播心跳报文的响应报文,第二组播心跳报文是第一组播心跳报文按照报文传输路径传输至网板后,由网板转发后流经第一接口板的TM芯片和NP芯片的组播心跳报文。第三组播心跳报文为第二接口板按照与第一接口板生成第一组播心跳报文的相同方式生成并发送给网板的报文,并且第三组播心跳报文由网板转发给第一接口板的,第三组播心跳报文经过第二接口板的TM芯片和NP芯片。第二接口板是和第一接口板均连接在网板上的接口板。
其中,系统中的全部接口板(如第一接口板和第二接口板)在上电后,按照本发明实施例二提出的技术方案,每个接口板都发送第一组播心跳报文,同时,对于每个接口板来说,在发送第一组播心跳报文之后,接收第二组播心跳报文和第三组播心跳报文。
其中,第一组播心跳报文、第二组播心跳报文以及第三组播心跳报文都是组播心跳报文,在网板和接口板处于正常的状态下,第一组播心跳报文、第二组播心跳报文和第三组播心跳报文的净荷内容相同。第一组播心跳报文、第二组播心跳报文以及第三组播心跳报文的传输路径分别为:
第一组播心跳报文流经第一接口板中的NP芯片的上行处理模块、TM芯片的上行处理模块,传输至和该第一接口板连接的网板。具体地,第一组播心跳报文在第一接口板中的TM芯片的上行处理模块进行组播发送。TM芯片的上行处理模块根据第一组播心跳报文中所携带的组标识,查找对应的组播成员的数量,根据组播成员的数量,对第一组播心跳报文进行复制,并将复制后的报文发送给网板。
第二组播心跳报文经过第一接口板的TM芯片的下行处理模块、NP芯片的下行处理模块传输至第一接口板中的信号处理器。
第三组播心跳报文,经过第一接口板的TM芯片的下行处理模块、NP芯片的下行处理模块传输至第一接口板中的信号处理器。
具体请参见上述实施例一中的详细阐述,本发明实施例二提出的技术方案中不再赘述。
第一设定时长和第二设定时长可以通过定时器设置,第一设定时长和第二设定时长分别对应的定时器设置可以相同,也可以不相同。
具体地,第一设定时长和第二设定时长的详细说明请参见上述实施例一中的详细阐述,本发明实施例二不再赘述。
步骤33,根据判断结果,确定报文传输路径中出现故障的故障源。
具体地,第一接口板中的信号处理器,根据判断结果,确定报文传输路径中出现故障的故障源。具体为下述几种情况:
第一种情况:如果二者的判断结果均为是,即第一接口板在发送第一组播心跳报文后的第一设定时长内,接收到第二组播心跳报文,且在发送第一组播心跳报文后的第二设定时长内,接收到第三组播心跳报文时,该种情况下,比对第二组播心跳报文和第一组播心跳报文,以及比对第三组播心跳报文和第一组播心跳报文,根据比对结果,确定报文传输路径中出现故障的故障源。
比对第二组播心跳报文的净荷内容和第一组播心跳报文的净荷内容,若比对结果不同,则确定第一接口板中的TM芯片和/或NP芯片出现故障。以及比对第三组播心跳报文的净荷内容和第一组播心跳报文的净荷内容,若比对结果不同,且确定出第一接口板的TM芯片和NP芯片正常时,确定网板出现故障。
具体地,若第二组播心跳报文在传输过程中出现丢包、或者出现报文内容被改写的情况,则接收到的第二组播心跳报文中的净荷内容和第一组播心跳报文中的第一净荷内容不相同。
获得第三组播心跳报文的第三净荷内容和第一组播心跳报文的第一净荷内容,若获得的第三净荷内容和第一净荷内容不相同,且第一接口板、第二接口板均处于正常状态时,则确定网板出现故障。该种情况下,说明第一接口板接收到的第二接口板发送的组播心跳报文(即本发明实施一上述提出的第三组播心跳报文)在传输过程中出现了丢包或者内容被改写的情况,该种情况下,如果第一接口板是处于正常状态,则可以确定为故障是网板故障导致的。进一步地,还可以把错误信息上报,进行二级分析,例如可以将该网板隔离处理。
第二种情况:如果二者的判断结果均为否,即若第一接口板在第一设定时长内,未接收到网板发送的第二组播心跳报文,且该第一接口板在第二设定时长内,未接收到网板发送的第三组播心跳报文,判断第一接口板的NP芯片和TM芯片是否出现故障,如判断第一接口板的NP芯片和TM芯片未出现故障,则确定所述网板出现故障。
该种情况下,可以对该出现故障的NP芯片进行处理,例如可以将该NP芯片进行复位,如果复位后,在下一个检测周期内,仍然出现同样的情况,则可以通过告警的方式,提示更换该接口板。
第三种情况:如果判断结果不全为是,则将根据接收到的第二组播心跳报文或第三组播心跳报文,确定报文传输路径中出现故障的故障源。
若第一接口板在第一设定时长内接收到第二组播心跳报文,且在第二设定时长内未接收到第三组播心跳报文,判断第二接口板的TM芯片和NP芯片是否出现故障,如判断第二接口板的TM芯片和NP芯片未出现故障,则确定网板出现故障。
该种情况下,第一接口板能够在第一设定时长内接收到本板发出的组播心跳报文,即能够接收到第二组播心跳报文,但是在第二设定时长内,第一接口板无法接收到跨板(即第二接口板)发送的组播心跳报文,即无法接收到第三组播心跳报文,该种情况下,说明该第一接口板中的芯片未出现故障,故障源是网板处。此时可以对网板链路进行检查。
具体地,可以检查网板和该第一接口板之间的传输链路是否有CRC或其它硬件问题。可选地,可以检查该第一接口板上TM芯片的链路状态,如果TM芯片的链路状态正常,则可以将故障源确定为是网板,将错误信息上报,发起对网板的链路检查。
可选地,参见图3b,在上述步骤33在确定报文传输路径中出现故障的故障源之后,还包括:
步骤34,处理确定出的故障源。
可以至少按照下述方式中的一种处理确定出的故障源:
第一种方式:对出现故障的故障源进行复位处理。
例如,对于故障源是第一接口板中的NP芯片或TM芯片,可以对NP芯片或TM芯片进行复位处理。
第二种方式:隔离出现故障的故障源。
例如,对于故障源是第一接口板中的NP芯片或TM芯片,可以对NP芯片或TM芯片进行复位处理。如果复位处理后,仍然出现相同的故障,则可以将NP芯片或TM芯片进行隔离。
其中,处理确定出的故障源的具体实施过程如图4所示,具体如下述:
对出现故障的故障源进行处理时,可以引入控制中心,为便于阐述,上述确定报文传输路径故障的方式可以统称为心跳检测。
步骤41,心跳检测开始。
步骤42,判断心跳检测得到的故障源是在第一接口板本板上,还是在第二接口板上,即故障源在跨板上。
步骤43,若确定出是第一接口板本板的故障,则出现故障的第一接口板处理确定出的故障源,将出现故障的故障源进行复位处理,或者隔离出现故障的故障源。
步骤44,若确定出是第二接口板的故障源,则可以将故障源上报给控制中心。
步骤45,控制中心分析是否是多个芯片共有的问题,如果是,则确定网板出现故障。
步骤46,控制中心根据确定出的结果,对网板进行隔离处理。
步骤47,控制中心接收到网板隔离接收的处理结果,则通知第一接口板和第二接口板重新进行心跳检测。返回执行步骤41。
步骤48,第一接口板在网板隔离的情况下,重新进行心跳检测,如果仍然出现跨板的故障源,则上报给控制中心,控制中心再次隔离网板。并继续执行心跳检测步骤,直至故障问题解决为止。
相应地,本发明实施例二还提出一种确定报文传输路径故障的装置,如图5a所示,其具体结构包括:
发送单元51,用于生成并向网板发送第一组播心跳报文,所述第一组播心跳报文经过第一接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址。
故障检测单元52,用于判断在发送所述第一组播心跳报文后的第一设定时长内,是否接收到所述网板发送的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文;以及判断在发送所述第一组播心跳报文后的第二设定时长内,是否接收到所述网板发送的第三组播心跳报文,所述第三组播心跳报文为第二接口板按照与所述第一接口板生成所述第一组播心跳报文的相同方式生成并发送给网板的报文,并且所述第三组播心跳报文由所述网板转发给所述第一接口板的,所述第三组播心跳报文经过所述第二接口板的TM芯片和NP芯片,所述第一接口板和所述第二接口板均连接在所述网板上,所述第一接口板和所述第二接口板属于所述组播组,并将所述判断结果传输给故障分析单元53。
所述故障分析单元53,用于获得所述故障检测单元52传输的判断结果,根据判断结果,确定报文传输路径中出现故障的故障源。
具体地,上述故障分析单元53,具体用于若所述第一接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第二组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,则确定所述第一接口板中的TM芯片和/或NP芯片出现故障;以及若所述第一接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第三组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,且确定出所述第一接口板的TM芯片和NP芯片正常时,确定网板出现故障。
具体地,上述故障分析单元53,具体用于若所述第一接口板在第一设定时长内,未接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,未接收到所述网板发送的第三组播心跳报文,判断所述第一接口板的NP芯片和TM芯片是否出现故障,如判断所述第一接口板的NP芯片和TM芯片未出现故障,则确定所述网板出现故障。
具体地,上述故障分析单元53,具体用于若所述第一接口板在所述第一设定时长内接收到所述第二组播心跳报文,且在所述第二设定时长内未接收到第三组播心跳报文,判断所述第二接口板的TM芯片和NP芯片是否出现故障,如判断所述第二接口板的TM芯片和NP芯片未出现故障,则确定所述网板出现故障。
可选地,上述装置还包括:
故障处理单元,用于在所述确定报文传输路径中出现故障的故障源之后,对出现故障的故障源进行复位处理或隔离出现故障的故障源。
具体地,上述故障处理单元,具体用于至少按照下述方式中的一种处理所述确定出的故障源:对出现故障的故障源进行复位处理;隔离出现故障的故障源。
本发明实施例二上述提出的确定报文传输路径故障的装置,其包括的各单元组成,可以作为一个模块,集成在接口板中,也可以作为一个独立的组成设备和接口板连接。
相应地,本发明实施例二还提出一种接口板,如图5b所示,其具体结构包括存储器501,信号处理器502、NP芯片503、TM芯片504、其中,存储器501,信号处理器502、NP芯片503、TM芯片504之间通过总线连接传输报文,其中,NP芯片503包括用于向TM芯片504传输报文的上行处理模块,和用于将接收到TM芯片504传输报文发送给信号处理器502的下行处理模块,TM芯片504包括用于接收NP芯片503传输报文的上行处理模块,以及用于将接收到的网板发送的报文传输给TM芯片的下行处理模块,具体如下述:
存储器501,用于存储程序指令,并将存储的程序指令提供给所述信号处理器502。
信号处理器502,用于信号处理器,用于获得所述存储器中存储的程序指令,并根据获得的程序指令执行:生成并向网板发送第一组播心跳报文,所述第一组播心跳报文经过自身的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述接口板所在组播组的地址;判断在发送所述第一组播心跳报文后的第一设定时长内,是否接收到所述网板发送的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文;以及判断在发送所述第一组播心跳报文后的第二设定时长内,是否接收到所述网板发送的第三组播心跳报文,所述第三组播心跳报文为其它接口板按照与所述接口板生成所述第一组播心跳报文的相同方式生成并发送给网板的报文,并且所述第三组播心跳报文由所述网板转发给所述接口板的,所述第三组播心跳报文经过所述其它接口板的TM芯片和NP芯片,所述接口板和所述其它接口板均连接在所述网板上,所述接口板和所述其它接口板属于所述组播组,根据判断结果,确定报文传输路径中出现故障的故障源。
具体地,上述信号处理器501,具体用于若所述接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述接口板在第二设定时长内,接收到网板发送的第三组播心跳报文,比对第二组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,则确定所述接口板中的TM芯片和/或NP芯片出现故障;以及若所述接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第三组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,且确定出所述接口板的TM芯片和NP芯片正常时,确定网板出现故障。
具体地,上述信号处理器501,具体用于若接口板在第一设定时长内,未接收到所述网板发送的第二组播心跳报文,且所述接口板在第二设定时长内,未接收到所述网板发送的第三组播心跳报文,判断所述接口板的NP芯片和TM芯片是否出现故障,如判断所述接口板的NP芯片和TM芯片未出现故障,则确定所述网板出现故障。
具体地,上述信号处理器501,具体用于若所述接口板在所述第一设定时长内接收到所述第二组播心跳报文,且在所述第二设定时长内未接收到第三组播心跳报文,判断所述接口板和除该接口板之外的其它接口板的TM芯片和NP芯片是否出现故障,如判断所述其它口板的TM芯片和NP芯片未出现故障,则确定所述网板出现故障。
具体地,上述信号处理器501,还用于在所述确定报文传输路径中出现故障的故障源之后,对出现故障的故障源进行复位处理或隔离出现故障的故障源。
具体地,上述信号处理器501,还用于至少按照下述方式中的一种处理所述确定出的故障源:对出现故障的故障源进行复位处理;隔离出现故障的故障源。
相应地,在网板侧,本发明实施例二提出一种确定报文传输路径故障的方法,如图6所示,其具体处理流程如下述:
步骤61,网板接收和网板连接的至少一个接口板发送的第一组播心跳报文。
第一组播心跳报文流经所述接口板中的TM芯片和NP芯片。第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址。
步骤62,网板向连接的至少一个接口板分别发送针对接收到的第一组播心跳报文响应的第二组播心跳报文。
第二组播心跳报文为网板针对所述第一组播心跳报文的响应报文。各接口板可以根据接收到第二组播心跳报文,确定报文传输路径故障的故障源。
其中,接口板根据接收到第二组播心跳报文确定报文传输路径故障的故障源的具体实施方式请参见上述实施例一中的详细阐述,本发明实施例二不再赘述。
相应地,本发明实施例二提出一种确定报文传输路径故障的装置,如图7所示,其具体处理流程如下述:
接收单元701,用于接收和网板连接的至少一个接口板发送的第一组播心跳报文,所述第一组播心跳报文流经所述接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址,并将接收到的第一组播心跳报文传输给发送单元702。
所述发送单元702,用于获得所述接收单元701传输的第一组播心跳报文,并向连接的至少一个接口板分别发送针对接收到的第一组播心跳报文响应的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文。
相应地,本发明实施例二提出一种网板,如图8所示,包括接口801和信号处理器802,接收801和信号处理器802之间通过总线连接,用于传输报文,其中:
接口801,用于和接口板连接,并接收连接的至少一个接口板发送的第一组播心跳报文,所述第一组播心跳报文流经所述接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址,并将接收到的第一组播心跳报文传输给信号处理器802。
信号处理器802,用于获得所述接口801接收到的第一组播心跳报文,根据第一组播心跳报文,形成第二组播心跳报文;并将第二组播心跳报文传输给接口801。
所述接口801,还用于获得第二组播心跳报文,并向连接的至少一个接口板分别发送针对接收到的第一组播心跳报文响应的第二组播心跳报文。
接口801可以为以下一种或多种:提供有线接口的网络接口控制器(英文:network interface controller,缩写:NIC),例如以太网NIC,该以太网NIC可以提供铜线和/或光纤接口;提供无线接口的NIC,例如无线局域网(英文:wireless local area network,缩写:WLAN)NIC。接口还可以是串行器(英文:SERializer)或解串器(英文:DESerializer),其中串行器和解串器可以简称为SERDES。是一种时分多路复用、点对点的通信技术,即在发送端多路低速并行信号被转换成高速串行信号,经过传输媒体(光缆或铜线),最后在接收端高速串行信号重新转换成低速并行信号。
信号处理器802可以是CPU,或者是CPU和硬件芯片的组合。信号处理器802还可以是NP。或者是CPU和NP的组合,或者是NP和硬件芯片的组合。
上述硬件芯片可以是以下一种或多种的组合:ASIC,FPGA,CPLD。
可选地,在信号处理器802为CPU或者CPU与硬件芯片的组合的情况下,中继还可以包括存储器,存储器用于存储程序代码,所处信号处理器从存储器中获得存储的程序代码,按照获得的程序代理执行相应地处理。
存储器可以是易失性存储器,例如随机存取存储器RAM;或者非易失性存储器,例如ROM,快闪存储器,HDD或SSD;或者上述种类的存储器的组合。
本发明实施例二上述提出的技术方案中,每个接口板发送的组播心跳报文,在本板中的各芯片的上行处理模块传输后,发送给网板,通过网板,环回本板中的各芯片的下行处理模块,以及通过网板,经过其它接口板中的各芯片的下行处理模块传输,在组播心跳报文的整个传输过程中,覆盖网板芯片、接口板中的TM芯片和NP芯片的整个报文传输路径,能够实现对多个接口板上的转发芯片和网板上的转发芯片的故障检测,既能够确定出单播报文转发路径故障的故障源,也可以确定组播报文转发路径故障的故障源。并进而根据检测的结果,对故障芯片进行处理,从而提高报文传输的可靠性。并且,在方案实施过程中,不需要额外增加硬件设备,能够较好地节省生产成本。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程报文处理设备的处理器以产生一个机器,使得通过计算机或其他可编程报文处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程报文处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程报文处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种确定报文传输路径故障的方法,其特征在于,包括:
第一接口板生成并向网板发送第一组播心跳报文,所述第一组播心跳报文经过所述第一接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址;
所述第一接口板判断在发送所述第一组播心跳报文后的第一设定时长内,是否接收到所述网板发送的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文;
所述第一接口板判断在发送所述第一组播心跳报文后的第二设定时长内,是否接收到所述网板发送的第三组播心跳报文,所述第三组播心跳报文为第二接口板按照与所述第一接口板生成所述第一组播心跳报文的相同方式生成并发送给网板的报文,并且所述第三组播心跳报文由所述网板转发给所述第一接口板的,所述第三组播心跳报文经过所述第二接口板的TM芯片和NP芯片,所述第一接口板和所述第二接口板均连接在所述网板上,所述第一接口板和所述第二接口板属于所述组播组;
根据判断结果,确定报文传输路径中出现故障的故障源。
2.如权利要求1所述的方法,其特征在于,所述根据判断结果,确定报文传输路径中出现故障的故障源,包括:
若所述第一接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第二组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,则确定所述第一接口板中的TM芯片和/或NP芯片出现故障;以及
若所述第一接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第三组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,且确定出所述第一接口板的TM芯片和NP芯片正常时,确定网板出现故障。
3.如权利要求1所述的方法,其特征在于,所述根据判断结果,确定报文传输路径中出现故障的故障源,包括:
若所述第一接口板在第一设定时长内,未接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,未接收到所述网板发送的第三组播心跳报文,判断所述第一接口板的NP芯片和TM芯片是否出现故障,如判断所述第一接口板的NP芯片和TM芯片未出现故障,则确定所述网板出现故障。
4.如权利要求1所述的方法,其特征在于,所述根据判断结果,确定报文传输路径中出现故障的故障源,包括:
若所述第一接口板在所述第一设定时长内接收到所述第二组播心跳报文,且在所述第二设定时长内未接收到第三组播心跳报文,判断所述第二接口板的TM芯片和NP芯片是否出现故障,如判断所述第二接口板的TM芯片和NP芯片未出现故障,则确定所述网板出现故障。
5.如权利要求1所述的方法,其特征在于,在所述确定报文传输路径中出现故障的故障源之后,还包括:
对出现故障的故障源进行复位处理或隔离出现故障的故障源。
6.一种确定报文传输路径故障的方法,其特征在于,包括:
网板接收和所述网板连接的至少一个接口板发送的第一组播心跳报文,所述第一组播心跳报文流经所述接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址;
所述网板向连接的至少一个接口板分别发送针对接收到的第一组播心跳报文响应的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文。
7.一种确定报文传输路径故障的装置,其特征在于,包括:
发送单元,用于生成并向网板发送第一组播心跳报文,所述第一组播心跳报文经过第一接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址;
故障检测单元,用于判断在发送所述第一组播心跳报文后的第一设定时长内,是否接收到所述网板发送的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文;以及判断在发送所述第一组播心跳报文后的第二设定时长内,是否接收到所述网板发送的第三组播心跳报文,所述第三组播心跳报文为第二接口板按照与所述第一接口板生成所述第一组播心跳报文的相同方式生成并发送给网板的报文,并且所述第三组播心跳报文由所述网板转发给所述第一接口板的,所述第三组播心跳报文经过所述第二接口板的TM芯片和NP芯片,所述第一接口板和所述第二接口板均连接在所述网板上,所述第一接口板和所述第二接口板属于所述组播组,并将所述判断结果传输给故障分析单元;
所述故障分析单元,用于获得所述故障检测单元传输的判断结果,根据判断结果,确定报文传输路径中出现故障的故障源。
8.如权利要求7所述的装置,其特征在于,所述故障分析单元,具体用于若所述第一接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第二组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,则确定所述第一接口板中的TM芯片和/或NP芯片出现故障;以及若所述第一接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第三组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,且确定出所述第一接口板的TM芯片和NP芯片正常时,确定网板出现故障。
9.如权利要求8所述的装置,其特征在于,所述故障分析单元,具体用于若所述第一接口板在第一设定时长内,未接收到所述网板发送的第二组播心跳报文,且所述第一接口板在第二设定时长内,未接收到所述网板发送的第三组播心跳报文,判断所述第一接口板的NP芯片和TM芯片是否出现故障,如判断所述第一接口板的NP芯片和TM芯片未出现故障,则确定所述网板出现故障。
10.如权利要求8所述的装置,其特征在于,所述故障分析单元,具体用于若所述第一接口板在所述第一设定时长内接收到所述第二组播心跳报文,且在所述第二设定时长内未接收到第三组播心跳报文,判断所述第二接口板的TM芯片和NP芯片是否出现故障,如判断所述第二接口板的TM芯片和NP芯片未出现故障,则确定所述网板出现故障。
11.如权利要求7所述的装置,其特征在于,还包括:
故障处理单元,用于在所述确定报文传输路径中出现故障的故障源之后,对出现故障的故障源进行复位处理或隔离出现故障的故障源。
12.一种确定报文传输路径故障的装置,其特征在于,包括:
接收单元,用于接收和网板连接的至少一个接口板发送的第一组播心跳报文,所述第一组播心跳报文流经所述接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述第一接口板所在组播组的地址,并将接收到的第一组播心跳报文传输给发送单元;
发送单元,用于获得所述接收单元传输的第一组播心跳报文,并向连接的至少一个接口板分别发送针对接收到的第一组播心跳报文响应的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文。
13.一种确定报文传输路径故障的系统,其特征在于,包括至少一个接口板和至少一个网板,所述接口板和全部网板连接,其中:
所述接口板,用于生成并向网板发送第一组播心跳报文,所述第一组播心跳报文经过所述接口板中的流量管理TM芯片和网络处理器NP芯片,所述第一组播心跳报文的目的地址为所述接口板所在组播组的地址;以及判断在发送所述第一组播心跳报文后的第一设定时长内,是否接收到所述网板发送的第二组播心跳报文,所述第二组播心跳报文为所述网板针对所述第一组播心跳报文的响应报文;判断在发送所述第一组播心跳报文后的第二设定时长内,是否接收到所述网板发送的第三组播心跳报文,所述第三组播心跳报文为其它接口板按照与所述接口板生成所述第一组播心跳报文的相同方式生成并发送给网板的报文,并且所述第三组播心跳报文由所述网板转发给所述接口板的,所述第三组播心跳报文经过所述其它接口板的TM芯片和NP芯片,所述接口板和所述其它接口板均连接在所述网板上,所述接口板和所述其它接口板属于所述组播组;根据判断结果,确定报文传输路径中出现故障的故障源;
所述网板,用于接收和所述网板连接的至少一个接口板发送的第一组播心跳报文;并向连接的至少一个接口板分别发送针对接收到的第一组播心跳报文响应的第二组播心跳报文。
14.如权利要求13所述的系统,其特征在于,所述接口板,具体用于若所述接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第二组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,则确定所述接口板中的TM芯片和/或NP芯片出现故障;以及若所述接口板在第一设定时长内,接收到所述网板发送的第二组播心跳报文,且所述接口板在第二设定时长内,接收到所述网板发送的第三组播心跳报文,比对第三组播心跳报文的净荷内容和所述第一组播心跳报文的净荷内容,若比对结果不同,且确定出所述接口板的TM芯片和NP芯片正常时,确定网板出现故障。
15.如权利要求14所述的系统,其特征在于,所述接口板,具体用于若所述接口板在第一设定时长内,未接收到所述网板发送的第二组播心跳报文,且所述接口板在第二设定时长内,未接收到所述网板发送的第三组播心跳报文,判断所述接口板的NP芯片和TM芯片是否出现故障,如判断所述接口板的NP芯片和TM芯片未出现故障,则确定所述网板出现故障。
16.如权利要求14所述的系统,其特征在于,所述接口板,具体用于若所述接口板在所述第一设定时长内接收到所述第二组播心跳报文,且在所述第二设定时长内未接收到第三组播心跳报文,判断其它接口板的TM芯片和NP芯片是否出现故障,如判断所述其它接口板的TM芯片和NP芯片未出现故障,则确定所述网板出现故障。
CN201310432941.8A 2013-09-22 2013-09-22 确定报文传输路径故障的方法、装置及系统 Pending CN103490928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310432941.8A CN103490928A (zh) 2013-09-22 2013-09-22 确定报文传输路径故障的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310432941.8A CN103490928A (zh) 2013-09-22 2013-09-22 确定报文传输路径故障的方法、装置及系统

Publications (1)

Publication Number Publication Date
CN103490928A true CN103490928A (zh) 2014-01-01

Family

ID=49830900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310432941.8A Pending CN103490928A (zh) 2013-09-22 2013-09-22 确定报文传输路径故障的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN103490928A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108718258A (zh) * 2018-05-29 2018-10-30 新华三技术有限公司 一种板间链路的质量检测方法及设备
CN116915584A (zh) * 2023-09-08 2023-10-20 新华三技术有限公司 一种在网计算异常处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1783837A (zh) * 2004-12-02 2006-06-07 华为技术有限公司 一种路由器故障检测方法
US20070253329A1 (en) * 2005-10-17 2007-11-01 Mo Rooholamini Fabric manager failure detection
CN101616019A (zh) * 2008-06-26 2009-12-30 华为技术有限公司 一种实现网络故障检测的方法、网络节点和系统
CN101707536A (zh) * 2009-11-25 2010-05-12 成都市华为赛门铁克科技有限公司 故障检测方法、线卡及主控卡
CN102143014A (zh) * 2010-11-03 2011-08-03 华为数字技术有限公司 一种检测单板故障的方法、单板和路由器
CN102571492A (zh) * 2012-01-06 2012-07-11 华为技术有限公司 检测路由设备故障的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1783837A (zh) * 2004-12-02 2006-06-07 华为技术有限公司 一种路由器故障检测方法
US20070253329A1 (en) * 2005-10-17 2007-11-01 Mo Rooholamini Fabric manager failure detection
CN101616019A (zh) * 2008-06-26 2009-12-30 华为技术有限公司 一种实现网络故障检测的方法、网络节点和系统
CN101707536A (zh) * 2009-11-25 2010-05-12 成都市华为赛门铁克科技有限公司 故障检测方法、线卡及主控卡
CN102143014A (zh) * 2010-11-03 2011-08-03 华为数字技术有限公司 一种检测单板故障的方法、单板和路由器
CN102571492A (zh) * 2012-01-06 2012-07-11 华为技术有限公司 检测路由设备故障的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108718258A (zh) * 2018-05-29 2018-10-30 新华三技术有限公司 一种板间链路的质量检测方法及设备
CN116915584A (zh) * 2023-09-08 2023-10-20 新华三技术有限公司 一种在网计算异常处理方法及装置
CN116915584B (zh) * 2023-09-08 2023-12-08 新华三技术有限公司 一种在网计算异常处理方法及装置

Similar Documents

Publication Publication Date Title
CN103684835B (zh) 链路故障上报方法、处理方法、传输节点及主节点
US9413609B2 (en) Communication device and method for transmitting messages in a redundantly operable industrial communication network
RU2656684C2 (ru) Система шин и способ эксплуатации такой системы шин
US9218230B2 (en) Method for transmitting messages in a redundantly operable industrial communication network and communication device for the redundantly operable industrial communication network
CN103346944B (zh) 多点协同检测链路的环网
CN103581025B (zh) 路由信息处理方法、设备及系统
CN101222402B (zh) 以太环网保护方法、系统及装置
CN103023770B (zh) 环网的保护方法及装置
CN103220189B (zh) 一种mad检测备份方法和设备
JP2010187244A (ja) 端末装置間のトークン異常検出/回復方式
CN102918809B (zh) 网络和扩展单元以及运行网络的方法
CN111447095A (zh) 双向转发检测切换方法、双向转发检测模块及边缘设备
EP2525527B1 (en) Network relay device and network relay method
CN1885750B (zh) 远端射频模块及其传输信号的方法
CN103490928A (zh) 确定报文传输路径故障的方法、装置及系统
CN101980478B (zh) 设备故障的检测处理方法、装置和网络设备
CN105765909A (zh) 一种链路切换方法及装置
KR102534739B1 (ko) 고장 다층 링크 회복 방법 및 제어기
CN101867495A (zh) 以太网自动保护链路故障快速切换方法
CN101729349B (zh) 一种基于rrpp的主环通道连通性检测方法及装置
CN102546215B (zh) 一种数据链路保护方法、装置及设备
CN101958812B (zh) 链路故障检测方法及系统
Garbade et al. Fault localization in NoCs exploiting periodic heartbeat messages in a many-core environment
RU2586568C2 (ru) Способ и устройство защиты сервиса межкольцевой связи
CN107347003A (zh) 自动切换通讯线路的方法和装置及风力发电机组

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140101