CN111682966B - 带故障主动报告功能的网络通信装置,系统及其方法 - Google Patents

带故障主动报告功能的网络通信装置,系统及其方法 Download PDF

Info

Publication number
CN111682966B
CN111682966B CN202010457428.4A CN202010457428A CN111682966B CN 111682966 B CN111682966 B CN 111682966B CN 202010457428 A CN202010457428 A CN 202010457428A CN 111682966 B CN111682966 B CN 111682966B
Authority
CN
China
Prior art keywords
module
fault
register access
active
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010457428.4A
Other languages
English (en)
Other versions
CN111682966A (zh
Inventor
徐佳庆
曹继军
刘路
赖明澈
蔡东京
唐付桥
肖灿文
吕方旭
戴艺
齐星云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010457428.4A priority Critical patent/CN111682966B/zh
Publication of CN111682966A publication Critical patent/CN111682966A/zh
Application granted granted Critical
Publication of CN111682966B publication Critical patent/CN111682966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种带故障主动报告功能的网络通信装置,系统及其方法,本发明网络通信装置包括依次相连的寄存器访问模块、寄存器访问总控模块以及带内管理模块,所述网络通信装置为网络接口芯片或网络交换芯片,所述寄存器访问模块中带有主动报告模块,所述主动报告模块的错误编码输出端与所述寄存器访问模块的故障输入端相连。本发明通过增加主动报告模块上报故障信息并可将逐步信息传递给管理服务器上,从而获取整个互连网络中的故障信息,本发明能够以消耗极少的网络带宽资源(每次故障发生只需要1个管理报文即可),来实现对高性能互连网络故障的有效监控,可用于结点芯片的故障监控。

Description

带故障主动报告功能的网络通信装置,系统及其方法
技术领域
本发明涉及大规模计算机系统的互连网络故障监控技术,具体涉及一种带故障主动报告功能的网络通信装置,系统及其方法。
背景技术
随着计算机技术的快速发展,高性能计算系统的规模也迅速增长,其可靠性问题越来越突出。高性能计算系统主要由三大部件构成,即存储、计算、网络(即高速互连网络)。其中,高速互连网络是高性能计算系统全局性基础设施,是构成计算系统并实现系统中各个计算结点协同工作的关键部件。互连网络故障对整个计算系统可用性方面造成的负面影响往往比计算结点故障大得多。所以,为了提高整个计算系统的可靠性及可用性,必需提升互连网络的可用性。
为了提升互连网络可用性,总体上可以采用两方面设计思路,第一方面是采用相关可靠性设计技术,以提高网络本身的可靠性。例如,网络物理编码层使用前向纠错码(Forward Error Correction,FEC)技术;网络链路层采用循环冗余校验(CyclicRedundancy Check,CRC)和重传机制;网络路由层使用多路径等容错路由技术;网络传输层采用基于可靠连接(Reliable Connection,RC)的传输协议等;网络芯片内部存储采用ECC(Error Correction Code,ECC)进行数据完整性保护等;第二方面是设计高效的故障恢复机制与方法,以提高用户体验的可靠性。通过快速发现错误、快速定位错误、快速诊断故障、快速处理故障,从而缩短互联网络的故障状态时间,有效提升对互连网络可用性的用户体验质量(Quality of Experience,QoE)。
目前,高性能计算系统的标准互连技术以前兆以太网(Gigabit Ethernet)和InfiniBand网络技术为主。这两种互连网络的管理采用轮询方式监控网络状态,即可由监控台或监控代理周期性的启动网络状态扫描过程,以采集整个网络系统中所有网络单元的状态,并通过分析采集的数据而获得网络故障信息。随着高性能计算系统互连网络规模增大,以及由网络复杂性提高所引起的需要采集数据量增多,采用轮询方式监控网络状态的数据采集周期会增长,从而导致网络故障发现过程的实时性将会变差。此外,相对于采用带外管理而言,尽管采用带内管理(上述两种网络采用的都是带内管理)可缩短互连网络系统状态数据采集时间,但是如果为了提高网络故障发现的实时性而将数据采集周期设置的太短,将会使得带内管理网络流量占用网络带宽的比重增加,从而降低互连网络数据传输的实际性能。
互连网络系统通常有网络接口芯片和网络交换芯片连接而成。如果在网络芯片的逻辑设计中增加网络故障扫描与主动报告的方法和机制,就能解决轮询方式所面临的上述问题。因此,如何基于带内的互连网络故障主动报告,已经成为一项亟待解决的关键技术问题。
发明内容
本发明要解决的技术问题:针对传统故障监控方法在发生故障时发现故障时间较长,同时会占用较多网络带宽资源,同时可扩展性较差等问题,提供一种带故障主动报告功能的网络通信装置,系统及其方法,本发明通过增加主动报告模块上报故障信息并可将逐步信息传递给管理服务器上,从而获取整个互连网络中的故障信息,本发明能够以消耗极少的网络带宽资源(每次故障发生只需要1个管理报文即可),来实现对高性能互连网络故障的有效监控,可用于结点芯片的故障监控。
为了解决上述技术问题,本发明采用的技术方案为:
一种带故障主动报告功能的网络通信装置,包括依次相连的寄存器访问模块、寄存器访问总控模块以及带内管理模块,所述网络通信装置为网络接口芯片或网络交换芯片,其特征在于,所述寄存器访问模块中带有主动报告模块,所述寄存器访问模块的故障输出端与所述主动报告模块的故障源信号输入端输入端相连。
可选地,所述主动报告模块包括控制逻辑和编码模块,且所述主动报告模块具有故障源信号输入端、故障上报使能信号输入端、主动报告错误有效信号输出端以及错误编码输出端,所述控制逻辑用于根据故障源信号输入端、故障上报使能信号输入端控制主动报告错误有效信号输出端输出的主动报告错误有效信号,所述错误编码输出端用于根据故障源信号输入端生成错误编码并通过错误编码输出端输出。
可选地,所述故障源信号输入端、故障上报使能信号输入端两者的带宽位数相同,故障上报使能信号输入端输入的每一位故障上报使能信号用于控制故障源信号输入端输入的对应位故障源信号的使能,所述控制逻辑用于在至少一位故障源信号输入有效且对应故障上报使能信号有效时控制主动报告错误有效信号输出端输出的主动报告错误有效信号。
可选地,所述寄存器访问模块还包括错误主动报告转换子模块,所述错误主动报告转换子模块用于将主动报告模块输出的主动报告错误有效信号、错误编码转化成寄存器访问链上的寄存器访问编码输出,所述寄存器访问编码中包含故障模块编址和错误编码,且所述寄存器访问编码通过不同编码类型来区分普通的寄存器访问请求和主动报告模块输出的主动报告信息,所述主动报告模块的主动报告错误有效信号输出端、错误编码输出端分别与错误主动报告转换子模块的输入端相连。
此外,本发明还提供一种大规模计算机系统,该大规模计算机系统中的计算结点和交换结点均包含前述的带故障主动报告功能的网络通信装置。
此外,本发明还提供一种前述带故障主动报告功能的网络通信装置的应用方法,其特征在于步骤包括:
1)主动报告模块根据错误源信号和使能信号后生成主动报告信息并发送给错误主动报告转换子模块;
2)错误主动报告转换子模块将收到主动报告模块的主动报告信息发送给寄存器访问模块;
3)判断寄存器访问模块当前是否有寄存器访问请求,如果没有寄存器访问请求,则将主动报告信息转换成寄存器访问传输格式并通过寄存器访问链发送给网络芯片的寄存器访问总控模块;如果有寄存器访问请求,则暂存主动报告信息并等待寄存器访问请求处理完成,在寄存器访问请求处理完成后再将主动报告信息转换成寄存器访问传输格式并通过寄存器访问链发送给网络芯片的寄存器访问总控模块;
4)寄存器访问总控模块收到寄存器访问模块发送的可能包含主动报告信息的寄存器访问应答时,通过寄存器访问编码来判断前寄存器访问应答是否为主动报告信息,若为主动报告信息,则将寄存器访问数据拆解为故障模块编址和错误编码传递给带内管理模块;
5)带内管理模块收到的故障模块编址和错误编码后,记录故障模块的模块编号并将错误编码所对应的故障信息存在带内管理模块的错误状态寄存器中,并将各个故障模块的模块编号及其错误编码上报输出。
可选地,步骤5)中将各个故障模块的模块编号及其错误编码上报输出具体是指采用固定间隔报告的方式上报输出,所述采用固定间隔报告的方式上报输出的步骤包括:
A1)在每一个主动报告周期,检查各个错误状态寄存器,如果错误状态寄存器中没有存储故障信息则本周期结束;否则,检测主动报告使能信号是否有效,如果主动报告使能信号无效,则本周期结束,否则跳转执行下一步;
A2)将通过带内管理模块的配置寄存器中设置的路由、目的结点的网络接口芯片的编号、虚端口号向作为目的结点的带内管理服务器发送报文,且该报文包含本结点的编号,所有错误状态寄存器中记录的故障信息,然后清空所有错误状态寄存器,本周期结束。
可选地,步骤5)中将各个故障模块的模块编号及其错误编码上报输出具体是指采用尽力报告的方式上报输出,所述采用尽力报告的方式上报输出的步骤包括:
B1)检查各个错误状态寄存器,如果错误状态寄存器未满则重新跳转执行步骤B1);否则跳转执行下一步;
B2)将通过带内管理模块的配置寄存器中设置的路由、目的结点的网络接口芯片的编号、虚端口号向作为目的结点的带内管理服务器发送报文,且该报文包含本结点的编号,所有错误状态寄存器中记录的故障信息,然后清空所有错误状态寄存器,本周期结束。
可选地,步骤5)之后还包括在带内管理服务器接收主动报告信息的步骤:在带内管理服务器上打开用于接收主动报告的监控程序,通过所述监控程序接收所有网络通信装置上传的主动报告信息,解析主动报告信息获得芯片编号、故障模块编号、错误代码等信息,从而确定故障发生所在的芯片类型、位置与具体的故障类型。
可选地,步骤1)之前还包括通过带内管理服务器初始化配置主动报告模块的步骤:
C1)将带内管理服务器的网络接口芯片作为初始的当前网络通信装置,并将其输出端端口作为初始的当前端口;
C2)读取网络通信装置的前、后向路由表,获得当前端口的所有对端端口,如果获取成功则将获得的所有对端端口加入到当前端口的下一跳,然后分别将获得的所有对端端口作为新的当前端口、对端端口对应的网络通信装置作为新的当前网络通信装置,跳转执行步骤C2);否则跳转执行步骤C3);
C3)将从初始的当前端口开始得到的每一跳信息生成的后向路由表;
C4)根据将生成的后向路由表各个网络通信装置中主动报告模块的路由表,根据带内管理服务器根据其使用的网络通信装置的编号、监控程序使用的虚拟端口通过带内管理程序分别初始化各个网络通信装置中主动报告模块主动上报的目的结点信息。
和现有技术相比,本发明具有下述优点:本发明首先通过增加主动报告模块来筛选并获得所需的故障信息,通过在寄存器管理模块和带内管理模块中加入故障信息的上报功能,使得故障信息能够快速传递(设置较小主动上报周期)给带内管理服务器,从而获取整个互连网络中的故障信息,本发明能够以消耗极少的网络带宽资源(每次故障发生只需要1个管理报文即可),来实现对高性能互连网络故障的有效监控,可用于结点芯片的故障监控。
附图说明
图1为本发明实施例中网络通信装置的结构示意图。
图2为本发明实施例中网络通信装置的工作原理示意图。
图3是本发明的主动报告模块接口示意图。
图4是本发明实施例中的主动报告模块与寄存器访问模块的接口信号示意图。
图5是本发明实施例中的故障信息传递给服务器的示意图。
图6是本发明实施例中实现流程图。
图7是本发明实施例中拓扑发现过程示意图。
具体实施方式
如图1所示,本实施例带故障主动报告功能的网络通信装置包括依次相连的寄存器访问模块、寄存器访问总控模块以及带内管理模块,网络通信装置为网络接口芯片或网络交换芯片,寄存器访问模块中带有主动报告模块,寄存器访问模块的故障输入端与主动报告模块的故障编码输出端相连。如图2所示,本实施例通过主动报告模块收集并上送故障信息,然后将故障信息传递给管理服务器,管理服务器通过监听程序可接收主动上报的故障信息。相对传统网络通信装置而言需要作出下述改进:增加故障主动报告模块并筛选上报故障信息;在已有的寄存器访问总控模块以及带内管理模块中加入故障主动上报功能,将故障信息从主动报告模块上报给管理服务器、通过管理服务器接受并解析故障信息。
本实施例中,故障源信号输入端、故障上报使能信号输入端两者的带宽位数相同,故障上报使能信号输入端输入的每一位故障上报使能信号用于控制故障源信号输入端输入的对应位故障源信号的使能,控制逻辑用于在至少一位故障源信号输入有效且对应故障上报使能信号有效时控制主动报告错误有效信号输出端输出的主动报告错误有效信号。
如图3所示,主动报告模块包括控制逻辑和编码模块,且主动报告模块具有故障源信号输入端([15:0] alarm_source)、故障上报使能信号输入端([15:0] alarm_enable)、主动报告错误有效信号输出端以及错误编码输出端([15:0] arpt_errcode),控制逻辑用于根据故障源信号输入端、故障上报使能信号输入端控制主动报告错误有效信号输出端输出的主动报告错误有效信号arpt_valid,错误编码输出端用于根据故障源信号输入端生成错误编码arpt_errcode并通过错误编码输出端输出。当模块故障发生时,对应故障源的故障输出端将由0变为1,如在端口的链路层模块中,当端口链路断开时,其对应的错误源会由0变为1,每个主动报告模块可以包含16个错误源,从而形成16位的错误编码,因此本实施例中故障源信号alarm_source输入端、故障上报使能信号alarm_enable输入端、错误编码arpt_errcode输出端均为16位宽度,而主动报告错误有效信号arpt_valid输出端为一位宽度。当模块发生故障时,还可以根据故障在实际应用中是否需要立即处理来选择是否上报,通过配置16位的主动报告使能信号alarm_enable,来选择是否上报故障信息,只有当错误源由0变为1,且该错误源对应的故障位使能为alarm_enable[i]也为1时,才允许上报该故障;当一个时钟周期内,出现故障,即存在错误源由0变为1,且对应使能位也为1时,在下一个时钟周期主动报告模块会将主动报告错误有效信号arpt_valid置为1,同时根据故障源生成相应的错误编码arpt_errcode。例如作为一种可选实施方式,当第0,4,8号错误源出现故障,同时其对应使能均为1时,则错误编码arpt_errcode为16’h0111。
如图4所示,本实施例中寄存器访问模块还包括错误主动报告转换子模块,错误主动报告转换子模块用于将主动报告模块输出的主动报告错误有效信号、错误编码转化成寄存器访问链上的寄存器访问传输格式输出,寄存器访问传输格式中包含故障模块编址和错误编码,且寄存器访问传输格式中的传输编码reg_cmd_code通过不同编码值来区分普通的寄存器访问请求和主动报告模块输出的主动报告信息,主动报告模块的主动报告错误有效信号输出端、错误编码输出端分别与错误主动报告转换子模块的输入端相连。错误主动报告转换子模块将主动报告模块上送的主动报告错误有效信号arpt_valid和错误编码arpt_ errcode转化成寄存器访问链上的寄存器访问传输格式,其中故障模块编址和错误编码构成了寄存器访问数据reg_cmd_data,并通过设置寄存器访问编码reg_cmd_code的编码值来区分普通的寄存器访问请求。
本实施例中网络通信装置还包括带外管理接口,主动报告模块的故障上报使能信号输入端与带外管理接口相连,用于生成故障上报使能信号。
如图4所示,本实施例首先通过主动报告模块来筛选并获得任意结点Node所需的故障信息,然后可通过互连网络(带内网络)发送给管理服务器Server,从而获取整个互连网络中的故障信息,能够以消耗极少的网络带宽资源(每次故障发生只需要1个管理报文即可),来实现对高性能互连网络故障的有效监控,可用于结点芯片的故障监控。
如图5所示,本实施例带故障主动报告功能的网络通信装置的工作步骤包括:
第一步,配置主动报告使能,通过针对性的设置每个模块的主动报告使能,建议根据运行中的实际效果来调整使能。步骤1.1 配置互连接口芯片的使能:由于互连接口芯片的每个模块都可以有16种不同的错误源,在设计过程中为了避免主动报告模块硬件资源的浪费,都会所有模块都会产生16种错误源,以尽可能的上报模块自身的错误信息,然而,芯片本身的可靠性设计,如RC、ECC等技术,能够使互连网络系统在出现部分错误时不会对网络系统的可用性造成影响,因此,在实际使用过程中,建议对发生故障时,对网络性能没有损失或者损失较小的错误源予以屏蔽,即关闭该错误源的使能,从而在保证网络系统的可用性的前提下,减少错误源报告信息,从而突出主要故障,保证重点问题能够得到充分关注并及时解决。步骤1.2 配置互连交换芯片的使能:与步骤1.1中情况类似,在互连交换芯片中同样存在部分故障对网络可用性不造成影响,因此,同样可以关闭部分错误源使能。根据系统运行的数据情况打开或者关闭错误源使能,既能保证系统的可用性,又能突出主要故障,保证问题的及时解决,避免频繁产生故障信息,方便系统维护,从而提高系统可用性。
第二步,配置带内路由、目的服务器的ID、VP等。步骤2.1 对全系统中互连交换芯片与互连接口芯片分别进行编号,如,以管理ID中最高位来区分交换芯片与接口芯片,由于管理ID共有24位,其他23位用于对所有网络交换芯片和接口芯片进行编号。根据网络芯片的位置分配管理ID,并通过带外管理配置所有芯片的管理ID;步骤2.2 使用拓扑发现机制,发现系统中所有网络芯片并得到所有网络芯片与监控台或监控代理之间的路由(包含前向和后向路由表)。拓扑发现是通过读取当前芯片的端口寄存器信息,获取对端端口号及所在的芯片的管理ID。网络中第一个能发现的芯片即监控台或监控代理本身所使用的网络接口芯片,该芯片的前后向路由表均为直接到带内管理端口(127),遍历所有端口,得到对端所有芯片的管理ID,排除已经发现的id,得到新发现的所有芯片管理id,不断循环直到没有新发现的芯片管理id,即发现系统中所有的芯片。如图6所示,可以从管理服务器的接口芯片0(ZNI0)的端口0、1分别连接交换芯片0(ZNR0)和交换芯片1(ZNR1)的0号端口,即可发现交换芯片0和1,然后通过交换芯片1的5号端口连接交换芯片2(ZNR2)的1号端口,发现交换芯片2(ZNR2)。同时可以得出交换芯片2(ZNR2)的前向路由为3跳1,5,127;后向路由为3跳1,0,127。最终得到目标结点ZNI即可结束。步骤2.3 根据将生成的后向路由表,监控台或监控代理所使用的互连接口芯片的管理ID,监控程序使用的VP等主动报告相关信息通过带内管理程序分别配入对应芯片的带内管理主动报告的路由表,目的结点的接口芯片ID、VP等相关的配置寄存器中。
第三步,在管理服务器上打开的监控程序,当互连芯片出现故障且该错误源没有通过使能进行屏蔽时,将会在通过监控程序接收到故障芯片发送出的主动报告管理报文。通过对ID号进行解析(如,步骤2.1中最高位为1即为互连网络交换芯片,为0即为互连网络接口芯片),根据不同芯片解析报文中包含的模块编号、错误编码等信息得出故障所发生的模块、类型等信息。
此外,本实施例还提供一种大规模计算机系统,该大规模计算机系统中的计算结点和交换结点均包含前述带故障主动报告功能的网络通信装置。
此外,本实施例还提供前述带故障主动报告功能的网络通信装置的应用方法,步骤包括:
1)主动报告模块根据故障源信号和使能信号生成主动报告信息并发送给错误主动报告转换子模块;
2)错误主动报告转换子模块将收到主动报告模块的主动报告信息发送给寄存器访问模块;
3)判断寄存器访问模块当前是否有寄存器访问请求,如果没有寄存器访问请求,则将主动报告信息转换成寄存器访问传输格式并通过寄存器访问链发送给网络芯片的寄存器访问总控模块;如果有寄存器访问请求,则暂存主动报告信息并等待寄存器访问请求处理完成,在寄存器访问请求处理完成后再将主动报告信息转换成寄存器访问传输格式并通过寄存器访问链发送给网络芯片的寄存器访问总控模块;
4)寄存器访问总控模块收到寄存器访问模块发送的可能包含主动报告信息的寄存器访问应答时,通过寄存器访问编码来判断前寄存器访问应答是否为主动报告信息,若为主动报告信息,则将寄存器访问数据拆解为故障模块编址和错误编码传递给带内管理模块;
5)带内管理模块收到的故障模块编址和错误编码后,记录故障模块的模块编号并将错误编码所对应的故障信息存在带内管理模块的错误状态寄存器中,并将各个故障模块的模块编号及其错误编码上报输出。
作为一种可选的实施方式,步骤5)中将各个故障模块的模块编号及其错误编码上报输出具体是指采用固定间隔报告的方式上报输出。
其中,采用固定间隔报告的方式上报输出的步骤包括:
A1)在每一个主动报告周期,检查各个错误状态寄存器,如果错误状态寄存器中没有存储故障信息则本周期结束;否则,检测主动报告使能信号是否有效,如果主动报告使能信号无效,则本周期结束,否则跳转执行下一步;
A2)将通过带内管理模块的配置寄存器中设置的路由、目的结点的网络接口芯片(NI)的编号ID、虚端口号VP向作为目的结点的带内管理服务器发送报文,且该报文包含本结点的编号,所有错误状态寄存器中记录的故障信息,然后清空所有错误状态寄存器,本周期结束。
作为另一种可选的实施方式,步骤5)中将各个故障模块的模块编号及其错误编码上报输出具体是指采用尽力报告的方式上报输出。
其中,采用尽力报告的方式上报输出的步骤包括:
B1)检查各个错误状态寄存器,如果错误状态寄存器未满则重新跳转执行步骤B1);否则跳转执行下一步;
B2)将通过带内管理模块的配置寄存器中设置的路由、目的结点的网络接口芯片(NI)的编号ID、虚端口号VP向作为目的结点的带内管理服务器发送报文,且该报文包含本结点的编号,所有错误状态寄存器中记录的故障信息,然后清空所有错误状态寄存器,本周期结束。
本实施例中,步骤5)之后还包括在带内管理服务器接收主动报告信息的步骤:在带内管理服务器上打开用于接收主动报告的监控程序,通过监控程序接收所有网络通信装置上传的主动报告信息,解析主动报告信息获得芯片编号、故障模块编号、错误代码等信息,从而确定故障发生所在的芯片类型、位置与具体的故障类型。
本实施例中,步骤1)之前还包括通过带内管理服务器初始化配置主动报告模块的步骤:
C1)将带内管理服务器的网络接口芯片作为初始的当前网络通信装置,并将其输出端端口作为初始的当前端口;
C2)读取网络通信装置的前、后向路由表,获得当前端口的所有对端端口,如果获取成功则将获得的所有对端端口加入到当前端口的下一跳,然后分别将获得的所有对端端口作为新的当前端口、对端端口对应的网络通信装置作为新的当前网络通信装置,跳转执行步骤C2);否则跳转执行步骤C3);
C3)将从初始的当前端口开始得到的每一跳信息生成的后向路由表;
C4)根据将生成的后向路由表各个网络通信装置中主动报告模块的路由表,根据带内管理服务器根据其使用的网络通信装置的编号ID、监控程序使用的虚拟端口VP通过带内管理程序分别初始化各个网络通信装置中主动报告模块主动上报的目的结点信息。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种带故障主动报告功能的网络通信装置的应用方法,所述带故障主动报告功能的网络通信装置,包括依次相连的寄存器访问模块、寄存器访问总控模块以及带内管理模块,所述网络通信装置为网络接口芯片或网络交换芯片,其特征在于,所述寄存器访问模块中带有主动报告模块,所述寄存器访问模块的故障输入端与所述主动报告模块的错误编码输出端相连;其特征在于,所述应用方法的步骤包括:
1)主动报告模块根据故障源信号和使能信号生成主动报告信息并发送给错误主动报告转换子模块;
2)错误主动报告转换子模块将收到主动报告模块的主动报告信息发送给寄存器访问模块;
3)判断寄存器访问模块当前是否有寄存器访问请求,如果没有寄存器访问请求,则将主动报告信息转换成寄存器访问传输格式并通过寄存器访问链发送给网络芯片的寄存器访问总控模块;如果有寄存器访问请求,则暂存主动报告信息并等待寄存器访问请求处理完成,在寄存器访问请求处理完成后再将主动报告信息转换成寄存器访问传输格式并通过寄存器访问链发送给网络芯片的寄存器访问总控模块;
4)寄存器访问总控模块收到寄存器访问模块发送的可能包含主动报告信息的寄存器访问应答时,通过寄存器访问编码来判断前寄存器访问应答是否为主动报告信息,若为主动报告信息,则将寄存器访问数据拆解为故障模块编址和错误编码传递给带内管理模块;
5)带内管理模块收到的故障模块编址和错误编码后,记录故障模块的模块编号并将错误编码所对应的故障信息存在带内管理模块的错误状态寄存器中,并将各个故障模块的模块编号及其错误编码上报输出。
2.根据权利要求1所述的带故障主动报告功能的网络通信装置的应用方法,其特征在于,步骤5)中将各个故障模块的模块编号及其错误编码上报输出具体是指采用固定间隔报告的方式上报输出,所述采用固定间隔报告的方式上报输出的步骤包括:
A1)在每一个主动报告周期,检查各个错误状态寄存器,如果错误状态寄存器中没有存储故障信息则本周期结束;否则,检测主动报告使能信号是否有效,如果主动报告使能信号无效,则本周期结束,否则跳转执行下一步;
A2)将通过带内管理模块的配置寄存器中设置的路由、目的结点的网络接口芯片的编号、虚端口号向作为目的结点的带内管理服务器发送报文,且该报文包含本结点的编号,所有错误状态寄存器中记录的故障信息,然后清空所有错误状态寄存器,本周期结束。
3.根据权利要求1所述的带故障主动报告功能的网络通信装置的应用方法,其特征在于,步骤5)中将各个故障模块的模块编号及其错误编码上报输出具体是指采用尽力报告的方式上报输出,所述采用尽力报告的方式上报输出的步骤包括:
B1)检查各个错误状态寄存器,如果错误状态寄存器未满则重新跳转执行步骤B1);否则跳转执行下一步;
B2)将通过带内管理模块的配置寄存器中设置的路由、目的结点的网络接口芯片的编号、虚端口号向作为目的结点的带内管理服务器发送报文,且该报文包含本结点的编号,所有错误状态寄存器中记录的故障信息,然后清空所有错误状态寄存器,本周期结束。
4.根据权利要求1所述的带故障主动报告功能的网络通信装置的应用方法,其特征在于,步骤5)之后还包括在带内管理服务器接收主动报告信息的步骤:在带内管理服务器上打开用于接收主动报告的监控程序,通过所述监控程序接收所有网络通信装置上传的主动报告信息,解析主动报告信息获得芯片编号、故障模块编号、错误代码等信息,从而确定故障发生所在的芯片类型、位置与具体的故障类型。
5.根据权利要求4所述的带故障主动报告功能的网络通信装置的应用方法,其特征在于,步骤1)之前还包括通过带内管理服务器初始化配置主动报告模块的步骤:
C1)将带内管理服务器的网络接口芯片作为初始的当前网络通信装置,并将其输出端端口作为初始的当前端口;
C2)读取网络通信装置的前、后向路由表,获得当前端口的所有对端端口,如果获取成功则将获得的所有对端端口加入到当前端口的下一跳,然后分别将获得的所有对端端口作为新的当前端口、对端端口对应的网络通信装置作为新的当前网络通信装置,跳转执行步骤C2);否则跳转执行步骤C3);
C3)将从初始的当前端口开始得到的每一跳信息生成的后向路由表;
C4)根据将生成的后向路由表各个网络通信装置中主动报告模块的路由表,根据带内管理服务器根据其使用的网络通信装置的编号、监控程序使用的虚拟端口通过带内管理程序分别初始化各个网络通信装置中主动报告模块主动上报的目的结点信息。
CN202010457428.4A 2020-05-26 2020-05-26 带故障主动报告功能的网络通信装置,系统及其方法 Active CN111682966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457428.4A CN111682966B (zh) 2020-05-26 2020-05-26 带故障主动报告功能的网络通信装置,系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457428.4A CN111682966B (zh) 2020-05-26 2020-05-26 带故障主动报告功能的网络通信装置,系统及其方法

Publications (2)

Publication Number Publication Date
CN111682966A CN111682966A (zh) 2020-09-18
CN111682966B true CN111682966B (zh) 2022-08-19

Family

ID=72434262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457428.4A Active CN111682966B (zh) 2020-05-26 2020-05-26 带故障主动报告功能的网络通信装置,系统及其方法

Country Status (1)

Country Link
CN (1) CN111682966B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114384878B (zh) * 2021-12-31 2024-09-10 江苏核电有限公司 一种dcs系统网络故障后果的缓解方法
CN117076183B (zh) * 2023-09-28 2024-02-02 飞腾信息技术有限公司 一种错误上报方法、片上系统、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750194A (zh) * 2012-06-25 2012-10-24 浪潮电子信息产业股份有限公司 一种大规模集成电路层级错误记录与响应方法
CN104133751A (zh) * 2014-08-06 2014-11-05 浪潮(北京)电子信息产业有限公司 一种对芯片进行调试的方法和芯片
CN104598430A (zh) * 2015-02-09 2015-05-06 浪潮电子信息产业股份有限公司 一种cpu互联扩展系统的网络接口互联设计与控制系统
WO2020062075A1 (en) * 2018-09-28 2020-04-02 Intel Corporation Error reporting in link extension devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750194A (zh) * 2012-06-25 2012-10-24 浪潮电子信息产业股份有限公司 一种大规模集成电路层级错误记录与响应方法
CN104133751A (zh) * 2014-08-06 2014-11-05 浪潮(北京)电子信息产业有限公司 一种对芯片进行调试的方法和芯片
CN104598430A (zh) * 2015-02-09 2015-05-06 浪潮电子信息产业股份有限公司 一种cpu互联扩展系统的网络接口互联设计与控制系统
WO2020062075A1 (en) * 2018-09-28 2020-04-02 Intel Corporation Error reporting in link extension devices

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
The Implementation and Evaluation of High-Speed Link Monitoring Tool for Supercomputer;Jiaqing Xu;《Communications in Computer and Information Science》;20190131;第3节 *

Also Published As

Publication number Publication date
CN111682966A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
JP3649580B2 (ja) 分散コンピュータ・システムのエラーを報告するシステム
US7289436B2 (en) System and method for providing management of fabric links for a network element
US9356830B2 (en) Communication device for a redundantly operable industrial communication network and method for operating the communication device
CN101383689B (zh) 高可用性通信系统
JP3816529B2 (ja) 相互接続の障害検出およびその位置特定方法および装置
CN110601888A (zh) 一种时间敏感网络中确定性故障检测与定位方法及系统
CN111682966B (zh) 带故障主动报告功能的网络通信装置,系统及其方法
JP5681067B2 (ja) ダイナミックmplsラベル割り当てを用いるトラフィックジェネレータ
CN101826989A (zh) 一种故障处理方法和装置
CN109586864A (zh) 数据传输方法、装置及系统
CN112350897B (zh) 基于动态连接端到端可靠传输协议的网络测试装置
JP4861293B2 (ja) 通信装置、通信方法および通信プログラム
CN101667953B (zh) 一种快速环网物理链路状态的上报方法及装置
US20230318970A1 (en) Packet Processing Method and Apparatus
JPH10326260A (ja) 分散コンピュータ・システムのハードウェア要素によりエラーを報告する方法
US6999411B1 (en) System and method for router arbiter protection switching
US8369223B2 (en) Packet processing apparatus, interface unit and method thereof
CN100571183C (zh) 一种基于胖树拓扑的屏障操作网络系统、装置及方法
Št’áva Efficient error recovery scheme in fault-tolerant NoC architectures
CN113162872B (zh) 一种自检测可动态切换可监测的arinc818交换机
CN109412968A (zh) 一种时间触发以太网端节点的冗余通信接收管理系统及方法
CN107005440A (zh) 一种链路故障定位的方法、装置及系统
CN112087400B (zh) 一种基于EtherCAT从站芯片的网络流量镜像系统及方法
US11115147B2 (en) Multichip fault management
CN114124753A (zh) 一种报文发送方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant