CN101894060A - 故障检测方法及模块化设备 - Google Patents

故障检测方法及模块化设备 Download PDF

Info

Publication number
CN101894060A
CN101894060A CN 201010213356 CN201010213356A CN101894060A CN 101894060 A CN101894060 A CN 101894060A CN 201010213356 CN201010213356 CN 201010213356 CN 201010213356 A CN201010213356 A CN 201010213356A CN 101894060 A CN101894060 A CN 101894060A
Authority
CN
China
Prior art keywords
board
subregion
business board
state
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010213356
Other languages
English (en)
Other versions
CN101894060B (zh
Inventor
黄金思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Star Net Communication Co Ltd
Original Assignee
Fujian Star Net Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Star Net Communication Co Ltd filed Critical Fujian Star Net Communication Co Ltd
Priority to CN2010102133565A priority Critical patent/CN101894060B/zh
Publication of CN101894060A publication Critical patent/CN101894060A/zh
Application granted granted Critical
Publication of CN101894060B publication Critical patent/CN101894060B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障检测方法、模块化设备及管理板,该方法包括:管理板检测到业务板存在时,在自身的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立寄存器分区与业务板上的寄存器、状态分区与业务板PCIE空间的映射关系;管理板根据映射关系通过PCIE总线将业务板寄存器中的内容写入寄存器分区,以及允许业务板根据映射关系通过自身PCIE空间将状态信息写入状态分区;管理板从寄存器分区和状态分区读取业务板的寄存器内容和状态信息,确定业务板是否发生故障并对故障进行分析定位。该方式实现简单,能够快速、可靠的定位业务板的故障,且不需要信令交互,节约了系统资源。

Description

故障检测方法及模块化设备
技术领域
本发明涉及计算机技术领域,尤指一种用于检测模块化设备板卡故障的故障检测方法及模块化设备。
背景技术
模块化设备是指由各个功能模块按一定的组合方式组成的系统。例如一个模块化的路由设备或交换机,可以包括:电源模块、管理板和若干业务板。这些不同的功能模块通过机箱中的背板相互连接,组成模块化的路由设备或交换机。各功能模块之间相对独立又紧密相连:电源模块主要负责给整机供电;管理板主要负责整机的管理工作,比如判断整机中有哪些功能模块存在,并监控这些功能模块的工作状态,看是否有异常等;业务板主要提供各种接口,如千兆以太网(Gigabit Ethernet,GE)接口、Sonet/SDH上的数据包(Packet OverSonet/SDH,POS)接口、通道化POS(Channelized POS,CPOS)接口、异步传输模式(Asynchronous Transfer Mode,ATM)接口等,来承载各种具体的业务。
目前模块化设备故障检测常用的方法包括以下几种:
一是由管理板向业务板发送测试报文,如果业务板在指定时间内没有响应,则认为业务板发生了故障。这种方法需要管理板定期的构造特定报文向业务板发送,占用管理板的系统资源;此外,这种测试报文一般采用以太网等通信通道传送,报文在传递过程中本身就很可能出现发送错误、报文丢失等现象,导致不能及时发现故障,故障检测的可靠性低、及时性差。
二是由业务板上的中央处理单元(Central Processing Unit,CPU)执行特定的测试程序,并把测试结果反馈给管理板。这种方法需要在业务板上存储特定的测试程序,且测试程序的运行需要占用业务板CPU的资源,测试程序的运行还会导致业务板上业务的中断。
三是业务板周期性的向管理板传递特定检测信息,如心跳信息等,如果管理板在指定时间内没有收到,则认为业务板出现了故障。这种方式需要占用业务板CPU的系统资源,此外,心跳信息的频率一般都不会太快,使得从发生故障到检测故障会有一定的延迟,导致管理板不能及时发现故障,故障检测的可靠性低、及时性差。
可见,目前模块化设备常用的故障检测方法存在占用资源多,故障检测的及时性差、可靠性低的问题。且一般设备在负荷大的时候更容易发生故障,当发生故障时,业务板上的看门狗电路将会使系统重新启动。而现有的设备一般把重启之前的信息保存的到非易失性存储器件(如flash)上,由于非易失性器件为低速器件,访问速度很慢,经常很多的故障信息都来不及保存系统就复位了,当重启后需要去读取分析时,往往找不到重启前的一些信息了,这对收集重启前的故障信息,对故障进行定位和诊断是非常不利的。因此,现有技术的故障检测方式也不能很准确有效地对故障进行诊断和定位。
发明内容
本发明实施例提供一种故障检测方法及模块化设备,用以解决现有技术中存在模块化设备故障检测的及时性差、可靠性低的问题。
一种故障检测方法,包括:
管理板检测到业务板存在时,在自身的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立所述寄存器分区与业务板上的寄存器、所述状态分区与业务板第三代外围组件互联PCIE空间的映射关系;
管理板根据所述映射关系通过PCIE总线将业务板寄存器中的内容写入所述寄存器分区,以及允许业务板根据所述映射关系通过自身PCIE空间将状态信息写入所述状态分区;
管理板从所述寄存器分区和状态分区读取业务板的寄存器内容和状态信息,确定业务板是否发生故障并对业务板的故障进行分析定位。
一种模块化设备,包括:管理板和若干业务板;
管理板,用于检测到业务板存在时,在自身的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立所述寄存器分区与业务板上的寄存器、所述状态分区与业务板PCIE空间的映射关系;管理板根据所述映射关系通过PCIE总线将业务板寄存器中的内容写入所述寄存器分区;以及从所述寄存器分区和状态分区读取业务板的寄存器内容和状态信息,确定业务板是否发生故障并对业务板的故障进行分析定位;
业务板,用于根据所述映射关系通过自身PCIE空间将状态信息写入管理板的所述状态分区。
一种管理板,包括:
检测模块,用于检测业务板是否存在;
分配模块,用于当所述检测模块检测到业务板存在时,在所述管理板的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立所述寄存器分区与业务板上的寄存器、所述状态分区与业务板PCIE空间的映射关系;
写入模块,用于根据所述映射关系通过PCIE总线将业务板寄存器的内容写入所述寄存器分区,以及允许业务板根据所述映射关系通过自身PCIE空间将状态信息写入所述状态分区;
分析模块,用于从所述寄存器分区和状态分区读取业务板的寄存器内容和状态信息,确定业务板是否发生故障并对业务板的故障进行分析定位。
本发明有益效果如下:
本发明实施例提供的故障检测方法及模块化设备方法及装置,通过管理板检测到业务板存在时,在自身的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立所述寄存器分区与业务板上的寄存器、所述状态分区与业务板PCIE空间的映射关系;管理板根据所述映射关系通过PCIE总线将业务板寄存器中的内容写入所述寄存器分区,以及允许业务板根据所述映射关系通过自身PCIE空间将故障状态信息写入所述状态分区;管理板从所述寄存器分区和状态分区读取业务板的寄存器内容和状态信息,确定业务板是否发生故障并对业务板的故障进行分析定位。该方式实现简单,通过内存空间的映射共享实现管理板和业务板信息的直接读写,从而实现快速的信息交互;由于直接读写的操作避免了报文的构造和信令的交互,从而不需要去轮询内存中的内容,节约了CPU的资源;该方式能够快速、可靠的定位业务板的故障,具有很强的通用性和广泛适用性。
附图说明
图1为本发明实施例中模块化设备的结构示意图;
图2为本发明实施例一中故障检测方法的流程图;
图3为本发明实施例二中模块化设备的具体结构示例图;
图4为本发明实施例二中故障检测方法的流程图;
图5为本发明实施例二中状态分区的存储格式示例图;
图6为本发明实施例二中控制分区的格式示例图;
图7为本发明实施例中管理板的结构示意图。
具体实施方式
PCIE(PCI Express)是第三代标准输入/输出总线,本发明实施例提供的故障检测方法,基于第三代外围组件互联(Peripheral Component InterconnectExpress,PCIE)的地址映射功能,针对包含至少一个管理板和若干业务板的模块化设备,在管理板的内存空间中分配寄存器分区和异常分区,分别映射到业务板的寄存器和本地PCI空间,实现对业务板的故障检测。其中,PCIE通过inbound和outbound寄存器可以在不同的PCIE板卡或设备间实现地址空间的映射,实现内存共享。Inbound寄存器主要用来把外部的PCIE地址空间(也称PCIE空间)映射到CPU内部,outbound寄存器组主要用来把内部地址映射到外部PCIE地址空间。
该模块化设备的结构如图1所示,包括:管理板10和若干业务板20;其中:
管理板10,用于检测到业务板20存在时,在自身的内存空间中为业务板分配用于存储业务板20寄存器内容的寄存器分区和用于存储业务板20状态信息的状态分区;并建立所分配的寄存器分区与业务板20上的寄存器、所分配的状态分区与业务板20上PCIE空间的映射关系;管理板10根据所述映射关系通过PCIE总线将业务板20寄存器中的内容写入所分配的寄存器分区并允许业务板通过自身PCIE空间将状态信息写入所分配的状态分区;以及从所分配的寄存器分区和状态分区读取业务板20的寄存器内容和状态信息,确定业务板是否发生故障并对业务板20的故障进行分析定位。
业务板20,用于根据所述映射关系通过自身PCIE空间将状态信息写入管理板10上所分配的状态分区。
上述业务板20,还用于在内存空间中设置控制分区,并将所分配的控制分区映射到管理板的PCIE空间。相应的,管理板10还用于:通过自身PCIE空间操作业务板上所分配的控制分区,指示业务板20进行状态检测;并允许业务板20将根据指示(具体可以是状态检测指示)进行状态检测后,得到的状态信息写入自身所分配的状态分区中。
上述业务板20,具体用于:根据状态检测指示进行自检;确定自身包含的某个功能模块正常启动或尚未启动完成时,将未初始化状态信息写入状态分区中该功能模块对应的状态指示域;确定自身某个功能模块正常运行时,将正常运行状态信息写入状态分区中该功能模块对应的状态指示域;以及确定自身某个功能模块在运行过程中发生故障时,将故障状态信息写入状态分区中该功能模块对应的状态指示域。
上述管理板10,还用于:通过设定的存在信号检测业务板20是否存在;具体包括:管理板10检测到存在信号的电平由高电平变为低电平时,确定存在信号对应的业务板20存在。
下面通过具体的实施例详细说明该方法的实现过程。
实施例一:
本发明实施例一提供的故障检测方法,其流程如图2所示,执行步骤如下:
步骤S101:管理板检测到业务板存在时,在自身的内存空间中为业务板分配一段内存空间。
所分配的内存空间用于监控该业务板的状态。该步骤具体包括:管理板检测到业务板存在时,在自身的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立所分配的寄存器分区与业务板上的寄存器、所分配的状态分区与业务板PCIE空间的映射关系。
步骤S102:管理板监控业务板的状态。
管理板监控到业务板异常时,执行步骤S103。
步骤S103:管理板根据所述映射关系通过PCIE总线将业务板寄存器的内容写入所分配的寄存器分区,以及允许业务板根据建立的映射关系通过自身PCIE空间将状态信息写入所分配的状态分区。
上述状态信息包括:未初始化状态信息、正常运行状态信息和故障状态信息。
例如:业务板发生故障的时候,管理板会复制业务板寄存器的内容到自身的内存空间中,同时业务板也会将自身的故障状态信息写入管理板的内存空间中,由于预先建立了业务板与管理板内存空间之间的映射关系,包括所分配的寄存器分区与业务板上的寄存器、所分配的状态分区与业务板PCIE空间的映射关系,因此,不需要信令交互就可以直接实现两个板卡之间的内存共享。
步骤S104:管理板从寄存器分区和状态分区读取业务板的寄存器内容和状态信息。
管理卡可以直接从自己的内存空间中直接读取到发生故障的业务板的信息,避免了信令交互和不能及时获取业务板故障信息的问题。
步骤S105:根据读取的寄存器内容和状态信息,确定业务板是否发生故障并对业务板的故障进行分析定位。
由于管理板已经将业务板寄存器的内容复制到自身内存空间,且记录了故障现场状态信息,因此,可以很准确的定位出业务板的故障。
实施例二:
本发明实施例二提供的故障检测方法,以如图3所示的模块化设备为例进行说明,其中,该模块化设备包括:一张管理板和若干张业务板。
其中,管理板上包括CPU、PCIE交换芯片(PCIE Switch)、内存(Memory)和复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)。业务板包括CPU(包括CPU外围如时钟、电源、内存等)和业务处理模块(包括具体的接口模块)。管理板上的CPU通过PCIE总线和一个PCIE Switch相连,CPU与内存、CPLD之间通过内存接口总线连接,PCIE Switch有多个端口,分别与各个业务板连接,具体和业务板上的CPU连接。业务板上的CPU和业务处理模块通过CPU与业务处理模块之间的互连总线连接。管理板、业务板均与背板连接,并通过背板传输信号。管理板和业务板之间还有一些其他总线,用于管理板和业务板之间的信号传输。
本发明实施例二提供的故障检测方法,其流程如图4所示,执行步骤如下:
步骤S201:管理板检测业务板是否存在。
管理板用于检测业务板是否存在的方法有很多种,其中,管理板通过设定的存在信号检测业务板是否存在,具体包括:管理板检测到存在信号的电平由高电平变为低电平时,确定存在信号对应的业务板存在。
例如:通过特定信号(如Present#信号)的电平高低来检测,在业务板上Present#信号接地,在管理板上Present#信号上拉到高电平;则当业务板不存在时,管理板上的Present#信号为高电平,当业务板连接到管理板上后,该业务板对应的Present#信号变为低电平;因此,当管理板检测到Present#信号为低电平时,可以确认业务板存在。
当业务板的存在状态发生变化时,管理板上的CPLD会产生中断通知管理板的CPU处理业务板状态变化相关的配置。
检测到业务板存在后,管理板执行步骤S202,业务板执行步骤S203。
步骤S202:在自身的内存空间中为业务板块分配一段内存空间。
管理板CPU在自身的内存空间中为每张业务板分配一段内存空间,分配的内存空间用于监控该业务板状态的。分配的这段内存空间可以包括两个部分:寄存器分区和状态分区。
上述分配的寄存器分区主要用于保存业务板故障时其CPU寄存器的内容。较佳的,管理板先确定业务板的寄存器空间的大小,根据业务板的寄存器空间的大小确定为业务板分配的寄存器分区的大小。管理板向业务板PCIE空间的基址寄存器中写入全F,然后读回该基址寄存器的值,根据读回的值确定该寄存器空间的大小。即管理板向业务板PCIE空间的基址寄存器中写入全F后,若读回的值不是全0,则这个值就代表CPU内部实现的寄存器空间的大小,寄存器分区内各个区域的定义与CPU内部寄存器空间定义一致
当然,管理板也可以不确定业务板寄存器空间的大小,而是根据预先设定的分配规则为业务板分配寄存器分区。例如根据对业务板寄存器空间大小的经验值,设定一个大于所获知的寄存器空间最大值的值,为所有业务板的寄存器空间分配该设定大小的寄存器分区。
一般在业务板的CPU内部都会有很多的状态寄存器来指示CPU的运行状态,通过PCIE的地址空间映射可以把业务板CPU的所有寄存器映射到管理板的PCIE空间,这样管理板CPU访问业务板CPU的寄存器就和访问本地的地址一样了,并且通过这些寄存器可以很全面的了解业务板的状态。在业务板出现异常时,管理板CPU可以把业务板CPU寄存器的值保存到寄存器分区中,方便后续故障分析。
上述分配的状态分区主要用于保存与业务板运行相关的各种状态信息。较佳的,状态分区中包括针对业务板各功能模块的状态指示域;例如功能模块包括下列模块中的至少一种:中央处理单元(Central Processing Unit,CPU)模块、闪存(Flash)模块、内存(Memory)模块、媒体接入控制(Media AccessControl,MAC)模块和物理层接口(Physis,Phy)模块。也就是说,通过各个功能模块的状态指示域存储各个功能模块的各种状态信息,这些状态信息包括:未初始化状态信息、正常运行状态信息和故障状态信息。
状态分区包含业务板具体功能模块的状态指示域划分,可以根据具体的模块确定。比如,对于一张广域以太网接口卡(业务板)来说,其功能模块可以划分为CPU、Flash、Memory、MAC、Phy等功能模块。每个功能模块的状态可以根据实际应用定义,比如可以定义为未初始化、正常运行、故障三个状态。
由于不同的业务板所具有功能模块定义可能不一样,为了区分后续功能模块的定义,较佳的,在业务板状态信息前面增加了一个板卡类型域,用来指示业务板的板卡类型,比如某个模块化路由器支持8种业务板,那么业务板类型域就需要3个bit位或更多,以便能够区分8中业务板。在业务板类型域后面的是各个功能模块的状态指示域,状态指示域根据具体模块多少可以增减。
以上面的广域网以太口业务板为例,每个功能模块定义了三种状态,这样,每个功能模块的状态指示域可以用2个bit来指示(bit的定义比如00b代表未初始化,01b代表正常运行状态,10b代表故障状态)。对于每个功能模块,根据具体检测程序实现的功能,还可以对模块状态进行更细的划分。比如内存故障还可以分为:Walking 1’s测试(全1测试)异常、Bus Noise测试(总线噪声测试)异常、Address测试(地址线测试)异常若干小的类别,针对这些小的类别分别设置状态指示域;其中,Walking 1’s Test、Bus Noise Test、AddressTest是三个比较常见的内存测试方法。则上述的广域以太网接口卡,业务板状态信息的格式可以入图5所示,包括业务板类型、CPU模块状态、Flash模块状态、Memory模块状态、MAC模块状态和Phy模块状态等若干状态指示域。
步骤S203:业务板在自身内存空间中设置控制分区,并将设置的控制分区映射到管理板的PCIE空间。
控制分区包括针对业务板各功能模块进行控制的区域。
也就是在业务板上的内存空间中也定义一个区域用来与管理板通信,这个区域为控制分区,管理板通过操作这个区域,可以指示业务板进行相应的功能模块自检,通过PCIE的地址映射,可以把管理板的内存空间映射到业务板本地PCIE空间,因而业务板CPU操作管理板异常分区中各个功能模块的状态信息只需要写PCIE地址空间就可以了。
仍以上面的广域以太网接口业务板为例,控制分区可以定义为如图6所示的格式,包括:对CPU模块、Flash模块、Memory模块、MAC模块和Phy模块等各个功能模块进行控制的区域。
同时,业务板初始化各个功能模块,初始化完成后开始正常运行。管理版在初始化过程中也可以将各个功能模块的状态通过PCIE总线写入到管理板内存空间中为其分配的相应状态分区中。
步骤S204:管理板通过自身PCIE空间操作控制分区,指示业务板进行状态检测。
在业务板初初始化和运行过程中,管理板随时或者按照设定的时间间隔指示业务版进行自检,并允许将业务板根据状态检测指示进行自检后得到的状态信息写入管理板为其分配的状态分区中。也就是说,管理板可以通过控制分区要求业务板进行相应功能模块的状态确认。
其中,异常检测方法根据不同的模块会有不同,比如内存可以进行读写,以太口可以进行回环测试之类的。
步骤S205:业务板根据状态检测指示进行自检。
步骤S206:将自检得到的状态信息写入状态分区中。
业务板按照管理板要求进行各个功能模块的状态确认,将结果写到管理板内存中为其分配的状态分区中。具体包括:
当业务板根据状态检测指示进行自检,确定自身某个功能模块未正常启动或尚未启动完成时,将未初始化状态信息写入状态分区中该功能模块对应的状态指示域。例如:如果业务板不能正常启动,管理板可以通过检测业务板的状态区发现,因为线卡不能正常启动时,有一些功能模块长期得不到初始化。这时,管理板可以通过PCIE空间直接对相应的功能模块进行测试,进一步定位业务板的故障原因。
当业务板根据状态检测指示进行自检,确定自身某个功能模块正常运行时,将正常运行状态信息写入状态分区中该功能模块对应的状态指示域。
当业务板根据状态检测指示进行自检,确定自身某个功能模块在运行过程中发生故障时,将故障状态信息写入状态分区中该功能模块对应的状态指示域。例如:在业务板出现异常时,业务板通过PCIE总线将异常现场信息保存到管理板内存中的异常分区,具体可以保存异常时的各种堆栈信息等故障现场信息。
步骤S207:管理板通过PCIE总线将业务板寄存器的内容写入所分配的寄存器分区,以及允许业务板通过自身PCIE空间将故障状态信息写入所分配的状态分区。
管理板接收到线业务板异常,将业务板的寄存器空间复制到内存中寄存器分区。业务板同时会将自身的异常状态信息写入到状态分区中。
步骤S208:管理板从寄存器分区和状态分区读取业务板的寄存器内容和状态信息。
步骤S209:根据读取的寄存器内容和状态信息,确定业务板是否发生故障并对业务板的故障进行分析定位。
管理板分析业务板的故障状态信息,根据故障的位置和具体原因采取相应的处理措施。
上述故障检测方法及模块化设备中管理板10,其结构如图7所示,包括:检测模块101、分配模块102、写入模块103和分析模块104。
检测模块101,用于检测业务板是否存在。
分配模块102,用于当检测模块101检测到业务板存在时,在管理板的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立所分配的寄存器分区与业务板上的寄存器、所分配的状态分区与业务板PCIE空间的映射关系。
写入模块103,用于当业务板发生故障时,根据所述映射关系通过PCIE总线将业务板寄存器的内容写入所分配的寄存器分区以及允许业务板根据所述映射关系通过自身PCIE空间将故障信息写入所分配的状态分区。
分析模块104,用于从所分配的寄存器分区和状态分区读取业务板的寄存器内容和状态信息,对业务板的故障进行分析定位。
上述管理板10,还包括:控制模块105,用于通过管理板的PCIE空间操作控制分区,指示业务板进行状态检测,所述控制分区为在所述业务板内存空间中设置的、并映射到管理板的PCIE空间的控制分区。相应的,上述写入模块103,还用于允许业务板根据上述指示进行状态检测后,将得到的状态信息写入所分配状态分区中。
本发明实施例提供的上述故障检测方法及模块化设备,利用PCIE总线高速、可靠的特点,在管理板和业务板之间通过共享内存交互故障检测信息。具体通过在管理板上为业务板划分寄存器分区和状态分区,并映射到业务板的PCIE空间,实现管理板和业务板信息的直接读写。可以快速可靠的进行故障检测,同时,并节约了系统资源。
由于操作都是简单的内存读写操作,省掉了很多软件构造报文、解析报文的时间,而且PCIE总线是高速总线,1.0的PCIE单向速率为2.5Gbps,2.0的PCIE单向速率可以达到5Gbps,通过Lane数的增加可以达到更高的速率,因此该方法可以很快的检测到业务板故障,其检测具有快速性的优点。由于PCIE是一种可靠的总线协议,支持端到端数据完整性,因此使检测可靠新进一步提高。由于PCIE操作可以产生中断,因而管理板和业务板的CPU都不需要去轮询内存中的内容,可以节省大量的CPU资源,且通过中断优先级设置,可以让CPU优先响应故障中断。由于不需要信令交互,直接通过内存读写实现,可以节约大量的信令传输资源。
且该方式实现简单,所有的交互都是简单的地址空间写操作,不需要复杂的协议封装,不需要软件干预数据包的封装和解封装。不仅在管理板正常和业务板可以正常交互时能定位出业务板故障,在业务板不能正常启动时也能通过管理板直接测试业务板的功能模块的方式定位出业务板故障点。在业务板运行中出故障时,还可以在业务板重启之前保存现场信息,方便后续故障定位,具有很强的广泛适用性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (13)

1.一种故障检测方法,其特征在于,包括:
管理板检测到业务板存在时,在自身的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立所述寄存器分区与业务板上的寄存器、所述状态分区与业务板第三代外围组件互联PCIE空间的映射关系;
管理板根据所述映射关系通过PCIE总线将业务板寄存器中的内容写入所述寄存器分区,以及允许业务板根据所述映射关系通过自身PCIE空间将状态信息写入所述状态分区;
管理板从所述寄存器分区和状态分区读取业务板的寄存器内容和状态信息,确定业务板是否发生故障并对业务板的故障进行分析定位。
2.如权利要求1所述的方法,其特征在于,还包括:
所述业务板内存空间中设置控制分区,并将所述控制分区映射到管理板的PCIE空间;
管理板通过自身PCIE空间操作所述控制分区,指示业务板进行状态检测;并允许所述业务板将根据指示进行状态检测后得到的状态信息写入所述状态分区中。
3.如权利要求2所述的方法,其特征在于,所述状态分区中包括针对业务板各功能模块的状态指示域;所述控制分区中包括针对业务板各功能模块进行控制的区域。
4.如权利要求3所述的方法,其特征在于,所述状态信息包括:未初始化状态信息、正常运行状态信息和故障状态信息;
当所述业务板根据指示进行状态检测,确定自身包含的功能模块未正常启动或尚未启动完成时,将未初始化状态信息写入状态分区中该功能模块对应的状态指示域;
当所述业务板根据指示进行状态检测,确定自身包含的功能模块正常运行时,将正常运行状态信息写入状态分区中该功能模块对应的状态指示域;
当所述业务板根据指示进行状态检测,确定自身包含的功能模块在运行过程中发生故障时,将故障状态信息写入状态分区中该功能模块对应的状态指示域。
5.如权利要求1所述的方法,其特征在于,还包括:管理板确定业务板的寄存器空间的大小,根据业务板的寄存器空间的大小确定为业务板分配的寄存器分区的大小。
6.如权利要求5所述的方法,其特征在于,所述管理板确定业务板的寄存器空间的大小,具体包括:
所述管理板向业务板PCIE空间的基址寄存器中写入全F,并读回该基址寄存器的值,根据读回的值确定该寄存器空间的大小。
7.如权利要求1-6任一所述的方法,其特征在于,所述管理板检测到业务板存在,具体包括:
所述管理板检测到设定的存在信号的电平由高电平变为低电平时,确定所述存在信号对应的业务板存在。
8.一种模块化设备,其特征在于,包括:管理板和若干业务板;
管理板,用于检测到业务板存在时,在自身的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立所述寄存器分区与业务板上的寄存器、所述状态分区与业务板PCIE空间的映射关系;管理板根据所述映射关系通过PCIE总线将业务板寄存器中的内容写入所述寄存器分区;以及从所述寄存器分区和状态分区读取业务板的寄存器内容和状态信息,确定业务板是否发生故障并对业务板的故障进行分析定位;
业务板,用于根据所述映射关系通过自身PCIE空间将状态信息写入管理板的所述状态分区。
9.如权利要求8所述的模块化设备,其特征在于,所述业务板,还用于在内存空间中设置控制分区,并将所述状态分区映射到管理板的PCIE空间;
所述管理板还用于:通过自身PCIE空间操作所述控制分区,指示业务板进行状态检测;并允许所述业务板将根据指示进行状态检测后得到的状态信息写入所述状态分区中。
10.如权利要求9所述的模块化设备,其特征在于,所述业务板,具体根据指示进行状态检测,确定自身包含的功能模块未正常启动或尚未启动完成时,将未初始化状态信息写入状态分区中该功能模块对应的状态指示域;确定自身包含的功能模块正常运行时,将正常运行状态信息写入状态分区中该功能模块对应的状态指示域;以及确定自身包含的功能模块在运行过程中发生故障时,将故障状态信息写入状态分区中该功能模块对应的状态指示域。
11.如权利要求8-10任一所述的模块化设备,其特征在于,所述管理板具体通过检测到设定的存在信号的电平由高电平变为低电平时,确定所述存在信号对应的业务板存在。
12.一种管理板,其特征在于,包括:
检测模块,用于检测业务板是否存在;
分配模块,用于当所述检测模块检测到业务板存在时,在所述管理板的内存空间中为业务板分配用于存储业务板寄存器内容的寄存器分区和用于存储业务板状态信息的状态分区;并建立所述寄存器分区与业务板上的寄存器、所述状态分区与业务板PCIE空间的映射关系;
写入模块,用于根据所述映射关系通过PCIE总线将业务板寄存器的内容写入所述寄存器分区,以及允许业务板根据所述映射关系通过自身PCIE空间将状态信息写入所述状态分区;
分析模块,用于从所述寄存器分区和状态分区读取业务板的寄存器内容和状态信息,确定业务板是否发生故障并对业务板的故障进行分析定位。
13.如权利要求12所述的管理板,其特征在于,还包括:
控制模块,用于通过管理板的PCIE空间操作控制分区,指示业务板进行状态检测,所述控制分区为在所述业务板内存空间中设置的、并映射到管理板的PCIE空间的控制分区;
所述写入模块,还用于允许所述业务板将进行状态检测后将得到的状态信息写入所述状态分区中。
CN2010102133565A 2010-06-25 2010-06-25 故障检测方法及模块化设备 Expired - Fee Related CN101894060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102133565A CN101894060B (zh) 2010-06-25 2010-06-25 故障检测方法及模块化设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102133565A CN101894060B (zh) 2010-06-25 2010-06-25 故障检测方法及模块化设备

Publications (2)

Publication Number Publication Date
CN101894060A true CN101894060A (zh) 2010-11-24
CN101894060B CN101894060B (zh) 2012-11-21

Family

ID=43103255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102133565A Expired - Fee Related CN101894060B (zh) 2010-06-25 2010-06-25 故障检测方法及模块化设备

Country Status (1)

Country Link
CN (1) CN101894060B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102183901A (zh) * 2011-04-01 2011-09-14 福建星网锐捷网络有限公司 模块化设备检测维护方法、装置及模块化设备
CN103425117A (zh) * 2012-05-22 2013-12-04 上海黄浦船用仪器有限公司 用于092鱼雷射击指挥仪工控机稳定性检测系统
CN103440188A (zh) * 2013-08-29 2013-12-11 福建星网锐捷网络有限公司 一种pcie硬件故障的检测方法及装置
CN104038387A (zh) * 2014-06-04 2014-09-10 上海斐讯数据通信技术有限公司 框式交换机业务板上线检测方法
CN104579802A (zh) * 2015-02-15 2015-04-29 浪潮电子信息产业股份有限公司 一种多路服务器快速故障恢复的方法
CN105183575A (zh) * 2015-08-24 2015-12-23 浪潮(北京)电子信息产业有限公司 处理器故障的诊断方法、装置及系统
CN105843718A (zh) * 2016-04-05 2016-08-10 浪潮电子信息产业股份有限公司 一种测试板卡、管理卡测试系统和方法
CN106502814A (zh) * 2016-10-19 2017-03-15 杭州迪普科技股份有限公司 一种记录pcie设备错误信息的方法及装置
CN108183835A (zh) * 2017-12-08 2018-06-19 中国航空工业集团公司成都飞机设计研究所 一种分布式系统军用1394总线数据完整性监控方法
CN108243358A (zh) * 2016-12-27 2018-07-03 杭州海康威视数字技术股份有限公司 可插拔业务板
CN109101009A (zh) * 2018-09-06 2018-12-28 华为技术有限公司 故障诊断系统及服务器
CN109257251A (zh) * 2018-09-06 2019-01-22 京信通信系统(中国)有限公司 多板卡多模块心跳检测方法、装置及系统
CN111190799A (zh) * 2019-12-30 2020-05-22 鹍骐科技(北京)股份有限公司 可实现故障板卡识别的计算机系统
CN111324507A (zh) * 2020-02-03 2020-06-23 杭州迪普科技股份有限公司 主控设备的业务接口监控系统及其方法
CN111404725A (zh) * 2020-02-27 2020-07-10 苏州浪潮智能科技有限公司 一种隔离故障pcie设备的方法及系统
CN111628944A (zh) * 2020-05-25 2020-09-04 深圳市信锐网科技术有限公司 交换机及交换机系统
CN112685210A (zh) * 2020-12-31 2021-04-20 北京天融信网络安全技术有限公司 一种外设故障原因定位方法、装置、设备及介质
CN113189479A (zh) * 2021-06-28 2021-07-30 杭州加速科技有限公司 一种提升ate芯片测试速度的方法、装置及测试系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1474272A (zh) * 2003-06-19 2004-02-11 Ut斯达康(中国)有限公司 通过jtag对单板进行测试的方法以及设备
CN1529240A (zh) * 2003-10-08 2004-09-15 东南大学 嵌入式旋转机械智能状态监控与故障诊断装置
CN1713156A (zh) * 2004-06-25 2005-12-28 联想(北京)有限公司 检测和诊断计算机硬件故障的方法和装置
CN2919265Y (zh) * 2006-04-14 2007-07-04 华为技术有限公司 单板上下电控制装置
CN101699410A (zh) * 2009-11-11 2010-04-28 中兴通讯股份有限公司 一种单板硬件故障的检测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1474272A (zh) * 2003-06-19 2004-02-11 Ut斯达康(中国)有限公司 通过jtag对单板进行测试的方法以及设备
CN1529240A (zh) * 2003-10-08 2004-09-15 东南大学 嵌入式旋转机械智能状态监控与故障诊断装置
CN1713156A (zh) * 2004-06-25 2005-12-28 联想(北京)有限公司 检测和诊断计算机硬件故障的方法和装置
CN2919265Y (zh) * 2006-04-14 2007-07-04 华为技术有限公司 单板上下电控制装置
CN101699410A (zh) * 2009-11-11 2010-04-28 中兴通讯股份有限公司 一种单板硬件故障的检测方法和装置

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102183901B (zh) * 2011-04-01 2012-11-21 福建星网锐捷网络有限公司 模块化设备检测维护方法、装置及模块化设备
CN102183901A (zh) * 2011-04-01 2011-09-14 福建星网锐捷网络有限公司 模块化设备检测维护方法、装置及模块化设备
CN103425117B (zh) * 2012-05-22 2015-11-18 上海黄浦船用仪器有限公司 用于092鱼雷射击指挥仪工控机稳定性检测系统
CN103425117A (zh) * 2012-05-22 2013-12-04 上海黄浦船用仪器有限公司 用于092鱼雷射击指挥仪工控机稳定性检测系统
CN103440188A (zh) * 2013-08-29 2013-12-11 福建星网锐捷网络有限公司 一种pcie硬件故障的检测方法及装置
CN103440188B (zh) * 2013-08-29 2016-09-28 福建星网锐捷网络有限公司 一种pcie硬件故障的检测方法及装置
CN104038387A (zh) * 2014-06-04 2014-09-10 上海斐讯数据通信技术有限公司 框式交换机业务板上线检测方法
CN104038387B (zh) * 2014-06-04 2018-01-16 上海斐讯数据通信技术有限公司 框式交换机业务板上线检测方法
CN104579802A (zh) * 2015-02-15 2015-04-29 浪潮电子信息产业股份有限公司 一种多路服务器快速故障恢复的方法
CN105183575A (zh) * 2015-08-24 2015-12-23 浪潮(北京)电子信息产业有限公司 处理器故障的诊断方法、装置及系统
CN105843718A (zh) * 2016-04-05 2016-08-10 浪潮电子信息产业股份有限公司 一种测试板卡、管理卡测试系统和方法
CN106502814A (zh) * 2016-10-19 2017-03-15 杭州迪普科技股份有限公司 一种记录pcie设备错误信息的方法及装置
CN106502814B (zh) * 2016-10-19 2020-04-03 杭州迪普科技股份有限公司 一种记录pcie设备错误信息的方法及装置
CN108243358A (zh) * 2016-12-27 2018-07-03 杭州海康威视数字技术股份有限公司 可插拔业务板
CN108183835A (zh) * 2017-12-08 2018-06-19 中国航空工业集团公司成都飞机设计研究所 一种分布式系统军用1394总线数据完整性监控方法
CN109101009A (zh) * 2018-09-06 2018-12-28 华为技术有限公司 故障诊断系统及服务器
US11347611B2 (en) 2018-09-06 2022-05-31 Xfusion Digital Technologies Co., Ltd. Fault diagnosis system and server
CN109257251A (zh) * 2018-09-06 2019-01-22 京信通信系统(中国)有限公司 多板卡多模块心跳检测方法、装置及系统
CN109101009B (zh) * 2018-09-06 2020-08-14 华为技术有限公司 故障诊断系统及服务器
WO2020048174A1 (zh) * 2018-09-06 2020-03-12 华为技术有限公司 故障诊断系统及服务器
CN111190799A (zh) * 2019-12-30 2020-05-22 鹍骐科技(北京)股份有限公司 可实现故障板卡识别的计算机系统
CN111324507A (zh) * 2020-02-03 2020-06-23 杭州迪普科技股份有限公司 主控设备的业务接口监控系统及其方法
CN111324507B (zh) * 2020-02-03 2023-04-18 杭州迪普科技股份有限公司 主控设备的业务接口监控系统及其方法
CN111404725A (zh) * 2020-02-27 2020-07-10 苏州浪潮智能科技有限公司 一种隔离故障pcie设备的方法及系统
CN111404725B (zh) * 2020-02-27 2022-06-07 苏州浪潮智能科技有限公司 一种隔离故障pcie设备的方法及系统
CN111628944A (zh) * 2020-05-25 2020-09-04 深圳市信锐网科技术有限公司 交换机及交换机系统
CN111628944B (zh) * 2020-05-25 2022-03-25 深圳市信锐网科技术有限公司 交换机及交换机系统
CN112685210A (zh) * 2020-12-31 2021-04-20 北京天融信网络安全技术有限公司 一种外设故障原因定位方法、装置、设备及介质
CN113189479A (zh) * 2021-06-28 2021-07-30 杭州加速科技有限公司 一种提升ate芯片测试速度的方法、装置及测试系统

Also Published As

Publication number Publication date
CN101894060B (zh) 2012-11-21

Similar Documents

Publication Publication Date Title
CN101894060B (zh) 故障检测方法及模块化设备
CN101405708B (zh) 自动计算机器的存储器系统
TWI759564B (zh) 可安裝在機架上的資料儲存系統和可程式化邏輯裝置
US9916270B2 (en) Virtual intelligent platform management interface (IPMI) satellite controller and method
CN1799034B (zh) 利用基于树的结构的设备、系统和方法
US10810085B2 (en) Baseboard management controllers for server chassis
CN105721357A (zh) 交换设备、外围部件互连高速系统及其初始化方法
CN102346707B (zh) 服务器系统与其操作方法
CN103365717B (zh) 内存访问方法、装置及系统
WO2017032112A1 (zh) 一种与无中央处理器单板通讯的方法及通讯设备
CN103164309A (zh) Sol功能测试方法及系统
CN110580235B (zh) 一种sas扩展器通信方法及装置
JP2007323648A (ja) Usbインタフェース設備に対して操作を行う装置及び方法
CN103955441A (zh) 一种设备管理系统、方法及一种io扩展接口
CN102983989B (zh) 一种服务器虚拟地址的迁移方法、装置和设备
WO2023178975A1 (zh) 机箱管理系统及机箱管理方法
CN107145304B (zh) 服务器、存储系统及相关方法
TW201418967A (zh) 電子裝置及其管理方法與機櫃伺服系統
CN115599617B (zh) 总线检测方法、装置、服务器及电子设备
CN105630727A (zh) 多SoC节点之间的访问方法、装置和系统
CN106030544A (zh) 计算机设备内存的检测方法和计算机设备
CN111858187A (zh) 一种电子设备及业务切换方法、装置
CN114201439B (zh) 服务器信号识别优化方法、系统及存储介质
CN103268278B (zh) 支持多核处理器的sram控制器及其跟踪信息处理方法
CN111083072A (zh) 交换机报文传输装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121121

Termination date: 20160625