CN102315966A - 一种业务单板、以及故障检测及上报方法和系统 - Google Patents

一种业务单板、以及故障检测及上报方法和系统 Download PDF

Info

Publication number
CN102315966A
CN102315966A CN201110277302A CN201110277302A CN102315966A CN 102315966 A CN102315966 A CN 102315966A CN 201110277302 A CN201110277302 A CN 201110277302A CN 201110277302 A CN201110277302 A CN 201110277302A CN 102315966 A CN102315966 A CN 102315966A
Authority
CN
China
Prior art keywords
signal
service board
frequency
cpu
operating state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110277302A
Other languages
English (en)
Other versions
CN102315966B (zh
Inventor
梁世强
张麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raisecom Technology Co Ltd
Original Assignee
Raisecom Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Raisecom Technology Co Ltd filed Critical Raisecom Technology Co Ltd
Priority to CN201110277302.XA priority Critical patent/CN102315966B/zh
Publication of CN102315966A publication Critical patent/CN102315966A/zh
Application granted granted Critical
Publication of CN102315966B publication Critical patent/CN102315966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Power Sources (AREA)

Abstract

本发明提供了一种故障检测及上报方法,包括如下步骤:A、业务单板通过连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,如果电源模块工作异常,输出具有第一频率的信号D;B、主控板检测到第一频率的信号D时,判断电压模块故障。本发明还提供了一种故障检测及上报系统及一种业务单板。本发明方案可以实现各种故障的检测及上报,大大提高通信设备运行的可靠性和安全性。

Description

一种业务单板、以及故障检测及上报方法和系统
技术领域
本发明涉及通信设备技术领域,尤其涉及一种业务单板、以及故障检测及上报方法和系统。
背景技术
随着通信网络规模的不断扩大和用户需求的不断提升,不但要求对通信设备的业务实现全面管理,更对通信设备本身的安全性和可靠性提出了更高的要求。这就要求能够对设备的各种故障状态(包括业务告警、电源模块失效、关键IC器件失效、CPU失效或重启、背板通信总线接口损坏等)进行实时检测,并能够及时上报网管平台。
现有技术中,主要是利用业务单板上的CPU对关键集成电路(IC)器件的访问实现业务单板故障检测,以及通过背板通信总线与主控板通信来实现将业务告警和关键IC器件工作状态上报主控板。现有技术中也有一些方法是利用业务单板上的CPU对关键IC器件的访问来检测业务告警和关键IC器件工作状态,再通过配置现场可编程门阵列(FPGA)寄存器产生不同频率的心跳信号将单板故障上报主控板。
现有技术中的单板故障检测及上报方法存在很大的局限性,具体体现在:没有对电源模块故障的检测,一旦非关键IC器件的电源模块失效或关键IC器件的电源模块处于失效的边界状态,出现电压下降,但器件还处于正常工作状态的情况,则现有的方法无法检测,而在通信设备故障中,电源模块故障是容易导致烧板等严重后果的故障原因之一。
发明内容
本发明提供了一种业务单板、以及故障检测及上报方法和系统,可以实现对业务单板电源进行检测,做到提前发现提前解决,大大提高通信设备运行的可靠性和安全性。
本发明实施例提供的一种故障检测及上报方法,包括如下步骤:
A、业务单板通过连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,如果电源模块工作异常,输出具有第一频率的信号D;
B、主控板检测到第一频率的信号D时,判断电压模块故障。
较佳地,步骤A还包括:
当电源模块工作正常,且业务单板CPU的工作状态异常时,输出具有第二频率的信号D;当电源模块工作正常,且业务单板CPU的工作状态正常时,输出具有第三频率的信号D;
步骤B还包括:主控板检测到第二频率的信号D时,判断业务单板CPU的工作状态异常;主控板检测到第三频率的信号D时,判断电源模块和业务单板CPU的工作状态均为正常。
较佳地,步骤A进一步包括:
A1、业务单板CPU输出信号C至电源故障及CPU工作状态检测控制模块;如果业务单板CPU上电后工作正常,所述信号C为连续的频率为f4的心跳信号,如果业务单板CPU工作异常,则信号C为固定电平;
A2、业务单板的电源故障及CPU工作状态检测控制模块通过连续检测信号C的频率变化来判断业务单板CPU是否工作正常;
A3、电源故障及CPU工作状态检测控制模块根据判断结果控制心跳信号产生及控制模块输出至主控板的信号D的具体形式。
4、根据权利要求2所述的方法,其特征在于,所述第一频率的信号D为固定电平;所述第二频率的信号D为频率为f3的心跳信号;所述第三频率的信号D为频率为f1或f2的心跳信号。
较佳地,步骤A进一步包括:
业务单板CPU通过反复读写IC器件的特定寄存器来判断其工作状态,如果所述IC器件工作正常,则信号D为频率为f1的心跳信号,如果所述IC器件工作异常,则信号D为频率为f2的心跳信号。
较佳地,步骤B进一步包括:
主控板检测到信号D的频率为f1时,判定业务单板工作正常。
较佳地,所述判定业务单板工作正常之后进一步包括:主控板判断是否通过背板通信总线正常访问业务单板,若否,则判定背板通信总线出现故障。
较佳地,步骤B进一步包括:
主控板检测到信号D的频率为f2时,判定业务单板上有关键的IC器件出现故障。
较佳地,所述判定业务单板上有关键的IC器件出现故障之后进一步包括:
如果背板通信总线正常,则主控板通过背板通信总线获得详细的故障信息;如果背板通信总线中断,则检查相关单板业务是否正常从而决定是否更换业务单板。
较佳地,步骤B进一步包括:
如果主控板检测到信号D的频率值为f3并持续一段时间后变为f1或f2,则判定业务单板CPU刚刚重启完毕并重新进入工作状态;
主控板通过背板通信总线访问业务单板的实际工作状态,以判断是否需要从新配置业务或更换单板。
较佳地,步骤B进一步包括:主控板检测到信号D的频率为0时,判定业务单板出现电源故障或其它硬件故障。
本发明实施例提供的一种故障检测及上报系统,包括业务单板,背板以及主控板,所述业务单板用于连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,如果电源模块工作异常,输出具有第一频率的信号D;
所述背板用于提供背板通信总线实现主控板与业务单板之间的通信;
所述主控板用于检测信号D的实际频率值,当检测到第一频率的信号D时,判断电压模块故障。
较佳地,所述业务单板进一步用于检测业务单板CPU的工作状态,当电源模块工作正常,且业务单板CPU的工作状态异常时,输出具有第二频率的信号D;当电源模块工作正常,且业务单板CPU的工作状态正常时,输出具有第三频率的信号D;
所述主控板当检测到第二频率的信号D时,判断业务单板CPU的工作状态异常;当检测到第三频率的信号D时,判断电源模块和业务单板CPU的工作状态均为正常。
较佳地,所述业务单板包括:电源故障及CPU工作状态检测控制模块、心跳信号产生及控制模块以及业务单板CPU;
所述业务单板CPU用于输出信号C至电源故障及CPU工作状态检测控制模块,如果业务单板CPU上电后工作正常,所述信号C为连续的频率为f4的心跳信号,如果业务单板CPU工作异常,则信号C为固定电平;
所述电源故障及CPU工作状态检测控制模块用于通过连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,同时通过连续检测信号C的频率变化来判断业务单板CPU是否工作正常,根据判断结果输出信号组A至心跳信号产生及控制模块;
所述心跳信号产生及控制模块用于根据信号组A输出信号D,具体包括:如果信号组A表示电源模块工作异常,则无论业务单板CPU是否工作正常,则所述信号D为固定电平;如果信号组A表示电源模块工作正常,而业务单板CPU工作异常,则信号D为频率为f3的心跳信号;如果信号组A表示电源模块和业务单板CPU均工作正常,则信号D为频率为f1或f2的心跳信号。
较佳地,业务单板CPU通过反复读写IC器件的特定寄存器来判断其工作状态,并根据判断结果向心跳信号产生及控制模块输出信号B;
所述心跳信号产生及控制模块进一步用于根据信号B输出信号D,具体包括:如果信号B表示所述IC器件工作正常,则信号D为频率为f1的心跳信号,如果信号B表示所述IC器件工作异常,则信号D为频率为f2的心跳信号。
较佳地,所述主控板包括:心跳信号检测模块和主控板CPU;
所述心跳信号检测模块用于检测信号D的实际频率,并实时更新保存信号D的频率值;
所述主控板CPU用于从心跳信号频率检测模块中实时读取信号D的频率值,并根据信号D频率值范围和当前背板通信总线的状态判断当前故障类型及单板工作状态,具体包括:
信号D的频率为f1时,判定业务单板工作正常;如果同时主控板不能够通过背板通信总线正常访问业务单板,则判定背板通信总线-出现故障;
信号D的频率为f2时,判定业务单板上有关键的IC器件出现故障;如果同时背板通信总线正常,则主控板通过背板通信总线获得详细的故障信息;
信号D的频率为f3时,判定业务单板上的CPU工作异常。
如果信号D的频率值为f3并持续一段时间后变为f1或f2,则判定业务单板CPU刚刚重启完毕并重新进入工作状态;
信号D的频率为0时判定业务单板出现电源故障或其它硬件故障。
本发明实施例还提供一种业务单板,所述业务单板包括:电源故障及CPU工作状态检测控制模块、心跳信号产生及控制模块以及业务单板CPU;
所述业务单板CPU用于输出信号C至电源故障及CPU工作状态检测控制模块,如果业务单板CPU上电后工作正常,所述信号C为连续的频率为f4的心跳信号,如果业务单板CPU失效或重启,则信号C为固定电平;业务单板CPU进一步用于通过反复读写IC器件的特定寄存器来判断其工作状态,并根据判断结果输出信号B至心跳信号产生及控制模块;
所述电源故障及CPU工作状态检测控制模块用于通过连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,同时通过连续检测信号C的频率变化来判断业务单板CPU是否工作正常,根据判断结果输出信号组A至心跳信号产生及控制模块;
所述心跳信号产生及控制模块用于根据信号组A输出信号D,具体包括:如果信号组A表示电源模块工作异常,则无论业务单板CPU是否工作正常,则所述信号D为固定电平;如果信号组A表示电源模块工作正常,而业务单板CPU工作异常,则信号D为频率为f3的心跳信号;如果信号组A表示电源模块和业务单板CPU均工作正常,则信号D为频率为f1或f2的心跳信号。
较佳地,业务单板CPU通过反复读写IC器件的特定寄存器来判断其工作状态,并根据判断结果向心跳信号产生及控制模块输出信号B;
所述心跳信号产生及控制模块进一步用于根据信号B输出信号D,具体包括:如果信号B表示所述IC器件工作正常,则信号D为频率为f1的心跳信号,如果信号B表示所述IC器件工作异常,则信号D为频率为f2的心跳信号。
较佳地,所述电源故障及CPU工作状态检测控制模块由单片机实现,所述单片机通过A/D转换引脚实时检测各个电压模块的输出电压值。
较佳地,所述心跳信号产生及控制模块由74LS125三态门器件实现,所述74LS125三态门器件包括74LS125-A单元电路、74LS125-B单元电路、74LS125-C单元电路和74LS125-D单元电路;
单片机输出信号A-1作为74LS125-A单元电路的控制电压,单片机输出信号A-2作为74LS125-B单元电路和74LS125-D单元电路的控制电压,单片机输出信号A-3连接74LS125-B单元电路的输入端;
74LS125-D单元电路的输入端为5V标准电压,输出端输出的信号作为74LS125-C单元电路的控制电压;
74LS125-C单元电路的输入端连接业务单板CPU输出的信号B,输出端与74LS125-B单元电路的输出端共同连接74LS125-A单元电路的输入端;
74LS125-A单元电路的输出端输出的信号作为信号D。
从以上技术方案可以看出,本发明通过对电压模块的输出电压值的异常变化进行检测,可以提前发现业务单板潜在问题,做到提前发现提前解决,从而避免了现有技术中要到故障发生时才可以检测得到的问题,大大降低了故障响应时间,减小了损失,提高了用户业务的稳定性和可靠性。
本发明的具体实施例方案中,增加了专门用于表示业务单板故障状态的心跳信号。该心跳信号状态与通信管理总线状态相互验证,相互保护,避免了单一通信管理总线失效时无法获知业务单板实际状态的问题,大大增强了设备管理的可靠性。
附图说明
图1本发明实施例提供的故障检测及故障上报的系统框图;
图2a为本发明实施例提供的对关键IC器件的故障检测及上报子流程示意图;
图2b为本发明实施例提供的对业务单板CPU及电源的故障检测及上报子流程示意图;
图2c为本发明实施例的主控板12实现故障类型识别的子流程示意图;
图3为本发明实施例提供的心跳信号产生及控制模块102的一种实现方式的示意图;
图4为本发明实施例提供的心跳信号产生及控制模块102的另一种实现方式的示意图。
具体实施方式
本发明提出的故障检测及上报方法的基本技术特征包括:
A、业务单板通过连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,如果电源模块工作异常,输出具有第一频率的信号D;如果电源模块工作正常,输出具有第二频率的信号D;
B、主控板检测信号D的实际频率值,根据信号D频率值范围和当前背板通信总线的状态判断当前故障类型及单板工作状态。
此外,业务单板还可以判断业务单板CPU的工作状态是否正常;则所述相应频率的信号D是根据电源模块以及业务单板CPU的工作状态的判断结果输出:如果电源模块工作异常,则无论业务单板CPU是否工作正常,输出具有第一频率的信号D;如果电源模块工作正常,而业务单板CPU工作异常,输出具有第二频率的信号D;如果电源模块和业务单板CPU均工作正常,则输出具有第三频率的信号D。
所述业务单板判断业务单板CPU的工作状态是否正常包括:
业务单板的电源故障及CPU工作状态检测控制模块通过接收业务单板CPU输出的信号判断业务单板CPU的工作状态。
此外,业务单板CPU还通过反复读写IC器件的特定寄存器来判断其工作状态,并决定信号D的具体形式。为使本发明技术方案的特点、技术效果更加清楚,以下通过具体实施例对本发明方案进行详细阐述。
本发明实施例提供的故障检测及故障上报的系统框图如图1所示,该系统包括业务单板10、背板11和主控板12三个基本组成部分。
业务单板10上包括电源故障及CPU工作状态检测控制模块101、心跳信号产生及控制模块102以及业务单板CPU 103三个部分。
其中业务单板CPU 103是业务单板10的核心,负责整个业务单板10的初始化、业务配置和查询、关键IC器件工作状态的监控、通过背板通信总线和主控板CPU 122进行通信等工作。本发明实施例中,业务单板CPU 103新增两个功能:
(1)向电源故障及CPU工作状态检测控制模块101实时发送一定频率的脉冲心跳信号C;
(2)向心跳信号产生及控制模块102发送不同频率的心跳信号B或通过信号B控制心跳信号产生及控制模块102产生不同频率的心跳信号。在这里信号B可以是一个心跳信号,也可以是一个控制信号。
电源故障及CPU工作状态检测控制模块101是用于实现本发明实施例方案的核心模块,可以选用具有信号采集功能模块、单片机或其它具有类似功能的电路实现,其主要功能包括:
(1)实时检测并判断各电源模块的输出电压值是否在正常范围内,根据判断结果通过信号组A来控制心跳信号产生及控制模块102输出不同频率的心跳信号或固定电平;
(2)通过实时检测业务单板CPU 103送来的心跳脉冲信号C来判断业务单板CPU 103是否工作正常,并根据判断结果通过信号组A来控制心跳信号产生及控制模块102输出不同频率的心跳信号。在这里信号组A可以是一组控制信号和一个心跳信号的组合,也可以是一组控制信号。
心跳信号产生及控制模块102可以由复杂可编程逻辑器件(CPLD)或FPGA实现,可以通过编程产生不同的频率信号,适用于已有CPLD或FPGA的业务单板设计。
另外心跳信号产生及控制模块102还可以通过搭建门电路的方法实现,但这种方案下,不同频率的心跳信号或固定电平要由业务单板CPU 103和-电源故障及CPU工作状态检测控制模块101产生。心跳信号产生及控制模块102的主要功能是根据信号组A和信号B来判断输出何种频率的心跳信号或固定电平作为信号D。
背板11的功能是提供背板通信总线,实现业务单板10和主控板12之间的通信交互。在本实施例中,背板11主要是将业务单板10的心跳信号产生及控制模块102输出的信号D传输到主控板12的心跳信号频率检测模块121。
主控板12上包括心跳信号频率检测模块121和主控板CPU 122两个部分。
其中心跳信号检测模块121主要由CPLD或FPGA实现,该模块负责检测信号D的实际频率,并实时更新保存信号D的频率值。
主控板CPU 122负责从心跳信号频率检测模块121中实时读取信号D的频率值,并根据信号D频率值范围和当前背板通信总线的状态判断当前故障类型及单板工作状态。
本发明实施例提供的故障检测及上报方法流程包括若干个子流程。
图2a所示为对关键IC器件的故障检测及上报子流程,包括如下步骤:
步骤201a:业务单板CPU 103通过反复读写关键IC器件的特定寄存器来判断其工作状态,如果IC器件工作正常,执行步骤202a;如果IC器件工作异常,执行步骤203a。
步骤202a:业务单板CPU 103直接连续输出频率为f1的心跳信号B到心跳信号产生及控制模块102或者通过信号B控制心跳信号产生及控制模块102自身产生频率为f1的心跳信号;
步骤203a:业务单板CPU 103直接连续输出频率为f2的心跳信号B到心跳信号产生及控制模块102或者通过信号B控制心跳信号产生及控制模块102自身产生频率为f2的心跳信号。
图2b为对业务单板CPU及电源的故障检测及上报子流程,包括如下步骤:
步骤201b:业务单板CPU 103上电后工作正常,则连续输出频率为f4的心跳信号C到电源故障及CPU工作状态检测控制模块101。如果业务单板CPU 103失效或重启,则信号C会变为固定电平,直至业务单板CPU 103恢复正常的工作状态。
步骤202b:电源故障及CPU工作状态检测控制模块101通过连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,同时通过连续检测信号C的频率变化来判断CPU是否工作正常。
步骤203b:电源故障及CPU工作状态检测控制模块101根据判断结果控制心跳信号产生及控制模块102输出的信号D的具体形式。
如果电源模块工作异常,则无论CPU是否工作正常,立刻通过信号组A控制心跳信号产生及控制模块102输出信号D为固定电平0(或1);
如果电源模块工作正常,而CPU工作异常,则通过信号组A输出频率为f3的心跳信号到心跳信号产生及控制模块102,并控制模块102输出信号D为频率为f3的心跳信号,或者通过信号组A控制心跳信号产生及控制模块102产生频率为f3的心跳信号,并输出到信号D;
如果电源模块和CPU均工作正常,则通过信号组A控制心跳信号产生及控制模块102输出频率为f1或f2的心跳信号D。
故障上报后,主控板12通过图2c所示子流程实现故障类型的识别:
步骤201c:主控板12上的心跳信号频率检测模块121对信号D的频率进行连续检测并实时更新保存。
步骤202c:主控板CPU 122通过信号组E访问心跳信号频率检测模块并获得信号D的频率。
步骤203c:主控板CPU 122根据信号D的频率值范围及其变化情况以及主控板CPU 122和业务单板CPU 103之间的通信总线的状态来判断当前业务单板的实际工作状态。其判断方法主要包括:
(1)信号D的频率为f1时,表示业务单板工作正常。此时如果主控板不能够通过背板通信总线正常访问业务单板,则证明业务单板本身没有故障,可能是背板通信总线-出现故障。
(2)信号D的频率为f2时,表示业务单板上有关键的IC器件出现故障。此时如果背板通信总线正常,则主控板可以通过背板通信总线获得详细的故障信息,如果背板通信总线中断,则需要立刻检查相关单板业务是否正常从而决定是否更换业务单板。
(3)信号D的频率为f3时,表示业务单板上的CPU工作异常,此时主控板将不能通过背板通信总线正常访问业务单板。
(4)如果频率值为f3并持续一段时间后变为f1或f2,则表示CPU刚刚重启完毕,并重新进入工作状态。此时单板业务有可能受到影响,需要主控板通过背板通信总线访问业务单板的实际工作状态,以判断是否需要从新配置业务或更换单板。
(5)频率为0时表示单板出现电源故障或其它硬件故障,需要立刻更换单板。
以下根据心跳信号产生及控制模块102的不同硬件实现方式举例说明。
一、心跳信号产生及控制模块102由74LS125或其它型号的三态门器件实现
本实施例以74LS125为例进行说明,如图3所示,业务单板CPU 103由CPU 302实现,心跳信号产生及控制模块102由74LS125三态门器件(单元电路303-306)实现,电源故障及CPU工作状态检测控制模块101由单片机301实现,单片机301可以通过A/D转换引脚对各种电压值进行实时检测。其中74LS125-A单元电路306、74LS125-B单元电路304、74LS125-C单元电路305、74LS125-D单元电路303是属于一个74LS125器件的四个门电路单元,信号A-1、A-2、A-3对应图1中的信号组A,信号B对应图1中的信号B,信号C对应图1中的信号C,信号D对应图1中的信号D。
故障检测及上报的具体实现过程如下:
单片机301检测到任何一个电源模块输出的电压值超出正常范围,则立刻将信号A-1输出1,此时74LS125-A单元电路306输出高阻态,信号D由于外部的下拉电阻R6作用变为0,表示电源故障。否则信号A-1输出0,信号D将等于74LS125-A 306的输入信号。
如果CPU 302工作异常,信号C将变为固定电平,当单片机301检测到信号C为固定电平后,则输出信号A-3的频率为f3,同时将信号A-2输出低电平,此时74LS125-D单元电路303输出高电平,74LS125-C单元电路305输出高阻态,74LS125-B单元电路304输出信号A-3,再通过74LS125-A单元电路输出到信号D,频率为f3,表示CPU工作异常。
如果CPU 302工作正常,但CPU 302检测到关键IC器件工作异常时,CPU 302输出频率为f2的信号B以及输出频率为f4的信号C,单片机301检测到信号C为正常的心跳信号后,则将信号A-2输出高电平,此时74LS125-B单元电路304输出高阻态,74LS125-D单元电路303输出高阻态,74LS125-C单元电路305的控制引脚由于下拉电阻R4的作用为低电平,从而使得信号B通过74LS125-C单元电路305和74LS125-A单元电路306输出到信号D,频率为f2,表示IC器件工作异常。
如果CPU 302工作正常,关键IC器件也工作正常时,CPU 302输出频率为f1的信号B,输出频率为f4的信号C,单片机301检测到信号C为正常的心跳信号后,则将信号A-2输出高电平,此时74LS125-B单元电路304输出高阻态,74LS125-D单元电路303输出高阻态,74LS125-C单元电路305的控制引脚由于下拉电阻R4的作用为低电平,从而使得信号B通过74LS125-C单元电路305和74LS125-A单元电路306输出到信号D,频率为f1,表示单板工作正常。
二、心跳信号产生及控制模块102由CPLD或FPGA设计实现
如图4所示,心跳信号产生及控制模块102由CPLD或FPGA 403实现,CPLD或FPGA 403负责产生频率为分别为f1、f2、f3的三种时钟信号,并根据信号A-1、A-2和信号B的逻辑组合决定输出哪一种频率的信号到信号D。电源故障及CPU工作状态检测控制模块101由单片机401实现,单片机401可以通过A/D转换引脚对各种电压值进行实时检测。图中信号A-1、A-2对应图1中的信号组A,信号B对应图1中的信号B,信号C对应图1中的信号C,信号D对应图1中的信号D。
故障检测及上报的具体实现过程如下:
单片机401检测到任何一个电压值超出正常范围,则立刻将信号A-1输出1,此时CPLD或FPGA 403检测到信号A-1为1后,无论信号A-2和信号B为何值,均立刻输出信号D为1或0,表示电源故障。否则信号A-1输出0,信号D的状态将取决于信号A-2和信号B。
如果CPU 402工作异常,信号C将变为固定电平,当单片机401检测到信号C为固定电平后,则立刻将信号A-2输出1,CPLD或FPGA 403检测到信号A-1为0,A-2为1后,无论信号B为何值,即立刻输出频率为f3的时钟信号到信号D,表示CPU 402工作异常。
如果CPU 402工作正常,但CPU 402检测到关键IC器件工作异常时,CPU 402将信号B输出1,输出频率为f4的信号C,单片机401检测到信号C为正常的心跳信号后,则将信号A-2输出0,此时CPLD或FPGA 403检测到信号A-1为0,A-2为0,信号B为1后,则立刻输出频率为f2的时钟信号到信号D,表示IC器件工作异常。
如果CPU 402工作正常,关键IC器件也工作正常时,CPU 402将信号B输出0,输出频率为f4的信号C,单片机401检测到信号C为正常的心跳信号后,则将信号A-2输出0,此时CPLD或FPGA 403检测到信号A-1为0,A-2为0,信号B为0后,则立刻输出频率为f1的时钟信号到信号D,表示单板工作正常。
与现有技术相比,本发明具有如下优点:
与现有技术中的单一通信管理总线相比,增加了专门用于表示业务单板故障状态的心跳信号。该心跳信号状态与通信管理总线状态相互验证,相互保护,避免了单一通信管理总线失效时无法获知业务单板实际状态的问题,大大增强了设备管理的可靠性。
与现有技术中的故障检测内容相比,增加了对电源模块故障、CPU工作状态(包括失效和重启)的检测内容,并且通过心跳信号状态与通信管理总线状态的比较,还可以实现对背板通信总线故障的检测。大大丰富了业务单板各种故障的检测内容,尤其丰富了对硬件故障的检测内容,提高了设备稳定运行的安全性。
与现有技术中故障检测的及时性相比,本发明通过对电源电压值的异常变化和CPU的异常重启等可能影响通信业务的状态的检测,可以提前发现业务单板潜在问题,做到提前发现提前解决。从而避免了现有技术中要到故障发生时才可以检测得到的问题,大大降低了故障响应时间,减小了损失,提高了用户业务的稳定性和可靠性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种故障检测及上报方法,其特征在于,包括如下步骤:
A、业务单板通过连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,如果电源模块工作异常,输出具有第一频率的信号D;
B、主控板检测到第一频率的信号D时,判断电压模块故障。
2.根据权利要求1所述的方法,其特征在于,步骤A还包括:
当电源模块工作正常,且业务单板CPU的工作状态异常时,输出具有第二频率的信号D;当电源模块工作正常,且业务单板CPU的工作状态正常时,输出具有第三频率的信号D;
步骤B还包括:主控板检测到第二频率的信号D时,判断业务单板CPU的工作状态异常;主控板检测到第三频率的信号D时,判断电源模块和业务单板CPU的工作状态均为正常。
3.根据权利要求2所述的方法,其特征在于,步骤A进一步包括:
A1、业务单板CPU输出信号C至电源故障及CPU工作状态检测控制模块;如果业务单板CPU上电后工作正常,所述信号C为连续的频率为f4的心跳信号,如果业务单板CPU工作异常,则信号C为固定电平;
A2、业务单板的电源故障及CPU工作状态检测控制模块通过连续检测信号C的频率变化来判断业务单板CPU是否工作正常;
A3、电源故障及CPU工作状态检测控制模块根据判断结果控制心跳信号产生及控制模块输出至主控板的信号D的具体形式。
4.根据权利要求2所述的方法,其特征在于,所述第一频率的信号D为固定电平;所述第二频率的信号D为频率为f3的心跳信号;所述第三频率的信号D为频率为f1或f2的心跳信号。
5.根据权利要求4所述的方法,其特征在于,步骤A进一步包括:
业务单板CPU通过反复读写IC器件的特定寄存器来判断其工作状态,如果所述IC器件工作正常,则信号D为频率为f1的心跳信号,如果所述IC器件工作异常,则信号D为频率为f2的心跳信号。
6.根据权利要求5所述的方法,其特征在于,步骤B进一步包括:
主控板检测到信号D的频率为f1时,判定业务单板工作正常。
7.根据权利要求6所述的方法,其特征在于,所述判定业务单板工作正常之后进一步包括:主控板判断是否通过背板通信总线正常访问业务单板,若否,则判定背板通信总线出现故障。
8.根据权利要求5所述的方法,其特征在于,步骤B进一步包括:
主控板检测到信号D的频率为f2时,判定业务单板上有关键的IC器件出现故障。
9.根据权利要求8所述的方法,其特征在于,所述判定业务单板上有关键的IC器件出现故障之后进一步包括:
如果背板通信总线正常,则主控板通过背板通信总线获得详细的故障信息;如果背板通信总线中断,则检查相关单板业务是否正常从而决定是否更换业务单板。
10.根据权利要求5所述的方法,其特征在于,步骤B进一步包括:
如果主控板检测到信号D的频率值为f3并持续一段时间后变为f1或f2,则判定业务单板CPU刚刚重启完毕并重新进入工作状态;
主控板通过背板通信总线访问业务单板的实际工作状态,以判断是否需要从新配置业务或更换单板。
11.根据权利要求5所述的方法,其特征在于,步骤B进一步包括:主控板检测到信号D的频率为0时,判定业务单板出现电源故障或其它硬件故障。
12.一种故障检测及上报系统,包括业务单板,背板以及主控板,其特征在于,所述业务单板用于连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,如果电源模块工作异常,输出具有第一频率的信号D;
所述背板用于提供背板通信总线实现主控板与业务单板之间的通信;
所述主控板用于检测信号D的实际频率值,当检测到第一频率的信号D时,判断电压模块故障。
13.根据权利要求12所述的系统,其特征在于,所述业务单板进一步用于检测业务单板CPU的工作状态,当电源模块工作正常,且业务单板CPU的工作状态异常时,输出具有第二频率的信号D;当电源模块工作正常,且业务单板CPU的工作状态正常时,输出具有第三频率的信号D;
所述主控板当检测到第二频率的信号D时,判断业务单板CPU的工作状态异常;当检测到第三频率的信号D时,判断电源模块和业务单板CPU的工作状态均为正常。
14.根据权利要求13所述的系统,其特征在于,所述业务单板包括:电源故障及CPU工作状态检测控制模块、心跳信号产生及控制模块以及业务单板CPU;
所述业务单板CPU用于输出信号C至电源故障及CPU工作状态检测控制模块,如果业务单板CPU上电后工作正常,所述信号C为连续的频率为f4的心跳信号,如果业务单板CPU工作异常,则信号C为固定电平;
所述电源故障及CPU工作状态检测控制模块用于通过连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,同时通过连续检测信号C的频率变化来判断业务单板CPU是否工作正常,根据判断结果输出信号组A至心跳信号产生及控制模块;
所述心跳信号产生及控制模块用于根据信号组A输出信号D,具体包括:如果信号组A表示电源模块工作异常,则无论业务单板CPU是否工作正常,则所述信号D为固定电平;如果信号组A表示电源模块工作正常,而业务单板CPU工作异常,则信号D为频率为f3的心跳信号;如果信号组A表示电源模块和业务单板CPU均工作正常,则信号D为频率为f1或f2的心跳信号。
15.根据权利要求14所述的系统,其特征在于,业务单板CPU通过反复读写IC器件的特定寄存器来判断其工作状态,并根据判断结果向心跳信号产生及控制模块输出信号B;
所述心跳信号产生及控制模块进一步用于根据信号B输出信号D,具体包括:如果信号B表示所述IC器件工作正常,则信号D为频率为f1的心跳信号,如果信号B表示所述IC器件工作异常,则信号D为频率为f2的心跳信号。
16.根据权利要求15所述的系统,其特征在于,所述主控板包括:心跳信号检测模块和主控板CPU;
所述心跳信号检测模块用于检测信号D的实际频率,并实时更新保存信号D的频率值;
所述主控板CPU用于从心跳信号频率检测模块中实时读取信号D的频率值,并根据信号D频率值范围和当前背板通信总线的状态判断当前故障类型及单板工作状态,具体包括:
信号D的频率为f1时,判定业务单板工作正常;如果同时主控板不能够通过背板通信总线正常访问业务单板,则判定背板通信总线-出现故障;
信号D的频率为f2时,判定业务单板上有关键的IC器件出现故障;如果同时背板通信总线正常,则主控板通过背板通信总线获得详细的故障信息;
信号D的频率为f3时,判定业务单板上的CPU工作异常。
如果信号D的频率值为f3并持续一段时间后变为f1或f2,则判定业务单板CPU刚刚重启完毕并重新进入工作状态;
信号D的频率为0时判定业务单板出现电源故障或其它硬件故障。
17.一种业务单板,其特征在于,所述业务单板包括:电源故障及CPU工作状态检测控制模块、心跳信号产生及控制模块以及业务单板CPU;
所述业务单板CPU用于输出信号C至电源故障及CPU工作状态检测控制模块,如果业务单板CPU上电后工作正常,所述信号C为连续的频率为f4的心跳信号,如果业务单板CPU失效或重启,则信号C为固定电平;业务单板CPU进一步用于通过反复读写IC器件的特定寄存器来判断其工作状态,并根据判断结果输出信号B至心跳信号产生及控制模块;
所述电源故障及CPU工作状态检测控制模块用于通过连续检测各个电压模块的输出电压值是否在正常的范围内来判断电源模块的工作状态,同时通过连续检测信号C的频率变化来判断业务单板CPU是否工作正常,根据判断结果输出信号组A至心跳信号产生及控制模块;
所述心跳信号产生及控制模块用于根据信号组A输出信号D,具体包括:如果信号组A表示电源模块工作异常,则无论业务单板CPU是否工作正常,则所述信号D为固定电平;如果信号组A表示电源模块工作正常,而业务单板CPU工作异常,则信号D为频率为f3的心跳信号;如果信号组A表示电源模块和业务单板CPU均工作正常,则信号D为频率为f1或f2的心跳信号。
18.根据权利要求17所述的业务单板,其特征在于,
业务单板CPU通过反复读写IC器件的特定寄存器来判断其工作状态,并根据判断结果向心跳信号产生及控制模块输出信号B;
所述心跳信号产生及控制模块进一步用于根据信号B输出信号D,具体包括:如果信号B表示所述IC器件工作正常,则信号D为频率为f1的心跳信号,如果信号B表示所述IC器件工作异常,则信号D为频率为f2的心跳信号。
19.根据权利要求17或18所述的业务单板,其特征在于,所述电源故障及CPU工作状态检测控制模块由单片机实现,所述单片机通过A/D转换引脚实时检测各个电压模块的输出电压值。
20.根据权利要求19所述的业务单板,其特征在于,所述心跳信号产生及控制模块由74LS125三态门器件实现,所述74LS125三态门器件包括74LS125-A单元电路、74LS125-B单元电路、74LS125-C单元电路和74LS125-D单元电路;
单片机输出信号A-1作为74LS125-A单元电路的控制电压,单片机输出信号A-2作为74LS125-B单元电路和74LS125-D单元电路的控制电压,单片机输出信号A-3连接74LS125-B单元电路的输入端;
74LS125-D单元电路的输入端为5V标准电压,输出端输出的信号作为74LS125-C单元电路的控制电压;
74LS125-C单元电路的输入端连接业务单板CPU输出的信号B,输出端与74LS125-B单元电路的输出端共同连接74LS125-A单元电路的输入端;
74LS125-A单元电路的输出端输出的信号作为信号D。
CN201110277302.XA 2011-09-19 2011-09-19 一种业务单板、以及故障检测及上报方法和系统 Active CN102315966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110277302.XA CN102315966B (zh) 2011-09-19 2011-09-19 一种业务单板、以及故障检测及上报方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110277302.XA CN102315966B (zh) 2011-09-19 2011-09-19 一种业务单板、以及故障检测及上报方法和系统

Publications (2)

Publication Number Publication Date
CN102315966A true CN102315966A (zh) 2012-01-11
CN102315966B CN102315966B (zh) 2014-07-23

Family

ID=45428803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110277302.XA Active CN102315966B (zh) 2011-09-19 2011-09-19 一种业务单板、以及故障检测及上报方法和系统

Country Status (1)

Country Link
CN (1) CN102315966B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101596A1 (zh) * 2014-12-25 2016-06-30 中兴通讯股份有限公司 掉电保护方法、装置及其系统
CN105912438A (zh) * 2016-03-07 2016-08-31 联想(北京)有限公司 基板控制系统、电子设备及信息处理方法
CN106789711A (zh) * 2016-12-30 2017-05-31 杭州迪普科技股份有限公司 一种流量的分配方法及装置
CN107682188A (zh) * 2017-09-29 2018-02-09 新华三技术有限公司 一种故障感知方法和装置
CN107870584A (zh) * 2016-09-23 2018-04-03 迈普通信技术股份有限公司 一种业务板输入电源工作状态检测方法及机框式设备
CN108020254A (zh) * 2016-11-04 2018-05-11 英飞凌科技股份有限公司 信号协议故障检测系统和方法
CN108268352A (zh) * 2016-12-30 2018-07-10 中兴通讯股份有限公司 接口卡状态检测方法、接口卡及线卡
CN111220926A (zh) * 2018-11-08 2020-06-02 深圳市新格林耐特通信技术有限公司 电源监测装置、电源监测方法和框式设备
CN112925380A (zh) * 2021-02-04 2021-06-08 烽火通信科技股份有限公司 复杂通信设备控制方法、装置、设备及存储介质
CN115016566A (zh) * 2022-06-15 2022-09-06 深圳市瑞驰信息技术有限公司 一种电路板加热控制系统、方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787410A (zh) * 2004-12-08 2006-06-14 中兴通讯股份有限公司 一种单板故障检测方法
CN101017377A (zh) * 2007-02-28 2007-08-15 华为技术有限公司 一种实现单板维护和监控的方法及系统
CN102045207A (zh) * 2009-10-14 2011-05-04 中兴通讯股份有限公司 一种通信设备的电源监测方法、系统及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787410A (zh) * 2004-12-08 2006-06-14 中兴通讯股份有限公司 一种单板故障检测方法
CN101017377A (zh) * 2007-02-28 2007-08-15 华为技术有限公司 一种实现单板维护和监控的方法及系统
CN102045207A (zh) * 2009-10-14 2011-05-04 中兴通讯股份有限公司 一种通信设备的电源监测方法、系统及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786632A (zh) * 2014-12-25 2016-07-20 中兴通讯股份有限公司 掉电保护方法、装置及其系统
WO2016101596A1 (zh) * 2014-12-25 2016-06-30 中兴通讯股份有限公司 掉电保护方法、装置及其系统
EP3240233A4 (en) * 2014-12-25 2018-01-24 ZTE Corporation Power fail safeguard method, device and system thereof
CN105912438B (zh) * 2016-03-07 2019-04-26 联想(北京)有限公司 基板控制系统、电子设备及信息处理方法
CN105912438A (zh) * 2016-03-07 2016-08-31 联想(北京)有限公司 基板控制系统、电子设备及信息处理方法
CN107870584B (zh) * 2016-09-23 2020-12-01 迈普通信技术股份有限公司 一种业务板输入电源工作状态检测方法及机框式设备
CN107870584A (zh) * 2016-09-23 2018-04-03 迈普通信技术股份有限公司 一种业务板输入电源工作状态检测方法及机框式设备
CN108020254A (zh) * 2016-11-04 2018-05-11 英飞凌科技股份有限公司 信号协议故障检测系统和方法
CN108020254B (zh) * 2016-11-04 2020-05-01 英飞凌科技股份有限公司 信号协议故障检测系统和方法
CN108268352A (zh) * 2016-12-30 2018-07-10 中兴通讯股份有限公司 接口卡状态检测方法、接口卡及线卡
CN106789711A (zh) * 2016-12-30 2017-05-31 杭州迪普科技股份有限公司 一种流量的分配方法及装置
CN107682188A (zh) * 2017-09-29 2018-02-09 新华三技术有限公司 一种故障感知方法和装置
CN111220926A (zh) * 2018-11-08 2020-06-02 深圳市新格林耐特通信技术有限公司 电源监测装置、电源监测方法和框式设备
CN112925380A (zh) * 2021-02-04 2021-06-08 烽火通信科技股份有限公司 复杂通信设备控制方法、装置、设备及存储介质
CN112925380B (zh) * 2021-02-04 2022-04-29 烽火通信科技股份有限公司 复杂通信设备控制方法、装置、设备及存储介质
CN115016566A (zh) * 2022-06-15 2022-09-06 深圳市瑞驰信息技术有限公司 一种电路板加热控制系统、方法及电子设备

Also Published As

Publication number Publication date
CN102315966B (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
CN102315966B (zh) 一种业务单板、以及故障检测及上报方法和系统
CN101488844B (zh) 一种板间通信链路切换控制的方法和系统以及一种接口板
CN105470555B (zh) 一种动力电池组结构及其管理方法
CN103959684A (zh) Pon保护系统的自诊断方法及pon保护系统
CN101145895A (zh) 主备设备倒换方法
CN102915033A (zh) 车辆故障诊断系统和工程机械
WO2020143243A1 (zh) 一种应用于列车自动运行系统的双系热备切换方法及系统
CN106254097A (zh) 一种基于第三方判定的ats系统双机仲裁系统及方法
WO2008119288A1 (fr) Système, dispositif, équipement et procédé de surveillance de la gestion
CN101964724A (zh) 通信单板的节能方法和一种通信单板
CN109932891A (zh) 一种异构冗余的拟态mcu
CN107870584A (zh) 一种业务板输入电源工作状态检测方法及机框式设备
CN105242608A (zh) 整车控制器及其控制方法
CN109301919A (zh) 一种不间断电源旁路接管控制方法
CN105573112A (zh) 内燃机车励磁控制器双机热冗余自动切换系统
CN106814604B (zh) 一种三冗余无源独立电流互检断电重启系统及方法
CN106451404A (zh) 电源系统及其电源配置方法
CN104639358A (zh) 批量网络端口切换方法及切换系统
CN106093683A (zh) 加热器断线检测系统以及断线检测方法
CN103779943A (zh) 一种电动汽车的电池管理系统
CN101782617B (zh) 电路故障检测方法和装置
CN206133294U (zh) 一种控制器故障保护系统
CN105573869B (zh) 基于i2c总线的系统控制器容错控制方法
CN104391756B (zh) 基于多通道串行通讯的链式svg故障分级容错处理方法
CN101397020A (zh) 智能采集驱动设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant