CN1787410A - 一种单板故障检测方法 - Google Patents

一种单板故障检测方法 Download PDF

Info

Publication number
CN1787410A
CN1787410A CNA200410096863XA CN200410096863A CN1787410A CN 1787410 A CN1787410 A CN 1787410A CN A200410096863X A CNA200410096863X A CN A200410096863XA CN 200410096863 A CN200410096863 A CN 200410096863A CN 1787410 A CN1787410 A CN 1787410A
Authority
CN
China
Prior art keywords
heartbeat
register
value
write
single board
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200410096863XA
Other languages
English (en)
Inventor
张建伟
余正华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CNA200410096863XA priority Critical patent/CN1787410A/zh
Publication of CN1787410A publication Critical patent/CN1787410A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种单板故障检测方法,包括:1.在单板上设置一个心跳信号寄存器,单板上电运行;2.以一定的周期向心跳信号寄存器内交替写入特定的心跳值;3.FPGA读取心跳值,并将心跳信号输出到检测总线;4.判断软件是否正常运行,如果是则继续,否则向心跳信号寄存器中写入异常心跳值或者停止写入心跳值,执行步骤7;5.向主要业务芯片中的寄存器作写和读操作,通过比较读写值是否一致来判断该业务芯片是否工作正常;6.如果业务芯片正常,则继续,否则向心跳信号寄存器中写入异常心跳值或者停止写入心跳值;7.判断心跳信号是否正常,如果是则返回步骤2,否则输出单板故障。本发明方法具有检测直接、检测结果可靠、故障判定过程简单的优点。

Description

一种单板故障检测方法
技术领域
本发明涉及一种单板运行时的实时故障检测方法,属于通信控制领域。
背景技术
对可靠性要求较高的设备单板,需要对单板故障做出快速反应,人工更换故障单板或启用自动保护倒换机制把故障板的业务倒换到保护板上去。这时,对于单板的故障检测就显得尤为重要。单板故障检测是指通过某种方法或借助外部工具,对单板的软件和硬件运行状态进行检查,以确定单板是否发生故障。目前,对单板故障检测最常用的方法是间接检测法,间接检测法主要是对单板承载的业务进行监测,通过分析其性能指标是否劣化来检查单板是否发生故障。在直接检测法中,目前使用的只有针对软件的软件看门狗法,当软件跑死或进入内部死循环时,看门狗会复位CPU,重新运行程序。
现有的方法都存在下列缺点:(1)、由间接检测法判定单板故障过程较复杂,要综合分析业务各性能指标劣化程度来推断单板是否故障。(2)、间接检测法可靠性不高,业务指标劣化有可能是其他关联设备故障或环境干扰等原因造成的,而非自身单板出现故障。(3)、软件看门狗法对喂狗周期有严格限制,当软件运行正常,而子任务因需要连续运行时间过长时,仍然会引起看门狗复位CPU。
发明内容
本发明的目的就是为了克服目前间接检测法故障判定复杂、可靠性低,软件看门狗法受限较大的缺点,提出一种可对运行中的单板直接进行软、硬件故障检测的方法。
一种单板故障检测方法,包括下列步骤:
步骤一、在单板上设置一个心跳信号寄存器,单板上电运行;
步骤二、以一定的周期向心跳信号寄存器内交替写入特定的心跳值;
步骤三、FPGA读取心跳信号寄存器中的值,并将读取的心跳信号输出到检测总线;
步骤四、判断软件是否正常运行,如果是则继续,否则向心跳信号寄存器中写入异常心跳值或者停止向心跳信号寄存器中写入心跳值,执行步骤七;
步骤五、向主要业务芯片中的寄存器作写和读操作,通过比较读写值是否一致来判断该业务芯片是否工作正常;
步骤六、如果业务芯片正常,则继续,否则向心跳信号寄存器中写入异常心跳值或者停止向心跳信号寄存器中写入心跳值;
步骤七、判断检测总线输出的心跳信号是否正常,如果是则返回步骤二,否则输出单板故障。
本发明通过在单板上提供一个心跳寄存器和输出的心跳信号,当单板运行正常时,交替向心跳寄存器内写入约定值,使输出的心跳信号在一个周期内至少发生一次变化;当单板出现故障时,向心跳寄存器内写入非约定值(或停止写心跳寄存器),使输出的心跳信号异常(非约定值或周期内信号无变化)。这样,只需检测输出的心跳信号即可判定单板是否出现故障。本发明方法与现有的方法相比,能够直接检测运行中单板的软、硬件情况,对可读写和不可读写的硬件器件都可进行检查,并把检测结果归结到统一的输出信号上来,具有检测直接、检测结果可靠、故障判定过程简单的优点。
附图说明
图1是本发明提出的检测方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。
图1是本发明提出的检测方法的流程图。如图1所示,本发明提出的单板故障检测方法,包括下列步骤:
步骤一、在单板上设置一个心跳信号寄存器,单板上电运行;
步骤二、以一定的周期向心跳信号寄存器内交替写入特定的心跳值;
步骤三、FPGA读取心跳信号寄存器中的值,并将读取的心跳信号输出到检测总线;
步骤四、判断软件是否正常运行。这里可以通过喂狗周期是否超过规定的时长来判断软件是否正常运行。如果是则继续,否则向心跳信号寄存器中写入异常心跳值或者停止向心跳信号寄存器中写入心跳值,执行步骤七;
步骤五、向主要业务芯片中的寄存器作写和读操作,通过比较读写值是否一致来判断该业务芯片是否工作正常。读写操作的寄存器可以是保留寄存器也可以是空闲寄存器。
步骤六、如果业务芯片正常,则继续,否则向心跳信号寄存器中写入异常心跳值或者停止向心跳信号寄存器中写入心跳值;
步骤七、判断检测总线输出的心跳信号是否正常,如果是则返回步骤二,否则输出单板故障。
下面以SDH(Synchronous digital hierarchy)通信系统中电支路板1:N保护工作过程为例,说明本发明提出的检测方法的详细实现过程。
电支路板1:N保护是在SDH设备上,除了N块工作板外,还有一块与工作板完全相同的保护板,当倒换控制器检测到N块工作板中的某一块出现故障,就把它的业务倒换到保护板上去,从而不中断业务。电支路板上的硬件主要包括AMD186CPU、主用业务芯片(映射芯片)、FPGA(可编程逻辑阵列),软件使用的是电支路板单板软件。工作过程如下:
1)在单板上设置一个心跳信号寄存器,单板上电工作,进行自检和初始化。
2)单板正常运行后,以一定的周期向心跳信号寄存器内交替写入特定的心跳值。
3)由FPGA读取心跳寄存器的值,并把心跳信号输出到倒换控制器的检测总线上去,如果FPGA出现故障,则输出异常心跳信号。
4)用单独的软件喂狗模块程序去检测软件,当软件跑死或进入内部死循环时,喂狗周期会超过喂狗模块规定的时长,此时向心跳寄存器中写入异常心跳值0XFF(或停止向心跳寄存器写入心跳值)。
5)若软件无故障,检测主用业务芯片,向选定的芯片内保留寄存器写入0XAA,再读出来,看读出来的值是否也是0XAA。如果是,则周期内向心跳寄存器内交替写入约定值0X01和0X10;如果不是,则向心跳寄存器内写入异常值0XFF。
6)倒换控制器通过检测输出的心跳信号是否正常,获知单板是否发生故障,以决定是否进行倒换操作。

Claims (3)

1、一种单板故障检测方法,其特征在于包括下列步骤:
步骤一、在单板上设置一个心跳信号寄存器,单板上电运行;
步骤二、以一定的周期向心跳信号寄存器内交替写入特定的心跳值;
步骤三、FPGA读取心跳信号寄存器中的值,并将读取的心跳信号输出到检测总线;
步骤四、判断软件是否正常运行,如果是则继续,否则向心跳信号寄存器中写入异常心跳值或者停止向心跳信号寄存器中写入心跳值,执行步骤七;
步骤五、向主要业务芯片中的寄存器作写和读操作,通过比较读写值是否一致来判断该业务芯片是否工作正常;
步骤六、如果业务芯片正常,则继续,否则向心跳信号寄存器中写入异常心跳值或者停止向心跳信号寄存器中写入心跳值;
步骤七、判断检测总线输出的心跳信号是否正常,如果是则返回步骤二,否则输出单板故障。
2、根据权利要求1所述的方法,其特征在于所述步骤四中判断软件是否正常是通过喂狗周期是否超过规定的时长来判断软件是否正常运行的。
3、根据权利要求1所述的方法,其特征在于所述步骤五中的寄存器为保留寄存器或者空闲寄存器。
CNA200410096863XA 2004-12-08 2004-12-08 一种单板故障检测方法 Pending CN1787410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA200410096863XA CN1787410A (zh) 2004-12-08 2004-12-08 一种单板故障检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200410096863XA CN1787410A (zh) 2004-12-08 2004-12-08 一种单板故障检测方法

Publications (1)

Publication Number Publication Date
CN1787410A true CN1787410A (zh) 2006-06-14

Family

ID=36784746

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200410096863XA Pending CN1787410A (zh) 2004-12-08 2004-12-08 一种单板故障检测方法

Country Status (1)

Country Link
CN (1) CN1787410A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111044B (zh) * 2007-08-22 2010-06-09 中兴通讯股份有限公司 一种移动通信网络管理系统及其诊断基站单板的方法
CN101241463B (zh) * 2007-02-08 2010-09-01 北京天融信网络安全技术有限公司 一种实现fpga监控及恢复的方法
CN102315966A (zh) * 2011-09-19 2012-01-11 瑞斯康达科技发展股份有限公司 一种业务单板、以及故障检测及上报方法和系统
CN103246585A (zh) * 2013-05-06 2013-08-14 浙江宇视科技有限公司 一种存储控制器故障检测方法
CN104079454A (zh) * 2014-07-11 2014-10-01 杭州华三通信技术有限公司 一种设备异常检测方法和设备
CN104298629A (zh) * 2013-07-15 2015-01-21 华为技术有限公司 一种用于pci-e的数据传输方法及系统
WO2015078073A1 (zh) * 2013-11-29 2015-06-04 深圳市理邦精密仪器股份有限公司 一种软件死机监测的方法及使用该方法的医用外接设备
CN109254894A (zh) * 2018-08-20 2019-01-22 曙光信息产业(北京)有限公司 芯片的心跳监测装置及方法
CN115396342A (zh) * 2022-08-29 2022-11-25 光大环保技术装备(常州)有限公司 垃圾焚烧炉智能燃烧控制系统用通讯方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241463B (zh) * 2007-02-08 2010-09-01 北京天融信网络安全技术有限公司 一种实现fpga监控及恢复的方法
CN101111044B (zh) * 2007-08-22 2010-06-09 中兴通讯股份有限公司 一种移动通信网络管理系统及其诊断基站单板的方法
CN102315966A (zh) * 2011-09-19 2012-01-11 瑞斯康达科技发展股份有限公司 一种业务单板、以及故障检测及上报方法和系统
CN102315966B (zh) * 2011-09-19 2014-07-23 瑞斯康达科技发展股份有限公司 一种业务单板、以及故障检测及上报方法和系统
CN103246585A (zh) * 2013-05-06 2013-08-14 浙江宇视科技有限公司 一种存储控制器故障检测方法
CN103246585B (zh) * 2013-05-06 2017-04-19 浙江宇视科技有限公司 一种存储控制器故障检测方法
CN104298629A (zh) * 2013-07-15 2015-01-21 华为技术有限公司 一种用于pci-e的数据传输方法及系统
WO2015078073A1 (zh) * 2013-11-29 2015-06-04 深圳市理邦精密仪器股份有限公司 一种软件死机监测的方法及使用该方法的医用外接设备
CN104079454A (zh) * 2014-07-11 2014-10-01 杭州华三通信技术有限公司 一种设备异常检测方法和设备
CN104079454B (zh) * 2014-07-11 2017-12-29 新华三技术有限公司 一种设备异常检测方法和设备
CN109254894A (zh) * 2018-08-20 2019-01-22 曙光信息产业(北京)有限公司 芯片的心跳监测装置及方法
CN115396342A (zh) * 2022-08-29 2022-11-25 光大环保技术装备(常州)有限公司 垃圾焚烧炉智能燃烧控制系统用通讯方法及系统

Similar Documents

Publication Publication Date Title
US7802138B2 (en) Control method for information processing apparatus, information processing apparatus, control program for information processing system and redundant comprisal control apparatus
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
CN1787410A (zh) 一种单板故障检测方法
CN1808999A (zh) 信号处理单元cpu故障的检测方法及装置
US20030084376A1 (en) Software crash event analysis method and system
CN1929034A (zh) 一种内存故障测试的方法及系统
CN1776644A (zh) 一种基于有限状态机的对内存变量改写进行监控的方法
CN107092247B (zh) 一种基于状态数据的包装生产线故障诊断方法
WO2021056913A1 (zh) 基于i2c通讯的故障定位方法、装置及系统
CN1053210A (zh) 数字控制装置的诊断系统
CN115964218A (zh) 高速串行计算机扩展总线设备故障的识别方法及装置
CN1585500A (zh) 一种主备单板自动监测和切换的方法
CN113127273B (zh) 单片机检测电路及相应的检测的方法
CN100369009C (zh) 使用系统管理中断信号的监控系统及方法
CN209343321U (zh) 一种计算机故障检测装置
Jutman et al. System-wide fault management based on IEEE P1687 IJTAG
CN2640135Y (zh) 连接高速以太网与hart总线的网络互联单元
CN112380036A (zh) 机车信号主机软件系统
CN109254887A (zh) 一种ntb故障检测方法及系统
CN113836035B (zh) 电池管理系统测试方法、装置及电子设备
CN113127277B (zh) 一种设备测试方法、装置、电子设备及可读存储介质
JPS61160071A (ja) Icの自己診断回路
CN118012687A (zh) 测试方法、装置、电子设备及存储介质
JP3326546B2 (ja) コンピュータシステムの故障検知方法
JPH04363729A (ja) 計算機システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20060614