CN100395722C - 一种对控制系统异常状态信息进行保存的方法 - Google Patents

一种对控制系统异常状态信息进行保存的方法 Download PDF

Info

Publication number
CN100395722C
CN100395722C CNB2003101210831A CN200310121083A CN100395722C CN 100395722 C CN100395722 C CN 100395722C CN B2003101210831 A CNB2003101210831 A CN B2003101210831A CN 200310121083 A CN200310121083 A CN 200310121083A CN 100395722 C CN100395722 C CN 100395722C
Authority
CN
China
Prior art keywords
control system
information
watchdog
preserved
reset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2003101210831A
Other languages
English (en)
Other versions
CN1632760A (zh
Inventor
邓兴
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB2003101210831A priority Critical patent/CN100395722C/zh
Publication of CN1632760A publication Critical patent/CN1632760A/zh
Application granted granted Critical
Publication of CN100395722C publication Critical patent/CN100395722C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Retry When Errors Occur (AREA)

Abstract

一种对控制系统异常状态信息进行保存的方法,在看门狗系统中设置至少两级的计数器,当计数到前一级计数值时,看门狗系统触发不可屏蔽中断;控制系统利用所述的不可屏蔽中断对该控制系统易丢失的信息进行保存;当计数器计数到后一级计数值时,看门狗系统触发复位信号对控制系统进行复位。本发明提供了一种有效地在控制系统软件异常情况下对现场数据进行保存的方法,并保证了一般看门狗复位电路的功能,利用本发明,系统故障时的各种软件和硬件状态信息能被及时记录下来,避免了重要系统配置数据的丢失,方便了故障问题的定位分析。

Description

一种对控制系统异常状态信息进行保存的方法
技术领域
本发明涉及通信技术领域,尤其涉及一种对控制系统异常状态信息进行保存的方法。
背景技术
运营级的通信产品对系统的可靠性要求很高,除了对设备平均无故障时间有严格的要求以外,还对设备故障恢复时间要严格要求,一般来说,系统设计都使用硬件或者软件看门狗技术来进行系统异常监控,能够使系统在故障后自动重启,恢复正常运行。
看门狗的原理是使用一个硬件或者软件计数器,设置一个计数器溢出值,在计数器计数到溢出值之前,软件必须定时或者有专门的任务把计数器清零,如果在计数器溢出之前没有被清零,可以认为主控系统软件已经异常,计数器会使用溢出指示信号触发系统复位。系统重新启动后,能够重新加载程序,保证系统从故障中自动快速恢复。
现有技术中看门狗电路在触发过程中直接进行系统复位重起,这样设备故障时的临时配置数据和硬件中的寄存器数据都因为复位而丢失了,不能对系统现场进行保护。系统复位重启成为设备网上运行中的一个严重而且难以定位的故障,系统一复位,很多保留在数据缓存中的信息会自动清零,CPU的寄存器也会恢复到初始化的值,这样,系统故障时的各种软件和硬件状态信息不能被及时记录下来,不利于问题的定位分析,也可能丢失重要的系统配置数据,对设备的维护造成较大影响。
发明内容
本发明所要解决的技术问题是:克服现有的看门狗电路在触发过程中直接进行系统复位重起所带来的数据丢失、不利于问题的定位分析等缺陷,提供一种对控制系统异常状态信息进行保存的方法,从而避免重要信息的丢失,并方便对设备故障的定位分析。
本发明为解决上述技术问题所采用的技术方案为:
这种对控制系统异常状态信息进行保存的方法,包括以下步骤:
A、在看门狗系统中设置至少两级的计数器,当计数到前一级计数值时,看门狗系统触发不可屏蔽中断;
B、控制系统利用所述的不可屏蔽中断对该控制系统易丢失的信息进行保存;
C、当计数器计数到后一级计数值时,看门狗系统触发复位信号对控制系统进行复位。
所述的计数器在前、后级计数值之间的时间差大于所述对系统信息进行保存所需的时间。
所述的步骤B中,将系统信息保存在外部数据存储器中。
所述的外部数据存储器为可擦除可编程只读存储器(EEPROM)。
所述的步骤B中,易丢失的信息是指控制系统会因掉电或复位而丢失的数据。
本发明的有益效果为:本发明通过对系统看门狗故障原因的分析,扩展了看门狗电路,使用二级或多级计数器,利用CPU的不可屏蔽中断来作为硬件触发信号,提供一种有效地在控制系统软件异常情况下对现场数据进行保存的方法,并保证了一般看门狗复位电路的功能,提高了系统的可用性。利用本发明系统故障时的各种软件和硬件状态信息能被及时记录下来,避免了重要系统配置数据的丢失,方便了故障问题的定位分析。
附图说明
图1为本发明对系统异常状态信息进行保存的实现原理示意图。
具体实施方式
下面根据附图和实施例对本发明作进一步详细说明:
经过对大量的看门狗触发问题进行分析,系统看门狗被触动,很多情况下并不是CPU死机或者其它硬件问题,而是因为软件设计问题,导致程序在某个模块中等待一个异常条件,形成死循环。由于屏蔽了定时器中断,程序不能去作清狗操作,看门狗溢出造成系统复位。
本发明提供一种对控制系统异常状态信息进行保存的方法,可以实现在设备进入这种异常状态时提供保存系统故障的一个手段,方便设备维护时对难以重现的复位问题的数据收集和对于反复复位重启故障问题的快速分析定位,而且还保持看门狗电路自动快速恢复系统正常运行的功能。
如图1所示,本发明利用CPU提供的不可屏蔽外部中断和设计复位电路,给系统在复位之前,提供一个保存系统故障数据的手段,作为维护的第一手资料,从而提高系统故障定位的效率。
在看门狗中设置两级计数器,设当定时器计数到t1时,触发A信号,给主控系统一个不可屏蔽中断。主控系统可以利用这个不可屏蔽中断程序作系统异常状态时各种现场数据的保存,把数据保存在EEPROM(可擦除可编程只读存储器)中,作为将来定位分析使用。再经过一段时间,计数器计数到t2时,看门狗触发B信号作为系统复位信号。该信号功能和一般系统复位信号功能相同,把系统全局复位,这时系统重新启动,恢复正常运行。
当计数器计数到t1时,现有技术的看门狗电路直接触发主控系统重新启动,而本发明计数器计数到t1时进行系统异常状态现场数据的保存,可以保存CPU内部寄存器的数据,也可以保存SDRAM(同步动态随机存储器)上的数据,当计数到t2时再进行系统的复位,计数器在t1和t2之间的时间差大于对数据进行保存所需的时间,在计数器计数t1到t2之间时,完成对数据的保存。
不可屏蔽中断触发主控系统中断复位程序,中断复位程序可以根据系统的不同情况单独考虑,主要是把会因为掉电或复位而丢失的一些重要数据保存到外部数据存储器中,所述外部数据存储器可以是可擦除可编程只读存储器(EEPROM)。
这样,就能够在系统启动时通过分析保存的系统故障信息,可以作为软件自动诊断的一种手段,判断是否是因为部分硬件或者软件模块错误造成了上次的系统故障,一方面可以设计跳过这些软硬件模块的初始化,避免系统反复复位;另一方面,自动向网管发送系统故障的告警,并提供软件的判断结果,使系统维护工程师能够很快的了解系统故障并及时升级系统,解决故障。
本发明通过对系统看门狗故障原因的分析,扩展了看门狗电路,使用二级或多级计数器,利用CPU的不可屏蔽中断作为硬件触发信号,提供了一种有效的在主控系统软件异常情况下对现场数据进行保存的方法,并保证了一般看门狗复位电路的功能,提高了系统的可用性。利用本发明,系统故障时的各种软件和硬件状态信息能被及时记录下来,避免了重要系统配置数据的丢失,方便了故障问题的定位分析。
当然,不一定采用两级计数器,也可以采用三级或三级以上的计数器,但只利用其中的一个前面的计数值触发不可屏蔽中断,在计数到这个计数值时,利用该中断去保存控制系统易丢失的信息,然后当计数到后面一级的计数值时,看门狗系统触发复位信号对控制系统进行复位,只要前、后级计数值之间的时间差大于对系统信息进行保存所需的时间即可。这样,同样可以实现本发明的目的。本领域技术人员不脱离本发明的实质和精神,还有多种变形方案可以解决本发明所要解决的技术问题,这些变形技术方案同样属于本发明的专利保护范围。

Claims (4)

1.一种对控制系统异常状态信息进行保存的方法,其特征在于,包括以下步骤:
A、在看门狗系统中设置至少两级的计数器,当计数到前一级计数值时,看门狗系统触发不可屏蔽中断;
B、控制系统利用所述的不可屏蔽中断对该控制系统易丢失的信息进行保存;
C、当计数器计数到后一级计数值时,看门狗系统触发复位信号对控制系统进行复位;所述的计数器在前、后级计数值之间的时间差大于所述对系统信息进行保存所需的时间。
2.根据权利要求1所述的对控制系统异常状态信息进行保存的方法,其特征在于:所述的步骤B中,将系统信息保存在外部数据存储器中。
3.根据权利要求2所述的对控制系统异常状态信息进行保存的方法,其特征在于:所述的外部数据存储器为可擦除可编程只读存储器EEPROM。
4.根据权利要求1所述的对控制系统异常状态信息进行保存的方法,其特征在于:所述的步骤B中,易丢失的信息是指控制系统会因掉电或复位而丢失的数据。
CNB2003101210831A 2003-12-24 2003-12-24 一种对控制系统异常状态信息进行保存的方法 Expired - Fee Related CN100395722C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2003101210831A CN100395722C (zh) 2003-12-24 2003-12-24 一种对控制系统异常状态信息进行保存的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2003101210831A CN100395722C (zh) 2003-12-24 2003-12-24 一种对控制系统异常状态信息进行保存的方法

Publications (2)

Publication Number Publication Date
CN1632760A CN1632760A (zh) 2005-06-29
CN100395722C true CN100395722C (zh) 2008-06-18

Family

ID=34844045

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003101210831A Expired - Fee Related CN100395722C (zh) 2003-12-24 2003-12-24 一种对控制系统异常状态信息进行保存的方法

Country Status (1)

Country Link
CN (1) CN100395722C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521098A (zh) * 2011-11-23 2012-06-27 中兴通讯股份有限公司 Cpu死机监控的处理方法和装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100397353C (zh) * 2006-07-26 2008-06-25 华为技术有限公司 一种提高单板异常处理能力的系统和方法
CN100365585C (zh) * 2006-10-09 2008-01-30 华为技术有限公司 一种监控硬件狗复位的方法及系统
CN101141510B (zh) * 2007-03-12 2011-05-25 中兴通讯股份有限公司 一种前台单板系统失控后的智能复位方法
CN101604265B (zh) * 2008-06-13 2012-11-14 艾默生网络能源系统北美公司 一种看门狗电路复位锁定屏蔽电路
CN101751303B (zh) * 2008-12-17 2012-09-19 Tcl集团股份有限公司 一种嵌入式设备中的看门狗系统及其控制方法
CN101770404B (zh) * 2008-12-31 2012-08-15 环旭电子股份有限公司 可保存状态的看门狗电路及其保存重启状态方法
CN102081573B (zh) 2010-02-01 2014-04-16 杭州华三通信技术有限公司 用于记录设备重启原因的装置及方法
CN101895440B (zh) * 2010-07-22 2012-07-04 北京天融信科技有限公司 一种安全网关及其故障检测方法
CN103186461B (zh) * 2011-12-30 2016-07-06 重庆重邮信科通信技术有限公司 一种现场数据的保存方法和恢复方法以及相关装置
CN103036778B (zh) * 2012-12-18 2018-05-01 上海斐讯数据通信技术有限公司 一种家庭网关设备中防止设备僵死的装置和方法
CN109062718B (zh) * 2018-07-12 2021-08-17 联想(北京)有限公司 一种服务器及数据处理方法
CN109739675A (zh) * 2018-12-24 2019-05-10 深圳航天东方红海特卫星有限公司 一种利用硬件看门狗捕捉程序异常的方法
CN110377350A (zh) * 2019-07-18 2019-10-25 深圳市同泰怡信息技术有限公司 一种初始化服务器设备的方法和装置以及设备
CN110990229B (zh) * 2019-12-17 2023-07-18 北京天融信网络安全技术有限公司 一种系统信息采集方法及装置
CN114741233A (zh) * 2020-12-23 2022-07-12 华为技术有限公司 快速启动方法
CN112748791B (zh) * 2021-01-19 2022-07-01 中国科学院微小卫星创新研究院 卫星综合电子计算机自主切机方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4809280A (en) * 1984-06-12 1989-02-28 Omron Tateisi Electronics Co. Microcomputer system with watchdog timer
US5838896A (en) * 1995-12-31 1998-11-17 Lg Semicon Co., Ltd. Central processing unit for preventing program malfunction
CN1352427A (zh) * 2001-11-26 2002-06-05 北京实达铭泰计算机应用技术开发有限公司 一种计算机系统恢复方法
US6526528B1 (en) * 2000-01-19 2003-02-25 Bae Systems Controls, Inc. Ticket punch watchdog monitor
CN1400529A (zh) * 2001-07-30 2003-03-05 华为技术有限公司 一种实时嵌入系统的故障定位方法
CN1434941A (zh) * 1999-12-21 2003-08-06 英特尔公司 纠正软错误的固件机制

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4809280A (en) * 1984-06-12 1989-02-28 Omron Tateisi Electronics Co. Microcomputer system with watchdog timer
US5838896A (en) * 1995-12-31 1998-11-17 Lg Semicon Co., Ltd. Central processing unit for preventing program malfunction
CN1434941A (zh) * 1999-12-21 2003-08-06 英特尔公司 纠正软错误的固件机制
US6526528B1 (en) * 2000-01-19 2003-02-25 Bae Systems Controls, Inc. Ticket punch watchdog monitor
CN1400529A (zh) * 2001-07-30 2003-03-05 华为技术有限公司 一种实时嵌入系统的故障定位方法
CN1352427A (zh) * 2001-11-26 2002-06-05 北京实达铭泰计算机应用技术开发有限公司 一种计算机系统恢复方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521098A (zh) * 2011-11-23 2012-06-27 中兴通讯股份有限公司 Cpu死机监控的处理方法和装置
CN102521098B (zh) * 2011-11-23 2014-12-10 中兴通讯股份有限公司 Cpu死机监控的处理方法和装置

Also Published As

Publication number Publication date
CN1632760A (zh) 2005-06-29

Similar Documents

Publication Publication Date Title
CN100395722C (zh) 一种对控制系统异常状态信息进行保存的方法
CN102761439B (zh) Pon接入系统中基于看门狗的异常检测记录装置及方法
EP3355197B1 (en) Fault processing method, related apparatus, and computer
CN100517244C (zh) 一种对异常复位进行系统保护的方法及装置
CN100359481C (zh) 多任务系统的异常监控装置及其方法
US8677185B2 (en) Information processing apparatus
EP3660681A1 (en) Memory fault detection method and device, and server
EP2983086A1 (en) System fault detection and processing method, device, and computer readable storage medium
EP3025233B1 (en) Robust hardware/software error recovery system
CN101271414A (zh) 嵌入式系统的全程喂狗方法
US20140201578A1 (en) Multi-tier watchdog timer
CN104320308A (zh) 一种服务器异常检测的方法及装置
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN105677497A (zh) 一种高可用性看门狗电路
CN102360315B (zh) 一种容错控制系统看门狗电路管理方法
CN112631820A (zh) 软件系统的故障恢复方法及装置
US9104575B2 (en) Reduced-impact error recovery in multi-core storage-system components
CN105426263A (zh) 一种实现金库系统安全运行的方法及系统
CN102662787A (zh) 一种保护系统盘raid的方法
CN103530197A (zh) 一种检测及解决Linux系统死锁的方法
US7966527B2 (en) Watchdog mechanism with fault recovery
CN101369238A (zh) Usb设备中异常监控复位处理方法
CN112988442B (zh) 一种服务器运行阶段传送故障信息的方法和设备
CN109634796A (zh) 一种计算机的故障诊断方法、装置及系统
CN113127245B (zh) 一种系统管理中断的处理方法、系统及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170920

Address after: 253600, Cao village, 228 Ding Ding Town, Dezhou City, Shandong, Leling

Patentee after: Wang Guozhong

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: Huawei Technologies Co., Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080618

Termination date: 20171224

CF01 Termination of patent right due to non-payment of annual fee