CN103631685A - 故障自检系统及方法 - Google Patents

故障自检系统及方法 Download PDF

Info

Publication number
CN103631685A
CN103631685A CN201210311842.XA CN201210311842A CN103631685A CN 103631685 A CN103631685 A CN 103631685A CN 201210311842 A CN201210311842 A CN 201210311842A CN 103631685 A CN103631685 A CN 103631685A
Authority
CN
China
Prior art keywords
fault self
electronic equipment
checking
operating system
countdown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210311842.XA
Other languages
English (en)
Inventor
张文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN201210311842.XA priority Critical patent/CN103631685A/zh
Priority to TW101142116A priority patent/TW201415213A/zh
Priority to US14/013,063 priority patent/US20140068350A1/en
Publication of CN103631685A publication Critical patent/CN103631685A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs

Abstract

一种设置于电子设备内的故障自检系统,所述电子设备由内置操作系统控制。该操作系统按照预设时间间隔发送重置信号。该故障自检系统包括时钟管理器、存储器、处理器及存储在存储器内并由处理器执行的故障自检单元。该时钟管理器在操作系统启动的同时按照所预设的发送重置信号的时间间隔进行倒计时,并在每次接收到重置信号后重新倒计时。该故障自检单元包括在操作系统启动后实时记录电子设备的状态参数的状态监控模块及在完成倒计时后没有收到重置信号时保存电子设备的当前状态参数的故障记录模块。本发明还提供一故障自检方法。

Description

故障自检系统及方法
技术领域
本发明涉及一种故障自检系统及方法。
背景技术
现有的电脑及伺服器系统在发生故障而死机时通常无法自动记录发生故障时的状态,从而无法给管理人员快速排除故障提供可靠准确的参考信息,影响了排除故障的效率。
发明内容
有鉴于此,有必要提供一种可以自动记录发生故障时机器运转状态的故障自检系统及方法。
一种设置于电子设备内的故障自检系统,所述电子设备由一内置的操作系统进行控制。所述操作系统按照预设的时间间隔发送一重置信号。该故障自检系统包括时钟管理器、存储器、处理器及存储在存储器内并由处理器执行的故障自检单元。所述时钟管理器在操作系统启动的同时按照操作系统所预设的发送重置信号的时间间隔进行倒计时,并在每次接收到操作系统重置信号后重新进行倒计时。所述故障自检单元包括用于在操作系统启动后实时记录电子设备的状态参数的状态监控模块及用于在时钟管理器完成倒计时后没有收到重置信号时对状态监控模块所记录的电子设备当前状态参数进行保存的故障记录模块。
一种故障自检方法,应用于电子设备中,所述电子设备由一内置的操作系统进行控制。所述操作系统按照预设的时间间隔发送一重置信号。该方法包括如下步骤:
设定所述操作系统发送重置信号的时间间隔。
在操作系统开启同时按照所设定的时间间隔进行倒计时并实时记录电子设备的状态参数。
检测完成倒计时后操作系统是否发送重置信号,如果完成倒计时后操作系统发送重置信号则重新进行倒计时。
如果完成倒计时后操作系统没有发送重置信号则保存所记录的电子设备当前的状态参数。
相对于现有技术,本发明提供的故障自检系统及方法通过设置倒计时机制定时监视操作系统运行状况,并在操作系统出现故障时自动保存操作系统当前的状态参数以作为后续排障分析的参考,从而提高排除故障的效率。
附图说明
图1是本发明提供的具有故障自检系统的电子设备的硬件架构图。
图2是本发明提供的故障自检方法的流程图。
主要元件符号说明
电子设备 1
故障自检系统 10
显示器 12
第一存储器 13
第一处理器 15
第二处理器 100
故障自检单元 101
时钟管理器 102
第二存储器 103
故障记录模块 105
状态监控模块 104
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
请参阅图1,本发明所提供的故障自检系统10设置于电子设备1内,用于实时监控电子设备1的运行状态并在操作系统出现故障时自动记录下电子设备1的状态参数,比如:各个部件的工作电压等。所述电子设备1包括显示器12、第一存储器13及第一处理器15。所述第一存储器13内存储有用于控制电子设备1运作的操作系统。所述操作系统由第一处理器15运行并通过显示器12显示出对应的用户界面。所述故障自检系统10独立存在于所述电子设备1内,不受所述第一处理器15及操作系统直接控制。在本实施方式中,所述电子设备1可以为电脑、伺服器或移动智能终端。
所述故障自检系统10包括第二处理器100、故障自检单元101、时钟管理器102及第二存储器103。所述故障自检单元101包括状态监控模块104及故障记录模块105。所述故障自检单元101存储在所述第二存储器103内并由第二处理器100执行,或者是固化在所述第二处理器100上的韧体(Firmware)。所述第二处理器100、时钟管理器102及第二存储器103之间直接或间接地电连接以实现数据及控制信号的交互。在本实施方式中,所述故障自检系统10为主板管理控制芯片(Baseboard Management Controller, BMC),设置于电子设备1的主板上。
所述第二处理器100用于处理所述故障自检系统10中各部件所发送过来的控制指令,并根据处理结果控制所述故障自检系统10各部件的运作。在本实施方式中,所述第二处理器100为进阶精简指令集计算机架构的中央处理器(Advanced Reduced Instruction Set Computer Machine Central Processor Unit,ARM CPU)。
所述时钟管理器102用于进行倒计时,并根据操作系统所发送的指令重置倒计时。所述时钟管理器102在操作系统开始运行时启动倒计时,倒计时的时间长度可以预先设定。只要操作系统正常运作,在完成倒计时后操作系统都会发送一重置指令给时钟管理器102以使得所述时钟管理器102重新倒计时。所以,如果时钟管理器102在完成倒计时后没有收到操作系统传过来的重置指令则说明操作系统发生异常,此事时钟管理器102发出一检测指令至故障记录模块105。在本实施方式中,所述时钟管理器102为看门狗计数器(Watch Dog Timer, WDT)。
所述状态监控模块104用于实时记录电子设备1的状态参数,比如:从基本输入输出系统(Basic Input Output System, BIOS)中获取主板元件的工作电压及温度、从内存中获取运行程序的进程及从显卡中截取操作系统的显示界面等。所记录下来的信息暂时存储在状态监控模块104自带的存储空间内。
所述故障记录模块105用于在接收到检测指令时将状态监控模块104所记录的电子设备1的当前状态参数转存至所述第一存储器13内。因所述状态监控模块104自带的存储空间较小,只能存储较短时间内的状态参数,后续记录的状态参数会依序覆盖前面所记录的状态参数。所以,当操作系统遇到故障需要保存状态参数以备分析时,必须将要保存的状态参数转存至第一存储器13内。
所述第二存储器103内还存储有一界面应用程序。所述界面应用程序用于通过显示器12提供一用户界面以便管理者通过该界面查看第一存储器13内所记录的状态参数。在本实施方式中,所述界面应用程序为互联网图形用户界面(Web Graphic User Interface, WebGUI)。所述WebGUI通过显示器12提供一网页界面,该网页上设置有“播放”按钮。管理者调出该网页界面后点击所述“播放”按钮便可以通过所述故障记录模块105读取存储在第一存储器13内的操作系统发生故障时的状态参数。在本实施方式中,所述第二存储器103为闪存(Flash Memory)。所述界面应用程序为写入闪存里的韧体。
请参阅图2,为本发明提供的故障自检系统10较佳实施方式的流程图。
步骤S01,设定所述时钟管理器102的倒计时长度以确定回报操作系统工作状态的时间间隔,所述操作系统以该倒计时长度为时间间隔发送重置指令至时钟管理器102。
步骤S02,在操作系统开始运行的同时启动时钟管理器102开始倒计时。所述状态监控模块104开始实时记录电子设备1的状态参数。
步骤S03,所述时钟管理器102完成倒计时后是否接收到操作系统发送的重置指令。如果所述时钟管理器102接收到操作系统发送的重置指令则重新进行倒计时。
步骤S04,如果所述时钟管理器102没有接收到操作系统发送的重置指令则发送一检测指令至故障记录模块105,所述故障记录模块105将所述状态监控模块104所记录的电子设备1当前的状态参数进行保存。
步骤S05,通过调用存储在第二存储器103内的界面应用程序查看所保存的电子设备1发生故障时的状态参数。
与现有技术相比,本发明提供的故障自检系统10及方法通过设置倒计时机制定时监视操作系统运行状况,并在操作系统出现故障时自动保存操作系统当前的状态参数以作为后续排障分析的参考,从而提高排除故障的效率。
最后应说明的是,以上实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (11)

1.一种故障自检系统,设置于电子设备内,所述电子设备由一内置的操作系统进行控制,所述操作系统按照预设的时间间隔发送一重置信号,该故障自检系统包括:
时钟管理器,用于在操作系统启动的同时按照操作系统所预设的发送重置信号的时间间隔进行倒计时,并在每次接收到操作系统重置信号后重新进行倒计时;
存储器;
处理器;及
故障自检单元,存储在所述存储器内并由处理器执行,所述故障自检单元包括:
状态监控模块,用于在操作系统启动后实时记录电子设备的状态参数;及
故障记录模块,用于在时钟管理器完成倒计时后没有收到重置信号时对状态监控模块所记录的电子设备当前状态参数进行保存。
2.如权利要求1所述的故障自检系统,其特征在于,所述故障自检系统为设置于电子设备主板上的主板管理控制芯片。
3.如权利要求1所述的故障自检系统,其特征在于,所述状态监控模块所记录的电子设备的状态参数包括电子设备各元件的工作电压、所运行程序的进程及操作系统的显示界面。
4.如权利要求1所述的故障自检系统,其特征在于,所述时钟管理器为看门狗计数器。
5.如权利要求1所述的故障自检系统,其特征在于,所述存储器内存储有一界面应用程序,所述界面应用程序用于提供一可查看存储控制器所保存的状态参数的用户界面。
6.如权利要求5所述的故障自检系统,其特征在于,所述界面应用程序为互联网图形用户界面。
7.如权利要求5所述的故障自检系统,其特征在于,所述存储器为闪存,所述界面应用程序为写入闪存里的韧体。
8.如权利要求1所述的故障自检系统,其特征在于,所述处理器为进阶精简指令集计算机架构的中央处理器。
9.如权利要求1所述的故障自检系统,其特征在于,所述故障自检单元为固化在处理器上的韧体。
10.一种故障自检方法,应用于电子设备中,所述电子设备由一内置的操作系统进行控制,所述操作系统按照预设的时间间隔发送一重置信号,该方法包括如下步骤:
设定所述操作系统发送重置信号的时间间隔;
在操作系统开启同时按照所设定的时间间隔进行倒计时并实时记录电子设备的状态参数;
检测完成倒计时后操作系统是否发送重置信号,如果完成倒计时后操作系统发送重置信号则重新进行倒计时;
如果完成倒计时后操作系统没有发送重置信号则保存所记录的电子设备当前的状态参数。
11.如权利要求10所述的故障自检方法,其特征在于,进一步包括步骤:
在保存电子设备当前的状态参数后通过调用一界面应用程序查看所保存的电子设备当前的状态参数。
CN201210311842.XA 2012-08-29 2012-08-29 故障自检系统及方法 Pending CN103631685A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210311842.XA CN103631685A (zh) 2012-08-29 2012-08-29 故障自检系统及方法
TW101142116A TW201415213A (zh) 2012-08-29 2012-11-13 故障自檢系統及方法
US14/013,063 US20140068350A1 (en) 2012-08-29 2013-08-29 Self-checking system and method using same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210311842.XA CN103631685A (zh) 2012-08-29 2012-08-29 故障自检系统及方法

Publications (1)

Publication Number Publication Date
CN103631685A true CN103631685A (zh) 2014-03-12

Family

ID=50189200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210311842.XA Pending CN103631685A (zh) 2012-08-29 2012-08-29 故障自检系统及方法

Country Status (3)

Country Link
US (1) US20140068350A1 (zh)
CN (1) CN103631685A (zh)
TW (1) TW201415213A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699582A (zh) * 2015-03-24 2015-06-10 杭州华三通信技术有限公司 一种内存数据获取装置、方法和系统
CN106067222A (zh) * 2016-07-29 2016-11-02 深圳市云充吧科技有限公司 移动电源租借系统的自检方法、系统及移动电源租借系统
CN106250281A (zh) * 2016-08-05 2016-12-21 联想(北京)有限公司 一种故障检测方法及设备
CN109945930A (zh) * 2019-04-16 2019-06-28 山东理工职业学院 一种基于电磁技术的机电设备故障检测方式
CN110297455A (zh) * 2018-03-23 2019-10-01 欧姆龙(上海)有限公司 可编程逻辑控制器及其自检和恢复方法
CN114248490A (zh) * 2021-12-06 2022-03-29 汇源印刷包装科技(天津)股份有限公司 一种自动制盒机的故障自检系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978212B (zh) * 2014-05-16 2019-08-23 腾讯科技(深圳)有限公司 一种未知crash上报方法和装置
CN103997425B (zh) * 2014-05-24 2017-07-14 上海新时达电气股份有限公司 一种节点的自恢复方法、采集器及中继器
CN105786679B (zh) * 2014-12-26 2018-11-16 展讯通信(上海)有限公司 一种自动化测试监控系统及方法以及移动终端
CN106484550B (zh) * 2015-08-24 2019-07-23 鸿富锦精密工业(深圳)有限公司 内存自检修正系统及方法
CN106445785A (zh) * 2016-09-28 2017-02-22 广东农工商职业技术学院 计算机故障报警系统及控制方法
JP7001236B2 (ja) * 2019-03-20 2022-01-19 Necプラットフォームズ株式会社 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム
CN112711234A (zh) * 2020-12-29 2021-04-27 南京爱动信息技术有限公司 一种基于工业生产智能化的设备监测系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716212A (zh) * 2004-06-29 2006-01-04 联想(北京)有限公司 一种灾难恢复系统及方法
CN1885144A (zh) * 2005-06-20 2006-12-27 亚洲光学股份有限公司 数码相机片断录影方法
CN101221518A (zh) * 2008-01-29 2008-07-16 福建星网锐捷网络有限公司 一种防止硬件看门狗的定时器溢出的方法、装置与系统
CN101741654A (zh) * 2008-11-27 2010-06-16 英业达股份有限公司 操作系统的监控装置与方法
TW201227269A (en) * 2010-12-30 2012-07-01 Ibm Apparatus and method for handling a failed processor of a multiprocessor information handling system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251723B2 (en) * 2001-06-19 2007-07-31 Intel Corporation Fault resilient booting for multiprocessor system using appliance server management

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716212A (zh) * 2004-06-29 2006-01-04 联想(北京)有限公司 一种灾难恢复系统及方法
CN1885144A (zh) * 2005-06-20 2006-12-27 亚洲光学股份有限公司 数码相机片断录影方法
CN101221518A (zh) * 2008-01-29 2008-07-16 福建星网锐捷网络有限公司 一种防止硬件看门狗的定时器溢出的方法、装置与系统
CN101741654A (zh) * 2008-11-27 2010-06-16 英业达股份有限公司 操作系统的监控装置与方法
TW201227269A (en) * 2010-12-30 2012-07-01 Ibm Apparatus and method for handling a failed processor of a multiprocessor information handling system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699582A (zh) * 2015-03-24 2015-06-10 杭州华三通信技术有限公司 一种内存数据获取装置、方法和系统
CN106067222A (zh) * 2016-07-29 2016-11-02 深圳市云充吧科技有限公司 移动电源租借系统的自检方法、系统及移动电源租借系统
CN106250281A (zh) * 2016-08-05 2016-12-21 联想(北京)有限公司 一种故障检测方法及设备
CN110297455A (zh) * 2018-03-23 2019-10-01 欧姆龙(上海)有限公司 可编程逻辑控制器及其自检和恢复方法
CN109945930A (zh) * 2019-04-16 2019-06-28 山东理工职业学院 一种基于电磁技术的机电设备故障检测方式
CN114248490A (zh) * 2021-12-06 2022-03-29 汇源印刷包装科技(天津)股份有限公司 一种自动制盒机的故障自检系统

Also Published As

Publication number Publication date
TW201415213A (zh) 2014-04-16
US20140068350A1 (en) 2014-03-06

Similar Documents

Publication Publication Date Title
CN103631685A (zh) 故障自检系统及方法
CN102244591B (zh) 客户端服务器及对其功能测试全程监测的方法
US10698788B2 (en) Method for monitoring server, and monitoring device and monitoring system using the same
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
CN109510742B (zh) 一种服务器网卡远程测试方法、装置、终端及存储介质
CN110928743B (zh) 一种计算系统、自动诊断方法及存储有其指令的介质
CN103500133A (zh) 故障定位方法及装置
US8549277B2 (en) Server system including diplexer
CN104320308B (zh) 一种服务器异常检测的方法及装置
CN102880527B (zh) 一种基板管理控制器的数据恢复方法
CN102546224A (zh) 服务器的远程管理系统及方法
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN106055440A (zh) 一种通过bmc实现服务器异常断电的测试方法及系统
CN110933363A (zh) 一种服务器故障的录像记录方法、系统及设备
CN110704228B (zh) 一种固态硬盘异常处理方法及系统
CN113672306A (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN113832663A (zh) 控制芯片故障记录方法、装置以及控制芯片故障读取方法
CN108647124A (zh) 一种存储跳变信号的方法及其装置
CN116755628A (zh) 故障数据存储方法、装置、非易失性存储介质及车辆
CN114816022B (zh) 一种服务器电源异常监控方法、系统及存储介质
CN113742166B (zh) 一种服务器系统器件日志记录方法、装置及系统
CN115470056A (zh) 服务器硬件上电启动故障排查方法、系统、装置及介质
CN115543746A (zh) 图形处理器监测方法、系统、装置及电子设备
CN103514086A (zh) 一种软件错误报告的提取方法及装置
CN109634796A (zh) 一种计算机的故障诊断方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140312

WD01 Invention patent application deemed withdrawn after publication