CN100347680C - 系统信息的自动诊断方法 - Google Patents

系统信息的自动诊断方法 Download PDF

Info

Publication number
CN100347680C
CN100347680C CNB200510080977XA CN200510080977A CN100347680C CN 100347680 C CN100347680 C CN 100347680C CN B200510080977X A CNB200510080977X A CN B200510080977XA CN 200510080977 A CN200510080977 A CN 200510080977A CN 100347680 C CN100347680 C CN 100347680C
Authority
CN
China
Prior art keywords
physical storage
storage device
memory device
hard disk
status information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB200510080977XA
Other languages
English (en)
Other versions
CN1889053A (zh
Inventor
陈镇
陈玄同
刘文涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IValley Holding Co., Ltd.
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CNB200510080977XA priority Critical patent/CN100347680C/zh
Publication of CN1889053A publication Critical patent/CN1889053A/zh
Application granted granted Critical
Publication of CN100347680C publication Critical patent/CN100347680C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

一种系统信息的自动诊断方法,用以实时监测系统中物理存储设备的工作状态,并根据监测到的存储设备状态信息的前后变化判断出已坏设备,该方法利用一系统事件管理模块实时搜集当前系统中所有物理存储设备的状态信息,并利用一系统监测模块实时地依据该状态信息与系统日志及系统事件管理模块中已记录的物理存储设备的数据信息及正常状态的状态信息进行比对,从而判定各存储设备是否处于正常状态。本发明所提供的自动诊断方法可针对多种物理存储设备,如SATA/SCSI硬盘、硬盘阵列及光盘类存储设备等,尤其是可对热插/拔型硬盘进行准确、灵敏的检测。

Description

系统信息的自动诊断方法
技术领域
本发明涉及一种系统信息的自动诊断方法,尤其涉及一种自动监测系统中物理存储设备的状况是否异常的诊断方法。
背景技术
目前,在公知技术中,对系统中的物理存储设备,例如,对硬盘的监测都是采取“主动式”方式,即在一定的时间周期内透过程序主动对硬盘的工作状态进行监测,其中包括:发送一些硬盘指令,透过观察从硬盘返回的状态信息来判断硬盘的健康状况;或者直接对硬盘进行I/O操作(输入/输出操作或称读/写操作),以检测硬盘性能。该方法的优点是直接针对目标硬盘进行诊断,有针对性,检测结果直截了当。但是该方法却存在如下问题和缺陷:
1、每次检测都需要程序主动去监测物理存储设备,而且程序只能以定期的方式对存储设备进行监测,而对于热插/拔型的物理存储设备,如热插/拔型硬盘,需要随时监测其工作状态及性能,因此公知技术的监测方法,其调度灵活性较差。
2、跟系统总线、内存等设备比较,硬盘的访问速度相对较慢,而在服务器系统中常常会使用多块硬盘,这样,公知的硬盘监测方法通常会并行监测每一块硬盘,因此增加了系统资源的开销,如果改用串行监测每一块硬盘,则监测周期会相对延长,使监测效率降低。
3、公知技术的监测方法,其测试本身会增加硬盘等物理存储设备的负荷,长时间检测,不利于硬盘本身的健康,会减少硬盘的使用寿命。
4、公知技术的监测方法,其只能凭借程序的执行结果来判断存储设备(硬盘)是否正常或有无损坏,往往会出现误报或漏报的情况发生,这就需要技术人员采用其它方法对存储设备(硬盘)的状况进一步考证,因而其检测的准确性和灵敏度相对较低。
发明内容
为了解决上述公知技术中的问题和缺陷,本发明提供了一种系统信息的自动诊断方法,用以实时监测系统中物理存储设备(如:SATA硬盘、SCSI硬盘、各种热插/拔型硬盘、硬盘阵列存储设备或光盘类存储设备等)的工作状态,并根据检测到的存储设备状态信息(如该物理存储设备的各种性能状态参数)的前后变化判断出工作异常或产生问题的存储设备,该方法包括以下步骤:(a)系统启动后,搜集当前系统中所有物理存储设备的状态信息,并将所述状态信息加以存储;(b)将所述物理存储设备的状态信息与系统日志中已经记录的有关物理存储设备的数据信息进行比对,并初步判定所述各物理存储设备是否处于正常状态;(c)将初步判定处于正常状态的物理存储设备的状态信息作为该存储设备的初始状态信息加以存储;(d)将初步判定处于非正常状态的物理存储设备的状态信息回馈给使用者;(e)实时监测收集所述初步判定处于正常状态的各物理存储设备的后续状态信息,并将所述物理存储设备的后续状态信息与所述该存储设备的初始状态信息进行比对,实时判定该存储设备是否处于正常状态;以及(f)将处于非正常状态的物理存储设备的状态信息回馈给使用者。
与公知技术相比,本发明的优点在于:
1、具有自动化实时日志存储功能。能够自动实时地将一些有关存储设备的重要状态信息(比如硬盘的插/拔情况,温度、转速等性能状态参数)加以存储,以便根据需要随时查询和判断存储设备的工作状态及性能,从而提高了监测的灵活性与实时性。
2、使用本发明的自动监测方法几乎不需要增加额外的资源开销,因此对系统资源的占用较小。同时还能提高对不正常硬盘或损坏硬盘的监测效率,可尽快发现硬盘等存储设备出现的问题,保证了用户存储数据的安全性。
3、扩大了存储设备的监测范围及种类,不仅仅局限于SATA/SCSI硬盘监测,还可以支持其它类型的物理存储设备的监测,比如可以支持各种热插/拔型硬盘、硬盘阵列存储设备或光盘类存储设备等的监测,并且不会增加硬盘等物理存储设备的负荷,长时间检测,不会对硬盘本身造成伤害,提高了硬盘的使用寿命。
4、充分利用硬盘等物理存储设备的状态信息,即各种性能状态参数,从多个方面判断考证存储设备的工作状态和性能,减少了检测过程中可能出现的错报或漏报情况发生,从而提升了检测判断不正常硬盘或损坏硬盘的准确性及灵敏度。
以下,将结合附图及具体实施方式对本发明的系统信息的自动诊断方法作进一步详细说明。
附图说明
图1为本发明的系统信息的自动诊断方法所运行的网络结构的示意图;以及
图2为本发明的系统信息的自动诊断方法的步骤流程图。
其中,附图标记说明如下:
10  物理存储设备
11  系统事件管理模块
12  系统监测模块
13  系统日志
14  使用者或操作者
步骤100搜集系统中所有物理存储设备的状态信息并存储
步骤200滤除系统日志中与物理存储设备无关的数据信息
步骤300初步比对判定各物理存储设备是否处于正常状态
步骤400将判定处于正常状态的物理存储设备的状态信息作为初始状态信息存储
步骤500将处于非正常状态的物理存储设备的状态信息回馈给使用者
步骤600实时监测收集各正常状态的物理存储设备的后续状态信息,并实时比对判定各存储设备是否仍处于正常状态
步骤700将处于非正常状态的物理存储设备的状态信息回馈给使用者
具体实施方式
请参考图1,图中表示了本发明的系统信息的自动诊断方法所运行的网络结构。如图所示,假如当前系统中安装有1至n个物理存储设备10,这些物理存储设备10可以是:SATA硬盘、SCSI硬盘、各种热插/拔型硬盘、硬盘阵列存储设备或光盘类存储设备等等。当系统启动后,这些装入系统中的物理存储设备10,无论其工作状态是否正常或工作性能是否良好,只要该物理存储设备10能够被系统侦测到,那么其各种性能状态参数,例如其插/拔情况,工作温度、转速以及读写数据情况等性能状态参数均会与系统运行时所发生的其它一些重要事件和信息,比如系统中其它部件的信息数据、网络服务信息及系统安全信息等一同被记录在一系统日志13中,这在公知的Windows操作系统(如Windows 2000、Windows XP、Windows 2003)中均可得以实现,并被称为系统日志(System Log功能)服务。在该系统日志服务中,系统日志13中所记录的有关系统中物理存储设备10(特别是对于可热插/拔(Hotplug)型物理存储设备)的各种性能状态参数是十分准确可靠的。
本发明的系统信息的自动诊断方法恰恰是充分利用了上述公知技术的系统日志服务功能,并透过对物理存储设备10的状态信息进行实时的比对和分析,从而实现了根据检测到的物理存储设备10的性能状态参数的前后变化而准确实时地判断出工作异常或发生问题的存储设备10。
以系统日志中记录的光盘类存储设备,例如只读光盘设备(Cdrom)为例。如果利用本发明的方法监测到系统日志中的错误来源于只读光盘设备(Cdrom),我们便可以抓取到该设备的ID号码和描述信息。每一种ID号码都具有其明确的定义,对于公共的ID信息可以通过访问微软(Microsoft)的操作系统获得,特殊设备的ID信息则可由设备供货商(Vendor)提供;而抓取到的描述信息则可以提供更为具体的信息,以帮助确定问题的出处,例如当一条描述信息显示为:“设备\Device\Cdrom0有坏块”,于是使用者便可以清楚的定位Cdrom0设备存在问题,从而及早对该问题设备进行检修或者更换。
如图1所示,在当前系统启动后,本发明的系统信息的自动诊断方法首先利用一系统事件管理模块11搜集当前系统中所有物理存储设备10的状态信息(如该物理存储设备10的各种性能状态参数),并将该状态信息加以存储;
然后,利用一系统监测模块12在滤除掉系统日志13中记录的与物理存储设备10无关的数据信息的基础之上,而将搜集到的物理存储设备10的状态信息与系统日志13中已经记录的有关物理存储设备10的数据信息进行比对,并初步判定各物理存储设备10是否处于正常状态,在初步判定过程中,对于比对后状态信息变化较为明显且可以确定确实存在问题的物理存储设备10,可以判定该物理存储设备10为处于非正常状态,对于比对后状态信息变化不明显且可以暂时确定不存在问题或目前工作状态良好的物理存储设备10,可以暂时初步判定该物理存储设备10为处于正常状态;
接下来,利用系统事件管理模块11将初步判定为目前暂时处于正常状态的物理存储设备10的状态信息作为该存储设备10的初始状态信息加以存储;同时,利用系统事件管理模块11将初步判定为处于非正常状态的物理存储设备10的状态信息回馈给使用者或操作者14知悉;
然后,利用系统事件管理模块11实时监测收集经初步判定为暂时处于正常状态的各物理存储设备10的后续状态信息,并透过系统监测模块12实时调取该物理存储设备10之后续状态信息并与该存储设备10的初始状态信息进行比对,从而实时判定该物理存储设备10是否处于正常状态,同样,在此判定过程中,对于比对后状态信息变化较为明显且可以确定确实存在问题的物理存储设备10,可以判定该物理存储设备10为处于非正常状态,对于比对后状态信息无变化或变化不明显且可以确定暂时不存在问题或目前工作状态良好的物理存储设备10,可以判定该物理存储设备10目前仍处于正常工作状态,并继续实时地监测该物理存储设备10的后续状态信息;同时,利用系统事件管理模块11将判定为处于非正常状态的物理存储设备10的状态信息回馈给使用者或操作者14知悉。另外,需要说明的是,对于在上述初步比对判定过程中,状态信息变化不明显且可以暂时初步判定为处于正常状态的物理存储设备10来说,如果该物理存储设备10确实存在问题,那么其后续状态信息一定会发生变化,从而可轻松准确地判定该物理存储设备10处于非正常状态,如果该物理存储设备10的后续状态信息不发生变化,则证明该物理存储设备10暂时不存在问题或目前工作状态正常,从而判定出该物理存储设备10仍处于正常状态。
现在请参考图2,该图为本发明的系统信息的自动诊断方法的步骤流程图。如图所示,本发明的系统信息的自动诊断方法依次包括以下步骤:
当系统启动后,搜集当前系统中所有物理存储设备(该物理存储设备可以是:SATA硬盘、SCSI硬盘、各种热插/拔型硬盘、硬盘阵列存储设备或光盘类存储设备等等)的状态信息(如该物理存储设备的各种性能状态参数),并将所述状态信息加以存储(步骤100);
滤除系统日志中所记录的与物理存储设备无关的数据信息(步骤200);
将物理存储设备的状态信息与系统日志中已经记录的有关物理存储设备的数据信息进行比对,并初步判定各物理存储设备是否处于正常状态(步骤300);
将初步判定处于正常状态的物理存储设备的状态信息作为该存储设备的初始状态信息加以存储(步骤400);
将初步判定处于非正常状态的物理存储设备的状态信息回馈给使用者或操作者知悉(步骤500);
实时监测收集经初步判定为处于正常状态的各物理存储设备的后续状态信息,并将该物理存储设备的后续状态信息与该存储设备的初始状态信息进行比对,实时判定该存储设备是否处于正常状态(步骤600);以及
将判定为处于非正常状态的物理存储设备的状态信息回馈给使用者或操作者知悉(步骤700)。
虽然本发明以前述的优选实施方式揭露如上,然其并非用以限定本发明。本领域的技术人员应该意识到在不脱离本发明所附的申请专利范围所揭示的本发明的范围和精神的情况下,所为的更动与润饰,均属本发明的专利保护范围之内。关于本发明所界定的保护范围请参考所附的申请专利范围。

Claims (8)

1、一种系统信息的自动诊断方法,其特征在于,用以实时监测系统中物理存储设备的工作状态,并根据检测到的存储设备状态信息的前后变化判断出已坏的存储设备,该方法包括以下步骤:
(a)系统启动后,搜集当前系统中所有物理存储设备的状态信息,并将所述状态信息加以存储;
(b)将所述物理存储设备的状态信息与系统日志中已经记录的有关物理存储设备的数据信息进行比对,并初步判定所述各物理存储设备是否处于正常状态;
(c)将初步判定处于正常状态的物理存储设备的状态信息作为该存储设备的初始状态信息加以存储;
(d)将初步判定处于非正常状态的物理存储设备的状态信息回馈给使用者;
(e)实时监测收集所述初步判定处于正常状态的各物理存储设备的后续状态信息,并将所述物理存储设备的后续状态信息与所述该存储设备的初始状态信息进行比对,实时判定该存储设备是否处于正常状态;以及
(f)将处于非正常状态的物理存储设备的状态信息回馈给使用者。
2、根据权利要求1所述的系统信息的自动诊断方法,其特征在于,进一步包括如下步骤:
滤除所述系统日志中记录的与所述物理存储设备无关的数据信息。
3、根据权利要求1所述的系统信息的自动诊断方法,其特征在于,所述物理存储设备的状态信息是该物理存储设备的各种性能状态参数。
4、根据权利要求1所述的系统信息的自动诊断方法,其特征在于,所述物理存储设备是SATA硬盘。
5、根据权利要求1所述的系统信息的自动诊断方法,其特征在于,所述物理存储设备是SCSI硬盘。
6、根据权利要求1所述的系统信息的自动诊断方法,其特征在于,所述物理存储设备是硬盘阵列存储设备。
7、根据权利要求1所述的系统信息的自动诊断方法,其特征在于,所述物理存储设备是光盘类存储设备。
8、根据权利要求1所述的系统信息的自动诊断方法,其特征在于,所述物理存储设备是各种热插/拔型硬盘。
CNB200510080977XA 2005-06-29 2005-06-29 系统信息的自动诊断方法 Active CN100347680C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200510080977XA CN100347680C (zh) 2005-06-29 2005-06-29 系统信息的自动诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200510080977XA CN100347680C (zh) 2005-06-29 2005-06-29 系统信息的自动诊断方法

Publications (2)

Publication Number Publication Date
CN1889053A CN1889053A (zh) 2007-01-03
CN100347680C true CN100347680C (zh) 2007-11-07

Family

ID=37578332

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200510080977XA Active CN100347680C (zh) 2005-06-29 2005-06-29 系统信息的自动诊断方法

Country Status (1)

Country Link
CN (1) CN100347680C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446915B (zh) * 2007-11-27 2012-01-11 中国长城计算机深圳股份有限公司 一种bios级日志的记录方法及装置
CN101470649B (zh) * 2007-12-26 2011-03-09 英业达股份有限公司 自动重开机测试方法
TWI388979B (zh) 2009-09-18 2013-03-11 Asustek Comp Inc 電腦系統及監控裝置
CN101887387A (zh) * 2010-04-07 2010-11-17 山东高效能服务器和存储研究院 一种远程智能监控与分析raid故障的方法
CN103019885B (zh) * 2012-11-26 2015-05-27 大唐移动通信设备有限公司 基于嵌入式Linux的硬盘坏道监测方法及系统
CN104424043B (zh) * 2013-09-02 2017-11-28 深圳中兴网信科技有限公司 一种应用平台与插件间异常隔离的方法及系统
CN104750041B (zh) * 2013-12-27 2019-01-04 研祥智能科技股份有限公司 WinCE系统中的异常监控方法和系统
CN104536855B (zh) * 2014-12-03 2018-05-01 曙光信息产业(北京)有限公司 故障检测方法及装置
CN105701547A (zh) * 2016-02-24 2016-06-22 汇欧兴业(北京)环保科技有限公司 一种基于工业产品的智能管控系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1066134A (zh) * 1991-04-22 1992-11-11 牛振有 微型计算机故障诊断方法及其实现装置
JPH10312424A (ja) * 1997-05-13 1998-11-24 Daidan Kk ビル管理システムおよびビル管理方法並びにビル管理プログラムを記録した記録媒体
US5870693A (en) * 1996-03-01 1999-02-09 Sony Display Device (Singapore) Pte. Ltd. Apparatus and method for diagnosis of abnormality in processing equipment
JP2000305808A (ja) * 1999-04-22 2000-11-02 Nec Corp マイクロコンピュータ組み込みシステムにおけるイベント検出方法ならびに装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1066134A (zh) * 1991-04-22 1992-11-11 牛振有 微型计算机故障诊断方法及其实现装置
US5870693A (en) * 1996-03-01 1999-02-09 Sony Display Device (Singapore) Pte. Ltd. Apparatus and method for diagnosis of abnormality in processing equipment
JPH10312424A (ja) * 1997-05-13 1998-11-24 Daidan Kk ビル管理システムおよびビル管理方法並びにビル管理プログラムを記録した記録媒体
JP2000305808A (ja) * 1999-04-22 2000-11-02 Nec Corp マイクロコンピュータ組み込みシステムにおけるイベント検出方法ならびに装置

Also Published As

Publication number Publication date
CN1889053A (zh) 2007-01-03

Similar Documents

Publication Publication Date Title
CN100347680C (zh) 系统信息的自动诊断方法
US20070174720A1 (en) Apparatus, system, and method for predicting storage device failure
CN101576842A (zh) 基板管理控制器的监测系统及其方法
US20070079170A1 (en) Data migration in response to predicted disk failure
US20120239981A1 (en) Method To Detect Firmware / Software Errors For Hardware Monitoring
WO2008098631A2 (en) A diagnostic system and method
US20090119501A1 (en) Method, Computer System and Computer Program Product
CN111382023B (zh) 代码故障定位方法、装置、设备及存储介质
US10936386B2 (en) Method, device and computer program product for monitoring access request
US20080222456A1 (en) Method and System for Implementing Dependency Aware First Failure Data Capture
CN1896963A (zh) 硬盘装置损坏监测方法及系统
CN110266544B (zh) 一种云平台微服务化服务失败的原因定位的装置及方法
Lu et al. Perseus: A {Fail-Slow} detection framework for cloud storage systems
CN110471816B (zh) 固态硬盘的数据管理方法及装置
US8949669B1 (en) Error detection, correction and triage of a storage array errors
CN103049345A (zh) 基于异步通信机制的磁盘状态变迁检测方法及装置
CN114003417B (zh) 实现raid卡故障自动转存的方法、装置及存储介质
CN102981939A (zh) 磁盘监控方法
CN105095031B (zh) 硬盘诊断方法及装置
US20210365351A1 (en) Method and device for monitoring server based on recordings of data from sensors, and non-transitory storage medium
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质
JP2020038525A (ja) 異常検知装置
US10936400B2 (en) Dynamic handling of callhome data
CN103390429A (zh) 一种硬盘的在线检测方法及服务器
CN117407207B (zh) 一种内存故障处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: I VALLEY HOLDINGS CO., LTD.

Free format text: FORMER OWNER: YINGYEDA CO., LTD., TAIWAN

Effective date: 20150727

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150727

Address after: Cayman Islands, George Town

Patentee after: IValley Holding Co., Ltd.

Address before: Taipei City, Taiwan, China

Patentee before: Inventec Corporation