JP2002229867A - ディスク装置の故障予知装置 - Google Patents

ディスク装置の故障予知装置

Info

Publication number
JP2002229867A
JP2002229867A JP2001026501A JP2001026501A JP2002229867A JP 2002229867 A JP2002229867 A JP 2002229867A JP 2001026501 A JP2001026501 A JP 2001026501A JP 2001026501 A JP2001026501 A JP 2001026501A JP 2002229867 A JP2002229867 A JP 2002229867A
Authority
JP
Japan
Prior art keywords
response time
failure
disk device
failure prediction
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001026501A
Other languages
English (en)
Inventor
Tomohito Ebina
朋仁 蛯名
Hideki Fujii
秀樹 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Control Systems Inc
Original Assignee
Hitachi Ltd
Hitachi Information and Control Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Information and Control Systems Inc filed Critical Hitachi Ltd
Priority to JP2001026501A priority Critical patent/JP2002229867A/ja
Publication of JP2002229867A publication Critical patent/JP2002229867A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】ディスク装置に対するアクセス情報を収集し、
故障予知を行なう。 【解決手段】バスモニタ装置102は、データバス10
4に流れるディスク装置103へのアクセス命令と応答
を監視し、情報を応答時間統計テーブル106へ記録す
る。故障予知情報管理テーブル105を参照し、故障予
知と判定した場合は、故障予知出力装置107から出力
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は計算機システムのデ
ィスク装置に関し、その異常を的確に推定する故障予知
装置に関する。
【0002】
【従来の技術】計算機システムのディスク装置は可動部
品を有しているためアクセス回数によって寿命が増減
し、また読み取りエラーの回数が増減する。特開平11
−353819号には、ディスク装置のアクセス回数と
エラー発生回数を計数し、予防保守を行うことが記載さ
れている。この技術では、ディスク装置内部でのリトラ
イなどによるエラー修復が行われた場合に、エラー発生
とは認識されない。
【0003】ディスク装置に内蔵される故障予知技術
に、SMALL FORM FACTOR COMMI
TTEEのSFF−8035iで規定されているSMA
RTがある。この技術ではディスク装置内部でのエラー
を検出した際に、エラー回数がメーカーの設定した閾値
を越えた時に故障と判定している。このため、内部で修
復したエラーの発生を知ることができず、また利用者の
期待する閾値での予知が行えない場合がある。
【0004】また、SMARTでは、オペレーティング
システム(OS)からディスク装置へ直接アクセスする
ことが必要となるため、改造が許されない市販のオペレ
ーティングシステムでは利用が困難になる。
【0005】
【発明が解決しようとする課題】従来の技術では、ディ
スク装置に内蔵されるエラー訂正機能ではエラーの発生
が報告されないため、エラー回数によって故障予知を行
うことは困難である。また、市販OSのブラックボック
ス化に伴い、OS内部に情報収集機構を組み込むことが
困難になっている。
【0006】本発明の目的は、上記した従来技術の問題
点を克服し、ブラックボックス化したオペレーティング
システムをもつ計算機システムにも適用可能なディスク
装置の故障予知装置を提供することにある。これによれ
ば、オペレーティングシステムやディスク装置の種別に
よらず、ディスク装置の故障を的確に予知することがで
きる。
【0007】
【課題を解決するための手段】上記目的を達成する本発
明は、CPU装置とディスク装置を接続するデータバス
に対し、データバスの情報を解析するデータ処理装置を
接続し、前記ディスク装置に対するアクセス要求とそれ
に対する応答時間を収集し、この応答時間の長さに基づ
いて前記ディスク装置の故障を予知することを特徴とす
るディスク装置の故障予知装置である。
【0008】また、前記応答時間に対して閾値を設定
し、前記応答時間が前記閾値を超える場合に前記故障と
予知することを特徴とする。
【0009】また、前記応答時間に対して閾値を設定
し、前記応答時間が前記閾値を超える発生回数を累積
し、アクセス回数に対する前記発生回数の頻度が所定以
上の場合に前記故障を予知することを特徴とする。
【0010】本発明によれば、ディスク装置上でリトラ
イなどによるエラー訂正が行われた場合には、ディスク
装置の応答時間が通常より長くなるため、それまでの応
答時間の統計情報を記録しておき、その値と比較するこ
とにより、故障の前兆を捉えることが可能になる。ま
た、OSやディスク装置の種別に関わらず、ディスク装
置の予防保守を行うことが可能になる。
【0011】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて詳細に説明する。図1は一実施例によるディスク
装置の異常予知装置を示すブロック図である。CPU装
置101はバスモニタ装置102、ディスク装置103
をデータバス104で接続している。
【0012】CPU装置101がディスク装置103へ
読み取りや書き込みなどのアクセスを実施する場合は、
CPU装置101からデータバス104を経由してディ
スク装置103へアクセス命令を送信し、ディスク装置
103がCPU101へ応答を返す。
【0013】バスモニタ装置102は、データバス10
4に流れる全てのアクセス命令と応答を監視し、CPU
装置101からディスク装置103へのアクセスに関す
る情報を応答時間統計テーブル106へ記録し、故障予
知情報管理テーブル105を参照して故障予知を行い、
故障と予知した場合は故障予知出力装置107から出力
する。故障予知出力装置107は、リレー接点の開閉、
シリアル通信、ランプ点灯などの手段で通知する。
【0014】図2は故障予知情報管理テーブルと応答時
間統計テーブルのデータ構成を示す。故障予知情報管理
テーブル105は標準応答時間110、最大アクセス回
数111、最大使用時間112、実績比較間隔113、
応答時間総計114及び異常応答頻度許容値115を設
定し、収集する。応答時間統計テーブル106は応答時
間総和120、応答時間2乗和121、アクセス回数1
22及び異常応答回数123を集計する。
【0015】図3はバスモニタ装置102の処理フロー
を示す。ステップs101で初期化処理を行った後、ス
テップs102でデータ収集処理、ステップs103で
故障予知処理を繰り返し行う。
【0016】初期化処理s101では、故障予知情報管
理テーブル105に初期値を設定する。標準応答時間1
10には最初、ディスク装置の最大応答時間を超える大
きな値を設定する。最大アクセス回数111にはディス
ク装置の設計寿命であるアクセス回数を設定し、最大使
用時間112にはディスク装置の設計寿命である応答時
間の合計値を設定し、実績比較間隔113には故障予知
のための統計情報を収集する間隔(例えば、日々の処理
が一通り行われる間隔として24時間)を設定し、応答時
間総計114と異常応答頻度許容値を0クリアする。
【0017】なお、故障予知情報管理テーブル105と
応答時間統計テーブル106は、ディスク装置の内周部
と外周部の応答時間の差を考慮し、ディスク上のアクセ
ス位置により複数(10個所程度)の領域毎にテーブル
を作成し、アクセス位置に応じて異なる情報を設定した
り収集する。
【0018】図4はデータ収集処理のフローである。デ
ータ収集の目的は、ディスクへのアクセス命令から応答
終了までの時間を測定し、正常動作の平均応答時間を求
めること、及び異常動作の回数を計測することである。
【0019】ステップs201では、アクセス命令を検
出するのを待ち、時計108より現在時刻を取得する。
ステップs202では、処理終了の応答を検出するのを
待ち、時計108より現在時刻を取得し、アクセス命令
から処理終了応答までの応答時間を計測する。ステップ
s203では、アクセス位置に対応する応答時間統計テ
ーブル106を更新し、アクセス回数122に1を加算
する。
【0020】なお、後述する他の実施例では、応答時間
統計テーブル106に平均値と標準偏差を記憶するため
に、応答時間総和120にステップs202で計算した
応答時間を加算し、応答時間二乗和121に応答時間の
二乗を加算する。
【0021】ステップs204では、ステップs202
で計算した応答時間と標準応答時間110を比較する。
応答時間が標準応答時間110を上回っている場合、ス
テップs205において、異常応答回数123に1を加
算する。そして、ステップs206で、時計108より
現在時刻を取得し、実績比較間隔113を経過している
か判定する。経過していない場合はステップs201に
戻りデータ収集を継続し、経過している場合はデータ収
集を終了する。
【0022】図5は故障予知処理のフローである。ステ
ップs301では、アクセス回数122と最大アクセス
回数111を比較し、アクセス回数122が上回ってい
る場合は故障予知通知を行う。なお、故障予知通知は故
障予知出力装置107を用いて行う。
【0023】ステップs302では、応答時間総計11
4に対して応答時間総和120を加算する。次に、ステ
ップs303で、応答時間総計114と最大使用時間1
12を比較し、応答時間総計114が上回っている場合
は設計寿命を超えているので、故障予知通知を行う。
【0024】ステップs304では、異常応答回数12
3の値とアクセス回数から、データ収集中に発生した異
常応答の頻度を計算する。そして、異常応答の頻度が異
常応答頻度許容値115を上回る場合、故障予知通知を
行なう(s305)。
【0025】最後に、次回のデータ収集処理に用いるた
めの標準応答時間を設定する(s306)。本実施例で
は、ディスク装置103の応答時間が標準応答時間11
0よりも長くなることを故障の前兆と捉えるため、統計
上有意な値を標準応答時間110に設定する必要があ
る。そのため実績比較間隔113の間に行ったデータ収
集した応答時間実績値を基に、標準応答時間110を設
定する。
【0026】本実施例では、異常応答頻度許容値に0を
設定しているので、異常応答が発生すると常に故障予知
通知が行なわれる。しかし、許容値に所定の数値を設定
し、故障予知通知の発生をより厳密にしてもよい。
【0027】また、本実施例では応答時間総和120を
アクセス回数122で除して、応答時間の実平均値を求
め、この平均値の5倍の値を標準応答時間110に設定
している。したがって、平均的な応答時間の5倍の応答
時間がかかった場合は、故障予知通知が行なわれること
になる。
【0028】次に、本発明の他の実施例を説明する。こ
の例では、異常応答頻度許容値115に0.001
(0.1%)を設定する。そして、データ収集処理のス
テップs203で計算したディスク装置103の応答時
間総和120、応答時間二乗和121、アクセス回数1
22の統計処理を行い、平均値と標準偏差を計算する。
また、ステップs306の標準応答時間には、ディスク
処理が一定時間内に終了する確立が99.9%(異常の
発生確率が0.1%)となる値を設定する。この値は、
ディスク応答時間のばらつきが正規分布に従うとしたと
き、上記の平均値と標準偏差から求めることができる。
【0029】ステップs304で、異常応答回数123
の値とアクセス回数122からデータ収集中に発生した
異常応答の頻度を計算し、ステップs305で、異常応
答の頻度が前回故障予知時の異常応答の確率を大幅に上
回る場合、故障予知通知を行う。本実施例では異常発生
確率を0.1%と設定しているため、異常応答が5倍を
超える0.5%を上回るとき、故障予知通知を行う。
【0030】以上、本発明について二つの実施例を説明
した。第一の実施例では、アクセス回数が設計寿命の最
大アクセス回数を上回っている場合、応答時間総計が設
計寿命の最大使用時間を上回っている場合、さらに応答
時間が標準応答時間(例えば平均的な応答時間の数倍)
を上回る場合、故障予知通知を行なう。
【0031】また、第二の実施例では、応答時間が標準
応答時間を超える異常応答回数とアクセス回数の頻度が
異常応答頻度許容値を上回る場合に故障予知通知を行な
う。ここで、異常応答頻度許容値には0.5%などの所
定値を設定し、異常応答の発生頻度が、例えば予定の5
倍以上で発生した場合に故障予知通知を行なう。
【0032】本実施例によれば、CPUからディスク装
置へのアクセス状況をバスモニタ装置により収集するの
で、ブラックボックス化したオペレーティングシステム
をもつ計算機システムにも適用可能である。また、ディ
スク装置上でリトライなどによるエラー訂正が行われた
場合には、ディスク装置の応答時間が通常より長くなる
ため、それまでの応答時間の統計情報を記録しておき、
その値と比較することにより、故障の前兆を捉えること
が可能になる。また、OSやディスク装置の種別に関わ
らず、ディスク装置の予防保守を行うことが可能にな
る。
【0033】
【発明の効果】本発明によれば、オペレーティングシス
テムやディスク装置の種類に関わらずディスク装置の故
障を的確に予測することができるので、データが失われ
ることのないディスク装置の保守と、タイムリーなディ
スク装置の交換を実現できる効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例による計算機システムの構成
図。
【図2】故障予知情報管理テーブルと応答時間統計テー
ブルの構成図。
【図3】バスモニタ装置の概略処理のフロー図。
【図4】データ収集処理のフロー図。
【図5】故障予知処理のフロー図。
【符号の説明】
100…計算機システム、101…CPU装置、102
…バスモニタ装置、103…ディスク装置、104…デ
ータバス、105…故障予知情報テーブル、106…応
答時間統計テーブル、107…故障予知出力装置、10
8…時計、110…標準応答時間、111…最大アクセ
ス回数、112…最大使用時間、113…実績比較間
隔、114…応答時間総計、115…異常応答頻度許容
値、120…応答時間総和、121…応答時間二乗和、
122…アクセス回数、123…異常応答回数。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 蛯名 朋仁 茨城県日立市大みか町五丁目2番1号 日 立プロセスコンピュータエンジニアリング 株式会社内 (72)発明者 藤井 秀樹 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所情報制御システム事業部 内 Fターム(参考) 5B065 BA01 EA11 EK02 EK05 ZA13 5B083 AA08 BB01 BB02 CE01 EE08 EF15 GG04 5D088 MM06

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 CPUから共通データバスを経由してデ
    ィスク装置にアクセスする計算機システムにおいて、 前記共通データバスにデータ処理装置を接続し、前記デ
    ィスク装置へのアクセスから結果が得られるまでの応答
    時間を検出し、該応答時間に基づいて前記ディスク装置
    の故障を予知することを特徴とするディスク装置の故障
    予知装置。
  2. 【請求項2】 請求項1において、 前記応答時間に対して閾値を設定し、前記応答時間が前
    記閾値を超える場合に前記故障を予知することを特徴と
    するディスク装置の故障予知装置。
  3. 【請求項3】 請求項1において、 前記応答時間に対して閾値を設定し、前記応答時間が前
    記閾値を超える発生回数を累積し、アクセス回数に対す
    る前記発生回数の頻度が所定以上の場合に前記故障を予
    知することを特徴とするディスク装置の故障予知装置。
  4. 【請求項4】 請求項1、2または3において、 前記応答時間は、前記ディスク装置の半径方向に設定さ
    れた複数の領域別に検出され、前記ディスク装置のアク
    セス位置に応じて異なる情報として収集されることを特
    徴とするディスク装置の故障予知装置。
JP2001026501A 2001-02-02 2001-02-02 ディスク装置の故障予知装置 Pending JP2002229867A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001026501A JP2002229867A (ja) 2001-02-02 2001-02-02 ディスク装置の故障予知装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001026501A JP2002229867A (ja) 2001-02-02 2001-02-02 ディスク装置の故障予知装置

Publications (1)

Publication Number Publication Date
JP2002229867A true JP2002229867A (ja) 2002-08-16

Family

ID=18891306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001026501A Pending JP2002229867A (ja) 2001-02-02 2001-02-02 ディスク装置の故障予知装置

Country Status (1)

Country Link
JP (1) JP2002229867A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005251042A (ja) * 2004-03-08 2005-09-15 Hitachi Ltd ディスクアレイ装置およびその制御方法
JP2005293594A (ja) * 2004-04-02 2005-10-20 Seagate Technology Llc 管理された信頼性記憶システムと方法
JP2007512625A (ja) * 2003-11-21 2007-05-17 ローズマウント インコーポレイテッド 監視オーバレイヤを備えたプロセス装置
JP2009217362A (ja) * 2008-03-07 2009-09-24 Nec Corp ディスクアレイ装置および制御方法
JP2012178017A (ja) * 2011-02-25 2012-09-13 Nec Corp 記録媒体制御システム、記録媒体制御方法、記録媒体制御プログラム
JP2018190055A (ja) * 2017-04-28 2018-11-29 富士通株式会社 ストレージ制御装置,ストレージ制御プログラムおよびストレージ制御方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512625A (ja) * 2003-11-21 2007-05-17 ローズマウント インコーポレイテッド 監視オーバレイヤを備えたプロセス装置
US8180466B2 (en) 2003-11-21 2012-05-15 Rosemount Inc. Process device with supervisory overlayer
JP2005251042A (ja) * 2004-03-08 2005-09-15 Hitachi Ltd ディスクアレイ装置およびその制御方法
JP4547170B2 (ja) * 2004-03-08 2010-09-22 株式会社日立製作所 ディスクアレイ装置およびその制御方法
JP2005293594A (ja) * 2004-04-02 2005-10-20 Seagate Technology Llc 管理された信頼性記憶システムと方法
JP2009217362A (ja) * 2008-03-07 2009-09-24 Nec Corp ディスクアレイ装置および制御方法
JP2012178017A (ja) * 2011-02-25 2012-09-13 Nec Corp 記録媒体制御システム、記録媒体制御方法、記録媒体制御プログラム
JP2018190055A (ja) * 2017-04-28 2018-11-29 富士通株式会社 ストレージ制御装置,ストレージ制御プログラムおよびストレージ制御方法

Similar Documents

Publication Publication Date Title
US7506314B2 (en) Method for automatically collecting trace detail and history data
US7739549B2 (en) Device, system and method for predictive failure analysis
CN100495990C (zh) 用于动态调整存储区域网络组件的性能监视的装置、系统和方法
JP4573179B2 (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
CN102591591B (zh) 磁盘检测系统、磁盘检测方法以及网络存储系统
US20160019131A1 (en) Methods and Arrangements to Collect Data
US8340923B2 (en) Predicting remaining useful life for a computer system using a stress-based prediction technique
CN101582046B (zh) 一种高可用的系统状态监控、预测以及智能管理方法
CN114328102A (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN111309502A (zh) 固态硬盘寿命预测方法
CN111104238B (zh) 一种基于ce的内存诊断的方法、设备及介质
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
CN111722690A (zh) 服务器电源模块监控方法、装置、服务器和存储介质
JP2002229867A (ja) ディスク装置の故障予知装置
CN114758714A (zh) 一种硬盘故障预测方法、装置、电子设备及存储介质
JP2008234351A (ja) 統合運用監視システム及びプログラム
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
JP2001312375A (ja) 外部記憶装置の故障予測システム
US20140361978A1 (en) Portable computer monitoring
WO2019054434A1 (ja) 故障予兆検出装置、故障予兆検出方法、及び、故障予兆検出プログラムが格納された記録媒体
JP4627327B2 (ja) 異常判定装置
CN114448689A (zh) 工控网络的边界设备确定方法、装置、设备及存储介质
CN112199258A (zh) 一种磁盘监控的方法、装置、电子设备及介质
JP4396509B2 (ja) メモリエラー管理システム
CN115691636B (zh) 一种慢盘检测方法以及装置