JP2002229867A

JP2002229867A - ディスク装置の故障予知装置

Info

Publication number: JP2002229867A
Application number: JP2001026501A
Authority: JP
Inventors: Tomohito Ebina; 朋仁蛯名; Hideki Fujii; 秀樹藤井
Original assignee: Hitachi Ltd; Hitachi Information and Control Systems Inc
Current assignee: Hitachi Ltd; Hitachi Information and Control Systems Inc
Priority date: 2001-02-02
Filing date: 2001-02-02
Publication date: 2002-08-16

Abstract

(57)【要約】【課題】ディスク装置に対するアクセス情報を収集し、
故障予知を行なう。【解決手段】バスモニタ装置１０２は、データバス１０
４に流れるディスク装置１０３へのアクセス命令と応答
を監視し、情報を応答時間統計テーブル１０６へ記録す
る。故障予知情報管理テーブル１０５を参照し、故障予
知と判定した場合は、故障予知出力装置１０７から出力
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は計算機システムのデ
ィスク装置に関し、その異常を的確に推定する故障予知
装置に関する。

【０００２】

【従来の技術】計算機システムのディスク装置は可動部
品を有しているためアクセス回数によって寿命が増減
し、また読み取りエラーの回数が増減する。特開平１１
−３５３８１９号には、ディスク装置のアクセス回数と
エラー発生回数を計数し、予防保守を行うことが記載さ
れている。この技術では、ディスク装置内部でのリトラ
イなどによるエラー修復が行われた場合に、エラー発生
とは認識されない。

【０００３】ディスク装置に内蔵される故障予知技術
に、ＳＭＡＬＬＦＯＲＭＦＡＣＴＯＲＣＯＭＭＩ
ＴＴＥＥのＳＦＦ−８０３５ｉで規定されているＳＭＡ
ＲＴがある。この技術ではディスク装置内部でのエラー
を検出した際に、エラー回数がメーカーの設定した閾値
を越えた時に故障と判定している。このため、内部で修
復したエラーの発生を知ることができず、また利用者の
期待する閾値での予知が行えない場合がある。

【０００４】また、ＳＭＡＲＴでは、オペレーティング
システム（ＯＳ）からディスク装置へ直接アクセスする
ことが必要となるため、改造が許されない市販のオペレ
ーティングシステムでは利用が困難になる。

【０００５】

【発明が解決しようとする課題】従来の技術では、ディ
スク装置に内蔵されるエラー訂正機能ではエラーの発生
が報告されないため、エラー回数によって故障予知を行
うことは困難である。また、市販ＯＳのブラックボック
ス化に伴い、ＯＳ内部に情報収集機構を組み込むことが
困難になっている。

【０００６】本発明の目的は、上記した従来技術の問題
点を克服し、ブラックボックス化したオペレーティング
システムをもつ計算機システムにも適用可能なディスク
装置の故障予知装置を提供することにある。これによれ
ば、オペレーティングシステムやディスク装置の種別に
よらず、ディスク装置の故障を的確に予知することがで
きる。

【０００７】

【課題を解決するための手段】上記目的を達成する本発
明は、ＣＰＵ装置とディスク装置を接続するデータバス
に対し、データバスの情報を解析するデータ処理装置を
接続し、前記ディスク装置に対するアクセス要求とそれ
に対する応答時間を収集し、この応答時間の長さに基づ
いて前記ディスク装置の故障を予知することを特徴とす
るディスク装置の故障予知装置である。

【０００８】また、前記応答時間に対して閾値を設定
し、前記応答時間が前記閾値を超える場合に前記故障と
予知することを特徴とする。

【０００９】また、前記応答時間に対して閾値を設定
し、前記応答時間が前記閾値を超える発生回数を累積
し、アクセス回数に対する前記発生回数の頻度が所定以
上の場合に前記故障を予知することを特徴とする。

【００１０】本発明によれば、ディスク装置上でリトラ
イなどによるエラー訂正が行われた場合には、ディスク
装置の応答時間が通常より長くなるため、それまでの応
答時間の統計情報を記録しておき、その値と比較するこ
とにより、故障の前兆を捉えることが可能になる。ま
た、ＯＳやディスク装置の種別に関わらず、ディスク装
置の予防保守を行うことが可能になる。

【００１１】

【発明の実施の形態】以下、本発明の一実施例を図面を
用いて詳細に説明する。図１は一実施例によるディスク
装置の異常予知装置を示すブロック図である。ＣＰＵ装
置１０１はバスモニタ装置１０２、ディスク装置１０３
をデータバス１０４で接続している。

【００１２】ＣＰＵ装置１０１がディスク装置１０３へ
読み取りや書き込みなどのアクセスを実施する場合は、
ＣＰＵ装置１０１からデータバス１０４を経由してディ
スク装置１０３へアクセス命令を送信し、ディスク装置
１０３がＣＰＵ１０１へ応答を返す。

【００１３】バスモニタ装置１０２は、データバス１０
４に流れる全てのアクセス命令と応答を監視し、ＣＰＵ
装置１０１からディスク装置１０３へのアクセスに関す
る情報を応答時間統計テーブル１０６へ記録し、故障予
知情報管理テーブル１０５を参照して故障予知を行い、
故障と予知した場合は故障予知出力装置１０７から出力
する。故障予知出力装置１０７は、リレー接点の開閉、
シリアル通信、ランプ点灯などの手段で通知する。

【００１４】図２は故障予知情報管理テーブルと応答時
間統計テーブルのデータ構成を示す。故障予知情報管理
テーブル１０５は標準応答時間１１０、最大アクセス回
数１１１、最大使用時間１１２、実績比較間隔１１３、
応答時間総計１１４及び異常応答頻度許容値１１５を設
定し、収集する。応答時間統計テーブル１０６は応答時
間総和１２０、応答時間２乗和１２１、アクセス回数１
２２及び異常応答回数１２３を集計する。

【００１５】図３はバスモニタ装置１０２の処理フロー
を示す。ステップｓ１０１で初期化処理を行った後、ス
テップｓ１０２でデータ収集処理、ステップｓ１０３で
故障予知処理を繰り返し行う。

【００１６】初期化処理ｓ１０１では、故障予知情報管
理テーブル１０５に初期値を設定する。標準応答時間１
１０には最初、ディスク装置の最大応答時間を超える大
きな値を設定する。最大アクセス回数１１１にはディス
ク装置の設計寿命であるアクセス回数を設定し、最大使
用時間１１２にはディスク装置の設計寿命である応答時
間の合計値を設定し、実績比較間隔１１３には故障予知
のための統計情報を収集する間隔（例えば、日々の処理
が一通り行われる間隔として24時間）を設定し、応答時
間総計１１４と異常応答頻度許容値を０クリアする。

【００１７】なお、故障予知情報管理テーブル１０５と
応答時間統計テーブル１０６は、ディスク装置の内周部
と外周部の応答時間の差を考慮し、ディスク上のアクセ
ス位置により複数（１０個所程度）の領域毎にテーブル
を作成し、アクセス位置に応じて異なる情報を設定した
り収集する。

【００１８】図４はデータ収集処理のフローである。デ
ータ収集の目的は、ディスクへのアクセス命令から応答
終了までの時間を測定し、正常動作の平均応答時間を求
めること、及び異常動作の回数を計測することである。

【００１９】ステップｓ２０１では、アクセス命令を検
出するのを待ち、時計１０８より現在時刻を取得する。
ステップｓ２０２では、処理終了の応答を検出するのを
待ち、時計１０８より現在時刻を取得し、アクセス命令
から処理終了応答までの応答時間を計測する。ステップ
ｓ２０３では、アクセス位置に対応する応答時間統計テ
ーブル１０６を更新し、アクセス回数１２２に１を加算
する。

【００２０】なお、後述する他の実施例では、応答時間
統計テーブル１０６に平均値と標準偏差を記憶するため
に、応答時間総和１２０にステップｓ２０２で計算した
応答時間を加算し、応答時間二乗和１２１に応答時間の
二乗を加算する。

【００２１】ステップｓ２０４では、ステップｓ２０２
で計算した応答時間と標準応答時間１１０を比較する。
応答時間が標準応答時間１１０を上回っている場合、ス
テップｓ２０５において、異常応答回数１２３に１を加
算する。そして、ステップｓ２０６で、時計１０８より
現在時刻を取得し、実績比較間隔１１３を経過している
か判定する。経過していない場合はステップｓ２０１に
戻りデータ収集を継続し、経過している場合はデータ収
集を終了する。

【００２２】図５は故障予知処理のフローである。ステ
ップｓ３０１では、アクセス回数１２２と最大アクセス
回数１１１を比較し、アクセス回数１２２が上回ってい
る場合は故障予知通知を行う。なお、故障予知通知は故
障予知出力装置１０７を用いて行う。

【００２３】ステップｓ３０２では、応答時間総計１１
４に対して応答時間総和１２０を加算する。次に、ステ
ップｓ３０３で、応答時間総計１１４と最大使用時間１
１２を比較し、応答時間総計１１４が上回っている場合
は設計寿命を超えているので、故障予知通知を行う。

【００２４】ステップｓ３０４では、異常応答回数１２
３の値とアクセス回数から、データ収集中に発生した異
常応答の頻度を計算する。そして、異常応答の頻度が異
常応答頻度許容値１１５を上回る場合、故障予知通知を
行なう（ｓ３０５）。

【００２５】最後に、次回のデータ収集処理に用いるた
めの標準応答時間を設定する（ｓ３０６）。本実施例で
は、ディスク装置１０３の応答時間が標準応答時間１１
０よりも長くなることを故障の前兆と捉えるため、統計
上有意な値を標準応答時間１１０に設定する必要があ
る。そのため実績比較間隔１１３の間に行ったデータ収
集した応答時間実績値を基に、標準応答時間１１０を設
定する。

【００２６】本実施例では、異常応答頻度許容値に０を
設定しているので、異常応答が発生すると常に故障予知
通知が行なわれる。しかし、許容値に所定の数値を設定
し、故障予知通知の発生をより厳密にしてもよい。

【００２７】また、本実施例では応答時間総和１２０を
アクセス回数１２２で除して、応答時間の実平均値を求
め、この平均値の５倍の値を標準応答時間１１０に設定
している。したがって、平均的な応答時間の５倍の応答
時間がかかった場合は、故障予知通知が行なわれること
になる。

【００２８】次に、本発明の他の実施例を説明する。こ
の例では、異常応答頻度許容値１１５に０．００１
（０．１％）を設定する。そして、データ収集処理のス
テップｓ２０３で計算したディスク装置１０３の応答時
間総和１２０、応答時間二乗和１２１、アクセス回数１
２２の統計処理を行い、平均値と標準偏差を計算する。
また、ステップｓ３０６の標準応答時間には、ディスク
処理が一定時間内に終了する確立が９９．９％（異常の
発生確率が０．１％）となる値を設定する。この値は、
ディスク応答時間のばらつきが正規分布に従うとしたと
き、上記の平均値と標準偏差から求めることができる。

【００２９】ステップｓ３０４で、異常応答回数１２３
の値とアクセス回数１２２からデータ収集中に発生した
異常応答の頻度を計算し、ステップｓ３０５で、異常応
答の頻度が前回故障予知時の異常応答の確率を大幅に上
回る場合、故障予知通知を行う。本実施例では異常発生
確率を０．１％と設定しているため、異常応答が５倍を
超える０．５％を上回るとき、故障予知通知を行う。

【００３０】以上、本発明について二つの実施例を説明
した。第一の実施例では、アクセス回数が設計寿命の最
大アクセス回数を上回っている場合、応答時間総計が設
計寿命の最大使用時間を上回っている場合、さらに応答
時間が標準応答時間（例えば平均的な応答時間の数倍）
を上回る場合、故障予知通知を行なう。

【００３１】また、第二の実施例では、応答時間が標準
応答時間を超える異常応答回数とアクセス回数の頻度が
異常応答頻度許容値を上回る場合に故障予知通知を行な
う。ここで、異常応答頻度許容値には０．５％などの所
定値を設定し、異常応答の発生頻度が、例えば予定の５
倍以上で発生した場合に故障予知通知を行なう。

【００３２】本実施例によれば、ＣＰＵからディスク装
置へのアクセス状況をバスモニタ装置により収集するの
で、ブラックボックス化したオペレーティングシステム
をもつ計算機システムにも適用可能である。また、ディ
スク装置上でリトライなどによるエラー訂正が行われた
場合には、ディスク装置の応答時間が通常より長くなる
ため、それまでの応答時間の統計情報を記録しておき、
その値と比較することにより、故障の前兆を捉えること
が可能になる。また、ＯＳやディスク装置の種別に関わ
らず、ディスク装置の予防保守を行うことが可能にな
る。

【００３３】

【発明の効果】本発明によれば、オペレーティングシス
テムやディスク装置の種類に関わらずディスク装置の故
障を的確に予測することができるので、データが失われ
ることのないディスク装置の保守と、タイムリーなディ
スク装置の交換を実現できる効果がある。

【図面の簡単な説明】

【図１】本発明の一実施例による計算機システムの構成
図。

【図２】故障予知情報管理テーブルと応答時間統計テー
ブルの構成図。

【図３】バスモニタ装置の概略処理のフロー図。

【図４】データ収集処理のフロー図。

【図５】故障予知処理のフロー図。

【符号の説明】

１００…計算機システム、１０１…ＣＰＵ装置、１０２
…バスモニタ装置、１０３…ディスク装置、１０４…デ
ータバス、１０５…故障予知情報テーブル、１０６…応
答時間統計テーブル、１０７…故障予知出力装置、１０
８…時計、１１０…標準応答時間、１１１…最大アクセ
ス回数、１１２…最大使用時間、１１３…実績比較間
隔、１１４…応答時間総計、１１５…異常応答頻度許容
値、１２０…応答時間総和、１２１…応答時間二乗和、
１２２…アクセス回数、１２３…異常応答回数。

───────────────────────────────────────────────────── フロントページの続き (72)発明者蛯名朋仁茨城県日立市大みか町五丁目２番１号日立プロセスコンピュータエンジニアリング株式会社内 (72)発明者藤井秀樹茨城県日立市大みか町五丁目２番１号株式会社日立製作所情報制御システム事業部内Ｆターム(参考） 5B065 BA01 EA11 EK02 EK05 ZA13 5B083 AA08 BB01 BB02 CE01 EE08 EF15 GG04 5D088 MM06

Claims

【特許請求の範囲】

【請求項１】ＣＰＵから共通データバスを経由してデ
ィスク装置にアクセスする計算機システムにおいて、前記共通データバスにデータ処理装置を接続し、前記デ
ィスク装置へのアクセスから結果が得られるまでの応答
時間を検出し、該応答時間に基づいて前記ディスク装置
の故障を予知することを特徴とするディスク装置の故障
予知装置。
【請求項２】請求項１において、前記応答時間に対して閾値を設定し、前記応答時間が前
記閾値を超える場合に前記故障を予知することを特徴と
するディスク装置の故障予知装置。
【請求項３】請求項１において、前記応答時間に対して閾値を設定し、前記応答時間が前
記閾値を超える発生回数を累積し、アクセス回数に対す
る前記発生回数の頻度が所定以上の場合に前記故障を予
知することを特徴とするディスク装置の故障予知装置。
【請求項４】請求項１、２または３において、前記応答時間は、前記ディスク装置の半径方向に設定さ
れた複数の領域別に検出され、前記ディスク装置のアク
セス位置に応じて異なる情報として収集されることを特
徴とするディスク装置の故障予知装置。