JP2004118397A

JP2004118397A - 磁気ディスク装置の障害発生予測システム

Info

Publication number: JP2004118397A
Application number: JP2002278709A
Authority: JP
Inventors: Masaki Miura; 三浦　正樹
Original assignee: NEC Solution Innovators Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2002-09-25
Filing date: 2002-09-25
Publication date: 2004-04-15

Abstract

【課題】磁気ディスク装置の障害発生を、事前に予測することができ、またメーカや型番等の仕様が様々である場合でも磁気ディスク装置の障害発生を、事前に予測することができるようにする。
【解決手段】中央処理装置３０により、システムクロック装置５０が供給するシステムクロックに基づき、制御装置２０を介してリード／ライト要求３ａを出した時刻と、データ３ｂを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置６０に磁気ディスク装置１０に関わる情報５ａを記録するとともに、統計解析によって磁気ディスク装置１０の損傷の進行具合を判定するようにする。
【選択図】　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、様々な情報処理装置で使用されている磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測システムに関する。
【０００２】
【従来の技術】
磁気ディスク装置を用いたシステムの性能を向上させるものとして、たとえば特許文献１に示されたものがある。すなわち、ホスト装置から磁気ディスク装置にたとえばライト要求が発行され、磁気ディスク装置からの応答があると、ホスト装置から磁気ディスク装置にデータが転送され、磁気ディスク装置からの処理完了の通知を受けて正常終了となる。ここで、磁気ディスク装置から処理完了の通知がない場合には、ホスト装置側で最大予測時間が経過したか否かの監視が行われる。最大予測時間とは、ライト要求の場合、発行されたライト要求に対する応答を受けたときから計測し、ホスト装置から磁気ディスク装置のライトキャッシュへのデータ転送の最大時間として予測される時間であり、リード要求の場合、発行されたリード要求に対する応答を受けたときから計測し、磁気ディスク装置から所定量のデータ転送を受けるまでのデータ転送の最大時間として予測される時間である。また、最大予測時間には、磁気ディスク装置側でのリトライ処理やリカバリ処理が行われることを考慮した所定の時間も含まれている。
【０００３】
最大予測時間が経過した場合、たとえばライト要求を発行した後に応答を受けたときからのデータ転送数がカウントされ、そのカウント値が初期値のとき、使用者にエラーの発生が通知される。これにより、使用者は、エラーによる異常状態から脱出する処理を即座に行うことができることから、磁気ディスク装置が使用できない時間を短縮することができ、システムの性能を向上させることができる。
【０００４】
ところが、特許文献１に示されたものでは、最大予測時間が経過してデータ転送数のカウント値が初期値であるとき、磁気ディスク装置の無応答状態となる問題が発生したと認識でき、早期にエラーの発生を通知することができるものの、その通知は致命的な故障が発生した後であり、事前に磁気ディスク装置の障害発生を予測することは不可能である。ここで、事前とは、致命的な故障が発生する時期より前であり、たとえば磁気ディスク装置の無応答状態となる問題が発生する時期より前を意味する。
【０００５】
事前に磁気ディスク装置の障害発生を予測するものとして、たとえば特許文献２では、磁気ディスク装置から報告されるリカバリ可能なエラーの個数、もしくはリカバリ不可能なエラーの個数をカウントし、これらが閾値を超えるか否かで、故障を事前に把握し外部に通知する技術を提案している。
【０００６】
【特許文献１】
特開平１１−５３１２０号公報（第６頁、図２）
【０００７】
【特許文献２】
特開２００１−２１００２７号公報（第３頁、図１）
【０００８】
【発明が解決しようとする課題】
ところが、特許文献２に示されたものでは、リカバリ可能なエラーの個数、もしくはリカバリ不可能なエラーの個数が閾値を超えるか否かで、故障の予測をすることができるものの、リカバリのためのリトライ処理が所定回数を超えたときに初めてエラーの発生を知ることができるものであることから、リトライ処理が所定回数行われる間に致命的な故障が発生することも予測されるので、事前に磁気ディスク装置の障害発生を予測することは不可能である。
【０００９】
また、特許文献１及び特許文献２に示されたものでは、磁気ディスク装置のメーカや型番等の仕様についての考慮がなされていないために、磁気ディスク装置の仕様に応じた障害発生を、事前に予測することも不可能である。
【００１０】
本発明は、このような状況に鑑みてなされたものであり、磁気ディスク装置の障害発生を、事前に予測することができ、またメーカや型番等の仕様が様々である場合でも磁気ディスク装置の障害発生を、事前に予測することができる磁気ディスク装置の障害発生予測システムを提供することができるようにするものである。
【００１１】
【課題を解決するための手段】
本発明の磁気ディスク装置の障害発生予測システムは、リード／ライト要求に対する磁気ディスク装置からの応答に基づき、磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測システムであって、リード／ライト要求を出す中央処理装置と、リード／ライト要求に基づいたアクセスを磁気ディスク装置に出し、アクセスに応じた磁気ディスク装置からの応答を中央処理装置に送る制御装置と、応答がリトライ無し正常応答時間を超えているとき、磁気ディスク装置に関わる情報が記録されるデータベース装置と、システムクロックを供給するシステムクロック装置とを備え、中央処理装置は、システムクロック装置が供給するシステムクロックに基づき、リード／ライト要求を出した時刻と、データを受け取った時刻との差分から応答に要した応答時間を得るとともに、応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定することを特徴とする。
また、中央処理装置は、リード／ライト要求が発行されたとき、システムクロックに基づき、カウントを開始するタイマ手段と、カウントする時間を監視し、リトライ無し正常応答時間になったかどうかを監視する時間監視手段と、リード／ライト要求がライト要求のとき、磁気ディスク装置へのデータ転送数のカウント値が初期値に等しいかどうかを判別する判別手段と、時間監視手段による監視により、リトライ無し正常応答時間になったとき、データベース装置に磁気ディスク装置に関わる情報を記録するデータベース記録手段とを備えるようにすることができる。
また、中央処理装置は、リトライ無し正常応答時間を超えていると判別したとき、超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード／ライト要求に関わる磁気ディスク装置のディスクのセクタ位置情報、磁気ディスク装置のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度を含む仕様情報を、データベース装置に記録するようにすることができる。
また、ネットワークを介して中央処理装置に接続される外部中央処理装置と、外部データベース装置とを備え、外部中央処理装置は、データベース装置に記録すべき情報を、ネットワークを介して受け取ると、外部データベース装置に記録し、中央処理装置からのアクセスに応じて外部データベース装置に記録されている情報を中央処理装置に送るとともに、磁気ディスク装置の損傷の進行具合を判定し、その判定結果を中央処理装置に通知するようにすることができる。
本発明の磁気ディスク装置の障害発生予測方法は、リード／ライト要求に対する磁気ディスク装置からの応答に基づき、磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測方法であって、中央処理装置により、リード／ライト要求を出す工程と、制御装置により、リード／ライト要求に基づいたアクセスを磁気ディスク装置に出し、アクセスに応じた磁気ディスク装置からの応答を中央処理装置に送る工程と、応答がリトライ無し正常応答時間を超えているとき、データベース装置により、磁気ディスク装置に関わる情報が記録される工程と、システムクロックを供給する工程とを備え、中央処理装置は、システムクロック装置が供給するシステムクロックに基づき、リード／ライト要求を出した時刻と、データを受け取った時刻との差分から応答に要した応答時間を得るとともに、応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定することを特徴とする。
また、リード／ライト要求が発行されたとき、システムクロックに基づき、カウントを開始する工程と、カウントする時間を監視し、リトライ無し正常応答時間になったかどうかを監視する工程と、リード／ライト要求がライト要求のとき、磁気ディスク装置へのデータ転送数のカウント値が初期値に等しいかどうかを判別する工程と、監視により、リトライ無し正常応答時間になったとき、データベース装置に磁気ディスク装置に関わる情報を記録する工程とを有するようにすることができる。
また、リトライ無し正常応答時間を超えていると判別したとき、超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード／ライト要求に関わる磁気ディスク装置のディスクのセクタ位置情報、磁気ディスク装置のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度を含む仕様情報を、データベース装置に記録する工程を有するようにすることができる。
また、ネットワークを介して中央処理装置に接続される外部中央処理装置により、データベース装置に記録すべき情報を、ネットワークを介して受け取ると、外部データベース装置に記録し、中央処理装置からのアクセスに応じて外部データベース装置に記録されている情報を中央処理装置に送るとともに、磁気ディスク装置の損傷の進行具合を判定し、その判定結果を中央処理装置に通知する工程を有するようにすることができる。
本発明に係る磁気ディスク装置の障害発生予測システムにおいては、中央処理装置により、システムクロック装置が供給するシステムクロックに基づき、リード／ライト要求を出した時刻と、データを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定するようにする。
【００１２】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
図１は、本発明の磁気ディスク装置の障害発生予測システムの一実施の形態を示すブロック図、図２は、図１の磁気ディスク装置の障害発生予測システムの詳細を示すブロック図、図３〜図５は、図１の磁気ディスク装置の障害発生予測システムの動作を説明するための図、図６は、図１の磁気ディスク装置の障害発生予測システムの構成を変えた場合の他の実施の形態を示すブロック図である。
【００１３】
図１に示す磁気ディスク装置の障害発生予測システムは、磁気ディスク装置１０、制御装置２０、中央処理装置３０、システムクロック装置５０、データベース装置６０を備えている。なお、制御装置２０及び中央処理装置３０により、ホスト装置４０が構成されている。
【００１４】
磁気ディスク装置１０は、制御装置２０からのアクセス２ａに応じてディスク１６に対しデータのリード／ライトを行う。磁気ディスク装置１０からのデータ２ｂは、制御装置２０に送られる。なお、データ２ｂには、ディスク１６から読み出したデータに加え、後述の磁気ディスク装置１０のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度等の仕様情報も含まれる。ただし、仕様情報は、アクセス２ａの内容に応じて制御装置２０に送られる。
【００１５】
制御装置２０は、中央処理装置３０からのリード／ライト要求３ａを受け取ると、磁気ディスク装置１０へアクセス２ａを出し、アクセス２ａに応じたデータ２ｂをデータ３ｂとして中央処理装置３０に送る。ここで、データ３ｂは、磁気ディスク装置１０からの応答でもある。また、アクセス２ａには、読み出すべきディスク１６のセクタ位置情報や、上述した仕様情報の要求も含まれる。また、制御装置２０は、中央処理装置３０からのリード／ライト要求３ａに基づいたアクセス２ａを出すとき、たとえばライト要求の場合では、磁気ディスク装置１０へのデータ転送数をカウントするカウント機能を備えている。
【００１６】
中央処理装置３０は、制御装置２０へリード／ライト要求３ａを出すとともに、制御装置２０からの上述したデータ３ｂを受け取る。また、中央処理装置３０は、データ３ｂを受け取ると、システムクロック装置５０が供給するシステムクロック４ａに基づき、リード／ライト要求３ａを出した時刻と、データ３ｂを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間（閾値）を超えているか否かを判別し、超えていると判別した場合には、磁気ディスク装置１０に関わる情報５ａをデータベース装置６０に記録する。ここで、磁気ディスク装置１０に関わる情報５ａは、超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード／ライトに関わるディスク１６のセクタ位置情報、磁気ディスク装置１０の上述した仕様情報である。ここでのリトライ無し正常応答時間は、リード／ライト要求３ａを出した時刻と、磁気ディスク装置１０からのリトライ無しの処理完了の通知を受け取った時刻との差分を示す時間であるが、その詳細は後述する。
【００１７】
また、中央処理装置３０は、データベース装置６０に記録した情報５ａを統計解析する機能を有し、磁気ディスク装置１０の損傷の進行具合を判定するようになっている。なお、判定結果は、自動的に外部に通知されるか、又は必要に応じて取り出されるようにすることができる。その判定結果により、事前に磁気ディスク装置１０の障害発生を予測することができる。ここで、事前とは、致命的な故障が発生する時期より前であり、たとえば磁気ディスク装置１０の無応答状態となる問題が発生する時期より前を意味する。
【００１８】
システムクロック装置５０は、システムクロック４ａを中央処理装置３０に供給する。データベース装置６０には、上述した超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード／ライトに関わるディスク１６のセクタ位置情報、磁気ディスク装置１０の上述した仕様情報が記録される。また、データベース装置６０には、磁気ディスク装置１０からの応答が後述する最大予測時間を超えていると判別されたとき、最大予測時間を超えていると判別したときの時刻情報、リード／ライトに関わるディスク１６のセクタ位置情報、磁気ディスク装置１０の上述した仕様情報が記録されるようにしてもよい。
【００１９】
次に、上述した磁気ディスク装置１０及びホスト装置４０の詳細を、図２により説明する。磁気ディスク装置１０は、データ転送処理部１１、ライトキャッシュ１２、リードキャッシュ１３、キャッシュ管理部１４、ディスクリード／ライト処理部１５を備えている。
【００２０】
データ転送処理部１１は、制御装置２０からのアクセス２ａを受け付けるとともに、上述したデータ２ｂを制御装置２０に送る。ライトキャッシュ１２は、ディスク１６に書き込むべきデータを格納する。リードキャッシュ１３は、ディスク１６から読み出されたデータを格納する。キャッシュ管理部１４は、ライトキャッシュ１２及びリードキャッシュ１３を管理する。ディスクリード／ライト処理部１５は、ディスク１６に対するデータの書き込みや読み出しを行う。
【００２１】
ホスト装置４０は、上述したように、制御装置２０と中央処理装置３０とから構成されている。中央処理装置３０は、データ転送処理部３１、リード／ライト要求発行部３２、第１の時間監視部３３、第１のタイマ３４、第１の判別部３５、エラー通知部３６、第２の時間監視部３３ａ、第２のタイマ３４ａ、第２の判別部３５ａ、データベース記録部３７を備えている。ここで、第１の時間監視部３３、第１のタイマ３４及び第１の判別部３５により、磁気ディスク装置１０からの応答が最大予測時間を超えているか否かの判別が行われる。ここで、最大予測時間とは、上述したように、ライト要求の場合、発行されたライト要求に対する応答を受けたときから計測し、ホスト装置４０から磁気ディスク装置１０のライトキャッシュ１２へのデータ転送の最大時間として予測される時間であり、リード要求の場合、発行されたリード要求に対する応答を受けたときから計測し、磁気ディスク装置１０から所定量のデータ転送を受けるまでのデータ転送の最大時間として予測される時間である。また、最大予測時間には、上述したように、磁気ディスク装置１０側でのリトライ処理やリカバリ処理が行われることを考慮した所定の時間も含まれている。これに対し、第２の時間監視部３３ａ、第２のタイマ３４ａ及び第２の判別部３５ａでは、上述したように、磁気ディスク装置１０からの応答による応答時間が設定したリトライ無し正常応答時間を超えているか否かが判別される。
【００２２】
データ転送処理部３１は、制御装置２０へ上述したリード／ライト要求３ａを出すとともに、制御装置２０からの上述したデータ３ｂを受け取る。リード／ライト要求発行部３２は、リード／ライト要求３ａを発行する。第１の時間監視部３３は、第１のタイマ３４のカウントする時間を監視し、予め設定されている最大予測時間になったかどうかを監視する。第１のタイマ３４は、リード／ライト要求発行部３２からのリード／ライト要求３ａが発行されたとき、図１のシステムクロック装置５０からのシステムクロック４ａに基づき、カウントを開始する。
【００２３】
第１の判別部３５は、制御装置２０によるデータ転送数のカウント値が初期値に等しいかどうかを判別する。なお、制御装置２０によるカウント機能は、ホスト装置４０から磁気ディスク装置１０にデータ転送処理を開始する前に初期化され、たとえばライト要求して応答があったときからカウント機能が起動されるようになっている。そのカウント値がデータ転送処理部３１を介して読み込まれることで、磁気ディスク装置１０がホスト装置４０からのデータを取り込む処理を実行しているかどうかが判別できる。
【００２４】
エラー通知部３６は、第１の判別部３５によりデータ転送数のカウント値が初期値に等しいと判別されたとき、ホスト装置４０の使用者にエラーの発生を通知する。すなわち、データ転送数のカウント値に変化がなければ、磁気ディスク装置１０の無応答状態になる問題が発生していると認識できる。このとき、磁気ディスク装置１０からの処理完了の通知を待つ状態が解除される。また、エラー通知部３６により、上述した中央処理装置３０による統計解析の判定結果に応じて、致命的な故障が発生するおそれがあることを通知するようにしてもよい。
【００２５】
時間監視手段としての第２の時間監視部３３ａは、第２のタイマ３４ａのカウントする時間を監視し、予め設定されているリトライ無し正常応答時間になったかどうかを監視する。タイマ手段としての第２のタイマ３４ａは、リード／ライト要求発行部３２からのリード／ライト要求３ａが発行されたとき、図１のシステムクロック装置５０からのシステムクロック４ａに基づき、カウントを開始する。判別手段としての第２の判別部３５ａは、制御装置２０によるデータ転送数のカウント値が初期値に等しいかどうかを判別する。データベース記録手段としてのデータベース記録部３７は、データベース装置６０に、上述した超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード／ライトに関わるディスク１６のセクタ位置情報、磁気ディスク装置１０の上述した仕様情報を記録する。また、データベース記録部３７により、磁気ディスク装置１０からの応答が上述した最大予測時間を超えていると判別されたとき、同様の情報５ａを記録するようにしてもよい。
【００２６】
ここで、中央処理装置３０からリード／ライト要求３ａが出された後、磁気ディスク装置１０からの応答があるまでの流れについて説明する。すなわち、中央処理装置３０から制御装置２０へリード／ライト要求３ａが出され（コマンド送信）、制御装置２０から磁気ディスク装置１０へアクセス２ａが出されると、磁気ディスク装置１０内部では、図４（ａ）に示すように、まず目的のセクタ位置１７にヘッド１８が到達するのを待つ。この時間は、シーク時間であったり回転待ち時間であったりするが、通常の計算では平均シーク時間や平均回転待ち時間が用いられる。
【００２７】
ここで、図４（ｂ）に示すように、たとえば読み出しがリトライ無しに正常に終了した場合は、読み出したデータ２ｂを転送して終了となる。つまり、上述した応答時間とは、リード／ライト要求３ａがリード要求のとき、リード／ライト要求３ａが出されてから、読み出したデータ２ｂが中央処理装置３０に転送されるまでの時間となる。さらに詳しくは、リード／ライト要求３ａを出した時刻と、データ３ｂを受け取った時刻との差分となる。またここで、中央処理装置３０からのリード／ライト要求３ａがライト要求である場合は、リード／ライト要求３ａを出した時刻と、書き込みが正常に終了したことを示す応答を受け取った時刻との差分となる。
【００２８】
もし、リード／ライト要求３ａがリード要求のとき、リトライによってリカバリ可能なエラーが発生した場合は、１回目の読み出しに失敗した後、１回の回転待ち時間を経た２回目の読み出しで成功すると、読み出したデータ２ｂを転送して終了となる。さらに、複数のリトライによる読み出しで成功すると、読み出したデータ２ｂを転送して終了となる。つまり、このようなリトライによってリカバリ可能なエラーが発生すると、１回転以上の待ち時間とリトライ毎の読み出し時間の分だけ応答時間が遅くなる。この応答時間は、上述したリトライ無し正常応答時間よりも遥かに遅いものである。リード／ライト要求３ａがライト要求のときも同様である。
【００２９】
通常は、リトライ処理やリカバリ処理等が所定の回数だけ行われることを考慮して設定した最大予測時間内に磁気ディスク装置１０からの応答があれば正常処理が行われたものと判断され、その時間内に磁気ディスク装置１０からの応答がなければ異常ありと判断されている。このような判断を行う部分は、上述した図２の第１の時間監視部３３、第１のタイマ３４及び第１の判別部３５である。これに対し、最大予測時間内であって、リトライ無し正常応答時間に対する応答時間の遅延がどれだけあるかの判断は、上述した図２の第２の時間監視部３３ａ、第２のタイマ３４ａ及び第２の判別部３５ａが行う。
【００３０】
ちなみに、リトライ無し正常応答時間に対する応答時間の遅延は、７２００ｒｐｍの磁気ディスク装置１０の場合、１回転分の待ちでは８ｍｓｅｃの遅れとなり、５０回転分の待ちでは４１７ｍｓｅｃの遅れとなる。このような遅れは、図１のシステムクロック装置５０からのシステムクロック４ａをカウントすることで、容易に検出することができる。
【００３１】
ここで、磁気ディスク装置１０からの応答時間の測定結果を、図５に示す。なお、図５は、データの転送レートを測定したものである。リトライ無しの正常の場合は、階段状の測定結果が得られる。これは、ディスク１６上に半径位置により１トラック当りのセクタ数が異なるゾーンフォーマットが施されているためである。中央付近に現れた極端に転送レートが悪い部分は、リカバリ可能なエラーが発生した部分である。図５の例では、リカバリ不可能なエラーはないが、固定的にエラーが発生していることを示している。これは、ディスク１６に何らかの損傷が発生していることを意味するものである。もし、故障の原因がヘッド１８側にある場合、エラーの発生位置は固定的ではなく広範囲にわたって周期的に発生することになる。また、損傷が大きくなるに従い、リトライ回数が増えるので応答時間が遅くなる傾向が現れる。
【００３２】
よって、最大予測時間内であって、リトライ無し正常応答時間に対する応答時間の遅延がどれだけあるかを判断することで、エラーがどのように分布しているかとか、どのように挙動しているとかを捕らえることができ、ディスク１６の損傷の原因や、損傷の進行具合が分かる。また、このような挙動を統計解析することで、ディスク１６の損傷の進行具合を判定することができ、上述したように、事前に磁気ディスク装置１０の障害発生を予測することができる。
【００３３】
次に、このような構成の磁気ディスク装置の障害発生予測システムの動作について説明する。
まず、図３に示すように、中央処理装置３０から制御装置２０へリード／ライト要求３ａが出されると、制御装置２０から磁気ディスク装置１０へアクセス２ａが出される。ここで、リード／ライト要求３ａは、図２のリード／ライト要求発行部３２によって発行されたものであり、たとえばライト要求であるものとする（ステップ３０１）。次いで、制御装置２０から磁気ディスク装置１０へアクセス２ａが出されると、磁気ディスク装置１０からの応答が受け付けられる（ステップ３０２）。
【００３４】
磁気ディスク装置１０からの応答があった後、磁気ディスク装置１０へのデータ転送が開始されると、磁気ディスク装置１０からの処理完了待ちとなる（ステップ３０３，３０４）。その後、磁気ディスク装置１０からの処理完了応答通知の有無が判断され（ステップ３０５）、処理完了応答通知がなく、タイムアウトとなった場合には（ステップ３０６）、データベース装置６０への記録処理が行われ（ステップ３０７）、さらに使用者へのエラー通知処理が行われる（ステップ３０８）。
【００３５】
ここで、タイムアウトは、上述した最大予測時間を超えているか否かにより判別されるものであり、図２の第１の時間監視部３３、第１のタイマ３４及び第１の判別部３５により行われるものである。また、タイムアウトとなった場合のデータベース装置６０への記録処理にあっては、上述したように、最大予測時間を超えていると判別したときの時刻情報、リード／ライトに関わるディスク１６のセクタ位置情報、磁気ディスク装置１０の上述した仕様情報が記録される。
【００３６】
一方、（ステップ３０５）において、磁気ディスク装置１０からの処理完了応答通知がある場合、遅延の有無が判断され（ステップ３０９）、遅延がなければ正常終了となるが（ステップ３１０）、遅延があればデータベース装置６０への記録処理が行われる（ステップ３１１）。すなわち、図２の第２の時間監視部３３ａ、第２のタイマ３４ａ及び第２の判別部３５ａにより、上述したように、磁気ディスク装置１０からの応答による応答時間が設定したリトライ無し正常応答時間を超えているか否かが判別される。リトライ無し正常応答時間を超えていると判別されると、リトライ無し正常応答時間を超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード／ライトに関わるディスク１６のセクタ位置情報、磁気ディスク装置１０の上述した仕様情報が記録される。
【００３７】
その後、中央処理装置３０により、データベース装置６０に記録された情報５ａが統計解析され、磁気ディスク装置１０の損傷の進行具合が判定される。判定結果は、自動的に外部に通知されるか、又は必要に応じて取り出されるようにする。
【００３８】
このように、本実施の形態では、中央処理装置３０により、システムクロック装置５０が供給するシステムクロック４ａに基づき、制御装置２０を介してリード／ライト要求３ａを出した時刻と、データ３ｂを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置６０に磁気ディスク装置１０に関わる情報５ａを記録するとともに、統計解析によって磁気ディスク装置１０の損傷の進行具合を判定するようにした。
【００３９】
これにより、磁気ディスク装置１０内で発生したリカバリ可能なエラーを回復させるために発生する応答の遅延による応答時間を検出することができ、磁気ディスク装置１０が報告しないリカバリ可能なエラーも検出することができるため、磁気ディスク装置１０の障害発生を、事前（致命的な故障が発生よりも前）に予測することができる。
【００４０】
また、リカバリ可能なエラーを回復させるために発生する応答の遅延を検出したとき、磁気ディスク装置１０のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度等の仕様情報を磁気ディスク装置１０側から読み出してデータベース装置６０に記録するようにしたので、メーカや型番等の仕様が様々である場合でも磁気ディスク装置１０の障害発生を、事前に予測することができる。
【００４１】
なお、図１の磁気ディスク装置の障害発生予測システムにおいては、図６に示すようなネットワーク経由で定期的に磁気ディスク装置１０の障害発生を予測するような形態とすることもできる。すなわち、図６では、磁気ディスク装置１０、制御装置２０、中央処理装置３０、システムクロック装置５０及びデータベース装置６０に加え、ネットワークアダプタ７０、外部中央処理装置９０及び外部データベース装置１００を備えている。磁気ディスク装置１０、制御装置２０、中央処理装置３０、システムクロック装置５０及びデータベース装置６０は、図１のものと同じ構成であり、同じ動作を行う。
【００４２】
ネットワークアダプタ７０は、ネットワーク８０を介しての外部中央処理装置９０とのデータのやり取りを受け持つものである。たとえばデータベース装置６０に記憶されている上述した情報５ａがネットワーク８０を介して外部中央処理装置９０に送られたり、外部中央処理装置９０側からの外部データベース装置１００に記憶されている上述した情報５ａがネットワーク８０を介して受け取られたりするものである。外部中央処理装置９０は、ネットワーク８０を介して得られる情報５ａを外部データベース装置１００に記憶させたり、外部データベース装置１００に記憶されている情報を読み出しネットワーク８０を介して送出したりするものである。外部データベース装置１００には、外部中央処理装置９０により情報が書き込まれる。
【００４３】
このような構成では、ネットワーク８０を介して送られた情報５ａを外部データベース装置１００に記憶させることができるので、上述した効果に加え、複数の磁気ディスク装置１０の情報５ａを記憶させることができるばかりか、ロット単位での磁気ディスク装置１０の障害発生の予測を行うことができる。また、外部中央処理装置９０により磁気ディスク装置１０の損傷の進行具合を判定し、その判定結果を中央処理装置３０に通知するようにすることで、ホスト装置４０側の磁気ディスク装置１０の障害発生の予測に関わる処理の負担を軽減することも可能となる。
【００４４】
【発明の効果】
以上の如く本発明に係る磁気ディスク装置の障害発生予測システムによれば、中央処理装置により、システムクロック装置が供給するシステムクロックに基づき、リード／ライト要求を出した時刻と、データを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定するようにしたので、磁気ディスク装置の障害発生を、事前に予測することができ、またメーカや型番等の仕様が様々である場合でも磁気ディスク装置の障害発生を、事前に予測することができる。
【図面の簡単な説明】
【図１】本発明の磁気ディスク装置の障害発生予測システムの一実施の形態を示すブロック図である。
【図２】図１の磁気ディスク装置の障害発生予測システムの詳細を示すブロック図である。
【図３】図１の磁気ディスク装置の障害発生予測システムの動作を説明するためのフローチャートである。
【図４】図１の磁気ディスク装置の障害発生予測システムの動作を説明するための図である。
【図５】図１の磁気ディスク装置の障害発生予測システムの動作を説明するための図である。
【図６】図１の磁気ディスク装置の障害発生予測システムの構成を変えた場合の他の実施の形態を示すブロック図である。
【符号の説明】
２ａ　　アクセス
２ｂ　　データ
３ａ　　リード／ライト要求
３ｂ　　データ
４ａ　　システムクロック
５ａ　　情報
１０　　磁気ディスク装置
１１　　データ転送処理部
１２　　ライトキャッシュ
１３　　リードキャッシュ
１４　　キャッシュ管理部
１５　　ディスクリード／ライト処理部
１６　　ディスク
１７　　セクタ位置
１８　　ヘッド
２０　　制御装置
３０　　中央処理装置
３１　　データ転送処理部
３２　　リード／ライト要求発行部
３３　　第１の時間監視部
３３ａ　第２の時間監視部
３４　　第１のタイマ
３４ａ　第２のタイマ
３５　　第１の判別部
３５ａ　第２の判別部
３６　　エラー通知部
３７　　データベース記録部
４０　　ホスト装置
５０　　システムクロック装置
６０　　データベース装置
７０　　ネットワークアダプタ
８０　　ネットワーク
９０　　外部中央処理装置
１００　外部データベース装置

Claims

リード／ライト要求に対する磁気ディスク装置からの応答に基づき、前記磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測システムであって、
前記リード／ライト要求を出す中央処理装置と、
前記リード／ライト要求に基づいたアクセスを前記磁気ディスク装置に出し、前記アクセスに応じた前記磁気ディスク装置からの前記応答を前記中央処理装置に送る制御装置と、
前記応答がリトライ無し正常応答時間を超えているとき、前記磁気ディスク装置に関わる情報が記録されるデータベース装置と、
システムクロックを供給するシステムクロック装置とを備え、
前記中央処理装置は、前記システムクロック装置が供給するシステムクロックに基づき、前記リード／ライト要求を出した時刻と、前記データを受け取った時刻との差分から前記応答に要した応答時間を得るとともに、前記応答時間が設定した前記リトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、前記データベース装置に前記磁気ディスク装置に関わる情報を記録するとともに、統計解析によって前記磁気ディスク装置の損傷の進行具合を判定することを特徴とする磁気ディスク装置の障害発生予測システム。
前記中央処理装置は、
前記リード／ライト要求が発行されたとき、前記システムクロックに基づき、カウントを開始するタイマ手段と、
前記カウントする時間を監視し、前記リトライ無し正常応答時間になったかどうかを監視する時間監視手段と、
前記リード／ライト要求がライト要求のとき、前記磁気ディスク装置へのデータ転送数のカウント値が初期値に等しいかどうかを判別する判別手段と、
前記時間監視手段による監視により、前記リトライ無し正常応答時間になったとき、前記データベース装置に前記磁気ディスク装置に関わる情報を記録するデータベース記録手段とを備える
ことを特徴とする請求項１に記載の磁気ディスク装置の障害発生予測システム。
前記中央処理装置は、前記リトライ無し正常応答時間を超えていると判別したとき、超えていると判別したときの時刻情報、前記リトライ無し正常応答時間に対する前記応答の遅延時間情報、前記リード／ライト要求に関わる前記磁気ディスク装置のディスクのセクタ位置情報、前記磁気ディスク装置のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度を含む仕様情報を、前記データベース装置に記録することを特徴とする請求項１又は２に記載の磁気ディスク装置の障害発生予測システム。
ネットワークを介して前記中央処理装置に接続される外部中央処理装置と、
外部データベース装置とを備え、
前記外部中央処理装置は、前記データベース装置に記録すべき情報を、前記ネットワークを介して受け取ると、前記外部データベース装置に記録し、前記中央処理装置からのアクセスに応じて前記外部データベース装置に記録されている情報を前記中央処理装置に送るとともに、前記磁気ディスク装置の損傷の進行具合を判定し、その判定結果を前記中央処理装置に通知することを特徴とする請求項１〜３の何れかに記載の磁気ディスク装置の障害発生予測システム。
リード／ライト要求に対する磁気ディスク装置からの応答に基づき、前記磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測方法であって、
中央処理装置により、前記リード／ライト要求を出す工程と、
制御装置により、前記リード／ライト要求に基づいたアクセスを前記磁気ディスク装置に出し、前記アクセスに応じた前記磁気ディスク装置からの前記応答を前記中央処理装置に送る工程と、
前記応答がリトライ無し正常応答時間を超えているとき、データベース装置により、前記磁気ディスク装置に関わる情報が記録される工程と、
システムクロックを供給する工程とを備え、
前記中央処理装置は、前記システムクロック装置が供給するシステムクロックに基づき、前記リード／ライト要求を出した時刻と、前記データを受け取った時刻との差分から前記応答に要した応答時間を得るとともに、前記応答時間が設定した前記リトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、前記データベース装置に前記磁気ディスク装置に関わる情報を記録するとともに、統計解析によって前記磁気ディスク装置の損傷の進行具合を判定することを特徴とする磁気ディスク装置の障害発生予測方法。
前記リード／ライト要求が発行されたとき、前記システムクロックに基づき、カウントを開始する工程と、
前記カウントする時間を監視し、前記リトライ無し正常応答時間になったかどうかを監視する工程と、
前記リード／ライト要求がライト要求のとき、前記磁気ディスク装置へのデータ転送数のカウント値が初期値に等しいかどうかを判別する工程と、
前記監視により、前記リトライ無し正常応答時間になったとき、前記データベース装置に前記磁気ディスク装置に関わる情報を記録する工程とを有する
ことを特徴とする請求項５に記載の磁気ディスク装置の障害発生予測方法。
前記リトライ無し正常応答時間を超えていると判別したとき、超えていると判別したときの時刻情報、前記リトライ無し正常応答時間に対する前記応答の遅延時間情報、前記リード／ライト要求に関わる前記磁気ディスク装置のディスクのセクタ位置情報、前記磁気ディスク装置のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度を含む仕様情報を、前記データベース装置に記録する工程を有することを特徴とする請求項５又は６に記載の磁気ディスク装置の障害発生予測方法。
ネットワークを介して前記中央処理装置に接続される外部中央処理装置により、前記データベース装置に記録すべき情報を、前記ネットワークを介して受け取ると、前記外部データベース装置に記録し、前記中央処理装置からのアクセスに応じて前記外部データベース装置に記録されている情報を前記中央処理装置に送るとともに、前記磁気ディスク装置の損傷の進行具合を判定し、その判定結果を前記中央処理装置に通知する工程を有することを特徴とする請求項５〜７の何れかに記載の磁気ディスク装置の障害発生予測方法。