JP2004118397A - 磁気ディスク装置の障害発生予測システム - Google Patents

磁気ディスク装置の障害発生予測システム Download PDF

Info

Publication number
JP2004118397A
JP2004118397A JP2002278709A JP2002278709A JP2004118397A JP 2004118397 A JP2004118397 A JP 2004118397A JP 2002278709 A JP2002278709 A JP 2002278709A JP 2002278709 A JP2002278709 A JP 2002278709A JP 2004118397 A JP2004118397 A JP 2004118397A
Authority
JP
Japan
Prior art keywords
magnetic disk
disk device
time
central processing
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002278709A
Other languages
English (en)
Inventor
Masaki Miura
三浦 正樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2002278709A priority Critical patent/JP2004118397A/ja
Publication of JP2004118397A publication Critical patent/JP2004118397A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】磁気ディスク装置の障害発生を、事前に予測することができ、またメーカや型番等の仕様が様々である場合でも磁気ディスク装置の障害発生を、事前に予測することができるようにする。
【解決手段】中央処理装置30により、システムクロック装置50が供給するシステムクロックに基づき、制御装置20を介してリード/ライト要求3aを出した時刻と、データ3bを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置60に磁気ディスク装置10に関わる情報5aを記録するとともに、統計解析によって磁気ディスク装置10の損傷の進行具合を判定するようにする。
【選択図】  図1

Description

【0001】
【発明の属する技術分野】
本発明は、様々な情報処理装置で使用されている磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測システムに関する。
【0002】
【従来の技術】
磁気ディスク装置を用いたシステムの性能を向上させるものとして、たとえば特許文献1に示されたものがある。すなわち、ホスト装置から磁気ディスク装置にたとえばライト要求が発行され、磁気ディスク装置からの応答があると、ホスト装置から磁気ディスク装置にデータが転送され、磁気ディスク装置からの処理完了の通知を受けて正常終了となる。ここで、磁気ディスク装置から処理完了の通知がない場合には、ホスト装置側で最大予測時間が経過したか否かの監視が行われる。最大予測時間とは、ライト要求の場合、発行されたライト要求に対する応答を受けたときから計測し、ホスト装置から磁気ディスク装置のライトキャッシュへのデータ転送の最大時間として予測される時間であり、リード要求の場合、発行されたリード要求に対する応答を受けたときから計測し、磁気ディスク装置から所定量のデータ転送を受けるまでのデータ転送の最大時間として予測される時間である。また、最大予測時間には、磁気ディスク装置側でのリトライ処理やリカバリ処理が行われることを考慮した所定の時間も含まれている。
【0003】
最大予測時間が経過した場合、たとえばライト要求を発行した後に応答を受けたときからのデータ転送数がカウントされ、そのカウント値が初期値のとき、使用者にエラーの発生が通知される。これにより、使用者は、エラーによる異常状態から脱出する処理を即座に行うことができることから、磁気ディスク装置が使用できない時間を短縮することができ、システムの性能を向上させることができる。
【0004】
ところが、特許文献1に示されたものでは、最大予測時間が経過してデータ転送数のカウント値が初期値であるとき、磁気ディスク装置の無応答状態となる問題が発生したと認識でき、早期にエラーの発生を通知することができるものの、その通知は致命的な故障が発生した後であり、事前に磁気ディスク装置の障害発生を予測することは不可能である。ここで、事前とは、致命的な故障が発生する時期より前であり、たとえば磁気ディスク装置の無応答状態となる問題が発生する時期より前を意味する。
【0005】
事前に磁気ディスク装置の障害発生を予測するものとして、たとえば特許文献2では、磁気ディスク装置から報告されるリカバリ可能なエラーの個数、もしくはリカバリ不可能なエラーの個数をカウントし、これらが閾値を超えるか否かで、故障を事前に把握し外部に通知する技術を提案している。
【0006】
【特許文献1】
特開平11−53120号公報(第6頁、図2)
【0007】
【特許文献2】
特開2001−210027号公報(第3頁、図1)
【0008】
【発明が解決しようとする課題】
ところが、特許文献2に示されたものでは、リカバリ可能なエラーの個数、もしくはリカバリ不可能なエラーの個数が閾値を超えるか否かで、故障の予測をすることができるものの、リカバリのためのリトライ処理が所定回数を超えたときに初めてエラーの発生を知ることができるものであることから、リトライ処理が所定回数行われる間に致命的な故障が発生することも予測されるので、事前に磁気ディスク装置の障害発生を予測することは不可能である。
【0009】
また、特許文献1及び特許文献2に示されたものでは、磁気ディスク装置のメーカや型番等の仕様についての考慮がなされていないために、磁気ディスク装置の仕様に応じた障害発生を、事前に予測することも不可能である。
【0010】
本発明は、このような状況に鑑みてなされたものであり、磁気ディスク装置の障害発生を、事前に予測することができ、またメーカや型番等の仕様が様々である場合でも磁気ディスク装置の障害発生を、事前に予測することができる磁気ディスク装置の障害発生予測システムを提供することができるようにするものである。
【0011】
【課題を解決するための手段】
本発明の磁気ディスク装置の障害発生予測システムは、リード/ライト要求に対する磁気ディスク装置からの応答に基づき、磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測システムであって、リード/ライト要求を出す中央処理装置と、リード/ライト要求に基づいたアクセスを磁気ディスク装置に出し、アクセスに応じた磁気ディスク装置からの応答を中央処理装置に送る制御装置と、応答がリトライ無し正常応答時間を超えているとき、磁気ディスク装置に関わる情報が記録されるデータベース装置と、システムクロックを供給するシステムクロック装置とを備え、中央処理装置は、システムクロック装置が供給するシステムクロックに基づき、リード/ライト要求を出した時刻と、データを受け取った時刻との差分から応答に要した応答時間を得るとともに、応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定することを特徴とする。
また、中央処理装置は、リード/ライト要求が発行されたとき、システムクロックに基づき、カウントを開始するタイマ手段と、カウントする時間を監視し、リトライ無し正常応答時間になったかどうかを監視する時間監視手段と、リード/ライト要求がライト要求のとき、磁気ディスク装置へのデータ転送数のカウント値が初期値に等しいかどうかを判別する判別手段と、時間監視手段による監視により、リトライ無し正常応答時間になったとき、データベース装置に磁気ディスク装置に関わる情報を記録するデータベース記録手段とを備えるようにすることができる。
また、中央処理装置は、リトライ無し正常応答時間を超えていると判別したとき、超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード/ライト要求に関わる磁気ディスク装置のディスクのセクタ位置情報、磁気ディスク装置のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度を含む仕様情報を、データベース装置に記録するようにすることができる。
また、ネットワークを介して中央処理装置に接続される外部中央処理装置と、外部データベース装置とを備え、外部中央処理装置は、データベース装置に記録すべき情報を、ネットワークを介して受け取ると、外部データベース装置に記録し、中央処理装置からのアクセスに応じて外部データベース装置に記録されている情報を中央処理装置に送るとともに、磁気ディスク装置の損傷の進行具合を判定し、その判定結果を中央処理装置に通知するようにすることができる。
本発明の磁気ディスク装置の障害発生予測方法は、リード/ライト要求に対する磁気ディスク装置からの応答に基づき、磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測方法であって、中央処理装置により、リード/ライト要求を出す工程と、制御装置により、リード/ライト要求に基づいたアクセスを磁気ディスク装置に出し、アクセスに応じた磁気ディスク装置からの応答を中央処理装置に送る工程と、応答がリトライ無し正常応答時間を超えているとき、データベース装置により、磁気ディスク装置に関わる情報が記録される工程と、システムクロックを供給する工程とを備え、中央処理装置は、システムクロック装置が供給するシステムクロックに基づき、リード/ライト要求を出した時刻と、データを受け取った時刻との差分から応答に要した応答時間を得るとともに、応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定することを特徴とする。
また、リード/ライト要求が発行されたとき、システムクロックに基づき、カウントを開始する工程と、カウントする時間を監視し、リトライ無し正常応答時間になったかどうかを監視する工程と、リード/ライト要求がライト要求のとき、磁気ディスク装置へのデータ転送数のカウント値が初期値に等しいかどうかを判別する工程と、監視により、リトライ無し正常応答時間になったとき、データベース装置に磁気ディスク装置に関わる情報を記録する工程とを有するようにすることができる。
また、リトライ無し正常応答時間を超えていると判別したとき、超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード/ライト要求に関わる磁気ディスク装置のディスクのセクタ位置情報、磁気ディスク装置のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度を含む仕様情報を、データベース装置に記録する工程を有するようにすることができる。
また、ネットワークを介して中央処理装置に接続される外部中央処理装置により、データベース装置に記録すべき情報を、ネットワークを介して受け取ると、外部データベース装置に記録し、中央処理装置からのアクセスに応じて外部データベース装置に記録されている情報を中央処理装置に送るとともに、磁気ディスク装置の損傷の進行具合を判定し、その判定結果を中央処理装置に通知する工程を有するようにすることができる。
本発明に係る磁気ディスク装置の障害発生予測システムにおいては、中央処理装置により、システムクロック装置が供給するシステムクロックに基づき、リード/ライト要求を出した時刻と、データを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定するようにする。
【0012】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
図1は、本発明の磁気ディスク装置の障害発生予測システムの一実施の形態を示すブロック図、図2は、図1の磁気ディスク装置の障害発生予測システムの詳細を示すブロック図、図3〜図5は、図1の磁気ディスク装置の障害発生予測システムの動作を説明するための図、図6は、図1の磁気ディスク装置の障害発生予測システムの構成を変えた場合の他の実施の形態を示すブロック図である。
【0013】
図1に示す磁気ディスク装置の障害発生予測システムは、磁気ディスク装置10、制御装置20、中央処理装置30、システムクロック装置50、データベース装置60を備えている。なお、制御装置20及び中央処理装置30により、ホスト装置40が構成されている。
【0014】
磁気ディスク装置10は、制御装置20からのアクセス2aに応じてディスク16に対しデータのリード/ライトを行う。磁気ディスク装置10からのデータ2bは、制御装置20に送られる。なお、データ2bには、ディスク16から読み出したデータに加え、後述の磁気ディスク装置10のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度等の仕様情報も含まれる。ただし、仕様情報は、アクセス2aの内容に応じて制御装置20に送られる。
【0015】
制御装置20は、中央処理装置30からのリード/ライト要求3aを受け取ると、磁気ディスク装置10へアクセス2aを出し、アクセス2aに応じたデータ2bをデータ3bとして中央処理装置30に送る。ここで、データ3bは、磁気ディスク装置10からの応答でもある。また、アクセス2aには、読み出すべきディスク16のセクタ位置情報や、上述した仕様情報の要求も含まれる。また、制御装置20は、中央処理装置30からのリード/ライト要求3aに基づいたアクセス2aを出すとき、たとえばライト要求の場合では、磁気ディスク装置10へのデータ転送数をカウントするカウント機能を備えている。
【0016】
中央処理装置30は、制御装置20へリード/ライト要求3aを出すとともに、制御装置20からの上述したデータ3bを受け取る。また、中央処理装置30は、データ3bを受け取ると、システムクロック装置50が供給するシステムクロック4aに基づき、リード/ライト要求3aを出した時刻と、データ3bを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間(閾値)を超えているか否かを判別し、超えていると判別した場合には、磁気ディスク装置10に関わる情報5aをデータベース装置60に記録する。ここで、磁気ディスク装置10に関わる情報5aは、超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード/ライトに関わるディスク16のセクタ位置情報、磁気ディスク装置10の上述した仕様情報である。ここでのリトライ無し正常応答時間は、リード/ライト要求3aを出した時刻と、磁気ディスク装置10からのリトライ無しの処理完了の通知を受け取った時刻との差分を示す時間であるが、その詳細は後述する。
【0017】
また、中央処理装置30は、データベース装置60に記録した情報5aを統計解析する機能を有し、磁気ディスク装置10の損傷の進行具合を判定するようになっている。なお、判定結果は、自動的に外部に通知されるか、又は必要に応じて取り出されるようにすることができる。その判定結果により、事前に磁気ディスク装置10の障害発生を予測することができる。ここで、事前とは、致命的な故障が発生する時期より前であり、たとえば磁気ディスク装置10の無応答状態となる問題が発生する時期より前を意味する。
【0018】
システムクロック装置50は、システムクロック4aを中央処理装置30に供給する。データベース装置60には、上述した超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード/ライトに関わるディスク16のセクタ位置情報、磁気ディスク装置10の上述した仕様情報が記録される。また、データベース装置60には、磁気ディスク装置10からの応答が後述する最大予測時間を超えていると判別されたとき、最大予測時間を超えていると判別したときの時刻情報、リード/ライトに関わるディスク16のセクタ位置情報、磁気ディスク装置10の上述した仕様情報が記録されるようにしてもよい。
【0019】
次に、上述した磁気ディスク装置10及びホスト装置40の詳細を、図2により説明する。磁気ディスク装置10は、データ転送処理部11、ライトキャッシュ12、リードキャッシュ13、キャッシュ管理部14、ディスクリード/ライト処理部15を備えている。
【0020】
データ転送処理部11は、制御装置20からのアクセス2aを受け付けるとともに、上述したデータ2bを制御装置20に送る。ライトキャッシュ12は、ディスク16に書き込むべきデータを格納する。リードキャッシュ13は、ディスク16から読み出されたデータを格納する。キャッシュ管理部14は、ライトキャッシュ12及びリードキャッシュ13を管理する。ディスクリード/ライト処理部15は、ディスク16に対するデータの書き込みや読み出しを行う。
【0021】
ホスト装置40は、上述したように、制御装置20と中央処理装置30とから構成されている。中央処理装置30は、データ転送処理部31、リード/ライト要求発行部32、第1の時間監視部33、第1のタイマ34、第1の判別部35、エラー通知部36、第2の時間監視部33a、第2のタイマ34a、第2の判別部35a、データベース記録部37を備えている。ここで、第1の時間監視部33、第1のタイマ34及び第1の判別部35により、磁気ディスク装置10からの応答が最大予測時間を超えているか否かの判別が行われる。ここで、最大予測時間とは、上述したように、ライト要求の場合、発行されたライト要求に対する応答を受けたときから計測し、ホスト装置40から磁気ディスク装置10のライトキャッシュ12へのデータ転送の最大時間として予測される時間であり、リード要求の場合、発行されたリード要求に対する応答を受けたときから計測し、磁気ディスク装置10から所定量のデータ転送を受けるまでのデータ転送の最大時間として予測される時間である。また、最大予測時間には、上述したように、磁気ディスク装置10側でのリトライ処理やリカバリ処理が行われることを考慮した所定の時間も含まれている。これに対し、第2の時間監視部33a、第2のタイマ34a及び第2の判別部35aでは、上述したように、磁気ディスク装置10からの応答による応答時間が設定したリトライ無し正常応答時間を超えているか否かが判別される。
【0022】
データ転送処理部31は、制御装置20へ上述したリード/ライト要求3aを出すとともに、制御装置20からの上述したデータ3bを受け取る。リード/ライト要求発行部32は、リード/ライト要求3aを発行する。第1の時間監視部33は、第1のタイマ34のカウントする時間を監視し、予め設定されている最大予測時間になったかどうかを監視する。第1のタイマ34は、リード/ライト要求発行部32からのリード/ライト要求3aが発行されたとき、図1のシステムクロック装置50からのシステムクロック4aに基づき、カウントを開始する。
【0023】
第1の判別部35は、制御装置20によるデータ転送数のカウント値が初期値に等しいかどうかを判別する。なお、制御装置20によるカウント機能は、ホスト装置40から磁気ディスク装置10にデータ転送処理を開始する前に初期化され、たとえばライト要求して応答があったときからカウント機能が起動されるようになっている。そのカウント値がデータ転送処理部31を介して読み込まれることで、磁気ディスク装置10がホスト装置40からのデータを取り込む処理を実行しているかどうかが判別できる。
【0024】
エラー通知部36は、第1の判別部35によりデータ転送数のカウント値が初期値に等しいと判別されたとき、ホスト装置40の使用者にエラーの発生を通知する。すなわち、データ転送数のカウント値に変化がなければ、磁気ディスク装置10の無応答状態になる問題が発生していると認識できる。このとき、磁気ディスク装置10からの処理完了の通知を待つ状態が解除される。また、エラー通知部36により、上述した中央処理装置30による統計解析の判定結果に応じて、致命的な故障が発生するおそれがあることを通知するようにしてもよい。
【0025】
時間監視手段としての第2の時間監視部33aは、第2のタイマ34aのカウントする時間を監視し、予め設定されているリトライ無し正常応答時間になったかどうかを監視する。タイマ手段としての第2のタイマ34aは、リード/ライト要求発行部32からのリード/ライト要求3aが発行されたとき、図1のシステムクロック装置50からのシステムクロック4aに基づき、カウントを開始する。判別手段としての第2の判別部35aは、制御装置20によるデータ転送数のカウント値が初期値に等しいかどうかを判別する。データベース記録手段としてのデータベース記録部37は、データベース装置60に、上述した超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード/ライトに関わるディスク16のセクタ位置情報、磁気ディスク装置10の上述した仕様情報を記録する。また、データベース記録部37により、磁気ディスク装置10からの応答が上述した最大予測時間を超えていると判別されたとき、同様の情報5aを記録するようにしてもよい。
【0026】
ここで、中央処理装置30からリード/ライト要求3aが出された後、磁気ディスク装置10からの応答があるまでの流れについて説明する。すなわち、中央処理装置30から制御装置20へリード/ライト要求3aが出され(コマンド送信)、制御装置20から磁気ディスク装置10へアクセス2aが出されると、磁気ディスク装置10内部では、図4(a)に示すように、まず目的のセクタ位置17にヘッド18が到達するのを待つ。この時間は、シーク時間であったり回転待ち時間であったりするが、通常の計算では平均シーク時間や平均回転待ち時間が用いられる。
【0027】
ここで、図4(b)に示すように、たとえば読み出しがリトライ無しに正常に終了した場合は、読み出したデータ2bを転送して終了となる。つまり、上述した応答時間とは、リード/ライト要求3aがリード要求のとき、リード/ライト要求3aが出されてから、読み出したデータ2bが中央処理装置30に転送されるまでの時間となる。さらに詳しくは、リード/ライト要求3aを出した時刻と、データ3bを受け取った時刻との差分となる。またここで、中央処理装置30からのリード/ライト要求3aがライト要求である場合は、リード/ライト要求3aを出した時刻と、書き込みが正常に終了したことを示す応答を受け取った時刻との差分となる。
【0028】
もし、リード/ライト要求3aがリード要求のとき、リトライによってリカバリ可能なエラーが発生した場合は、1回目の読み出しに失敗した後、1回の回転待ち時間を経た2回目の読み出しで成功すると、読み出したデータ2bを転送して終了となる。さらに、複数のリトライによる読み出しで成功すると、読み出したデータ2bを転送して終了となる。つまり、このようなリトライによってリカバリ可能なエラーが発生すると、1回転以上の待ち時間とリトライ毎の読み出し時間の分だけ応答時間が遅くなる。この応答時間は、上述したリトライ無し正常応答時間よりも遥かに遅いものである。リード/ライト要求3aがライト要求のときも同様である。
【0029】
通常は、リトライ処理やリカバリ処理等が所定の回数だけ行われることを考慮して設定した最大予測時間内に磁気ディスク装置10からの応答があれば正常処理が行われたものと判断され、その時間内に磁気ディスク装置10からの応答がなければ異常ありと判断されている。このような判断を行う部分は、上述した図2の第1の時間監視部33、第1のタイマ34及び第1の判別部35である。これに対し、最大予測時間内であって、リトライ無し正常応答時間に対する応答時間の遅延がどれだけあるかの判断は、上述した図2の第2の時間監視部33a、第2のタイマ34a及び第2の判別部35aが行う。
【0030】
ちなみに、リトライ無し正常応答時間に対する応答時間の遅延は、7200rpmの磁気ディスク装置10の場合、1回転分の待ちでは8msecの遅れとなり、50回転分の待ちでは417msecの遅れとなる。このような遅れは、図1のシステムクロック装置50からのシステムクロック4aをカウントすることで、容易に検出することができる。
【0031】
ここで、磁気ディスク装置10からの応答時間の測定結果を、図5に示す。なお、図5は、データの転送レートを測定したものである。リトライ無しの正常の場合は、階段状の測定結果が得られる。これは、ディスク16上に半径位置により1トラック当りのセクタ数が異なるゾーンフォーマットが施されているためである。中央付近に現れた極端に転送レートが悪い部分は、リカバリ可能なエラーが発生した部分である。図5の例では、リカバリ不可能なエラーはないが、固定的にエラーが発生していることを示している。これは、ディスク16に何らかの損傷が発生していることを意味するものである。もし、故障の原因がヘッド18側にある場合、エラーの発生位置は固定的ではなく広範囲にわたって周期的に発生することになる。また、損傷が大きくなるに従い、リトライ回数が増えるので応答時間が遅くなる傾向が現れる。
【0032】
よって、最大予測時間内であって、リトライ無し正常応答時間に対する応答時間の遅延がどれだけあるかを判断することで、エラーがどのように分布しているかとか、どのように挙動しているとかを捕らえることができ、ディスク16の損傷の原因や、損傷の進行具合が分かる。また、このような挙動を統計解析することで、ディスク16の損傷の進行具合を判定することができ、上述したように、事前に磁気ディスク装置10の障害発生を予測することができる。
【0033】
次に、このような構成の磁気ディスク装置の障害発生予測システムの動作について説明する。
まず、図3に示すように、中央処理装置30から制御装置20へリード/ライト要求3aが出されると、制御装置20から磁気ディスク装置10へアクセス2aが出される。ここで、リード/ライト要求3aは、図2のリード/ライト要求発行部32によって発行されたものであり、たとえばライト要求であるものとする(ステップ301)。次いで、制御装置20から磁気ディスク装置10へアクセス2aが出されると、磁気ディスク装置10からの応答が受け付けられる(ステップ302)。
【0034】
磁気ディスク装置10からの応答があった後、磁気ディスク装置10へのデータ転送が開始されると、磁気ディスク装置10からの処理完了待ちとなる(ステップ303,304)。その後、磁気ディスク装置10からの処理完了応答通知の有無が判断され(ステップ305)、処理完了応答通知がなく、タイムアウトとなった場合には(ステップ306)、データベース装置60への記録処理が行われ(ステップ307)、さらに使用者へのエラー通知処理が行われる(ステップ308)。
【0035】
ここで、タイムアウトは、上述した最大予測時間を超えているか否かにより判別されるものであり、図2の第1の時間監視部33、第1のタイマ34及び第1の判別部35により行われるものである。また、タイムアウトとなった場合のデータベース装置60への記録処理にあっては、上述したように、最大予測時間を超えていると判別したときの時刻情報、リード/ライトに関わるディスク16のセクタ位置情報、磁気ディスク装置10の上述した仕様情報が記録される。
【0036】
一方、(ステップ305)において、磁気ディスク装置10からの処理完了応答通知がある場合、遅延の有無が判断され(ステップ309)、遅延がなければ正常終了となるが(ステップ310)、遅延があればデータベース装置60への記録処理が行われる(ステップ311)。すなわち、図2の第2の時間監視部33a、第2のタイマ34a及び第2の判別部35aにより、上述したように、磁気ディスク装置10からの応答による応答時間が設定したリトライ無し正常応答時間を超えているか否かが判別される。リトライ無し正常応答時間を超えていると判別されると、リトライ無し正常応答時間を超えていると判別したときの時刻情報、リトライ無し正常応答時間に対する応答の遅延時間情報、リード/ライトに関わるディスク16のセクタ位置情報、磁気ディスク装置10の上述した仕様情報が記録される。
【0037】
その後、中央処理装置30により、データベース装置60に記録された情報5aが統計解析され、磁気ディスク装置10の損傷の進行具合が判定される。判定結果は、自動的に外部に通知されるか、又は必要に応じて取り出されるようにする。
【0038】
このように、本実施の形態では、中央処理装置30により、システムクロック装置50が供給するシステムクロック4aに基づき、制御装置20を介してリード/ライト要求3aを出した時刻と、データ3bを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置60に磁気ディスク装置10に関わる情報5aを記録するとともに、統計解析によって磁気ディスク装置10の損傷の進行具合を判定するようにした。
【0039】
これにより、磁気ディスク装置10内で発生したリカバリ可能なエラーを回復させるために発生する応答の遅延による応答時間を検出することができ、磁気ディスク装置10が報告しないリカバリ可能なエラーも検出することができるため、磁気ディスク装置10の障害発生を、事前(致命的な故障が発生よりも前)に予測することができる。
【0040】
また、リカバリ可能なエラーを回復させるために発生する応答の遅延を検出したとき、磁気ディスク装置10のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度等の仕様情報を磁気ディスク装置10側から読み出してデータベース装置60に記録するようにしたので、メーカや型番等の仕様が様々である場合でも磁気ディスク装置10の障害発生を、事前に予測することができる。
【0041】
なお、図1の磁気ディスク装置の障害発生予測システムにおいては、図6に示すようなネットワーク経由で定期的に磁気ディスク装置10の障害発生を予測するような形態とすることもできる。すなわち、図6では、磁気ディスク装置10、制御装置20、中央処理装置30、システムクロック装置50及びデータベース装置60に加え、ネットワークアダプタ70、外部中央処理装置90及び外部データベース装置100を備えている。磁気ディスク装置10、制御装置20、中央処理装置30、システムクロック装置50及びデータベース装置60は、図1のものと同じ構成であり、同じ動作を行う。
【0042】
ネットワークアダプタ70は、ネットワーク80を介しての外部中央処理装置90とのデータのやり取りを受け持つものである。たとえばデータベース装置60に記憶されている上述した情報5aがネットワーク80を介して外部中央処理装置90に送られたり、外部中央処理装置90側からの外部データベース装置100に記憶されている上述した情報5aがネットワーク80を介して受け取られたりするものである。外部中央処理装置90は、ネットワーク80を介して得られる情報5aを外部データベース装置100に記憶させたり、外部データベース装置100に記憶されている情報を読み出しネットワーク80を介して送出したりするものである。外部データベース装置100には、外部中央処理装置90により情報が書き込まれる。
【0043】
このような構成では、ネットワーク80を介して送られた情報5aを外部データベース装置100に記憶させることができるので、上述した効果に加え、複数の磁気ディスク装置10の情報5aを記憶させることができるばかりか、ロット単位での磁気ディスク装置10の障害発生の予測を行うことができる。また、外部中央処理装置90により磁気ディスク装置10の損傷の進行具合を判定し、その判定結果を中央処理装置30に通知するようにすることで、ホスト装置40側の磁気ディスク装置10の障害発生の予測に関わる処理の負担を軽減することも可能となる。
【0044】
【発明の効果】
以上の如く本発明に係る磁気ディスク装置の障害発生予測システムによれば、中央処理装置により、システムクロック装置が供給するシステムクロックに基づき、リード/ライト要求を出した時刻と、データを受け取った時刻との差分から応答時間を得るとともに、その応答時間が設定したリトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、データベース装置に磁気ディスク装置に関わる情報を記録するとともに、統計解析によって磁気ディスク装置の損傷の進行具合を判定するようにしたので、磁気ディスク装置の障害発生を、事前に予測することができ、またメーカや型番等の仕様が様々である場合でも磁気ディスク装置の障害発生を、事前に予測することができる。
【図面の簡単な説明】
【図1】本発明の磁気ディスク装置の障害発生予測システムの一実施の形態を示すブロック図である。
【図2】図1の磁気ディスク装置の障害発生予測システムの詳細を示すブロック図である。
【図3】図1の磁気ディスク装置の障害発生予測システムの動作を説明するためのフローチャートである。
【図4】図1の磁気ディスク装置の障害発生予測システムの動作を説明するための図である。
【図5】図1の磁気ディスク装置の障害発生予測システムの動作を説明するための図である。
【図6】図1の磁気ディスク装置の障害発生予測システムの構成を変えた場合の他の実施の形態を示すブロック図である。
【符号の説明】
2a  アクセス
2b  データ
3a  リード/ライト要求
3b  データ
4a  システムクロック
5a  情報
10  磁気ディスク装置
11  データ転送処理部
12  ライトキャッシュ
13  リードキャッシュ
14  キャッシュ管理部
15  ディスクリード/ライト処理部
16  ディスク
17  セクタ位置
18  ヘッド
20  制御装置
30  中央処理装置
31  データ転送処理部
32  リード/ライト要求発行部
33  第1の時間監視部
33a 第2の時間監視部
34  第1のタイマ
34a 第2のタイマ
35  第1の判別部
35a 第2の判別部
36  エラー通知部
37  データベース記録部
40  ホスト装置
50  システムクロック装置
60  データベース装置
70  ネットワークアダプタ
80  ネットワーク
90  外部中央処理装置
100 外部データベース装置

Claims (8)

  1. リード/ライト要求に対する磁気ディスク装置からの応答に基づき、前記磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測システムであって、
    前記リード/ライト要求を出す中央処理装置と、
    前記リード/ライト要求に基づいたアクセスを前記磁気ディスク装置に出し、前記アクセスに応じた前記磁気ディスク装置からの前記応答を前記中央処理装置に送る制御装置と、
    前記応答がリトライ無し正常応答時間を超えているとき、前記磁気ディスク装置に関わる情報が記録されるデータベース装置と、
    システムクロックを供給するシステムクロック装置とを備え、
    前記中央処理装置は、前記システムクロック装置が供給するシステムクロックに基づき、前記リード/ライト要求を出した時刻と、前記データを受け取った時刻との差分から前記応答に要した応答時間を得るとともに、前記応答時間が設定した前記リトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、前記データベース装置に前記磁気ディスク装置に関わる情報を記録するとともに、統計解析によって前記磁気ディスク装置の損傷の進行具合を判定することを特徴とする磁気ディスク装置の障害発生予測システム。
  2. 前記中央処理装置は、
    前記リード/ライト要求が発行されたとき、前記システムクロックに基づき、カウントを開始するタイマ手段と、
    前記カウントする時間を監視し、前記リトライ無し正常応答時間になったかどうかを監視する時間監視手段と、
    前記リード/ライト要求がライト要求のとき、前記磁気ディスク装置へのデータ転送数のカウント値が初期値に等しいかどうかを判別する判別手段と、
    前記時間監視手段による監視により、前記リトライ無し正常応答時間になったとき、前記データベース装置に前記磁気ディスク装置に関わる情報を記録するデータベース記録手段とを備える
    ことを特徴とする請求項1に記載の磁気ディスク装置の障害発生予測システム。
  3. 前記中央処理装置は、前記リトライ無し正常応答時間を超えていると判別したとき、超えていると判別したときの時刻情報、前記リトライ無し正常応答時間に対する前記応答の遅延時間情報、前記リード/ライト要求に関わる前記磁気ディスク装置のディスクのセクタ位置情報、前記磁気ディスク装置のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度を含む仕様情報を、前記データベース装置に記録することを特徴とする請求項1又は2に記載の磁気ディスク装置の障害発生予測システム。
  4. ネットワークを介して前記中央処理装置に接続される外部中央処理装置と、
    外部データベース装置とを備え、
    前記外部中央処理装置は、前記データベース装置に記録すべき情報を、前記ネットワークを介して受け取ると、前記外部データベース装置に記録し、前記中央処理装置からのアクセスに応じて前記外部データベース装置に記録されている情報を前記中央処理装置に送るとともに、前記磁気ディスク装置の損傷の進行具合を判定し、その判定結果を前記中央処理装置に通知することを特徴とする請求項1〜3の何れかに記載の磁気ディスク装置の障害発生予測システム。
  5. リード/ライト要求に対する磁気ディスク装置からの応答に基づき、前記磁気ディスク装置の障害発生を事前に予測する磁気ディスク装置の障害発生予測方法であって、
    中央処理装置により、前記リード/ライト要求を出す工程と、
    制御装置により、前記リード/ライト要求に基づいたアクセスを前記磁気ディスク装置に出し、前記アクセスに応じた前記磁気ディスク装置からの前記応答を前記中央処理装置に送る工程と、
    前記応答がリトライ無し正常応答時間を超えているとき、データベース装置により、前記磁気ディスク装置に関わる情報が記録される工程と、
    システムクロックを供給する工程とを備え、
    前記中央処理装置は、前記システムクロック装置が供給するシステムクロックに基づき、前記リード/ライト要求を出した時刻と、前記データを受け取った時刻との差分から前記応答に要した応答時間を得るとともに、前記応答時間が設定した前記リトライ無し正常応答時間を超えているか否かを判別し、超えていると判別した場合には、前記データベース装置に前記磁気ディスク装置に関わる情報を記録するとともに、統計解析によって前記磁気ディスク装置の損傷の進行具合を判定することを特徴とする磁気ディスク装置の障害発生予測方法。
  6. 前記リード/ライト要求が発行されたとき、前記システムクロックに基づき、カウントを開始する工程と、
    前記カウントする時間を監視し、前記リトライ無し正常応答時間になったかどうかを監視する工程と、
    前記リード/ライト要求がライト要求のとき、前記磁気ディスク装置へのデータ転送数のカウント値が初期値に等しいかどうかを判別する工程と、
    前記監視により、前記リトライ無し正常応答時間になったとき、前記データベース装置に前記磁気ディスク装置に関わる情報を記録する工程とを有する
    ことを特徴とする請求項5に記載の磁気ディスク装置の障害発生予測方法。
  7. 前記リトライ無し正常応答時間を超えていると判別したとき、超えていると判別したときの時刻情報、前記リトライ無し正常応答時間に対する前記応答の遅延時間情報、前記リード/ライト要求に関わる前記磁気ディスク装置のディスクのセクタ位置情報、前記磁気ディスク装置のメーカ名、型番、シリアル番号、使用環境、使用時間、アクセス頻度を含む仕様情報を、前記データベース装置に記録する工程を有することを特徴とする請求項5又は6に記載の磁気ディスク装置の障害発生予測方法。
  8. ネットワークを介して前記中央処理装置に接続される外部中央処理装置により、前記データベース装置に記録すべき情報を、前記ネットワークを介して受け取ると、前記外部データベース装置に記録し、前記中央処理装置からのアクセスに応じて前記外部データベース装置に記録されている情報を前記中央処理装置に送るとともに、前記磁気ディスク装置の損傷の進行具合を判定し、その判定結果を前記中央処理装置に通知する工程を有することを特徴とする請求項5〜7の何れかに記載の磁気ディスク装置の障害発生予測方法。
JP2002278709A 2002-09-25 2002-09-25 磁気ディスク装置の障害発生予測システム Pending JP2004118397A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002278709A JP2004118397A (ja) 2002-09-25 2002-09-25 磁気ディスク装置の障害発生予測システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002278709A JP2004118397A (ja) 2002-09-25 2002-09-25 磁気ディスク装置の障害発生予測システム

Publications (1)

Publication Number Publication Date
JP2004118397A true JP2004118397A (ja) 2004-04-15

Family

ID=32273914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002278709A Pending JP2004118397A (ja) 2002-09-25 2002-09-25 磁気ディスク装置の障害発生予測システム

Country Status (1)

Country Link
JP (1) JP2004118397A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217362A (ja) * 2008-03-07 2009-09-24 Nec Corp ディスクアレイ装置および制御方法
JP2010049613A (ja) * 2008-08-25 2010-03-04 Nec Corp ストレージ装置、ストレージ性能管理方法及びストレージ性能管理プログラム
JP2010224954A (ja) * 2009-03-24 2010-10-07 Toshiba Corp ストレージ装置及び論理ディスク管理方法
WO2012049760A1 (ja) * 2010-10-14 2012-04-19 富士通株式会社 ストレージ制御装置における基準時間設定方法
JP2012178017A (ja) * 2011-02-25 2012-09-13 Nec Corp 記録媒体制御システム、記録媒体制御方法、記録媒体制御プログラム
JP2014170399A (ja) * 2013-03-04 2014-09-18 Nec Corp Raidシステム、ハードディスクドライブ性能低下検出方法およびそのプログラム
JP2017037405A (ja) * 2015-08-07 2017-02-16 株式会社Jvcケンウッド 故障予測装置、故障予測方法及び故障予測プログラム
CN110825542A (zh) * 2018-08-07 2020-02-21 网宿科技股份有限公司 一种分布式系统中故障盘的检测方法、装置及检测系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217362A (ja) * 2008-03-07 2009-09-24 Nec Corp ディスクアレイ装置および制御方法
JP2010049613A (ja) * 2008-08-25 2010-03-04 Nec Corp ストレージ装置、ストレージ性能管理方法及びストレージ性能管理プログラム
JP2010224954A (ja) * 2009-03-24 2010-10-07 Toshiba Corp ストレージ装置及び論理ディスク管理方法
WO2012049760A1 (ja) * 2010-10-14 2012-04-19 富士通株式会社 ストレージ制御装置における基準時間設定方法
US9152519B2 (en) 2010-10-14 2015-10-06 Fujitsu Limited Storage control apparatus, method of setting reference time, and computer-readable storage medium storing reference time setting program
JP2012178017A (ja) * 2011-02-25 2012-09-13 Nec Corp 記録媒体制御システム、記録媒体制御方法、記録媒体制御プログラム
JP2014170399A (ja) * 2013-03-04 2014-09-18 Nec Corp Raidシステム、ハードディスクドライブ性能低下検出方法およびそのプログラム
JP2017037405A (ja) * 2015-08-07 2017-02-16 株式会社Jvcケンウッド 故障予測装置、故障予測方法及び故障予測プログラム
CN110825542A (zh) * 2018-08-07 2020-02-21 网宿科技股份有限公司 一种分布式系统中故障盘的检测方法、装置及检测系统
CN110825542B (zh) * 2018-08-07 2023-06-23 深圳爱捷云科技有限公司 一种分布式系统中故障盘的检测方法、装置及检测系统

Similar Documents

Publication Publication Date Title
JP5078235B2 (ja) 磁気ディスク記憶装置におけるトラック・データ完全性の維持方法
JP4755510B2 (ja) データ記録装置、及び、データ記録装置のホストデータ転送のパフォーマンスを評価する方法
US7971093B1 (en) Apparatus and method to proactively address hard disk drive inefficiency and failure
US7802019B2 (en) Hard disk drive condition reporting and error correction
EP1924994B1 (en) Method and apparatus for detecting the onset of hard disk failures
US5751947A (en) Magnetic disk apparatus having inspection function of recording medium and method of inspecting recording medium in magnetic disk apparatus
JP2007310974A (ja) 記憶装置および制御装置
JP2004118397A (ja) 磁気ディスク装置の障害発生予測システム
WO2012049760A1 (ja) ストレージ制御装置における基準時間設定方法
JP4798037B2 (ja) ハードディスクドライブ状態監視装置およびハードディスクドライブ状態監視方法
JP2006309931A (ja) ハードディスク上で発見された欠陥を時間と関連付ける方法と装置
CN113179665A (zh) 使用基于纠错的度量来识别性能不佳的数据存储设备
JP4775843B2 (ja) ストレージシステム及び記憶制御方法
JP2008198322A5 (ja)
JP2017037626A (ja) 故障予測装置、故障予測方法及び故障予測プログラム
JP2006092070A (ja) ディスクアレイ装置及びその制御方法並びに制御プログラム
US6266677B1 (en) System and method for ensuring the integrity of stored data
JP4627327B2 (ja) 異常判定装置
JP4111052B2 (ja) ディスク型記録装置を内蔵する装置及びディスク型記録装置の制御方法、並びにコンピュータ・プログラム
JP4968078B2 (ja) 故障診断装置及び故障診断方法
JP2880701B2 (ja) ディスクサブシステム
JP5823755B2 (ja) 記憶装置、およびプログラム
JP5451291B2 (ja) 画像形成装置、画像形成装置の制御方法及びプログラム
JP3598910B2 (ja) 情報記録/再生装置
JP3352852B2 (ja) マルチメディアディスクレコーダ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070515