JP4854522B2

JP4854522B2 - アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム

Info

Publication number: JP4854522B2
Application number: JP2007004294A
Authority: JP
Inventors: 満前嶋; 正一村野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-01-12
Filing date: 2007-01-12
Publication date: 2012-01-18
Anticipated expiration: 2027-01-12
Also published as: JP2008171231A

Description

本発明は、アレイディスク群の保守管理技術に関し、特に、アレイディスクの予防交換の判定基準をアレイディスクの世代毎に動的に変更するアレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラムに関する。

複数のフィールド（ディスク装置の運用場所）とサポートセンタを通信回線などで接続し、各フィールドに設置されたディスク装置から送られてくるエラー情報などをサポートセンタ（集中監視装置）で受信し、複数のディスク装置を集中監視するシステムが運用されている。
上記ディスク装置として、冗長構成のアレイディスク装置が使用されている場合、ディスクが故障（フォルト）しても、予備のディスクであるＨＳ（ＨｏｔＳｐａｒｅ）にデータをコピーすることにより、運用を継続することが可能である。
上記システムにおいて、従来においては例えば以下のようにして、各フィールドに設置されたディスク装置の保守管理を行っている。

例えば、冗長構成のアレイディスクがフォルトすると、データを予備のディスクであるＨＳにコピーするとともに、フォルトの発生したことを上記センタに通知する。
上記通知を受けたセンタでは、ＣＥ（カスタマーエンジニア）に対して該ディスク装置の保守を指示する。ＣＥは保守部品などを準備し、フォルトが発生したディスクが設置された場所に行き、ディスクを交換するなどの保守を行う。なお、ここでは、ディスクのフォルトとは、ディスクがリカバリ不能な程度に故障することをいう。

しかし、複数のディスクのフォルトが発生した場合、ＨＳが不足し、ＲＡＩＤの冗長化が崩れる恐れがある。したがって、アレイディスクが故障する前に、事前にディスクの予防交換（フォルトの発生しそうなディスクを、フォルト前に交換）を実施することが望ましい。
ディスクを予防交換する技術としては、例えば特許文献１に記載のものが知られている。特許文献１に記載のものは、ディスクのエラー情報を取得して所定のファイルに記録し、所得したエラー情報を統計分析することにより、障害発生前に予防交換すべきかを判断し、ディスク障害が発生する前に、自動的に正常なディスクを使用したアレイディスクに組み変えるようにしたものである。
特開２０００−３０５７２０号公報

年々、新しいバードディスクが開発・提供されているが、その信頼性等は必ずしも同じではなく、ディスクの型格、開発・提供時期などによりバラツキがある。
例えば、代替可能な同様な性能のディスクであっても、ある時期に提供されたディスクより、これより前あるいは後に提供されたディスクの方が信頼性が高いという場合も多々ある。以下では、上述したように、信頼性が変わらないと考えられる同じような時期に開発・提供された性能、容量、用途等に応じて分類される一連のディスク群の単位をそれぞれ世代と表現する。すなわち、異なる世代のディスクとは、信頼性が異なっていると考えられる、異なる時期に開発・提供時期されたディスクを意味する。
従って、前述したようなディスクの予防交換を行うに際しては、ディスクの世代を考慮して信頼性の低い世代のディスクは早めに交換するなどの措置を講ずることが望ましい。

従来においては、世代によって信頼性が異なるといった認識はあったものの、世代による信頼性の相違を考慮して、ディスク装置の予防交換を自動的に行うといった考え方はなく、せいぜい、ディスク装置のエラー情報などから、人手により、世代による信頼性の相違を把握し、信頼性の低い世代のディスクは、早めに交換するといったことが行われていた程度であった。
しかし、監視すべきアレイディスク装置が多数あり、ディスクの世代数が多く、さらにアレイディスク装置に、世代の異なるディスクが混在して使用されているような場合には、上述したように人手により世代毎にディスクの信頼性を認識し、予防交換を行うことは困難である。
本発明は、上述した問題点を解決するためになされたものであって、アレイディスク装置群の保守管理を行うに際し、世代毎の信頼性を考慮してディスクの予防交換が行えるようにし、各フィールドに設置されたアレイディスク装置の信頼性を向上させることを目的とする。

各アレイディスク装置でリカバリエラー（ディスクを交換せずに修復可能なエラー）の発生回数を調べ、リカバリエラーの発生回数が、判定基準である予め定められた閾値を超えると、各アレイディスク装置では、前述したように自動的にリカバリエラが閾値を越えたディスクをＨＳに交換し、アレイディスク装置の構成を組み変える。
上記において、本発明では、集中監視装置と各場所に設置されたアレイディスク装置とを通信手段で接続し、集中監視装置で、アレイディスク装置からエラー情報などのログ情報を取得し、上記ログ情報から各アレイディスク装置におけるディスクのフォルト（リカバリできない故障）数を得て、このフォルト数からディスクの世代毎の故障率を算出する。
そして、算出されたディスクの世代毎の故障率に基づき、各アレイディスク装置における上記閾値を更新する。例えば、ある世代のディスクの故障率が高い場合には、該ディスクが組み込まれているアレイディスク装置における当該ディスクの閾値を下げ、リカバリエラーの発生回数が比較的少ない場合でも、予防交換されるようにする。
このように、世代毎のディスクの故障率に基づき、予防交換するか否かを判定する判定基準である閾値を更新することにより、故障率が高い世代のディスクは早めに予防交換されることになり、リカバリできない故障が発生する率を低下させることができ、アレイディスク装置全体の信頼性を向上させることができる。

すなわち、本発明においては、以下のように前記課題を解決する。
（１）アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と、上記複数のディスク装置と通信手段で接続され、上記複数のディスク装置を集中監視する集中監視装置とを備えるアレイディスク群の保守管理システムを設ける。
そして、上記集中監視装置は、上記複数のディスク装置からログ情報を取得するログ情報取得手段と、上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するフォルト数情報取得手段と、上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する故障率算出手段と、上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する閾値更新手段とを備える。
（２）上記複数のディスク装置は、上記アレイディスクのリカバリエラーの発生回数が上記所定の閾値を超えた時に、該アレイディスク内のデータを予備のアレイディスクにコピーして、該アレイディスクの切り離しを行う。
（３）上記閾値更新手段は、上記算出されたアレイディスクの世代毎の故障率と故障率についての所定の閾値とを比較し、該アレイディスクの世代毎の故障率と故障率についての所定の閾値との比較結果に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての所定の閾値を更新する。

本発明のアレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラムは、複数のディスク装置からログ情報を取得し、該ログ情報からフォルトしたアレイディスクの数の情報（フォルト数情報）を取得し、該フォルト数情報に基づいて、アレイディスクの世代毎の故障率を算出し、該算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する。
また、上記複数のディスク装置は、上記アレイディスクのリカバリエラーの発生回数が上記所定の閾値を超えた時に、該アレイディスク内のデータを予備のアレイディスクにコピーして、該アレイディスクの切り離しを行う（予防交換を行う）。

従って、本発明によれば、アレイディスクの予防交換の判定基準をアレイディスクの世代毎に動的に変更することができる。その結果、複数のディスク装置に分散して配置された各世代のアレイディスクを、世代毎に自動的に予防交換することが可能となる。
このため、故障率が高い世代のディスクは早めに予防交換されることになり、リカバリできない故障が発生する率を低下させることができ、アレイディスク装置の信頼性を向上させることができる。

図１は、本発明のアレイディスク群の保守管理システムの構成の一例を示す図である。本発明のアレイディスク群の保守管理システムは、アレイディスク群の保守管理装置１と、複数のディスク装置２とを備える。

アレイディスク群の保守管理装置１は、ディスク装置２とネットワーク等の通信手段３で接続され、ディスク装置２を集中監視する処理装置である。具体的には、アレイディスク群の保守管理装置１は、アレイディスク１０１を備えるディスク装置２からログ情報を取得し、該ログ情報に基づいてフォルト数情報を取得し、取得したフォルト数情報に基づいて、アレイディスク１０１の世代毎の故障率を算出する。上記フォルト数情報とは、フォルトしたアレイディスクの数の情報である。

また、アレイディスク群の保守管理装置１は、算出されたアレイディスク１０１の世代毎の故障率に基づいて、ディスク装置２が備える各世代のアレイディスク１０１のリカバリエラーの発生回数の閾値を更新し、更新した該閾値の情報をディスク装置２に対して送信して、ディスク装置２内の閾値記憶部２０５に記憶させる。
また、アレイディスク群の保守管理装置１は、ディスク装置２から後述するエラー通知を受信して、アレイディスク群の保守管理装置１のオペレータ（図示を省略）に通知する。当該通知を受けたオペレータは、ディスク装置２の保守要員１００に対してメール通知や電話連絡等して、上記エラー通知の送信元であるディスク装置２の保守を行わせる。

複数のディスク装置２の各々は、アレイディスク１０１を備え、該アレイディスク１０１を管理する。各ディスク装置２は、例えば複数のフィールド（場所）に設置されており、また、例えば複数の世代のアレイディスク１０１を備えている。従って、各世代のアレイディスク１０１は、例えば複数のフィールドに分散して配置されている。
ディスク装置２は、ログ情報をアレイディスク群の保守管理装置１に対して送信する。上記ログ情報には、ディスク装置２が備えるアレイディスク１０１のうち、フォルトしたアレイディスクの情報が含まれている。また、該ログ情報には、例えば、後述するアレイディスク１０１のリカバリエラーの種類の情報が含まれている。

また、ディスク装置２は、アレイディスク群の保守管理装置１から送信された各世代のアレイディスクのリカバリエラーの発生回数の閾値を閾値記憶部２０５に記憶する。ここで、アレイディスク１０１のリカバリエラーは複数種類存在する。例えば、ディスク装置２によるリード動作、ライト動作、ヘッドシーク動作等の各動作内容毎に、リカバリエラーが存在する。従って、ディスク装置２は、リカバリエラーの種類毎に、各世代のアレイディスク１０１のリカバリエラーの発生回数の閾値を閾値記憶部２０５に記憶するようにしてもよい。
また、ディスク装置２は、アレイディスク１０１のリカバリエラーの発生回数が閾値記憶部２０５に記憶された閾値を超えた時に、該アレイディスク１０１の予防交換を行う。すなわち、閾値記憶部２０５に記憶された閾値は、アレイディスクの予防交換の判定基準である。

ディスク装置２内のアレイディスク１０１（図１中の＃１および＃２に示すアレイディスク１０１）は、例えばミラー構成されている。ディスク装置２は、例えば、＃２に示すアレイディスク１０１のリカバリエラーの発生回数が上記閾値を超えた時に、該アレイディスク１０１内のデータを予備のアレイディスクであるＨＳ１０２にコピーして、該アレイディスク１０１の切り離しを行う。該アレイディスク１０１のデータのＨＳ１０２へのコピーと該アレイディスクの切り離しを行って、該アレイディスク１０１とＨＳ１０２とを入れ替える処理を、リダンダントコピーという。該切り離されたアレイディスク１０１は、フォルトしたものと扱われる。
ディスク装置２は、フォルト扱いとしたアレイディスク１０１を切り離した後に、アレイディスク群の保守管理装置１に対してエラー通知を行う。エラー通知は、アレイディスク１０１がフォルトしたことの通知である。

アレイディスク群の保守管理装置１は、送受信部１１、フォルト数情報取得部１２、故障率算出部１３、閾値更新部１４、ログ情報記憶部１５、閾値記憶部１６を備える。
送受信部１１は、ディスク装置２から送信されたログ情報を受信して、受信したログ情報をログ情報記憶部１５に記憶する。また、送受信部１１は、閾値更新部１４によって更新されたリカバリエラーの発生回数の閾値情報をディスク装置２に対して送信する。
送受信部１１は、アレイディスク群の保守管理装置１のオペレータによって入力される、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置２に送信するか特定のディスク装置２に送信するかを示す選択情報に基づいて、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置２に送信し、または、特定のディスク装置２（例えば、当該閾値に対応する世代のアレイディスク１０１を備えるディスク装置２）に対して送信する。また、送受信部１１は、ディスク装置２からエラー通知を受信して、オペレータに通知する。

フォルト数情報取得部１２は、ログ情報記憶部１５内に記憶されたログ情報に基づいて、フォルト数情報を取得する。具体的には、フォルト数情報取得部１２はログ情報記憶部１５からログ情報を抽出する。抽出されたログ情報中には、ディスク装置２内においてフォルトしたアレイディスク１０１の情報が含まれているので、フォルト数情報取得部１２は、抽出されたログ情報に基づいて、フォルト数情報を取得する。
故障率算出部１３は、フォルト数情報取得部１２によって取得されたフォルト数情報に基づいて、アレイディスク１０１の故障率を各世代毎に算出する。故障率算出部１３は、例えばアレイディスクの年間故障率（ＡＦＲ：Annual failure Rate ）を算出する。ＡＦＲの算出例については後述する。

閾値更新部１４は、故障率算出部１３によって算出されたアレイディスク１０１の故障率に基づいて、閾値記憶部１６内に記憶されている各世代のアレイディスク１０１のリカバリエラーの発生回数の閾値を更新する。本発明の一実施例によれば、閾値更新部１４は、リカバリエラーの種類毎に、各世代のアレイディスク１０１のリカバリエラーの発生回数の閾値を更新するようにしてもよい。
ログ情報記憶部１５には、ディスク装置２から受信されたログ情報が記憶される。閾値記憶部１６には、閾値更新部１４によって更新されたリカバリエラーの発生回数の閾値が記憶される。

なお、上述したアレイディスク群の保守管理装置１及びその各部の機能は、ＣＰＵとその上で実行されるプログラムにより実現される。当該本発明を実現するプログラムは、コンピュータが読み取り可能な記録媒体、例えば半導体メモリ、ハードディスク、ＣＤ−ＲＯＭ、ＤＶＤ等に格納することができ、これらの記録媒体に記録して提供され、又は、通信インタフェースを介してネットワークを利用した送受信により提供される。

図２は、ディスク装置の構成の一例を示す図である。ここでは、ディスク装置２がＲＡＩＤ５の装置である場合を例にとって説明する。
ディスク装置２は、ディスク装置部２０とＲＡＩＤコントローラ２１とを備える。ディスク装置部２０は、アレイディスク１０１およびＨＳ１０２を備え、アレイディスク１０１のリダンダントコピー（アレイディスク１０１内のデータのＨＳ１０２へのコピーおよび該アレイディスク１０１の切り離し）を行う。アレイディスク１０１のリダンダントコピーの例については、図３を参照して後述する。図２中の＃１〜＃４に示すアレイディスク１０１は、例えばＲＡＩＤ５を構成している。ＲＡＩＤコントローラ２１は、ファームウェアで構成されており、ディスク装置部２０に対してリダンダントコピーを指示する。

ＲＡＩＤコントローラ２１は、エラー通知部２０１、ログ送信部２０２、送受信部２０３、リダンダントコピー指示部２０４、閾値記憶部２０５を備える。
エラー通知部２０１は、ディスク装置部２０がアレイディスク１０１を切り離した時に、送受信部２０３を通じて、アレイディスク群の保守管理装置１に対してエラー通知を行う。
ログ送信部２０２は、送受信部２０３を通じて、ディスク装置２のログ情報をアレイディスク群の保守管理装置１に対して送信する。

送受信部２０３は、アレイディスク群の保守管理装置１に対してエラー通知を行い、また、ログ情報を送信する。また、送受信部２０３は、アレイディスク群の保守管理装置１からアレイディスク１０１のリカバリエラーの発生回数の閾値情報を受信して、閾値記憶部２０５に記憶する。
リダンダントコピー指示部２０４は、アレイディスク１０１のリカバリエラーの発生回数を監視し、該リカバリエラーの発生回数が閾値記憶部２０５に記憶された閾値を超えたと判断すると、ディスク装置部２０に対してリダンダントコピーを指示する。

図３は、図２に示すディスク装置におけるリダンダントコピーの一例を示す図である。リダンダントコピー指示部２０４が、図３（Ａ）中の＃３に示すアレイディスク１０１のリカバリエラーの発生回数が閾値記憶部２０５に記憶されている閾値を超えたと判断すると、リダンダントコピー指示部２０４は、ディスク装置部２０に対して＃３に示すアレイディスク１０１を予防交換対象ドライブとして、リダンダントコピーを指示する。

該リダンダントコピーの指示を受けたディスク装置部２０は、図３（Ａ）中に示すように、＃３に示すアレイディスク１０１内のデータをＨＳ１０２にコピーするとともに、図３（Ｂ）中に示すように、該＃３に示すアレイディスク１０１の切り離しと、ＨＳ１０２のＲＡＩＤ５への組み込みを行う。

図４は、アレイディスク群の保守管理装置によるアレイディスクの世代毎のＡＦＲの算出例を説明する図である。ここでは、各世代のアレイディスク１０１が複数のフィールドに分散して配置されている場合を例にとって説明する。なお、フィールドとは、ディスク装置２の運用場所である。

図４（Ａ）中に示すように、ａ世代、ｂ世代、ｃ世代、・・・といった各世代のアレイディスク１０１は、第１フィールド、第２フィールド、・・・といった複数のフィールドに分散して配置されている。
例えば、第１フィールドにおけるａ世代のアレイディスク１０１の年間フォルト数がｎａ１台、ｂ世代のアレイディスク１０１の年間フォルト数がｎｂ１台、ｃ世代のアレイディスク１０１の年間フォルト数がｎｃ１台、・・・である。また、例えば第２フィールドにおけるａ世代のアレイディスク１０１の年間フォルト数がｎａ２台、ｂ世代のアレイディスク１０１の年間フォルト数がｎｂ２台、ｃ世代のアレイディスク１０１の年間フォルト数がｎｃ２台、・・・である。上記各世代の年間フォルト数の情報は、ログ情報の一部として、各フィールドに配置されたディスク装置２からアレイディスク群の保守管理装置１に送信される。

アレイディスク群の保守管理装置１が備えるフォルト数情報取得部１２は、上記各世代の年間フォルト数の情報を算出する。すなわち、フォルト数情報取得部１２は、図４（Ｂ）に示すように、例えばａ世代のアレイディスク１０１の年間フォルト数として、ｎａ１＋ｎａ２＋・・・、ｂ世代のアレイディスク１０１の年間フォルト数として、ｎｂ１＋ｎｂ２＋・・・、ｃ世代のアレイディスク１０１の年間フォルト数として、ｎｃ１＋ｎｃ２＋・・・を算出する。ａ世代、ｂ世代、ｃ世代以外の世代のアレイディスク１０１の年間フォルト数についても同様に算出される。
そして、図４（Ｃ）に示すように、故障率算出部１３が、上記算出された各世代の年間フォルト数の情報に基づいて、所定のＡＦＲ算出式に基づいて、各世代のアレイディスクのＡＦＲを算出する。

図５は、アレイディスク群の保守管理装置によるリカバリエラーの発生回数の閾値の更新処理の例を説明する図である。この例では、アレイディスク群の保守管理装置１が備える閾値更新部１４が、図４を参照して前述したＡＦＲの算出例に従って故障率算出部１３が算出したアレイディスクの世代毎のＡＦＲと、予め定められた該ＡＦＲの閾値の情報とを比較し、該比較結果に基づいて、各世代のリカバリエラーの発生回数の閾値を更新する。

より具体的には、閾値更新部１４は、ＡＦＲが該ＡＦＲの閾値未満であると判断した場合には、該ＡＦＲに対応する世代のアレイディスク１０１についてのリカバリエラーの発生回数の閾値を更新せず、ＡＦＲが該ＡＦＲの閾値以上であると判断した場合には、該ＡＦＲに対応する世代のアレイディスク１０１についてのリカバリエラーの発生回数の閾値を、該ＡＦＲが該ＡＦＲの閾値を超える程度に応じた値に設定して減らす。閾値更新部１４は、例えば、ＡＦＲが該ＡＦＲの閾値を超える程度が大きいほど、設定するリカバリエラーの発生回数の閾値を小さくする。

図５中に示すグラフの横軸はアレイディスク１０１の世代、縦軸はアレイディスク１０１の各世代に対応するＡＦＲである。ＥｔはＡＦＲの閾値、Ｅａはａ世代のアレイディスク１０１のＡＦＲ、Ｅｂはｂ世代のアレイディスク１０１のＡＦＲ、Ｅｃはｃ世代のアレイディスク１０１のＡＦＲである。

閾値更新部１４は、ＥａとＥｔとを比較し、ＥａがＥｔ未満であると判断する。従って、閾値更新部１４は、ａ世代のアレイディスクについてのリカバリエラーの発生回数の閾値を更新しない。
また、閾値更新部１４は、ＥｂとＥｔとを比較し、ＥｂがＥｔ以上であると判断する。従って、閾値更新部１４は、ｂ世代のアレイディスクについてのリカバリエラーの発生回数の閾値を、例えばＥｂからＥｔを減じた結果得られる値に応じた値に設定して減らす。また、閾値更新部１４は、ＥｃとＥｔとを比較し、ＥｃがＥｔ以上であると判断する。従って、閾値更新部１４は、ｃ世代のアレイディスクについてのリカバリエラーの発生回数の閾値を、ＥｃからＥｔを減じた結果得られる値に応じた値に設定して減らす。

本発明におけるリカバリエラーの発生回数の閾値の更新処理は、上述した処理に限定されない。本発明の一実施例によれば、閾値更新部１４が、例えば、ＡＦＲが該ＡＦＲの閾値未満であると判断した場合には、該ＡＦＲに対応する世代のアレイディスク１０１についてのリカバリエラーの発生回数の閾値を増やし、ＡＦＲが該ＡＦＲの閾値と等しいと判断した場合には、該ＡＦＲに対応する世代のアレイディスク１０１についてのリカバリエラーの発生回数の閾値を更新せず、ＡＦＲが該ＡＦＲの閾値より大きいと判断した場合には、該ＡＦＲに対応する世代のアレイディスク１０１についてのリカバリエラーの発生回数の閾値を減らすようにしてもよい。

図６は、アレイディスク群の保守管理装置によるリカバリエラーの発生回数の閾値の更新処理フローの例を示す図である。
まず、アレイディスク群の保守管理装置１の送受信部１１が、ディスク装置２からログ情報を受信して（ステップＳ１）、ログ情報記憶部１５に記憶する。次に、フォルト数情報取得部１２が、ログ情報記憶部１５からログ情報を切り出す（ステップＳ２）。
フォルト数情報取得部１２は、切り出したログ情報を解析して、フォルト数情報を取得する（ステップＳ３）。そして、故障率算出部１３が、取得されたフォルト数情報に基づいて、各世代のアレイディスク１０１のＡＦＲを算出する（ステップＳ４）。そして、故障率算出部１３が、ステップＳ４において算出されたＡＦＲが該ＡＦＲの閾値未満かを判断する（ステップＳ５）。

故障率算出部１３が、ＡＦＲが該ＡＦＲの閾値未満であると判断した場合は、該ＡＦＲに対応する世代のアレイディスク１０１についてのリカバリエラーの発生回数の閾値に１を加えて（ステップＳ１０）、ステップＳ８に進む。故障率算出部１３が、ＡＦＲが該ＡＦＲの閾値未満でないと判断した場合は、故障率算出部１３は、ＡＦＲが該ＡＦＲの閾値より大きいかを判断する（ステップＳ６）。

故障率算出部１３が、ＡＦＲが該ＡＦＲの閾値より大きくない（すなわち、ＡＦＲ＝ＡＦＲの閾値である）と判断した場合、故障率算出部１３は、該ＡＦＲに対応する世代のアレイディスク１０１についてのリカバリエラーの発生回数の閾値を更新しない（ステップＳ１１）。故障率算出部１３が、ＡＦＲが該ＡＦＲの閾値より大きいと判断した場合、故障率算出部１３は、該ＡＦＲに対応する世代のアレイディスク１０１についてのリカバリエラーの発生回数の閾値から１を減じて（ステップＳ７）、ステップＳ８に進む。

次に、アレイディスク群の保守管理装置１のオペレータが、上記ステップＳ７またはステップＳ１０において更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置２に送信するか特定のディスク装置２に送信するかを示す選択情報を送受信部１１に対して入力すると、送受信部１１は、入力された選択情報に基づいて、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置２に送信するか特定のディスク装置２に送信するかを判断する（ステップＳ８）。ステップＳ８において、送受信部１１は、予め設定された上記選択情報に基づいて、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置２に送信するか特定のディスク装置２に送信するかを判断するようにしてもよい。

送受信部１１が、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置２に送信すると判断した場合には、送受信部１１は、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置２に対して送信する（ステップＳ９）。
送受信部１１が、更新されたリカバリエラーの発生回数の閾値の情報を特定のディスク装置２に送信すると判断した場合には、送受信部１１は、更新されたリカバリエラーの発生回数の閾値の情報を該特定のディスク装置２に対して送信する（ステップＳ１２）。

以上、説明したように、本発明によれば、アレイディスクの予防交換の判定基準をアレイディスクの世代毎に動的に変更することができる。その結果、複数のディスク装置に分散して配置された各世代のアレイディスクを、世代毎に自動的に予防交換することが可能となる。

本発明のアレイディスク群の保守管理システムの構成の一例を示す図である。ディスク装置の構成の一例を示す図である。ディスク装置におけるリダンダントコピーの一例を示す図である。アレイディスクの世代毎のＡＦＲの算出例を説明する図である。リカバリエラーの発生回数の閾値の更新処理の例を説明する図である。リカバリエラーの発生回数の閾値の更新処理フローの例を示す図である。

符号の説明

１アレイディスク群の保守管理装置
２ディスク装置
３通信手段
１１送受信部
１２フォルト数情報取得部
１３故障率算出部
１４閾値更新部
１５ログ情報記憶部
１６、２０５閾値記憶部
２０ディスク装置部
２１ＲＡＩＤコントローラ
１００保守要員
１０１アレイディスク
１０２ＨＳ
２０１エラー通知部
２０２ログ送信部
２０３送受信部
２０４リダンダントコピー指示部

Claims

アレイディスク群の保守管理システムであって、
上記アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と、
上記複数のディスク装置と通信手段で接続され、上記複数のディスク装置を集中監視する集中監視装置とを備え、
上記集中監視装置は、
上記複数のディスク装置からログ情報を取得するログ情報取得手段と、
上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するフォルト数情報取得手段と、
上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する故障率算出手段と、
上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する閾値更新手段とを備える
ことを特徴とするアレイディスク群の保守管理システム。
上記複数のディスク装置は、上記アレイディスクのリカバリエラーの発生回数が上記所定の閾値を超えた時に、該アレイディスク内のデータを予備のアレイディスクにコピーして、該アレイディスクの切り離しを行う
ことを特徴とする請求項１に記載のアレイディスク群の保守管理システム。
上記閾値更新手段は、上記算出されたアレイディスクの世代毎の故障率と故障率についての所定の閾値とを比較し、該アレイディスクの世代毎の故障率と故障率についての所定の閾値との比較結果に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての所定の閾値を更新する
ことを特徴とする請求項１に記載のアレイディスク群の保守管理システム。
アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と通信手段で接続される、アレイディスク群の保守管理装置であって、
上記複数のディスク装置からログ情報を取得するログ情報取得手段と、
上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するフォルト数情報取得手段と、
上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する故障率算出手段と、
上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する閾値更新手段とを備える
ことを特徴とするアレイディスク群の保守管理装置。
アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と通信手段で接続される、アレイディスク群の保守管理装置におけるアレイディスク群の保守管理方法であって、
上記複数のディスク装置からログ情報を取得するステップと、
上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するステップと、
上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出するステップと、
上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新するステップとからなる
ことを特徴とするアレイディスク群の保守管理方法。
アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と通信手段で接続される、アレイディスク群の保守管理装置におけるアレイディスク群の保守管理プログラムであって、
コンピュータに、
上記複数のディスク装置からログ情報を取得する処理と、
上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得する処理と、
上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する処理と、
上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する処理とを実行させる
ことを特徴とするアレイディスク群の保守管理プログラム。