JP4854522B2 - アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム - Google Patents

アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム Download PDF

Info

Publication number
JP4854522B2
JP4854522B2 JP2007004294A JP2007004294A JP4854522B2 JP 4854522 B2 JP4854522 B2 JP 4854522B2 JP 2007004294 A JP2007004294 A JP 2007004294A JP 2007004294 A JP2007004294 A JP 2007004294A JP 4854522 B2 JP4854522 B2 JP 4854522B2
Authority
JP
Japan
Prior art keywords
array
disk
array disk
generation
maintenance management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007004294A
Other languages
English (en)
Other versions
JP2008171231A (ja
Inventor
満 前嶋
正一 村野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007004294A priority Critical patent/JP4854522B2/ja
Publication of JP2008171231A publication Critical patent/JP2008171231A/ja
Application granted granted Critical
Publication of JP4854522B2 publication Critical patent/JP4854522B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、アレイディスク群の保守管理技術に関し、特に、アレイディスクの予防交換の判定基準をアレイディスクの世代毎に動的に変更するアレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラムに関する。
複数のフィールド(ディスク装置の運用場所)とサポートセンタを通信回線などで接続し、各フィールドに設置されたディスク装置から送られてくるエラー情報などをサポートセンタ(集中監視装置)で受信し、複数のディスク装置を集中監視するシステムが運用されている。
上記ディスク装置として、冗長構成のアレイディスク装置が使用されている場合、ディスクが故障(フォルト)しても、予備のディスクであるHS(Hot Spare)にデータをコピーすることにより、運用を継続することが可能である。
上記システムにおいて、従来においては例えば以下のようにして、各フィールドに設置されたディスク装置の保守管理を行っている。
例えば、冗長構成のアレイディスクがフォルトすると、データを予備のディスクであるHSにコピーするとともに、フォルトの発生したことを上記センタに通知する。
上記通知を受けたセンタでは、CE(カスタマーエンジニア)に対して該ディスク装置の保守を指示する。CEは保守部品などを準備し、フォルトが発生したディスクが設置された場所に行き、ディスクを交換するなどの保守を行う。なお、ここでは、ディスクのフォルトとは、ディスクがリカバリ不能な程度に故障することをいう。
しかし、複数のディスクのフォルトが発生した場合、HSが不足し、RAIDの冗長化が崩れる恐れがある。したがって、アレイディスクが故障する前に、事前にディスクの予防交換(フォルトの発生しそうなディスクを、フォルト前に交換)を実施することが望ましい。
ディスクを予防交換する技術としては、例えば特許文献1に記載のものが知られている。特許文献1に記載のものは、ディスクのエラー情報を取得して所定のファイルに記録し、所得したエラー情報を統計分析することにより、障害発生前に予防交換すべきかを判断し、ディスク障害が発生する前に、自動的に正常なディスクを使用したアレイディスクに組み変えるようにしたものである。
特開2000−305720号公報
年々、新しいバードディスクが開発・提供されているが、その信頼性等は必ずしも同じではなく、ディスクの型格、開発・提供時期などによりバラツキがある。
例えば、代替可能な同様な性能のディスクであっても、ある時期に提供されたディスクより、これより前あるいは後に提供されたディスクの方が信頼性が高いという場合も多々ある。以下では、上述したように、信頼性が変わらないと考えられる同じような時期に開発・提供された性能、容量、用途等に応じて分類される一連のディスク群の単位をそれぞれ世代と表現する。すなわち、異なる世代のディスクとは、信頼性が異なっていると考えられる、異なる時期に開発・提供時期されたディスクを意味する。
従って、前述したようなディスクの予防交換を行うに際しては、ディスクの世代を考慮して信頼性の低い世代のディスクは早めに交換するなどの措置を講ずることが望ましい。
従来においては、世代によって信頼性が異なるといった認識はあったものの、世代による信頼性の相違を考慮して、ディスク装置の予防交換を自動的に行うといった考え方はなく、せいぜい、ディスク装置のエラー情報などから、人手により、世代による信頼性の相違を把握し、信頼性の低い世代のディスクは、早めに交換するといったことが行われていた程度であった。
しかし、監視すべきアレイディスク装置が多数あり、ディスクの世代数が多く、さらにアレイディスク装置に、世代の異なるディスクが混在して使用されているような場合には、上述したように人手により世代毎にディスクの信頼性を認識し、予防交換を行うことは困難である。
本発明は、上述した問題点を解決するためになされたものであって、アレイディスク装置群の保守管理を行うに際し、世代毎の信頼性を考慮してディスクの予防交換が行えるようにし、各フィールドに設置されたアレイディスク装置の信頼性を向上させることを目的とする。
各アレイディスク装置でリカバリエラー(ディスクを交換せずに修復可能なエラー)の発生回数を調べ、リカバリエラーの発生回数が、判定基準である予め定められた閾値を超えると、各アレイディスク装置では、前述したように自動的にリカバリエラが閾値を越えたディスクをHSに交換し、アレイディスク装置の構成を組み変える。
上記において、本発明では、集中監視装置と各場所に設置されたアレイディスク装置とを通信手段で接続し、集中監視装置で、アレイディスク装置からエラー情報などのログ情報を取得し、上記ログ情報から各アレイディスク装置におけるディスクのフォルト(リカバリできない故障)数を得て、このフォルト数からディスクの世代毎の故障率を算出する。
そして、算出されたディスクの世代毎の故障率に基づき、各アレイディスク装置における上記閾値を更新する。例えば、ある世代のディスクの故障率が高い場合には、該ディスクが組み込まれているアレイディスク装置における当該ディスクの閾値を下げ、リカバリエラーの発生回数が比較的少ない場合でも、予防交換されるようにする。
このように、世代毎のディスクの故障率に基づき、予防交換するか否かを判定する判定基準である閾値を更新することにより、故障率が高い世代のディスクは早めに予防交換されることになり、リカバリできない故障が発生する率を低下させることができ、アレイディスク装置全体の信頼性を向上させることができる。
すなわち、本発明においては、以下のように前記課題を解決する。
(1)アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と、上記複数のディスク装置と通信手段で接続され、上記複数のディスク装置を集中監視する集中監視装置とを備えるアレイディスク群の保守管理システムを設ける。
そして、上記集中監視装置は、上記複数のディスク装置からログ情報を取得するログ情報取得手段と、上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するフォルト数情報取得手段と、上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する故障率算出手段と、上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する閾値更新手段とを備える。
(2)上記複数のディスク装置は、上記アレイディスクのリカバリエラーの発生回数が上記所定の閾値を超えた時に、該アレイディスク内のデータを予備のアレイディスクにコピーして、該アレイディスクの切り離しを行う。
(3)上記閾値更新手段は、上記算出されたアレイディスクの世代毎の故障率と故障率についての所定の閾値とを比較し、該アレイディスクの世代毎の故障率と故障率についての所定の閾値との比較結果に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての所定の閾値を更新する。
本発明のアレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラムは、複数のディスク装置からログ情報を取得し、該ログ情報からフォルトしたアレイディスクの数の情報(フォルト数情報)を取得し、該フォルト数情報に基づいて、アレイディスクの世代毎の故障率を算出し、該算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する。
また、上記複数のディスク装置は、上記アレイディスクのリカバリエラーの発生回数が上記所定の閾値を超えた時に、該アレイディスク内のデータを予備のアレイディスクにコピーして、該アレイディスクの切り離しを行う(予防交換を行う)。
従って、本発明によれば、アレイディスクの予防交換の判定基準をアレイディスクの世代毎に動的に変更することができる。その結果、複数のディスク装置に分散して配置された各世代のアレイディスクを、世代毎に自動的に予防交換することが可能となる。
このため、故障率が高い世代のディスクは早めに予防交換されることになり、リカバリできない故障が発生する率を低下させることができ、アレイディスク装置の信頼性を向上させることができる。
図1は、本発明のアレイディスク群の保守管理システムの構成の一例を示す図である。本発明のアレイディスク群の保守管理システムは、アレイディスク群の保守管理装置1と、複数のディスク装置2とを備える。
アレイディスク群の保守管理装置1は、ディスク装置2とネットワーク等の通信手段3で接続され、ディスク装置2を集中監視する処理装置である。具体的には、アレイディスク群の保守管理装置1は、アレイディスク101を備えるディスク装置2からログ情報を取得し、該ログ情報に基づいてフォルト数情報を取得し、取得したフォルト数情報に基づいて、アレイディスク101の世代毎の故障率を算出する。上記フォルト数情報とは、フォルトしたアレイディスクの数の情報である。
また、アレイディスク群の保守管理装置1は、算出されたアレイディスク101の世代毎の故障率に基づいて、ディスク装置2が備える各世代のアレイディスク101のリカバリエラーの発生回数の閾値を更新し、更新した該閾値の情報をディスク装置2に対して送信して、ディスク装置2内の閾値記憶部205に記憶させる。
また、アレイディスク群の保守管理装置1は、ディスク装置2から後述するエラー通知を受信して、アレイディスク群の保守管理装置1のオペレータ(図示を省略)に通知する。当該通知を受けたオペレータは、ディスク装置2の保守要員100に対してメール通知や電話連絡等して、上記エラー通知の送信元であるディスク装置2の保守を行わせる。
複数のディスク装置2の各々は、アレイディスク101を備え、該アレイディスク101を管理する。各ディスク装置2は、例えば複数のフィールド(場所)に設置されており、また、例えば複数の世代のアレイディスク101を備えている。従って、各世代のアレイディスク101は、例えば複数のフィールドに分散して配置されている。
ディスク装置2は、ログ情報をアレイディスク群の保守管理装置1に対して送信する。上記ログ情報には、ディスク装置2が備えるアレイディスク101のうち、フォルトしたアレイディスクの情報が含まれている。また、該ログ情報には、例えば、後述するアレイディスク101のリカバリエラーの種類の情報が含まれている。
また、ディスク装置2は、アレイディスク群の保守管理装置1から送信された各世代のアレイディスクのリカバリエラーの発生回数の閾値を閾値記憶部205に記憶する。ここで、アレイディスク101のリカバリエラーは複数種類存在する。例えば、ディスク装置2によるリード動作、ライト動作、ヘッドシーク動作等の各動作内容毎に、リカバリエラーが存在する。従って、ディスク装置2は、リカバリエラーの種類毎に、各世代のアレイディスク101のリカバリエラーの発生回数の閾値を閾値記憶部205に記憶するようにしてもよい。
また、ディスク装置2は、アレイディスク101のリカバリエラーの発生回数が閾値記憶部205に記憶された閾値を超えた時に、該アレイディスク101の予防交換を行う。すなわち、閾値記憶部205に記憶された閾値は、アレイディスクの予防交換の判定基準である。
ディスク装置2内のアレイディスク101(図1中の#1および#2に示すアレイディスク101)は、例えばミラー構成されている。ディスク装置2は、例えば、#2に示すアレイディスク101のリカバリエラーの発生回数が上記閾値を超えた時に、該アレイディスク101内のデータを予備のアレイディスクであるHS102にコピーして、該アレイディスク101の切り離しを行う。該アレイディスク101のデータのHS102へのコピーと該アレイディスクの切り離しを行って、該アレイディスク101とHS102とを入れ替える処理を、リダンダントコピーという。該切り離されたアレイディスク101は、フォルトしたものと扱われる。
ディスク装置2は、フォルト扱いとしたアレイディスク101を切り離した後に、アレイディスク群の保守管理装置1に対してエラー通知を行う。エラー通知は、アレイディスク101がフォルトしたことの通知である。
アレイディスク群の保守管理装置1は、送受信部11、フォルト数情報取得部12、故障率算出部13、閾値更新部14、ログ情報記憶部15、閾値記憶部16を備える。
送受信部11は、ディスク装置2から送信されたログ情報を受信して、受信したログ情報をログ情報記憶部15に記憶する。また、送受信部11は、閾値更新部14によって更新されたリカバリエラーの発生回数の閾値情報をディスク装置2に対して送信する。
送受信部11は、アレイディスク群の保守管理装置1のオペレータによって入力される、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置2に送信するか特定のディスク装置2に送信するかを示す選択情報に基づいて、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置2に送信し、または、特定のディスク装置2(例えば、当該閾値に対応する世代のアレイディスク101を備えるディスク装置2)に対して送信する。また、送受信部11は、ディスク装置2からエラー通知を受信して、オペレータに通知する。
フォルト数情報取得部12は、ログ情報記憶部15内に記憶されたログ情報に基づいて、フォルト数情報を取得する。具体的には、フォルト数情報取得部12はログ情報記憶部15からログ情報を抽出する。抽出されたログ情報中には、ディスク装置2内においてフォルトしたアレイディスク101の情報が含まれているので、フォルト数情報取得部12は、抽出されたログ情報に基づいて、フォルト数情報を取得する。
故障率算出部13は、フォルト数情報取得部12によって取得されたフォルト数情報に基づいて、アレイディスク101の故障率を各世代毎に算出する。故障率算出部13は、例えばアレイディスクの年間故障率(AFR:Annual failure Rate )を算出する。AFRの算出例については後述する。
閾値更新部14は、故障率算出部13によって算出されたアレイディスク101の故障率に基づいて、閾値記憶部16内に記憶されている各世代のアレイディスク101のリカバリエラーの発生回数の閾値を更新する。本発明の一実施例によれば、閾値更新部14は、リカバリエラーの種類毎に、各世代のアレイディスク101のリカバリエラーの発生回数の閾値を更新するようにしてもよい。
ログ情報記憶部15には、ディスク装置2から受信されたログ情報が記憶される。閾値記憶部16には、閾値更新部14によって更新されたリカバリエラーの発生回数の閾値が記憶される。
なお、上述したアレイディスク群の保守管理装置1及びその各部の機能は、CPUとその上で実行されるプログラムにより実現される。当該本発明を実現するプログラムは、コンピュータが読み取り可能な記録媒体、例えば半導体メモリ、ハードディスク、CD−ROM、DVD等に格納することができ、これらの記録媒体に記録して提供され、又は、通信インタフェースを介してネットワークを利用した送受信により提供される。
図2は、ディスク装置の構成の一例を示す図である。ここでは、ディスク装置2がRAID5の装置である場合を例にとって説明する。
ディスク装置2は、ディスク装置部20とRAIDコントローラ21とを備える。ディスク装置部20は、アレイディスク101およびHS102を備え、アレイディスク101のリダンダントコピー(アレイディスク101内のデータのHS102へのコピーおよび該アレイディスク101の切り離し)を行う。アレイディスク101のリダンダントコピーの例については、図3を参照して後述する。図2中の#1〜#4に示すアレイディスク101は、例えばRAID5を構成している。RAIDコントローラ21は、ファームウェアで構成されており、ディスク装置部20に対してリダンダントコピーを指示する。
RAIDコントローラ21は、エラー通知部201、ログ送信部202、送受信部203、リダンダントコピー指示部204、閾値記憶部205を備える。
エラー通知部201は、ディスク装置部20がアレイディスク101を切り離した時に、送受信部203を通じて、アレイディスク群の保守管理装置1に対してエラー通知を行う。
ログ送信部202は、送受信部203を通じて、ディスク装置2のログ情報をアレイディスク群の保守管理装置1に対して送信する。
送受信部203は、アレイディスク群の保守管理装置1に対してエラー通知を行い、また、ログ情報を送信する。また、送受信部203は、アレイディスク群の保守管理装置1からアレイディスク101のリカバリエラーの発生回数の閾値情報を受信して、閾値記憶部205に記憶する。
リダンダントコピー指示部204は、アレイディスク101のリカバリエラーの発生回数を監視し、該リカバリエラーの発生回数が閾値記憶部205に記憶された閾値を超えたと判断すると、ディスク装置部20に対してリダンダントコピーを指示する。
図3は、図2に示すディスク装置におけるリダンダントコピーの一例を示す図である。リダンダントコピー指示部204が、図3(A)中の#3に示すアレイディスク101のリカバリエラーの発生回数が閾値記憶部205に記憶されている閾値を超えたと判断すると、リダンダントコピー指示部204は、ディスク装置部20に対して#3に示すアレイディスク101を予防交換対象ドライブとして、リダンダントコピーを指示する。
該リダンダントコピーの指示を受けたディスク装置部20は、図3(A)中に示すように、#3に示すアレイディスク101内のデータをHS102にコピーするとともに、図3(B)中に示すように、該#3に示すアレイディスク101の切り離しと、HS102のRAID5への組み込みを行う。
図4は、アレイディスク群の保守管理装置によるアレイディスクの世代毎のAFRの算出例を説明する図である。ここでは、各世代のアレイディスク101が複数のフィールドに分散して配置されている場合を例にとって説明する。なお、フィールドとは、ディスク装置2の運用場所である。
図4(A)中に示すように、a世代、b世代、c世代、・・・といった各世代のアレイディスク101は、第1フィールド、第2フィールド、・・・といった複数のフィールドに分散して配置されている。
例えば、第1フィールドにおけるa世代のアレイディスク101の年間フォルト数がna1台、b世代のアレイディスク101の年間フォルト数がnb1台、c世代のアレイディスク101の年間フォルト数がnc1台、・・・である。また、例えば第2フィールドにおけるa世代のアレイディスク101の年間フォルト数がna2台、b世代のアレイディスク101の年間フォルト数がnb2台、c世代のアレイディスク101の年間フォルト数がnc2台、・・・である。上記各世代の年間フォルト数の情報は、ログ情報の一部として、各フィールドに配置されたディスク装置2からアレイディスク群の保守管理装置1に送信される。
アレイディスク群の保守管理装置1が備えるフォルト数情報取得部12は、上記各世代の年間フォルト数の情報を算出する。すなわち、フォルト数情報取得部12は、図4(B)に示すように、例えばa世代のアレイディスク101の年間フォルト数として、na1+na2+・・・、b世代のアレイディスク101の年間フォルト数として、nb1+nb2+・・・、c世代のアレイディスク101の年間フォルト数として、nc1+nc2+・・・を算出する。a世代、b世代、c世代以外の世代のアレイディスク101の年間フォルト数についても同様に算出される。
そして、図4(C)に示すように、故障率算出部13が、上記算出された各世代の年間フォルト数の情報に基づいて、所定のAFR算出式に基づいて、各世代のアレイディスクのAFRを算出する。
図5は、アレイディスク群の保守管理装置によるリカバリエラーの発生回数の閾値の更新処理の例を説明する図である。この例では、アレイディスク群の保守管理装置1が備える閾値更新部14が、図4を参照して前述したAFRの算出例に従って故障率算出部13が算出したアレイディスクの世代毎のAFRと、予め定められた該AFRの閾値の情報とを比較し、該比較結果に基づいて、各世代のリカバリエラーの発生回数の閾値を更新する。
より具体的には、閾値更新部14は、AFRが該AFRの閾値未満であると判断した場合には、該AFRに対応する世代のアレイディスク101についてのリカバリエラーの発生回数の閾値を更新せず、AFRが該AFRの閾値以上であると判断した場合には、該AFRに対応する世代のアレイディスク101についてのリカバリエラーの発生回数の閾値を、該AFRが該AFRの閾値を超える程度に応じた値に設定して減らす。閾値更新部14は、例えば、AFRが該AFRの閾値を超える程度が大きいほど、設定するリカバリエラーの発生回数の閾値を小さくする。
図5中に示すグラフの横軸はアレイディスク101の世代、縦軸はアレイディスク101の各世代に対応するAFRである。EtはAFRの閾値、Eaはa世代のアレイディスク101のAFR、Ebはb世代のアレイディスク101のAFR、Ecはc世代のアレイディスク101のAFRである。
閾値更新部14は、EaとEtとを比較し、EaがEt未満であると判断する。従って、閾値更新部14は、a世代のアレイディスクについてのリカバリエラーの発生回数の閾値を更新しない。
また、閾値更新部14は、EbとEtとを比較し、EbがEt以上であると判断する。従って、閾値更新部14は、b世代のアレイディスクについてのリカバリエラーの発生回数の閾値を、例えばEbからEtを減じた結果得られる値に応じた値に設定して減らす。 また、閾値更新部14は、EcとEtとを比較し、EcがEt以上であると判断する。従って、閾値更新部14は、c世代のアレイディスクについてのリカバリエラーの発生回数の閾値を、EcからEtを減じた結果得られる値に応じた値に設定して減らす。
本発明におけるリカバリエラーの発生回数の閾値の更新処理は、上述した処理に限定されない。本発明の一実施例によれば、閾値更新部14が、例えば、AFRが該AFRの閾値未満であると判断した場合には、該AFRに対応する世代のアレイディスク101についてのリカバリエラーの発生回数の閾値を増やし、AFRが該AFRの閾値と等しいと判断した場合には、該AFRに対応する世代のアレイディスク101についてのリカバリエラーの発生回数の閾値を更新せず、AFRが該AFRの閾値より大きいと判断した場合には、該AFRに対応する世代のアレイディスク101についてのリカバリエラーの発生回数の閾値を減らすようにしてもよい。
図6は、アレイディスク群の保守管理装置によるリカバリエラーの発生回数の閾値の更新処理フローの例を示す図である。
まず、アレイディスク群の保守管理装置1の送受信部11が、ディスク装置2からログ情報を受信して(ステップS1)、ログ情報記憶部15に記憶する。次に、フォルト数情報取得部12が、ログ情報記憶部15からログ情報を切り出す(ステップS2)。
フォルト数情報取得部12は、切り出したログ情報を解析して、フォルト数情報を取得する(ステップS3)。そして、故障率算出部13が、取得されたフォルト数情報に基づいて、各世代のアレイディスク101のAFRを算出する(ステップS4)。そして、故障率算出部13が、ステップS4において算出されたAFRが該AFRの閾値未満かを判断する(ステップS5)。
故障率算出部13が、AFRが該AFRの閾値未満であると判断した場合は、該AFRに対応する世代のアレイディスク101についてのリカバリエラーの発生回数の閾値に1を加えて(ステップS10)、ステップS8に進む。故障率算出部13が、AFRが該AFRの閾値未満でないと判断した場合は、故障率算出部13は、AFRが該AFRの閾値より大きいかを判断する(ステップS6)。
故障率算出部13が、AFRが該AFRの閾値より大きくない(すなわち、AFR=AFRの閾値である)と判断した場合、故障率算出部13は、該AFRに対応する世代のアレイディスク101についてのリカバリエラーの発生回数の閾値を更新しない(ステップS11)。故障率算出部13が、AFRが該AFRの閾値より大きいと判断した場合、故障率算出部13は、該AFRに対応する世代のアレイディスク101についてのリカバリエラーの発生回数の閾値から1を減じて(ステップS7)、ステップS8に進む。
次に、アレイディスク群の保守管理装置1のオペレータが、上記ステップS7またはステップS10において更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置2に送信するか特定のディスク装置2に送信するかを示す選択情報を送受信部11に対して入力すると、送受信部11は、入力された選択情報に基づいて、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置2に送信するか特定のディスク装置2に送信するかを判断する(ステップS8)。ステップS8において、送受信部11は、予め設定された上記選択情報に基づいて、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置2に送信するか特定のディスク装置2に送信するかを判断するようにしてもよい。
送受信部11が、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置2に送信すると判断した場合には、送受信部11は、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置2に対して送信する(ステップS9)。
送受信部11が、更新されたリカバリエラーの発生回数の閾値の情報を特定のディスク装置2に送信すると判断した場合には、送受信部11は、更新されたリカバリエラーの発生回数の閾値の情報を該特定のディスク装置2に対して送信する(ステップS12)。
以上、説明したように、本発明によれば、アレイディスクの予防交換の判定基準をアレイディスクの世代毎に動的に変更することができる。その結果、複数のディスク装置に分散して配置された各世代のアレイディスクを、世代毎に自動的に予防交換することが可能となる。
本発明のアレイディスク群の保守管理システムの構成の一例を示す図である。 ディスク装置の構成の一例を示す図である。 ディスク装置におけるリダンダントコピーの一例を示す図である。 アレイディスクの世代毎のAFRの算出例を説明する図である。 リカバリエラーの発生回数の閾値の更新処理の例を説明する図である。 リカバリエラーの発生回数の閾値の更新処理フローの例を示す図である。
符号の説明
1 アレイディスク群の保守管理装置
2 ディスク装置
3 通信手段
11 送受信部
12 フォルト数情報取得部
13 故障率算出部
14 閾値更新部
15 ログ情報記憶部
16、205 閾値記憶部
20 ディスク装置部
21 RAIDコントローラ
100 保守要員
101 アレイディスク
102 HS
201 エラー通知部
202 ログ送信部
203 送受信部
204 リダンダントコピー指示部

Claims (6)

  1. アレイディスク群の保守管理システムであって、
    上記アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と、
    上記複数のディスク装置と通信手段で接続され、上記複数のディスク装置を集中監視する集中監視装置とを備え、
    上記集中監視装置は、
    上記複数のディスク装置からログ情報を取得するログ情報取得手段と、
    上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するフォルト数情報取得手段と、
    上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する故障率算出手段と、
    上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する閾値更新手段とを備える
    ことを特徴とするアレイディスク群の保守管理システム。
  2. 上記複数のディスク装置は、上記アレイディスクのリカバリエラーの発生回数が上記所定の閾値を超えた時に、該アレイディスク内のデータを予備のアレイディスクにコピーして、該アレイディスクの切り離しを行う
    ことを特徴とする請求項1に記載のアレイディスク群の保守管理システム。
  3. 上記閾値更新手段は、上記算出されたアレイディスクの世代毎の故障率と故障率についての所定の閾値とを比較し、該アレイディスクの世代毎の故障率と故障率についての所定の閾値との比較結果に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての所定の閾値を更新する
    ことを特徴とする請求項1に記載のアレイディスク群の保守管理システム。
  4. アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と通信手段で接続される、アレイディスク群の保守管理装置であって、
    上記複数のディスク装置からログ情報を取得するログ情報取得手段と、
    上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するフォルト数情報取得手段と、
    上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する故障率算出手段と、
    上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する閾値更新手段とを備える
    ことを特徴とするアレイディスク群の保守管理装置。
  5. アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と通信手段で接続される、アレイディスク群の保守管理装置におけるアレイディスク群の保守管理方法であって、
    上記複数のディスク装置からログ情報を取得するステップと、
    上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するステップと、
    上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出するステップと、
    上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新するステップとからなる
    ことを特徴とするアレイディスク群の保守管理方法。
  6. アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と通信手段で接続される、アレイディスク群の保守管理装置におけるアレイディスク群の保守管理プログラムであって、
    コンピュータに、
    上記複数のディスク装置からログ情報を取得する処理と、
    上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得する処理と、
    上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する処理と、
    上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する処理とを実行させる
    ことを特徴とするアレイディスク群の保守管理プログラム。
JP2007004294A 2007-01-12 2007-01-12 アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム Expired - Fee Related JP4854522B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007004294A JP4854522B2 (ja) 2007-01-12 2007-01-12 アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007004294A JP4854522B2 (ja) 2007-01-12 2007-01-12 アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム

Publications (2)

Publication Number Publication Date
JP2008171231A JP2008171231A (ja) 2008-07-24
JP4854522B2 true JP4854522B2 (ja) 2012-01-18

Family

ID=39699262

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007004294A Expired - Fee Related JP4854522B2 (ja) 2007-01-12 2007-01-12 アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム

Country Status (1)

Country Link
JP (1) JP4854522B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5663981B2 (ja) * 2010-07-01 2015-02-04 富士通株式会社 ストレージ装置、ストレージ装置のコントローラおよびストレージ装置の制御方法
CN103297264B (zh) * 2013-04-19 2017-04-12 无锡成电科大科技发展有限公司 一种云平台故障恢复方法和系统
JP2015184858A (ja) * 2014-03-24 2015-10-22 日本電気株式会社 ディスクアレイシステム、方法、及び、プログラム
JP6787649B2 (ja) * 2014-11-25 2020-11-18 日本電気株式会社 保守管理システム、保守管理方法および保守管理プログラム
JP6499038B2 (ja) * 2015-08-04 2019-04-10 株式会社東芝 ストレージ管理装置、方法、及びストレージシステム
JP7306127B2 (ja) * 2019-07-19 2023-07-11 セイコーエプソン株式会社 情報処理装置の制御方法、プログラム、および通信システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3681766B2 (ja) * 1994-01-10 2005-08-10 富士通株式会社 ディスクアレイ装置
JP2004227449A (ja) * 2003-01-27 2004-08-12 Hitachi Ltd ディスクアレイ装置における障害の診断装置
JP2005004869A (ja) * 2003-06-11 2005-01-06 Adtex:Kk 記録装置、記録データ管理方法、及びプログラム

Also Published As

Publication number Publication date
JP2008171231A (ja) 2008-07-24

Similar Documents

Publication Publication Date Title
JP4854522B2 (ja) アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム
EP2672387B1 (en) A distributed object storage system
US7809983B2 (en) Storage system that finds occurrence of power source failure
US7409582B2 (en) Low cost raid with seamless disk failure recovery
US20070079170A1 (en) Data migration in response to predicted disk failure
JP5296878B2 (ja) 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム)
CN101960429B (zh) 视频媒体数据存储系统以及相关方法
JP4747203B2 (ja) ディスクアレイ装置、ディスクアレイ装置制御プログラム及びディスクアレイ装置制御方法
US20230136274A1 (en) Ceph Media Failure and Remediation
JP2010224954A (ja) ストレージ装置及び論理ディスク管理方法
US20070234107A1 (en) Dynamic storage data protection
JP4973703B2 (ja) 故障検出方法及び監視装置
JP5995265B2 (ja) 情報処理システム、保守方法及びプログラム
JP2006164304A (ja) ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法
JP6996602B1 (ja) Bmc、サーバシステム、装置安定度判定方法及びプログラム
JP2011123808A (ja) プラント制御システム及びその不良発生判定方法
JP7273669B2 (ja) ストレージシステム及びその制御方法
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
JP2011180673A (ja) ディスク劣化診断装置
JP2007334770A (ja) Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム
JP5532687B2 (ja) 情報処理システム、情報処理システムの障害対応機構、及び情報処理システムの障害対応方法
JP2016038656A (ja) 接続監視装置、接続監視プログラムおよび接続監視方法
JP4893180B2 (ja) 記憶装置の故障回復方法、故障回復プログラムおよび制御装置
JP5951520B2 (ja) 多重系処理システム
JP2009015553A (ja) 記憶装置およびプログラムおよびメモリ故障救済方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111025

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4854522

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees