JP4854522B2 - アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム - Google Patents
アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム Download PDFInfo
- Publication number
- JP4854522B2 JP4854522B2 JP2007004294A JP2007004294A JP4854522B2 JP 4854522 B2 JP4854522 B2 JP 4854522B2 JP 2007004294 A JP2007004294 A JP 2007004294A JP 2007004294 A JP2007004294 A JP 2007004294A JP 4854522 B2 JP4854522 B2 JP 4854522B2
- Authority
- JP
- Japan
- Prior art keywords
- array
- disk
- array disk
- generation
- maintenance management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
上記ディスク装置として、冗長構成のアレイディスク装置が使用されている場合、ディスクが故障(フォルト)しても、予備のディスクであるHS(Hot Spare)にデータをコピーすることにより、運用を継続することが可能である。
上記システムにおいて、従来においては例えば以下のようにして、各フィールドに設置されたディスク装置の保守管理を行っている。
上記通知を受けたセンタでは、CE(カスタマーエンジニア)に対して該ディスク装置の保守を指示する。CEは保守部品などを準備し、フォルトが発生したディスクが設置された場所に行き、ディスクを交換するなどの保守を行う。なお、ここでは、ディスクのフォルトとは、ディスクがリカバリ不能な程度に故障することをいう。
ディスクを予防交換する技術としては、例えば特許文献1に記載のものが知られている。特許文献1に記載のものは、ディスクのエラー情報を取得して所定のファイルに記録し、所得したエラー情報を統計分析することにより、障害発生前に予防交換すべきかを判断し、ディスク障害が発生する前に、自動的に正常なディスクを使用したアレイディスクに組み変えるようにしたものである。
例えば、代替可能な同様な性能のディスクであっても、ある時期に提供されたディスクより、これより前あるいは後に提供されたディスクの方が信頼性が高いという場合も多々ある。以下では、上述したように、信頼性が変わらないと考えられる同じような時期に開発・提供された性能、容量、用途等に応じて分類される一連のディスク群の単位をそれぞれ世代と表現する。すなわち、異なる世代のディスクとは、信頼性が異なっていると考えられる、異なる時期に開発・提供時期されたディスクを意味する。
従って、前述したようなディスクの予防交換を行うに際しては、ディスクの世代を考慮して信頼性の低い世代のディスクは早めに交換するなどの措置を講ずることが望ましい。
しかし、監視すべきアレイディスク装置が多数あり、ディスクの世代数が多く、さらにアレイディスク装置に、世代の異なるディスクが混在して使用されているような場合には、上述したように人手により世代毎にディスクの信頼性を認識し、予防交換を行うことは困難である。
本発明は、上述した問題点を解決するためになされたものであって、アレイディスク装置群の保守管理を行うに際し、世代毎の信頼性を考慮してディスクの予防交換が行えるようにし、各フィールドに設置されたアレイディスク装置の信頼性を向上させることを目的とする。
上記において、本発明では、集中監視装置と各場所に設置されたアレイディスク装置とを通信手段で接続し、集中監視装置で、アレイディスク装置からエラー情報などのログ情報を取得し、上記ログ情報から各アレイディスク装置におけるディスクのフォルト(リカバリできない故障)数を得て、このフォルト数からディスクの世代毎の故障率を算出する。
そして、算出されたディスクの世代毎の故障率に基づき、各アレイディスク装置における上記閾値を更新する。例えば、ある世代のディスクの故障率が高い場合には、該ディスクが組み込まれているアレイディスク装置における当該ディスクの閾値を下げ、リカバリエラーの発生回数が比較的少ない場合でも、予防交換されるようにする。
このように、世代毎のディスクの故障率に基づき、予防交換するか否かを判定する判定基準である閾値を更新することにより、故障率が高い世代のディスクは早めに予防交換されることになり、リカバリできない故障が発生する率を低下させることができ、アレイディスク装置全体の信頼性を向上させることができる。
(1)アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と、上記複数のディスク装置と通信手段で接続され、上記複数のディスク装置を集中監視する集中監視装置とを備えるアレイディスク群の保守管理システムを設ける。
そして、上記集中監視装置は、上記複数のディスク装置からログ情報を取得するログ情報取得手段と、上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するフォルト数情報取得手段と、上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する故障率算出手段と、上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する閾値更新手段とを備える。
(2)上記複数のディスク装置は、上記アレイディスクのリカバリエラーの発生回数が上記所定の閾値を超えた時に、該アレイディスク内のデータを予備のアレイディスクにコピーして、該アレイディスクの切り離しを行う。
(3)上記閾値更新手段は、上記算出されたアレイディスクの世代毎の故障率と故障率についての所定の閾値とを比較し、該アレイディスクの世代毎の故障率と故障率についての所定の閾値との比較結果に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての所定の閾値を更新する。
また、上記複数のディスク装置は、上記アレイディスクのリカバリエラーの発生回数が上記所定の閾値を超えた時に、該アレイディスク内のデータを予備のアレイディスクにコピーして、該アレイディスクの切り離しを行う(予防交換を行う)。
このため、故障率が高い世代のディスクは早めに予防交換されることになり、リカバリできない故障が発生する率を低下させることができ、アレイディスク装置の信頼性を向上させることができる。
また、アレイディスク群の保守管理装置1は、ディスク装置2から後述するエラー通知を受信して、アレイディスク群の保守管理装置1のオペレータ(図示を省略)に通知する。当該通知を受けたオペレータは、ディスク装置2の保守要員100に対してメール通知や電話連絡等して、上記エラー通知の送信元であるディスク装置2の保守を行わせる。
ディスク装置2は、ログ情報をアレイディスク群の保守管理装置1に対して送信する。上記ログ情報には、ディスク装置2が備えるアレイディスク101のうち、フォルトしたアレイディスクの情報が含まれている。また、該ログ情報には、例えば、後述するアレイディスク101のリカバリエラーの種類の情報が含まれている。
また、ディスク装置2は、アレイディスク101のリカバリエラーの発生回数が閾値記憶部205に記憶された閾値を超えた時に、該アレイディスク101の予防交換を行う。すなわち、閾値記憶部205に記憶された閾値は、アレイディスクの予防交換の判定基準である。
ディスク装置2は、フォルト扱いとしたアレイディスク101を切り離した後に、アレイディスク群の保守管理装置1に対してエラー通知を行う。エラー通知は、アレイディスク101がフォルトしたことの通知である。
送受信部11は、ディスク装置2から送信されたログ情報を受信して、受信したログ情報をログ情報記憶部15に記憶する。また、送受信部11は、閾値更新部14によって更新されたリカバリエラーの発生回数の閾値情報をディスク装置2に対して送信する。
送受信部11は、アレイディスク群の保守管理装置1のオペレータによって入力される、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置2に送信するか特定のディスク装置2に送信するかを示す選択情報に基づいて、更新されたリカバリエラーの発生回数の閾値の情報を全てのディスク装置2に送信し、または、特定のディスク装置2(例えば、当該閾値に対応する世代のアレイディスク101を備えるディスク装置2)に対して送信する。また、送受信部11は、ディスク装置2からエラー通知を受信して、オペレータに通知する。
故障率算出部13は、フォルト数情報取得部12によって取得されたフォルト数情報に基づいて、アレイディスク101の故障率を各世代毎に算出する。故障率算出部13は、例えばアレイディスクの年間故障率(AFR:Annual failure Rate )を算出する。AFRの算出例については後述する。
ログ情報記憶部15には、ディスク装置2から受信されたログ情報が記憶される。閾値記憶部16には、閾値更新部14によって更新されたリカバリエラーの発生回数の閾値が記憶される。
ディスク装置2は、ディスク装置部20とRAIDコントローラ21とを備える。ディスク装置部20は、アレイディスク101およびHS102を備え、アレイディスク101のリダンダントコピー(アレイディスク101内のデータのHS102へのコピーおよび該アレイディスク101の切り離し)を行う。アレイディスク101のリダンダントコピーの例については、図3を参照して後述する。図2中の#1〜#4に示すアレイディスク101は、例えばRAID5を構成している。RAIDコントローラ21は、ファームウェアで構成されており、ディスク装置部20に対してリダンダントコピーを指示する。
エラー通知部201は、ディスク装置部20がアレイディスク101を切り離した時に、送受信部203を通じて、アレイディスク群の保守管理装置1に対してエラー通知を行う。
ログ送信部202は、送受信部203を通じて、ディスク装置2のログ情報をアレイディスク群の保守管理装置1に対して送信する。
リダンダントコピー指示部204は、アレイディスク101のリカバリエラーの発生回数を監視し、該リカバリエラーの発生回数が閾値記憶部205に記憶された閾値を超えたと判断すると、ディスク装置部20に対してリダンダントコピーを指示する。
例えば、第1フィールドにおけるa世代のアレイディスク101の年間フォルト数がna1台、b世代のアレイディスク101の年間フォルト数がnb1台、c世代のアレイディスク101の年間フォルト数がnc1台、・・・である。また、例えば第2フィールドにおけるa世代のアレイディスク101の年間フォルト数がna2台、b世代のアレイディスク101の年間フォルト数がnb2台、c世代のアレイディスク101の年間フォルト数がnc2台、・・・である。上記各世代の年間フォルト数の情報は、ログ情報の一部として、各フィールドに配置されたディスク装置2からアレイディスク群の保守管理装置1に送信される。
そして、図4(C)に示すように、故障率算出部13が、上記算出された各世代の年間フォルト数の情報に基づいて、所定のAFR算出式に基づいて、各世代のアレイディスクのAFRを算出する。
また、閾値更新部14は、EbとEtとを比較し、EbがEt以上であると判断する。従って、閾値更新部14は、b世代のアレイディスクについてのリカバリエラーの発生回数の閾値を、例えばEbからEtを減じた結果得られる値に応じた値に設定して減らす。 また、閾値更新部14は、EcとEtとを比較し、EcがEt以上であると判断する。従って、閾値更新部14は、c世代のアレイディスクについてのリカバリエラーの発生回数の閾値を、EcからEtを減じた結果得られる値に応じた値に設定して減らす。
まず、アレイディスク群の保守管理装置1の送受信部11が、ディスク装置2からログ情報を受信して(ステップS1)、ログ情報記憶部15に記憶する。次に、フォルト数情報取得部12が、ログ情報記憶部15からログ情報を切り出す(ステップS2)。
フォルト数情報取得部12は、切り出したログ情報を解析して、フォルト数情報を取得する(ステップS3)。そして、故障率算出部13が、取得されたフォルト数情報に基づいて、各世代のアレイディスク101のAFRを算出する(ステップS4)。そして、故障率算出部13が、ステップS4において算出されたAFRが該AFRの閾値未満かを判断する(ステップS5)。
送受信部11が、更新されたリカバリエラーの発生回数の閾値の情報を特定のディスク装置2に送信すると判断した場合には、送受信部11は、更新されたリカバリエラーの発生回数の閾値の情報を該特定のディスク装置2に対して送信する(ステップS12)。
2 ディスク装置
3 通信手段
11 送受信部
12 フォルト数情報取得部
13 故障率算出部
14 閾値更新部
15 ログ情報記憶部
16、205 閾値記憶部
20 ディスク装置部
21 RAIDコントローラ
100 保守要員
101 アレイディスク
102 HS
201 エラー通知部
202 ログ送信部
203 送受信部
204 リダンダントコピー指示部
Claims (6)
- アレイディスク群の保守管理システムであって、
上記アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と、
上記複数のディスク装置と通信手段で接続され、上記複数のディスク装置を集中監視する集中監視装置とを備え、
上記集中監視装置は、
上記複数のディスク装置からログ情報を取得するログ情報取得手段と、
上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するフォルト数情報取得手段と、
上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する故障率算出手段と、
上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する閾値更新手段とを備える
ことを特徴とするアレイディスク群の保守管理システム。 - 上記複数のディスク装置は、上記アレイディスクのリカバリエラーの発生回数が上記所定の閾値を超えた時に、該アレイディスク内のデータを予備のアレイディスクにコピーして、該アレイディスクの切り離しを行う
ことを特徴とする請求項1に記載のアレイディスク群の保守管理システム。 - 上記閾値更新手段は、上記算出されたアレイディスクの世代毎の故障率と故障率についての所定の閾値とを比較し、該アレイディスクの世代毎の故障率と故障率についての所定の閾値との比較結果に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての所定の閾値を更新する
ことを特徴とする請求項1に記載のアレイディスク群の保守管理システム。 - アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と通信手段で接続される、アレイディスク群の保守管理装置であって、
上記複数のディスク装置からログ情報を取得するログ情報取得手段と、
上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するフォルト数情報取得手段と、
上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する故障率算出手段と、
上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する閾値更新手段とを備える
ことを特徴とするアレイディスク群の保守管理装置。 - アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と通信手段で接続される、アレイディスク群の保守管理装置におけるアレイディスク群の保守管理方法であって、
上記複数のディスク装置からログ情報を取得するステップと、
上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得するステップと、
上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出するステップと、
上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新するステップとからなる
ことを特徴とするアレイディスク群の保守管理方法。 - アレイディスク群に含まれるアレイディスクのリカバリエラーの発生回数が所定の閾値を超えた時に該アレイディスクの予防交換を行う複数のディスク装置と通信手段で接続される、アレイディスク群の保守管理装置におけるアレイディスク群の保守管理プログラムであって、
コンピュータに、
上記複数のディスク装置からログ情報を取得する処理と、
上記取得されたログ情報からフォルトしたアレイディスクの数の情報を取得する処理と、
上記取得されたフォルトしたアレイディスクの数の情報に基づいて、上記アレイディスクの世代毎の故障率を算出する処理と、
上記算出されたアレイディスクの世代毎の故障率に基づいて、各世代のアレイディスクのリカバリエラーの発生回数についての上記所定の閾値を更新する処理とを実行させる
ことを特徴とするアレイディスク群の保守管理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007004294A JP4854522B2 (ja) | 2007-01-12 | 2007-01-12 | アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007004294A JP4854522B2 (ja) | 2007-01-12 | 2007-01-12 | アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008171231A JP2008171231A (ja) | 2008-07-24 |
JP4854522B2 true JP4854522B2 (ja) | 2012-01-18 |
Family
ID=39699262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007004294A Expired - Fee Related JP4854522B2 (ja) | 2007-01-12 | 2007-01-12 | アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4854522B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5663981B2 (ja) * | 2010-07-01 | 2015-02-04 | 富士通株式会社 | ストレージ装置、ストレージ装置のコントローラおよびストレージ装置の制御方法 |
CN103297264B (zh) * | 2013-04-19 | 2017-04-12 | 无锡成电科大科技发展有限公司 | 一种云平台故障恢复方法和系统 |
JP2015184858A (ja) * | 2014-03-24 | 2015-10-22 | 日本電気株式会社 | ディスクアレイシステム、方法、及び、プログラム |
JP6787649B2 (ja) * | 2014-11-25 | 2020-11-18 | 日本電気株式会社 | 保守管理システム、保守管理方法および保守管理プログラム |
JP6499038B2 (ja) * | 2015-08-04 | 2019-04-10 | 株式会社東芝 | ストレージ管理装置、方法、及びストレージシステム |
JP7306127B2 (ja) * | 2019-07-19 | 2023-07-11 | セイコーエプソン株式会社 | 情報処理装置の制御方法、プログラム、および通信システム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3681766B2 (ja) * | 1994-01-10 | 2005-08-10 | 富士通株式会社 | ディスクアレイ装置 |
JP2004227449A (ja) * | 2003-01-27 | 2004-08-12 | Hitachi Ltd | ディスクアレイ装置における障害の診断装置 |
JP2005004869A (ja) * | 2003-06-11 | 2005-01-06 | Adtex:Kk | 記録装置、記録データ管理方法、及びプログラム |
-
2007
- 2007-01-12 JP JP2007004294A patent/JP4854522B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008171231A (ja) | 2008-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4854522B2 (ja) | アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム | |
EP2672387B1 (en) | A distributed object storage system | |
US7809983B2 (en) | Storage system that finds occurrence of power source failure | |
US7409582B2 (en) | Low cost raid with seamless disk failure recovery | |
US20070079170A1 (en) | Data migration in response to predicted disk failure | |
JP5296878B2 (ja) | 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム) | |
CN101960429B (zh) | 视频媒体数据存储系统以及相关方法 | |
JP4747203B2 (ja) | ディスクアレイ装置、ディスクアレイ装置制御プログラム及びディスクアレイ装置制御方法 | |
US20230136274A1 (en) | Ceph Media Failure and Remediation | |
JP2010224954A (ja) | ストレージ装置及び論理ディスク管理方法 | |
US20070234107A1 (en) | Dynamic storage data protection | |
JP4973703B2 (ja) | 故障検出方法及び監視装置 | |
JP5995265B2 (ja) | 情報処理システム、保守方法及びプログラム | |
JP2006164304A (ja) | ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法 | |
JP6996602B1 (ja) | Bmc、サーバシステム、装置安定度判定方法及びプログラム | |
JP2011123808A (ja) | プラント制御システム及びその不良発生判定方法 | |
JP7273669B2 (ja) | ストレージシステム及びその制御方法 | |
KR20140140719A (ko) | 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법 | |
JP2011180673A (ja) | ディスク劣化診断装置 | |
JP2007334770A (ja) | Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム | |
JP5532687B2 (ja) | 情報処理システム、情報処理システムの障害対応機構、及び情報処理システムの障害対応方法 | |
JP2016038656A (ja) | 接続監視装置、接続監視プログラムおよび接続監視方法 | |
JP4893180B2 (ja) | 記憶装置の故障回復方法、故障回復プログラムおよび制御装置 | |
JP5951520B2 (ja) | 多重系処理システム | |
JP2009015553A (ja) | 記憶装置およびプログラムおよびメモリ故障救済方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111025 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111025 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141104 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4854522 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |