JP2007241837A - ディスクアレイ制御装置および故障診断方法 - Google Patents

ディスクアレイ制御装置および故障診断方法 Download PDF

Info

Publication number
JP2007241837A
JP2007241837A JP2006065760A JP2006065760A JP2007241837A JP 2007241837 A JP2007241837 A JP 2007241837A JP 2006065760 A JP2006065760 A JP 2006065760A JP 2006065760 A JP2006065760 A JP 2006065760A JP 2007241837 A JP2007241837 A JP 2007241837A
Authority
JP
Japan
Prior art keywords
error
rank
storage unit
identification information
port
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006065760A
Other languages
English (en)
Inventor
Masaya Suenaga
雅也 末永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006065760A priority Critical patent/JP2007241837A/ja
Publication of JP2007241837A publication Critical patent/JP2007241837A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】故障している可能性が高いディスク装置を適切に特定することが可能なディスクアレイ制御装置を提供する。
【解決手段】エラー情報管理部7は、識別情報と記憶部4にて関連づけられたエラー発生回数と、記憶部4に記憶されたエラー発生回数と、にそれぞれ重みを付加する。エラー情報管理部7は、ディスク装置のエラー数を、各重みが付加されたエラー発生回数の和をとして算出する。また、エラー情報管理部7は、そのエラー数が基準数以上か否かを判断する。スペアディスク診断部9は、エラー情報管理部7にてエラー数が基準数以上と判断されると、そのエラー数のディスク装置が故障しているか否かを診断する。
【選択図】図1

Description

本発明は、複数の記憶装置に並列的にデータを転送するディスクアレイ制御装置および故障診断方法に関する。
従来、複数の記憶装置と、制御装置とを含むシステムが知られている。制御装置は、ホストからデータの転送(読み書き)が指示されると、そのデータを各記憶装置に並列的に転送する。これにより、1台の記憶装置にデータが転送される場合に比べて、データを転送する速度を向上させることが可能になっている。
このようなシステムは、ディスクアレイシステムと呼ばれる。ディスクアレイシステムには、例えば、RAIDがある。また、記憶装置として、例えば、ディスク装置が用いられる。
また、記憶装置が故障して障害が発生すると、その記憶装置のデータを読み出すことができない。
ディスクアレイシステムでは、ホストから転送が指示されたデータに加え、パリティデータなどの冗長データがさらに記憶装置に記憶される。制御装置は、記憶装置の一つに障害が発生して、その記憶装置に記憶されたデータを読み出せなくても、その記憶装置に記憶されたデータを、冗長データを用いて、復元することが可能である。このため、ディスクアレイシステムでは、記憶装置の耐障害性を向上させることが可能になっている。
しかしながら、ディスクアレイシステムでは、記憶装置の二つ以上に障害が発生すると、データを復元することができない。このため、記憶装置に障害が発生する前に故障している記憶装置を発見するために、制御装置が、記憶装置の故障診断(故障しているか否かの診断)を行う技術が数多く提案されている。
しかしながら、制御装置が全ての記憶装置の故障診断を行うと、故障している記憶装置を発見する効率が悪い。このため、制御装置が、故障している可能性が高い記憶装置を、故障診断を行う前に予想し、その故障している可能性が高いと予想された記憶装置の故障診断だけを行うことが望ましい。
特許文献1(特開2004−227449号公報)には、故障診断を行うディスク装置を、そのディスク装置の動作履歴に基づいて特定するディスクアレイ装置が記載されている。このディスクアレイ装置では、各ディスク装置の動作履歴に基づいて、ディスク装置のエラー発生回数(および、その増加率)が、ディスク装置ごとに算出される。そのエラー発生回数(増加率)が所定の上限値以上であると、ディスクアレイ装置は、故障している可能性が高いと判断する。また、そのディスク装置の故障診断が行われる。
これにより、故障している記憶装置を発見する効率が向上されている。
特開2004−227449号公報
個々の記憶装置のエラー発生回数が少なくても、ランクのエラー発生回数(ランクに所属する記憶装置のエラー発生回数の和)が多いと、そのランクに所属する記憶装置が故障している可能性が高い。
特許文献1に記載のディスクアレイ装置では、個々のディスク装置のエラー発生回数が所定の上限値より小さいと、ランクのエラー発生回数が多くても、そのランクのディスク装置の故障診断は、行われない。
このため、障害の発生を事前に防ぐことができない場合がある。
本発明の目的は、故障している可能性が高い記憶装置を適切に特定することが可能なディスクアレイ制御装置および故障診断方法を提供することである。
前記目的を達成するために、本発明のディスクアレイ制御装置は、ランクを構成する複数の記憶装置と接続されたディスクアレイ制御装置であって、前記記憶装置を特定する識別情報と、該記憶装置のエラー発生回数と、を前記識別情報ごとに関連づけて記憶する装置エラー記憶部と、前記ランクのエラー発生回数を記憶するランクエラー記憶部と、前記記憶装置のエラー発生回数に付加する重みと、前記ランクのエラー発生回数に付加する重みとを記憶する重み記憶部と、基準数を記憶する基準記憶部と、前記記憶装置のエラー数を、識別情報と前記装置エラー記憶部にて関連づけられたエラー発生回数と、前記ランクエラー記憶部に記憶されたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出し、該エラー数が前記基準数以上か否かを判断するエラー管理部と、前記エラー管理部にて前記エラー数が前記基準数以上と判断されると、該エラー数の記憶装置が故障しているか否かを診断する診断部と、を含む。
また、本発明の故障診断方法は、ランクを構成する記憶装置を特定する識別情報と該記憶装置のエラー発生回数とを前記識別情報ごとに関連づけて記憶する装置エラー記憶部と、前記ランクのエラー発生回数を記憶するランクエラー記憶部と、前記記憶装置のエラー発生回数に付加する重みと前記ランクのエラー発生回数に付加する重みとを記憶する重み記憶部と、基準数を記憶する基準記憶部と、を含み、各記憶装置と接続されたディスクアレイ制御装置が行う故障診断方法であって、前記記憶装置のエラー数を、識別情報と前記装置エラー記憶部にて関連づけられたエラー発生回数と、前記ランクエラー記憶部に記憶されたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出する算出ステップと、前記エラー数が前記基準数以上か否かを判断する判断ステップと、前記エラー数が前記基準数以上と判断されると、該エラー数の記憶装置が故障しているか否かを診断する診断ステップと、を含む。
上記の発明によれば、記憶装置のエラー発生回数と、ランクのエラー発生回数とにそれぞれ重みが付加される。記憶装置のエラー数が、重みが付加されたエラー発生回数の和として算出される。また、そのエラー数が基準数以上であると、その記憶装置が故障しているか否かが診断される。
このため、記憶装置の(重みが付加された)エラー発生回数が基準数未満でも、ランクのエラー発生回数が多くて、エラー数が基準数以上になると、その記憶装置が故障しているか否かが診断される。よって、故障している可能性が高く、かつ、エラー発生回数が少ない記憶装置でも、その記憶装置が故障している可能性が高いと判断することが可能になる。したがって、故障している可能性が高い記憶装置を適切に特定することが可能になる。
また、前記ランクは、複数あり、前記識別情報と、該識別情報にて特定される記憶装置のランクと、を前記識別情報ごとに記憶するランク管理記憶部をさらに含み、前記ランクエラー記憶部は、前記ランクと、該ランクのエラー発生回数と、を前記ランクごとに関連づけて記憶し、前記エラー管理部は、前記記憶装置のエラー数を、前記識別情報に前記装置エラー記憶部にて関連づけられたエラー発生回数と、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出することが望ましい。
上記の発明によれば、記憶装置のエラー発生回数と、該記憶装置のランクのエラー発生回数とに重みが付加される。また、記憶装置のエラー数が、重みが付加されたエラー発生回数の和として算出される。
このため、ランクが複数ある場合でも、故障している可能性が高い記憶装置を適切に特定することが可能になる。
また、前記識別情報と、該識別情報にて特定される記憶装置のポートと、を前記識別情報ごとに関連づけて記憶するポート管理記憶部と、前記ポートと、該ポートのエラー発生回数と、を前記ポートごとに関連づけて記憶するポートエラー記憶部と、をさらに含み、前記重み記憶部は、前記ポートのエラー発生回数に付加する重みをさらに記憶し、前記エラー管理部は、前記記憶装置のエラー数を、該記憶装置を特定する識別情報に前記装置エラー記憶部にて関連づけられたエラー発生回数と、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラー発生回数と、該識別情報と前記ポート管理記憶部にて関連づけられたポートと前記ポートエラー記憶部にて関連づけられたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出することが望ましい。
個々の記憶装置のエラー発生回数が少なくても、ポートのエラー発生回数(同じポートの記憶装置のエラー発生回数の和)が多いと、そのポートの記憶装置が故障している可能性が高い。
上記の発明によれば、記憶装置のエラー発生回数と、該記憶装置のランクのエラー発生回数と、該記憶装置のポートのエラー発生回数にそれぞれ重みが付加される。また、記憶装置のエラー数が、重みが付加されたエラー発生回数の和として算出される。
このため、記憶装置およびランクの(重みが付加された)エラー発生回数の和が基準数未満でも、ポートのエラー発生回数が多くて、エラー数が基準数以上になると、その記憶装置の故障診断が行われる。よって、故障している可能性が高く、かつ、エラー発生回数の少ない記憶装置でも、故障している可能性が高いと判断することが可能になる。したがって、故障している可能性が高い記憶装置を適切に特定することが可能になる。
また、前記装置エラー記憶部は、前記識別情報と、該識別情報にて特定される記憶装置で発生したエラーの種別と、該種別のエラー発生回数と、を前記識別情報ごとに関連づけて記憶し、前記ランクエラー記憶部は、前記ランクと、該ランクの記憶装置で発生したエラーの種別と、該種別のエラー発生回数と、を前記ランクごとに関連づけて記憶し、前記ポートエラー記憶部は、前記ポートと、該ポートの記憶装置で発生したエラーの種別と、該種別のエラー発生回数と、を前記ポートごとに関連づけて記憶し、前記重み記憶部は、前記記憶装置、前記ランクおよび前記ポートに付加する重みを前記エラーの種別ごとに記憶し、前記エラー管理部は、前記記憶装置のエラー数を、該記憶装置を特定する識別情報と前記装置エラー記憶部にて関連づけられたエラー発生回数を、該エラー発生回数と前記装置エラー記憶部にて関連づけられたエラーの種別ごとに前記重みを付加し、かつ、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラー発生回数を、該エラー発生回数と前記ランクエラー記憶部にて関連づけられたエラーの種別ごとに前記重みを付加し、かつ、該識別情報と前記ポート管理記憶部にて関連づけられたポートと前記ポートエラー記憶部にて関連づけられたエラー発生回数を、該エラー発生回数と前記ポートエラー記憶部にて関連づけられたエラーの種別ごとに前記重みを付加し、その後、各重みが付加されたエラー発生回数の和として算出することが望ましい。
同じエラー発生回数でも、エラーの種別に応じて、エラーの発生した記憶装置が故障している可能性は異なる。
上記の発明によれば、識別情報と関連づけられたエラー発生回数に、該エラー発生回数と関連づけられたエラーの種別ごとに重みが付加される。また、該識別情報と関連づけられたランクと関連づけられたエラー発生回数に、該エラー発生回数と関連づけられたエラーの種別ごとに重みが付加される。さらに、該識別情報と関連づけられたポートと関連づけられたエラー発生回数を、該エラー発生回数と関連づけられたエラーの種別ごとに重みが付加される。その後、記憶装置のエラー数が、各重みが付加されたエラー発生回数の和として算出される。
このため、エラーの種別に応じて、故障している可能性の高い記憶装置を特定するのに適切な重みが設定されていれば、故障している可能性が高い記憶装置を適切に特定することが可能になる。
また、エラー管理部は、前記診断部にて前記記憶装置が故障と診断されると、該故障と診断された記憶装置を特定する識別情報と前記装置エラー記憶部にて関連づけられたエラーの種別および発生回数と、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラーの種別および発生回数と、該識別情報と前記ポート管理記憶部にて関連づけられたポートと前記ポートエラー記憶部にて関連づけられたエラーの種別および発生回数とに基づいて、前記重み記憶部に記憶された重みを変更することが望ましい。
故障していると判断された記憶装置において、特定の種別のエラー発生回数が多い場合、その種別のエラーは、重大なエラーであると考えられる。
上記の発明によれば、故障と診断された記憶装置を特定する識別情報と関連づけられたエラーの種別およびエラー発生回数と、該識別情報と関連づけられたランクと関連づけられたエラーの種別およびエラー発生回数と、該識別情報と関連づけられたポートと関連づけられたエラーの種別およびエラー発生回数に基づいて、重みが変更される。
このため、例えば、故障と診断された記憶装置において、エラー発生回数が最も多いエラーの種別に対する重みを上げ、エラー発生回数の最も少ないエラーの種別に対する重みを下げるなどすれば、エラー数を算出するための重みを、故障している可能性の高い記憶装置を特定するのに適切な値に調整することが可能になる。
また、前記エラー管理部は、前記記憶装置のエラー数を、前記記憶装置ごとに算出し、各エラー数が前記基準数以上か否かを判断し、前記診断部は、前記エラー管理部にて前記基準数以上と判断されたエラー数の中で最も大きいエラー数の記憶装置から順に、該記憶装置が故障しているか否かを診断することが望ましい。
上記発明によれば、基準数以上と判断されたエラー数の中で最も大きいエラー数の記憶装置から順に、記憶装置が故障しているか否かが判断される。
このため、例えば、エラーが多く発生しているランクの記憶装置の中で、最もエラーの多く発生している記憶装置から順に故障診断を行うことが可能になる。よって、故障している記憶装置を効率良く発見することが可能になる。
本発明によれば、故障している可能性が高い記憶装置を適切に特定することが可能になる。
以下、本発明の実施例について図面を参照して説明する。
図1は、本発明の一実施例のディスクアレイシステムを示したブロック図である。図1において、ディスクアレイシステムは、ディスク装置群1と、ディスクアレイ制御装置2を含む。ディスク装置群1およびディスクアレイ制御装置2は、相互に接続される。また、ディスクアレイ制御装置2は、ホスト3と相互に接続される。
ディスク装置群1は、複数のディスク装置を含む。
以下、ディスク装置の数は、(n+1)×(m+1)個とする。なお、nおよびmは、2以上の自然数である。また、図1には、9個のディスク装置(ディスク装置00、01、0n、10、11、1n、m0、m1およびmn)が示されている。
ディスク装置およびディスクアレイ制御装置2を接続するポートは、複数ある。また、同一のポートで、複数のディスク装置がディスクアレイ制御装置2と接続されている。
以下、ポートの数は、m+1とする。また、同一のポートでディスクアレイ制御装置2に接続されるディスク装置の数は、n+1とする。
さらに言えば、ディスク装置00ないし0n、ディスク装置10ないし1n、ないし、ディスク装置m0ないしmnは、それぞれ、同一のポートでディスクアレイ制御装置2に接続されるとする。
図2は、ディスク装置とポートとの関係を示した図である。
また、ディスク装置は、ランクを構成するディスク装置と、ランクを構成しないディスク装置とがある。ランクとは、冗長コードを共有する複数のディスク装置のグループ、換言すれば、RAIDを構成するディスク装置のグループである。なお、本実施例では、RAIDレベルは、限定されない。また、ランクは、同一のポートのディスク装置で構成されても良いし、異なるポートのディスク装置で構成されても良い。
以下、ランクの数を、nとする。また、ディスク装置00ないしm0、ディスク装置01ないしm1、ないし、ディスク装置0n−1ないしmn−1が、それぞれ、ランクを構成することにする。
図3は、ディスク装置とランクとの関係を示した図である。
以下、ランクを構成していないディスク装置0nないし0mを、スペアディスク装置という。スペアディスク装置は、ランクを構成するディスク装置の予備として用いられる。
ディスク装置00ないしmnは、ディスクアレイ制御装置2にて読み出しおよび書き込みが制御される。
具体的には、ディスク装置00ないしmnは、ディスクアレイ制御装置2から、データを読み出す旨の読み出し指示を受け付けると、その読み出し指示にて読み出しが指示されたデータをディスクアレイ制御装置2に出力する。
また、ディスク装置00ないしmnは、ディスクアレイ制御装置2から、データを書き込む旨の書き込み指示を受け付けると、その書き込み指示にて書き込みが指示されたデータを書き込む(記憶する)。ディスク装置00ないしmnは、データの書き込みが完了すると、データの書き込みが完了した旨の完了情報をディスクアレイ制御装置2に出力する。
なお、ディスク装置00ないしmnは、データ処理(データの読み出し、または、データの書き込み)を実行している間に、エラーを検知すると、エラーを検知した旨のステータスをディスクアレイ制御装置2に出力する。以下、エラーを検知した旨のステータスを、チェックコンディションステータスという。
ディスクアレイ制御装置2は、ランクを構成するディスク装置に並列的にデータを転送する。
ディスクアレイ制御装置2は、記憶部4と、RAID情報管理部5と、ディスク処理制御部6と、エラー情報管理部7と、スペアディスク制御部8と、スペアディスク診断部9とを含む。
図4は、記憶部4の構成の一例を示したブロック図である。図4において、記憶部4は、管理記憶部4aと、重み記憶部4cと、基準記憶部4dと、判断記憶部4eと、エラー記憶部4bとを含む。
管理記憶部4aは、ランク管理記憶部4a1と、スペア管理記憶部4a2と、ポート管理記憶部4a3を含む。
ランク管理記憶部4aは、ランク情報を記憶する。ランク情報では、ランクを構成するディスク装置を特定する識別情報と、該ディスク装置のランク(該ディスク装置が所属するランク)と、が識別情報ごとに関連づけられている。
スペア管理記憶部4a2は、スペアディスク装置を特定する識別情報を記憶する。
ポート管理記憶部4a3は、ポート情報を記憶する。ポート情報では、識別情報と、該識別情報のディスク装置のポートと、が識別情報ごとに関連づけられている。
エラー記憶部4bは、装置エラー記憶部4b1と、ランクエラー記憶部4b2と、ポートエラー記憶部4b3と、集計エラー記憶部4b4とを含む。
装置エラー記憶部4b1は、装置エラー情報を記憶する。装置エラー情報では、識別情報と、該識別情報のディスク装置で発生したエラーの種別と、該種別のエラー発生回数(該種別のエラーが発生した回数)とが、識別情報ごとに関連づけられている。
ランクエラー記憶部4b2は、ランクエラー情報を記憶する。ランクエラー情報では、ランクと、該ランクのディスク装置で発生したエラーの種別と、該種別のエラー発生回数とが、ランクごとに関連づけられている。
ポートエラー記憶部4b3は、ポートエラー情報を記憶する。ポートエラー情報では、ポートと、該ポートのディスク装置で発生したエラーの種別と、該種別のエラー発生回数とが、ポートごとに、関連づけられている。
なお、エラーの種別は、タイムアウト、チェックコンディション、および、他のエラーを示す。
タイムアウトは、ディスクアレイ制御装置2が処理指示(読み出し指示、または、書き込み指示)をディスク装置に送信した後で、所定の時間が経過しても、そのディスク装置から応答がなかったことを示す。
チェックコンディションは、ディスク装置がデータの処理を実行している間にエラーを検知したことを示す。換言すれば、チェックコンディションは、ディスクアレイ制御装置2が、ディスク装置からチェックコンディションステータスを受け付けたことを示す。
他のエラーは、タイムアウトおよびチェックコンディションと異なるエラーが発生したことを示す。なお、タイムアウトおよびチェックコンディションと異なるエラーは、例えば、リセットである。
集計エラー記憶部4b4は、エラー集計情報を記憶する。エラー集計情報では、識別情報と、該識別情報のディスク装置のエラー数と、が識別情報ごとに関連づけられている。
ディスク装置のエラー数は、そのディスク装置を特定する識別情報と装置エラー記憶部4b1にて関連づけられたエラー発生回数と、該識別情報とランク記憶部4a1にて関連づけられたランクとランクエラー記憶部4b2にて関連づけられたエラー発生回数と、該識別情報とポート記憶部4a3にて関連づけられたポートとポートエラー記憶部4b2にて関連づけられたエラー発生回数と、にそれぞれエラーの種別ごとに重みが付加され、その後、各重みが付加されたエラー発生回数の和として算出される。
換言すれば、エラー数は、数式1により算出される。
Figure 2007241837
数式1において、Eは、エラー数である。また、Wxyは、重みである。また、xおよびyは、1ないし3の自然数である。
また、C1は、ディスク装置でチェックコンディションが発生した回数であり、C2は、該ディスク装置と同じポートのディスク装置でチェックコンディションが発生した回数であり、C3は、そのディスク装置と同じランクのディスク装置でチェックコンディションが発生した回数である。
また、T1は、ディスク装置でタイムアウトが発生した回数であり、T2は、該ディスク装置と同じポートのディスク装置でタイムアウトが発生した回数であり、T3は、該ディスク装置と同じランクでタイムアウトが発生した回数である。
さらに、E1は、ディスク装置で他のエラーが発生した回数であり、E2は、該ディスク装置と同じポートで他のエラーが発生した回数であり、E3は、該ディスク装置と同じランクで他のエラーが発生した回数である。
図5は、数式1および数式1のパラメータ(エラー数および重み)を示した図である。
重み記憶部4cは、エラーの発生回数の重みを記憶する。具体的には、重み記憶部4cは、ディスク装置のエラー発生回数に付加する重みと、ランクのエラー発生回数に付加する重みと、ポートのエラー発生回数に付加する重みと、をエラーの種別ごとに記憶する。換言すれば、数式1におけるWxyを記憶する。
基準記憶部4dは、基準数を記憶する。
判断記憶部4eは、判断回数を記憶する。
RAID情報管理部5は、ランクを構成するディスク装置を管理する。
RAID情報管理部5は、ホスト3からデータを転送する旨のコマンドを受け付けると、受け付けたコマンドに応じて、ランクを構成するディスク装置に並列的にデータを転送する。その後、RAID情報管理部5は、そのデータの転送が終了すると、転送結果をホストに出力する。
なお、コマンドは、データを読み込む旨のリードコマンド(読み込むべきデータのアドレスおよびサイズを含む)と、データを書き込む旨のライトコマンド(書き込むべきデータを含む)とがある。
例えば、RAID情報管理部5は、ホスト3からリードコマンドを受け付けると、そのリードコマンドが読み込みを指示するデータを(分散して)記憶するディスク装置から、そのデータを読み出す。
具体的には、先ず、RAID情報管理部5は、そのリードコマンドが読み込みを指示するデータを分散して記憶するディスク装置を特定する。RAID情報管理部5は、特定したディスク装置に、その分散されたデータを読み出す旨の読み出し指示を、ディスク処理制御部6を介して出力し、その後、それらのディスク装置からデータを受け付ける。
続いて、RAID情報管理部5は、分散されたデータを読み出すと、そのデータを一つに結合し、結合したデータを(転送結果として)ホスト3に出力する。
また、RAID情報管理部5は、ホスト3からライトコマンドを受け付けると、そのライトコマンドが書き込みを指示するデータの冗長データを作成する。RAID情報管理部5は、そのデータおよび冗長データを、同じランクに所属するディスク装置に書き込む。
具体的には、先ず、RAID情報管理部5は、書き込みが指示されたデータを所定の数に分割し、かつ、そのデータの冗長データを作成する。RAID情報管理部5は、その分割されたデータおよび冗長データのすくなくともどちらか1方を書き込むべきディスク装置を特定する。
続いて、RAID情報管理部5は、そのディスク装置に、その分割されたデータを書き込む旨の書き込み指示を、ディスク処理制御部6を介して出力する。その後、RAID情報管理部5は、それらのディスク装置の全てから完了情報を受け付けると、データの書き込みが終了したと判断する。
さらにRAID情報管理部5は、データをディスク装置に書き込むと、換言すれば、データの書き込みが終了すると、データの書き込みが終了した旨の終了情報を(転送結果として)ホスト3に出力する。
また、RAID情報管理部5は、ホスト3からコマンドを受け付けても、そのコマンドに応じた処理の実行が完了できない場合、換言すれば、データの読み出しおよび書き込みができない場合、ディスク装置に障害が発生したと判断する。
例えば、RAID情報管理部5は、処理指示をディスク装置に出力した後で、ディスク処理制御部6がその処理指示に対してタイムアウトを検知すると、その処理指示をディスク装置に再び出力する(リトライする)。その後、ディスク処理制御部6がその処理指示に対して所定の回数以上タイムアウトを検知すると、RAID情報管理部5は、コマンドに応じた処理が実行できないと判断し、そのディスク装置に障害が発生したと判断する。
RAID情報管理部5は、ディスク装置に障害が発生したと判断すると、障害が発生したディスク装置に記憶されているデータを復旧(復元)する旨の復旧指示をスペアディスク制御部8に出力する。なお、復旧指示は、復旧すべきデータを記憶するディスク装置の識別情報を含む。
ディスク処理制御部6は、ディスク装置群1とのデータの転送を制御する。
また、ディスク処理制御部6は、ディスク装置群1とのデータの転送中に、エラーが発生したか否かを検知する。
例えば、ディスク処理制御部6は、ディスク装置に処理指示を出力した後で、所定の時間が経過してもその処理指示の処理結果を受け付けないと、エラー(タイムアウト)が発生したことを検知する。
また、ディスク処理制御部6は、ディスク装置からチェックコンディションステータスを受け付けると、エラー(チェックコンディション)が発生したことを検知する。
また、ディスク処理制御部6は、ディスク装置への処理指示がリセットされると、エラー(リセット)が発生したことを検知する。
エラー情報管理部7は、ディスク処理制御部6がエラーの発生を検知すると、そのエラーが発生したディスク装置を特定する識別情報およびそのエラーの種別に基づいて、エラー記憶部4bに記憶された、装置エラー情報、ランクエラー情報、および、ポートエラー情報を更新する。
具体的には、先ず、エラー情報管理部7は、エラーが発生したディスク装置の識別情報とランク管理記憶部4a1にて関連づけられたランクと、その識別情報とポート管理記憶部4a3にて関連づけられたポートと、を取得する。
続いて、エラー情報管理部7は、その識別情報および発生したエラーの種別の両方に装置エラー記憶部4b1にて関連づけられたエラー発生回数と、そのランクおよびエラーの種別の両方にランクエラー記憶部4b2にて関連づけられたエラー発生回数と、そのポートおよびエラーの種別の両方にポートエラー記憶部4b3にて関連づけられたエラー発生回数と、にそれぞれ1を加える。
例えば、図2、図3および図5において、ディスク装置mn−1にてタイムアウトが発生した場合、エラー情報管理部7は、ディスク装置mn−1のタイムアウト(T1)と、ポートmのタイムアウト(ポートmのディスク装置m0ないしmnのタイムアウト;T2)と、ランクn−1のタイムアウト(ランクn−1のディスク装置0n−1ないしmn−1のタイムアウト;T3)と、を更新する。
エラー情報管理部7は、装置エラー情報、ランクエラー情報、および、ポートエラー情報を更新すると、その装置エラー情報、ランクエラー情報およびポートエラー情報に基づいて、集計エラー記憶部に記憶されたエラー数を更新する。
具体的には、エラー情報管理部7は、特定の識別情報と装置エラー記憶部4b1にて関連づけられたエラー発生回数を、該エラー発生回数と装置エラー記憶部4b1にて関連づけられたエラーの種別ごとに重み記憶部4cに記憶された重みを付加する。
また、エラー情報管理部7は、その識別情報とランク管理記憶部4a1にて関連づけられたランクとランクエラー記憶部4b2にて関連づけられたエラー発生回数を、該エラー発生回数とランクエラー記憶部4b2にて関連づけられたエラーの種別ごとに重み記憶部4cに記憶された重みを付加する。
さらに、エラー情報管理部7は、その識別情報とポート管理記憶部4a3にて関連づけられたポートとポートエラー記憶部4b3にて関連づけられたエラー発生回数を、該エラー発生回数とポートエラー記憶部4b3にて関連づけられたエラーの種別ごとに重み記憶部4cに記憶された重みを付加する。
エラー情報管理部7は、それらの重みが付加されたエラー発生回数の和を、その識別情報にて特定されるディスク装置のエラー数として算出する。
なお、エラー情報管理部7は、同様な処理を全てのディスク装置に対して行い、エラー数をディスク装置(識別情報)ごとに算出する。
エラー情報管理部7は、集計エラー記憶部4b4に記憶されたエラー数を、その算出されたエラー数に更新する。
エラー情報管理部7は、エラー数を算出(更新)すると、エラー数が基準記憶部4dに記憶された基準数以上か否かをディスク装置ごとに判断する。
エラー情報管理部7は、基準数以上のエラー数がないと、動作を終了する。
一方、エラー情報管理部7は、基準数以上と判断されたエラー数のディスク装置が少なくとも1以上あると、スペアディスク制御部8に空きのディスク装置が2以上あるか否かを確認させる。空きのスペアディスク装置は、現在、データの読み書きを行っていないスペアディスク装置である。
また、エラー情報管理部7は、スペアディスク制御部8が空きのスペアディスク装置が2以上あることを確認すると、基準数以上と判断されたエラー数に基づいて、そのエラー数のディスク装置を特定する識別情報に優先順位を付ける。具体的には、エラー情報管理部7は、エラー数が多い順に、そのエラー数のディスク装置を特定する識別情報に優先順位を付ける。
また、エラー情報管理部7は、スペアディスク診断部9がディスク装置を故障と診断すると、故障と診断されたディスク装置に関するエラー発生回数(ディスク装置のエラー発生回数、ディスク装置のランクのエラー発生回数およびディスク装置のポートのエラー発生回数)に基づいて、重み記憶部4cに記憶された重みを変更する。
具体的には、エラー情報管理部7は、そのディスク装置を特定する識別情報と装置エラー記憶部4b1にて関連づけられたエラーの種別およびエラー発生回数と、その識別情報とランク管理記憶部4a1にて関連づけられたランクとランクエラー記憶部4b1にて関連づけられたエラーの種別およびエラー発生回数と、その識別情報とポート管理記憶部4a3にて関連づけられたポートとポートエラー記憶部4b3にて関連づけられたエラーの種別およびエラー発生回数とに基づいて、重み記憶部4cに記憶された重みを変更する。
例えば、エラー情報管理部7は、そのディスク装置を特定する識別情報と装置エラー記憶部4b1にて関連づけられたエラーの種別およびエラー数を確認する。エラー情報管理部7は、最も大きいエラー発生回数と関連づけられたエラーの種別の重みを上げ、最も小さいエラー発生回数と関連づけられたエラーの種別の重みを下げる。
また、エラー情報管理部7は、そのディスク装置のランクとエラー記憶部4bにて関連づけられたエラーの種別およびエラー発生回数を確認する。エラー情報管理部7は、最も大きいエラー発生回数と関連づけられたエラーの種別の重みを上げ、最も小さいエラー発生回数と関連づけられたエラーの種別の重みを下げる。
さらに、エラー情報管理部7は、そのディスク装置のポートと記憶部にて関連づけられたエラーの種別およびエラー発生回数を確認する。エラー情報管理部7は、最も大きいエラー発生回数と関連づけられたエラーの種別の重みを上げ、最も小さいエラー発生回数と関連づけられたエラーの種別の重みを下げる。
スペアディスク制御部8は、スペアディスク装置を制御する。また、スペアディスク制御部8は、スペアディスク装置が現在読み書きを行っているかを、スペアディスク装置ごとに管理する。
スペアディスク制御部8は、RAID情報管理部5から識別情報および復旧指示を受け付けると、その復旧指示にて復旧が指示されたデータを復旧する。
具体的には、先ず、スペアディスク制御部8は、その復旧指示が含む識別情報と関連づけられたランクと同じのランクに関連づけられた識別情報を、ランク管理記憶部4a1から取得する。スペアディスク制御部8は、取得した識別情報にて特定されるディスク装置から、そのディスク装置に記憶されたデータ(冗長データを含む)を読み出す。
続いて、スペアディスク制御部8は、読み出したデータに基づいて、その復旧指示が含む識別情報のディスク装置が記憶しているデータを作成する。スペアディスク制御部8は、作成したデータをスペアディスク装置に書き込む。
さらに、スペアディスク制御部8は、ランク管理記憶部4a1に記憶され、かつ、その復旧指示が含む識別情報を、データを書き込んだスペアディスク装置の識別情報に変更する。その後、スペアディスク制御部8は、データを書き込んだスペアディスク装置の識別情報を、スペア管理記憶部4a2から削除する。
また、スペアディスク制御部8は、エラー情報管理部7にてエラー数が基準数以上と判断されると、空きのスペアディスク装置の数が2以上か否かを判断する
また、スペアディスク制御部8は、エラー情報管理部7が識別情報に優先順位を付けると、その優先順位が最も高い識別情報にて特定されるディスク装置に記憶されているデータをスペアディスク装置に移動(コピー)する。
具体的には、スペアディスク制御部8は、その識別情報のディスク装置に記憶されたデータを読み出し、読み出したデータをスペアディスク装置に書き込む。
さらに言えば、スペアディスク制御部8は、そのデータを読み出す旨の読み出し指示をそのディスク装置にディスク処理制御部6を介して出力し、その後、そのデータをディスク装置から受け付ける。スペアディスク制御部8は、受け付けたデータを書き込む旨の書き込み指示をスペアディスク装置に出力する。
以下、データを読み出したディスク装置を移動元のディスク装置といい、データを書き込んだディスク装置(スペアディスク装置)を移動先のディスク装置という。
スペアディスク制御部8は、データを移動すると、移動元のディスク装置の識別情報をスペア管理記憶部4a2に記憶する。また、スペアディスク制御部8は、ランク管理記憶部4a1にて記憶された移動元のディスク装置の識別情報を、移動先のディスク装置の識別情報に変更する。
また、スペアディスク制御部8は、スペアディスク診断部9が移動元のディスク装置が故障しているか否かを診断すると、その診断結果に応じて以下の処理を行う。
スペアディスク制御部8は、スペアディスク診断部9が移動元のディスク装置の故障していないと診断すると、次に優先順位の高いディスク装置に記憶されたデータをスペアディスク装置に移動する。
一方、スペアディスク制御部8は、スペアディスク診断部9が移動元のディスク装置が故障していると診断すると、移動元のディスク装置を縮退させる(切り離す)。具体的には、スペアディスク制御部8は、移動元のディスク装置の識別情報を、スペア管理記憶部4a2から削除する。スペアディスク制御部8は、その識別情報を削除すると、次に優先順位の高いディスク装置に記憶されたデータをスペアディスク装置に移動する。
スペアディスク診断部9は、エラー情報管理部7にてエラー数が基準数以上と判断されると、換言すれば、スペアディスク制御部8がデータを移動すると、基準数以上のエラー数のディスク装置(移動元のディスク装置)が故障しているか否かを診断(判断)する。
具体的には、先ず、スペアディスク診断部9は、そのディスク装置にデータパターンの読み書きを行い、その読み書きでエラーが発生した診断エラー回数を算出する。
なお、スペアディスク診断部9は、データパターンとして、全て0を読み書きするだけでなく、ランダムデータで読み書きを行う、または、一回目の読み書きには、データパターンとして全て1を使用し、二回目の読み書きには、データパターンとして全て2を使用するなど、様々なデータパターンで読み書きを行う。
続いて、スペアディスク診断部9は、診断エラー回数を算出すると、判断記憶部4eに記憶された判断回数を確認し、その診断エラー回数が判断回数以上か否かを判断する。
そのエラーが発生した回数が判断回数未満であると、スペアディスク診断部9は、故障診断を行ったディスク装置が故障していないと判断する。一方、そのエラーが発生した回数が判断回数以上であると、スペアディスク診断部9は、故障診断を行ったディスク装置が故障していると判断する。
スペアディスク診断部9は、スペアディスク制御部8がデータを移動するたびに、その移動元のディスク装置が故障しているか否かを診断する。また、スペアディスク制御部8が、優先順位の高いディスク装置から順に、換言すれば、エラー数の最も大きいディスク装置から順に、データを移動する。このため、スペアディスク制御部8は、エラー数の最も大きいディスク装置から順にそのディスク装置が故障しているか否かを診断する。
次に動作を説明する。
図6は、ディスクアレイシステムの動作を説明するためのフローチャートである。具体的には、ディスクアレイシステムが行う故障検出処理を説明するためのフローチャートである。
ディスク処理制御部6は、ディスク装置群1とのデータの転送中にエラーの発生を確認すると、ステップS601を実行する。
ステップS601では、ディスク処理制御部6は、発生されたエラーに応じたエラー情報を作成する。エラー情報は、具体的には、エラーが発生したディスク装置の識別情報と、そのエラーの種別とを含む。
例えば、ディスク装置10でタイムアウトが発生した場合、ディスク処理制御部6は、ディスク装置10を特定する識別情報と、タイムアウトを示すエラーの種別と、を含むエラー情報を作成する。
また、ディスク装置10でリセットが発生した場合、ディスク処理制御部6は、ディスク装置10を特定する識別情報と、他のエラーを示すエラーの種別と、を含むエラー情報を作成する。
ディスク処理制御部6は、エラー情報を作成すると、そのエラー情報をエラー情報管理部7に出力する。エラー情報管理部7は、エラー情報を受け付けると、ステップS602を実行する。
ステップS602では、エラー情報管理部7は、そのエラー情報に基づいて、エラー記憶部4bに記憶された、装置エラー情報、ランクエラー情報、および、ポートエラー情報を更新する。
エラー情報管理部7は、装置エラー情報、ランクエラー情報、および、ポートエラー情報を更新すると、集計エラー記憶部4b4に記憶されたエラー数を更新する。エラー情報管理部7は、エラー数を更新すると、ステップS603を実行する。
ステップS603では、エラー情報管理部7は、基準記憶部4dに記憶された基準数を確認し、そのエラー数が基準数以上か否を判断する。エラー情報管理部7は、そのエラー数が基準数以上であると、ステップS604を実行し、そのエラー数が基準数未満であると、動作を終了する。
ステップS604では、エラー情報管理部7は、空きのスペアディスク装置が2以上あるか否かを確認する旨の確認指示をスペアディスク制御部8に出力する。
スペアディスク制御部8は、確認指示を受け付けると、空きのスペアディスクの数が2以上あるか否かを確認する。スペアディスク制御部8は、空きのスペアディスクの数が2以上であると、ステップS605を実行し、空きのスペアディスクの数が2未満であると、ステップS604を実行する。
ステップS605では、スペアディスク制御部8は、未使用のスペアディスクの数が2以上ある旨の確認情報を作成し、その確認情報を、エラー情報管理部7に出力する。
エラー情報管理部7は、確認情報を受け付けると、基準数以上と判断されたエラー数に基づいて、そのエラー数のディスク装置を特定する識別情報に優先順位を付ける。
エラー情報管理部は、その優先順位が付けられた識別情報にて特定されるディスク装置に記憶されているデータをスペアディスク装置に移動する旨の交換指示を作成する。なお、交換指示は、優先順位が付けられた識別情報を含む。
エラー情報管理部7は、交換指示を作成すると、その交換指示をスペアディスク制御部8に出力する。スペアディスク制御部8は、交換指示を受け付けると、ステップS606を実行する。
ステップS606では、スペアディスク制御部8は、その交換指示が含む(優先順位が最も高い)識別情報にて特定されるディスク装置に記憶されているデータをスペアディスク装置に移動する。スペアディスク制御部8は、データを移動すると、ステップS607を実行する。
ステップS607では、スペアディスク制御部8は、移動元のディスク装置の識別情報をスペア管理記憶部4a2に記憶する。また、スペアディスク制御部8は、ランク管理記憶部4a1にて記憶された移動元のディスク装置の識別情報を、移動先のディスク装置の識別情報に変更する。スペアディスク制御部8は、識別情報を変更すると、ステップS608を実行する。
ステップS608では、スペアディスク制御部8は、識別情報を変更すると、その移動元のディスク装置の故障診断を行う旨の診断指示を作成し、その診断指示をスペアディスク診断部9に出力する。なお、診断指示は、移動元のディスク装置を特定する識別情報を含む。
スペアディスク診断部9は、診断指示を受け付けると、その診断指示が含む識別情報にて特定されるディスク装置が故障しているか否かを診断し、その診断結果をスペアディスク制御部8に出力する。スペアディスク制御部8は、その診断結果を受け付けると、ステップS609を実行する。
ステップS609では、スペアディスク制御部8は、その診断結果がディスク装置の故障を示すか否かを確認する。スペアディスク制御部8は、その診断結果がディスク装置の故障を示すと、ステップS610を実行し、その診断結果がディスク装置の故障を示さないと、ステップS612を実行する。
ステップS610では、スペアディスク制御部8は、移動元のディスク装置を縮退させる。スペアディスク制御部8は、移動元のディスク装置を移動させると、ステップS611を実行する。
ステップS611では、スペアディスク制御部8は、重みを変更する旨の重み変更指示をエラー情報管理部7に出力する。なお、重み変更指示は、故障と判断された(縮退された)ディスク装置の識別情報を含む。
エラー情報管理部7は、重み変更指示を受け付けると、その重み変更指示が含む識別情報にて特定されるディスク装置に関するエラー発生回数に基づいて、重み記憶部4cに記憶された重みを変更する。
一方、スペアディスク制御部8は、重み変更指示を出力すると、ステップS612を実行する。
ステップS612では、スペアディスク制御部8は、交換指示が含む識別情報にて特定される全てのディスク装置のデータの移動が終了したか否かを確認する。スペアディスク制御部8は、全てのディスク装置のデータの移動が終了すると、動作を終了し、一方、全てのディスク装置のデータの移動が終了していないと、ステップS613を実行する。
ステップS613では、スペアディスク制御部8は、次に優先順位の高い識別情報にて特定されるディスク装置に記憶されているデータをスペアディスク装置に移動する。スペアディスク制御部8は、データを移動すると、ステップS607を実行する。
本実施例によれば、エラー情報管理部7は、識別情報と装置エラー記憶部4b1にて関連づけられたエラー発生回数と、ランクエラー記憶部4b2に記憶されたエラー発生回数と、にそれぞれ重み記憶部4cに記憶された重みを付加する。エラー情報管理部7は、ディスク装置のエラー数を、各重みが付加されたエラー発生回数を和として算出する。また、エラー情報管理部7は、そのエラー数が前記基準数以上か否かを判断する。スペアディスク診断部9は、エラー情報管理部7にてエラー数が基準数以上と判断されると、そのエラー数のディスク装置が故障しているか否かを診断する。
この場合、ディスク装置のエラー発生回数と、ランクのエラー発生回数とにそれぞれ重みが付加される。ディスク装置のエラー数が、重みが付加されたエラー発生回数の和として算出される。また、そのエラー数が基準数以上であると、そのディスク装置が故障しているか否かが診断される。
このため、ディスク装置の(重みが付加された)エラー発生回数が基準数未満でも、ランクのエラー発生回数が多くて、エラー数が基準数以上になると、そのディスク装置が故障しているか否かが診断される。よって、エラー発生回数が少ないディスク装置でも、故障している可能性が高いと判断することが可能になる。したがって、故障している可能性が高いディスク装置を適切に特定することが可能になる。
また、本実施例では、エラー情報管理部7は、識別情報と装置エラー記憶部4b1にて関連づけられたエラー発生回数と、該識別情報とランク管理記憶部4a1にて関連づけられたランクとランクエラー記憶部4b2にて関連づけられたエラー発生回数と、にそれぞれ重みを付加する。エラー情報管理部7は、ディスク装置のエラー数を、各重みが付加されたエラー発生回数の和として算出する。
よって、ランクが複数ある場合でも、故障している可能性が高いディスク装置を適切に特定することが可能になる。
また、本実施例では、エラー情報管理部7は、識別情報に装置エラー記憶部4b1にて関連づけられたエラー発生回数と、該識別情報とランク管理記憶部4a1にて関連づけられたランクとランクエラー記憶部4b1にて関連づけられたエラー発生回数と、該識別情報とポート管理記憶部4a3にて関連づけられたポートとポートエラー記憶部4b3にて関連づけられたエラー発生回数と、にそれぞれ重みを付加する。エラー情報管理部7は、ディスク装置のエラー数は、各重みが付加されたエラー発生回数の和として算出する。
この場合、ディスク装置のエラー発生回数と、該ディスク装置のランクのエラー発生回数と、該ディスク装置のポートのエラー発生回数にそれぞれ重みが付加される。また、ディスク装置のエラー数が、重みが付加されたエラー発生回数の和として算出される。
このため、ディスク装置およびランクの(重みが付加された)エラー発生回数の和が基準数未満でも、ポートのエラー発生回数が多くて、エラー数が基準数以上になると、そのディスク装置の故障診断が行われる。よって、故障している可能性が高く、かつ、エラー発生回数の少ないディスク装置でも、故障している可能性が高いと判断することが可能になる。したがって、故障している可能性が高いディスク装置を適切に特定することが可能になる。
また、本実施例では、エラー情報管理部7は、識別情報と装置エラー記憶部4b1にて関連づけられたエラー発生回数を、該エラー発生回数と装置エラー記憶部4b1にて関連づけられたエラーの種別ごとに重み記憶部4cに記憶された重みを付加する。
また、エラー情報管理部7は、その識別情報とランク管理記憶部4a1にて関連づけられたランクとランクエラー記憶部4b2にて関連づけられたエラー発生回数を、該エラー発生回数とランクエラー記憶部4b2にて関連づけられたエラーの種別ごとに重み記憶部4cに記憶された重みを付加する。
さらに、エラー情報管理部7は、その識別情報とポート管理記憶部4a3にて関連づけられたポートとポートエラー記憶部4b3にて関連づけられたエラー発生回数を、該エラー発生回数とポートエラー記憶部4b3にて関連づけられたエラーの種別ごとに重み記憶部4cに記憶された重みを付加する。
エラー情報管理部7は、ディスク装置のエラー数を、それらの重みが付加されたエラー発生回数の和として算出する。
この場合、識別情報と関連づけられたエラー発生回数に、該エラー発生回数と関連づけられたエラーの種別ごとに重みが付加される。また、該識別情報と関連づけられたランクと関連づけられたエラー発生回数に、該エラー発生回数と関連づけられたエラーの種別ごとに重みが付加される。さらに、該識別情報と関連づけられたポートと関連づけられたエラー発生回数を、該エラー発生回数と関連づけられたエラーの種別ごとに重みが付加される。その後、各重みが付加されたエラー発生回数が合計されて、ディスク装置のエラー数が算出される。
このため、エラーの種別に応じて、故障している可能性の高いディスク装置を特定するのに適切な重みが設定されていれば、故障している可能性が高いディスク装置を適切に特定することが可能になる。
また、本実施例では、エラー情報管理部7は、スペアディスク診断部9にてディスク装置が故障と診断されると、該故障と診断されたディスク装置を特定する識別情報と装置エラー記憶部4b1にて関連づけられたエラーの種別および発生回数と、該識別情報とランク管理記憶部4a1にて関連づけられたランクとランクエラー記憶部4b2にて関連づけられたエラーの種別および発生回数と、該識別情報とポート管理記憶部4a3にて関連づけられたポートとポートエラー記憶部4b3にて関連づけられたエラーの種別および発生回数とに基づいて、重み記憶部4cに記憶された重みを変更する。
この場合、故障と診断されたディスク装置を特定する識別情報と関連づけられたエラーの種別および発生回数と、該識別情報と関連づけられたランクと関連づけられたエラーの種別および発生回数と、該識別情報と関連づけられたポートと関連づけられたエラーの種別および発生回数に基づいて、重みが変更される。
このため、例えば、故障と診断されたディスク装置において、エラー発生回数が最も多いエラーの種別に対する重みを上げ、エラー発生回数の最も少ないエラーの種別に対する重みを下げるなどすれば、エラー数を算出するための重みを、故障している可能性の高いディスク装置を特定するのに適切な値に調整することが可能になる。
また、エラー情報管理部7は、ディスク装置のエラー数を、ディスク装置ごとに算出し、各エラー数が基準数以上か否かを判断する。スペアディスク診断部9は、エラー情報管理部7にて基準回数以上と判断されたエラー数の中で、最も大きいディスク装置から順に、該ディスク装置が故障しているか否かを診断する。
この場合、例えば、エラーが多く発生しているランクのディスク装置の中で、最もエラーの多く発生しているディスク装置から順に故障診断を行うことが可能になる。よって、故障しているディスク装置を効率良く発見することが可能になる。
以上説明した実施例において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。
例えば、エラー発生回数に付加する重みは、ディスク装置の種類ごとに設定されても良い。
この場合、識別情報には、該識別情報のディスク装置の種類が付けられる。
また、重み記憶部4cは、各重みが、ディスク装置の種類ごとに記憶される。
エラー情報管理部7は、ディスク装置、ランクおよびポートのエラー発生回数に、ディスク装置の種類に応じた重みを付加し、その重みが付加されたエラー発生回数の和としてエラー数を算出する。
ディスク装置の種類に応じて、発生するエラーの種類または頻度などが異なる。よって、エラー発生回数に付加する重みがディスク装置の種類ごとに設定(記憶)されると、故障している可能性が高いディスク装置を適切に特定することが可能になる。
また、スペアディスク診断部9が、エラー情報管理部7にてエラー数が基準数以上と判断されると、スペアディスク制御部8がそのエラー数のディスク装置に記憶されたデータをスペアディスク装置に移動せずに、そのディスク装置が故障しているか否かを診断してもよい。
本発明の一実施例のディスクアレイシステムを示したブロック図である。 ディスク装置とポートとの関係を示した説明図である。 ディスク装置とランクとの関係を示した説明図である。 記憶部の構成の一例を示したブロック図である。 重み付けの一例を示した説明図である。 ディスクアレイシステムの動作例を説明するためのフローチャートである。
符号の説明
1 ホスト
2 ディスク装置群
3 ディスクアレイ制御装置
4 記憶部
4a 管理記憶部
4a1 ランク管理記憶部
4a2 スペア管理記憶部
4a3 ポート管理記憶部
4b エラー記憶部
4b1 装置エラー記憶部
4b2 ランクエラー記憶部
4b3 ポートエラー記憶部
4b4 集計エラー記憶部
4c 重み記憶部
4d 基準記憶部
4e 判断記憶部
5 RAID情報管理部
6 ディスク処理制御部
7 エラー情報管理部
8 スペアディスク制御部
9 スペアディスク診断部

Claims (12)

  1. ランクを構成する複数の記憶装置と接続されたディスクアレイ制御装置であって、
    前記記憶装置を特定する識別情報と、該記憶装置のエラー発生回数と、を前記識別情報ごとに関連づけて記憶する装置エラー記憶部と、
    前記ランクのエラー発生回数を記憶するランクエラー記憶部と、
    前記記憶装置のエラー発生回数に付加する重みと、前記ランクのエラー発生回数に付加する重みとを記憶する重み記憶部と、
    基準数を記憶する基準記憶部と、
    前記記憶装置のエラー数を、該記憶装置を特定する識別情報と前記装置エラー記憶部にて関連づけられたエラー発生回数と、前記ランクエラー記憶部に記憶されたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出し、該エラー数が前記基準数以上か否かを判断するエラー管理部と、
    前記エラー管理部にて前記エラー数が前記基準数以上と判断されると、該エラー数の記憶装置が故障しているか否かを診断する診断部と、を含むディスクアレイ制御装置。
  2. 請求項1に記載のディスクアレイ制御装置において、
    前記ランクは、複数あり、
    前記識別情報と、該識別情報にて特定される記憶装置のランクと、を前記識別情報ごとに関連づけて記憶するランク管理記憶部をさらに含み、
    前記ランクエラー記憶部は、前記ランクと、該ランクのエラー発生回数と、を前記ランクごとに関連づけて記憶し、
    前記エラー管理部は、前記記憶装置のエラー数を、前記記憶装置を特定する識別情報に前記装置エラー記憶部にて関連づけられたエラー発生回数と、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出する、ディスクアレイ制御装置。
  3. 請求項2に記載のディスクアレイ制御装置において、
    前記識別情報と、該識別情報にて特定される記憶装置のポートと、を前記識別情報ごとに関連づけて記憶するポート管理記憶部と、
    前記ポートと、該ポートのエラー発生回数と、を前記ポートごとに関連づけて記憶するポートエラー記憶部と、をさらに含み、
    前記重み記憶部は、前記ポートのエラー発生回数に付加する重みをさらに記憶し、
    前記エラー管理部は、前記記憶装置のエラー数を、該記憶装置を特定する識別情報に前記装置エラー記憶部にて関連づけられたエラー発生回数と、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラー発生回数と、該識別情報と前記ポート管理記憶部にて関連づけられたポートと前記ポートエラー記憶部にて関連づけられたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出する、ディスクアレイ制御装置。
  4. 請求項3に記載のディスクアレイ制御装置において、
    前記装置エラー記憶部は、前記識別情報と、該識別情報にて特定される記憶装置で発生したエラーの種別と、該種別のエラー発生回数と、を前記識別情報ごとに関連づけて記憶し、
    前記ランクエラー記憶部は、前記ランクと、該ランクの記憶装置で発生したエラーの種別と、該種別のエラー発生回数と、を前記ランクごとに関連づけて記憶し、
    前記ポートエラー記憶部は、前記ポートと、該ポートの記憶装置で発生したエラーの種別と、該種別のエラー発生回数と、を前記ポートごとに関連づけて記憶し、
    前記重み記憶部は、前記記憶装置、前記ランクおよび前記ポートに付加する重みを前記エラーの種別ごとに記憶し、
    前記エラー管理部は、前記記憶装置のエラー数を、該記憶装置を特定する識別情報と前記装置エラー記憶部にて関連づけられたエラー発生回数を、該エラー発生回数と前記装置エラー記憶部にて関連づけられたエラーの種別ごとに前記重みを付加し、かつ、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラー発生回数を、該エラー発生回数と前記ランクエラー記憶部にて関連づけられたエラーの種別ごとに前記重みを付加し、かつ、該識別情報と前記ポート管理記憶部にて関連づけられたポートと前記ポートエラー記憶部にて関連づけられたエラー発生回数を、該エラー発生回数と前記ポートエラー記憶部にて関連づけられたエラーの種別ごとに前記重みを付加し、各重みが付加されたエラー発生回数の和として算出する、ディスクアレイ制御装置。
  5. 請求項4に記載のディスクアレイ制御装置において、
    前記エラー管理部は、前記診断部にて前記記憶装置が故障と診断されると、該故障と診断された記憶装置を特定する識別情報と前記装置エラー記憶部にて関連づけられたエラーの種別およびエラー発生回数と、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラーの種別およびエラー発生回数と、該識別情報と前記ポート管理記憶部にて関連づけられたポートと前記ポートエラー記憶部にて関連づけられたエラーの種別およびエラー発生回数とに基づいて、前記重み記憶部に記憶された重みを変更する、ディスクアレイ制御装置。
  6. 請求項1ないし5のいずれか1項に記載のディスクアレイ制御装置において、
    前記エラー管理部は、前記記憶装置のエラー数を、前記記憶装置ごとに算出し、各エラー数が前記基準数以上か否かを判断し、
    前記診断部は、前記エラー管理部にて前記基準数以上と判断されたエラー数の中で最も大きいエラー数の記憶装置から順に、該記憶装置が故障しているか否かを診断する、ディスクアレイ制御装置。
  7. ランクを構成する記憶装置を特定する識別情報と該記憶装置のエラー発生回数とを前記識別情報ごとに関連づけて記憶する装置エラー記憶部と、前記ランクのエラー発生回数を記憶するランクエラー記憶部と、前記記憶装置のエラー発生回数に付加する重みと前記ランクのエラー発生回数に付加する重みとを記憶する重み記憶部と、基準数を記憶する基準記憶部と、を含み、各記憶装置と接続されたディスクアレイ制御装置が行う故障診断方法であって、
    前記記憶装置のエラー数を、識別情報と前記装置エラー記憶部にて関連づけられたエラー発生回数と、前記ランクエラー記憶部に記憶されたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出する算出ステップと、
    前記エラー数が前記基準数以上か否かを判断する判断ステップと、
    前記エラー数が前記基準数以上と判断されると、該エラー数の記憶装置が故障しているか否かを診断する診断ステップと、を含む故障診断方法。
  8. 請求項7に記載の故障診断方法において、
    前記ランクは、複数あり、
    前記ディスクアレイ制御装置は、前記識別情報と、該識別情報にて特定される記憶装置のランクと、を前記識別情報ごとに記憶するランク管理記憶部をさらに含み、
    前記ランクエラー記憶部は、前記ランクと、該ランクのエラー発生回数と、を前記ランクごとに関連づけて記憶し、
    前記記憶装置のエラー数を、前記記憶装置を特定する識別情報に前記装置エラー記憶部にて関連づけられたエラー発生回数と、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出する計算ステップと、をさらに含む故障診断方法。
  9. 請求項8に記載の故障診断方法において、
    前記ディスクアレイ制御装置は、前記識別情報と、該識別情報にて特定される記憶装置のポートと、を前記識別情報ごとに関連づけて記憶するポート管理記憶部と、
    前記ポートと、該ポートのエラー発生回数と、を前記ポートごとに関連づけて記憶するポートエラー記憶部と、をさらに含み、
    前記重み記憶部は、前記ポートのエラー発生回数に付加する重みをさらに記憶し、
    前記記憶装置のエラー数を、該記憶装置を特定する識別情報に前記装置エラー記憶部にて関連づけられたエラー発生回数と、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラー発生回数と、該識別情報と前記ポート管理記憶部にて関連づけられたポートと前記ポートエラー記憶部にて関連づけられたエラー発生回数と、にそれぞれ前記重みを付加し、各重みを付加したエラー発生回数の和として算出するポート算出ステップと、をさらに含む故障診断方法。
  10. 請求項9に記載の故障診断方法において、
    前記装置エラー記憶部は、前記識別情報と、該識別情報にて特定される記憶装置で発生したエラーの種別と、該種別のエラー発生回数と、を前記識別情報ごとに関連づけて記憶し、
    前記ランクエラー記憶部は、前記ランクと、該ランクの記憶装置で発生したエラーの種別と、該種別のエラー発生回数と、を前記ランクごとに関連づけて記憶し、
    前記ポートエラー記憶部は、前記ポートと、該ポートの記憶装置で発生したエラーの種別と、該種別のエラー発生回数と、を前記ポートごとに関連づけて記憶し、
    前記重み記憶部は、前記記憶装置、前記ランクおよび前記ポートに付加する重みを前記エラーの種別ごとに記憶し、
    前記記憶装置のエラー数を、該記憶装置を特定する識別情報と前記装置エラー記憶部にて関連づけられたエラー発生回数を、該エラー発生回数と前記装置エラー記憶部にて関連づけられたエラーの種別ごとに前記重みを付加し、かつ、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラー発生回数を、該エラー発生回数と前記ランクエラー記憶部にて関連づけられたエラーの種別ごとに前記重みを付加し、かつ、該識別情報と前記ポート管理記憶部にて関連づけられたポートと前記ポートエラー記憶部にて関連づけられたエラー発生回数を、該エラー発生回数と前記ポートエラー記憶部にて関連づけられたエラーの種別ごとに前記重みを付加し、各重みを付加したエラー発生回数の和として算出する種別算出ステップと、をさらに含む故障診断方法。
  11. 請求項10に記載の故障診断方法において、
    前記記憶装置が故障と診断されると、該故障と診断された記憶装置を特定する識別情報と前記装置エラー記憶部にて関連づけられたエラーの種別およびエラー発生回数と、該識別情報と前記ランク管理記憶部にて関連づけられたランクと前記ランクエラー記憶部にて関連づけられたエラーの種別およびエラー発生回数と、該識別情報と前記ポート管理記憶部にて関連づけられたポートと前記ポートエラー記憶部にて関連づけられたエラーの種別およびエラー発生回数とに基づいて、前記重み記憶部に記憶された重みを変更する変更ステップ、をさらに含む故障診断方法。
  12. 請求項7ないし11のいずれか1項に記載の故障診断方法において、
    前記識別情報ごとに、前記記憶装置のエラー数を、前記記憶装置ごとに算出する個別算出ステップと、
    各エラー数が前記基準数以上か否かを判断する判定ステップと、
    前記基準回数以上と判断されたエラー数の中で最も大きいエラー数の記憶装置から順に、該記憶装置の故障診断を行う順次診断ステップと、をさらに含む故障診断方法。
JP2006065760A 2006-03-10 2006-03-10 ディスクアレイ制御装置および故障診断方法 Pending JP2007241837A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006065760A JP2007241837A (ja) 2006-03-10 2006-03-10 ディスクアレイ制御装置および故障診断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006065760A JP2007241837A (ja) 2006-03-10 2006-03-10 ディスクアレイ制御装置および故障診断方法

Publications (1)

Publication Number Publication Date
JP2007241837A true JP2007241837A (ja) 2007-09-20

Family

ID=38587290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006065760A Pending JP2007241837A (ja) 2006-03-10 2006-03-10 ディスクアレイ制御装置および故障診断方法

Country Status (1)

Country Link
JP (1) JP2007241837A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217408A (ja) * 2008-03-07 2009-09-24 Nec Corp データ格納装置のデータ復旧方法及びその装置並びにディスクアレイシステムのデータ復旧方法及びその装置
JP2009282848A (ja) * 2008-05-23 2009-12-03 Fujitsu Ltd 異常判定装置
WO2009157086A1 (ja) * 2008-06-27 2009-12-30 富士通株式会社 Raid装置並びにその制御装置および制御方法
JP2010238124A (ja) * 2009-03-31 2010-10-21 Fujitsu Ltd データ管理プログラム、データ管理装置、およびデータ管理方法
JP2013012173A (ja) * 2011-06-29 2013-01-17 Giga-Byte Technology Co Ltd レイドの検出とデータ移動方法及びそのシステム
JP2015184858A (ja) * 2014-03-24 2015-10-22 日本電気株式会社 ディスクアレイシステム、方法、及び、プログラム
US10956073B2 (en) 2017-01-25 2021-03-23 Nec Corporation Determination of storage area pool into which to incorporate spare storage device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002374271A (ja) * 2001-06-14 2002-12-26 Nec Corp Fc−alシステムのリンク診断方法及び装置
JP2004227449A (ja) * 2003-01-27 2004-08-12 Hitachi Ltd ディスクアレイ装置における障害の診断装置
JP2005258633A (ja) * 2004-03-10 2005-09-22 Hitachi Ltd ディスクアレイシステム及びハードディスクドライブの障害予測方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002374271A (ja) * 2001-06-14 2002-12-26 Nec Corp Fc−alシステムのリンク診断方法及び装置
JP2004227449A (ja) * 2003-01-27 2004-08-12 Hitachi Ltd ディスクアレイ装置における障害の診断装置
JP2005258633A (ja) * 2004-03-10 2005-09-22 Hitachi Ltd ディスクアレイシステム及びハードディスクドライブの障害予測方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217408A (ja) * 2008-03-07 2009-09-24 Nec Corp データ格納装置のデータ復旧方法及びその装置並びにディスクアレイシステムのデータ復旧方法及びその装置
JP2009282848A (ja) * 2008-05-23 2009-12-03 Fujitsu Ltd 異常判定装置
JP4627327B2 (ja) * 2008-05-23 2011-02-09 富士通株式会社 異常判定装置
US8089712B2 (en) 2008-05-23 2012-01-03 Fujitsu Limited Abnormality determining apparatus
WO2009157086A1 (ja) * 2008-06-27 2009-12-30 富士通株式会社 Raid装置並びにその制御装置および制御方法
JP2010238124A (ja) * 2009-03-31 2010-10-21 Fujitsu Ltd データ管理プログラム、データ管理装置、およびデータ管理方法
JP2013012173A (ja) * 2011-06-29 2013-01-17 Giga-Byte Technology Co Ltd レイドの検出とデータ移動方法及びそのシステム
JP2015184858A (ja) * 2014-03-24 2015-10-22 日本電気株式会社 ディスクアレイシステム、方法、及び、プログラム
US10956073B2 (en) 2017-01-25 2021-03-23 Nec Corporation Determination of storage area pool into which to incorporate spare storage device

Similar Documents

Publication Publication Date Title
JP2005122338A (ja) スペアディスクドライブをもつディスクアレイ装置及びデータスペアリング方法
US7571356B2 (en) Storage control device, and error information management method for storage control device
JP2548480B2 (ja) アレイディスク装置のディスク装置診断方法
JP2007241837A (ja) ディスクアレイ制御装置および故障診断方法
JP5532982B2 (ja) ストレージ装置、ストレージ装置のコントローラおよびストレージ装置の記憶領域割当方法
JP4456552B2 (ja) 動的代替機能を持つ論理集積回路、これを用いた情報処理装置及び論理集積回路の動的代替方法
US7624301B2 (en) Method and apparatus for identifying failure module
JP2006079418A (ja) 記憶制御装置、制御方法及びプログラム
JP2002007077A (ja) ディスクアレイ装置のループ診断システム及びその方法
JP2006139478A (ja) ディスクアレイシステム
JP7125602B2 (ja) データ処理装置および診断方法
JP6206160B2 (ja) ストレージ制御装置、ストレージ制御プログラム及びストレージ制御方法
JP4862847B2 (ja) ディスクアレイのデータ復旧方法、ディスクアレイシステム及び制御プログラム
US7457990B2 (en) Information processing apparatus and information processing recovery method
JP5849491B2 (ja) ディスク制御装置、ディスク装置異常検出方法、及びプログラム
JP4456060B2 (ja) Raid制御装置、raid制御プログラム、raid制御方法
JP6036736B2 (ja) キャッシュ装置、ストレージ装置、キャッシュ制御方法、及びストレージ制御プログラム
JPH06282385A (ja) 記憶制御装置および記憶制御装置を備える情報処理システム
JP2002123372A (ja) キャッシュメモリ付きディスクアレイ装置及びそのエラー制御方法並びにその制御プログラムを記録した記録媒体
JP6805838B2 (ja) ディスク管理システム、ディスク管理方法、および、ディスク管理プログラム
JP4425904B2 (ja) ライト抜け検出装置、ライト抜け検出方法およびライト抜け検出プログラム
JP2023134170A (ja) 記憶媒体管理装置、記憶媒体管理方法および記憶媒体管理プログラム
JP2868003B1 (ja) 磁気ディスク装置
JP2003177876A (ja) ディスクアレイ装置
JPH08137627A (ja) ディスクアレイ装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100310

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100407