JP2013025632A - ディスク制御装置、ディスク装置異常検出方法、及びプログラム - Google Patents

ディスク制御装置、ディスク装置異常検出方法、及びプログラム Download PDF

Info

Publication number
JP2013025632A
JP2013025632A JP2011161051A JP2011161051A JP2013025632A JP 2013025632 A JP2013025632 A JP 2013025632A JP 2011161051 A JP2011161051 A JP 2011161051A JP 2011161051 A JP2011161051 A JP 2011161051A JP 2013025632 A JP2013025632 A JP 2013025632A
Authority
JP
Japan
Prior art keywords
disk
diagnosis
abnormality
disk device
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011161051A
Other languages
English (en)
Other versions
JP5849491B2 (ja
Inventor
Kenji Kobayashi
賢次 小林
Norihide Kubota
典秀 久保田
Jun Ito
惇 猪頭
Ryota Tsukahara
良太 塚原
Hidejiro Daikokuya
秀治郎 大黒谷
Kazuhiko Ikeuchi
和彦 池内
Chikashi Maeda
親志 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011161051A priority Critical patent/JP5849491B2/ja
Priority to US13/541,822 priority patent/US8977892B2/en
Publication of JP2013025632A publication Critical patent/JP2013025632A/ja
Application granted granted Critical
Publication of JP5849491B2 publication Critical patent/JP5849491B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B5/00Recording by magnetisation or demagnetisation of a record carrier; Reproducing by magnetic means; Record carriers therefor
    • G11B5/02Recording, reproducing, or erasing methods; Read, write or erase circuits therefor
    • G11B5/09Digital recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B5/00Recording by magnetisation or demagnetisation of a record carrier; Reproducing by magnetic means; Record carriers therefor
    • G11B5/012Recording on, or reproducing or erasing from, magnetic disks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/18Error detection or correction; Testing, e.g. of drop-outs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/40Combinations of multiple record carriers
    • G11B2220/41Flat as opposed to hierarchical combination, e.g. library of tapes or discs, CD changer, or groups of record carriers that together store one title
    • G11B2220/415Redundant array of inexpensive disks [RAID] systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】ディスクアレイ装置を構成している複数のディスク装置の各々について異常の検出を早期に行えるようにする。
【解決手段】診断部11は、複数のディスク装置2の各々について異常かどうか診断を行う。判定部12は、診断部11によって異常と診断されると、当該異常が所定の異常であるか否かを判定する。除外部13は、診断部11により診断された異常が所定の異常であると判定部12が判定すると、複数のディスク装置2のうちで、当該所定の異常と判定されたディスク装置2との間でRAIDを構成しているものを、診断部11による診断対象から除外する。
【選択図】図1

Description

本明細書で議論される実施態様は、データを記憶するディスク装置に対する異常診断の技術に関するものである。
ディスク装置を複数備えたディスクアレイ装置において、複数のディスク装置を組み合わせて仮想的な1台のデータストレージとして利用できるようにする技術として、RAID(Redundant Arrays of Inexpensive Disks)が知られている。RAIDには、ディスク装置の組み合わせの仕組みの違いにより幾つかの種類がある。RAIDは、ディスク装置を冗長化構成として、1のディスク装置に異常が発生しても、当該1のディスク装置の記憶データを、他のディスク装置の記憶データを利用して復元可能とする。また、このような冗長化構成を備えていないものをRAIDに含める場合もある。
また、このようなディスクアレイ装置を構成している複数のディスク装置の各々に対して、ホストからのアクセスとは無関係に一定の頻度で周期的に巡回してアクセスを行ってディスク装置を診断し、その異常を検出する技術が知られている。この技術は、ディスクパトロールなどとも称されている。更に、このディスクパトロール中に読み取りエラーが発生したときには、エラーが発生したディスク装置から所定量のデータの読み取りを行って当該データの検査を優先して行うという技術が知られている。
また、消費電力の低減のためにオフにしていた長期間アクセスされないディスクドライブの電源を、当該オフ後から所定期間経過後には、故障の検査のためにアクセス状況とは関係なくオンとするという技術が知られている。
更に、効率良く故障検出を行うという技術が知られている。この技術は、まず、装置の故障間隔の長さを基準にして複数の点検プログラムをグループ分けし、かつ、故障間隔の長さに応じて各グループの各点検プログラムの実行間隔を決めておく。この技術では、ここで、同じグループの複数の点検プログラムの各実行時においてひとつの点検プログラムでも点検結果が不良のときは、そのグループの点検動作を終了するようにする。
特開2006−4078号公報 特開2007−213721号公報 特開平11−85557号公報
前述したディスクパトロールを用いて行うディスク装置の異常の検出において、その異常の検出をより早期に行うためには、各ディスク装置に対して行う、診断のためのアクセスの頻度を高めればよい。しかし、診断のためのアクセスの頻度を単純に高めれば、それだけホストからのアクセスを停滞させる可能性が高まり、本来のアクセス性能を低下させてしまう。
本明細書で後述するディスク制御装置は、ディスクアレイ装置を構成している複数のディスク装置の各々について異常の検出を早期に行えるようにする。
本明細書で後述するディスク制御装置のひとつに、検出部と、判定部と、除外部とを備えるというものがある。ここで、検出部は、複数のディスク装置の各々についての異常の検出を巡回して繰り返し行う。判定部は、検出部によって異常が検出されたときに、当該異常が所定の重度の異常であるか否かを判定する。そして、除外部は、検出部により検出された異常が所定の重度の異常であると判定部が判定したときに、当該複数のディスク装置のうちで重度異常ディスク装置との間でRAIDを構成しているディスク装置を、検出部による異常の検出の対象から除外する。なお、重度異常ディスク装置とは、当該所定の重度の異常が検出されたディスク装置である。
また、本明細書で後述するディスク装置異常検出方法のひとつは、まず、複数のディスク装置の各々について異常の検出を行う。次に、この異常が検出されたときに、当該検出された異常が所定の重度の異常であるか否かを判定する。次に、検出された異常が所定の重度の異常であると判定されたときに、複数のディスク装置のうちから、当該所定の重度の異常が検出されたディスク装置である重度異常ディスク装置との間でRAIDを構成しているディスク装置を、異常の検出の対象から除外する。そして、複数のディスク装置のうちから除外されていない残りのディスク装置の各々に対して、上述の異常の検出を継続する。
また、本明細書で後述するプログラムのひとつは、以下の処理をコンピュータに行わせる。この処理は、まず、複数のディスク装置の各々について異常の検出を行う。次に、この異常が検出されたときに、当該検出された異常が所定の重度の異常であるか否かを判定する。次に、検出された異常が所定の重度の異常であると判定されたときに、複数のディスク装置のうちから、当該所定の重度の異常が検出されたディスク装置である重度異常ディスク装置との間でRAIDを構成しているディスク装置を、異常の検出の対象から除外する。そして、複数のディスク装置のうちから除外されていない残りのディスク装置の各々に対して、上述の異常の検出を継続する。
本明細書で後述するディスク制御装置は、ホストからのアクセス性能の低下を抑制しつつ、ディスクアレイ装置を構成している複数のディスク装置の各々について異常の検出を早期に行うことができる。
ディスク制御装置の一実施例の機能ブロック図である。 ディスク制御装置の別の一実施例の機能ブロック図である。 エラー評価テーブルの一例である。 ディスク制御装置のハードウェア構成図である。 ディスクパトロール制御処理の処理内容を図解したフローチャートである。 ディスク制御装置によるディスクパトロール動作を説明する図(その1)である。 ディスク制御装置によるディスクパトロール動作を説明する図(その2)である。 ディスク制御装置によるディスクパトロール動作を説明する図(その3)である。 ディスク制御装置によるディスクパトロール動作を説明する図(その4)である。 ディスク制御装置によるディスクパトロール動作を説明する図(その5)である。
まず図1について説明する。図1は、ディスク制御装置の一実施例の機能構成図である。
ディスク制御装置1は、複数のディスク装置2−1、2−2、…、2−nの制御を行う。なお、ディスク装置2−1、2−2、…、2−nは、データを記憶しておく記憶装置である。
なお、以下の説明では、特に区別する必要がない場合には、ディスク装置2−1、2−2、…、2−nを、単に「ディスク装置2」と称することとする。
ディスク制御装置1は、診断部11、判定部12、及び除外部13を備えている。
診断部11は、複数のディスク装置2の各々について異常かどうか診断を行う。
判定部12は、診断部11によって異常と診断されたときに、当該異常が所定の異常であるか否かを判定する。なお、所定の異常とは、例えば、複数のディスク装置2のうちの幾つかにより前述の冗長化構成が実現されている場合において、その冗長化構成により得られている記憶データの冗長性が失われてしまうような重度の異常である。
除外部13は、診断部11によって診断された異常が上述の所定の異常であると判定部12が判定したときに、複数のディスク装置2のうちで異常ディスク装置との間でRAIDを構成しているディスク装置2を、診断部11による診断対象から除外する。なお、異常ディスク装置とは、判定部12によって当該所定の異常と判定されたディスク装置2である。
異常と診断されたディスク装置2が異常ディスク装置であった場合には、当該異常ディスク装置を用いて構成されているRAIDでは、記憶データの消失を防ぐための作業を早急に行うべき状況にある。つまり、異常ディスク装置の発見後は、異常ディスク装置との間でRAIDを構成しているディスク装置2に対しては異常かどうかの診断を繰り返し行うような状況ではない。そこで、このような場合には、除外部13が、複数のディスク装置2のうちで、異常ディスク装置との間でRAIDを構成しているディスク装置2を、診断部11による診断対象から除外する。このようにすることで、除外部13により除外されずに残されたディスク装置2に対する診断処理の頻度を高めることができるので、当該残されたディスク装置2についての異常の検出が早期に行える。
なお、ディスク制御装置1は、更に、診断頻度変更部14を備えてもよい。
診断頻度変更部14は、複数のディスク装置2から除外部13が除外しなかったディスク装置2のうちの一部のものに対する診断部11による診断の頻度を高く変更する。診断頻度変更部14は、この頻度の変更を、診断部11により診断された異常が前述の所定の異常であると判定部12が判定したときに行う。また、診断頻度変更部14は、この頻度の変更を、複数のディスク装置2から除外部13が除外しなかったディスク装置2のうちで、付されている属性情報が異常ディスク装置との間で所定の類似関係を有しているものに対して行う。
異常ディスク装置との間で所定の類似関係を有している属性情報が付されているディスク装置2は、異常の発生時期についても、異常ディスク装置と類似していると推定することができる。従って、このようなディスク装置2は異常の発生が差し迫っていると推定される。なお、この属性情報とは、例えば、ディスク装置2に付与されている製造番号である。製造番号が所定の範囲内にあるディスク装置2同士は、異常の発生時期が類似していると推定することができる。そこで、診断頻度変更部14は、複数のディスク装置2から除外部13が除外しなかったもののうちで、属性情報が異常ディスク装置との間で類似関係を有しているものについては、診断部11による診断の頻度を高く変更する。このようにすることで、異常の発生が差し迫っていると推定されるディスク装置2についての異常の検出が早期に行える。
なお、ここで、診断頻度変更部14は、異常ディスク装置との間で属性情報が前述の所定の類似関係を有しているディスク装置2のうちの一部のものに対しては、診断の頻度の変更を行わないようにしてもよい。より具体的には、診断頻度変更部14は、異常ディスク装置との間では属性情報が前述の所定の類似関係を有していないディスク装置2との間で冗長性が確保されているディスク装置2に対しては、診断の頻度の変更を行わないようにしてもよい。
異常ディスク装置との間で属性情報が所定の類似関係を有していないディスク装置2との間で冗長性が確保されているディスク装置2であれば、実際に異常が発生して記憶データを失っても、その記憶データの復旧は可能である。そこで、このようなディスク装置2に対しては、前述のように異常の発生が差し迫っていると推定されるものであっても、診断頻度変更部14による診断の頻度の変更を行わないようにする。このようにすることで、異常の発生が差し迫っていると推定され、且つ、異常の発生が発生すると記憶データの復旧に支障が生じる可能性のあるディスク装置2についての異常の検出が早期に行える。
また、診断頻度変更部14は、診断部11により診断された異常が前述の所定の異常ではないと判定部12が判定したときには、複数のディスク装置2のうちの一部に対する診断部11による診断の頻度を高くするようにしてもよい。ここで、診断頻度変更部14は、複数のディスク装置2のうちで軽度異常ディスク装置との間で属性情報が前述の所定の類似関係を有しているものに対する診断の頻度を高くする。なお、軽度異常ディスク装置とは、複数のディスク装置2のうちで、診断部11により異常があると診断されたが、当該異常が前述の所定の異常ではないと判定部12により判定されたディスク装置2である。
軽度異常ディスク装置との間で属性情報が所定の類似関係を有しているディスク装置2についても、異常の発生時期は、軽度異常ディスク装置と類似していると推定することができる。従って、このようなディスク装置2は異常の発生が差し迫っていると推定される。そこで、診断頻度変更部14は、複数のディスク装置2のうちで属性情報が軽度異常ディスク装置との間で所定の類似関係を有しているものについては、診断部11による診断の頻度を変更して高くする。このようにすることで、異常の発生が差し迫っていると推定されるディスク装置2についての異常の検出が早期に行える。
なお、ここで、診断頻度変更部14は、軽度異常ディスク装置との間で属性情報が前述の所定の類似関係を有しているディスク装置2のうちの一部のものに対しては、診断の頻度の変更を行わないようにしてもよい。この一部のディスク装置2とは、より具体的には、軽度異常ディスク装置との間で属性情報が前述の所定の類似関係を有していないディスク装置2との間で冗長性が確保されているディスク装置2である。
軽度異常ディスク装置との間で属性情報が所定の類似関係を有していないディスク装置2との間で冗長性が確保されているディスク装置2であれば、実際に異常が発生して記憶データを失っても、その記憶データの復旧は可能である。そこで、このようなディスク装置2に対しては、前述のように異常の発生が差し迫っていると推定されるものであっても、診断頻度変更部14による診断の頻度の変更を行わないようにする。このようにすることで、異常の発生が差し迫っていると推定され、且つ、異常の発生が発生すると記憶データの復旧に支障が生じる可能性のあるディスク装置2についての異常の検出が早期に行える。
また、ディスク制御装置1は、更に、出力部15を備えてもよい。
出力部15は、診断部11により診断された異常が前述の所定の異常であると判定部12が判定したときに、当該判定の結果を表している警告を出力する。
前述したように、異常が検出されたディスク装置2が異常ディスク装置であった場合には、当該異常ディスク装置を用いて構成されているRAIDは、記憶データの消失を防ぐための作業を早急に行うべき状況にある。出力部15は、このような状況が生じたことを表している所定の警告を出力する。従って、この警告の出力によって、上述した状況の発生が直ちに報知されるので、当該作業を迅速に開始することができる。
次に図1について説明する。図2は、ディスク制御装置の別の一実施例の機能構成図である。
ディスク制御装置100−1及び100−2は、ディスクアレイ200−1、…、200−nの制御を行う。ホストシステム300は、このディスク制御装置100−1及び100−2とディスクアレイ200−1、…、200−nとで構成されるストレージシステムを使用するシステムである。
なお、ディスク制御装置100−1及び100−2は、同一の構成を有しており、二重化による冗長化が施されている。本実施例では、ディスク制御装置100−1及び100−2のうちの一方を運用系として常時使用し、他方を予備系として待機させておく。なお、以下の説明では、ディスク制御装置100−1及び100−2を総称して「ディスク制御装置100」と称することとし、このディスク制御装置100について説明する。
ディスク制御装置100は、ホストI/F110−1及び110−2、ディスクI/F120−1及び120−2、ディスク管理テーブル130、エラー評価テーブル140、並びに制御部150を備えている。
ホストI/F110−1及び110−2は、ホストシステム300との間で各種のデータの授受を行うインタフェース装置である。
ディスクI/F120−1及び120−2は、ディスクアレイ200−1、…、200−nとの間で各種のデータの授受を行うインタフェース装置である。
なお、ホストI/F110−1及び110−2並びにディスクI/F120−1及び120−2は、同一の構成を有しており、二重化による冗長化が施されている。本実施例では、ホストI/F110−1及び110−2並びにディスクI/F120−1及び120−2のうちのそれぞれ一方を運用系として常時使用し、他方を予備系として待機させておく。
ディスク管理テーブル130は、ディスクアレイ200−1、…、200−nが各々備えているディスク200−1−1、…、200−1−4、…、200−n−1、…、200−n−4の各々の属性情報を管理しておくテーブルである。
エラー評価テーブル140は、ディスク200−1−1、…、200−1−4、…、200−n−1、…、200−n−4において検出されるエラーの重症度を表す評価点が、エラーの種別毎に対応付けられたテーブルである。図3は、このエラー評価テーブル140の一例である。
制御部150は、ディスク制御装置100が備えている各部の動作の制御を行うものであり、特に、ディスク200−1−1、…、200−1−4、…、200−n−1、…、200−n−4の各々に対して前述のディスクパトロールを実施するための制御を行う。この制御部150は、I/O制御部151、診断スケジュール制御部152、及びディスク診断制御部153を備えている。
I/O制御部151は、ホストI/F110−1及び110−2並びにディスクI/F120−1及び120−2の動作制御を行う。
診断スケジュール制御部152は、ディスク200−1−1、…、200−1−4、…、200−n−1、…、200−n−4の各々に対する診断(異常の検出及び検出された異常の重症度の判定)の実施スケジュールを作成するための制御を行う。
ディスク診断制御部153は、ディスク200−1−1、…、200−1−4、…、200−n−1、…、200−n−4の各々に対する診断を、診断スケジュール制御部152により作成されるスケジュールに従って実施するための制御を行う。
ディスク診断制御部153は、ディスク200−1−1、…、200−1−4、…、200−n−1、…、200−n−4の各々に対してディスクアクセスを行い、その応答としてエラーメッセージを受信することによって、ディスクエラーの検出を行う。このエラーメッセージにはエラー種別を示す情報が含まれており、ディスク診断制御部153は、エラー評価テーブル140において、このエラー種別に対応付けられている評価点に基づいて、ディスクエラーの重症度の判定を行う。
なお、ディスク制御装置100においては、ディスク診断制御部153が図1における診断部11及び判定部12に相当する機能を提供し、診断スケジュール制御部152が図1における除外部13及び診断頻度変更部14に相当する機能を提供する。そして、ホストI/F110−1及び110−2が図1における出力部15に相当する機能を提供する。
ディスク200−1−1、…、200−1−4、…、200−n−1、…、200−n−4は、いずれもハードディスク記憶装置である。なお、本実施例では、ディスクアレイ200−1、…、200−nにおいて、各々4台ずつ備えられているディスク200−1−1、…、200−1−4、…、200−n−1、…、200−n−4によりRAID5が構成されている。なお、以下の説明では、ディスクアレイ200−1、…、200−nの各々において構成されているRAIDのグループをそれぞれ、グループ1、…、nと称することとする。
なお、ディスク管理テーブル130では、ディスク200−1−1、…、200−1−4、…、200−n−1、…、200−n−4が各々属しているRAIDのグループについての情報も管理されている。
次に図4について説明する。図4は、ディスク制御装置100のハードウェア構成図である。
このディスク制御装置100は、MPU401、ROM402、RAM403、インタフェース装置404、及び表示装置405を備えて構成されている。なお、これらの各構成要素は、いずれもバスライン406に接続されており、MPU401の管理の下で各種のデータを相互に授受することができるように構成されている。
MPU(Micro Processing Unit)401は、ディスク制御装置100全体の動作を制御する演算処理装置であり、図2におけるI/O制御部151、診断スケジュール制御部152、及びディスク診断制御部153として機能する。
ROM(Read Only Memory)402は、後述するディスクパトロール制御処理をMPU401に行わせるプログラムを含む所定の制御プログラムが予め記録されている不揮発性半導体メモリであり、例えばフラッシュメモリである。MPU401は、この制御プログラムをディスク制御装置100の起動時に読み出して実行することにより、ディスク制御装置100の各構成要素の動作制御が可能になり、上述した図2の各部の機能の提供が可能になる。
RAM(Random Access Memory)403は、MPU401が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。
インタフェース装置404は、ディスク制御装置100に接続される各種機器との間での各種データの授受の管理を行うものであり、図2におけるホストI/F110−1及び110−2並びにディスクI/F120−1及び120−2として機能する。
表示装置405は、例えば液晶ディスプレイやLED(Light Emitting Diode)素子であり、MPU401からの指示に従って各種の表示を行う。この表示装置405が図1における出力部15に相当する機能を提供するようにしてもよい。
以上のように、ディスク制御装置100は、標準的な構成のコンピュータと同様の構成を有している。
なお、MPU401にディスク制御装置100の各構成要素の動作制御を行わせるための前述の制御プログラムは、可搬型記録媒体407に記録されているものであってもよい。可搬型記録媒体407には、例えば、USB(Universal Serial Bus)規格のコネクタが備えられているフラッシュメモリ、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)が利用可能である。なお、このようにする場合には、可搬型記録媒体407に記録されているデータを読み出すデータ読出装置408をディスク制御装置100に備えてバスライン406に接続しておくようにする。MPU401は、データ読出装置408によって可搬型記録媒体407に記録されている制御プログラムを読み出せる状態となったときに、当該制御プログラムをデータ読出装置408に読み出させてROM402に格納させる処理を行うようにする。このようにすることで、可搬型記録媒体407に記録されていた制御プログラムをMPU401が実行できるようになり、ディスク制御装置100の各構成要素の動作制御が可能になる。
次に図5について説明する。図5は、ディスクパトロール制御処理の処理内容を図解したフローチャートである。この処理は図4のMPU401によって行われて、図2における制御部150が有する各種の機能が提供される。
なお、この図5の処理の開始前には、ディスク診断の実施スケジュールとして、前述した、RAIDのグループ1、…、グループnが、この順序で初期設定されているものとする。また、各グループ内では、図2に付した符号の順序でディスク診断が行われるものとする。すなわち、例えばグループ1においては、ディスク200−1−1、…、ディスク200−1−4の順序でディスク診断が行われるものとする。
図5の処理は、ディスクパトロールの開始を示す所定の指示をMPU401が受け取ると開始される。
図5において、まず、S101では、現在設定されている実施スケジュールの順序に従ったディスク診断の実施を繰り返してディスクエラーを検出する処理をディスク診断制御部153が行う。なお、ディスクエラーは、例えば、ディスクアクセスに対する応答として、エラーメッセージを受信することによって検出される。この処理を実行するディスク診断制御部153は、図1における診断部11に相当する機能を提供する。
次に、S102では、S101の処理で実施されたディスク診断において、ディスクエラーが検出されたか否かを判定する処理をディスク診断制御部153が行う。ここで、ディスク診断制御部153は、ディスクエラーを検出したと判定したとき(判定結果がYesのとき)にはS103に処理を進める。一方、ディスク診断制御部153は、ここで、ディスクエラーを検出しないと判定したとき(判定結果がNoのとき)にはS101へ処理を戻して、ディスクエラーを検出する処理を継続する。
以降の説明においては、上述したようにしてディスク診断制御部153によってディスクエラーが検出されたディスクを、「エラー検出ディスク」と称することとする。
まず、S103では、ディスク管理テーブル130を参照して、エラー検出ディスクについての属性情報を取得する処理を診断スケジュール制御部152が行う。
次に、S104では、ディスク管理テーブル130を更に参照して、属性情報がエラー検出ディスクと類似しているディスクを抽出し、抽出されたディスクからなるグループを作成する処理を診断スケジュール制御部152が行う。この処理により作成されるグループを、「類似ディスクグループ」と称することとする。
次に、S105では、エラー検出ディスクで検出されたエラーが所定の重度のものであるか否かを判定する処理をディスク診断制御部153が行う。この処理を実行するディスク診断制御部153は、図1における判定部12に相当する機能を提供する。
本実施例では、このS105の処理では、まず、エラー評価テーブル140(図3)を参照して、エラー検出ディスクで検出されたエラーについての評価点を取得し、この評価点と所定の閾値点との大小比較を行う。ここで、評価点が閾値点以上であれば、当該エラーが重度であるとの判定を下し、評価点が閾値点未満であれば、当該エラーが軽度であるとの判定を下す。なお、エラー検出ディスクで検出されたエラーが複数であった場合には、各エラーについての評価点の合計と、所定の閾値点との大小比較を行うようにする。従って、この判定処理は、エラー検出ディスクから複数検出されたエラーの各々は軽度のものであっても、そのエラー検出ディスクは重度のエラーの状態におかれているとの判定を下す場合もある。
ディスク診断制御部153は、このS105の判定処理において、エラー検出ディスクで検出されたエラーが重度のものであると判定したとき(判定結果がYesのとき)にはS106に処理を進める。一方、エラー検出ディスクで検出されたエラーが軽度のものであると判定したとき(判定結果がNoのとき)にはS110に処理を進める。
次に、S106では、ディスク診断の実施スケジュールから、エラー検出ディスクが含まれているRAIDのグループを除外する処理を診断スケジュール制御部152が行う。この処理では、エラー検出ディスクが含まれているRAIDのグループの情報をディスク管理テーブル130から取得し、取得されたグループを実施スケジュールから除外する処理が行われる。この処理を実行するディスク診断制御部153は、図1における除外部13に相当する機能を提供する。
次に、S107では、重度のエラーの発生が検出されたことを表している所定の警告を、ホストI/F110−1及び110−2からホストシステム300へ出力する処理をI/O制御部151が行う。この処理に従って所定の警告を出力するI/O制御部151は、図1における出力部15に相当する機能を提供する。なお、この処理によって出力される警告には、エラー検出ディスクを特定する情報を添付してもよく、また、S106の処理によってディスク診断の実施スケジュールから除外されたRAIDのグループを特定する情報を添付してもよい。また、この処理において、所定の警告の出力を、図4の表示装置405に表示させて行うようにしてもよい。
次に、S108では、この時点で類似ディスクグループに属しているディスクに、当該グループ外のディスクによって冗長性が確保されているものがあるか否かを判定する処理を診断スケジュール制御部152が行う。この処理では、まず、類似ディスクグループに属しているディスクが含まれているRAIDのグループの情報をディスク管理テーブル130から取得する。そして、取得されたグループに含まれており且つ類似ディスクグループには属していないディスクによって、類似ディスクグループに属しているディスクの冗長性が確保されているか否かが判定される。但し、類似ディスクグループに属しているディスクが含まれているRAIDのグループにエラー検出ディスク自体が属していた場合には、そのエラーの発生によって、上述の冗長性が確保されなくなったとの判定を下す。
診断スケジュール制御部152は、このS108の判定処理において、上述の冗長性が確保されているものがあると判定したとき(判定結果がYesのとき)にはS109に処理を進める。一方、診断スケジュール制御部152は、このS108の判定処理において、上述の冗長性が確保されているものがないと判定したとき(判定結果がNoのとき)にはS113に処理を進める。
次に、S109では、S108の判定処理において上述の冗長性が確保されていると判定されたディスクを、類似ディスクグループから除外する処理を診断スケジュール制御部152が行い、その後はS113に処理を進める。
ところで、S105の判定処理においてエラー検出ディスクで検出されたエラーが軽度のものであると判定したときには、S110の処理が行われる。S110では、エラー検出ディスクを含んでいるRAIDのグループに含まれている全てのディスクを、類似ディスクグループに追加する処理が行われる。
次に、S111では、この時点で類似ディスクグループに属しているディスクに、当該グループ外のディスクによって冗長性が確保されているものがあるか否かを判定する処理を診断スケジュール制御部152が行う。この処理は、前述したS108と同様の処理である。
診断スケジュール制御部152は、このS111の判定処理において、上述の冗長性が確保されているものがあると判定したとき(判定結果がYesのとき)にはS112に処理を進める。一方、診断スケジュール制御部152は、このS111の判定処理において、上述の冗長性が確保されているものがないと判定したとき(判定結果がNoのとき)にはS113に処理を進める。
次に、S112では、S111の判定処理において上述の冗長性が確保されていると判定されたディスクを、類似ディスクグループから除外する処理を診断スケジュール制御部152が行い、その後はS113に処理を進める。
次に、S113では、この時点でのディスク診断の実施スケジュールを変更して、この時点での類似ディスクグループを追加する処理を診断スケジュール制御部152が行う。この処理による類似ディスクグループの実施スケジュールへの追加により、この時点で類似ディスクグループに含まれていたディスクに対するディスク診断の頻度が高くなる。
以上のS108からS113までの処理を実行する診断スケジュール制御部152は、図1における診断頻度変更部14に相当する機能を提供する。
上述のS113の処理が完了した後はS101に処理が戻り、変更後のスケジュールの下でのディスク診断が行われる。
以上までの処理がディスクパトロール制御処理である。
次に、図2のディスク制御装置100において上述したディスクパトロール制御処理が行われることによって実現されるディスクパトロール動作について、図6から図10の各図を用いて説明する。
まず図6について説明する。
図6の例において、「グループ1」及び「グループ2」は、それぞれRAIDのグループを表している。このうち、「グループ1」は、名称がそれぞれDisk#0100、Disk#0101、Disk#0102、及びDisk#0103である4台のディスクを含むグループであり、この4台のディスクによってRAID5が構成されている。また、「グループ2」は、名称がそれぞれDisk#0200、Disk#0201、Disk#0202、及びDisk#0203である4台のディスクを含むグループであり、この4台のディスクによってRAID5が構成されている。なお、RAID5では、グループ内の1台のディスクに故障が発生してもデータの復旧は可能であり、グループ内の2台以上のディスクに故障が発生した場合にはデータを復旧できなくなる。従って、RAID5では、グループ内の1台のディスクの故障に対する冗長性が確保されている。
図6の例では、ディスク制御装置100は、「グループ1」を構成しているディスク及び「グループ2」を構成しているディスクに対するディスクパトロールを行う。
ディスク制御装置100が保持しているディスク管理テーブル130では、「ディスク名称」と、「製造番号」と、「グループ」とが対応付けられている。ここで、「ディスク名称」は、ディスクの名称である。また、「製造番号」は、「ディスク名称」で特定されるディスクの製造時に付された製造番号である。なお、製造番号はディスクの属性情報の一例である。また、「グループ」は、「ディスク名称」で特定されるディスクが属しているRAIDのグループを表している。
また、図6の例では、ディスク診断の実施スケジュールとして、「グループ1」と「グループ2」とが交互に実施される初期スケジュールが、予め設定されているものとする。
前述した図5のディスクパトロール制御処理の実行が開始されると、S101及びS102の処理の繰り返しによりディスクパトロールが実施されてディスクエラーの検出が行われる。図6の例は、このディスクパトロールによってDisk#0102のエラーが検出された状態を表している。このエラーが検出されると、処理はS103に進み、エラーが検出されたDisk#0201の製造番号「3KT00NJS0416」が、属性情報として、ディスク管理テーブル130から取得される。
次に、S104において類似ディスクグループを作成する処理が行われ、続くS105において、Disk#0102のエラーが重度のものであるか否かを判定する処理が行われる。ここで、Disk#0102のエラーが重度であった場合の例を図解したものが図7である。
図7の例では、S104の処理により、Disk#0102に製造番号が類似するディスクとして、Disk#0202とDisk#0203とがディスク管理テーブル130から抽出されて類似ディスクグループが作成されたことを表している。図7では、この類似ディスクグループを、便宜上「グループ3」と表記している。
なお、図7から図10の各図の例では、各ディスクに付与されている12桁の製造番号のうちで、文字がDisk#0102の製造番号と同一である桁が8桁以上であることを、属性情報の類似の判断基準として採用している。
図7の例では、Disk#0102のエラーが重度であったことから、図5のディスクパトロール制御処理では、次にS106の処理が行われる。そして、S106の処理により、Disk#0102が含まれているRAIDのグループである、「グループ1」がディスク診断の実施スケジュールから除外される。従って、この除外後の実施スケジュールは、「グループ2」のみとなり、「グループ1」に含まれている各ディスクに対するディスク診断は、この後は行われなくなる。従って、「グループ2」に含まれている各ディスクに対するディスク診断の頻度が高くなる。
その後、S107の処理によって所定の警告が出力され、続くS108の処理によって、類似ディスクグループに含まれているディスクに、類似ディスクグループ外のディスクによって冗長性が確保されているものがあるか否かが判定される。
図7の例では、Disk#0202とDisk#0203との両者が、RAID5である「グループ2」に含まれている。従って、この2台のディスクは、「グループ2」において類似ディスクグループには属していないDisk#0200及びDisk#0201による冗長性は確保されていない。従って、S108の判定結果は「No」となり、Disk#0202とDisk#0203とは、どちらも類似ディスクグループから削除されることなく、処理はS113に進む。
S113では、ディスク診断の実施スケジュールに、この時点での類似ディスクグループを追加する処理が行われる。この処理の直前の実施スケジュールは、S106の処理によって「グループ2」のみとなっているので、これに類似ディスクグループである「グループ3」がS113の処理によって追加される。この結果、以降のディスク診断の実施スケジュールは「グループ2」と「グループ3」との繰り返しとなる。ここで、Disk#0202とDisk#0203とは、「グループ2」と「グループ3」とのどちらにも含まれている。従って、これらのディスクに対するディスク診断の頻度は、Disk#0102のエラーの検出前に比べて高くなる。
次に図8の例について説明する。
図8の例は、図6及び図7の例に、RAIDのグループである「グループ3」が追加されている。この「グループ3」は、名称がそれぞれDisk#0300、Disk#0301、Disk#0302、及びDisk#0303である4台のディスクを含むグループであり、この4台のディスクによってRAID5が構成されている。また、ディスク管理テーブル130には、これらのDisk#0300、Disk#0301、Disk#0302、及びDisk#0303に関する情報も格納されている。なお、ここで、Disk#0302が、Disk#0102と製造番号が類似していることを表している。
また、図8の例では、ディスク診断の実施スケジュールとして、「グループ1」、「グループ2」、及び「グループ3」が、この順序で繰り返し実施される初期スケジュールが、予め設定されているものとする。
前述した図5のディスクパトロール制御処理の実行が開始されると、S101及びS102の処理の繰り返しによりディスクパトロールが実施されてディスクエラーの検出が行われる。図8の例においても、このディスクパトロールによってDisk#0102のエラーが検出された状態を表している。このエラーが検出されると、処理はS103に進み、エラーが検出されたDisk#0201の製造番号が、属性情報として、ディスク管理テーブル130から取得される。
次に、S104において類似ディスクグループを作成する処理が行われ、続くS105において、Disk#0102のエラーが重度のものであるか否かを判定する処理が行われる。図8の例は、Disk#0102のエラーが重度であった場合を想定している。
図8の例では、S104の処理により、Disk#0102に製造番号が類似するディスクとして、Disk#0202、Disk#0203、及びDisk#0302がディスク管理テーブル130から抽出されて類似ディスクグループが一旦作成される。ここでは、この類似ディスクグループを、便宜上「グループ4」と表記することとする。
Disk#0102のエラーが重度であったことから、図5のディスクパトロール制御処理では、次にS106の処理が行われる。そして、S106の処理により、Disk#0102が含まれているRAIDのグループである、「グループ1」がディスク診断の実施スケジュールから除外される。従って、この除外後の実施スケジュールは、「グループ2」と「グループ3」とが交互に実施されるものとなり、「グループ1」に含まれている各ディスクに対するディスク診断は、この後は行われなくなる。従って、「グループ2」及び「グループ3」のどちらかに含まれている各ディスクに対するディスク診断の頻度が高くなる。
その後、S107の処理によって所定の警告が出力され、続くS108の処理によって、類似ディスクグループに含まれているディスクに、類似ディスクグループ外のディスクによって冗長性が確保されているものがあるか否かが判定される。
図8の例において、Disk#0202とDisk#0203との両者が、RAID5のグループである「グループ2」に含まれている点は、図7の例と同様である。従って、この2台のディスクは、「グループ2」において類似ディスクグループには属していないDisk#0200及びDisk#0201による冗長性は確保されていない。これに対し、Disk#0302は、RAID5のグループである「グループ3」に含まれている。従って、Disk#0302は、「グループ3」において類似ディスクグループには属していないDisk#0300、Disk#0301、及びDisk#0303によって冗長性が確保されている。従って、S108の判定結果は「Yes」となり、処理はS109に進む。
S109では、上述した冗長性が確保されているDisk#0302が、類似ディスクグループから除外される処理が行われる。この結果、類似ディスクグループである「グループ4」に属するディスクは、Disk#0202及びDisk#0203となる。
S113では、ディスク診断の実施スケジュールに、この時点での類似ディスクグループを追加する処理が行われる。この処理の直前の実施スケジュールは、S106の処理によって「グループ2」と「グループ3」とが交互に実施されるものとなっているので、これに類似ディスクグループである「グループ4」がS113の処理によって追加される。この結果、以降のディスク診断の実施スケジュールは「グループ2」、「グループ3」、「グループ4」がこの順序で繰り返し実施されるものとなる。ここで、重度のエラーが検出されたDisk#0102と製造番号が類似しているDisk#0202とDisk#0203とは、「グループ2」と「グループ4」とのどちらにも含まれている。従って、これらのディスクに対するディスク診断の頻度は、Disk#0102のエラーの検出前に比べて高くなる。これに対し、Disk#0302は、Disk#0102と製造番号が類似しているが、「グループ3」による冗長化が確保されているので、Disk#0202及びDisk#0203のようなディスク診断の頻度の変更は行われない。
次に図9の例について説明する。
前述した図7の例は、Disk#0102のエラーが重度であった場合を図解したものであったのに対し、図9の例は、Disk#0102のエラーが軽度であった場合を表している。
なお、図9の例においても、ディスク診断の実施スケジュールとして、「グループ1」と「グループ2」とが交互に実施される初期スケジュールが、予め設定されているものとする。
前述した図5のディスクパトロール制御処理の実行が開始されると、S101及びS102の処理の繰り返しによりディスクパトロールが実施されてディスクエラーの検出が行われて、Disk#0102のエラーが検出される。すると、処理はS103に進み、エラーが検出されたDisk#0201の製造番号が、属性情報として、ディスク管理テーブル130から取得される。
次に、S104において類似ディスクグループを作成する処理が行われる。図9の例でも、S104の処理により、Disk#0102に製造番号が類似するディスクとして、Disk#0202、Disk#0203、及びDisk#0302がディスク管理テーブル130から抽出されて類似ディスクグループが一旦作成される。ここでは、この類似ディスクグループを、便宜上「グループ3」と表記することとする。
次にS105において、Disk#0102のエラーが重度のものであるか否かを判定する処理が行われる。図9の例では、Disk#0102のエラーが軽度であったことから、次にS110の処理が行われる。そして、S110の処理により、Disk#0102が含まれているRAIDのグループである、「グループ1」に含まれている全てのディスクを、類似ディスクグループに追加する処理が行われる。従って、「グループ1」に含まれているDisk#0100、Disk#0101、Disk#0102、及びDisk#0103の4台のディスクが、「グループ3」に追加される。
次に、S111の処理によって、類似ディスクグループに含まれるディスクに、類似ディスクグループ外のディスクによって冗長性が確保されているものがあるか否かが判定される。
図9の例では、Disk#0202及びDisk#0203が、RAID5である「グループ2」に含まれており、Disk#0100、Disk#0101、Disk#0102、及びDisk#0103が、RAID5である「グループ1」に含まれている。しかし、これらのディスクは、各グループにおいて類似ディスクグループには属していないディスクによる冗長性は確保されていない。従って、S111の判定結果は「No」となり、類似ディスクグループからいずれのディスクも削除されることなく、処理はS113に進む。
S113では、ディスク診断の実施スケジュールに、この時点での類似ディスクグループを追加する処理が行われる。この処理の直前の実施スケジュールは、「グループ1」と「グループ2」とが交互に実施される初期スケジュールのままであるので、これに類似ディスクグループである「グループ3」がS113の処理によって追加される。この結果、以降のディスク診断の実施スケジュールは「グループ1」、「グループ2」、「グループ3」がこの順序で繰り返し実施されるものとなる。ここで、類似ディスクグループである「グループ3」に含まれているディスクは、いずれも、「グループ1」及び「グループ2」のどちらかに含まれている。従って、これらのディスクに対するディスク診断の頻度は、Disk#0102のエラーの検出前に比べて高くなる。
次に図10の例について説明する。
前述した図8の例は、Disk#0102のエラーが重度であった場合を図解したものであったのに対し、図10の例は、Disk#0102のエラーが軽度であった場合を表している。
なお、図10の例でも、ディスク診断の実施スケジュールとして、「グループ1」、「グループ2」、及び「グループ3」が、この順序で繰り返し実施される初期スケジュールが、予め設定されているものとする。
前述した図5のディスクパトロール制御処理の実行が開始されると、S101及びS102の処理の繰り返しによりディスクパトロールが実施されてディスクエラーの検出が行われる。図8の例においても、このディスクパトロールによってDisk#0102のエラーが検出された状態を表している。このエラーが検出されると、処理はS103に進み、エラーが検出されたDisk#0201の製造番号が、属性情報として、ディスク管理テーブル130から取得される。
次に、S104において類似ディスクグループを作成する処理が行われる。図8の例では、この処理により、Disk#0102に製造番号が類似するディスクとして、Disk#0202、Disk#0203、及びDisk#0302がディスク管理テーブル130から抽出されて類似ディスクグループが一旦作成される。ここでは、この類似ディスクグループを、便宜上「グループ4」と表記することとする。
次に、S105において、Disk#0102のエラーが重度のものであるか否かを判定する処理が行われる。図10の例では、Disk#0102のエラーが軽度であったことから、次にS110の処理が行われる。そして、S110の処理により、Disk#0102が含まれているRAIDのグループである、「グループ1」に含まれている全てのディスクを、類似ディスクグループに追加する処理が行われる。従って、「グループ1」に含まれているDisk#0100、Disk#0101、Disk#0102、及びDisk#0103の4台のディスクが、「グループ4」に追加される。
次に、S111の処理によって、類似ディスクグループに含まれるディスクに、類似ディスクグループ外のディスクによって冗長性が確保されているものがあるか否かが判定される。
図10の例では、Disk#0202及びDisk#0203が、RAID5である「グループ2」に含まれており、Disk#0100、Disk#0101、Disk#0102、及びDisk#0103が、RAID5である「グループ1」に含まれている。しかし、これらのディスクは、各グループにおいて類似ディスクグループには属していないディスクによる冗長性は確保されていない。これに対し、Disk#0302は、RAID5のグループである「グループ3」に含まれている。従って、Disk#0302は、「グループ3」において類似ディスクグループには属していないDisk#0300、Disk#0301、及びDisk#0303によって冗長性が確保されている。従って、S111の判定結果は「Yes」となり、処理はS112に進む。
S112では、上述した冗長性が確保されているDisk#0302が、類似ディスクグループから除外する処理が行われる。この結果、類似ディスクグループである「グループ4」に属するディスクは、Disk#0202及びDisk#0203と、Disk#0100、Disk#0101、Disk#0102、及びDisk#0103とになる。
S113では、ディスク診断の実施スケジュールに、この時点での類似ディスクグループを追加する処理が行われる。この処理の直前の実施スケジュールは、この処理の直前の実施スケジュールは、「グループ1」、「グループ2」、及び「グループ3」が、この順序で繰り返し実施される初期スケジュールのままである。従って、この初期スケジュールに、類似ディスクグループである「グループ4」がS113の処理によって追加される。この結果、以降のディスク診断の実施スケジュールは「グループ1」、「グループ2」、「グループ3」、「グループ4」がこの順序で繰り返し実施されるものとなる。ここで、類似ディスクグループである「グループ4」に含まれているディスクは、いずれも、「グループ1」及び「グループ2」のどちらかに含まれている。従って、これらのディスクに対するディスク診断の頻度は、Disk#0102のエラーの検出前に比べて高くなる。これに対し、Disk#0302は、Disk#0102と製造番号が類似しているが、「グループ3」による冗長化が確保されているので、「グループ4」に含まれているディスクのようなディスク診断の頻度の変更は行われない。
以上のように、図2のディスク制御装置100では、異常が検出されたディスクの異常の程度が重度であった場合には、当該ディスク装置との間でRAIDを構成しているものを、異常の巡回検出の対象から除外する。このようにすることで、異常の巡回検出の対象から除外されずに残されたディスクに対する異常検出の頻度を高まるので、当該残されたディスクについての異常の検出が早期に行えるようになる。
なお、上述した実施例では、ディスクの属性情報として、ディスクに付与されている製造番号を使用したが、他の情報も利用可能である。例えば、ディスクのメーカ名、記憶容量、製造年月日、製造ロット番号、インタフェース形式名や、これらの組み合わせが、利用可能な属性情報として利用可能である。
なお、以上までに説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
複数のディスク装置の各々について異常かどうか診断を行う診断部と、
前記診断部によって異常と診断されると、該異常が所定の異常であるか否かを判定する判定部と、
前記所定の異常であると前記判定部が判定すると、前記複数のディスク装置のうちで、該所定の異常と判定されたディスク装置である異常ディスク装置との間でRAIDを構成しているディスク装置を、前記診断部による診断対象から除外する除外部と、
を備えるディスク制御装置。
(付記2)
前記診断部により診断された異常が前記所定の異常であると前記判定部が判定したときに、前記除外部が診断対象から除外しなかったディスク装置のうちで、ディスク装置に付されている属性情報が前記異常ディスク装置との間で所定の類似関係を有しているディスク装置に対する前記診断部による診断の頻度を高く変更する診断頻度変更部を更に備える付記1に記載のディスク制御装置。
(付記3)
前記属性情報は、ディスク装置に付されている製造番号である付記2に記載のディスク制御装置。
(付記4)
前記診断頻度変更部は、前記異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置のうちで、該異常ディスク装置との間で前記属性情報が前記所定の類似関係を有していないディスク装置との間で冗長性が確保されているディスク装置に対しては、前記診断の頻度の変更を行わない付記2又は3に記載のディスク制御装置。
(付記5)
前記診断頻度変更部は、前記診断部により診断された異常が前記所定の異常ではないと前記判定部が判定したときには、前記複数のディスク装置のうちで、該所定の異常ではない異常と判定されたディスク装置である軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置に対する該診断部による診断の頻度を高くする付記2から4のうちのいずれか一項に記載のディスク制御装置。
(付記6)
前記診断頻度変更部は、前記軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置のうちで、該軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有していないディスク装置によって該軽度異常ディスク装置との間で冗長性が確保されているディスク装置に対しては、前記異常の診断の頻度の変更を行わない付記5に記載のディスク制御装置。
(付記7)
前記診断部により診断された異常が前記所定の異常であると前記判定部が判定したときに、該判定の結果を表している警告を出力する出力部を更に備える付記1から6のうちのいずれか一項に記載のディスク制御装置。
(付記8)
複数のディスク装置の各々について診断を行い、
前記診断の結果異常が検出されたときに、該検出された異常が所定の異常であるか否かを判定し、
前記検出された異常が前記所定の異常であると判定されたときに、前記複数のディスク装置のうち、該所定の異常が検出されたディスク装置である異常ディスク装置との間でRAIDを構成しているディスク装置を診断対象から除外し、
前記複数のディスク装置のうち診断対象から除外されていない残りのディスク装置の各々に対して前記診断を継続する、
ディスク装置異常検出方法。
(付記9)
前記検出された異常が前記所定の異常であると判定されたときに、診断対象から除外されなかったディスク装置のうちで、ディスク装置に付されている属性情報が前記異常ディスク装置との間で所定の類似関係を有しているディスク装置に対する前記診断の頻度を高くする付記8に記載のディスク装置異常検出方法。
(付記10)
前記異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置のうちで、該異常ディスク装置との間で前記属性情報が前記所定の類似関係を有していないディスク装置との間で冗長性が確保されているディスク装置に対しては、前記診断の頻度の変更を行わない付記9に記載のディスク装置異常検出方法。
(付記11)
前記検出された異常が前記所定の異常ではないと判定されたときには、前記複数のディスク装置のうちで、該所定の異常ではない異常と判定されたディスク装置である軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置に対する前記診断の頻度を高くする付記9又は10に記載のディスク装置異常検出方法。
(付記12)
前記軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置のうちで、該軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有していないディスク装置によって該軽度異常ディスク装置との間で冗長性が確保されているディスク装置に対しては、前記診断の頻度の変更を行わない付記11に記載のディスク装置異常検出方法。
(付記13)
複数のディスク装置の各々について診断を行い、
前記診断の結果異常が検出されたときに、該検出された異常が所定の異常であるか否かを判定し、
前記検出された異常が前記所定の異常であると判定されたときに、前記複数のディスク装置のうち、該所定の異常が検出されたディスク装置である異常ディスク装置との間でRAIDを構成しているディスク装置を診断対象から除外し、
前記複数のディスク装置のうち診断対象から除外されていない残りのディスク装置の各々に対して前記診断を継続する、
処理を演算処理装置に実行させるプログラム。
(付記14)
前記検出された異常が前記所定の異常であると判定されたときに、診断対象から除外されなかったディスク装置のうちで、ディスク装置に付されている属性情報が前記異常ディスク装置との間で所定の類似関係を有しているディスク装置に対する前記診断の頻度を高くする処理を前記演算処理装置に更に実行させる付記13に記載のプログラム。
(付記15)
前記異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置のうちで、該異常ディスク装置との間で前記属性情報が前記所定の類似関係を有していないディスク装置との間で冗長性が確保されているディスク装置に対しては、前記診断の頻度の変更を行わない付記14に記載のプログラム。
(付記16)
前記検出された異常が前記所定の異常ではないと判定されたときには、前記複数のディスク装置のうちで、該所定の異常ではない異常と判定されたディスク装置である軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置に対する前記診断の頻度を高くする付記14又は15に記載のプログラム。
(付記17)
前記軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置のうちで、該軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有していないディスク装置によって該軽度異常ディスク装置との間で冗長性が確保されているディスク装置に対しては、前記診断の頻度の変更を行わない付記16に記載のプログラム。
1、100、100−1、100−2 ディスク制御装置
2、2−1、2−2、2−n ディスク装置
11 診断部
12 判定部
13 除外部
14 診断頻度変更部
15 出力部
110−1、110−2 ホストI/F
120−1、120−2 ディスクI/F
130 ディスク管理テーブル
140 エラー評価テーブル
150 制御部
151 I/O制御部
152 診断スケジュール制御部
153 ディスク診断制御部
200−1、200−2 ディスクアレイ
200−1−1、200−1−2、200−1−3、200−1−4、
200−n−1、200−n−2、200−n−3、200−n−4 ディスク
300 ホストシステム
401 MPU
402 ROM
403 RAM
404 インタフェース装置
405 表示装置
406 バスライン
407 可搬型記録媒体
408 データ読出装置

Claims (9)

  1. 複数のディスク装置の各々について異常かどうか診断を行う診断部と、
    前記診断部によって異常と診断されると、該異常が所定の異常であるか否かを判定する判定部と、
    前記所定の異常であると前記判定部が判定すると、前記複数のディスク装置のうちで、該所定の異常と判定されたディスク装置である異常ディスク装置との間でRAIDを構成しているディスク装置を、前記診断部による診断対象から除外する除外部と、
    を備えるディスク制御装置。
  2. 前記診断部により診断された異常が前記所定の異常であると前記判定部が判定したときに、前記除外部が診断対象から除外しなかったディスク装置のうちで、ディスク装置に付されている属性情報が前記異常ディスク装置との間で所定の類似関係を有しているディスク装置に対する前記診断部による診断の頻度を高く変更する診断頻度変更部を更に備える請求項1に記載のディスク制御装置。
  3. 前記属性情報は、ディスク装置に付されている製造番号である請求項2に記載のディスク制御装置。
  4. 前記診断頻度変更部は、前記異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置のうちで、該異常ディスク装置との間で前記属性情報が前記所定の類似関係を有していないディスク装置との間で冗長性が確保されているディスク装置に対しては、前記診断の頻度の変更を行わない請求項2又は3に記載のディスク制御装置。
  5. 前記診断頻度変更部は、前記診断部により診断された異常が前記所定の異常ではないと前記判定部が判定したときには、前記複数のディスク装置のうちで、該所定の異常ではない異常と判定されたディスク装置である軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置に対する該診断部による診断の頻度を高くする請求項2から4のうちのいずれか一項に記載のディスク制御装置。
  6. 前記診断頻度変更部は、前記軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有しているディスク装置のうちで、該軽度異常ディスク装置との間で前記属性情報が前記所定の類似関係を有していないディスク装置によって該軽度異常ディスク装置との間で冗長性が確保されているディスク装置に対しては、前記異常の診断の頻度の変更を行わない請求項5に記載のディスク制御装置。
  7. 前記診断部により診断された異常が前記所定の異常であると前記判定部が判定したときに、該判定の結果を表している警告を出力する出力部を更に備える請求項1から6のうちのいずれか一項に記載のディスク制御装置。
  8. 複数のディスク装置の各々について診断を行い、
    前記診断の結果異常が検出されたときに、該検出された異常が所定の異常であるか否かを判定し、
    前記検出された異常が前記所定の異常であると判定されたときに、前記複数のディスク装置のうち、該所定の異常が検出されたディスク装置である異常ディスク装置との間でRAIDを構成しているディスク装置を診断対象から除外し、
    前記複数のディスク装置のうち診断対象から除外されていない残りのディスク装置の各々に対して前記診断を継続する、
    ディスク装置異常検出方法。
  9. 複数のディスク装置の各々について診断を行い、
    前記診断の結果異常が検出されたときに、該検出された異常が所定の異常であるか否かを判定し、
    前記検出された異常が前記所定の異常であると判定されたときに、前記複数のディスク装置のうち、該所定の異常が検出されたディスク装置である異常ディスク装置との間でRAIDを構成しているディスク装置を診断対象から除外し、
    前記複数のディスク装置のうち診断対象から除外されていない残りのディスク装置の各々に対して前記診断を継続する、
    処理を演算処理装置に実行させるプログラム。
JP2011161051A 2011-07-22 2011-07-22 ディスク制御装置、ディスク装置異常検出方法、及びプログラム Expired - Fee Related JP5849491B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011161051A JP5849491B2 (ja) 2011-07-22 2011-07-22 ディスク制御装置、ディスク装置異常検出方法、及びプログラム
US13/541,822 US8977892B2 (en) 2011-07-22 2012-07-05 Disk control apparatus, method of detecting failure of disk apparatus, and recording medium for disk diagnosis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011161051A JP5849491B2 (ja) 2011-07-22 2011-07-22 ディスク制御装置、ディスク装置異常検出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013025632A true JP2013025632A (ja) 2013-02-04
JP5849491B2 JP5849491B2 (ja) 2016-01-27

Family

ID=47556674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011161051A Expired - Fee Related JP5849491B2 (ja) 2011-07-22 2011-07-22 ディスク制御装置、ディスク装置異常検出方法、及びプログラム

Country Status (2)

Country Link
US (1) US8977892B2 (ja)
JP (1) JP5849491B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054204A (ja) * 2015-09-07 2017-03-16 富士通株式会社 ストレージ制御装置、制御方法、および制御プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10620796B2 (en) * 2013-12-19 2020-04-14 Barnes & Noble College Booksellers, Llc Visual thumbnail scrubber for digital content
US9329923B2 (en) * 2014-05-15 2016-05-03 Baker Botts L.L.P. Diagnostic testing based on information handling system variables
US9582363B2 (en) 2014-06-09 2017-02-28 International Business Machines Corporation Failure domain based storage system data stripe layout

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007141185A (ja) * 2005-11-22 2007-06-07 Hitachi Ltd 記憶制御装置及び記憶制御装置のエラー情報管理方法
JP2007213721A (ja) * 2006-02-10 2007-08-23 Hitachi Ltd ストレージシステム及びその制御方法
JP2007233915A (ja) * 2006-03-03 2007-09-13 Nec System Technologies Ltd ディスクアレイ制御装置及びエラー監視方法並びにプログラム
WO2008136074A1 (ja) * 2007-04-20 2008-11-13 Fujitsu Limited 2重化組み合わせ管理プログラム、2重化組み合わせ管理装置、および2重化組み合わせ管理方法
JP2009086971A (ja) * 2007-09-28 2009-04-23 Fujitsu Ltd ディスクアレイ装置、ディスクアレイ装置制御プログラムおよびディスクアレイ装置制御方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2996216B2 (ja) 1997-09-08 1999-12-27 日本電気株式会社 装置の検査方法
JP4933722B2 (ja) 2004-06-16 2012-05-16 富士通株式会社 ディスク制御装置、ディスクパトロール方法およびディスクパトロールプログラム
JP2006079418A (ja) * 2004-09-10 2006-03-23 Fujitsu Ltd 記憶制御装置、制御方法及びプログラム
US7516352B2 (en) * 2006-03-21 2009-04-07 International Business Machines Corporation Isolating a drive from disk array for diagnostic operations
US7779306B1 (en) * 2007-03-23 2010-08-17 Emc Corporation Method for automatically diagnosing hardware faults in a data storage system
JP4648961B2 (ja) * 2008-03-25 2011-03-09 富士通株式会社 装置メンテナンスシステム、方法および情報処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007141185A (ja) * 2005-11-22 2007-06-07 Hitachi Ltd 記憶制御装置及び記憶制御装置のエラー情報管理方法
JP2007213721A (ja) * 2006-02-10 2007-08-23 Hitachi Ltd ストレージシステム及びその制御方法
JP2007233915A (ja) * 2006-03-03 2007-09-13 Nec System Technologies Ltd ディスクアレイ制御装置及びエラー監視方法並びにプログラム
WO2008136074A1 (ja) * 2007-04-20 2008-11-13 Fujitsu Limited 2重化組み合わせ管理プログラム、2重化組み合わせ管理装置、および2重化組み合わせ管理方法
JP2009086971A (ja) * 2007-09-28 2009-04-23 Fujitsu Ltd ディスクアレイ装置、ディスクアレイ装置制御プログラムおよびディスクアレイ装置制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054204A (ja) * 2015-09-07 2017-03-16 富士通株式会社 ストレージ制御装置、制御方法、および制御プログラム

Also Published As

Publication number Publication date
US8977892B2 (en) 2015-03-10
US20130024730A1 (en) 2013-01-24
JP5849491B2 (ja) 2016-01-27

Similar Documents

Publication Publication Date Title
CN105468484B (zh) 用于在存储系统中确定故障位置的方法和装置
US8024609B2 (en) Failure analysis based on time-varying failure rates
JP2005122338A (ja) スペアディスクドライブをもつディスクアレイ装置及びデータスペアリング方法
US10606490B2 (en) Storage control device and storage control method for detecting storage device in potential fault state
JP2011170589A (ja) ストレージ制御装置、ストレージ装置およびストレージ制御方法
JP5849491B2 (ja) ディスク制御装置、ディスク装置異常検出方法、及びプログラム
JP2011108201A (ja) 情報処理装置、診断方法および診断プログラム
US20160110246A1 (en) Disk data management
JP5488709B2 (ja) ストレージ制御装置における基準時間設定方法
JP2015118561A (ja) ストレージ制御装置、ストレージ制御プログラム及びストレージ制御方法
US10783042B2 (en) System and method of assessing and managing storage device degradation
JP2008027240A (ja) ディスクアレイ装置及びパトロール診断方法及びパトロール診断制御プログラム
JP5440073B2 (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
US7457990B2 (en) Information processing apparatus and information processing recovery method
US10534683B2 (en) Communicating outstanding maintenance tasks to improve disk data integrity
CN112084097B (zh) 一种磁盘告警方法及装置
JP2007233915A (ja) ディスクアレイ制御装置及びエラー監視方法並びにプログラム
JP4867896B2 (ja) 情報処理システム
JP5273185B2 (ja) 記録媒体制御システム、記録媒体制御方法、記録媒体制御プログラム
US20200264946A1 (en) Failure sign detection device, failure sign detection method, and recording medium in which failure sign detection program is stored
JP2006285807A (ja) 記憶装置の試験方法及び装置
EP3547139B1 (en) System and method of assessing and managing storage device degradation
JP6805838B2 (ja) ディスク管理システム、ディスク管理方法、および、ディスク管理プログラム
JP5126389B2 (ja) 制御装置及び制御方法
CN113986142A (zh) 磁盘故障监控方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151117

R150 Certificate of patent or registration of utility model

Ref document number: 5849491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees