JP2004264997A - Disk drive patrol device for disk array device and method therefor - Google Patents

Disk drive patrol device for disk array device and method therefor Download PDF

Info

Publication number
JP2004264997A
JP2004264997A JP2003053044A JP2003053044A JP2004264997A JP 2004264997 A JP2004264997 A JP 2004264997A JP 2003053044 A JP2003053044 A JP 2003053044A JP 2003053044 A JP2003053044 A JP 2003053044A JP 2004264997 A JP2004264997 A JP 2004264997A
Authority
JP
Japan
Prior art keywords
disk
disk drive
disk array
hdd
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003053044A
Other languages
Japanese (ja)
Inventor
Yoshimitsu Kamiyama
義光 上山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003053044A priority Critical patent/JP2004264997A/en
Publication of JP2004264997A publication Critical patent/JP2004264997A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To improve the reliability/applicability/maintenance of a disk array device while reducing a load on the controller of the disk array device. <P>SOLUTION: An HDD checker 13 is connected to a storage bus 14 together with a RAID controller 12 and each HDD 110 by being mounted in another HDD slot 15 which is different from an HDD slot 15 in which each HDD 110 constituting a logic disk 11 is mounted. In this state, an HDD checker controller 13A in the HDD checker 13 monitors each HDD 110 connected to the storage bus 14 independently of the RAID controller 12. The result of the HDD monitoring is recorded to a storage device 13B by a host device 20 so that reading may be possible by the RAID controller 12 and the storage device 14 or through an external communication interface by means of an external terminal 30. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、ディスクアレイ装置に含まれているディスクドライブを監視するのに好適なディスクアレイ装置向けディスクドライブパトロール装置及び方法に関する。
【0002】
【従来の技術】
大容量ストレージ装置として、複数(少なくとも2つ)のディスクドライブから構成されるディスクアレイ(論理ディスク)を備えたディスクアレイ装置が知られている。このディスクアレイ装置は、ディスクドライブ(例えば、磁気ディスクドライブ)へのデータの書き込み、ディスクドライブからのデータの読み出しを制御するディスクアレイコントローラ(ディスク制御装置)を備えている。このディスクアレイコントローラは、一般にRAID(Redundant Array of Independent DisksまたはRedundant Array of Inexpensive Disks)コントローラと呼ばれる。
【0003】
ディスクアレイコントローラは、ディスクアレイ装置内の各ディスクドライブを制御する機能に加えて、当該ディスクドライブを監視(パトロール)する機能を有している(例えば、特許文献1参照)。ディスクアレイコントローラは、このパトロール機能により、ディスクアレイ装置内の各ディスクドライブの状態を把握する。ディスクアレイ装置を利用するホスト装置は、ディスクアレイコントローラが把握した、当該ディスクアレイ装置内の各ディスクドライブの状態を示す情報をディスクアレイコントローラから取得する。また、ディスクアレイコントローラが把握した情報を、当該コントローラに設けられた表示装置に表示すること、或いは通信線を介して保守センターに送ることも可能である。更に、表示装置、或いは保守センターからディスクドライブ監視に関する指示を入力することも可能である。従来は、このディスクアレイコントローラが把握した情報(各ディスクドライブの状態を示す情報)をホスト装置、保守センター等で利用することにより、ディスクアレイ装置のRAS(Reliability Availability Serviceability:信頼性・可用性・保守性)の向上を図っている。
【0004】
【特許文献1】
特開平5−265663号公報(図1、段落0013及び0014)
【0005】
【発明が解決しようとする課題】
上記したように従来技術では、ディスクアレイ装置のRASの向上のために、当該ディスクアレイ装置内の各ディスクドライブが、当該ディスクアレイ装置のコントローラ(ディスクアレイコントローラ)により監視(パトロール)される構成となっている。しかし、この従来技術においては、ディスクドライブのパトロールにおいて、ディスクアレイコントローラの負荷が大きいという問題がある。特に、最近増加している大規模なディスクアレイ装置では、ディスクアレイ(論理ディスク)を構成するディスクドライブの台数も極めて多いため(例えば、120台以上)、ディスクアレイコントローラの負荷も著しく増大している。このようなディスクアレイ装置では、各ディスクドライブに対するパトロールが行き届かない場合もある。また、ディスクアレイコントローラの障害が発生した場合には、各ディスクドライブに対するパトロールが行えないだけでなく、当該コントローラによって既に取得されている各ディスクドライブの状態を示す情報を利用することもできなくなる。
【0006】
本発明は上記事情を考慮してなされたものでその目的は、ディスクアレイ装置のコントローラ(ディスクアレイコントローラ)の負荷を低減しながら、当該ディスクアレイ装置の信頼性・可用性・保守性を向上できるディスクアレイ装置向けディスクドライブパトロール装置及び方法を提供することにある。
【0007】
【課題を解決するための手段】
本発明の1つの観点によれば、ディスクドライブが着脱自在に装着可能な複数のディスクドライブスロットと、当該複数のディスクドライブスロットの少なくとも2つに装着されたディスクドライブをメンバとする論理ディスクを制御するディスクアレイコントローラと、上記ディスクドライブスロットに装着されたディスクドライブ及び上記ディスクアレイコントローラを相互接続するためのストレージバスとを備えたディスクアレイ装置に適用されるディスクアレイ装置向けディスクドライブパトロール装置が提供される。このディスクドライブパトロール装置は、上記ディスクアレイ装置内の任意のディスクドライブスロットに着脱自在に装着されることにより当該パトロール装置を上記ストレージバスと接続するためのコネクタと、上記ストレージバスと接続されている各ディスクドライブを上記ディスクアレイコントローラとは独立して監視するディスクドライブ監視コントローラと、このディスクドライブ監視コントローラによる監視結果を記録するための記憶装置と、上記ディスクアレイコントローラとは独立して外部機器と通信を行うための、上記監視結果を当該外部機器に転送することが可能な外部通信インタフェースとから構成される。
【0008】
このような構成のディスクアレイ装置向けディスクドライブパトロール装置によれば、当該パトロール装置をディスクアレイ装置内の任意のディスクドライブスロットに装着してストレージバスに接続するだけで、当該パトロール装置のディスクドライブ監視コントローラにより、上記ストレージバス上の各ディスクドライブを、ディスクアレイコントローラから独立して監視(パトロール)できる。このディスクドライブパトロール装置によるディスクドライブ監視により、ディスクアレイコントローラの負荷を低減できる。また、このディスクドライブパトロール装置によるディスクドライブ監視は、ディスクアレイコントローラに障害が発生しても行えることから、保守性が向上する。
【0009】
ここで、上記ストレージバス上の各ディスクドライブを効率的に監視するには、当該ドライブにアクセスして当該ドライブが保持している信頼性情報を上記監視結果として読み出すイニシエータ手段を、上記ディスクドライブ監視コントローラに持たせるとよい。
【0010】
また、ディスクドライブ監視結果は記憶装置に記録され、その記憶装置に記録された監視結果は、ディスクアレイコントローラとは独立した外部通信インタフェースを介して外部機器により直接読み出すことが可能である。このため、外部機器(例えば、ディスクアレイ装置から遠隔の場所に配置され、上記外部通信インタフェースと通信線を介して接続される端末)を用いて遠隔からの点検・予防保守・障害解析が可能となる。これにより、ディスクアレイ装置のRAS(信頼性・可用性・保守性)を向上させることができる。
【0011】
また、記憶装置に記録された監視結果を、ホスト装置により、ディスクアレイコントローラ及びストレージバスを介して読み出すことも可能である。この読み出しが効率よく行えるようにするには、ディスクアレイコントローラからのアクセスに応答するターゲット手段を上記ディスクドライブ監視コントローラに持たせるとよい。
【0012】
また、上記ディスクドライブの監視結果を解析し、当該ディスクドライブの異常を判別した場合、その旨を上記外部通信インタフェースを介して外部機器に通知する手段を上記ディスクドライブ監視コントローラに持たせるならば、ディスクアレイ装置のRASを一層向上させることができる。
【0013】
また、上記ストレージバスの信号の状態をトレースして上記記録装置に記録するためのバス監視手段を上記ディスクドライブ監視コントローラに持たせるならば、上記トレース結果はストレージバスの障害発生時の解析に有効に利用できることから、ディスクアレイ装置の保守性を一層向上させることができる。ここで、上記バス監視手段に、上記トレース結果を解析し、異常検出時には、その旨を上記外部通信インタフェースを介して外部機器に通知する手段を持たせるならば、ディスクアレイ装置のRASを一層向上させることができる。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。図1は本発明の一実施形態に係るディスクアレイ装置を含む計算機システムの構成を示すブロック図である。図1において、ディスクアレイ装置10は、主として、論理ディスク(LU)11と、RAIDコントローラ(ディスクアレイコントローラ)12と、HDDチェッカ13とから構成されている。
【0015】
論理ディスク11は、少なくとも2つのディスクドライブ、例えば磁気ディスクドライブ(以下、HDDと称する)110から構成されるディスクアレイである。図1の例では、論理ディスク11は、4台のHDD110から構成されている。論理ディスク11は、ディスクアレイ装置10を利用するホスト装置20からは、1つのディスクとして取り扱われる。この論理ディスク11を構成するHDD110は、一般に、当該HDD110(内のディスク媒体)における障害リカバリ内容及びその数、並びに不良セクタ代替数等の情報(つまり信頼性情報)を取得して保持する機能を有している。RAIDコントローラ12は、論理ディスク11に対するアクセス、即ち論理ディスク11内のHDD110へのデータの書き込み及び当該HDD110からのデータの読み出しを制御する。ホスト装置20は、このディスクアレイ装置10内のRAIDコントローラ12と接続されることにより、当該ディスクアレイ装置10を利用する。
【0016】
HDDチェッカ13は、論理ディスク11を構成する(つまり論理ディスク11のメンバに属する)各HDD110を、RAIDコントローラ12とは独立して監視(パトロール)するHDDパトロール装置(ディスクアレイ装置向けディスクドライブパトロール装置)である。HDDチェッカ13は、ストレージバス14に接続して用いられる。このストレージバス14には、論理ディスク11を構成する各HDD110及びRAIDコントローラ12が接続される。ストレージバス14は、例えばファイバチャネル(Fibre Channel)である。しかし、ストレージバス14に、SCSI(Small Computer System Interface)バスを用いることも可能である。ディスクアレイ装置10は、論理ディスク11を構成するのに必要なHDD110をストレージバス14に着脱(挿抜)自在に接続するためのHDDスロット15を複数備えている。図1の例では、4つのHDDスロット15に、それぞれHDD110が装着されている。HDDスロット15は、汎用のコネクタ構造を有する。HDDチェッカ13の背面には、この複数のHDDスロット15のうちの任意のHDDスロット15に装着可能なように、HDD110のコネクタと同一構造のコネクタ13C(図3参照)が設けられている。HDDチェッカ13は、この複数のHDDスロット15のうちのいずれか1つに装着(挿入)して用いられる。ここで、HDDチェッカ13は、論理ディスク11のメンバには属さずに使用される。
【0017】
HDDチェッカ13は、上記監視機能を有するHDDチェッカコントローラ13Aと、このコントローラ13AによるHDD監視結果等を記憶するための不揮発性の記憶装置13Bとから構成される。記憶装置13Bには、ディスクドライブ(HDD)、或いは書き換え可能な不揮発性メモリ(例えば、フラッシュメモリ)が用いられる。ここでは、記憶装置13Bに、HDD110よりも小型のHDD、例えば2.5インチ型のHDDが用いられているものとする。HDDチェッカコントローラ13Aには、端末30が、Ethernet(登録商標)、RS232C、USB、或いはIEEE1394等の通信インタフェースに準拠した通信線31を介して外部接続可能である。ここでは、端末30はディスクアレイ装置10から遠隔の場所に設けられているものとする。端末30は、HDDチェッカ13の記憶装置13Bに記憶されているHDD監視結果を通信線31を介して読み込むことができる。また、この記憶装置13Bに記憶されているHDD監視結果は、ホスト装置20からもRAIDコントローラ12を介して読み込むことができる。
【0018】
図2は、HDDチェッカ13の主としてHDDチェッカコントローラ13Aの構成を示すブロック図である。HDDチェッカコントローラ13Aは、ストレージバスインタフェース131、記憶装置インタフェース132及び外部通信インタフェース133の3つのインタフェースと、表示部134とから構成される。
【0019】
ストレージバスインタフェース131は、ターゲット部131aを含む。ターゲット部131aは、論理ディスク11を構成するHDD110が一般に有するのと同様のターゲット機能を有する。つまりターゲット部131aは、ディスクアレイ装置10のRAIDコントローラ12からのアクセス(アクセスコマンド)に応答するターゲット機能を有し、HDDチェッカ13内の記憶装置13Bに格納されている情報をホスト装置20が読み出すために使用される。
【0020】
ストレージバスインタフェース131は、上記ターゲット部131aに加えて、イニシエータ部131b及びバス監視部131cを含む。イニシエータ部131bは、ストレージバス14上にアクセスコマンドを発行するイニシエータ機能を有する。イニシエータ部131aは、このイニシエータ機能を利用して、RAIDコントローラ12とは独立して、例えば自立的に且つ定期的にストレージバス14上の各HDD110を監視する。具体的には、イニシエータ部131aは、論理ディスク11を構成する各HDD110にポーリングによりアクセスし、当該HDD110に保持されている当該HDD110に固有の信頼性情報を読み出す。このHDD110毎の信頼性情報は、記憶装置インタフェース132によりHDDチェッカ13内の記憶装置13Bに格納されて管理される。
【0021】
バス監視部131cは、ストレージバス14を監視するバス監視機能を有する。具体的には、バス監視部131cは、ストレージバス14の信号について常に状態をトレースするバストレーサとして機能する。このストレージバス14の信号の状態のトレース結果(バストレース結果)は、記憶装置インタフェース132によりHDDチェッカ13内の記憶装置13Bに格納されて管理される。
【0022】
記憶装置インタフェース132は、ストレージバスインタフェース131内のイニシエータ部131bによる、ストレージバス14上の各HDD110の監視結果(イニシエータ部131bにより各HDD110から読み出された当該各HDD110の信頼性情報)、及びストレージバスインタフェース131内のバス監視部131cによるストレージバス14の信号の状態のトレース結果(バストレース結果)を、記憶装置13Bに格納して管理する。記憶装置インタフェース132は、記憶装置13Bに格納されている情報の一部を保持するキャッシュメモリ132aを含む。このため、必要とする情報がキャッシュメモリ132aにも保持されている場合、当該メモリ132aにアクセスすることにより、当該必要とする情報を、記憶装置13B(ここではHDD)から読み出す場合に比べて高速に取得することができる。
【0023】
外部通信インタフェース133は、HDDチェッカコントローラ13Aとディスクアレイ装置10の外部の電子機器との間で通信線31を介して通信を行うためのインタフェースである。この外部通信インタフェース133と通信線31を介して接続される端末30は、当該外部通信インタフェース133と通信を行うことで、記憶装置13Bに格納されている情報を記憶装置インタフェース132を介して読み出すことができる。
【0024】
表示部134は、例えば2つの表示ランプ134a及び134bを含む。表示ランプ134a及び134bは、バス監視部131cによるバストレースの結果、ストレージバス14がそれぞれ特定のバス状態にあることを表示するのに用いられる。表示ランプ134aは、例えば緑色のLED(発光素子)であり、ストレージバス14がファイバチャネルである本実施形態では、当該ストレージバス14がアクティブ(Link Ready)の状態の期間、バス監視部131cにより点灯される。これに対し、表示ランプ134bは、例えば赤色のLEDであり、ストレージバス14が非アクティブ(Link Down)の状態の期間、バス監視部131cにより点灯される。
【0025】
図3は、ディスクアレイ装置10の内部の概略構造を示す。ディスクアレイ装置10には、図3に示すように、ディスクシャーシ16が設けられている。図3では省略されているが、ディスクシャーシ16には図1に示したHDDスロット15が形成されている。図1中の論理ディスク11を構成する各HDD110は、このディスクシャーシ16に形成されたHDDスロット15に、当該HDD110のコネクタ(図示せず)を介して装着されることで、ディスクシャーシ16に実装される。同様に、HDDチェッカ13は、ディスクシャーシ16に形成されたHDDスロット15に、当該HDDチェッカ13の背面に設けられたコネクタ13Cを介して装着されることで、ディスクシャーシ16に実装される。HDDチェッカ13の前面には、外部通信インタフェース133(のコネクタ部)並びに表示ランプ134a及び134bが設けられている。ディスクシャーシ16には、図1中のRAIDコントローラ12が実装されたRAIDコントローラボード17が、当該ディスクシャーシ16に形成されたコントローラスロット(図示せず)を介して装着される。
【0026】
次に、本発明の実施形態の動作を説明する。まず、HDDチェッカ13によるHDD監視(パトロール)について、図4のシーケンスチャートを参照して説明する。HDDチェッカ13に設けられたストレージバスインタフェース131内のイニシエータ部131bは、イニシエータ機能を利用して、RAIDコントローラ12とは独立して、ストレージバス14上の各HDD110にポーリングより一定の順番で定期的にアクセスする。ここでは、ストレージバス14と接続されているHDDスロット15のうち、HDDチェッカ13が装着されたHDDスロット15を除く4つのHDDスロット15に装着されているHDD110が順次繰り返しアクセスされる(ステップS11〜S14)。これによりイニシエータ部131bは、ストレージバス14上の各HDD110に保持されている当該HDD110に固有の信頼性情報を読み出す(ステップS21〜S24)。図1の例では、ストレージバス14に接続されている4台のHDD110は全て論理ディスク11のメンバに属している。もし、ストレージバス14に接続されていて、論理ディスク11のメンバに属していない(例えばスペアディスクとしての)HDD110が存在する場合、当該論理ディスク11のメンバに属していないHDD110もHDDチェッカ13(内のイニシエータ部131b)によるHDD監視の対象となる。
【0027】
イニシエータ部131bは、HDD110から当該HDD110の信頼性情報を読み出す毎に、そのHDD110の信頼性情報をHDD監視結果として記憶装置13Bに記録することを記憶装置インタフェース132に要求する(ステップS31〜S34)。すると記憶装置インタフェース132は、イニシエータ部131bにより読み出された信頼性情報を保持しているHDD110に固有の旧信頼性情報がキャッシュメモリ132aに格納されているならば(キャッシュヒットの場合)、当該キャッシュメモリ132aに格納されている旧信頼性情報を最新の信頼性情報に更新する。その後、記憶装置インタフェース132は、記憶装置13Bに記録されている旧信頼性情報を最新の信頼性情報に更新する。これに対し、イニシエータ部131bにより読み出された最新の信頼性情報を保持しているHDD110に固有の旧信頼性情報がキャッシュメモリ132aに格納されていないならば(キャッシュミスヒットの場合)、記憶装置インタフェース132は、上記読み出された最新の信頼性情報をキャッシュメモリ132aに格納する。その後、記憶装置インタフェース132は、上記読み出された最新の信頼性情報を記憶装置13Bに記録する。
【0028】
次に、HDDチェッカ13によるバス監視(バストレース)について、図5のフローチャートを参照して説明する。まず、HDDチェッカ13に設けられたストレージバスインタフェース131内のバス監視部131cは、バス監視機能を利用してバストレーサとして機能し、ストレージバス14の信号の状態を所定のサンプリング間隔で常時トレースする(ステップS41)。バス監視部131cによるバストレース結果は、キャッシュメモリ132a内に確保された一定サイズのリングバッファ領域に格納される(ステップS42)。このリングバッファ領域には、常に最新の一定量のバストレース結果が格納される。記憶装置インタフェース132は、このリングバッファ領域に格納されているバストレース結果を、適宜記憶装置13Bに記録する。
【0029】
さて、HDDチェッカ13内の記憶装置13Bに記録された、ストレージバス14上の各HDD110に固有の信頼性情報は、HDDチェッカ13のHDDチェッカコントローラ13A内のターゲット部131aが有するターゲット機能を利用することにより、RAIDコントローラ12及びストレージバス14を介してホスト装置20が読み込むことができる。このHDD110の信頼性情報は、当該HDD110(内のディスク媒体)における障害リカバリ内容及びその数、並びに不良セクタ代替数の情報を含む。したがって、HDDチェッカ13内の記憶装置13B(或いはキャッシュメモリ132a)に記録されたストレージバス14上の各HDD110の信頼性情報を当該ホスト装置20が読み込むことで、当該信頼性情報を、HDD110の障害発生を予防するための保守処理(つまり予防保守)、或いはHDD110の障害解析(動作不良の解析)に利用できる。これにより、ディスクアレイ装置10の信頼性・可用性・保守性(RAS)を向上させることができる。同様に、記憶装置13B(或いはキャッシュメモリ132a)に記録されたバストレース結果をホスト装置20が読み込んで、ストレージバス14の動作不良を解析することでも、ディスクアレイ装置10のRASを向上させることができる。
【0030】
また、HDDチェッカ13内の記憶装置13B(或いはキャッシュメモリ132a)に記録された、ストレージバス14上の各HDD110の信頼性情報及びバストレース結果は、HDDチェッカ13内のHDDチェッカコントローラ13Aの外部通信インタフェース133と通信線31を介して接続されている端末30によっても読み出すことができる。したがって、このHDD110の信頼性情報またはストレージバス14を対象とするバストレース結果を端末30が通信線31を介して読み込んで解析することで、遠隔からの予防保守、或いは障害解析が、RAIDコントローラ12及びホスト装置20とは独立に、且つ当該RAIDコントローラ12及びホスト装置20に負荷をかけることなく実現可能となる。しかも、この端末30によるストレージバス14を介しての信頼性情報またはバストレース結果の読み込みは、RAIDコントローラ12の障害が発生しても行えるため、ディスクアレイ装置10の保守性を一層向上させることができる。
【0031】
バス監視部131cは、ストレージバス14を対象とするバストレースの結果を解析し、その解析結果に応じて表示部134を制御する(ステップS43,S44)。即ちバス監視部131cは、バストレース結果によりストレージバス14(ここでは、ファイバチャネル)がアクティブ(Link Ready)の状態にあることが示されている場合、表示部134の表示ランプ134aを点灯(緑色表示)させると共に表示ランプ134bを消灯させる。またバス監視部131cは、バストレース結果によりストレージバス14が非アクティブ(LinkDown)の状態にあることが示されている場合、表示部134の表示ランプ134bを点灯(赤色表示)させると共に表示ランプ134aを消灯させる。
【0032】
これにより、保守員(或いはサービスマン)は、ストレージバス14の状態を視認できる。特に、ストレージバス14がアクティブ(Link Ready)であるべき状態で表示ランプ134bが点灯している場合、保守員はストレージバス14が非アクティブ(Link Down)の状態にある異常を視認できることから、ディスクアレイ装置10の保守性が一層向上する。
【0033】
また、バス監視部131cは、異常検出時に、その旨を外部通信インタフェース133を介して端末30に通知する(ステップS45,S46)。この場合、保守員は、端末30を通してストレージバス14が障害となる前兆を発見することができるため、ディスクアレイ装置10のRASを一層向上させることができる。また、HDDチェッカコントローラ13Aに、記憶装置13Bに記録された各HDD110の信頼性情報を解析し、HDD110の異常判別時に、その旨を外部通信インタフェース133から通信線31を介して端末30に通知する機能を持たせることも可能である。この機能を用いることにより、保守員は、端末30を通してHDD110が障害となる前兆を発見することができるため、この点でもディスクアレイ装置10のRASを一層向上させることができる。
【0034】
更に、HDDチェッカ13は、ディスクアレイ装置10内のHDDスロット15に対して着脱(挿抜)可能である。このため、HDDチェッカ13をHDDスロット15から取り外して、当該HDDチェッカ13を解析用機器と直接接続することにより、ディスクアレイ装置10を含むシステムとは別の環境においても、当該HDDチェッカ13内の記憶装置13Bに記録された情報を利用した解析が可能である。また、HDDチェッカ13は、汎用コネクタ構造のHDDスロット15に対して着脱可能で、且つRAIDコントローラ12から独立して動作可能なことから、この種のHDDスロット15を含む全てのディスクアレイ装置に適用可能である。即ち、HDDチェッカ13は、適用可能なディスクアレイ装置を限定せず、汎用的に使用することができる。もし、HDDチェッカ13が特定の種類(タイプ)のディスクアレイ装置10のみに適用可能とするならば、RAIDコントローラ12に当該HDDチェッカ13のサポート機能を追加することにより、当該HDDチェッカ13が検出した異常を、外部の端末30だけでなく、RAIDコントローラ12を介してホスト装置20へも自動的に通知することができる。
【0035】
[変形例]
次に、上記実施形態の変形例を説明する。上記実施形態において、論理ディスク11を構成する各HDD110は、1つの筐体内に収容されている。しかし、ストレージバス14にファイバチャネル・アービトレート型ループ(Fibre Channel−Arbitrated Loop:FC−AL)を用いて、遠隔に配置された複数のHDD110を接続することにより、分散配置された複数のHDD110から構成される論理ディスク11を実現することができる。このような、論理ディスク11を有するディスクアレイ装置100の一例を図6に示す。
【0036】
図6において、ストレージバスとしてのファイバチャネル・アービトレート型ループ140には、RAIDコントローラ12及びHDDチェッカ13に加えて、多数のHDD110が接続されている。一般に、ファイバチャネル・アービトレート型ループ140には、論理的に最大126台のデバイスが接続可能である。したがって、図6の例のように、ファイバチャネル・アービトレート型ループ140にRAIDコントローラ12及びHDDチェッカ13が接続されている場合、当該ループ140には最大124台のHDD110が接続可能である。もし、ファイバチャネル・アービトレート型ループ140に124台のHDD110が接続されている場合、従来のようにRAIDコントローラ12によって当該HDD110の監視を行うのでは、RAIDコントローラ12の負荷が著しく大きくなる。したがって、図6のディスクアレイ装置100において、ファイバチャネル・アービトレート型ループ140に接続されている各HDD110の監視をHDDチェッカ13により行うことは極めて有効である。
【0037】
なお、本発明は、上記実施形態及びその変形例に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、上記実施形態及びその変形例には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0038】
【発明の効果】
以上詳述したように本発明によれば、ディスクアレイ装置向けディスクドライブパトロール装置をディスクアレイ装置内の任意のディスクドライブスロットに装着してストレージバスに接続するだけで、当該パトロール装置により、上記ストレージバス上の各ディスクドライブを、ディスクアレイコントローラから独立して監視(パトロール)できる。また、本発明によれば、各ディスクドライブの監視結果が上記ディスクドライブパトロール装置内の記憶装置に記録され、当該記憶装置に記録された監視結果を、上記ディスクアレイコントローラと接続されているホスト装置により当該ディスクアレイコントローラ及びストレージバスを介して読み出して、或いは上記ディスクドライブパトロール装置に設けられた外部通信インタフェースを介して外部機器により当該ディスクアレイコントローラとは独立して読み出して、ホスト装置、或いは外部機器側での予防保守・障害解析に利用することができる。したがって、本発明によれば、ディスクアレイコントローラの負荷を低減しながら、当該ディスクアレイ装置の信頼性・可用性・保守性を向上できる。特に、ディスクアレイコントローラに障害が発生しても、記憶装置に記録された監視結果を外部機器により外部通信インタフェースを介して直接読み出すことができるため、保守性が著しく向上する。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るディスクアレイ装置を含む計算機システムの構成を示すブロック図。
【図2】図1中のHDDチェッカ13の主としてHDDチェッカコントローラ13Aの構成を示すブロック図。
【図3】図1のディスクアレイ装置10の内部の概略構造を示す斜視図。
【図4】同実施形態におけるHDDチェッカ13によるHDD監視を説明するためのシーケンスチャート。
【図5】同実施形態におけるHDDチェッカ13によるバス監視を説明するためのフローチャート。
【図6】ディスクアレイ装置の変形例を示す図。
【符号の説明】
10,100…ディスクアレイ装置、11…論理ディスク、12…RAIDコントローラ(ディスクアレイコントローラ)、13…HDDチェッカ(ディスクアレイ装置向けディスクドライブパトロール装置)、13A…HDDチェッカコントローラ(ディスクドライブ監視コントローラ)、13B…記憶装置、13C…コネクタ、14…ストレージバス、15…HDDスロット(ディスクドライブスロット)、20…ホスト装置、30…端末(外部機器)、134…表示部、134a,134b…表示ランプ、131a…ターゲット部、131b…イニシエータ部、131c…バス監視部、133…外部通信インタフェース、140…ファイバチャネル・アービトレート型ループ(ストレージバス)。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a disk drive patrol apparatus and method for a disk array device suitable for monitoring a disk drive included in the disk array device.
[0002]
[Prior art]
As a large-capacity storage device, a disk array device including a disk array (logical disk) including a plurality (at least two) of disk drives is known. This disk array device includes a disk array controller (disk control device) that controls writing of data to a disk drive (for example, a magnetic disk drive) and reading of data from the disk drive. This disk array controller is generally called a RAID (Redundant Array of Independent Disks or Redundant Array of Independent Disks) controller.
[0003]
The disk array controller has a function of monitoring (patrol) the disk drives in addition to a function of controlling each disk drive in the disk array device (for example, see Patent Document 1). The disk array controller uses this patrol function to grasp the status of each disk drive in the disk array device. The host device using the disk array device acquires from the disk array controller information indicating the status of each disk drive in the disk array device, which is recognized by the disk array controller. Further, the information obtained by the disk array controller can be displayed on a display device provided in the controller, or can be sent to a maintenance center via a communication line. Further, it is possible to input an instruction relating to disk drive monitoring from the display device or the maintenance center. Conventionally, information (information indicating the state of each disk drive) grasped by the disk array controller is used in a host device, a maintenance center, or the like, so that the RAS (Reliability Availability Serviceability: reliability, availability, and maintenance) of the disk array device is used. )).
[0004]
[Patent Document 1]
Japanese Patent Application Laid-Open No. 5-265666 (FIG. 1, paragraphs 0013 and 0014)
[0005]
[Problems to be solved by the invention]
As described above, in the related art, each disk drive in the disk array device is monitored (patroled) by a controller (disk array controller) of the disk array device in order to improve the RAS of the disk array device. Has become. However, in this conventional technique, there is a problem that a load on a disk array controller is large in patrol of a disk drive. In particular, in a large-scale disk array device that has been increasing recently, the number of disk drives constituting a disk array (logical disk) is extremely large (for example, 120 or more), so that the load on the disk array controller also increases significantly. I have. In such a disk array device, patrols for each disk drive may not be able to be reached. Further, when a failure occurs in the disk array controller, not only cannot patrol the disk drives, but it is also not possible to use information indicating the status of each disk drive that has already been acquired by the controller.
[0006]
The present invention has been made in view of the above circumstances, and has as its object to reduce the load on a controller (disk array controller) of a disk array device and improve the reliability, availability, and maintainability of the disk array device. An object of the present invention is to provide a disk drive patrol device and method for an array device.
[0007]
[Means for Solving the Problems]
According to one aspect of the present invention, a plurality of disk drive slots into which a disk drive can be removably mounted, and a logical disk having at least two of the plurality of disk drive slots as members are controlled. A disk drive patrol device for a disk array device, which is applied to a disk array device including a disk array controller to be connected, a disk drive mounted in the disk drive slot, and a storage bus for interconnecting the disk array controller, is provided. Is done. The disk drive patrol device is detachably mounted in an arbitrary disk drive slot in the disk array device, and is connected to the connector for connecting the patrol device to the storage bus, and to the storage bus. A disk drive monitoring controller that monitors each disk drive independently of the disk array controller, a storage device for recording a monitoring result by the disk drive monitoring controller, and an external device that is independent of the disk array controller. And an external communication interface capable of transferring the monitoring result to the external device for communication.
[0008]
According to the disk drive patrol device for a disk array device having such a configuration, the disk drive monitoring of the patrol device can be performed simply by mounting the patrol device in an arbitrary disk drive slot in the disk array device and connecting to the storage bus. The controller can monitor (patrol) each disk drive on the storage bus independently of the disk array controller. By monitoring the disk drive by the disk drive patrol device, the load on the disk array controller can be reduced. Further, since the disk drive monitoring by the disk drive patrol device can be performed even if a failure occurs in the disk array controller, maintainability is improved.
[0009]
Here, in order to efficiently monitor each disk drive on the storage bus, initiator means for accessing the drive and reading out the reliability information held by the drive as the monitoring result includes the initiator means for monitoring the disk drive. It is good to have it in the controller.
[0010]
The disk drive monitoring result is recorded in a storage device, and the monitoring result recorded in the storage device can be directly read by an external device via an external communication interface independent of the disk array controller. Therefore, it is possible to remotely perform inspection, preventive maintenance, and failure analysis using an external device (for example, a terminal arranged at a location remote from the disk array device and connected to the external communication interface via a communication line). Become. Thereby, the RAS (reliability, availability, and maintainability) of the disk array device can be improved.
[0011]
Further, the monitoring result recorded in the storage device can be read by the host device via the disk array controller and the storage bus. In order to enable this reading to be performed efficiently, the disk drive monitoring controller may have a target means for responding to access from the disk array controller.
[0012]
Further, if the disk drive monitoring controller analyzes means for notifying an external device via the external communication interface when analyzing the monitoring result of the disk drive and determining an abnormality of the disk drive, The RAS of the disk array device can be further improved.
[0013]
Further, if the disk drive monitoring controller has a bus monitoring means for tracing the state of the signal of the storage bus and recording the signal in the recording device, the trace result is effective for analyzing when a failure occurs in the storage bus. Therefore, the maintainability of the disk array device can be further improved. Here, if the bus monitoring means has means for analyzing the trace result and notifying the external device via the external communication interface when an abnormality is detected, the RAS of the disk array device is further improved. Can be done.
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a computer system including a disk array device according to an embodiment of the present invention. In FIG. 1, a disk array device 10 mainly includes a logical disk (LU) 11, a RAID controller (disk array controller) 12, and an HDD checker 13.
[0015]
The logical disk 11 is a disk array including at least two disk drives, for example, a magnetic disk drive (hereinafter, referred to as HDD) 110. In the example of FIG. 1, the logical disk 11 includes four HDDs 110. The logical disk 11 is handled as one disk by the host device 20 using the disk array device 10. In general, the HDD 110 constituting the logical disk 11 has a function of acquiring and retaining information (that is, reliability information) such as the content and number of failure recovery in the HDD 110 (internal disk medium) and the number of defective sector replacements. Have. The RAID controller 12 controls access to the logical disk 11, that is, writing of data to the HDD 110 in the logical disk 11 and reading of data from the HDD 110. The host device 20 uses the disk array device 10 by being connected to the RAID controller 12 in the disk array device 10.
[0016]
The HDD checker 13 monitors (patrols) each HDD 110 constituting the logical disk 11 (that is, belongs to a member of the logical disk 11) independently of the RAID controller 12 (disk drive patrol device for disk array device). ). The HDD checker 13 is used by being connected to a storage bus 14. The HDD 110 and the RAID controller 12 that constitute the logical disk 11 are connected to the storage bus 14. The storage bus 14 is, for example, a fiber channel (Fibre Channel). However, a SCSI (Small Computer System Interface) bus may be used as the storage bus 14. The disk array device 10 includes a plurality of HDD slots 15 for detachably connecting (inserting / removing) HDDs 110 required to configure the logical disks 11 to / from the storage bus 14. In the example of FIG. 1, HDDs 110 are respectively mounted in four HDD slots 15. The HDD slot 15 has a general-purpose connector structure. On the back of the HDD checker 13, a connector 13C (see FIG. 3) having the same structure as the connector of the HDD 110 is provided so that the HDD checker 13 can be installed in any one of the HDD slots 15. The HDD checker 13 is used by being mounted (inserted) into any one of the plurality of HDD slots 15. Here, the HDD checker 13 is used without belonging to a member of the logical disk 11.
[0017]
The HDD checker 13 includes an HDD checker controller 13A having the above-described monitoring function, and a nonvolatile storage device 13B for storing HDD monitoring results and the like by the controller 13A. As the storage device 13B, a disk drive (HDD) or a rewritable nonvolatile memory (for example, a flash memory) is used. Here, it is assumed that an HDD smaller than the HDD 110, for example, a 2.5-inch HDD is used for the storage device 13B. The terminal 30 can be externally connected to the HDD checker controller 13A via a communication line 31 conforming to a communication interface such as Ethernet (registered trademark), RS232C, USB, or IEEE1394. Here, it is assumed that the terminal 30 is provided at a location remote from the disk array device 10. The terminal 30 can read the HDD monitoring result stored in the storage device 13B of the HDD checker 13 via the communication line 31. The HDD monitoring result stored in the storage device 13B can also be read from the host device 20 via the RAID controller 12.
[0018]
FIG. 2 is a block diagram mainly showing the configuration of the HDD checker controller 13A of the HDD checker 13. The HDD checker controller 13A includes three interfaces of a storage bus interface 131, a storage device interface 132, and an external communication interface 133, and a display unit 134.
[0019]
The storage bus interface 131 includes a target unit 131a. The target unit 131a has the same target function as the HDD 110 included in the logical disk 11 generally has. That is, the target unit 131a has a target function of responding to an access (access command) from the RAID controller 12 of the disk array device 10, and the host device 20 reads information stored in the storage device 13B in the HDD checker 13. Used for
[0020]
The storage bus interface 131 includes an initiator unit 131b and a bus monitoring unit 131c in addition to the target unit 131a. The initiator unit 131b has an initiator function for issuing an access command on the storage bus 14. The initiator unit 131a uses the initiator function to monitor each HDD 110 on the storage bus 14 independently and periodically, for example, independently of the RAID controller 12. Specifically, the initiator unit 131a accesses each HDD 110 constituting the logical disk 11 by polling, and reads out the reliability information unique to the HDD 110 stored in the HDD 110. The reliability information for each HDD 110 is stored and managed in the storage device 13B in the HDD checker 13 by the storage device interface 132.
[0021]
The bus monitoring unit 131c has a bus monitoring function of monitoring the storage bus 14. Specifically, the bus monitoring unit 131c functions as a bus tracer that always traces the state of the signal of the storage bus 14. The trace result (bus trace result) of the signal state of the storage bus 14 is stored and managed in the storage device 13B in the HDD checker 13 by the storage device interface 132.
[0022]
The storage device interface 132 includes a monitoring result of each HDD 110 on the storage bus 14 by the initiator unit 131b in the storage bus interface 131 (reliability information of each HDD 110 read from each HDD 110 by the initiator unit 131b), and a storage device. The trace result (bus trace result) of the signal state of the storage bus 14 by the bus monitoring unit 131c in the bus interface 131 is stored in the storage device 13B and managed. The storage device interface 132 includes a cache memory 132a that holds a part of the information stored in the storage device 13B. For this reason, when the required information is also held in the cache memory 132a, accessing the memory 132a allows the required information to be read at a higher speed than in the case where the required information is read from the storage device 13B (here, the HDD). Can be obtained.
[0023]
The external communication interface 133 is an interface for performing communication via the communication line 31 between the HDD checker controller 13A and an electronic device outside the disk array device 10. The terminal 30 connected to the external communication interface 133 via the communication line 31 communicates with the external communication interface 133 to read information stored in the storage device 13B via the storage device interface 132. Can be.
[0024]
The display unit 134 includes, for example, two display lamps 134a and 134b. The display lamps 134a and 134b are used to indicate that the storage bus 14 is in a specific bus state as a result of the bus trace by the bus monitor 131c. The display lamp 134a is, for example, a green LED (light emitting element), and in the present embodiment in which the storage bus 14 is a fiber channel, the bus monitoring unit 131c turns on the storage bus 14 during an active (Link Ready) state. Is done. On the other hand, the display lamp 134b is, for example, a red LED, and is lit by the bus monitoring unit 131c while the storage bus 14 is in an inactive (Link Down) state.
[0025]
FIG. 3 shows a schematic structure inside the disk array device 10. The disk array device 10 is provided with a disk chassis 16 as shown in FIG. Although not shown in FIG. 3, the disk chassis 16 is formed with the HDD slot 15 shown in FIG. Each of the HDDs 110 constituting the logical disk 11 in FIG. 1 is mounted on the HDD chassis 15 by being mounted in an HDD slot 15 formed in the disk chassis 16 via a connector (not shown) of the HDD 110. Is done. Similarly, the HDD checker 13 is mounted on the disk chassis 16 by being mounted on an HDD slot 15 formed in the disk chassis 16 via a connector 13C provided on the back of the HDD checker 13. On the front surface of the HDD checker 13, an (external connector) of the external communication interface 133 and display lamps 134a and 134b are provided. A RAID controller board 17 on which the RAID controller 12 in FIG. 1 is mounted is mounted on the disk chassis 16 via a controller slot (not shown) formed in the disk chassis 16.
[0026]
Next, the operation of the embodiment of the present invention will be described. First, the monitoring (patrol) of the HDD by the HDD checker 13 will be described with reference to the sequence chart of FIG. The initiator unit 131b in the storage bus interface 131 provided in the HDD checker 13 uses the initiator function to periodically check each HDD 110 on the storage bus 14 in a certain order from polling independently of the RAID controller 12. To access. Here, of the HDD slots 15 connected to the storage bus 14, the HDDs 110 installed in the four HDD slots 15 except the HDD slot 15 in which the HDD checker 13 is installed are sequentially and repeatedly accessed (steps S11 to S11). S14). Thus, the initiator unit 131b reads the reliability information unique to the HDD 110 held in each HDD 110 on the storage bus 14 (Steps S21 to S24). In the example of FIG. 1, all four HDDs 110 connected to the storage bus 14 belong to the members of the logical disk 11. If there is an HDD 110 that is connected to the storage bus 14 and does not belong to the member of the logical disk 11 (for example, as a spare disk), the HDD 110 that does not belong to the member of the logical disk 11 is also included in the HDD checker 13 (in the HDD checker 13). Of the HDD is monitored by the initiator unit 131b).
[0027]
Each time the reliability information of the HDD 110 is read from the HDD 110, the initiator unit 131b requests the storage device interface 132 to record the reliability information of the HDD 110 as the HDD monitoring result in the storage device 13B (Steps S31 to S34). . Then, if the old reliability information unique to the HDD 110 holding the reliability information read by the initiator unit 131b is stored in the cache memory 132a (in the case of a cache hit), the storage device interface 132 The old reliability information stored in the cache memory 132a is updated to the latest reliability information. Thereafter, the storage device interface 132 updates the old reliability information recorded in the storage device 13B to the latest reliability information. On the other hand, if old reliability information unique to the HDD 110 holding the latest reliability information read by the initiator unit 131b is not stored in the cache memory 132a (in the case of a cache miss), the storage is performed. The device interface 132 stores the read latest reliability information in the cache memory 132a. After that, the storage device interface 132 records the read latest reliability information in the storage device 13B.
[0028]
Next, the bus monitoring (bus trace) by the HDD checker 13 will be described with reference to the flowchart of FIG. First, the bus monitoring unit 131c in the storage bus interface 131 provided in the HDD checker 13 functions as a bus tracer using a bus monitoring function, and constantly traces the signal state of the storage bus 14 at a predetermined sampling interval. (Step S41). The bus trace result by the bus monitor 131c is stored in a fixed-size ring buffer area secured in the cache memory 132a (step S42). This ring buffer area always stores the latest fixed amount of bus trace results. The storage device interface 132 records the bus trace result stored in the ring buffer area in the storage device 13B as appropriate.
[0029]
Now, the reliability information unique to each HDD 110 on the storage bus 14 recorded in the storage device 13B in the HDD checker 13 uses the target function of the target unit 131a in the HDD checker controller 13A of the HDD checker 13. Thus, the host device 20 can read the data via the RAID controller 12 and the storage bus 14. The reliability information of the HDD 110 includes the details of the failure recovery in the HDD 110 (disk medium therein) and the number thereof, and information on the number of defective sectors replaced. Therefore, the host device 20 reads the reliability information of each HDD 110 on the storage bus 14 recorded in the storage device 13B (or the cache memory 132a) in the HDD checker 13 so that the reliability information is stored in the HDD 110 It can be used for maintenance processing for preventing occurrence (that is, preventive maintenance) or failure analysis of the HDD 110 (analysis of operation failure). Thereby, the reliability, availability, and maintainability (RAS) of the disk array device 10 can be improved. Similarly, the RAS of the disk array device 10 can be improved by reading the bus trace result recorded in the storage device 13B (or the cache memory 132a) by the host device 20 and analyzing the operation failure of the storage bus 14. it can.
[0030]
The reliability information and the bus trace result of each HDD 110 on the storage bus 14 recorded in the storage device 13B (or the cache memory 132a) in the HDD checker 13 are transmitted to the external communication of the HDD checker controller 13A in the HDD checker 13. The data can also be read by the terminal 30 connected to the interface 133 via the communication line 31. Therefore, the terminal 30 reads the reliability information of the HDD 110 or the bus trace result for the storage bus 14 via the communication line 31 and analyzes it, thereby enabling remote preventive maintenance or failure analysis to be performed by the RAID controller 12. This can be realized independently of the host device 20 and without imposing a load on the RAID controller 12 and the host device 20. Moreover, since the terminal 30 can read the reliability information or the bus trace result via the storage bus 14 even if a failure occurs in the RAID controller 12, the maintainability of the disk array device 10 can be further improved. it can.
[0031]
The bus monitoring unit 131c analyzes the result of the bus trace for the storage bus 14, and controls the display unit 134 according to the analysis result (steps S43 and S44). That is, when the bus tracing result indicates that the storage bus 14 (here, fiber channel) is in an active (Link Ready) state, the bus monitoring unit 131c turns on the display lamp 134a of the display unit 134 (green). Display) and the display lamp 134b is turned off. When the bus trace result indicates that the storage bus 14 is in an inactive (Link Down) state, the bus monitoring unit 131c turns on the display lamp 134b of the display unit 134 (displays red) and displays the display lamp 134a. Turn off the light.
[0032]
Thereby, the maintenance staff (or service person) can visually recognize the state of the storage bus 14. In particular, when the display lamp 134b is lit in a state where the storage bus 14 should be active (Link Ready), the maintenance personnel can visually recognize an abnormality in which the storage bus 14 is in an inactive (Link Down) state. The maintainability of the array device 10 is further improved.
[0033]
Further, when an abnormality is detected, the bus monitoring unit 131c notifies the terminal 30 of the abnormality via the external communication interface 133 (Steps S45 and S46). In this case, since the maintenance staff can find a precursor to the failure of the storage bus 14 through the terminal 30, the RAS of the disk array device 10 can be further improved. Further, the HDD checker controller 13A analyzes the reliability information of each HDD 110 recorded in the storage device 13B, and notifies the terminal 30 via the communication line 31 from the external communication interface 133 when abnormality of the HDD 110 is determined. It is also possible to have a function. By using this function, the maintenance staff can find a precursor to the failure of the HDD 110 through the terminal 30, and thus the RAS of the disk array device 10 can be further improved in this regard.
[0034]
Further, the HDD checker 13 can be attached to and detached from the HDD slot 15 in the disk array device 10. Therefore, by removing the HDD checker 13 from the HDD slot 15 and directly connecting the HDD checker 13 to an analysis device, the HDD checker 13 in the HDD checker 13 can be operated in an environment different from the system including the disk array device 10. Analysis using information recorded in the storage device 13B is possible. Further, since the HDD checker 13 is detachable from the HDD slot 15 having a general-purpose connector structure and can operate independently of the RAID controller 12, the HDD checker 13 is applicable to all disk array devices including this kind of HDD slot 15. It is possible. That is, the HDD checker 13 can be generally used without limiting the applicable disk array device. If the HDD checker 13 is applicable only to the specific type (type) of the disk array device 10, the HDD checker 13 detects the HDD checker 13 by adding a support function of the HDD checker 13 to the RAID controller 12. The abnormality can be automatically notified not only to the external terminal 30 but also to the host device 20 via the RAID controller 12.
[0035]
[Modification]
Next, a modified example of the above embodiment will be described. In the above embodiment, each HDD 110 constituting the logical disk 11 is housed in one housing. However, by connecting a plurality of HDDs 110 that are remotely located to the storage bus 14 by using a Fiber Channel-Arbitrated Loop (FC-AL), the storage bus 14 is composed of a plurality of HDDs 110 that are distributed and arranged. Logical disk 11 can be realized. FIG. 6 shows an example of such a disk array device 100 having the logical disks 11.
[0036]
In FIG. 6, in addition to the RAID controller 12 and the HDD checker 13, a large number of HDDs 110 are connected to a fiber channel arbitrate loop 140 as a storage bus. Generally, up to 126 devices can be logically connected to the Fiber Channel arbitrate loop 140. Therefore, when the RAID controller 12 and the HDD checker 13 are connected to the fiber channel arbitrate loop 140 as in the example of FIG. 6, a maximum of 124 HDDs 110 can be connected to the loop 140. If 124 HDDs 110 are connected to the fiber channel arbitrate loop 140, monitoring the HDDs 110 by the RAID controller 12 as in the related art significantly increases the load on the RAID controller 12. Therefore, in the disk array device 100 of FIG. 6, it is extremely effective that the HDD checkers 13 monitor the HDDs 110 connected to the fiber channel / arbitrate loop 140.
[0037]
The present invention is not limited to the above-described embodiment and its modifications, and can be variously modified in the implementation stage without departing from the scope of the invention. Furthermore, the above-described embodiment and its modifications include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some components are deleted from all the components shown in the embodiment, the problems described in the column of the problem to be solved by the invention can be solved, and the effects described in the column of the effect of the invention can be solved. Is obtained, a configuration from which this configuration requirement is deleted can be extracted as an invention.
[0038]
【The invention's effect】
As described above in detail, according to the present invention, a disk drive patrol device for a disk array device is simply mounted in an arbitrary disk drive slot in the disk array device and connected to a storage bus, and the patrol device enables the storage device Each disk drive on the bus can be monitored (patroled) independently of the disk array controller. According to the present invention, a monitoring result of each disk drive is recorded in a storage device in the disk drive patrol device, and the monitoring result recorded in the storage device is transmitted to a host device connected to the disk array controller. Read out through the disk array controller and the storage bus, or read out by an external device through an external communication interface provided in the disk drive patrol device independently of the disk array controller, and read out from the host device or an external device. It can be used for preventive maintenance and failure analysis on the equipment side. Therefore, according to the present invention, the reliability, availability, and maintainability of the disk array device can be improved while reducing the load on the disk array controller. In particular, even if a failure occurs in the disk array controller, the monitoring result recorded in the storage device can be directly read out by the external device via the external communication interface, so that the maintainability is significantly improved.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a computer system including a disk array device according to an embodiment of the present invention.
FIG. 2 is a block diagram mainly showing a configuration of an HDD checker controller 13A of the HDD checker 13 in FIG. 1;
FIG. 3 is a perspective view showing a schematic structure inside the disk array device 10 of FIG. 1;
FIG. 4 is a sequence chart for explaining HDD monitoring by the HDD checker 13 in the embodiment.
FIG. 5 is an exemplary flowchart for explaining bus monitoring by the HDD checker 13 in the embodiment.
FIG. 6 is a diagram showing a modification of the disk array device.
[Explanation of symbols]
10, 100 disk array device, 11 logical disk, 12 RAID controller (disk array controller), 13 HDD checker (disk drive patrol device for disk array device), 13A HDD checker controller (disk drive monitoring controller), 13B storage device, 13C connector, 14 storage bus, 15 HDD slot (disk drive slot), 20 host device, 30 terminal (external device), 134 display unit, 134a, 134b display lamp, 131a ... Target unit 131b Initiator unit 131c Bus monitoring unit 133 External communication interface 140 Fiber channel arbitrate loop (storage bus)

Claims (8)

ディスクドライブが着脱自在に装着可能な複数のディスクドライブスロットと、当該複数のディスクドライブスロットの少なくとも2つに装着されたディスクドライブをメンバとする論理ディスクを制御するディスクアレイコントローラと、前記ディスクドライブスロットに装着されたディスクドライブ及び前記ディスクアレイコントローラを相互接続するためのストレージバスとを備えたディスクアレイ装置に適用されるディスクアレイ装置向けディスクドライブパトロール装置であって、
前記ディスクアレイ装置内の任意の前記ディスクドライブスロットに着脱自在に装着されることにより前記ディスクドライブパトロール装置を前記ストレージバスと接続するためのコネクタと、
前記ストレージバスと接続されている前記各ディスクドライブを前記ディスクアレイコントローラとは独立して監視するディスクドライブ監視コントローラと、
前記ディスクドライブ監視コントローラによる監視結果を記録するための記憶装置と、
前記ディスクアレイコントローラとは独立して外部機器と通信を行うための、前記監視結果を当該外部機器に転送することが可能な外部通信インタフェースとを具備することを特徴とするディスクアレイ装置向けディスクドライブパトロール装置。
A plurality of disk drive slots to which a disk drive can be removably mounted, a disk array controller for controlling a logical disk having disk drives mounted in at least two of the plurality of disk drive slots as members, and the disk drive slot A disk drive patrol device for a disk array device applied to a disk array device provided with a disk drive mounted on and a storage bus for interconnecting the disk array controller,
A connector for connecting the disk drive patrol device to the storage bus by being removably mounted in any of the disk drive slots in the disk array device;
A disk drive monitoring controller that monitors each of the disk drives connected to the storage bus independently of the disk array controller;
A storage device for recording a monitoring result by the disk drive monitoring controller,
A disk drive for a disk array device, comprising: an external communication interface capable of transferring the monitoring result to the external device for communicating with an external device independently of the disk array controller. Patrol device.
前記ストレージバスと接続されている前記各ディスクドライブは、当該ドライブにおける障害リカバリ内容及びその数を含む信頼性情報を取得し保持しており、
前記ディスクドライブ監視コントローラは、前記ストレージバスと接続されている前記各ディスクドライブにアクセスして当該ドライブが保持している信頼性情報を前記監視結果として読み出すイニシエータ手段を含むことを特徴とする請求項1記載のディスクアレイ装置向けディスクドライブパトロール装置。
Each of the disk drives connected to the storage bus acquires and holds reliability information including failure recovery contents and the number of failure recovery in the drive,
2. The disk drive monitoring controller according to claim 1, further comprising: an initiator that accesses each of the disk drives connected to the storage bus and reads reliability information held by the drive as the monitoring result. 2. A disk drive patrol device for a disk array device according to claim 1.
前記ディスクドライブ監視コントローラは、前記ディスクドライブの監視結果を解析し、当該ディスクドライブの異常を判別した場合、その旨を前記外部通信インタフェースを介して前記外部機器に通知する手段を含むことを特徴とする請求項1記載のディスクアレイ装置向けディスクドライブパトロール装置。The disk drive monitoring controller analyzes a monitoring result of the disk drive, and when determining an abnormality of the disk drive, includes a means for notifying the external device via the external communication interface of the abnormality. The disk drive patrol device for a disk array device according to claim 1. 前記ディスクドライブ監視コントローラは、前記ストレージバスの信号の状態をトレースして前記記録装置に記録するためのバス監視手段を含むことを特徴とする請求項1記載のディスクアレイ装置向けディスクドライブパトロール装置。2. The disk drive patrol device for a disk array device according to claim 1, wherein the disk drive monitoring controller includes a bus monitoring unit for tracing a state of a signal of the storage bus and recording the signal in the recording device. 前記バス監視手段は、前記ストレージバスの信号の状態のトレース結果を解析し、異常検出時には、その旨を前記外部通信インタフェースを介して前記外部機器に通知する手段を含むことを特徴とする請求項4記載のディスクアレイ装置向けディスクドライブパトロール装置。The bus monitoring means includes means for analyzing a trace result of a signal state of the storage bus, and notifying the external device via the external communication interface when abnormality is detected. 5. The disk drive patrol device for a disk array device according to 4. 前記ストレージバスの状態を表示する表示手段を更に具備し、前記バス監視手段は、前記トレース結果の示す前記ストレージバスの状態を前記表示手段に表示させる手段を含むことを特徴とする請求項4記載のディスクアレイ装置向けディスクドライブパトロール装置。5. The apparatus according to claim 4, further comprising a display unit for displaying a status of the storage bus, wherein the bus monitoring unit includes a unit for displaying the status of the storage bus indicated by the trace result on the display unit. Disk drive patrol device for disk array devices. 前記ディスクドライブ監視コントローラは、前記ディスクアレイコントローラからのアクセスに応答するターゲット手段であって、前記記憶装置に記録されている情報を、前記ディスクアレイ装置を利用するホスト装置により前記ディスクアレイコントローラ及び前記ストレージバスを介して読み出すことを可能とするターゲット手段を含むことを特徴とする請求項1記載のディスクアレイ装置向けディスクドライブパトロール装置。The disk drive monitoring controller is a target unit that responds to an access from the disk array controller, and transmits information recorded in the storage device to the disk array controller and the host device using the disk array device. 2. The disk drive patrol device for a disk array device according to claim 1, further comprising target means for enabling reading via a storage bus. ディスクドライブが着脱自在に装着可能な複数のディスクドライブスロットと、当該複数のディスクドライブスロットの少なくとも2つに装着されたディスクドライブをメンバとする論理ディスクを制御するディスクアレイコントローラと、前記ディスクドライブスロットに装着されたディスクドライブ及び前記ディスクアレイコントローラを相互接続するためのストレージバスとを備えたディスクアレイ装置内の、前記ストレージバスと接続されている前記各ディスクドライブを監視するディスクアレイ装置向けディスクドライブパトロール方法であって、
前記ディスクアレイ装置内の任意の前記ディスクドライブスロットに着脱自在に装着されることにより前記ストレージバスと接続されるディスクドライブパトロール装置から、前記ストレージバスと接続されている前記各ディスクドライブを前記ディスクアレイコントローラとは独立して前記ストレージバスを介して監視するステップと、
前記各ディスクドライブの監視結果を、前記ディスクアレイコントローラと接続されているホスト装置により、当該ディスクアレイコントローラ及び前記ストレージバスを介して読み出す、或いは前記ディスクドライブパトロール装置に設けられた外部通信インタフェースと通信が可能な外部機器により、当該外部通信インタフェースを介して読み出すことが可能なように、記憶装置に記録するステップと
を具備することを特徴とするディスクアレイ装置向けディスクドライブパトロール方法。
A plurality of disk drive slots to which a disk drive can be removably mounted, a disk array controller for controlling a logical disk having disk drives mounted in at least two of the plurality of disk drive slots as members, and the disk drive slot A disk drive for a disk array device that monitors each of the disk drives connected to the storage bus in a disk array device including a disk drive mounted on the storage device and a storage bus for interconnecting the disk array controller A patrol method,
Each of the disk drives connected to the storage bus is transferred from the disk drive patrol device connected to the storage bus by being removably mounted to any of the disk drive slots in the disk array device. Monitoring via the storage bus independently of the controller;
The monitoring result of each of the disk drives is read by a host device connected to the disk array controller via the disk array controller and the storage bus, or communicates with an external communication interface provided in the disk drive patrol device. Recording the data in a storage device so that the external device can read the data via the external communication interface.
JP2003053044A 2003-02-28 2003-02-28 Disk drive patrol device for disk array device and method therefor Pending JP2004264997A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003053044A JP2004264997A (en) 2003-02-28 2003-02-28 Disk drive patrol device for disk array device and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003053044A JP2004264997A (en) 2003-02-28 2003-02-28 Disk drive patrol device for disk array device and method therefor

Publications (1)

Publication Number Publication Date
JP2004264997A true JP2004264997A (en) 2004-09-24

Family

ID=33117769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003053044A Pending JP2004264997A (en) 2003-02-28 2003-02-28 Disk drive patrol device for disk array device and method therefor

Country Status (1)

Country Link
JP (1) JP2004264997A (en)

Similar Documents

Publication Publication Date Title
US7441083B2 (en) Data storage device management system
US6957291B2 (en) Removable disk storage array emulating tape library having backup and archive capability
US7453774B2 (en) Disk array system
US8392756B2 (en) Storage apparatus and method of detecting power failure in storage apparatus
US7577897B2 (en) Data integrity inspection support method for disk devices, and data integrity inspection method for disk devices
JP5111965B2 (en) Storage control device and control method thereof
US20050204206A1 (en) Disk array including plural exchangeable magnetic disk unit
EP1555606A1 (en) Connection support method for disk array device
JP2006215664A (en) Storage system and its power source control method and adapter device and its power source control method and storage controller and its control method
JP2009015584A (en) Storage control device and method for controlling power supply of casing unit
JP2005222404A (en) Storage control subsystem having virtual storage unit
CN108845763A (en) A kind of system and method for managing disk state concentratedly
JP2006313410A (en) Management information management method for storage network, storage management system and storage management software
US20090204760A1 (en) Storage apparatus, relay device, and method of controlling operating state
US7890698B2 (en) Disk array apparatus including control packages each having a base package and a functional package hierarchically connected to the base package
US8341468B2 (en) Information apparatus
JP2004264997A (en) Disk drive patrol device for disk array device and method therefor
JP5027311B2 (en) A storage system that detects a physical storage device that has failed
JP2009252114A (en) Storage system and data saving method
US20060288162A1 (en) Technology for managing storage units
JP2011113232A (en) Disk enclosure and control method for storage system
JP2008135031A (en) Disk array device and control method therefor
JP2008171217A (en) Computer system for estimating preventive maintenance of disk drive in disk sub-system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050502

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050607