JP2011108006A - ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置 - Google Patents

ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置 Download PDF

Info

Publication number
JP2011108006A
JP2011108006A JP2009262661A JP2009262661A JP2011108006A JP 2011108006 A JP2011108006 A JP 2011108006A JP 2009262661 A JP2009262661 A JP 2009262661A JP 2009262661 A JP2009262661 A JP 2009262661A JP 2011108006 A JP2011108006 A JP 2011108006A
Authority
JP
Japan
Prior art keywords
failure diagnosis
cable
disk
disk device
error count
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009262661A
Other languages
English (en)
Other versions
JP5573118B2 (ja
Inventor
Takakatsu Wada
貴克 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009262661A priority Critical patent/JP5573118B2/ja
Publication of JP2011108006A publication Critical patent/JP2011108006A/ja
Application granted granted Critical
Publication of JP5573118B2 publication Critical patent/JP5573118B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ケーブル内の一部レーンに障害が生じた場合に通常処理の中断を生じずに復旧処理が可能なディスクアレイ装置の故障診断システム、故障診断方法および故障診断プログラム、ディスク装置を提供する。
【解決手段】ディスクアレイ装置の故障診断システムは、複数のレーンを含むケーブルにより接続された複数のディスク装置と、複数の前記ケーブルとを備える。複数のケーブルのうちいずれかのケーブルで異常が発生した場合、異常が発生した異常ケーブルを挟むディスク装置は、ケーブル異常の原因である可能性が高い被疑レーンを特定するための故障診断を行う。
【選択図】図1

Description

本発明は、ディスクアレイ装置の故障診断を行う技術に関し、特に、ケーブル内の一部レーンに障害が生じた場合に通常処理を中断させずに復旧処理が可能なディスクアレイ装置の診断システム、診断方法および診断プログラムに関する。
ディスクアレイ装置の診断技術として、ディスクアレイ装置の通信経路に障害が発生した場合に、被疑箇所を切り離しディスクアレイ装置を復旧させる技術が知られている。
例えば、特許文献1(図9)には、RAID(Reductant Arrays of Inexpensive Disks)コントローラ200、300が相互に接続されると共に、RAIDコントローラ200、300とDE(Disk Enclosure)400〜900とがループ状に接続されたRAID装置100が開示されている。RAID装置100では、RAIDコントローラが、DE400〜900のいずれかから経路異常検出情報を取得することによって各DE400〜900に至る経路の経路異常を検出し、検出結果に基づいて各DE400〜900に至る経路を切り替える。よって、経路異常が発生した場合にでも、経路異常の発生した経路の先に接続されたDEにアクセスすることが可能となり、システムを効率良く復旧させることができる。
また、特許文献2には、ディスク記憶デバイスにおいて障害の被疑箇所を特定する技術が開示されている。すなわち、複数のディスク記憶デバイスを制御する制御モジュールが、該当ディスク記憶デバイスへアクセスしたときにエラーを検出した場合、その伝送経路内の複数のディスク記憶デバイスにダミーアクセスして、その結果から、障害の被疑箇所を特定する。よって、障害の被疑箇所が、伝送経路か、ディスクドライブかを切り分けることができ、即座に代変え処理を行うことができる。
特開2009−129075 特開2007−94996
しかしながら、特許文献1および2では、異常が検出された経路を使用しないように経路変更することが必要であり、その間通常の処理が中断されるという問題があった。特に、複数レーンで構成されるケーブルがディスク装置の接続に使用され、ケーブル内の一部のレーンのみで障害が発生している場合、障害レーンのみを切り離せば通常処理の中断が生じないにも関わらず、障害レーンを含むケーブル全体を切り離すため、無駄に通常処理の中断が生じてしまうという問題があった。さらに、冗長構成の場合には、無駄に障害レーンを含むケーブル全体が切り離された結果、冗長性が失われ信頼性が低下するという問題もあった。
本発明の目的は、ケーブル内の一部レーンに障害が生じた場合に通常処理の中断を生じずに復旧処理が可能なディスクアレイ装置の故障診断システム、故障診断方法および故障診断プログラム、ディスク装置、ディスク装置の故障診断方法および故障診断プログラム、ディスクアレイコントローラ、ディスクアレイコントローラの故障診断方法および故障診断プログラムを提供することにある。特に、冗長構成のディスクアレイ装置においてケーブル内の一部レーンに障害が生じた場合に、冗長性を維持しながら、かつ、通常処理の中断を生じず復旧処理を行うことが可能なディスクアレイ装置の故障診断システム、故障診断方法および故障診断プログラム、ディスク装置、ディスク装置の故障診断方法および故障診断プログラム、ディスクアレイコントローラ、ディスクアレイコントローラの故障診断方法および故障診断プログラムを提供することにある。
本発明のディスクアレイ装置の故障診断システムは、複数のレーンを含むケーブルにより接続された複数のディスク装置と、複数のケーブルと、を備え、複数のケーブルのうちいずれかのケーブルで異常が発生した場合、異常が発生した異常ケーブルを挟むディスク装置は、ケーブル異常の原因である可能性が高い被疑レーンを特定するための故障診断を行うことを特徴とする。
本発明のディスクアレイ装置の故障診断方法は、複数のレーンを含むケーブルにより接続された複数のディスク装置と、複数のケーブルとを備えたディスクアレイ装置の故障診断方法において、複数のケーブルのうちいずれかのケーブルで異常が発生した場合、ケーブル異常の原因である可能性が高い被疑レーンを特定する故障診断を行う故障診断ステップを有することを特徴とする。
本発明のディスク装置は、複数のレーンを含むケーブルにより接続された複数のディスク装置と、複数のケーブルとを備えたディスクアレイ装置におけるディスク装置において、
複数のケーブルのうちいずれかのケーブルで異常が発生した場合、ケーブル異常の原因である可能性が高い被疑レーンを特定する故障診断を行うことを特徴とする。
本発明のディスク装置の故障診断方法は、複数のレーンを含むケーブルにより接続された複数のディスク装置と複数のケーブルとを備えたディスクアレイ装置におけるディスク装置の故障診断方法において、複数のケーブルのうちいずれかのケーブルで異常が発生した場合、ケーブル異常の原因である可能性が高い被疑レーンを特定する故障診断を行う故障診断ステップを有することを特徴とする。
本発明のディスクアレイコントローラは、複数のレーンを含むケーブルにより接続された複数のディスク装置と複数の前記ケーブルとを備えたディスクアレイ装置におけるディスクアレイコントローラにおいて、異常が発生している可能性が高い被疑ケーブルを特定する故障診断を行うことを特徴とする。
本発明のディスクアレイコントローラの故障診断方法は、複数のレーンを含むケーブルにより接続された複数のディスク装置と複数のケーブルとを備えたディスクアレイ装置におけるディスクアレイコントローラの故障診断方法において、異常が発生している可能性が高い被疑ケーブルを特定する故障診断を行う故障診断ステップを有することを特徴とする。
本発明のディスク装置の故障診断プログラムは、コンピュータに、複数のコンピュータを接続し、かつ、複数のレーンから構成されるケーブルにおいて異常が発生したとき、ケーブル異常の原因である可能性が高い被疑レーンを特定する故障診断を行う故障診断ステップを実行させることを特徴とする。
本発明のディスクアレイコントローラの故障診断プログラムは、コンピュータに、複数のディスク装置を接続する複数のケーブルのうち、異常が発生している可能性が高い被疑ケーブルを特定する故障診断を行う故障診断ステップを実行させ、ケーブルは複数のレーンを含むことを特徴とする。
本発明は、ディスクアレイ装置において、ケーブル内の一部レーンに障害が生じた場合に通常処理の中断を生じずに復旧処理が可能である。特に、冗長構成のディスクアレイ装置の場合には、冗長性を維持しながら、かつ、通常処理の中断を生じずに復旧処理を行うことができる。
本発明の第1の実施形態におけるディスクアレイ装置の故障診断システムのブロック図である。 被疑ケーブルの故障診断の概要を説明するためのフローチャートである。 冗長構成の場合のディスクアレイ装置の故障診断システムの一例を示した図である。 冗長構成の場合のディスクアレイ装置の故障診断システムの一例を示した図である。 IOコマンドの流れを示す図である。 ディスクアレイコントローラによる被疑ケーブルの特定の流れを示すフローチャートである。 本発明の第2実施形態における各SAS JBODの自律判断(被疑ケーブルの特定)の流れを示すフローチャートである。 本発明の第1の実施形態および第2の実施形態における全体の流れを示す図である。 本発明の関連技術であるRAID装置を示す図である。
本発明の第1実施形態に係るディスクアレイ装置の故障診断システムについて説明する。
図1に、本実施形態におけるディスクアレイ装置の故障診断システムのブロック図を示す。
ディスクアレイ装置の故障診断システム1は、ディスクアレイコントローラ2と、ディスク装置3、4および5と、ケーブル2−3、3−4および4−5とを備えている。ディスクアレイコントローラ2とディスク装置3、4および5は、ケーブル2−3、3−4および4−5を介して数珠つなぎに接続されている。
ディスクアレイコントローラ2は、ケーブル異常の原因である可能性が高い被疑レーンを特定するための故障診断を実行する制御回路の一例である。ディスクアレイコントローラ2にはコントローラチップ21が実装され、コントローラチップ21は図示しない制御部および入出力部を備えている。ディスクアレイコントローラ21は図示しないホスト装置と接続されている。
ディスク装置3は、入出力部31と制御部32と記憶部33と記憶ユニットである複数のHDD(Hard disk drive)34、35、36および37とから構成される。制御部32はディスク装置3内のリソース監視を行う。記憶部33には制御部32によるリソース監視に関する情報(リソース監視の結果情報など)が格納されている。
ディスク装置4は、入出力部41と制御部42と記憶部43と記憶ユニットである複数のHDD44、45、46および47とから構成される。制御部42はディスク装置4内のリソース監視を行う。記憶部43には制御部42によるリソース監視に関する情報(リソース監視の結果情報など)が格納されている。
ディスク装置5は、入出力部51と制御部52と記憶部53と記憶ユニットである複数のHDD54、55、56および57とから構成される。制御部52はディスク装置5内のリソース監視を行う。記憶部53には制御部52によるリソース監視に関する情報(リソース管理の結果情報など)が格納されている。
ケーブル2−3は、4本のレーンから構成され、ディスクアレイコントローラ2とディスク装置3とを接続している。
ケーブル3−4は、4本のレーンから構成され、ディスク装置3とディスク装置4とを接続している。
ケーブル4−5は、4本のレーンから構成され、ディスク装置4とディスク装置5とを接続している。
ディスクアレイコントローラ2は定期的にディスク装置3、4および5にアクセスし、リソース監視の結果情報を取得する。取得したデータを確認することで、各ディスク装置の異常を検出することができる。
ディスクアレイコントローラ2は、ディスク装置配下のHDDにアクセスした際のIOアクセスエラーを統計情報として記憶しておく。この統計情報を分析することにより、ディスクアレイコントローラ2は、障害が発生している可能性が高い被疑ケーブルを特定することができる。また、各ディスク装置は、被疑ケーブルを診断するための診断機能を備えている。
本発明の実施形態では、図8のように、「被疑ケーブルの特定(ステップS801)」→「各ディスク装置による被疑ケーブルの故障診断(ステップS802)」という順に故障診断が行われる。被擬ケーブルの特定(ステップS801)については、第1および第2の実施形態で主体が異なり、第1の実施形態ではディスクアレイコントローラが担当し、第2の実施形態では各ディスク装置が担当する。
なお、以下の各ステップの説明では、「ステップ」を省略しステップ番号のみを表示するものとする。
最初、被疑ケーブルの故障診断(S802)の概要について説明する。被疑ケーブルの特定(S801)については後述する。
図2は、被疑ケーブルの故障診断(S802)の概要を示すフローチャートである。
まず、ディスクアレイコントローラ2が、ケーブルを挟む2台のディスク装置に対して、経路診断指示を発行する(S201)。例えば、ディスクアレイコントローラ2が、経路異常によるエラー回数をカウントしておき、そのエラーカウント値が閾値を超えたとき、ディスク装置に診断指示を発行する。ここでは、ディスクアレイコントローラ2において被疑ケーブルはケーブル3−4と特定され、ケーブル3−4を挟むディスク装置3および4に診断指示が発行された場合について説明する。
診断指示を受けたディスク装置3、4の制御部32、42は、ケーブル3−4内の1つのレーンを、通常IOアクセスが行われないように設定変更する(S202)。ケーブル3−4内の残りの3つのレーンは、ディスクアレイコントローラ2とのIOアクセスのために使用される。
次に、設定変更された1つのレーンを使って、ディスク装置3はディスク装置4方向に連続してデータ転送を行う。同時に、ディスク装置4はディスク装置3方向に連続してデータ転送を行う(S203)。
さらに、ディスク装置3、4の制御部32、42は、エラーが発生していないかを監視し、エラーをカウントする(S204)。
エラーカウント値が予め定めた閾値を超えた場合には、データ転送先のディスク装置はデータ転送元のディスク装置に対してレーンの異常を通知するとともに、ディスクアレイコントローラにもレーンの異常を通知する。ここで、レーンにおけるエラーカウント値の閾値は、ディスク装置3、4の記憶部33、43に予め格納されている(S205、S206)。
次に、ディスク装置3、4は、S202で設定変更されたレーンを通常IOアクセスが行われるように設定変更する(S207)。
S201〜S207をケーブル3−4の全レーンで繰り返す(S208)。
これらの処理により、ディスクアレイコントローラ2からの通常のIO処理を中断させることなく、間欠障害等の障害を起こす経路(レーン)をディスクアレイ装置から切り離し、経路異常の影響を排除することができる。
なお、本実施形態におけるディスクアレイ装置の診断システム1は、図3のような冗長構成であっても良い。この場合、ディスクアレイコントローラ2−1およびディスク装置3−1、4−1、5−1が主であり、ディスクアレイコントローラ2−2およびディスク装置3−2、4−2、5−2が副であり、主と副がそれぞれ対応づけられている。
冗長構成の場合の一例として、SAS JBODを上述のディスク装置として使用し、SASケーブルを上述のケーブルとして使用する場合が挙げられる(図4)。以下では、図4のシステム構成の場合を例に挙げて動作説明等を行う。
図4に示されるように、ディスクアレイ装置の診断システム111は、ディスクアレイコントローラ000、001と、ディスク装置の一例としてSAS JBOD(Serial Attached SCSI Just Bunch of Disk)002、003および004と、SAS(Serial Attached SCSI)ケーブル100、200、300、101、201および301とを含む。JBODとは、ディスクアレイの実施形態の1つであり、複数のハードウェアを論理的に統合し、各ハードウェアの容量の合計を1まとめにして利用できるようにする技術および製品群である。
ディスクアレイコントローラ000にはSASコントローラチップ10が実装され、ディスクアレイコントローラ001にはSASコントローラチップ11が実装されている。
ディスクアレイコントローラ000、001はケーブル100、101を介して、SAS JBOD002と接続されている。
各SAS JBODには、複数のHDDおよびSES(SCSI ENCLOSURE SERVICE)が搭載されている。
SES22(23)、32(33)、42(43)は、それぞれSAS JBOD002、003、004のリソース監視を行っている。SAS JBOD内の異常検出は、ディスクアレイコントローラ000が定期的にSESにアクセスしそのリソース情報を取得することにより行われる。なお、リソース情報の取得間隔はユーザ等により予め設定されており、図示しないが、ディスクアレイコントローラ000のSASコントローラチップ10(11)にはリソース情報の取得間隔を示す情報が格納されている。
また、各SESはSASプロトコルスイッチ機能も備えている。SASプロトコルスイッチ機能を備えることにより、各ポートをZONEというポート単位に切り分けることができる。
また、本実施形態では、SAS Expander20(21)、30(31)、40(41)の機能により、SASコントローラチップからHDDへのアクセスが可能となる。
本実施形態では、信頼性を持たせるために冗長構成となっている。また、ディスクアレイコントローラ000、001とSAS JBOD002、003、004とは2系統のSASケーブルで接続されている。
SASケーブルは複数のレーン(装置間を接続するバス)で構成されている。この複数のレーンを介して、複数のSAS JBODがカスケード接続されている。一般的には、データ転送のスループットを向上させる目的で、複数のレーンを有するSASケーブルが使用される。
なお、本実施形態では、SASケーブルは4本のレーンから構成されているが、これに限定されるものではない。
次に、図4の場合を例に挙げて、本実施形態の動作全体について詳しく説明する。図6は、ディスクアレイコントローラ000による被疑ケーブルの特定(S801)の流れを示すフローチャートである。ディスクアレイコントローラ000は、図6の流れで経路異常を生じている可能性の高いSASケーブル(被疑ケーブル)を特定する。
最初、ディスクアレイコントローラ000が、ホスト側からのIO命令に基づき、RAID仕様に従って、SAS JBOD内のHDDに対してIO(Input/Output)コマンドを発行する(S600)。
S600のIOコマンド発行に対してIOアクセスエラーが発生すると(S601)、ディスクアレイコントローラ000は、そのIOアクセスエラーがI/F(Interface)系のエラーによるものか否かを判断する(S602)。
通常、I/F系のエラーが生じた場合、ディスクアレイコントローラ000は、その旨を示すエラー通知を受け取るため、その通知に基づいてS602の判断を行うことができる。なお、本実施形態では、タイムアウトによるエラーはI/F系のエラーに含まれることとしているが、これに限定されるものではない。また、IOアクセスエラーがI/F系のエラーに基づくものか否かの判断基準はこれに限定されるものではない。
ディスクアレイコントローラ000は、I/F系のエラーが生じていると判断すると、ディスクアレイコントローラ内のエラーカウント値を+1加算する(S603)。本実施形態では、エラーカウント値は各HDDと対応づけられているものとする。例えば、ディスクアレイコントローラ000は、HDD4−0、4−1へのIOアクセスにおいてI/F系エラーを通知された場合、HDD4−0、4−1に対応するエラーカウント値を+1加算する。
次に、ディスクアレイコントローラ000は、エラーカウント値が予め設定された閾値を超えたか否かを判断する(S604)。ここで、ディスクアレイコントローラ000は、記憶ユニットであるHDD毎のエラーカウント値および当該エラーカウント値の閾値が格納されている、図示しない記憶手段を含むものとする。したがって、S604では、エラーカウントしたHDDに対応する閾値を記憶手段から読み出して判断する。
エラーカウント値が閾値を超えた場合、ディスクアレイコントローラ000は、アクセス要求先のHDDが属するSAS JBOD(SAS JBOD−1と呼ぶ)の配下にある他のHDDにおいて、IOアクセスエラーが発生しているか否か(エラーカウント値の閾値を超えているか否か)を調べる(S605)。
同一SAS JBOD(SAS JBOD−1)配下にある所定数以上のHDDでエラーが生じている場合、ディスクアレイコントローラ000は、アクセス要求先のHDDが属するSAS JBOD(SAS JBOD−1)よりもさらに前段のSAS JBOD(SAS JBOD−2と呼ぶ)でIOアクセスエラーが発生しているか否かを調べる(S606、S607)。本実施形態では、S600からS606と同等の処理の実行により、前段のSAS JBODにおいてエラーカウント値が閾値を超えているHDDが所定数以上だったとき、「他のHDDでも障害が生じている」と判断する。
S607においてIOアクセスエラーの発生が確認された場合、さらに前段のSAS JBODについてエラー発生の確認処理を繰り返す。
S607においてIOアクセスエラーの発生が確認されなくなったとき(前段のSAS JBODが存在しない場合も含む)、ディスクアレイコントローラ000は、IOアクセスエラーの発生が確認されなかったHDDが属するSAS JBODとさらにその後段の(IOアクセスエラーの発生が確認された)SAS JBODとに挟まれたSASケーブルに障害が発生していると判断し、そのSASケーブルに対して故障診断の指示を行う(S608、S609)。
一方、S601において、IOアクセスエラーが発生していない場合、ディスクアレイコントローラ000はIOアクセス完了の通知を受け取る(S601、S611)。
また、S605において、エラーカウント値が閾値を超えたHDDが他に全く存在しないとき、IOアクセスが要求されたHDDの故障と判断し、処理を終了する(S610)。
次に、図4のシステム構成において、ディスクアレイコントローラ000がHDD4−0、4−1、4−2に対してIOコマンドを発行し、SASケーブル300に異常があるためIOアクセスエラーとなった場合を例に挙げて図6の流れを説明する。ここでは、S606において、同一ディスク装置内の3つ以上のHDDにおいてエラーカウント値が閾値を超えていたときにYESと判断することとする。
まず、ディスクアレイコントローラ000がHDD4−0、4−1、4−2に対してIOコマンドを発行する(S600)。このとき、IOコマンドは、SASコントローラチップ10、SASケーブル100、SAS Expander20、SASケーブル200、SAS Expander30、SASケーブル300、SAS Expander40の順に送られ、SAS Expander40に接続されているHDD4−0、4−1、4−2がそのIOコマンドを受け取る(図5)。なお、図5では同一レーンを使用しているよう記載されているが、実際には空いているレーンがランダムに使用される。
次に、ディスクアレイコントローラ000は、IOアクセスエラーが発生しているか否かを判断し(S601)、IOアクセスエラーが発生していた場合、それがI/F系のエラーかを判断する(S602)。
このとき、ディスクアレイコントローラ000にはHDD4−0に対するI/F系のエラーが発生している旨を示すエラーが通知されているとする。よって、ディスクアレイコントローラ000は、HDD4−0へのI/OアクセスでI/F系のエラーが発生していると認識することができ、HDD4−0に対応するエラーカウント値を+1加算する(S603)。
次に、ディスクアレイコントローラ000は、エラーカウント値が閾値を超えたか否かを判断する(S604)。ここでは、HDD4−0に対応するエラーカウント値が閾値を超えたものとする。
S604において閾値を超えているため、SAS JBOD004配下にある他のHDD(HDD4−1〜4−N)においてエラーカウント値が閾値を超えているか否かを判断する(S605)。ここでは、HDD4−2〜4−4においてエラーカウント値が閾値を超えているものとする。同一SAS JBOD内の3つ以上のHDDにおいてエラーカウント値が閾値を超えているので、SAS JBOD004の前段にあるSAS JBOD003においてIOアクセスエラーが発生しているかを調べる(S606、S607)。
SAS JBOD003ではIOアクセスエラーが発生していないため、ディスクアレイコントローラ000は、SASケーブル300に障害が発生していると判断し(S608)、SASケーブル300を挟むSAS JBOD300およびSAS JBOD400に対して故障診断を行う(S609)。
なお、本実施形態では、エラーカウント値が閾値を超えたHDDが同一SAS JBOD内にいくつあるかを調べ、所定数以上だったとき「IOアクセスエラーが発生している」と判断しているが、これに限定されるものではない。
次に、図4の場合を例に挙げて、被疑ケーブルの故障診断(S802)について詳しく説明する(図2参照)。以下では、SASケーブル300の故障診断を行う場合を例に挙げて説明する。
まず、ディスクアレイコントローラ000が、SASケーブル300を挟むSAS JBOD003、004のSES32、42に対して、故障診断指示を発行する(S201)。
次に、SAS JBOD003、004のSES32、42は、SASケーブル300の1つのレーンを挟むSAS Expander内のPortを通常のZoneから別のZone(以下、これを診断Zoneと呼ぶ)に変更する(S202)。Zoneとは、Port間でアクセスする範囲を示す。通常のZoneとは、ディスクアレイコントローラからの通常のIOアクセスエリア(SAS規格を満たすもの)を意味する。診断Zoneとは、故障診断を行うために通常のZoneから設定変更されたエリアを意味する。
診断Zoneを形成したレーンに対して、片方のSAS JBOD内のSESからもう片方のSAS JBOD内のSESに対して、連続してデータ転送を実行する。同時に、逆方向にもデータ転送を行う。ここでは、SES32およびSES42の間で双方向にデータ転送が行われる。
診断Zoneを形成したレーンにおいて、所定時間のデータ転送で経路間を流れたフレームに対してITW(Invalid Transfer Word)やCRC(Cyclic Redundancy Check)といったエラーが発生した場合にエラーをカウントする(S204)。フレームのエラーをカウントする機能は、通常、SAS EXPANDER内のSASプロトコスイッチ内に存在する。その機能を利用してエラーの発生状況を監視する。
SES32、42は、予め設定された閾値以上にエラーが発生した場合に異常と判断する。このとき、SES32、42はディスクアレイコントローラ000に対して、SASケーブル300の異常を通知するとともに、相手方のSESに対しても、ケーブルの異常を通知する(S205、S206)。なお、図示しないが、エラー発生の判断基準となる閾値情報がユーザ等により予め設定され、SAS JBOD003、004に格納されている。
SES32、42は、障害があるレーンを診断Zoneから通常Zoneへ戻し、その後、ディスクアレイコントローラ000の指示で障害レーンを切り離す(S207)。例えば、ディスクアレイコントローラ000が、障害レーンに対応するポートに対して使用禁止の設定を行う。また、SES32、42がディスクアレイコントローラ000からの指示を待つことなく、自律的に障害レーンを切り離すような構成にしても良い。
次に、SES32、42は、SASケーブル300内の全てのレーンに対して故障診断が行われたかを判断し(S208)、全てのレーンに故障診断が行われたとき、故障診断を終了する。
なお、図示しない表示手段に被疑ケーブルの情報を表示するようにしても良い。
このように、本発明の本実施形態では、ディスクアレイ装置において、ケーブル内の一部レーンに障害が生じた場合に通常処理の中断を生じずに復旧処理が可能になるという効果がある。特に、冗長構成のディスクアレイ装置の場合には、冗長性を維持しながら、かつ、通常処理の中断を生じずに復旧処理を行うことができるという効果がある。
次に、本発明の第2実施形態について説明する。第1の実施形態では故障診断開始のトリガをディスクアレイコントローラ000としていたが、第2の実施形態では、SAS JBOD内のSESが自律的に判断して故障診断を開始する。以下、図4のシステム構成を例に挙げて説明する。
本実施形態では、ディスクアレイコントローラ000は各SAS JBODの制御手段に対応するSESに対して、ユーザ等に予め設定された所定間隔でIOコマンドを発行する。各SAS JBODのSESは、上記の所定間隔でIOコマンドを受信しないとき、あるいは、所定間隔よりも短い間隔でIOコマンドを受信するとき、エラーが発生していると判断し、各SAS JBODに備えられたエラーカウントを+1加算する。
図示しないが、各SAS JBODの記憶手段には、エラーカウント値の情報、エラーカウント値の閾値情報およびエラーを判断するための基準情報(IOコマンドの受信間隔情報など)が格納されている。
エラーカウント値が閾値を超えた場合、SAS JBODは経路異常が発生している可能性が高いと判断する。
すなわち、各SAS JBODの制御手段は、ディスクアレイコントローラ000から予め定められた所定の間隔で入出力コマンドを受け取らないとき、前記エラーカウント値を加算して閾値を超えたか否かを判断し、当該閾値を超えた場合に故障診断を開始する。
図7は、各SAS JBODにおける自律判断の流れ(被疑ケーブルの特定(S801))について説明したフローチャートである。図7を用いて、自律判断の流れについて説明する。
まず、各SAS JBODのSESは、所定間隔でディスクアレイコントローラ000からIOコマンドを受け取ったか否かを判断する(S701)。所定間隔でIOコマンドを受け取っていない場合、SESは、SAS JBOD内のエラーカウントを+1加算する(S702)。
次に、SESは、エラーカウントの閾値を超えたか否かを判断する(S703)。エラーカウントの閾値を超えた場合、SESは、前段のSAS JBODに対して、前段のSAS JBODでもエラーカウントの閾値を超えているかを問い合わせる(S704)。
前段のSAS JBODにおいてエラーカウント値が閾値を超えていない旨を前段のSAS JBODから受け取ったとき、前段のSAS JBODのSESは、SAS JBODと前段のSAS JBODとの間のSASケーブルで障害が発生している可能性が高いと判断する(S705、S706)。そして、そのSASケーブルに対して故障診断を行う(S707)。
一方、S705において、前段のSAS JBODにおいてエラーカウント値が閾値を超えているとの通知を受け取ったとき、さらに前段のSAS JBODがS704以降の処理を行い、このSAS JBODの処理を終了させる。
次に、図4のシステム構成において、SASケーブル300で障害が生じていた場合を例に挙げて説明する。本ケースでは、SAS JBOD002およびSAS JBOD003は所定間隔でIOコマンドを受け取っているが、SAS JBOD4は所定間隔でIOコマンドを受け取っておらず、エラーカウント値の閾値を超えているものとする。
SAS JBOD004のSESは、所定間隔でディスクアレイコントローラ000からIOコマンドを受け取っていないため、エラーカウントを+1加算する(S701、S702)。
次に、SAS JBOD004のSESはエラーカウント値の閾値を超えたか否かを判断する(S703)。
エラーカウント値の閾値を超えているので、SAS JBOD004は、前段のSAS JBOD003に対して、エラーカウント値の閾値を超えているか否かを問い合わせる(S704)。前段のSAS JBOD003はエラーカウントの閾値を超えていないので、SASケーブル300に障害が発生している可能性が高いと判断して、SASケーブル300に対する経路故障診断を行う(S706、S707)。
なお、全てのSAS JBODが、各SAS JBODがエラーカウント値の閾値を超えたか否かの情報を共有するような構成にしても良い。この場合、エラーカウント値の閾値を超えたSAS JBODが連続している場合に、最上段のSAS JBODを容易に特定できるため、より簡単に被疑SASケーブルを特定することが可能となる。
このように、本発明の本実施形態では、上述したような第1の実施形態における効果に加え、故障診断開始のタイミングを自律的に判断することができるという効果がある。
000 ディスクアレイコントローラ
001 ディスクアレイコントローラ
002 SAS JBOD
003 SAS JBOD
004 SAS JBOD
111 ディスクアレイ装置の診断システム
10 SASコントローラチップ
11 SASコントローラチップ
20、30、40、21、31、41 SAS EXPANDER
22、32、42 SES
2−0〜2−N HDD
3−0〜3−N HDD
4−0〜4ーN HDD
100、200、300 SASケーブル
101、201、301 SASケーブル
1 ディスクアレイ装置の診断システム
2 ディスクアレイコントローラ
21 コントローラチップ
2−3 ケーブル
3 ディスク装置
31 入出力部
32 制御部
33 記憶部
34〜37 HDD
3−4 ケーブル
4 ディスク装置
41 入出力部
42 制御部
43 記憶部
44〜47 HDD
4−5 ケーブル
5 ディスク装置
51 入出力部
52 制御部
53 記憶部
54〜57 HDD
11 ディスクアレイ装置の診断システム
2−1、2−2 ディスクアレイコントローラ
2−11、2−21 コントローラチップ
3−1 ディスク装置
3−11 入出力部
3−12 制御部
3−13〜3−16 HDD
3−2 ディスク装置
3−21 入出力部
3−22 制御部
3−23〜3−26 HDD
4−1 ディスク装置
4−11 入出力部
4−12 制御部
4−13〜4−16 HDD
4−2 ディスク装置
4−21 入出力部
4−22 制御部
4−23〜4−26 HDD
5−1 ディスク装置
5−11 入出力部
5−12 制御部
5−13〜5−16 HDD
5−2 ディスク装置
5−21 入出力部
5−22 制御部
5−23〜4−26 HDD
6〜11 ケーブル
200、300 RAIDコントローラ
400〜900 DE

Claims (55)

  1. ディスクアレイ装置の故障診断システムにおいて、
    複数のレーンを含むケーブルにより接続された複数のディスク装置と、
    複数の前記ケーブルと、
    を備え、
    前記複数のケーブルのうちいずれかのケーブルで異常が発生した場合、前記異常が発生した異常ケーブルを挟むディスク装置は、ケーブル異常の原因である可能性が高い被疑レーンを特定するための故障診断を行うことを特徴とするディスクアレイ装置の故障診断システム。
  2. 前記異常ケーブルを挟むディスク装置が、前記異常ケーブルの各レーンに対して順番にデータ転送を行うことにより前記故障診断を行うことを特徴とする請求項1記載のディスクアレイ装置の故障診断システム。
  3. 前記異常ケーブルを挟むディスク装置が、前記異常ケーブルの各レーンに対して、交互に双方向のデータ転送を行うことにより前記故障診断を行うことを特徴とする請求項2記載のディスクアレイ装置の故障診断システム。
  4. 前記ケーブルのうち異常が発生している可能性が高い被疑ケーブルを特定し、当該被疑ケーブルを挟む前記ディスク装置に対して故障診断指示を行う制御回路を備え、
    前記被疑ケーブルを挟む前記ディスク装置は、前記故障診断指示を受け取ると、特定された前記被疑ケーブルについて前記故障診断を開始することを特徴とする請求項1ないし3のいずれかに記載のディスクアレイ装置の故障診断システム。
  5. データ転送先の前記ディスク装置は、データ転送元の前記ディスク装置および前記制御回路に診断結果を通知することを特徴とする請求項4記載のディスクアレイ装置の故障診断システム。
  6. 前記故障診断において前記被疑レーンが特定された場合、当該被疑レーンを挟むディスク装置は、当該被疑レーンを切り離すことを特徴とする請求項1ないし5のいずれかに記載のディスクアレイ装置の故障診断システム。
  7. 前記ディスク装置は、複数の記憶ユニットを含み、
    前記制御回路は、前記記憶ユニット毎のエラーカウント値および当該エラーカウント値の閾値が格納された記憶手段を含み、
    前記制御回路は、前記記憶ユニットへのアクセスエラーが発生したとき、当該記憶ユニットに対応するエラーカウント値を加算し、その加算値が、前記記憶手段に記憶された前記閾値を超えたか否かを判断することにより前記被疑ケーブルを特定することを特徴とする請求項4ないし6のいずれかに記載のディスクアレイ装置の故障診断システム。
  8. 前記制御回路は、前記アクセスエラーのうちインタフェース系のエラーのみを前記エラーカウント値としてカウントすることを特徴とする請求項7記載のディスクアレイ装置の故障診断システム。
  9. 前記アクセスエラーを発生した記憶ユニットのエラーカウント値が閾値を超えたとき、前記制御回路は、当該記憶ユニットが属するディスク装置と同一のディスク装置内の他の記憶ユニットの前記エラーカウント値が前記閾値を超えているか否かを判断し、前記他の記憶ユニットの前記エラーカウント値が前記閾値を超えていたとき、自ディスク装置と接続され、かつ、当該自ディスク装置と前記制御回路との間のケーブルを前記被疑ケーブルと特定することを特徴とする請求項7または8記載のディスクアレイ装置の故障診断システム。
  10. 前記同一のディスク装置において、前記エラーカウント値が前記閾値を超えている前記他の記憶ユニットが所定数以上だったとき、前記制御回路は、自ディスク装置と接続され、かつ、当該自ディスク装置と前記制御回路との間のケーブルを前記被疑ケーブルと特定することを特徴とする請求項9記載のディスクアレイ装置の故障診断システム。
  11. 前記制御回路は、前記同一のディスク装置において、エラーカウント値が閾値を超えている前記他の記憶ユニットが全く存在しないとき、前記アクセスエラーを発生した記憶ユニット自身の故障と判断することを特徴とする請求項9または10記載のディスクアレイ装置の故障診断システム。
  12. 所定の間隔で前記ディスク装置に対して入出力コマンドを出力する制御回路を備え、
    前記ディスク装置は、制御手段と、前記入出力コマンドを受け取るべき所定の間隔を示す時間情報とエラーカウント値と当該エラーカウント値の閾値とが格納された記憶手段とを備え、
    前記ディスク装置の前記制御手段は、前記制御回路から予め定められた前記所定の間隔で前記入出力コマンドを受け取らないとき、前記エラーカウント値を加算して前記閾値を超えたか否かを判断し、当該閾値を超えた場合に前記故障診断を開始することを特徴とする請求項1ないし3のいずれかに記載のディスクアレイ装置の故障診断システム。
  13. 前記ディスク装置の前記制御手段は、前記エラーカウント値が前記閾値を超えていたときに、前記ディスク装置と前記制御回路との間に接続されているディスク装置である前段のディスク装置から診断結果を受け取り、前記前段のディスク装置の前記エラーカウント値が前記閾値を超えていない場合に、自ディスク装置と前記前段のディスク装置とを接続しているケーブルを前記被疑ケーブルと特定することを特徴とする請求項12記載のディスクアレイ装置の故障診断システム。
  14. 前記ディスク装置の前記制御手段は、自ディスク装置に最も近い前記前段のディスク装置から前記診断結果を受け取ることを特徴とする請求項13記載のディスクアレイ装置の故障診断システム。
  15. 前記前段のディスク装置の前記エラーカウント値が前記閾値を超えていた場合に、前記前段のディスク装置において前記故障診断が行われることを特徴とする請求項13または14記載のディスクアレイ装置の故障診断システム。
  16. 複数のレーンを含むケーブルにより接続された複数のディスク装置と、複数の前記ケーブルとを備えたディスクアレイ装置の故障診断方法において、
    前記複数のケーブルのうちいずれかのケーブルで異常が発生した場合、ケーブル異常の原因である可能性が高い被疑レーンを特定する故障診断を行う故障診断ステップを有することを特徴とするディスクアレイ装置の故障診断方法。
  17. 前記故障診断ステップにおいて、前記異常が発生した異常ケーブルを挟むディスク装置が、前記異常ケーブルの各レーンに対して順番にデータ転送を行うことにより前記故障診断が行われることを特徴とする請求項16記載のディスクアレイ装置の故障診断方法。
  18. 前記故障診断ステップにおいて、前記異常ケーブルを挟むディスク装置が、前記異常ケーブルの各レーンに対して、交互に双方向のデータ転送を行うことにより前記故障診断が行われることを特徴とする請求項17記載のディスクアレイ装置の故障診断方法。
  19. 前記ディスクアレイ装置は、さらに制御回路を備え、
    前記故障診断ステップは、
    前記制御回路が、異常が発生している可能性が高い被疑ケーブルを特定する第1被疑ケーブル特定ステップと、
    前記制御回路が、当該被疑ケーブルを挟む前記ディスク装置に対して故障診断指示を行う故障診断指示ステップと、
    前記被疑ケーブルを挟む前記ディスク装置が、前記故障診断指示を受け取ると、特定された前記被疑ケーブルについて前記故障診断を開始する第1故障診断開始ステップと、
    を有することを特徴とする請求項16ないし18のいずれかに記載のディスクアレイ装置の故障診断方法。
  20. データ転送先の前記ディスク装置が、データ転送元の前記ディスク装置および前記制御回路に診断結果を通知する通知ステップを有することを特徴とする請求項19記載のディスクアレイ装置の故障診断方法。
  21. 前記故障診断ステップは、
    前記被疑レーンが特定された場合、当該被疑レーンを切り離す切り離しステップを有することを特徴とする請求項16ないし20のいずれかに記載のディスクアレイ装置の故障診断方法。
  22. 前記ディスク装置は複数の記憶ユニットを含み、
    前記第1被疑ケーブル特定ステップは、
    前記記憶ユニット毎のエラーカウント値および当該エラーカウント値の閾値を前記制御回路の記憶手段に格納する第1格納ステップと、
    前記制御回路が、前記記憶ユニットへのアクセスエラーが発生したとき、当該記憶ユニットに対応するエラーカウント値を加算する第1加算ステップと、
    前記加算されたエラーカウント値が前記記憶手段に記憶された前記閾値を超えたか否かを判断する第1判断ステップと、
    を備えることを特徴とする請求項19ないし21のいずれかに記載のディスクアレイ装置の故障診断方法。
  23. 前記第1格納ステップおよび前記第1加算ステップにおいて、
    前記アクセスエラーのうちインタフェース系のエラーのみをカウントすることを特徴とする請求項22記載のディスクアレイ装置の故障診断方法。
  24. 前記第1被疑ケーブル特定ステップは、
    前記第1判断ステップにおいて、前記加算されたエラーカウント値が前記閾値を超えたとき、当該記憶ユニットが属するディスク装置と同一のディスク装置内の他の記憶ユニットのエラーカウント値が閾値を超えているか否かを判断する第2判断ステップと、
    前記他の記憶ユニットのエラーカウント値が閾値を超えていたとき、自ディスク装置と接続され、かつ、当該自ディスク装置と前記制御回路との間のケーブルを前記被疑ケーブルと特定する第1特定ステップと、
    を有することを特徴とする請求項22または23記載のディスクアレイ装置の故障診断方法。
  25. 前記第1特定ステップにおいて、
    前記同一のディスク装置において、前記エラーカウント値が前記閾値を超えている前記他の記憶ユニットが所定数以上だったとき、自ディスク装置と接続され、かつ、当該自ディスク装置と前記制御回路との間のケーブルを被疑ケーブルと特定することを特徴とする請求項24記載のディスクアレイ装置の故障診断方法。
  26. 前記第1被疑ケーブル特定ステップは、
    前記第2判断ステップにおいて、前記同一のディスク装置の中でエラーカウント値が閾値を超えている他の記憶ユニットが全く存在しないとき、前記アクセスエラーを発生した記憶ユニット自身の故障と判断する第3判断ステップを有することを特徴とする請求項24または25記載のディスクアレイ装置の故障診断方法。
  27. 前記ディスクアレイ装置は、さらに制御回路を備え、
    前記故障診断ステップは
    前記制御回路が、所定の間隔で前記ディスク装置に対して入出力コマンドを出力するコマンド送信ステップと、
    前記ディスク装置が、異常が発生している可能性が高い被疑ケーブルを特定する第2被疑ケーブル特定ステップと、
    を有し、
    前記第2被疑ケーブル特定ステップは、
    前記入出力コマンドを受け取るべき所定の間隔を示す時間情報とエラーカウント値と当該エラーカウント値の閾値とを前記ディスク装置の記憶手段に格納する第2格納ステップと、
    前記制御回路から前記所定の間隔で入出力コマンドを受け取らないとき、前記エラーカウント値を加算する第2加算ステップと、
    前記加算されたエラーカウントが前記閾値を超えたか否かを判断し、前記閾値を超えた場合に前記故障診断を開始する第2故障診断開始ステップと、
    を有することを特徴とする請求項16ないし18のいずれかに記載のディスクアレイ装置の故障診断方法。
  28. 前記第2被疑ケーブル特定ステップは、
    前記ディスク装置が、前記エラーカウントの閾値を超えていた場合に、当該ディスク装置と前記制御回路との間に接続されているディスク装置である前段のディスク装置から診断結果を受け取る受取ステップと、
    前記前段のディスクアレイ装置の前記エラーカウント値が前記閾値を超えていない場合に、自ディスク装置と前記前段のディスク装置とを接続しているケーブルを前記被疑ケーブルと特定する第2特定ステップと、
    を有することを特徴とする請求項27記載のディスクアレイ装置の故障診断方法。
  29. 前記受取ステップにおいて、
    前記ディスク装置が、自ディスク装置に最も近い前記前段のディスク装置から前記診断結果を受け取ることを特徴とする請求項28記載のディスクアレイ装置の故障診断方法。
  30. 前記第2被疑ケーブル特定ステップにおいて、前記前段のディスクアレイ装置の前記エラーカウント値が前記閾値を超えていたとき、前記前段のディスク装置において前記受取ステップおよび前記第2特定ステップを繰り返すことを特徴とする請求項28または29記載のディスクアレイ装置の故障診断方法。
  31. 複数のレーンを含むケーブルにより接続された複数のディスク装置と、複数の前記ケーブルとを備えたディスクアレイ装置におけるディスク装置において、
    前記複数のケーブルのうちいずれかのケーブルで異常が発生した場合、ケーブル異常の原因である可能性が高い被疑レーンを特定する故障診断を行うことを特徴とするディスク装置。
  32. 前記ディスクアレイ装置は、異常が発生している可能性が高い被疑ケーブルを特定して当該被疑ケーブルを挟む前記ディスク装置に対して故障診断指示を行う制御回路を備えており、
    前記制御回路から前記故障診断指示を受け取ると、特定された前記被疑ケーブルについて前記故障診断を開始することを特徴とする請求項31記載のディスク装置。
  33. 前記制御回路に診断結果を通知することを特徴とする請求項32記載のディスク装置。
  34. 前記故障診断において前記被疑レーンが特定されたとき、当該被疑レーンを切り離すことを特徴とする請求項31ないし33のいずれかに記載のディスク装置。
  35. 制御手段と、
    前記制御回路から入出力コマンドを受け取るべき所定の間隔を示す時間情報とエラーカウント値と当該エラーカウント値の閾値とが格納された記憶手段と、
    を備え、
    前記制御手段は、前記ディスクアレイコントローラから予め定められた前記所定の間隔で前記入出力コマンドを受け取らないとき、前記エラーカウント値を加算して前記閾値を超えたか否かを判断し、当該閾値を超えた場合に前記故障診断を開始することを特徴とする請求項32ないし34のいずれかに記載のディスク装置。
  36. 前記制御手段は、前記エラーカウント値が前記閾値を超えていたときに、前記ディスク装置と前記制御回路との間に接続されているディスク装置である前段のディスク装置から診断結果を受け取り、前記前段のディスク装置の前記エラーカウントが前記閾値を超えていない場合に、自ディスク装置と前記前段のディスク装置とを接続しているケーブルを前記被疑ケーブルと特定することを特徴とする請求項35記載のディスク装置。
  37. 前記制御手段は、自ディスク装置に最も近い前記前段のディスク装置から診断結果を受け取ることを特徴とする請求項36記載のディスク装置。
  38. 複数のレーンを含むケーブルにより接続された複数のディスク装置と複数の前記ケーブルとを備えたディスクアレイ装置におけるディスク装置の故障診断方法において、
    前記複数のケーブルのうちいずれかのケーブルで異常が発生した場合、ケーブル異常の原因である可能性が高い被疑レーンを特定する故障診断を行う故障診断ステップを有することを特徴とするディスク装置の故障診断方法。
  39. 前記故障診断ステップは
    所定の間隔で、前記ディスク装置に接続された制御回路から入出力コマンドを受け取るコマンド受信ステップと、
    異常が発生している可能性が高い被疑ケーブルを特定する被疑ケーブル特定ステップと、
    を有し、
    前記被疑ケーブル特定ステップは、
    前記入出力コマンドを受け取るべき所定の間隔を示す時間情報とエラーカウント値と当該エラーカウント値の閾値とを前記ディスク装置の記憶手段に格納する第2格納ステップと、
    前記制御回路から前記所定の間隔で入出力コマンドを受け取らないとき、前記エラーカウント値を加算する第2加算ステップと、
    前記加算されたエラーカウント値が前記記憶手段に記憶された前記閾値を超えたか否かを判断し、前記閾値を超えた場合に前記故障診断を開始する故障診断開始ステップと、
    を有することを特徴とする請求項38記載のディスク装置の故障診断方法。
  40. 前記被疑ケーブル特定ステップは、
    前記ディスク装置が、前記エラーカウントの閾値を超えていた場合に、当該ディスク装置と前記制御回路との間に接続されているディスク装置である前段のディスク装置から診断結果を受け取る受取ステップと、
    前記前段のディスクアレイ装置の前記エラーカウントが前記閾値を超えていない場合に、自ディスク装置と前記前段のディスク装置とを接続しているケーブルを前記被疑ケーブルと特定する特定ステップと、
    を有することを特徴とする請求項39記載のディスク装置の故障診断方法。
  41. 前記受取ステップにおいて、
    前記ディスク装置が、自ディスク装置に最も近い前記前段のディスク装置から前記診断結果を受け取ることを特徴とする請求項40記載のディスク装置の故障診断方法。
  42. 複数のレーンを含むケーブルにより接続された複数のディスク装置と複数の前記ケーブルとを備えたディスクアレイ装置におけるディスクアレイコントローラにおいて、
    異常が発生している可能性が高い被疑ケーブルを特定する故障診断を行うことを特徴とするディスクアレイコントローラ。
  43. 前記ディスク装置に備えられた複数の記憶ユニットのそれぞれに対応づけられたエラーカウント値および当該エラーカウント値の閾値が格納される記憶手段と、
    前記記憶ユニットへのアクセスエラーが発生したとき、当該記憶ユニットに対応するエラーカウント値を加算して前記閾値を超えたか否かを判断することにより前記被疑ケーブルを特定する制御手段と、
    を備えることを特徴とする請求項42記載のディスクアレイコントローラ。
  44. 前記制御手段は、前記アクセスエラーのうちインタフェース系のエラーのみをカウントすることを特徴とする請求項43記載のディスクアレイコントローラ。
  45. 前記アクセスエラーを発生した記憶ユニットのエラーカウント値が閾値を超えたとき、前記制御手段は、当該記憶ユニットが属するディスク装置と同一のディスク装置内の他の記憶ユニットの前記エラーカウント値が前記閾値を超えているか否かを判断し、前記他の記憶ユニットの前記エラーカウント値が前記閾値を超えていたとき、当該ディスク装置と接続され、かつ、当該ディスク装置と自ディスクアレイコントローラとの間のケーブルを前記被疑ケーブルと特定することを特徴とする請求項42または44記載のディスクアレイコントローラ。
  46. 前記同一のディスク装置において、前記エラーカウント値が前記閾値を超えている前記他の記憶ユニットが所定数以上だったとき、前記制御手段は、当該ディスク装置と接続され、かつ、当該ディスク装置と自ディスクアレイコントローラとの間のケーブルを前記被疑ケーブルと特定することを特徴とする請求項45記載のディスクアレイコントローラ。
  47. 前記制御手段は、前記同一のディスク装置において、エラーカウント値が閾値を超えている前記他の記憶ユニットが全く存在しないとき、前記アクセスエラーを発生した記憶ユニット自身の故障と判断することを特徴とする請求項45または46記載のディスクアレイコントローラ。
  48. 複数のレーンを含むケーブルにより接続された複数のディスク装置と前記複数のケーブルとを備えたディスクアレイ装置におけるディスクアレイコントローラにおいて、
    所定の間隔で前記ディスク装置に対して入出力コマンドを送信することを特徴とするディスクアレイコントローラ。
  49. 複数のレーンを含むケーブルにより接続された複数のディスク装置と複数の前記ケーブルとを備えたディスクアレイ装置におけるディスクアレイコントローラの故障診断方法において、
    異常が発生している可能性が高い被疑ケーブルを特定する故障診断を行う故障診断ステップを有することを特徴とするディスクアレイコントローラの故障診断方法。
  50. 前記故障診断ステップは、
    前記ディスク装置に備えられた複数の記憶ユニットのそれぞれに対応づけられたエラーカウント値および当該エラーカウント値の閾値を記憶手段に格納する格納ステップと、
    前記記憶ユニットへのアクセスエラーが発生したとき、当該記憶ユニットに対応するエラーカウント値を加算して前記閾値を超えたか否かを判断することにより前記被疑ケーブルを特定する被疑ケーブル特定ステップと、
    を有することを特徴とする請求項49記載のディスクアレイコントローラの故障診断方法。
  51. コンピュータに、
    複数の前記コンピュータを接続し、かつ、複数のレーンから構成されるケーブルにおいて異常が発生したとき、ケーブル異常の原因である可能性が高い被疑レーンを特定する故障診断を行う故障診断ステップを実行させることを特徴とするディスク装置の故障診断プログラム。
  52. 前記故障診断ステップは、
    所定の間隔で、自コンピュータに接続された制御回路から入出力コマンドを受け取るコマンド受信ステップと、
    異常が発生している可能性が高い被疑ケーブルを特定する被疑ケーブル特定ステップと、
    を有し、
    前記被疑ケーブル特定ステップは、
    前記入出力コマンドを受け取るべき所定の間隔を示す時間情報とエラーカウント値と当該エラーカウント値の閾値とを自コンピュータの記憶手段に格納する第2格納ステップと、
    前記制御回路から前記所定の間隔で入出力コマンドを受け取らないとき、前記エラーカウント値を加算する第2加算ステップと、
    前記加算されたエラーカウント値が前記閾値を超えたか否かを判断し、前記閾値を超えた場合に前記故障診断を開始する故障診断開始ステップと、
    を有することを特徴とする請求項51に記載のディスク装置の故障診断プログラム。
  53. コンピュータに、
    複数のディスク装置を接続する複数のケーブルのうち、異常が発生している可能性が高い被疑ケーブルを特定する故障診断を行う故障診断ステップを実行させ、
    前記ケーブルは複数のレーンを含むことを特徴とするディスクアレイコントローラの故障診断プログラム。
  54. 前記故障診断ステップは、
    前記ディスク装置に含まれる複数の記憶ユニットのそれぞれに対応づけられたエラーカウント値および当該エラーカウント値の閾値を記憶手段に格納する格納ステップと、
    前記記憶ユニットへのアクセスエラーが発生したとき、当該記憶ユニットに対応するエラーカウント値を加算して前記閾値を超えたか否かを判断することにより前記被疑ケーブルを特定する被疑ケーブル特定ステップと、
    を有することを特徴とする請求項53記載のディスクアレイコントローラの故障診断プログラム。
  55. コンピュータに、
    複数のレーンを含むケーブルにより接続された複数のディスク装置に対して、
    所定の間隔で入出力コマンドを送信する送信ステップを実行させることを特徴とするディスクアレイコントローラの故障診断プログラム。
JP2009262661A 2009-11-18 2009-11-18 ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置 Active JP5573118B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009262661A JP5573118B2 (ja) 2009-11-18 2009-11-18 ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009262661A JP5573118B2 (ja) 2009-11-18 2009-11-18 ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置

Publications (2)

Publication Number Publication Date
JP2011108006A true JP2011108006A (ja) 2011-06-02
JP5573118B2 JP5573118B2 (ja) 2014-08-20

Family

ID=44231398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009262661A Active JP5573118B2 (ja) 2009-11-18 2009-11-18 ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置

Country Status (1)

Country Link
JP (1) JP5573118B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015059804A1 (ja) * 2013-10-24 2015-04-30 株式会社日立製作所 ストレージシステムおよびその制御方法
US9160498B2 (en) 2012-09-19 2015-10-13 Fujitsu Limited Transmission unit and diagnosis method
CN112463045A (zh) * 2020-11-23 2021-03-09 苏州浪潮智能科技有限公司 磁盘冗余阵列多样性批量控制方法、装置、设备、产品
CN117785074A (zh) * 2024-02-28 2024-03-29 济南浪潮数据技术有限公司 一种输入输出超时处理的方法、装置、服务器及介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11296311A (ja) * 1998-04-08 1999-10-29 Hitachi Ltd 記憶装置の耐故障制御方式
JP2001306262A (ja) * 2000-04-26 2001-11-02 Hitachi Ltd 情報処理システムの制御方法および情報処理システム
JP2002314632A (ja) * 2001-04-16 2002-10-25 Denso Corp 電子制御装置
JP2005182485A (ja) * 2003-12-19 2005-07-07 Nec Computertechno Ltd シリアル伝送制御装置、コンピュータシステム、および、シリアル伝送制御方法
JP2005251078A (ja) * 2004-03-08 2005-09-15 Hitachi Ltd 情報処理装置、及び情報処理装置の制御方法
JP2006201881A (ja) * 2005-01-18 2006-08-03 Fujitsu Ltd 情報処理装置およびシステムバス制御方法
JP2006285519A (ja) * 2005-03-31 2006-10-19 Hitachi Global Storage Technologies Netherlands Bv データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置
JP2007094996A (ja) * 2005-09-30 2007-04-12 Fujitsu Ltd データストレージシステム、データストレージ制御装置及びその障害箇所診断方法
JP2007265243A (ja) * 2006-03-29 2007-10-11 Hitachi Ltd 計算機システム及び論理パス切替方法
JP2009169854A (ja) * 2008-01-18 2009-07-30 Nec Corp コンピュータシステム、障害処理方法および障害処理プログラム
JP2009187483A (ja) * 2008-02-08 2009-08-20 Hitachi Ltd ストレージサブシステム及びこれの制御方法
JP2009205316A (ja) * 2008-02-27 2009-09-10 Fujitsu Ltd ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
JP2009211322A (ja) * 2008-03-03 2009-09-17 Nec Corp 管理制御装置、データ記憶システム、障害処理方法、及び障害処理プログラム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11296311A (ja) * 1998-04-08 1999-10-29 Hitachi Ltd 記憶装置の耐故障制御方式
JP2001306262A (ja) * 2000-04-26 2001-11-02 Hitachi Ltd 情報処理システムの制御方法および情報処理システム
JP2002314632A (ja) * 2001-04-16 2002-10-25 Denso Corp 電子制御装置
JP2005182485A (ja) * 2003-12-19 2005-07-07 Nec Computertechno Ltd シリアル伝送制御装置、コンピュータシステム、および、シリアル伝送制御方法
JP2005251078A (ja) * 2004-03-08 2005-09-15 Hitachi Ltd 情報処理装置、及び情報処理装置の制御方法
JP2006201881A (ja) * 2005-01-18 2006-08-03 Fujitsu Ltd 情報処理装置およびシステムバス制御方法
JP2006285519A (ja) * 2005-03-31 2006-10-19 Hitachi Global Storage Technologies Netherlands Bv データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置
JP2007094996A (ja) * 2005-09-30 2007-04-12 Fujitsu Ltd データストレージシステム、データストレージ制御装置及びその障害箇所診断方法
JP2007265243A (ja) * 2006-03-29 2007-10-11 Hitachi Ltd 計算機システム及び論理パス切替方法
JP2009169854A (ja) * 2008-01-18 2009-07-30 Nec Corp コンピュータシステム、障害処理方法および障害処理プログラム
JP2009187483A (ja) * 2008-02-08 2009-08-20 Hitachi Ltd ストレージサブシステム及びこれの制御方法
JP2009205316A (ja) * 2008-02-27 2009-09-10 Fujitsu Ltd ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
JP2009211322A (ja) * 2008-03-03 2009-09-17 Nec Corp 管理制御装置、データ記憶システム、障害処理方法、及び障害処理プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9160498B2 (en) 2012-09-19 2015-10-13 Fujitsu Limited Transmission unit and diagnosis method
WO2015059804A1 (ja) * 2013-10-24 2015-04-30 株式会社日立製作所 ストレージシステムおよびその制御方法
US10055272B2 (en) 2013-10-24 2018-08-21 Hitachi, Ltd. Storage system and method for controlling same
CN112463045A (zh) * 2020-11-23 2021-03-09 苏州浪潮智能科技有限公司 磁盘冗余阵列多样性批量控制方法、装置、设备、产品
CN112463045B (zh) * 2020-11-23 2023-01-10 苏州浪潮智能科技有限公司 磁盘冗余阵列多样性批量控制方法、装置、设备、产品
CN117785074A (zh) * 2024-02-28 2024-03-29 济南浪潮数据技术有限公司 一种输入输出超时处理的方法、装置、服务器及介质

Also Published As

Publication number Publication date
JP5573118B2 (ja) 2014-08-20

Similar Documents

Publication Publication Date Title
US8402189B2 (en) Information processing apparatus and data transfer method
US7356638B2 (en) Using out-of-band signaling to provide communication between storage controllers in a computer storage system
US7904744B2 (en) Data storage using multiple protocols
CN100495355C (zh) 从磁盘阵列中隔离驱动器以用于诊断操作的系统和方法
EP1881407A2 (en) Storage control system, control method for storage control system, port selector, and controller
US20070113006A1 (en) Apparatus and method to configure one or more storage arrays
US20120233399A1 (en) Storage apparatus and method of controlling the same
KR101200998B1 (ko) 멀티 pci 버스 스위칭을 갖는 하이브리드 raid 컨트롤러
WO2011132922A2 (ko) 반도체 저장장치를 위한 알에이아이디 제어기 및 그 제공 방법
JP5573118B2 (ja) ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置
US11068337B2 (en) Data processing apparatus that disconnects control circuit from error detection circuit and diagnosis method
KR20130071346A (ko) 정보 처리 장치 및 동작 상태 감시 방법
US20080010494A1 (en) Raid control device and failure monitoring method
WO2012018216A2 (en) Hybrid raid controller
JP2016046702A (ja) 通信システム,異常制御装置および異常制御方法
JP6187150B2 (ja) ストレージ制御装置、ストレージ装置、及びストレージ制御プログラム
WO2013027997A2 (en) Network-capable raid controller for a semiconductor storage device
WO2012018217A2 (en) Raid controller having multi pci bus switching
JP6777848B2 (ja) 制御装置、及びストレージ装置
US20140019646A1 (en) Service Channel For Connecting A Host Computer To Peripheral Devices
US10409663B2 (en) Storage system and control apparatus
WO2011024221A1 (en) Remote copy system
US8874972B2 (en) Storage system and method for determining anomaly-occurring portion
WO2012177056A2 (en) Two-way raid controller with programmable host interface for a semiconductor storage device
WO2012169825A2 (en) Two-way raid controller for a semiconductor storage device

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140616

R150 Certificate of patent or registration of utility model

Ref document number: 5573118

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150