JP2006285519A - データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置 - Google Patents

データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置 Download PDF

Info

Publication number
JP2006285519A
JP2006285519A JP2005103013A JP2005103013A JP2006285519A JP 2006285519 A JP2006285519 A JP 2006285519A JP 2005103013 A JP2005103013 A JP 2005103013A JP 2005103013 A JP2005103013 A JP 2005103013A JP 2006285519 A JP2006285519 A JP 2006285519A
Authority
JP
Japan
Prior art keywords
data
diagnosis
control unit
diagnostic
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005103013A
Other languages
English (en)
Inventor
Toshiyuki Konishi
敏之 小西
Masaki Yoshioka
正樹 吉岡
Akira Kojima
昭 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HGST Netherlands BV
Original Assignee
Hitachi Global Storage Technologies Netherlands BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Global Storage Technologies Netherlands BV filed Critical Hitachi Global Storage Technologies Netherlands BV
Priority to JP2005103013A priority Critical patent/JP2006285519A/ja
Publication of JP2006285519A publication Critical patent/JP2006285519A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】
FC−ALシステムにおいて障害箇所を特定する場合は、ポート・バイパス回路によるデバイスの迂回動作とループの再構成を繰り返し行う必要があり、障害箇所の特定に時間を要する。
【解決手段】
コントロール・ユニット10並びに磁気ディスク装置11乃至14のいずれかから下流の磁気ディスク装置11乃至14又はコントロール・ユニット10に対して診断データを送信し、下流の装置によって受信された診断データの正常性を判断し、下流の装置による診断データの受信が異常であった場合は、上流のデバイスと下流のデバイスの間の区間を障害区間に特定する。次に、下流の装置及び下流の装置に診断データを送信した上流の装置において、自身のトランスミッタから送信した診断データを自身のレシーバで受信する折り返し診断を行って、障害区間における障害箇所を特定する。
【選択図】 図1

Description

本発明は、一方向にデータを転送する論理的にループ状のデータ伝送路によって複数のデバイスを接続したシステムにおける障害診断方法に関し、特に、FC−ALシステムの障害診断方法に関する。
FC−AL(Fibre Channel Arbitrated Loop)は、ファイバチャネルのトポロジの1つであり、最大126台のデバイスをループ状に接続することができる。
FC−ALは、主に複数のストレージ・サーバとこれを利用するホスト装置との間を接続するインタフェースとして利用され、また、ディスク・アレイ等のストレージ・サブシステム内で磁気ディスク装置等のデータ記憶装置の間を接続する内部インタフェースとしても利用されている。以下では、FC−ALでループ状に接続されたデバイスからなるシステムをFC−ALシステムと呼ぶ。
FC−ALシステムを構成する各デバイスは、ループ上の他のデバイスに対してリピータとして動作することになる。したがって、ループを構成するデバイス又は伝送路の1箇所で障害が発生すると、ループを構成する全てのデバイスにその影響が波及することになる。
このような障害の影響を回避するために、FC−ALシステムではポート・バイパス回路(PBC:Port Bypass Circuit)が用いられている。ポート・バイパス回路は、デバイスをループから切り離すことができる回路であり、電気スイッチ等により構成されている。ポート・バイパス回路によって障害の発生したデバイスを迂回し、他の正常なデバイスのみによってループを再構成することにより、正常なデバイス間での通信を継続することが可能となる。
さらに、ループの可用性を高めるために、FC−ALのループを二重化することも行われている。二重ループとすれば、一方のループが伝送路障害の発生等によって使用不可能となった場合にも、他方のループを用いてデバイス間の通信を維持することができる。
従来のFC−ALシステムの構成例を図7に示す。図7(a)に示すFC−ALシステム7は、4台のデバイス70乃至73がループ状のデータ伝送路78によって接続されたシステムである。デバイス70乃至73とデータ伝送路78は、ポート・バイパス回路74乃至77を介して接続されている。データ伝送路78は、一方向にデータを転送する伝送路であり、図中の破線矢印がデータの転送方向を示している。例えば、デバイス70からデバイス72に対してデータを送信する場合、まずデバイス70がファイバチャネルのフレーム形式に組み立てた送信データを伝送路78に送出する。デバイス70によって送出されたデータは、デバイス71によって中継された後にデバイス72の受信ポートに到達する。なお、データ伝送路78の媒体には、光ファイバケーブルが使用されるが、デバイス間の距離が短い場合には、メタルケーブルが使用される場合もある。
図7(b)は、コンセントレータ79を用いることにより、FC−ALシステム7の物理的なトポロジをスター型とした構成を示している。このような構成であっても、デバイス70乃至74の間のデータ伝送経路、つまり論理的なトポロジは、図7(a)と同様にループ状のままである。
上述した従来のFC−ALシステムに障害が発生した場合に、障害箇所を特定するための診断方法として、ポート・バイパス回路によってデバイスを迂回しつつ障害箇所を特定していく方法が従来から知られている(例えば、特許文献1及び2を参照)。
特許文献1は、FC−ALにおける障害発生デバイスを特定する技術を開示している。具体的には、FC−ALコンセントレータ内にFC−ALデバイスの1つであるイニシエータホストと同じくFC−ALデバイスである複数のディスク・アレイ装置を接続するためのスイッチ回路を設けている。障害が発生した場合は、スイッチを切り替えることでFC−ALループをいったん切断し、イニシエータホストとディスク・アレイ装置とを1台ずつ順に接続して調査していき、障害の発生した装置を特定することが記載されている。しかしながら、この方法では、ディスク・アレイ装置をループに追加する毎に、イニシエータホストとディスク・アレイ装置の新たな接続関係に合わせてFC−ALループの接続状態を更新し、ループ構成を確立する動作(以下、FC−ALループの再構成と呼ぶ)が必要となる。このため、障害箇所の特定に時間を要するという課題がある。
特許文献2も、FC−ALにおける障害発生デバイスを特定する技術を開示するものであり、障害箇所の特定時に必要なFC−ALのループ再構成の回数を特許文献1の方法に比べて少なくする技術を開示している。しかしながら、当該方法によっても、障害箇所の特定にFC−ALループの再構成が必要であり、ループ上に接続されるデバイス数が多い場合には、障害箇所の特定に時間を要することになる。
また、特許文献3に開示された技術は、ポート・バイパス回路によるデバイスの迂回動作及びFC−ALのループ再構成を行うことなく障害発生を認識し、二重ループの予備側に切り替える動作を行うものである。具体的には、上流のデバイスが障害テスト信号を下流のデバイスに対して送信し、下流のデバイスが障害テスト信号を一定時間以内に受信できなかった場合に、障害が発生しているものと判定し、下流側のデバイスが予備側のループへの切り替えを開始する。これにより、早期の障害回避が可能となる。しかしながら、当該技術は、障害の原因が上流側のデバイス、下流側のデバイスあるいは伝送路のいずれにあるのかといった障害箇所の特定を行うものではない。
特開2003−44370号公報 特開平11−353126号公報 特開2002−185484号公報
上述したように、FC−ALシステムにおいて障害箇所を特定する場合は、ポート・バイパス回路によるデバイスの迂回動作とループの再構成を繰り返し行う必要があり、障害箇所の特定に時間を要するという問題がある。
本発明は、このような問題点を解決するためになされたものであり、本発明の目的は、FC−ALシステム等の一方向にデータを転送するループ状のデータ伝送路によって複数のデバイスを接続したシステムにおいて、デバイスの迂回によるループの再構成を行うことなく障害箇所を特定することが可能な障害診断方法、この診断方法が適用可能なループ状のデータ転送システム及び当該障害診断方法に適用可能なデータ記憶装置を提供することである。
本発明にかかる障害診断方法は、一方向にデータを転送するループ状のデータ伝送路によって複数のデバイスを接続したシステムにおける障害診断方法である。具体的には、上流のデバイスから下流の前記デバイスに対して前記データ伝送路を介して診断データを送信し、前記下流のデバイスによって受信された前記診断データの正常性を判断し、前記下流のデバイスによる前記診断データの受信が異常であった場合は、前記上流のデバイスと前記下流のデバイスの間の区間を障害区間に特定し、前記下流のデバイス及び前記上流のデバイスにおいて、自身のトランスミッタから送信した診断データを自身のレシーバで受信する折り返し診断を行って、前記障害区間における障害箇所を特定するものである。
このような方法により、上流デバイスから診断データを正常に受信できたか否かにより、障害の発生している区間を特定し、さらに、折り返し診断によって障害箇所の詳細な特定ができる。したがって、本発明によれば、デバイスの迂回動作とループの再構成を行うことなく、障害箇所の特定が可能となる。
ここで、前記障害箇所の特定は、前記折り返し診断において、前記上流のデバイスの前記診断データの受信が異常であった場合は、前記上流デバイスを障害箇所と判定し、前記折り返し診断において、前記下流デバイスの前記診断データの受信が異常であった場合は、前記下流デバイスを障害箇所と判定することとすればよい。これにより、障害が発生している区間において障害の発生しているデバイスまで特定することができる。
さらに、前記障害箇所の特定は、前記折り返し診断において、前記上流のデバイス及び前記下流のデバイスの前記診断データの受信がともに正常であった場合は、前記上流のデバイスと前記下流のデバイスの間のデータ伝送路を障害箇所と判定することとしてもよい。これにより、デバイスに障害が発生している場合だけでなく、デバイス間のデータ伝送路に障害が発生している場合の障害箇所の特定も可能となる。
なお、前記障害区間の特定を開始するタイミングは、前記デバイス間でのデータ転送エラーの発生履歴に基づいて決定することとしてもよい。これにより、障害の発生が疑われる場合に速やかに障害箇所の特定を行うことができる。
また、前記障害区間の特定は、前記デバイス間でのデータ転送エラーの発生頻度が高いデバイスを前記診断データの受信側とし、当該デバイスの上流に接続されたデバイスから前記診断データの送信を開始することが望ましい。これにより、障害が発生している可能性が高い区間から診断を開始することができるため、任意の磁気ディスク装置から診断を開始する場合に比べて、障害箇所の特定をより高速に行うことが可能となる。
また、前記障害区間の特定は、複数の前記デバイスから並行して前記診断データを送信することにより、障害区間の特定を複数の区間において並行して行うこととしてもよい。これにより、障害区間の特定について、各区間の診断を並行して行うことができる。この後に、特定した障害区間の磁気ディスク装置に前記折り返し診断の実行を指示すればよい。この方法であれば、障害箇所の特定をさらに高速に行うことができる。
ここで、前記システムはストレージ・サブシステムであり、少なくとも前記デバイスの1つは前記ストレージ・サブシステムが備える複数のデータ記憶装置に対する書き込み・読み出しの制御を行うコントロール・ユニットであり、前記コントロール・ユニットを除く前記デバイスは前記データ記憶装置である場合、前記データ記憶装置に対する書き込みエラー若しくは読み出しエラー又はこれら両方の発生履歴に基づいて、前記コントロール・ユニットが前記障害区間の特定の開始を判断することとすればよい。これにより、ストレージ・サブシステムの動作において蓄積されたエラー履歴情報を用いて、診断開始のタイミングを決定することができる。
また、前記コントロール・ユニットは、書き込みエラー若しくは読み出しエラー又はこれら両方の発生頻度が高い前記データ記憶装置を前記診断データの受信側とし、受信側のデータ記憶装置の上流に接続された前記データ記憶装置を前記診断データの送信側として前記障害区間の特定を開始することとしてもよい。これにより、ストレージ・サブシステムの動作において蓄積されたエラー履歴情報を用いて、診断を開始するデータ記憶装置を決定することができる。
一方、本発明にかかるデータ転送システムは、一方向にデータを転送するループ状のデータ伝送路によって複数のデバイスを接続したデータ転送システムである。前記デバイスは、前記データ伝送路にデータを送信するトランスミッタと、前記データ伝送路からデータを受信するレシーバと、前記トランスミッタから診断データを送信する診断制御部とを備えている。前記デバイスは、自身の前記トランスミッタが送信したデータを自身の前記レシーバに折り返し可能な折り返し回路を介して前記データ伝送路に接続され、前記デバイスの間は、前記データ伝送路とは異なる制御回線により接続される。さらに、前記診断制御部は、上流のデバイスから受信した前記診断データの正常性の判定と、自身の前記トランスミッタから出力され、前記折り返し回路を介して受信した前記診断データの正常性の判定とを行い、前記デバイスは、前記制御回線を介して、他の前記デバイスに前記正常性の判定の結果を転送するものである。
このような構成により、上流デバイスから診断データを正常に受信できたか否かにより、障害の発生している区間を特定することができる。さらに、折り返し回路を用いてトランスミッタから送信した診断データを自デバイスが備えるレシーバに折り返して受信することにより、障害の発生しているデバイスまで特定することができる。また、各デバイスは、診断を制御する他のデバイスに対して、ループ状のデータ伝送路を用いることなく正常性の判定結果を送信することができる。したがって、本発明にかかるデータ転送システムは、ループ状のデータ伝送路に障害がある場合にも、デバイスの迂回動作とループの再構成を行うことなく、障害箇所の特定する障害診断方法に適用することができる。
ここで、前記データ転送システムはストレージ・サブシステムであり、少なくとも前記デバイスの1つは前記ストレージ・サブシステムが備える複数のデータ記憶装置に対する書き込み及び読み出しの制御を行うコントロール・ユニットであり、前記コントロール・ユニットを除く前記デバイスは前記データ記憶装置である場合は、前記コントロール・ユニットは、前記データ記憶装置が備える前記診断制御部による前記判定の結果に基づいて、障害箇所の特定を行うこととすればよい。
ここで、前記コントロール・ユニットは、前記制御回線を介して、前記データ記憶装置に前記診断データの送信及び前記正常性の判定の実施を指示することとすればよい。
また、前記コントロール・ユニットは、前記データ記憶装置に対する書き込みエラー若しくは読み出しエラー又はこれら両方の発生履歴に基づいて、前記データ記憶装置が備える前記診断制御部に対して前記診断データの送信を指示することが望ましい。これにより、ストレージ・サブシステムの動作において蓄積されたエラー履歴情報を用いて、診断開始のタイミングを決定することができる。
さらに、前記コントロール・ユニットは、書き込みエラー若しくは読み出しエラー又はこれら両方の発生頻度が高い前記データ記憶装置を前記診断データの受信側とし、受信側のデータ記憶装置の上流に接続された前記データ記憶装置を前記診断データの送信側として前記判定を行うよう、前記受信側及び前記送信側のデータ記憶装置が備える前記診断制御部に指示することが望ましい。これにより、ストレージ・サブシステムの動作において蓄積されたエラー履歴情報を用いて、診断を開始するデータ記憶装置を決定することができる。
本発明にかかるデータ記憶装置は、一方向にデータを転送するループ状のデータ伝送路に接続可能なインタフェースを備えたデータ記憶装置であって、FC−ALのデータ伝送路にデータを送信するトランスミッタと、前記データ伝送路からデータを受信するレシーバと、前記トランスミッタが送信したデータを前記レシーバに折り返し可能な折り返し回路と、前記トランスミッタから診断データを送信するとともに、前記データ伝送路に接続される他のデバイスから前記レシーバが受信した前記診断データの正常性の判定と、前記トランスミッタから出力され、前記折り返し回路を介して受信した前記診断データの正常性の判定とを行う診断制御部とを備えるものである。
このような構成のデータ記憶装置を用いることにより、上述した本発明にかかる障害箇所の特定方法及び本発明にかかるストレージ・サブシステムにおいて、デバイスの迂回動作とループの再構成を行うことなく、障害箇所を特定することが可能となる。
ここで、上記のデータ記憶装置は、前記ループ状のデータ伝送路の障害診断を行う診断装置と接続する制御端子をさらに備え、前記制御端子を介して、前記診断制御部に前記判定の実施を指示する制御信号を入力し、前記判定の結果を前記診断装置に出力することが望ましい。このような構成により、コントロール・ユニット等の外部の診断装置による診断開始の指示に応じて診断データの正常性の判定を行い、制御端子を介して外部のコントロール・ユニット等に判定結果を出力することができる。このため、FC−AL等のループ状のデータ伝送路に障害がある場合でも、デバイスの迂回動作とループの再構成を行うことなく障害箇所の特定を行うことができる。
本発明により、一方向にデータを転送するループ状のデータ伝送路によって複数のデバイスを接続したFC−ALシステム等のシステムにおいて、デバイスの迂回によるループの再構成を行うことなく障害箇所を特定することが可能な障害診断方法、この診断方法が適用可能なループ状のシステム及びデータ記憶装置を提供することができる。
以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。なお、本実施の形態は、本発明をディスク・アレイに適用したものである。
図1は、本実施の形態にかかるディスク・アレイ1の構成図である。図1に示すように、ディスク・アレイ1は、コントロール・ユニット10と磁気ディスク装置11乃至14とがデータ伝送路30乃至34からなるFC−ALループによって接続されたFC−ALシステムである。
ここで、コントロール・ユニット10は、外部ホストに対するインタフェースを提供し、外部ホストによる磁気ディスク装置11乃至14に対する書き込み要求及び読み出し要求を処理するとともに、磁気ディスク装置11乃至14のRAID(Redundant Arrays of Inexpensive Disks)管理やデータ圧縮等のディスク・アレイ1に関する制御を行う機能部である。
コントロール・ユニット10並びに磁気ディスク装置11乃至14は、それぞれトランスミッタ101、111、121、131又は141によってFC−ALループに転送データを送信し、レシーバ102、112、122、132、又は142によってFC−ALループ上の転送データを受信する。
ポート・バイパス回路20乃至24は、図7に示した従来のポート・バイパス回路74乃至77と同様に、コントロール・ユニット10並びに磁気ディスク装置11乃至14の各デバイスをFC−ALループから切り離すことが可能である。さらに、ポート・バイパス回路20乃至24は、コントロール・ユニット10並びに磁気ディスク装置11乃至14のトランスミッタが出力した信号を、当該信号を出力したコントロール・ユニット10並びに磁気ディスク装置11乃至14のレシーバに折り返して出力する機能を備えている。つまり、ポート・バイパス回路20乃至24は、コントロール・ユニット10並びに磁気ディスク装置11乃至14に対する折り返し回路として動作する。
なお、ポート・バイパス回路20乃至24は、コントロール・ユニット10並びに磁気ディスク装置11乃至14を収容するディスク・アレイ1の筐体のバックプレーン(不図示)に備えることとしてもよいし、コントロール・ユニット10並びに磁気ディスク装置11乃至14においてトランスミッタ及びレシーバと一体化したものとして構成してもよい。
制御バス40は、上述したコントロール・ユニット10、磁気ディスク装置11乃至14並びにポート・バイパス回路20乃至24の間における制御信号の送受信に使用するため、FC−ALのループ伝送路30乃至34と別に設けられた回線である。
次に、磁気ディスク装置11乃至14及びポート・バイパス回路20乃至24の構成について、図2を用いて説明する。図2は、磁気ディスク装置11及びポート・バイパス回路21の構成を示している。なお、他の磁気ディスク装置12乃至14、ポート・バイパス回路20、22乃至24の構成も同様である。
磁気ディスク装置11が備える診断制御部113は、障害箇所の特定を行うための診断を実施する機能部であり、レシーバ111を介してFC−ALループを転送される診断用データを受信し、トランスミッタ112を介してFC−ALループに診断用データを送信できるよう、レシーバ111及びトランスミッタ112と接続されている。なお、診断制御部13の動作については、障害箇所の特定手順と合わせて後述する。
ディスク・ドライブ14は、磁気ディスク、磁気ディスクに対する記録・再生を行うためのヘッド、ボイスコイルモータ等の機構部、ハードディスク・コントローラ、リード・ライト・チャネル等の制御部を備えており、コントロール・ユニット10から転送されたデータの記録、コントロール・ユニット10への再生データの転送を行うものである。なお、ディスク・ドライブ14の構成は、従来のディスク・ドライブの構成と同様である。
ポート・バイパス回路21は、2つのセレクタ211及び212を備えている。セレクタ211は、下流の磁気ディスク装置12に対する出力回線の接続先を、コントロール・ユニット10からの入力回線とトランスミッタ112からの入力回線の間で経路切り替える回路である。セレクタ211の動作によって磁気ディスク11をFC−ALループから切り離すことができる。
一方、セレクタ212は、磁気ディスク装置11のレシーバ111に対する出力回線の接続先を、コントロール・ユニット10からの入力回線とトランスミッタ112からの入力回線の間で経路切り替える回路である。セレクタ212の動作によってトランスミッタ112とレシーバ111の間を折り返して接続することができる。
続いて、本発明にかかるFC−ALシステムの障害診断方法について、図3乃至図5を用いて説明する。図3は、ディスク・アレイ1における障害箇所の診断手順を示すフローチャートである。障害箇所の診断を開始する場合には、まず、コントロール・ユニット10が、診断の開始を指示する診断起動コマンドを磁気ディスク装置11乃至14に対して送信する(ステップS101)。診断起動コマンドには、診断を開始する磁気ディスク装置のアドレス、診断データの種別等の情報が含まれる。なお、診断起動コマンドの送信は、制御バス40を用いて行われる。
ステップS102では、診断起動コマンドにおいて診断の開始を指示された磁気ディスク装置が、FC−ALループの下流側の磁気ディスク装置に対して診断データを送信する。例えば、診断の開始を指示された磁気ディスク装置が磁気ディスク装置11である場合は、磁気ディスク装置11から磁気ディスク装置12に向けて診断データを送信する。
ステップS103では、下流の磁気ディスク装置が診断データを受信し、正常に受信できたか否かを判定する(ステップS104)。当該判定は、下流の磁気ディスク装置の診断制御部が行う。
ここで、診断データは、特定のパターンを有するデータとし、ステップS104では、診断データを受信した下流の磁気ディスク装置の診断制御部が、期待するデータパターンと受信した診断データのデータパターンとの一致判定を行うこととすればよい。
なお、上流の磁気ディスク装置による診断データの送信は、診断データのデータパターンを変更しながら複数回行うこととしてもよい。これにより、下流側の磁気ディスク装置における不一致判定の精度を向上することができる。さらに、下流側の磁気ディスク装置におけるステップS104の判定は、単なるデータパターンの一致判定ではなく、符号誤り率の測定による閾値判定等により行うこととしてもよい。要するに、診断データの送受信によって、トランスミッタ、レシーバ及び伝送路の劣化に起因する信号品質の劣化を検出するための様々な方法が適用可能である。
ステップS104での判定の結果、データパターンが一致していれば、診断データを送信した上流の磁気ディスク装置と下流の磁気ディスク装置の間の区間では障害が発生していないと判断できる。このため、下流の磁気ディスク装置は、診断データの受信結果が正常であったことを示す診断結果を、制御バス40を介してコントロール・ユニット10に送信する(ステップS105)。
FC−ALループの全ての区間の診断が終了していなければ、ステップS102に戻り、次の区間の診断を実施する。具体的には、ステップS104において診断データの受信が正常であることを判定した下流の磁気ディスク装置が、さらに下流の磁気ディスク装置に対して診断データを送信する。
一方、ステップS104においてデータパターンが不一致であれば、トランスミッタ又はレシーバの劣化による符号誤りの発生等が疑われ、所定時間内に診断データを受信できない場合はデータ伝送路の切断等の障害の発生が疑われる。このため、下流の磁気ディスク装置は、診断データの受信結果が異常であったことを示す診断結果を、制御バス40を介してコントロール・ユニット10に送信する(ステップS107)。
コントロール・ユニット10は、診断データの受信結果が異常であったことを示す診断結果を受信すると、当該診断結果を送信した磁気ディスク装置とその上流の磁気ディスク装置に対して折り返し診断の実施を指示する(ステップS108)。ステップS109では、折り返し診断の指示を受けた磁気ディスク装置が折り返し診断を実施する。
ここで、折り返し診断の処理手順を図4及び図5を用いて説明する。図4は、折り返し診断の処理を示すフローチャートである。図5は、一例として、磁気ディスク装置11及び12が折り返し診断の指示を受けた場合の動作を示す図である。
折り返し診断の指示を受けた磁気ディスク装置は、まず、ポート・バイパス回路にトランスミッタ出力のレシーバへの折り返しを指示する。図5であれば、磁気ディスク装置11の診断制御部113がポート・バイパス回路21に折り返しを指示し、磁気ディスク装置12の診断制御部123がポート・バイパス回路22に折り返しを指示する。以下、図5の構成に沿って説明する。
ポート・バイパス回路21及び22の折り返し設定が完了した後に、ステップS202では、トランスミッタ112及び122から診断データを送信する。送信された診断データは、ポート・バイパス回路21又は22で折り返され、レシーバ111又は121に到達する。
ステップS202では、診断制御部113及び123が、診断データの受信を正常に行うことができたか否かを判定する。なお、当該判定は、例えば、上述したステップS104の判定と同様に送信した診断データと受信した診断データのデータパターンの一致判定により行うこととすれば良い。診断制御部113及び123は、診断データの受信結果が正常であったこと又は異常であったことを示す診断結果を、制御バス40を介してコントロール・ユニット10に送信して折り返し診断を終了する(ステップS204及びS205)。
図3に戻り、ステップS110では、コントロール・ユニット10が、折り返し診断の結果に基づいて障害箇所を特定する。具体的には、折り返し診断を行った障害区間における上流の磁気ディスク装置(図5の磁気ディスク装置11)の折り返し診断結果が異常であった場合、上流の磁気ディスク装置、さらに詳細には上流の磁気ディスク装置のトランスミッタ(図5のトランスミッタ112)を障害箇所と特定できる。
また、下流の磁気ディスク装置(図5の磁気ディスク装置12)の折り返し診断結果が異常であった場合、下流の磁気ディスク装置、さらに詳細には下流の磁気ディスク装置のレシーバ(図5のレシーバ121)を障害箇所と特定できる。
さらに、上流の磁気ディスク装置及び下流の磁気ディスク装置の折り返し診断結果がともに正常であった場合には、磁気ディスク装置間のデータ伝送路(図5の伝送路31)を障害箇所と特定できる。
以上に述べたように、本発明にかかるFC−ALシステムは、診断データの送受信及び診断データの正常性判定が可能な磁気ディスク装置11乃至14とコントロール・ユニット10が制御回線40を介して接続されている点が特徴である。このようなシステムにおいて、診断開始の指示及び診断結果の送受信を制御回線を介して行いながら、上述した工程で診断を行うことにより、磁気ディスク装置11乃至14の迂回によるFC−ALループの再構成を行うことなく、障害箇所を特定することができる。
また、従来の診断方法では、FC−ALのループ伝送路に障害がある場合には、どの区間の伝送路に障害が発生しているのかを特定することができないという問題があった。FC−ALのループ伝送路に障害が発生すると、診断を制御するデバイスを除く全てのデバイスを迂回してもループ伝送路の接続性が確立できず、従来の手順による診断を開始することができないためである。したがって、コンセントレータ79等を用いたスター型の構成であれば、コンセントレータの故障であることが判定できるものの、コンセントレータを用いない構成では障害箇所を特定できないことになる。これに対して、本発明の障害箇所の特定方法は、FC−ALのループ伝送路に障害がある場合にも、診断の指示及び診断結果の送受信を制御回線を介して行って、障害箇所の特定を行うことができる。
図3乃至図5を用いて説明した障害箇所を特定するための診断は、定期的に行うこと、ディスク・アレイの処理を行っていない間に行うこと等が可能である。また、FC−ALシステムでの転送エラーの発生数又は発生率が大きくなったことを契機として診断を開始することとしても良い。例えば、コントロール・ユニット10が、磁気ディスク装置に対する書き込みエラー及び読み出しエラーの発生履歴を参照し、エラー発生回数又はエラー発生率が所定の閾値を超えた場合に、障害箇所特定の診断を開始することとすれば良い。
なお、上記の説明では、ステップS102乃至S106に相当する障害区間の特定のための診断データの送受信を、区間毎に順次行うこととしたが、各区間の診断を並行して行うことも可能である。この場合、コントロール・ユニット10が送信する診断開始コマンドに応じて各磁気ディスク装置の診断制御部が診断データの送信を行うとともに、レシーバに到達する診断データの検証を行うこととすればよい。これにより、ステップS102乃至S106に相当する障害区間の特定は、各区間の診断を並行して行うことができる。この後に、特定した障害区間の磁気ディスク装置に折り返し診断を指示すればよい。この方法であれば、障害区間の特定をさらに高速に行うことができる。
さらに、ステップS102乃至S106に相当する障害区間の特定のための診断データの送受信を、障害発生の可能性が高い区間から開始することも可能である。以下、この場合の動作を、図6のフローチャートを用いて説明する。ステップS301ではコントロール・ユニット10がエラー履歴情報を参照する。ここで、エラー履歴情報は、磁気ディスク装置11乃至14に対する書き込み時の書き込みデータの転送エラー、磁気ディスク装置11乃至14からの読み出し時の読み出しデータの転送エラーを蓄積した情報である。なお、書き込みデータの転送エラーは、磁気ディスク装置11乃至14からコントロール・ユニット10に通知されるものである。
ステップS302では、コントロール・ユニット10が、磁気ディスク装置11乃至14の中から書き込みデータの転送エラー及び読み出しデータの転送エラーの発生数の多い磁気ディスク装置を特定する。ステップS303では、ステップS302で特定した磁気ディスク装置より一段上流の磁気ディスク装置を診断データの送信を行う上流の磁気ディスク装置として、ステップS102乃至S106の診断を開始する。
ここで、ステップS302で特定した磁気ディスク装置より一段上流の磁気ディスク装置から診断を始める理由は、一段上流の磁気ディスク装置のトランスミッタ又は伝送路の障害によって、下流の磁気ディスク装置が、書き込みデータの転送エラーを検出している可能性があるためである。
なお、ステップS301でコントロール・ユニット10が参照するエラー履歴情報は、診断の開始時に磁気ディスク装置11乃至14から収集することとしてもよい。具体的には、(1)コントロール・ユニット10が、磁気ディスク装置11乃至14に診断開始コマンドを発行すると、(2)診断開始コマンドを受信した磁気ディスク装置11乃至14が、保持するエラー履歴からFC−ALループでの転送に関するエラー数を算出し、制御バス40を介してコントロール・ユニット10に通知し、(3)コントロール・ユニット10が、磁気ディスク装置11乃至14から通知されたエラー数に基づいて、エラー数の最も多い磁気ディスク装置を特定することとすれば良い。
このように、エラー履歴情報を参照して、障害が発生している可能性が高い区間から診断を開始することにより、任意の磁気ディスク装置から診断を開始する場合に比べて、障害箇所の特定をより高速に行うことが可能となる。
なお、本実施の形態で示したディスク・アレイ1が備える、コントロール・ユニット10の台数、磁気ディスク装置11乃至14の台数は一例である。FC−ALに接続可能なデバイス数の範囲内において、より多数の磁気ディスク装置が接続される大規模な構成においても本発明は適用可能である。
さらに、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。上述の実施の形態では、本発明をディスク・アレイに適用した場合について説明したが、例えばテープ・ドライブ等の磁気ディスク装置以外のデータ記憶装置を含むストレージ・サブシステム、その他のFC−ALシステムにも適用可能である。また、FC−ALシステムを二重ループ構成とした場合であっても、障害の発生したFC−ALループの障害箇所の特定を行う場合に本発明は適用可能である。さらにはFC−AL以外の一方向にデータを転送する論理的にループ状のデータ伝送路によって複数のデバイスを接続したシステムに対しても、上記のディスク・アレイの場合と同様に適用することが可能である。
本発明にかかるFC−ALシステムの構成図である。 本発明にかかる磁気ディスク装置の構成図である。 本発明にかかる障害箇所の診断動作に関するフローチャートである。 本発明にかかる障害箇所の診断動作に関するフローチャートである。 本発明にかかる障害箇所の診断動作を説明するための図である。 本発明にかかる障害箇所の診断動作に関するフローチャートである。 従来のFC−ALシステムの構成図である。
符号の説明
1 ディスク・アレイ
10 コントロール・ユニット
11〜14 磁気ディスク装置
101、111、121、141 レシーバ
102、112、132、142 トランスミッタ
113 診断制御部
114 ディスク・ドライブ
20〜24 ポート・バイパス回路
211、212 セレクタ
30〜34 データ伝送路
40 制御バス

Claims (15)

  1. 一方向にデータを転送するループ状のデータ伝送路によって複数のデバイスを接続したシステムにおける障害診断方法であって、
    上流のデバイスから下流の前記デバイスに対して前記データ伝送路を介して診断データを送信し、
    前記下流のデバイスによって受信された前記診断データの正常性を判断し、
    前記下流のデバイスによる前記診断データの受信が異常であった場合は、前記上流のデバイスと前記下流のデバイスの間の区間を障害区間に特定し、
    前記下流のデバイス及び前記上流のデバイスにおいて、自身のトランスミッタから送信した診断データを自身のレシーバで受信する折り返し診断を行って、前記障害区間における障害箇所を特定する障害診断方法。
  2. 前記障害箇所の特定は、
    前記折り返し診断において、前記上流のデバイスの前記診断データの受信が異常であった場合は、前記上流デバイスを障害箇所に特定し、
    前記折り返し診断において、前記下流デバイスの前記診断データの受信が異常であった場合は、前記下流デバイスを障害箇所に特定するものである請求項1に記載の障害診断方法。
  3. 前記障害箇所の特定はさらに、
    前記折り返し診断において、前記上流のデバイス及び前記下流のデバイスの前記診断データの受信がともに正常であった場合は、前記上流のデバイスと前記下流のデバイスの間のデータ伝送路を障害箇所に特定するものである請求項2に記載の障害診断方法。
  4. 前記障害区間の特定を開始するタイミングは、前記デバイス間でのデータ転送エラーの発生履歴に基づいて決定する請求項1に記載の障害診断方法。
  5. 前記障害区間の特定は、前記デバイス間でのデータ転送エラーの発生頻度が高いデバイスを前記診断データの受信側とし、当該デバイスの上流に接続されたデバイスから前記診断データの送信を開始するものである請求項1に記載の障害診断方法。
  6. 前記障害区間の特定は、複数の前記デバイスから並行して前記診断データを送信することにより、障害区間の特定を複数の区間において並行して行うことを特徴とする請求項1に記載の障害診断方法。
  7. 前記システムはストレージ・サブシステムであり、少なくとも前記デバイスの1つは前記ストレージ・サブシステムが備える複数のデータ記憶装置に対する書き込み・読み出しの制御を行うコントロール・ユニットであり、前記コントロール・ユニットを除く前記デバイスは前記データ記憶装置であって、
    前記データ記憶装置に対する書き込みエラー若しくは読み出しエラー又はこれら両方の発生履歴に基づいて、前記コントロール・ユニットが前記障害区間の特定の開始を判断する請求項1に記載の障害診断方法。
  8. 前記システムはストレージ・サブシステムであり、少なくとも前記デバイスの1つは前記ストレージ・サブシステムが備える複数のデータ記憶装置に対する書き込み・読み出しの制御を行うコントロール・ユニットであり、前記コントロール・ユニットを除く前記デバイスは前記データ記憶装置であって、
    前記コントロール・ユニットは、書き込みエラー若しくは読み出しエラー又はこれら両方の発生頻度が高い前記データ記憶装置を前記診断データの受信側とし、受信側のデータ記憶装置の上流に接続された前記データ記憶装置を前記診断データの送信側として前記障害区間の特定を開始する請求項1に記載の障害診断方法。
  9. 一方向にデータを転送するループ状のデータ伝送路によって複数のデバイスを接続したデータ転送システムであって、
    前記デバイスは、前記データ伝送路にデータを送信するトランスミッタと、前記データ伝送路からデータを受信するレシーバと、前記トランスミッタから診断データを送信する診断制御部とを備え、
    前記デバイスは、自身の前記トランスミッタが送信したデータを自身の前記レシーバに折り返し可能な折り返し回路を介して前記データ伝送路に接続され、
    前記デバイスの間は、前記データ伝送路とは異なる制御回線により接続されており、
    前記診断制御部は、上流のデバイスから受信した前記診断データの正常性の判定と、自身の前記トランスミッタから出力され、前記折り返し回路を介して受信した前記診断データの正常性の判定とを行い、
    前記デバイスは、前記制御回線を介して、他の前記デバイスに前記正常性の判定の結果を転送するデータ転送システム。
  10. 前記データ転送システムはストレージ・サブシステムであり、少なくとも前記デバイスの1つは前記ストレージ・サブシステムが備える複数のデータ記憶装置に対する書き込み及び読み出しの制御を行うコントロール・ユニットであり、前記コントロール・ユニットを除く前記デバイスは前記データ記憶装置であって、
    前記コントロール・ユニットは、前記データ記憶装置が備える前記診断制御部による前記判定の結果に基づいて、障害箇所の特定を行う請求項9に記載のデータ転送システム。
  11. 前記コントロール・ユニットは、前記制御回線を介して、前記データ記憶装置に前記診断データの送信及び前記正常性の判定の実施を指示する請求項10に記載のデータ転送システム。
  12. 前記コントロール・ユニットは、前記データ記憶装置に対する書き込みエラー若しくは読み出しエラー又はこれら両方の発生履歴に基づいて、前記データ記憶装置が備える前記診断制御部に対して前記診断データの送信を指示する請求項10に記載のデータ転送システム。
  13. 前記コントロール・ユニットは、書き込みエラー若しくは読み出しエラー又はこれら両方の発生頻度が高い前記データ記憶装置を前記診断データの受信側とし、受信側のデータ記憶装置の上流に接続された前記データ記憶装置を前記診断データの送信側として前記判定を行うよう、前記受信側及び前記送信側のデータ記憶装置が備える前記診断制御部に指示することを特徴とする請求項10に記載のデータ転送システム。
  14. 一方向にデータを転送するループ状のデータ伝送路に接続可能なインタフェースを備えたデータ記憶装置であって、
    前記データ伝送路にデータを送信するトランスミッタと、
    前記データ伝送路からデータを受信するレシーバと、
    前記トランスミッタが送信したデータを前記レシーバに折り返し可能な折り返し回路と、
    前記トランスミッタから診断データを送信するとともに、前記データ伝送路に接続される他のデバイスから前記レシーバが受信した前記診断データの正常性の判定と、前記トランスミッタから出力され、前記折り返し回路を介して受信した前記診断データの正常性の判定とを行う診断制御部とを備えるデータ記憶装置。
  15. 前記ループ状のデータ伝送路の障害診断を行う診断装置と接続する制御端子をさらに備え、
    前記制御端子を介して、前記診断制御部に前記判定の実施を指示する制御信号を入力し、前記判定の結果を前記診断装置に出力する請求項14に記載のデータ記憶装置。
JP2005103013A 2005-03-31 2005-03-31 データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置 Pending JP2006285519A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005103013A JP2006285519A (ja) 2005-03-31 2005-03-31 データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005103013A JP2006285519A (ja) 2005-03-31 2005-03-31 データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置

Publications (1)

Publication Number Publication Date
JP2006285519A true JP2006285519A (ja) 2006-10-19

Family

ID=37407398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005103013A Pending JP2006285519A (ja) 2005-03-31 2005-03-31 データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置

Country Status (1)

Country Link
JP (1) JP2006285519A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064067A (ja) * 2007-09-04 2009-03-26 Hitachi Ltd 電源障害の発生を把握するストレージシステム
US7895476B2 (en) 2006-12-12 2011-02-22 Fujitsu Limited Data relay device, storage device and data-relay method
JP2011108006A (ja) * 2009-11-18 2011-06-02 Nec Corp ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置
WO2012063358A1 (ja) * 2010-11-12 2012-05-18 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
JP2012252631A (ja) * 2011-06-06 2012-12-20 Nec Corp 入出力装置、コンピュータシステム及び障害処理方法
US8898512B2 (en) 2010-08-10 2014-11-25 Fujitsu Limited Storage system and control method
WO2017017707A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 情報処理装置、エラー処理方法およびエラー処理プログラム
JP2018022205A (ja) * 2016-08-01 2018-02-08 キヤノン株式会社 情報処理装置、及び情報処理装置の制御方法
CN111508532A (zh) * 2019-01-31 2020-08-07 马维尔亚洲私人有限公司 用于磁存储介质的健康管理

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7895476B2 (en) 2006-12-12 2011-02-22 Fujitsu Limited Data relay device, storage device and data-relay method
JP2009064067A (ja) * 2007-09-04 2009-03-26 Hitachi Ltd 電源障害の発生を把握するストレージシステム
US8312325B2 (en) 2007-09-04 2012-11-13 Hitachi Ltd. Storage system that finds occurrence of power source failure
JP2011108006A (ja) * 2009-11-18 2011-06-02 Nec Corp ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置
US8898512B2 (en) 2010-08-10 2014-11-25 Fujitsu Limited Storage system and control method
JP5532143B2 (ja) * 2010-11-12 2014-06-25 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
WO2012063358A1 (ja) * 2010-11-12 2012-05-18 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
US9141463B2 (en) 2010-11-12 2015-09-22 Fujitsu Limited Error location specification method, error location specification apparatus and computer-readable recording medium in which error location specification program is recorded
JP2012252631A (ja) * 2011-06-06 2012-12-20 Nec Corp 入出力装置、コンピュータシステム及び障害処理方法
WO2017017707A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 情報処理装置、エラー処理方法およびエラー処理プログラム
JP2018022205A (ja) * 2016-08-01 2018-02-08 キヤノン株式会社 情報処理装置、及び情報処理装置の制御方法
US11418384B2 (en) 2016-08-01 2022-08-16 Canon Kabushiki Kaisha Information processing apparatus and method for controlling the same
CN111508532A (zh) * 2019-01-31 2020-08-07 马维尔亚洲私人有限公司 用于磁存储介质的健康管理
CN111508532B (zh) * 2019-01-31 2023-11-03 马维尔亚洲私人有限公司 用于磁存储介质的健康管理

Similar Documents

Publication Publication Date Title
JP2006285519A (ja) データ転送システムの障害診断方法、データ転送システム及びデータ記憶装置
US7047450B2 (en) Storage system and a method for diagnosing failure of the storage system
JP4982304B2 (ja) 電源障害の発生を把握するストレージシステム
US7085958B2 (en) System and method for isolating a faulty switch, storage device or SFP in a daisy-chained configuration
US7200108B2 (en) Method and apparatus for recovery from faults in a loop network
US20080244098A1 (en) Storage system
JP2001216206A (ja) ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム
JP2001222385A (ja) 記憶装置および情報処理システム
JP5296878B2 (ja) 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム)
GB2377144A (en) A method and apparatus for recovery from faults in a loop network by bypassing and selectively un-bypassing ports to ascertain location of fault
US7861123B1 (en) Managing loop interface failure
KR950013808B1 (ko) 멀티포트 접속장치 및 디렉토리 생성 방법 및 장치
US8161316B1 (en) Managing loop interface instability
JP6429188B2 (ja) 中継装置
JP4395766B2 (ja) 障害解析システム及び方法並びにプログラム
JP2001306262A (ja) 情報処理システムの制御方法および情報処理システム
JP2003167796A (ja) ファイバーチャネルに接続されるデバイス、及びこのデバイスのマージンテスト方法、並びに、ファイバーチャネルに接続されるデバイスを有するシステムの障害部位特定方法
JP5176914B2 (ja) 伝送装置及び冗長構成部の系切替え方法
JP3800516B2 (ja) 外部記憶装置、制御方法、外部記憶装置システム、プログラム、及び記録媒体
JP7188895B2 (ja) 通信システム
JP2004007930A (ja) 電力系統監視制御システムおよびプログラム
JP2007266708A (ja) ケーブル誤接続検出装置及び方法
US7681082B2 (en) Method and apparatus for improved error avoidance in a redundant data path system
CN104038365A (zh) 用于电、光及远程环回模式下交换机间链路和节点链路测试的诊断端口
EP1545075B1 (en) Method and system for seamless dual switching in a port bypass controller