JP3536829B2 - Fc−alシステムのリンク診断方法及び装置 - Google Patents

Fc−alシステムのリンク診断方法及び装置

Info

Publication number
JP3536829B2
JP3536829B2 JP2001180240A JP2001180240A JP3536829B2 JP 3536829 B2 JP3536829 B2 JP 3536829B2 JP 2001180240 A JP2001180240 A JP 2001180240A JP 2001180240 A JP2001180240 A JP 2001180240A JP 3536829 B2 JP3536829 B2 JP 3536829B2
Authority
JP
Japan
Prior art keywords
failure
link
node
node device
loop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001180240A
Other languages
English (en)
Other versions
JP2002374271A (ja
Inventor
雅也 末永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001180240A priority Critical patent/JP3536829B2/ja
Priority to US10/167,392 priority patent/US7280485B2/en
Publication of JP2002374271A publication Critical patent/JP2002374271A/ja
Application granted granted Critical
Publication of JP3536829B2 publication Critical patent/JP3536829B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • G06F11/201Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Small-Scale Networks (AREA)
  • Hardware Redundancy (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ファイバーチャネ
ルアービトレイテッドループ(以下FC−ALと記す)
システムのリンク診断方法及びリンク診断装置に係り、
詳しくは各ノード毎の障害履歴に基づいてループ障害を
発生させる可能性の高いノードを推定し、リンク障害等
のループに係る故障が発生した際に、障害発生の可能性
の高いノード順にループから切り離すことで、障害発生
ノードを短時間で検出できるようにしたFC−ALシス
テムのリンク診断方法及びリンク診断装置に関する。
【0002】
【従来の技術】コンピュータとストレージ装置等とを接
続するための方式の1つとしてファイバーチャネルが知
られており、ファイバーチャネルの接続形態の1つとし
てFC−ALが知られている。ファイバーチャネルに接
続する各種機器はノード(ノード装置)と呼ばれてい
る。FC−ALは、FCポートの送信部と受信部を複数
のノードにわたって数珠つなぎに1周させたリング型
(ループ型)の接続形態をとる。このため、FC−AL
接続で構成されたシステムでは、いずれかのノードに障
害が発生するとシステム全体の動作が停止してしまうお
それがある。そこで、各ノード毎にポートバイパス回路
を設けて、障害が発生したノードをループから切り離せ
る構成としている。
【0003】特開平11−353126号公報には、障
害発生装置の特定を容易に行い、その特定処理にかかる
時間を短縮可能なディスクアレイ接続システムが記載さ
れている。このディスクアレイ接続システムは、障害が
発生した場合にループをいったん切断し、イニシエータ
とディスクアレイ装置とを1台ずつ順に接続して調査し
ていき、障害発生装置を特定する。障害発生装置を特定
した後にその装置をループから切り離し、他の装置でル
ープを構築する。
【0004】特開2000−174845号公報には、
FC−ALにおいてループ上に障害を発生させているポ
ートの早期発見/排除を人手介入無しに実現するファイ
バチャネル仲裁型ループにおける障害ポートの検出/排
除システム及び方法が記載されている。この障害ポート
の検出/排除システム及び方法では、2重化されている
もう一方のループを利用して、障害の発生しているポー
トをバイパス/イネーブル制御することにより一方のル
ープに障害を発生させていたポートを排除する。
【0005】特開2000−215086号公報には、
FC−AL接続されているシステムで障害が発生した場
合、各種モニターの連携によりハブに接続されている装
置をポート単位に自動バイパスさせ、試験・診断プログ
ラムを実行させて障害情報を収集し、ログ情報とペアー
にして管理するようにした障害情報収集装置が記載され
ている。
【0006】
【発明が解決しようとする課題】FC−AL接続されて
いるシステムでリンク障害が発生した場合、従来は各ノ
ードを順番に切り離していきながらリンク障害が復旧す
るか否かを確認することで、障害を発生させているノー
ドを探索するようにしている。しかしながら、この従来
の方法では、障害発生ポートが検出されるまで各ノード
を順次チェックしていく必要があるため、障害発生ポー
トを早期に検出できないことがある。ループに接続され
るノード数が多い程、障害発生ポートの検出に時間がか
かり、その間通常の入出力処理等ができなくなる。
【0007】
【発明の目的】本発明はこのような課題を解決するため
なされたもので、ノード毎の障害履歴に基づいてポート
バイパスを行うノードの順番を設定し、設定したノード
順にポートバイパスを行うことで、障害発生ノードを早
期に特定できるようにしたFC−ALシステムのリンク
診断方法及びリンク診断装置を提供することを目的とす
る。
【0008】
【課題を解決するための手段】前記課題を解決するため
本発明に係るFC−ALシステムのリンク診断方法及び
診断装置は、ノード毎に障害履歴を管理しておき、障害
履歴に基づいてノードの切り離し順序を設定する。過去
の障害履歴を参照して障害発生となる可能性の大きい順
にノードの切り離し順序を設定し、リンク障害が発生し
た際には障害発生となる可能性の大きいノードをループ
から順次切り離していく。これにより、障害ノードを早
期に検出する確立を高くできる。
【0009】障害履歴には各障害内容別にそれぞれの発
生回数を記録しておき、障害内容別の発生回数にそれぞ
れ重み付け係数をかけてそれらの総和を求め、その総和
を被疑値とし、この被疑値の大きい順にノードの切り離
し順序を設定することで、障害ノードを早期に検出する
確立を高くできる。
【0010】さらに、障害として検出されたノードの被
疑値が他のノードの被疑値よりも小さい場合は、障害と
して検出されたノードの被疑値が他のノードの被疑値よ
りも大きくなるように各重み付け係数を調整するように
してもよい。これにより、被疑値の算出条件を学習させ
ることができ、被疑ノード予想の的中率を向上させるこ
とができる。
【0011】また、被疑値が予め設定した診断しきい値
に達した場合は、ノード装置に対して診断用のアクセス
を複数回実行し、障害履歴の採取を加速するようにして
もよい。
【0012】さらに、被疑値が予め設定した障害しきい
値(診断しきい値よりも大きな値)に達した場合は、該
当するノード装置をポートバイパスしてループから切り
離すようにしてもよい。障害発生となる可能性の高いノ
ード装置をループから切り離すことで、リンク障害の発
生を未然に防止できる。
【0013】
【発明の実施の形態】以下、本発明の実施の形態を添付
図面に基づいて説明する。
【0014】図1は本発明に係るリンク診断装置を備え
たFC−ALシステムのブロック構成図である。図1は
FC−ALシステムの一具体例として2重ループ構成の
ディスクアレイシステムを示している。このFC−AL
システムは、2つのディスクアダプタ10,20と複数
のディスク装置30,40,50と、それらを接続する
2系統のループ1,2とからなる。
【0015】ディスク装置30,40,50は、FCポ
ートを2つ有するFC−AL対応のディスク装置であ
り、それぞれのポート(ポートA,ポートB)からリー
ド/ライトなどのコマンドを処理することができる。各
ディスク装置30,40,50の一方のポート(ポート
A)は一方のループ1に接続される。このループ1には
一方のディスクアダプタ10が接続される。これによ
り、ディスクアダプタ10はループ1を介して各ディス
ク装置30,40,50にアクセスできるようにしてい
る。各ディスク装置30,40,50の他方のポート
(ポートB)は他方のループ2に接続される。このルー
プ2には他方のディスクアダプタ10が接続される。こ
れにより、ディスクアダプタ20はループ2を介して各
ディスク装置30,40,50にアクセスできるように
している。
【0016】ディスク装置30,40,50は、各ポー
ト毎にバイパス回路32,33,42,43,52,5
3を備える。バイパス回路32,33,42,43,5
2,53は、ディスクアダプタ10,20からループ
1,2を介して供給されるポートバイパス指示やバイパ
ス解除指示に基づいて、ディスク装置30,40,50
をループ1,2から切り離したりディスク装置30,4
0,50をループ1,2に接続したりする。通常時、ポ
ートA側の各バイパス回路32,42,52はディスク
アダプタ10が制御し、ポートB側の各バイパス回路3
3,43,53はディスクアダプタ20が制御する。ポ
ートA側のバイパス回路32,42,52とポートB側
のバイパス回路33,43,53とは通信できるように
なっている。これにより、一方のループにリンク異常が
発生した場合でも、他方のループから一方のループ側の
バイパス回路の制御を行えるようにしている。
【0017】ディスクアダプタ10,20は、MPU1
1、記憶回路12、アダプタ間通信制御部13、ポート
バイパス制御部14、FC−AL制御部15から構成さ
れているコントローラである。各ディスクアダプタ1
0,20は冗長構成となっていて、通常はどちらのディ
スクアダプタ10,20からでも各FC−ALディスク
装置30,40,50を制御できる。
【0018】記憶回路12は、エラーの回数を種類別に
分類した統計情報と呼ばれる情報などを記憶し、記憶し
た統計情報はMPU11から参照できる。統計情報は、
図2に示すように、各ディスク毎/各ポート毎に発生し
たエラー回数をエラーの種類によって分類し、記憶され
ている。記憶回路12は、不揮発性メモリ又はバッテリ
バックアップされたRAM等を用いて構成している。な
お、記憶回路12はハードディスク装置等の補助記憶装
置を用いて構成してもよい。
【0019】FC−AL制御部15は、ループを介して
各ディスク装置30,40,50にアクセスする。FC
−AL制御部15は、アクセスしたディスク装置からI
/Oエラー情報が供給された場合、アクセスしたディス
ク装置を特定するディスク識別情報とI/Oエラーが発
生した旨の情報とをMPU11へ供給する。MPU11
は、ディスク識別情報とI/Oエラーが発生した旨の情
報が供給されると、記憶回路12内に設けて該当ディス
クのI/Oエラー発生回数データ格納領域(該当ディス
ク装置のI/Oエラー発生回数カウンタ)の値を+1す
る。なお、MPU11は、I/Oエラーが発生した日時
データをディスク装置との対応を付けて記憶回路12に
格納するようにしてもよい。
【0020】FC−AL制御部15は、ディスク装置3
0,40,50に対して各種のコマンド(I/O要求
等)を供給した後、そのコマンドに対するディスク装置
からの応答が予め設定した時間内に得られない場合に
は、ディスク装置を特定するディスク識別情報と転送タ
イムアウトが発生した旨の情報とをMPU11へ供給す
る。MPU11は、上記の各情報が供給されると、記憶
回路12内に設けた該当ディスク装置の転送タイムアウ
ト発生回数データ格納領域(転送タイムアウト発生回数
カウンタ)の値を+1する。なお、MPU11は、転送
タイムアウトが発生した日時データをディスク装置との
対応を付けて記憶回路12に格納するようにしてもよ
い。
【0021】FC−AL制御部15は、FC−ALルー
プのリンク障害が発生し、後述する診断によってリンク
障害を発生させたディスク装置が特定された場合は、そ
のディスク装置のディスク識別情報とリンク障害が発生
した旨の情報とをMPU11へ供給する。MPU11
は、上記の各情報は供給されると、記憶回路12内に設
けた該当ディスクのリンク障害発生回数データ格納領域
(リンク障害発生回数カウンタ)の値を+1する。な
お、MPU11は、リンク障害が発生した日時データを
ディスク装置との対応を付けて記憶回路12に格納する
ようにしてもよい。
【0022】MPU11は、前述した各カウンタのいず
れかの値を更新した場合は、ループ全体の発生回数を演
算して、ループ全体の発生回数データを更新する。例え
ば、ディスク#0でI/Oエラー(I/O障害)が発生
し、ディスク#0のI/Oエラー(I/O障害)発生回
数を+1した場合には、ループを構成している全てのデ
ィスク装置のI/O障害発生回数の総和を求め、求めた
総和をループのI/O障害発生回数データ格納領域に格
納する。なお、MPU11は、総和を求めずに、I/O
障害が検出されるたびにループのI/O障害発生回数を
+1するようにしてもよい。MPU11は、転送タイム
アウトが検出されるたびに、ループの転送タイムアウト
発生回数の値を+1する。MPU11は、リンク異常が
検出されるたびに、ループのリンク異常発生回数の値を
+1する。
【0023】上記によって図2に示すように、記憶回路
12内には各ディスク装置毎の障害発生回数が障害項目
別に格納されるとともに、各障害項目別にループ全体の
障害発生回数が格納される。ここで、一方のディスクア
ダプタ10は、ポートA側のループ1を制御しているの
で、一方のディスクアダプタ10の記憶回路12にはポ
ートA側のループ1での各種障害の発生回数が格納され
る。また、他方のディスクアダプタ20は、ポートB側
のループ2を制御しているので、他方のディスクアダプ
タ20の記憶回路12にはポートB側のループ2での各
種障害の発生回数が格納される。
【0024】MPU11は、次に示す式1に基づいて被
疑値X(n)を計算する。 X(n)=W1・A(n)+W2・B(n)+W3・C(n) …… 式1 ここで、A(n)は各ディスク装置毎のI/O障害発生
回数、B(n)は各ディスク装置毎の転送タイムアウト
発生回数、C(n)は各ディスク装置毎のリンク障害発
生回数、W1,W2,W3は重み付け係数である。
【0025】そして、MPU11は、各ディスク装置毎
に被疑値X(n)を求め、被疑値X(n)の大きい順に
ディスク装置の切り離し順序を設定する。また、MPU
11は、実際にリンク診断を行った結果、被疑ディスク
であると特定されたディスク装置の被疑値X(n)が、
他のディスク装置の被疑値X(n)よりも大きな値にな
るように調整する(被疑ディスクと特定されたディスク
の各エラー回数を調べ、一番回数の多いエラーの重みを
増やし、一番エラー回数の少ないエラーの重みを減らす
などする)。これにより、診断をするほど被疑ディスク
を特定しやすくなる。
【0026】アダプタ間通信制御部13は、各ディスク
アダプタ10,20間での通信を制御する部分であり、
リンクの診断を行うときに逆側のディスクアダプタに各
ディスクのポートバイパス(リンク上からあるFC−A
Lディスクを切り離す)を指示したり、診断中に受けた
I/Oを逆側のディスクアダプタへ依頼するときなどに
使用される。
【0027】ポートバイパス制御部14は、各ディスク
毎にあるバイパス回路32,33,42,43,52,
53を制御し、特定のポートをバイパスしリンク上から
切り離したり、ポートのバイパスを解除し切り離したデ
ィスクをリンクに参加させたりする制御を行う。
【0028】本実施の形態では、FC−AL制御部15
によって特許請求の範囲に記載した障害検出手段を構成
している。また、MPU11と記憶回路12とによって
特許請求の範囲に記載した障害履歴管理手段及びノード
切り離し順序設定手段を構成している。各バイパス回路
32,33,42,43,52,53によって特許請求
の範囲に記載したポートバイパス手段を構成している。
さらに、MPU11、アダプタ間制御部13、ポートバ
イパス制御部14及びFC−AL制御部によって特許請
求の範囲に記載したノード切り離し制御手段を構成して
いる。
【0029】次に、あるディスク装置が原因となり片系
リンク異常が発生した場合のリンク診断方法を図3及び
図4に示すフローチャートを参照に説明する。
【0030】各ディスクアダプタ10,20は、I/O
処理をしながら、定期的にリンクの状態を監視し、リン
ク異常が発生していないかチェックする。リンク異常が
発生していない場合は、監視を続ける(ステップS
1)。
【0031】図5はポートA側のループでリンク異常が
発生した状態を示す図である。ポートA側のループ1で
リンク異常が発生した場合、このリンク異常はディスク
アダプタ10のFC−AL制御部15によって検出され
る。FC−AL制御部15は、リンク異常を検出したこ
とをMPU11へ通知する。
【0032】MPU11は、リンク異常の検出通知が供
給されると、記憶回路12に格納されている各ディスク
装置の障害発生履歴を読み出し、前述した式1に基づい
て各ディスク装置の被疑値X(n)をそれぞれ算出す
る。そして、算出した被疑値X(n)の大きい順に各デ
ィスク装置の切り離し順序を設定する(ステップS
2)。
【0033】図5に示したようにポートA側のループ1
でリンク異常が発生した状態では、ループ1側を制御し
ているディスクアダプタ10側からポートA側のバイパ
ス回路32,42,52を制御することができない。そ
こで、ディスクアダプタ10のMPU11は、被疑値X
(n)が最大のディスク装置のポートA側をポートバイ
パス状態に制御する指令をアダプタ間通信制御部13を
介してポートB側のループを制御するディスクアダプタ
20へ供給する。
【0034】ポートB側のループを制御するディスクア
ダプタ20は、上記ポートバイパス状態に制御する指令
を受け取ると、指定されたディスク装置のポートA側を
ポートバイパス状態に制御する指令をポートB側のルー
プ2へ供給する。この指令は指定されたディスク装置の
ポートB側のバイパス回路で受信され、さらに、バイパ
ス回路間の通信によってポートA側のバイパス回路へ供
給される。これにより、指定されたディスク装置のポー
トA側のバイパス回路によってポートバイパスがなさ
れ、そのディスク装置はループ1から切り離される(ス
テップS3)。
【0035】図6はディスク#nをループから切り離し
たがリンク障害が継続している状態を示す図である。被
疑値X(n)が最大のディスク装置がディスク#nであ
る場合、このディスク#nがループ1から切り離され
る。
【0036】ディスクアダプタ10は、被疑値X(n)
が最大のディスク装置をループ1から切り離したことに
よってリンクが回復するか否かを監視し(ステップS
4)、リンクが回復しない場合には、被疑値X(n)が
2番目に大きいディスク装置のポートバイパスを行う。
このようにしてディスクアダプタ10は、リンクが回復
するまで被疑値X(n)の大きい順にディスク装置の切
り離しを行う(ステップS5)。
【0037】図7はディスク#n及びディスク#Kを切
り離したことによってリンク障害が回復した状態を示す
図である。
【0038】ディスク装置をループから切り離したこと
によってリンクが回復した場合、ディスクアダプタ10
は、確認のためそのディスク装置のバイパスを解除して
そのディスク装置を再度ループに接続させる(ステップ
S6)。そして、リンクが回復したままであるか再度リ
ンク異常となるか監視する(ステップS7)。
【0039】確認のためのバイパス解除によってリンク
障害が再度発生した場合(リンクが回復しなかった場
合)、ディスクアダプタ10は、確認のためにバイパス
を解除してループ1に接続したディスク装置が固定リン
ク障害であると判定し、そのディスク装置をループから
切り離すとともに、他のディスク装置のポートバイパス
を解除して他のディスク装置をループ1に接続する(ス
テップS8)。
【0040】図8は確認のためにディスク#Kのバイパ
スを解除し、それによってリンク障害が発生した状態を
示す図である。
【0041】図9はディスク#Kが固定リンク障害であ
ると判断しそのディスクをループから切り離し、他のデ
ィスク#nをループに接続した状態を示す図である。障
害を発生させていたディスク#Kをループから切り離し
たことによって、ループ1のリンク障害は回復する。
【0042】なお、ディスクアダプタ10は、被疑値X
(n)の大きい順に全てのディスクに対してポートバイ
パスを行ってもリンク障害が回復しない場合には、ディ
スクアダプタ10に障害が発生しているものと判定する
(ステップS9)。
【0043】また、確認のためのバイパス解除によって
リンク障害が発生しない場合(リンク障害が回復したま
まである場合)、ディスクアダプタ10のMPU11
は、バイパスによってリンクが回復したディスク装置が
間欠リンク障害を発生したものと判定し、そのディスク
装置の障害履歴を更新する(ステップS10)。この場
合は、先にループから切り離したディスク装置をループ
に接続する。
【0044】そして、ディスクアダプタ10のMPU1
1は、間欠リンク障害であると判定されたディスク装置
の被疑値X(n)が他のディスク装置の被疑値X(n)
よりも小さい値であった場合、間欠リンク障害であると
判定されたディスク装置の被疑値X(n)が他のディス
ク装置の被疑値X(n)よりも大きな値となるように各
重み付け係数を調整する(ステップS11)。具体的に
は、間欠リンク障害であると判定されたディスク装置の
障害項目別の障害発生回数を調べ、一番回数の多い障害
項目の重み付け係数を増やし、一番回数の少ない障害項
目の重み付け係数を小さくする。これにより、被疑ディ
スクの予想の的中率を上げ、次回の診断で故障ディスク
を検出する時間を短縮する。
【0045】図10は確認のためのバイパス解除によっ
てリンク障害が発生しない状態を示す図である。
【0046】図11は間欠リンク障害と判定されたディ
スク及び他のディスクをループに接続した状態を示す図
である。
【0047】ディスクアダプタ10のMPU11は、障
害履歴の更新を行うと各ディスク装置の被疑値X(n)
を算出し、予め設定した診断しきい値を越えているディ
スク装置があるか否かチェックする(ステップS1
2)。診断しきい値を越えているディスク装置がない場
合はステップS1に戻ってリンク障害の監視を行う。診
断しきい値を越えているディスク装置がある場合は、図
4に示すステップS13以降の処理(診断用のアクセス
処理)を行う。
【0048】ステップS13では、診断対象となるディ
スク装置以外のディスク装置に対してポートバイパス指
示を発生する。これにより、ポートA側のループ1には
診断対象となるディスク装置のみが接続された状態とな
る。
【0049】図12は診断対象となるディスク装置のみ
がループに接続された状態を示す図である。
【0050】次に、ディスクアダプタ10は、診断対象
となるディスク装置に対して診断用のI/Oアクセスを
予め設定した回数繰り返し実行し、各種エラー(I/O
障害発生,転送タイムアウト発生,リンク障害発生)が
発生しないか監視し、各種エラーが発生した場合は障害
履歴を更新する(ステップS14)。これにより、障害
履歴データの取得を促進することができる。
【0051】ディスクアダプタ10は、障害履歴データ
の取得促進によって診断対象であるディスク装置の被疑
値X(n)が予め設定した障害しきい値に達した場合
(ステップS15)、そのディスク装置を障害装置であ
ると判定してそのディスク装置をループから切り離す
(ステップS16)。
【0052】そして、ステップS13〜ステップS16
までの処理を全てのディスク装置に対して繰り返す(ス
テップS17)。これにより、障害発生の可能性のある
ディスク装置を早期に検出して、リンク障害が発生する
前にループから切り離すことができ、リンク障害の発生
を未然に防止できる。
【0053】本実施の形態では、障害項目別の障害発生
回数にそれぞれ重み付け係数を乗じて得た値の総和に基
づいて被疑値X(n)を求め、この被疑値X(n)の大
きい順にディスク装置の切り離し順序を設定する例を示
したが、リンク障害の発生回数の多い順にディスク装置
の切り離し順序を設定するようにしてもよい。また、障
害発生日時を記録している場合には、障害発生日時に新
しい順にディスク装置の切り離し順序を設定したり、所
定期間における障害発生回数(障害発生頻度)の高い順
にディスク装置の切り離し順序を設定したりするように
してもよい。
【0054】また、本実施の形態では2重ループ構成の
FC−ALシステムを例示したが、ポートバイパス制御
用の信号経路を独立に備える構成の場合は、2重ループ
の構成でなくてもよい。この場合は、FC−LA用のル
ープではなくポートバイパス制御用の信号経路を介して
ポートのバイパス/バイパス解除を制御する。
【0055】
【発明の効果】以上説明したように本発明に係るFC−
ALシステムのリンク診断方法及び診断装置は、ノード
毎に障害履歴を管理しておき、障害履歴に基づいてノー
ドの切り離し順序を設定するようにしたので、リンク障
害が発生した際には障害発生となる可能性の大きいノー
ドをループから順次切り離していくことができ、これに
より障害ノードを早期に検出する確立を高くできる。
【0056】また、障害履歴には各障害内容別にそれぞ
れの発生回数を記録しておき、障害内容別の発生回数に
それぞれ重み付け係数をかけてそれらの総和を求め、そ
の総和を被疑値とし、この被疑値の大きい順にノードの
切り離し順序を設定することで、障害ノードを早期に検
出する確立を高くできる。
【0057】さらに、障害として検出されたノードの被
疑値が他のノードの被疑値よりも小さい場合は、障害と
して検出されたノードの被疑値が他のノードの被疑値よ
りも大きくなるように各重み付け係数を調整すること
で、被疑値の算出条件を学習させることができ、被疑ノ
ード予想の的中率を向上させることができる。
【0058】また、被疑値が予め設定した診断しきい値
に達した場合は、ノード装置に対して診断用のアクセス
を複数回実行することで、障害履歴の採取を加速でき
る。さらに、被疑値が予め設定した障害しきい値(診断
しきい値よりも大きな値)に達した場合は、該当するノ
ード装置をポートバイパスしてループから切り離すこと
で、リンク障害の発生を未然に防止できる。
【図面の簡単な説明】
【図1】本発明に係るリンク診断装置を備えたFC−A
Lシステムのブロック構成図である。
【図2】記憶回路に格納された障害データの一具体例を
示す図である。
【図3】本発明に係るリンク診断方法のフローチャート
(その1)である。
【図4】本発明に係るリンク診断方法のフローチャート
(その2)である。
【図5】ポートA側のループでリンク異常が発生した状
態を示す図である。
【図6】ディスク#nをループから切り離したがリンク
障害が継続している状態を示す図である。
【図7】ディスク#n及びディスク#Kを切り離したこ
とによってリンク障害が回復した状態を示す図である。
【図8】確認のためにディスク#Kのバイパスを解除
し、それによってリンク障害が発生した状態を示す図で
ある。
【図9】ディスク#Kが固定リンク障害であると判断し
そのディスクをループから切り離し、他のディスク#n
をループに接続した状態を示す図である。
【図10】確認のためのバイパス解除によってリンク障
害が発生しない状態を示す図である。
【図11】間欠リンク障害と判定されたディスク及び他
のディスクをループに接続した状態を示す図である。
【図12】診断対象となるディスク装置のみがループに
接続された状態を示す図である。
【符号の説明】
1 ポートA側のループ 2 ポートB側のループ 10,20 ディスクアダプタ 11 MPU 12 記憶回路 13 アダプタ間通信制御部 14 ポートバイパス制御部 15 FC−AL制御部 30,40,50 ディスク装置 32,33,42,43,52,53 バイパス回路
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) H04L 12/28 G06F 11/20 310 G06F 13/00 301

Claims (13)

    (57)【特許請求の範囲】
  1. 【請求項1】 FC−AL接続された複数のノード装置
    毎に障害履歴を管理するステップと、前記障害履歴に基
    づいて前記ノード装置の切り離し順序を設定するステッ
    プと、リンク障害が発生した際に前記切り離し順序に基
    づいて前記ノード装置に対してポートバイパスの指示を
    供給することで前記ノード装置をループから切り離すス
    テップとを備えたことを特徴とするFC−ALシステム
    のリンク診断方法。
  2. 【請求項2】 前記ノード装置をポートバイパスしたこ
    とによって前記リンク障害が回復した際には、そのノー
    ド装置のポートバイパスを解除し、その結果リンク障害
    が発生した場合にはそのノード装置をループから切り離
    すことを特徴とする請求項1記載のFC−ALシステム
    のリンク診断方法。
  3. 【請求項3】 前記障害履歴にはリンク障害の発生回数
    が記録され、前記切り離し順序は前記リンク障害の発生
    回数の多い順に設定されていることを特徴とする請求項
    1記載のFC−ALシステムのリンク診断方法。
  4. 【請求項4】 前記障害履歴には障害内容別に発生回数
    が記録され、前記切り離し順序は前記障害内容別の発生
    回数にそれぞれ重み付け係数をかけて計算して得た被疑
    値の大きい順に設定されていることを特徴とする請求項
    1記載のFC−ALシステムのリンク診断方法。
  5. 【請求項5】 リンク障害であると判定されたノード装
    置の被疑値が他のノード装置の被疑値よりも大きな値に
    なるように前記それぞれの重み付け係数を変更すること
    を特徴とする請求項4記載のFC−ALシステムのリン
    ク診断方法。
  6. 【請求項6】 前記障害履歴には障害内容別に発生回数
    が記録され、前記障害内容別の発生回数にそれぞれ重み
    付け係数をかけて計算した被疑値が予め設定した診断し
    きい値に達した場合は、前記ノード装置に対して診断用
    のアクセスを複数回実行し、診断用のアクセスによって
    障害が検出されたときには障害履歴を更新することを特
    徴とする請求項1記載のFC−ALシステムのリンク診
    断方法。
  7. 【請求項7】 前記障害履歴には障害内容別に発生回数
    が記録され、前記障害内容別の発生回数にそれぞれ重み
    付け係数をかけて計算した被疑値が予め設定した障害し
    きい値に達した場合は、該当するノード装置をポートバ
    イパスしてループから切り離すことを特徴とする請求項
    1記載のFC−ALシステムのリンク診断方法。
  8. 【請求項8】 FC−AL接続された複数のノード装置
    からなるシステムの障害を検出する障害検出手段と、障
    害を発生したノード装置と障害内容とを対応付けて障害
    履歴データとして記録する障害履歴管理手段と、前記ノ
    ード装置をポートバイパスしてループから切り離すポー
    トバイパス手段と、前記障害履歴データに基づいてリン
    ク障害が発生した際のノード装置の切り離し順序を設定
    するノード切り離し順序設定手段と、リンク障害が検出
    された際に前記ノード切り離し順序設定手段によって設
    定されたノード装置の切り離し順序に基づいて各ノード
    装置の切り離し制御を行うノード切り離し制御手段とを
    備えたことを特徴とするFC−ALシステムのリンク診
    断装置。
  9. 【請求項9】 前記ノード切り離し順序設定手段は、前
    記障害履歴データに基づいて各ノード装置毎に被疑値を
    算出し、算出した被疑値の大きい順にノード装置の切り
    離し順序を設定することを特徴とする請求項8記載のF
    C−ALシステムのリンク診断装置。
  10. 【請求項10】 前記障害履歴データは障害内容別に発
    生回数が記録され、前記ノード切り離し順序設定手段
    は、前記障害内容別の発生回数にそれぞれ重み付け係数
    をかけて各ノード装置毎に被疑値を算出し、算出した被
    疑値の大きい順にノード装置の切り離し順序を設定する
    ことを特徴とする請求項8記載のFC−ALシステムの
    リンク診断装置。
  11. 【請求項11】 前記ノード切り離し制御手段は、前記
    ポートバイパス手段を介して前記ノード装置をループか
    ら切り離したことによって前記リンク障害が回復した際
    には、そのノード装置のポートバイパスを解除し、その
    結果リンク障害が発生した場合にはそのノード装置がル
    ープから切り離すことを特徴とする請求項8記載のFC
    −ALシステムのリンク診断装置。
  12. 【請求項12】 前記ノード切り離し順序設定手段は、
    前記固定リンク障害であると判定されたノード装置の被
    疑値が他のノード装置の被疑値よりも大きな値になるよ
    うに前記それぞれの重み付け係数を変更することを特徴
    とする請求項10記載のFC−ALシステムのリンク診
    断装置。
  13. 【請求項13】 FC−AL接続されたシステムの障害
    を検出する障害検出手段と、障害を発生したノード装置
    と障害内容とを対応付けて障害履歴データとして記録す
    る障害履歴管理手段と、ノード装置をポートバイパスし
    てループから切り離すポートバイパス手段と、前記ノー
    ド装置に対して診断用のアクセスを複数回実行して前記
    障害履歴データの取得を促進をする診断用アクセス手段
    と、前記障害履歴データに基づいてリンク障害が発生し
    た際のノード装置の切り離し順序を設定するノード切り
    離し順序設定手段と、リンク障害が検出された際に前記
    ノード切り離し順序設定手段によって設定されたノード
    装置の切り離し順序に基づいて各ノード装置の切り離し
    制御を行うノード切り離し制御手段とを備えたことを特
    徴とするFC−ALシステムのリンク診断装置。
JP2001180240A 2001-06-14 2001-06-14 Fc−alシステムのリンク診断方法及び装置 Expired - Fee Related JP3536829B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001180240A JP3536829B2 (ja) 2001-06-14 2001-06-14 Fc−alシステムのリンク診断方法及び装置
US10/167,392 US7280485B2 (en) 2001-06-14 2002-06-13 Method and apparatus for diagnosing FC-AL system link

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001180240A JP3536829B2 (ja) 2001-06-14 2001-06-14 Fc−alシステムのリンク診断方法及び装置

Publications (2)

Publication Number Publication Date
JP2002374271A JP2002374271A (ja) 2002-12-26
JP3536829B2 true JP3536829B2 (ja) 2004-06-14

Family

ID=19020689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001180240A Expired - Fee Related JP3536829B2 (ja) 2001-06-14 2001-06-14 Fc−alシステムのリンク診断方法及び装置

Country Status (2)

Country Link
US (1) US7280485B2 (ja)
JP (1) JP3536829B2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216206A (ja) * 2000-02-01 2001-08-10 Nec Corp ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム
US7036042B1 (en) * 2002-08-16 2006-04-25 3Pardata Discovery and isolation of misbehaving devices in a data storage system
JP3620527B2 (ja) * 2002-09-03 2005-02-16 日本電気株式会社 ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
JP3778171B2 (ja) * 2003-02-20 2006-05-24 日本電気株式会社 ディスクアレイ装置
US8243590B2 (en) * 2003-12-12 2012-08-14 Broadcom Corporation Method and system for seamless dual switching in a port bypass controller
JP4497963B2 (ja) * 2004-03-12 2010-07-07 株式会社日立製作所 ストレージ装置
US7539891B2 (en) * 2004-06-18 2009-05-26 International Business Machines Corporation Switched FC-AL fault tolerant topology
JP2006072717A (ja) * 2004-09-02 2006-03-16 Hitachi Ltd ディスクサブシステム
US7406545B1 (en) 2005-10-20 2008-07-29 Western Digital Technologies, Inc. Disk drive or any serial attached device logging a cable loss event
JP2007241837A (ja) * 2006-03-10 2007-09-20 Nec Corp ディスクアレイ制御装置および故障診断方法
JP4584853B2 (ja) * 2006-03-17 2010-11-24 富士通株式会社 被疑箇所特定装置および処理方法
US7516352B2 (en) * 2006-03-21 2009-04-07 International Business Machines Corporation Isolating a drive from disk array for diagnostic operations
US7761738B2 (en) * 2006-09-07 2010-07-20 International Business Machines Corporation Establishing communications across virtual enclosure boundaries
US7519741B2 (en) * 2006-09-28 2009-04-14 International Business Machines Corporation Apparatus, system, and method for automating adapter replacement
JP4542163B2 (ja) * 2008-02-27 2010-09-08 富士通株式会社 ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
JP5065941B2 (ja) * 2008-02-29 2012-11-07 アラクサラネットワークス株式会社 スイッチ装置およびネットワークシステム
US8225132B2 (en) 2008-10-07 2012-07-17 Hitachi, Ltd. Storage system detecting physical storage device suffering failure, and method of performing processing for additional storage device provision
US8139477B2 (en) * 2009-07-24 2012-03-20 International Business Machines Corporation Network element bypass in computing computer architecture
US8812913B2 (en) * 2011-09-23 2014-08-19 Dot Hill Systems Corporation Method and apparatus for isolating storage devices to facilitate reliable communication
US9077448B2 (en) 2012-08-23 2015-07-07 International Business Machines Corporation Read optical power link service for link health diagnostics
US9430150B2 (en) * 2013-01-28 2016-08-30 Dell Products, Lp Power control for data storage devices and method therefor
JP2019220870A (ja) * 2018-06-21 2019-12-26 三菱電機株式会社 ネットワーク装置
US11809268B1 (en) * 2022-07-05 2023-11-07 Dell Products L.P. Discovering host-switch link and ISL issues from the storage array

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934653A (ja) 1995-07-14 1997-02-07 Nec Eng Ltd ディスクアレイ装置
JP3169541B2 (ja) * 1995-11-07 2001-05-28 富士通株式会社 同期通信システムのパス自動設定装置
US5991891A (en) * 1996-12-23 1999-11-23 Lsi Logic Corporation Method and apparatus for providing loop coherency
US6504817B2 (en) * 1997-03-31 2003-01-07 Hewlett-Packard Company Fiber channel arbitrated loop dynamic loop sizing
JPH11306644A (ja) 1998-04-17 1999-11-05 Nec Eng Ltd ディスクアレイ装置
JP3196726B2 (ja) 1998-06-10 2001-08-06 日本電気株式会社 ディスクアレイ接続システム及びその障害発生装置検出方法並びにその制御プログラムを記録した記録媒体
US6356984B1 (en) * 1998-06-30 2002-03-12 Sun Microsystems, Inc. Digital data processing system having a data bus and a control bus
JP3196843B2 (ja) 1998-12-02 2001-08-06 日本電気株式会社 ファイバ・チャネル仲裁型ループにおける障害ポートの検出/排除システム及びその検出/排除方法
JP3211799B2 (ja) 1999-01-25 2001-09-25 日本電気株式会社 Fc−alの障害情報収集装置、障害情報収集方法および記録媒体
US6578158B1 (en) * 1999-10-28 2003-06-10 International Business Machines Corporation Method and apparatus for providing a raid controller having transparent failover and failback
JP2001216206A (ja) * 2000-02-01 2001-08-10 Nec Corp ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム
US6877044B2 (en) * 2000-02-10 2005-04-05 Vicom Systems, Inc. Distributed storage management platform architecture
US6697875B1 (en) * 2000-06-27 2004-02-24 Sun Microsystems, Inc. Methods for building and using a network device database
US6975590B2 (en) * 2000-09-07 2005-12-13 Eurologic Systems Limited Fiber-channel arbitrated-loop split loop operation
JP2002368768A (ja) * 2001-06-05 2002-12-20 Hitachi Ltd ファイバチャネル調停ループ対応の電子装置及びファイバチャネル調停ループの障害検出方法

Also Published As

Publication number Publication date
US7280485B2 (en) 2007-10-09
US20020191537A1 (en) 2002-12-19
JP2002374271A (ja) 2002-12-26

Similar Documents

Publication Publication Date Title
JP3536829B2 (ja) Fc−alシステムのリンク診断方法及び装置
JP3620527B2 (ja) ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
US6526521B1 (en) Methods and apparatus for providing data storage access
US5740357A (en) Generic fault management of a computer system
US20070226537A1 (en) Isolating a drive from disk array for diagnostic operations
US20050010843A1 (en) Storage system and a method for diagnosing failure of the storage system
US9298527B2 (en) Computerized storage system comprising replaceable units for managing testing of replacement units
US20060230306A1 (en) Apparatus, system, and method for facilitating monitoring and responding to error events
US7236454B2 (en) Loop diagnosis system and method for disk array apparatuses
US8145952B2 (en) Storage system and a control method for a storage system
CN115220937A (zh) 存储管理的方法、电子设备和程序产品
US6990609B2 (en) System and method for isolating faults in a network
JP3248485B2 (ja) クラスタシステム、クラスタシステムにおける監視方式およびその方法
CN110795291A (zh) 一种数据库处理方法及装置
JP2560875B2 (ja) 情報処理系の障害通知方式
JP3211799B2 (ja) Fc−alの障害情報収集装置、障害情報収集方法および記録媒体
JP3232393B2 (ja) 分散処理システムのモジュール運転状態制御方法
KR100604552B1 (ko) 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법
JPH0512722B2 (ja)
JPH09222901A (ja) プラントデータ収集装置
CN118838751A (zh) 基于双中心的分布式数据库多副本强同步方法、装置及计算机设备
CN118041743A (zh) 节点故障处理方法、装置、电子设备、芯片及存储介质
JP2022036778A (ja) 監視システム、監視方法、プログラム、フォールトトレラントサーバ
WO2024123387A1 (en) Smart online link repair and job scheduling in machine learning supercomputers
JP2001075640A (ja) 半導体基板処理装置及び半導体プロセス管理システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040308

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080326

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090326

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090326

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100326

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100326

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110326

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110326

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120326

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120326

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140326

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees