JP3536829B2 - Fc−alシステムのリンク診断方法及び装置 - Google Patents
Fc−alシステムのリンク診断方法及び装置Info
- Publication number
- JP3536829B2 JP3536829B2 JP2001180240A JP2001180240A JP3536829B2 JP 3536829 B2 JP3536829 B2 JP 3536829B2 JP 2001180240 A JP2001180240 A JP 2001180240A JP 2001180240 A JP2001180240 A JP 2001180240A JP 3536829 B2 JP3536829 B2 JP 3536829B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- link
- node
- node device
- loop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0727—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0745—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/076—Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
- G06F11/201—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2089—Redundant storage control functionality
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Small-Scale Networks (AREA)
- Hardware Redundancy (AREA)
Description
ルアービトレイテッドループ(以下FC−ALと記す)
システムのリンク診断方法及びリンク診断装置に係り、
詳しくは各ノード毎の障害履歴に基づいてループ障害を
発生させる可能性の高いノードを推定し、リンク障害等
のループに係る故障が発生した際に、障害発生の可能性
の高いノード順にループから切り離すことで、障害発生
ノードを短時間で検出できるようにしたFC−ALシス
テムのリンク診断方法及びリンク診断装置に関する。
続するための方式の1つとしてファイバーチャネルが知
られており、ファイバーチャネルの接続形態の1つとし
てFC−ALが知られている。ファイバーチャネルに接
続する各種機器はノード(ノード装置)と呼ばれてい
る。FC−ALは、FCポートの送信部と受信部を複数
のノードにわたって数珠つなぎに1周させたリング型
(ループ型)の接続形態をとる。このため、FC−AL
接続で構成されたシステムでは、いずれかのノードに障
害が発生するとシステム全体の動作が停止してしまうお
それがある。そこで、各ノード毎にポートバイパス回路
を設けて、障害が発生したノードをループから切り離せ
る構成としている。
害発生装置の特定を容易に行い、その特定処理にかかる
時間を短縮可能なディスクアレイ接続システムが記載さ
れている。このディスクアレイ接続システムは、障害が
発生した場合にループをいったん切断し、イニシエータ
とディスクアレイ装置とを1台ずつ順に接続して調査し
ていき、障害発生装置を特定する。障害発生装置を特定
した後にその装置をループから切り離し、他の装置でル
ープを構築する。
FC−ALにおいてループ上に障害を発生させているポ
ートの早期発見/排除を人手介入無しに実現するファイ
バチャネル仲裁型ループにおける障害ポートの検出/排
除システム及び方法が記載されている。この障害ポート
の検出/排除システム及び方法では、2重化されている
もう一方のループを利用して、障害の発生しているポー
トをバイパス/イネーブル制御することにより一方のル
ープに障害を発生させていたポートを排除する。
FC−AL接続されているシステムで障害が発生した場
合、各種モニターの連携によりハブに接続されている装
置をポート単位に自動バイパスさせ、試験・診断プログ
ラムを実行させて障害情報を収集し、ログ情報とペアー
にして管理するようにした障害情報収集装置が記載され
ている。
いるシステムでリンク障害が発生した場合、従来は各ノ
ードを順番に切り離していきながらリンク障害が復旧す
るか否かを確認することで、障害を発生させているノー
ドを探索するようにしている。しかしながら、この従来
の方法では、障害発生ポートが検出されるまで各ノード
を順次チェックしていく必要があるため、障害発生ポー
トを早期に検出できないことがある。ループに接続され
るノード数が多い程、障害発生ポートの検出に時間がか
かり、その間通常の入出力処理等ができなくなる。
なされたもので、ノード毎の障害履歴に基づいてポート
バイパスを行うノードの順番を設定し、設定したノード
順にポートバイパスを行うことで、障害発生ノードを早
期に特定できるようにしたFC−ALシステムのリンク
診断方法及びリンク診断装置を提供することを目的とす
る。
本発明に係るFC−ALシステムのリンク診断方法及び
診断装置は、ノード毎に障害履歴を管理しておき、障害
履歴に基づいてノードの切り離し順序を設定する。過去
の障害履歴を参照して障害発生となる可能性の大きい順
にノードの切り離し順序を設定し、リンク障害が発生し
た際には障害発生となる可能性の大きいノードをループ
から順次切り離していく。これにより、障害ノードを早
期に検出する確立を高くできる。
生回数を記録しておき、障害内容別の発生回数にそれぞ
れ重み付け係数をかけてそれらの総和を求め、その総和
を被疑値とし、この被疑値の大きい順にノードの切り離
し順序を設定することで、障害ノードを早期に検出する
確立を高くできる。
疑値が他のノードの被疑値よりも小さい場合は、障害と
して検出されたノードの被疑値が他のノードの被疑値よ
りも大きくなるように各重み付け係数を調整するように
してもよい。これにより、被疑値の算出条件を学習させ
ることができ、被疑ノード予想の的中率を向上させるこ
とができる。
に達した場合は、ノード装置に対して診断用のアクセス
を複数回実行し、障害履歴の採取を加速するようにして
もよい。
値(診断しきい値よりも大きな値)に達した場合は、該
当するノード装置をポートバイパスしてループから切り
離すようにしてもよい。障害発生となる可能性の高いノ
ード装置をループから切り離すことで、リンク障害の発
生を未然に防止できる。
図面に基づいて説明する。
たFC−ALシステムのブロック構成図である。図1は
FC−ALシステムの一具体例として2重ループ構成の
ディスクアレイシステムを示している。このFC−AL
システムは、2つのディスクアダプタ10,20と複数
のディスク装置30,40,50と、それらを接続する
2系統のループ1,2とからなる。
ートを2つ有するFC−AL対応のディスク装置であ
り、それぞれのポート(ポートA,ポートB)からリー
ド/ライトなどのコマンドを処理することができる。各
ディスク装置30,40,50の一方のポート(ポート
A)は一方のループ1に接続される。このループ1には
一方のディスクアダプタ10が接続される。これによ
り、ディスクアダプタ10はループ1を介して各ディス
ク装置30,40,50にアクセスできるようにしてい
る。各ディスク装置30,40,50の他方のポート
(ポートB)は他方のループ2に接続される。このルー
プ2には他方のディスクアダプタ10が接続される。こ
れにより、ディスクアダプタ20はループ2を介して各
ディスク装置30,40,50にアクセスできるように
している。
ト毎にバイパス回路32,33,42,43,52,5
3を備える。バイパス回路32,33,42,43,5
2,53は、ディスクアダプタ10,20からループ
1,2を介して供給されるポートバイパス指示やバイパ
ス解除指示に基づいて、ディスク装置30,40,50
をループ1,2から切り離したりディスク装置30,4
0,50をループ1,2に接続したりする。通常時、ポ
ートA側の各バイパス回路32,42,52はディスク
アダプタ10が制御し、ポートB側の各バイパス回路3
3,43,53はディスクアダプタ20が制御する。ポ
ートA側のバイパス回路32,42,52とポートB側
のバイパス回路33,43,53とは通信できるように
なっている。これにより、一方のループにリンク異常が
発生した場合でも、他方のループから一方のループ側の
バイパス回路の制御を行えるようにしている。
1、記憶回路12、アダプタ間通信制御部13、ポート
バイパス制御部14、FC−AL制御部15から構成さ
れているコントローラである。各ディスクアダプタ1
0,20は冗長構成となっていて、通常はどちらのディ
スクアダプタ10,20からでも各FC−ALディスク
装置30,40,50を制御できる。
分類した統計情報と呼ばれる情報などを記憶し、記憶し
た統計情報はMPU11から参照できる。統計情報は、
図2に示すように、各ディスク毎/各ポート毎に発生し
たエラー回数をエラーの種類によって分類し、記憶され
ている。記憶回路12は、不揮発性メモリ又はバッテリ
バックアップされたRAM等を用いて構成している。な
お、記憶回路12はハードディスク装置等の補助記憶装
置を用いて構成してもよい。
各ディスク装置30,40,50にアクセスする。FC
−AL制御部15は、アクセスしたディスク装置からI
/Oエラー情報が供給された場合、アクセスしたディス
ク装置を特定するディスク識別情報とI/Oエラーが発
生した旨の情報とをMPU11へ供給する。MPU11
は、ディスク識別情報とI/Oエラーが発生した旨の情
報が供給されると、記憶回路12内に設けて該当ディス
クのI/Oエラー発生回数データ格納領域(該当ディス
ク装置のI/Oエラー発生回数カウンタ)の値を+1す
る。なお、MPU11は、I/Oエラーが発生した日時
データをディスク装置との対応を付けて記憶回路12に
格納するようにしてもよい。
0,40,50に対して各種のコマンド(I/O要求
等)を供給した後、そのコマンドに対するディスク装置
からの応答が予め設定した時間内に得られない場合に
は、ディスク装置を特定するディスク識別情報と転送タ
イムアウトが発生した旨の情報とをMPU11へ供給す
る。MPU11は、上記の各情報が供給されると、記憶
回路12内に設けた該当ディスク装置の転送タイムアウ
ト発生回数データ格納領域(転送タイムアウト発生回数
カウンタ)の値を+1する。なお、MPU11は、転送
タイムアウトが発生した日時データをディスク装置との
対応を付けて記憶回路12に格納するようにしてもよ
い。
プのリンク障害が発生し、後述する診断によってリンク
障害を発生させたディスク装置が特定された場合は、そ
のディスク装置のディスク識別情報とリンク障害が発生
した旨の情報とをMPU11へ供給する。MPU11
は、上記の各情報は供給されると、記憶回路12内に設
けた該当ディスクのリンク障害発生回数データ格納領域
(リンク障害発生回数カウンタ)の値を+1する。な
お、MPU11は、リンク障害が発生した日時データを
ディスク装置との対応を付けて記憶回路12に格納する
ようにしてもよい。
れかの値を更新した場合は、ループ全体の発生回数を演
算して、ループ全体の発生回数データを更新する。例え
ば、ディスク#0でI/Oエラー(I/O障害)が発生
し、ディスク#0のI/Oエラー(I/O障害)発生回
数を+1した場合には、ループを構成している全てのデ
ィスク装置のI/O障害発生回数の総和を求め、求めた
総和をループのI/O障害発生回数データ格納領域に格
納する。なお、MPU11は、総和を求めずに、I/O
障害が検出されるたびにループのI/O障害発生回数を
+1するようにしてもよい。MPU11は、転送タイム
アウトが検出されるたびに、ループの転送タイムアウト
発生回数の値を+1する。MPU11は、リンク異常が
検出されるたびに、ループのリンク異常発生回数の値を
+1する。
12内には各ディスク装置毎の障害発生回数が障害項目
別に格納されるとともに、各障害項目別にループ全体の
障害発生回数が格納される。ここで、一方のディスクア
ダプタ10は、ポートA側のループ1を制御しているの
で、一方のディスクアダプタ10の記憶回路12にはポ
ートA側のループ1での各種障害の発生回数が格納され
る。また、他方のディスクアダプタ20は、ポートB側
のループ2を制御しているので、他方のディスクアダプ
タ20の記憶回路12にはポートB側のループ2での各
種障害の発生回数が格納される。
疑値X(n)を計算する。 X(n)=W1・A(n)+W2・B(n)+W3・C(n) …… 式1 ここで、A(n)は各ディスク装置毎のI/O障害発生
回数、B(n)は各ディスク装置毎の転送タイムアウト
発生回数、C(n)は各ディスク装置毎のリンク障害発
生回数、W1,W2,W3は重み付け係数である。
に被疑値X(n)を求め、被疑値X(n)の大きい順に
ディスク装置の切り離し順序を設定する。また、MPU
11は、実際にリンク診断を行った結果、被疑ディスク
であると特定されたディスク装置の被疑値X(n)が、
他のディスク装置の被疑値X(n)よりも大きな値にな
るように調整する(被疑ディスクと特定されたディスク
の各エラー回数を調べ、一番回数の多いエラーの重みを
増やし、一番エラー回数の少ないエラーの重みを減らす
などする)。これにより、診断をするほど被疑ディスク
を特定しやすくなる。
アダプタ10,20間での通信を制御する部分であり、
リンクの診断を行うときに逆側のディスクアダプタに各
ディスクのポートバイパス(リンク上からあるFC−A
Lディスクを切り離す)を指示したり、診断中に受けた
I/Oを逆側のディスクアダプタへ依頼するときなどに
使用される。
毎にあるバイパス回路32,33,42,43,52,
53を制御し、特定のポートをバイパスしリンク上から
切り離したり、ポートのバイパスを解除し切り離したデ
ィスクをリンクに参加させたりする制御を行う。
によって特許請求の範囲に記載した障害検出手段を構成
している。また、MPU11と記憶回路12とによって
特許請求の範囲に記載した障害履歴管理手段及びノード
切り離し順序設定手段を構成している。各バイパス回路
32,33,42,43,52,53によって特許請求
の範囲に記載したポートバイパス手段を構成している。
さらに、MPU11、アダプタ間制御部13、ポートバ
イパス制御部14及びFC−AL制御部によって特許請
求の範囲に記載したノード切り離し制御手段を構成して
いる。
リンク異常が発生した場合のリンク診断方法を図3及び
図4に示すフローチャートを参照に説明する。
処理をしながら、定期的にリンクの状態を監視し、リン
ク異常が発生していないかチェックする。リンク異常が
発生していない場合は、監視を続ける(ステップS
1)。
発生した状態を示す図である。ポートA側のループ1で
リンク異常が発生した場合、このリンク異常はディスク
アダプタ10のFC−AL制御部15によって検出され
る。FC−AL制御部15は、リンク異常を検出したこ
とをMPU11へ通知する。
給されると、記憶回路12に格納されている各ディスク
装置の障害発生履歴を読み出し、前述した式1に基づい
て各ディスク装置の被疑値X(n)をそれぞれ算出す
る。そして、算出した被疑値X(n)の大きい順に各デ
ィスク装置の切り離し順序を設定する(ステップS
2)。
でリンク異常が発生した状態では、ループ1側を制御し
ているディスクアダプタ10側からポートA側のバイパ
ス回路32,42,52を制御することができない。そ
こで、ディスクアダプタ10のMPU11は、被疑値X
(n)が最大のディスク装置のポートA側をポートバイ
パス状態に制御する指令をアダプタ間通信制御部13を
介してポートB側のループを制御するディスクアダプタ
20へ供給する。
ダプタ20は、上記ポートバイパス状態に制御する指令
を受け取ると、指定されたディスク装置のポートA側を
ポートバイパス状態に制御する指令をポートB側のルー
プ2へ供給する。この指令は指定されたディスク装置の
ポートB側のバイパス回路で受信され、さらに、バイパ
ス回路間の通信によってポートA側のバイパス回路へ供
給される。これにより、指定されたディスク装置のポー
トA側のバイパス回路によってポートバイパスがなさ
れ、そのディスク装置はループ1から切り離される(ス
テップS3)。
たがリンク障害が継続している状態を示す図である。被
疑値X(n)が最大のディスク装置がディスク#nであ
る場合、このディスク#nがループ1から切り離され
る。
が最大のディスク装置をループ1から切り離したことに
よってリンクが回復するか否かを監視し(ステップS
4)、リンクが回復しない場合には、被疑値X(n)が
2番目に大きいディスク装置のポートバイパスを行う。
このようにしてディスクアダプタ10は、リンクが回復
するまで被疑値X(n)の大きい順にディスク装置の切
り離しを行う(ステップS5)。
り離したことによってリンク障害が回復した状態を示す
図である。
によってリンクが回復した場合、ディスクアダプタ10
は、確認のためそのディスク装置のバイパスを解除して
そのディスク装置を再度ループに接続させる(ステップ
S6)。そして、リンクが回復したままであるか再度リ
ンク異常となるか監視する(ステップS7)。
障害が再度発生した場合(リンクが回復しなかった場
合)、ディスクアダプタ10は、確認のためにバイパス
を解除してループ1に接続したディスク装置が固定リン
ク障害であると判定し、そのディスク装置をループから
切り離すとともに、他のディスク装置のポートバイパス
を解除して他のディスク装置をループ1に接続する(ス
テップS8)。
スを解除し、それによってリンク障害が発生した状態を
示す図である。
ると判断しそのディスクをループから切り離し、他のデ
ィスク#nをループに接続した状態を示す図である。障
害を発生させていたディスク#Kをループから切り離し
たことによって、ループ1のリンク障害は回復する。
(n)の大きい順に全てのディスクに対してポートバイ
パスを行ってもリンク障害が回復しない場合には、ディ
スクアダプタ10に障害が発生しているものと判定する
(ステップS9)。
リンク障害が発生しない場合(リンク障害が回復したま
まである場合)、ディスクアダプタ10のMPU11
は、バイパスによってリンクが回復したディスク装置が
間欠リンク障害を発生したものと判定し、そのディスク
装置の障害履歴を更新する(ステップS10)。この場
合は、先にループから切り離したディスク装置をループ
に接続する。
1は、間欠リンク障害であると判定されたディスク装置
の被疑値X(n)が他のディスク装置の被疑値X(n)
よりも小さい値であった場合、間欠リンク障害であると
判定されたディスク装置の被疑値X(n)が他のディス
ク装置の被疑値X(n)よりも大きな値となるように各
重み付け係数を調整する(ステップS11)。具体的に
は、間欠リンク障害であると判定されたディスク装置の
障害項目別の障害発生回数を調べ、一番回数の多い障害
項目の重み付け係数を増やし、一番回数の少ない障害項
目の重み付け係数を小さくする。これにより、被疑ディ
スクの予想の的中率を上げ、次回の診断で故障ディスク
を検出する時間を短縮する。
てリンク障害が発生しない状態を示す図である。
スク及び他のディスクをループに接続した状態を示す図
である。
害履歴の更新を行うと各ディスク装置の被疑値X(n)
を算出し、予め設定した診断しきい値を越えているディ
スク装置があるか否かチェックする(ステップS1
2)。診断しきい値を越えているディスク装置がない場
合はステップS1に戻ってリンク障害の監視を行う。診
断しきい値を越えているディスク装置がある場合は、図
4に示すステップS13以降の処理(診断用のアクセス
処理)を行う。
スク装置以外のディスク装置に対してポートバイパス指
示を発生する。これにより、ポートA側のループ1には
診断対象となるディスク装置のみが接続された状態とな
る。
がループに接続された状態を示す図である。
となるディスク装置に対して診断用のI/Oアクセスを
予め設定した回数繰り返し実行し、各種エラー(I/O
障害発生,転送タイムアウト発生,リンク障害発生)が
発生しないか監視し、各種エラーが発生した場合は障害
履歴を更新する(ステップS14)。これにより、障害
履歴データの取得を促進することができる。
の取得促進によって診断対象であるディスク装置の被疑
値X(n)が予め設定した障害しきい値に達した場合
(ステップS15)、そのディスク装置を障害装置であ
ると判定してそのディスク装置をループから切り離す
(ステップS16)。
までの処理を全てのディスク装置に対して繰り返す(ス
テップS17)。これにより、障害発生の可能性のある
ディスク装置を早期に検出して、リンク障害が発生する
前にループから切り離すことができ、リンク障害の発生
を未然に防止できる。
回数にそれぞれ重み付け係数を乗じて得た値の総和に基
づいて被疑値X(n)を求め、この被疑値X(n)の大
きい順にディスク装置の切り離し順序を設定する例を示
したが、リンク障害の発生回数の多い順にディスク装置
の切り離し順序を設定するようにしてもよい。また、障
害発生日時を記録している場合には、障害発生日時に新
しい順にディスク装置の切り離し順序を設定したり、所
定期間における障害発生回数(障害発生頻度)の高い順
にディスク装置の切り離し順序を設定したりするように
してもよい。
FC−ALシステムを例示したが、ポートバイパス制御
用の信号経路を独立に備える構成の場合は、2重ループ
の構成でなくてもよい。この場合は、FC−LA用のル
ープではなくポートバイパス制御用の信号経路を介して
ポートのバイパス/バイパス解除を制御する。
ALシステムのリンク診断方法及び診断装置は、ノード
毎に障害履歴を管理しておき、障害履歴に基づいてノー
ドの切り離し順序を設定するようにしたので、リンク障
害が発生した際には障害発生となる可能性の大きいノー
ドをループから順次切り離していくことができ、これに
より障害ノードを早期に検出する確立を高くできる。
れの発生回数を記録しておき、障害内容別の発生回数に
それぞれ重み付け係数をかけてそれらの総和を求め、そ
の総和を被疑値とし、この被疑値の大きい順にノードの
切り離し順序を設定することで、障害ノードを早期に検
出する確立を高くできる。
疑値が他のノードの被疑値よりも小さい場合は、障害と
して検出されたノードの被疑値が他のノードの被疑値よ
りも大きくなるように各重み付け係数を調整すること
で、被疑値の算出条件を学習させることができ、被疑ノ
ード予想の的中率を向上させることができる。
に達した場合は、ノード装置に対して診断用のアクセス
を複数回実行することで、障害履歴の採取を加速でき
る。さらに、被疑値が予め設定した障害しきい値(診断
しきい値よりも大きな値)に達した場合は、該当するノ
ード装置をポートバイパスしてループから切り離すこと
で、リンク障害の発生を未然に防止できる。
Lシステムのブロック構成図である。
示す図である。
(その1)である。
(その2)である。
態を示す図である。
障害が継続している状態を示す図である。
とによってリンク障害が回復した状態を示す図である。
し、それによってリンク障害が発生した状態を示す図で
ある。
そのディスクをループから切り離し、他のディスク#n
をループに接続した状態を示す図である。
害が発生しない状態を示す図である。
のディスクをループに接続した状態を示す図である。
接続された状態を示す図である。
Claims (13)
- 【請求項1】 FC−AL接続された複数のノード装置
毎に障害履歴を管理するステップと、前記障害履歴に基
づいて前記ノード装置の切り離し順序を設定するステッ
プと、リンク障害が発生した際に前記切り離し順序に基
づいて前記ノード装置に対してポートバイパスの指示を
供給することで前記ノード装置をループから切り離すス
テップとを備えたことを特徴とするFC−ALシステム
のリンク診断方法。 - 【請求項2】 前記ノード装置をポートバイパスしたこ
とによって前記リンク障害が回復した際には、そのノー
ド装置のポートバイパスを解除し、その結果リンク障害
が発生した場合にはそのノード装置をループから切り離
すことを特徴とする請求項1記載のFC−ALシステム
のリンク診断方法。 - 【請求項3】 前記障害履歴にはリンク障害の発生回数
が記録され、前記切り離し順序は前記リンク障害の発生
回数の多い順に設定されていることを特徴とする請求項
1記載のFC−ALシステムのリンク診断方法。 - 【請求項4】 前記障害履歴には障害内容別に発生回数
が記録され、前記切り離し順序は前記障害内容別の発生
回数にそれぞれ重み付け係数をかけて計算して得た被疑
値の大きい順に設定されていることを特徴とする請求項
1記載のFC−ALシステムのリンク診断方法。 - 【請求項5】 リンク障害であると判定されたノード装
置の被疑値が他のノード装置の被疑値よりも大きな値に
なるように前記それぞれの重み付け係数を変更すること
を特徴とする請求項4記載のFC−ALシステムのリン
ク診断方法。 - 【請求項6】 前記障害履歴には障害内容別に発生回数
が記録され、前記障害内容別の発生回数にそれぞれ重み
付け係数をかけて計算した被疑値が予め設定した診断し
きい値に達した場合は、前記ノード装置に対して診断用
のアクセスを複数回実行し、診断用のアクセスによって
障害が検出されたときには障害履歴を更新することを特
徴とする請求項1記載のFC−ALシステムのリンク診
断方法。 - 【請求項7】 前記障害履歴には障害内容別に発生回数
が記録され、前記障害内容別の発生回数にそれぞれ重み
付け係数をかけて計算した被疑値が予め設定した障害し
きい値に達した場合は、該当するノード装置をポートバ
イパスしてループから切り離すことを特徴とする請求項
1記載のFC−ALシステムのリンク診断方法。 - 【請求項8】 FC−AL接続された複数のノード装置
からなるシステムの障害を検出する障害検出手段と、障
害を発生したノード装置と障害内容とを対応付けて障害
履歴データとして記録する障害履歴管理手段と、前記ノ
ード装置をポートバイパスしてループから切り離すポー
トバイパス手段と、前記障害履歴データに基づいてリン
ク障害が発生した際のノード装置の切り離し順序を設定
するノード切り離し順序設定手段と、リンク障害が検出
された際に前記ノード切り離し順序設定手段によって設
定されたノード装置の切り離し順序に基づいて各ノード
装置の切り離し制御を行うノード切り離し制御手段とを
備えたことを特徴とするFC−ALシステムのリンク診
断装置。 - 【請求項9】 前記ノード切り離し順序設定手段は、前
記障害履歴データに基づいて各ノード装置毎に被疑値を
算出し、算出した被疑値の大きい順にノード装置の切り
離し順序を設定することを特徴とする請求項8記載のF
C−ALシステムのリンク診断装置。 - 【請求項10】 前記障害履歴データは障害内容別に発
生回数が記録され、前記ノード切り離し順序設定手段
は、前記障害内容別の発生回数にそれぞれ重み付け係数
をかけて各ノード装置毎に被疑値を算出し、算出した被
疑値の大きい順にノード装置の切り離し順序を設定する
ことを特徴とする請求項8記載のFC−ALシステムの
リンク診断装置。 - 【請求項11】 前記ノード切り離し制御手段は、前記
ポートバイパス手段を介して前記ノード装置をループか
ら切り離したことによって前記リンク障害が回復した際
には、そのノード装置のポートバイパスを解除し、その
結果リンク障害が発生した場合にはそのノード装置がル
ープから切り離すことを特徴とする請求項8記載のFC
−ALシステムのリンク診断装置。 - 【請求項12】 前記ノード切り離し順序設定手段は、
前記固定リンク障害であると判定されたノード装置の被
疑値が他のノード装置の被疑値よりも大きな値になるよ
うに前記それぞれの重み付け係数を変更することを特徴
とする請求項10記載のFC−ALシステムのリンク診
断装置。 - 【請求項13】 FC−AL接続されたシステムの障害
を検出する障害検出手段と、障害を発生したノード装置
と障害内容とを対応付けて障害履歴データとして記録す
る障害履歴管理手段と、ノード装置をポートバイパスし
てループから切り離すポートバイパス手段と、前記ノー
ド装置に対して診断用のアクセスを複数回実行して前記
障害履歴データの取得を促進をする診断用アクセス手段
と、前記障害履歴データに基づいてリンク障害が発生し
た際のノード装置の切り離し順序を設定するノード切り
離し順序設定手段と、リンク障害が検出された際に前記
ノード切り離し順序設定手段によって設定されたノード
装置の切り離し順序に基づいて各ノード装置の切り離し
制御を行うノード切り離し制御手段とを備えたことを特
徴とするFC−ALシステムのリンク診断装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001180240A JP3536829B2 (ja) | 2001-06-14 | 2001-06-14 | Fc−alシステムのリンク診断方法及び装置 |
US10/167,392 US7280485B2 (en) | 2001-06-14 | 2002-06-13 | Method and apparatus for diagnosing FC-AL system link |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001180240A JP3536829B2 (ja) | 2001-06-14 | 2001-06-14 | Fc−alシステムのリンク診断方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002374271A JP2002374271A (ja) | 2002-12-26 |
JP3536829B2 true JP3536829B2 (ja) | 2004-06-14 |
Family
ID=19020689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001180240A Expired - Fee Related JP3536829B2 (ja) | 2001-06-14 | 2001-06-14 | Fc−alシステムのリンク診断方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7280485B2 (ja) |
JP (1) | JP3536829B2 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001216206A (ja) * | 2000-02-01 | 2001-08-10 | Nec Corp | ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム |
US7036042B1 (en) * | 2002-08-16 | 2006-04-25 | 3Pardata | Discovery and isolation of misbehaving devices in a data storage system |
JP3620527B2 (ja) * | 2002-09-03 | 2005-02-16 | 日本電気株式会社 | ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム |
JP3778171B2 (ja) * | 2003-02-20 | 2006-05-24 | 日本電気株式会社 | ディスクアレイ装置 |
US8243590B2 (en) * | 2003-12-12 | 2012-08-14 | Broadcom Corporation | Method and system for seamless dual switching in a port bypass controller |
JP4497963B2 (ja) * | 2004-03-12 | 2010-07-07 | 株式会社日立製作所 | ストレージ装置 |
US7539891B2 (en) * | 2004-06-18 | 2009-05-26 | International Business Machines Corporation | Switched FC-AL fault tolerant topology |
JP2006072717A (ja) * | 2004-09-02 | 2006-03-16 | Hitachi Ltd | ディスクサブシステム |
US7406545B1 (en) | 2005-10-20 | 2008-07-29 | Western Digital Technologies, Inc. | Disk drive or any serial attached device logging a cable loss event |
JP2007241837A (ja) * | 2006-03-10 | 2007-09-20 | Nec Corp | ディスクアレイ制御装置および故障診断方法 |
JP4584853B2 (ja) * | 2006-03-17 | 2010-11-24 | 富士通株式会社 | 被疑箇所特定装置および処理方法 |
US7516352B2 (en) * | 2006-03-21 | 2009-04-07 | International Business Machines Corporation | Isolating a drive from disk array for diagnostic operations |
US7761738B2 (en) * | 2006-09-07 | 2010-07-20 | International Business Machines Corporation | Establishing communications across virtual enclosure boundaries |
US7519741B2 (en) * | 2006-09-28 | 2009-04-14 | International Business Machines Corporation | Apparatus, system, and method for automating adapter replacement |
JP4542163B2 (ja) * | 2008-02-27 | 2010-09-08 | 富士通株式会社 | ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置 |
JP5065941B2 (ja) * | 2008-02-29 | 2012-11-07 | アラクサラネットワークス株式会社 | スイッチ装置およびネットワークシステム |
US8225132B2 (en) | 2008-10-07 | 2012-07-17 | Hitachi, Ltd. | Storage system detecting physical storage device suffering failure, and method of performing processing for additional storage device provision |
US8139477B2 (en) * | 2009-07-24 | 2012-03-20 | International Business Machines Corporation | Network element bypass in computing computer architecture |
US8812913B2 (en) * | 2011-09-23 | 2014-08-19 | Dot Hill Systems Corporation | Method and apparatus for isolating storage devices to facilitate reliable communication |
US9077448B2 (en) | 2012-08-23 | 2015-07-07 | International Business Machines Corporation | Read optical power link service for link health diagnostics |
US9430150B2 (en) * | 2013-01-28 | 2016-08-30 | Dell Products, Lp | Power control for data storage devices and method therefor |
JP2019220870A (ja) * | 2018-06-21 | 2019-12-26 | 三菱電機株式会社 | ネットワーク装置 |
US11809268B1 (en) * | 2022-07-05 | 2023-11-07 | Dell Products L.P. | Discovering host-switch link and ISL issues from the storage array |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934653A (ja) | 1995-07-14 | 1997-02-07 | Nec Eng Ltd | ディスクアレイ装置 |
JP3169541B2 (ja) * | 1995-11-07 | 2001-05-28 | 富士通株式会社 | 同期通信システムのパス自動設定装置 |
US5991891A (en) * | 1996-12-23 | 1999-11-23 | Lsi Logic Corporation | Method and apparatus for providing loop coherency |
US6504817B2 (en) * | 1997-03-31 | 2003-01-07 | Hewlett-Packard Company | Fiber channel arbitrated loop dynamic loop sizing |
JPH11306644A (ja) | 1998-04-17 | 1999-11-05 | Nec Eng Ltd | ディスクアレイ装置 |
JP3196726B2 (ja) | 1998-06-10 | 2001-08-06 | 日本電気株式会社 | ディスクアレイ接続システム及びその障害発生装置検出方法並びにその制御プログラムを記録した記録媒体 |
US6356984B1 (en) * | 1998-06-30 | 2002-03-12 | Sun Microsystems, Inc. | Digital data processing system having a data bus and a control bus |
JP3196843B2 (ja) | 1998-12-02 | 2001-08-06 | 日本電気株式会社 | ファイバ・チャネル仲裁型ループにおける障害ポートの検出/排除システム及びその検出/排除方法 |
JP3211799B2 (ja) | 1999-01-25 | 2001-09-25 | 日本電気株式会社 | Fc−alの障害情報収集装置、障害情報収集方法および記録媒体 |
US6578158B1 (en) * | 1999-10-28 | 2003-06-10 | International Business Machines Corporation | Method and apparatus for providing a raid controller having transparent failover and failback |
JP2001216206A (ja) * | 2000-02-01 | 2001-08-10 | Nec Corp | ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム |
US6877044B2 (en) * | 2000-02-10 | 2005-04-05 | Vicom Systems, Inc. | Distributed storage management platform architecture |
US6697875B1 (en) * | 2000-06-27 | 2004-02-24 | Sun Microsystems, Inc. | Methods for building and using a network device database |
US6975590B2 (en) * | 2000-09-07 | 2005-12-13 | Eurologic Systems Limited | Fiber-channel arbitrated-loop split loop operation |
JP2002368768A (ja) * | 2001-06-05 | 2002-12-20 | Hitachi Ltd | ファイバチャネル調停ループ対応の電子装置及びファイバチャネル調停ループの障害検出方法 |
-
2001
- 2001-06-14 JP JP2001180240A patent/JP3536829B2/ja not_active Expired - Fee Related
-
2002
- 2002-06-13 US US10/167,392 patent/US7280485B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7280485B2 (en) | 2007-10-09 |
US20020191537A1 (en) | 2002-12-19 |
JP2002374271A (ja) | 2002-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3536829B2 (ja) | Fc−alシステムのリンク診断方法及び装置 | |
JP3620527B2 (ja) | ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム | |
US6526521B1 (en) | Methods and apparatus for providing data storage access | |
US5740357A (en) | Generic fault management of a computer system | |
US20070226537A1 (en) | Isolating a drive from disk array for diagnostic operations | |
US20050010843A1 (en) | Storage system and a method for diagnosing failure of the storage system | |
US9298527B2 (en) | Computerized storage system comprising replaceable units for managing testing of replacement units | |
US20060230306A1 (en) | Apparatus, system, and method for facilitating monitoring and responding to error events | |
US7236454B2 (en) | Loop diagnosis system and method for disk array apparatuses | |
US8145952B2 (en) | Storage system and a control method for a storage system | |
CN115220937A (zh) | 存储管理的方法、电子设备和程序产品 | |
US6990609B2 (en) | System and method for isolating faults in a network | |
JP3248485B2 (ja) | クラスタシステム、クラスタシステムにおける監視方式およびその方法 | |
CN110795291A (zh) | 一种数据库处理方法及装置 | |
JP2560875B2 (ja) | 情報処理系の障害通知方式 | |
JP3211799B2 (ja) | Fc−alの障害情報収集装置、障害情報収集方法および記録媒体 | |
JP3232393B2 (ja) | 分散処理システムのモジュール運転状態制御方法 | |
KR100604552B1 (ko) | 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법 | |
JPH0512722B2 (ja) | ||
JPH09222901A (ja) | プラントデータ収集装置 | |
CN118838751A (zh) | 基于双中心的分布式数据库多副本强同步方法、装置及计算机设备 | |
CN118041743A (zh) | 节点故障处理方法、装置、电子设备、芯片及存储介质 | |
JP2022036778A (ja) | 監視システム、監視方法、プログラム、フォールトトレラントサーバ | |
WO2024123387A1 (en) | Smart online link repair and job scheduling in machine learning supercomputers | |
JP2001075640A (ja) | 半導体基板処理装置及び半導体プロセス管理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040308 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080326 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090326 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090326 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100326 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100326 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110326 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110326 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120326 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120326 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130326 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130326 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140326 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |