JP3620527B2 - ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム - Google Patents

ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム Download PDF

Info

Publication number
JP3620527B2
JP3620527B2 JP2002257545A JP2002257545A JP3620527B2 JP 3620527 B2 JP3620527 B2 JP 3620527B2 JP 2002257545 A JP2002257545 A JP 2002257545A JP 2002257545 A JP2002257545 A JP 2002257545A JP 3620527 B2 JP3620527 B2 JP 3620527B2
Authority
JP
Japan
Prior art keywords
loop
interface
control device
disk
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002257545A
Other languages
English (en)
Other versions
JP2004094774A (ja
Inventor
智弘 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002257545A priority Critical patent/JP3620527B2/ja
Priority to US10/652,482 priority patent/US7302615B2/en
Publication of JP2004094774A publication Critical patent/JP2004094774A/ja
Application granted granted Critical
Publication of JP3620527B2 publication Critical patent/JP3620527B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/42Loop networks
    • H04L12/437Ring fault isolation or reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space

Description

【0001】
【発明の属する技術分野】
本発明はループ状インタフェースの障害解析方法及びループ状インタフェースの障害解析機能を有するシステムに関する。
【0002】
【従来の技術】
FC−AL(Fibre Channel Arbitrated Loop)のようなループ状にデバイスが接続されるインタフェースは、ケーブルの接続構成がシンプルでデバイスの増設等への対応も容易なことから、ディスクアレイ装置などに近年多く使用されるようになってきた。しかし、このような形態のインタフェースは、接続されているデバイスのインタフェース回路の障害等によってループ内を正常に信号が伝搬できなくなると(これを、ループ異常あるいはリンクダウンなどと呼ぶ)、ループ全体が使用不可能になり、接続されている1デバイスの障害であっても、そのループに接続されている全てのデバイスが使用できなくなる。このため、通常これらのデバイスは独立した2つのループに接続できるようにインタフェース回路を2ポート分備え、2重化されたループ状インタフェースの片方のループが障害により使用できなくなっても、もう一方のループでアクセス可能なようにして信頼性を高めている。また、ループ異常が発生した場合、速やかに故障デバイスを特定して障害を回復させる機能を備えている。
【0003】
例えば、特許文献1では、ループA、Bの2つのFC−ALを有するディスクアレイ装置において、一方のループAに異常が発生したとき、そのループAのディスク制御部は通常のディスク処理を停止して仮縮退状態へ遷移し、ループBのディスク制御部はループAの処理を代行する。そして、ループAのディスク制御部は自らループAの診断を実行して故障ディスクをループAからバイパスし、ループAの仮縮退状態を解除する。これによって、ループ異常が発生した場合にホストへの応答を継続しながら故障部品を特定する処理を可能にしている。但し、この特許文献1では、ループ異常として間欠障害を想定しており、ループAの診断時にはループAが異常でないことを前提としている。
【0004】
また、特許文献2には、ループA、Bの2つのFC−ALを有し且つ各ループにエンクロージャサービスデバイス(Enclosure Service Device)が直接接続されたディスクアレイ装置に適用可能な障害解析方法が開示されている。エンクロージャサービスデバイスはANSI規格(NCITS 305−199X)で規定されている装置の筐体内環境監視・資源管理のためのデバイスであり、自身が接続されるループに接続されているディスクのバイパス、バイパス解除を行うループ接続切替部に対する制御機能も有している。ループに直接接続されたエンクロージャサービスデバイスは、ループに接続されたディスクと同様にループ状インタフェースに接続されたデバイスとして振る舞うため、接続されたループに固定的な異常が発生すると、そのループのディスク制御部からそのループを通じてエンクロージャサービスデバイスに指示を与えることができなくなる。そこで特許文献2では、各ループに接続されているエンクロージャサービスデバイスに相互に通信するためのインタフェースを設け、一方のループAに異常が発生したとき、そのループAの診断を行うためのループAのディスクのバイパス、バイパス解除の指示を、他方のループBのエンクロージャサービスデバイス経由でループAのエンクロージャサービスデバイスに与えるようにしている。
【0005】
【特許文献1】
特開2002−7077号公報
【特許文献2】
特開2001−216206号公報
【0006】
【発明が解決しようとする課題】
上述したようにFC−AL等のループ状インタフェースを有するディスクアレイ装置などのシステムでは、ループ状インタフェースの2重化、ループ異常時における速やかな障害解析による故障部品のバイパス化を行うことで信頼性を高めるようにしている。しかし、2重化されたループ状インタフェースの双方が同時にループ障害になった場合、各ループにエンクロージャサービスデバイスを直接接続したシステムにあっては、以下のような課題がある。
【0007】
第1の課題は、ループ状インタフェースに接続されたデバイスの切り離し、再接続が全く行えなくなることである。その理由は、デバイスの切り離し、再接続を実際に行うループ接続切替部を制御するエンクロージャサービスデバイス自体にどのループからもアクセスすることができなくなるからである。
【0008】
第2の課題は、ループ異常の原因となる故障デバイスを特定するループ診断が全く行えないことである。その理由は、ループ診断を実施するためには、ループ状インタフェースに接続されたデバイスの切り離し、再接続が必要であるが、このデバイスの切り離し、再接続が行えないからである。
【0009】
第3の課題は、システムが完全に停止したままになることである。その理由はループ診断が実施できず、故障部品をループから除去できないからである。
【0010】
本発明はこのような事情に鑑みて提案されたものであり、その目的は、多重化されたループ状インタフェースを有し且つその各々のループにエンクロージャサービスデバイス等の制御デバイスが接続されたディスクアレイ装置などのシステムにおいて、全てのループで異常が発生しても、ループ状インタフェースに接続されたデバイスの切り離し、再接続が行えるようにし、また、ループ異常の原因となる故障デバイスを特定するループ診断を実施できるようにし、また、システムが完全に停止したままになるのを防止することにある。
【0011】
【課題を解決するための手段】
本発明のループ状インタフェースの障害解析方法は、多重化されたFC−AL等のループ状インタフェースを有し、前記各ループ状インタフェースへのハードディスク装置等のデバイスの接続および切り離しを行うループ接続切替手段を制御するエンクロージャサービスデバイス等の制御デバイスが前記各ループ状インタフェースに接続され、且つ、前記制御デバイスが相互に通信するためのインタフェースを備えたディスクアレイ装置等のシステムの障害解析方法であって、前記制御デバイスにおいて全ての前記ループ状インタフェースが異常となったことを検出したときに前記ループ接続切替手段を制御して少なくとも1つの前記ループ状インタフェースに接続された全ての前記デバイスを切り離す処理を行うことを特徴とする。
【0012】
ここで、前記制御デバイスは、自デバイスが接続されるループ状インタフェースを通じて定期的に送られてくるハートビートコマンド等のコマンドが途絶えたことを検出して前記インタフェースを通じて他の前記制御デバイスに通知し、全ての前記制御デバイスにおいて前記コマンドが途絶えたことが検出されたときに全ての前記ループ状インタフェースが異常となったことを検出するようにして良い。また、接続された全ての前記デバイスが切り離されてループ異常が解消した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するようにして良い。更に、多重化されたループ状インタフェースの1つのループ状インタフェースを通じて前記デバイスおよび前記制御デバイスに接続された制御装置が、多重化されたループ状インタフェースの全ループ異常時、自制御装置が接続されたループ状インタフェースのループ異常が一定時間内に解消するか否かを判定し、一定時間内にループ異常が解消した場合には前記制御デバイスに全ての前記デバイスの切り離しを行ったか否かを問い合せ、前記制御デバイスによって全ての前記デバイスの切り離しが行われていたときに前記ループ診断手段によるループ診断を含む両系リンク障害対策処理を実行するようにして良い。また、前記ループ診断で故障と判断された前記デバイスを前記ループ状インタフェースから切り離して当該ループ状インタフェースの利用を再開させるようにして良い。また、利用を再開した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するようにして良い。
【0013】
本発明のループ状インタフェースの障害解析機能を有するシステムは、多重化されたFC−AL等のループ状インタフェースを有し、前記各ループ状インタフェースへのハードディスク装置等のデバイスの接続および切り離しを行うループ接続切替手段を制御する機能を有するエンクロージャサービスデバイス等の制御デバイスが前記各ループ状インタフェースに接続されたディスクアレイ装置等のシステムにおいて、前記制御デバイスは相互に通信するためのインタフェースを備え、且つ、全ての前記ループ状インタフェースが異常となったことを検出したときに前記ループ接続切替手段を制御して少なくとも1つの前記ループ状インタフェースに接続された全ての前記デバイスを切り離す処理を行う手段を備えたことを特徴とする。
【0014】
ここで、前記制御デバイスは、自デバイスが接続されるループ状インタフェースを通じて定期的に送られてくるハートビートコマンド等のコマンドが途絶えたことを検出して前記インタフェースを通じて他の前記制御デバイスに通知する手段を備え、全ての前記制御デバイスにおいて前記コマンドが途絶えたことが検出されたときに全ての前記ループ状インタフェースが異常となったことを検出するものであって良い。また、接続された全ての前記デバイスが切り離されてループ異常が解消した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するループ診断手段を備えていて良い。更に、多重化されたループ状インタフェースの1つのループ状インタフェースを通じて前記デバイスおよび前記制御デバイスに接続された制御装置を備え、該制御装置は、多重化されたループ状インタフェースの全ループ異常時、自制御装置が接続されたループ状インタフェースのループ異常が一定時間内に解消するか否かを判定し、一定時間内にループ異常が解消した場合には前記制御デバイスに全ての前記デバイスの切り離しを行ったか否かを問い合せ、前記制御デバイスによって全ての前記デバイスの切り離しが行われていたときに前記ループ診断手段によるループ診断を含む両系リンク障害対策処理を実行するものであって良い。また、前記ループ診断手段は、前記ループ診断で故障と判断された前記デバイスを前記ループ状インタフェースから切り離して当該ループ状インタフェースの利用を再開させるものであって良い。また、前記ループ診断手段は、利用を再開した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するものであって良い。
【0015】
本発明のエンクロージャサービスデバイスは、多重化されたFC−AL等のループ状インタフェースの1つのループ状インタフェースに接続され、接続された前記ループ状インタフェースへのハードディスク装置等のデバイスの接続および切り離しを行うループ接続切替手段を制御する機能を有するエンクロージャサービスデバイスにおいて、他のループ状インタフェースに接続された他のエンクロージャサービスデバイスと相互に通信するためのインタフェースを備え、且つ、全ての前記ループ状インタフェースが異常となったことを検出したときに前記ループ接続切替手段を制御して前記ループ状インタフェースに接続された全ての前記デバイスを切り離す処理を行う手段を備えたことを特徴とする。
【0016】
ここで、本発明のエンクロージャサービスデバイスは、自デバイスが接続されるループ状インタフェースを通じて定期的に送られてくるコマンドが途絶えたことを検出して前記インタフェースを通じて他の前記エンクロージャサービスデバイスに通知する手段を備え、全ての前記エンクロージャサービスデバイスにおいて前記コマンドが途絶えたことが検出されたときに全ての前記ループ状インタフェースが異常となったことを検出するものであって良い。
【0017】
本発明の制御装置は、多重化されたFC−AL等のループ状インタフェースの1つのループ状インタフェースを通じて、1以上のハードディスク装置等のデバイスと、前記デバイスのループ状インタフェースへの接続および切り離しを行うループ接続切替手段を制御する機能を有するエンクロージャサービスデバイス等の制御デバイスとに接続されたディスク制御装置等の制御装置において、多重化されたループ状インタフェースの全てが異常となったことを検出した前記制御デバイスによって少なくとも1つの前記ループ状インタフェースに接続された全ての前記デバイスが切り離されたという事象を確認する手段と、接続された全ての前記デバイスが切り離されてループ異常が解消した前記ループ状インタフェースに接続された前記制御デバイスを経由して、前記制御デバイス間を相互に通信可能に接続するインタフェースを通じて、他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するループ診断手段を備えたことを特徴とする。
【0018】
ここで、本発明の制御装置における前記ループ診断手段は、前記ループ診断で故障と判断された前記デバイスを前記ループ状インタフェースから切り離して当該ループ状インタフェースの利用を再開させるものであって良い。また、前記ループ診断手段は、利用を再開した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するものであって良い。
【0019】
【作用】
本発明にあっては、多重化された全てのループ状インタフェースが異常になったことが、各ループ状インタフェースに接続された制御デバイスにおいて検出される。そして、その検出時に制御デバイスが自律的に、ループ接続切替手段を制御して少なくとも1つのループ状インタフェースに接続された全てのデバイスをループから切り離す。これにより、ループ障害の原因が何れかのデバイスの故障である場合、全てのデバイスがループから切り離されたループ状インタフェースのループ異常は解消し、そのループ状インタフェースに接続された制御デバイスへのアクセスが可能となる。制御デバイス間はインタフェースにより相互に通信可能になっているので、アクセス可能となった制御デバイスを経由することにより、他の制御デバイスもアクセス可能となる。このため、任意のループ状インタフェースに接続されたデバイスの切り離し、再接続が行える。これにより、ループ異常の原因となる故障デバイスを特定するループ診断を実施でき、故障デバイスを切り離すことによって、システムの運用を継続することができる。
【0020】
【発明の実施の形態】
次に本発明の実施の形態について図面を参照して詳細に説明する。
【0021】
【構成】
図1を参照すると、本発明の一実施の形態にかかるディスクアレイ装置1は、ホストインタフェースA121、B122を介してホストA91、B92と接続され、ディスクユニット部5と、キャッシュ部6と、ディスク制御部A71と、ディスク制御部B72と、ホスト制御部A81と、ホスト制御部B82とを含んで構成される。
【0022】
ホスト制御部A81、B82は、ホストA91、B92間とのコマンド受信、データ転送、ステータス応答などのホストサービスを行う。ホスト制御部A81、B82は、内部バス110によりキャッシュ部6およびディスク制御部A71、B72に接続されており、お互いにデータの送受を行う。またホスト制御部A81、B82とディスク制御部A71、B72は、制御部間通信手段100により、ディスク処理などの他の制御部に対する処理要求や、ループ診断結果の通知などの制御部の状態通知などを行う。
【0023】
ディスクユニット部5は、FC−ALインタフェース・ポートを2ポート有する複数のFC−ALディスク21〜2Nと、ループ接続切替部A31、B32と、エンクロージャサービス部A51、B52とを含んで構成される。
【0024】
ループ接続切替部A31、B32は、FC−ALディスク21〜2NのFC−AL A41、B42からの切り離し(バイパス)や、FC−AL A41、B42への接続(バイパス解除)を行う回路である。
【0025】
エンクロージャサービス部A51、B52は、ディスク制御部A71、B72に対してFC−AL A41、B42を通じて接続されている。また、エンクロージャサービス部A51、B52は、相互に通信するためのインタフェース130を有している。このエンクロージャサービス部A51、B52は、ANSI規格(NCITS 305−199X)で規定されている装置の筐体内環境監視・資源管理のためのデバイスであり、ハートビート監視部A511、B521と、ハートビート受信部A512、B522と、ループ接続制御部A513、B523とを有している。
【0026】
ループ接続制御部A513、B523は、ループ接続切替部A31、B32に対して、FC−ALディスク21〜2Nのバイパス、バイパス解除を制御する機能を有する。
【0027】
ハートビート受信部A512、B522は、FC−AL A41、B42を通じてディスク制御部A71、B72から一定時間間隔で送られてくるコマンドを受信する機能を有する。ディスク制御部A71、B72から一定時間間隔で送られてくるコマンドを、以下、ハートビートコマンドと呼ぶ。ハートビートコマンドはそれ専用のコマンドを定義しても良いし、既存のコマンド(例えばReceive Diagnostic Resultsコマンドなど)であっても良い。
【0028】
ハートビート監視部A511、B521は、自エンクロージャサービス部のハートビート受信部A512、B522におけるハートビートコマンドの受信状態を監視し、ハートビートコマンドの受信が途絶えたことを検出すると、インタフェース130を通じて他方のハートビート監視部B521、A511へその旨を通知する。そして、両ハートビート受信部A512、B522の双方でハートビートコマンドの受信が途絶えたことを検出すると、ループ接続制御部A513、B523によって、全てのFC−ALディスク21〜2NをFC−AL A41、B42からバイパスする機能を有する。また、エンクロージャサービス部A51、B52は、コマンド受信が途絶えたことにより全ディスクのバイパスを実施したときには、その旨を内部に記録し、ディスク制御部A71、B72からの問い合わせに対して、バイパスを実施したことを報告する機能を有する。この問い合わせに対する報告機能は、例えば、Receive Diagnostic Resultsコマンドに対する応答機能として実現することができる。
【0029】
エンクロージャサービス部A51の内部構成例を図2に示す。エンクロージャサービス部B52も同様の構成を有する。この例では、エンクロージャサービス部A51は、CPU531と、そのバス532に接続されたインタフェースチップ533、メモリ534、通信部535および切替部536とを含んで構成される。インタフェースチップ533は、FC−AL A41との間のインタフェース部分である。通信部535はインタフェース130を通じてエンクロージャサービス部B52と相互に通信するためのものである。切替部536は、ループ接続切替部A31に対する制御信号等を保持するレジスタ等で構成される。メモリ534は、ROMおよびRAMで構成され、エンクロージャサービスデバイス用プログラム(ファームウェアを含む)を記憶すると共に、自デバイスの状態やFC−AL A41に接続された各ディスクの状態などを示す状態情報等を記憶するための領域を有する。CPU531は、メモリ534に記憶されたエンクロージャサービスデバイス用プログラムを実行することにより、本デバイス全体を制御し、本デバイスに必要な機能を実現する。
【0030】
再び図1を参照すると、ディスク制御部A71は、FC−ALディスク21〜2Nの一方のポートのみとでFC−AL A41を構成し、別のディスク制御部B72は、FC−ALディスク21〜2Nのもう一方のポートのみとでFC−ALB42を構成する。ディスク制御部A71、B72は、ホスト制御部A81、B82からの指示により、あるいはディスク制御部A71、B72自身の判断により、FC−ALディスク21〜2Nに対してリードやライト等の各種ディスク処理を行う。また、ディスク制御部A71、B72は、エンクロージャサービス部A51、B52に対してFC−ALディスク21〜2Nのバイパス、バイパス解除の指示を出したり、バイパス状態などの情報をエンクロージャサービス部A51、B52から読み出したりする。更に、ディスク制御部A71、B72は、仮縮退制御部A710、B720と、ループ診断部A711、B721と、ハートビート送信部A712、B722とを有している。
【0031】
ハートビート送信部A712、B722は、エンクロージャサービス部A51、B52の構成要素であるハートビート受信部A512、B522に対して、一定時間間隔ごとにハートビートコマンドを発行する。前述したようにエンクロージャサービス部A51、B52の構成要素であるハートビート受信部A512、B522は発行されたハートビートコマンドを受信し、ハートビート監視部A511、B521は、ハートビートコマンドの受信状態を監視し、両ハートビート受信部A512、B522ともハートビートコマンドが途絶えたことを検出すると、全FC−ALディスク21〜2Nが双方のFC−AL A41、B42から切り離される。ハートビート監視部A511、B522がハートビートコマンド受信が途絶えたと判断する時間は、ディスク制御部A71、B72から設定可能である。ハートビート送信部A712、B722は、ハートビート監視部A511、B522によるコマンド受信停止判断時間より短い間隔でハートビート受信部A512、B522に対してコマンドを発行する。
【0032】
ループ診断部A711、B721は、ループ異常が発生した場合に、FC−ALディスクのバイパス、バイパス解除を伴うループ診断を互いに連携して実行し、故障ディスクを特定する機能を有する。
【0033】
仮縮退制御部A710、B720は、ループ診断中もホストA91、B92に対する応答を継続するために、ホスト制御部A81、B82やディスク制御部A71、B72間の連携を制御する機能を有する。
【0034】
ディスク制御部A71の内部構成例を図3に示す。ディスク制御部B72も同様の構成を有する。この例では、ディスク制御部A71は、CPU731と、そのバス732に接続されたインタフェースチップ733、メモリ734、通信部735およびDMA(ダイナミックメモリアクセス)コントローラ等で構成されるデータ転送部736とを含んで構成される。インタフェースチップ733は、FC−AL A41との間のインタフェース部分である。ディスク制御部におけるループ異常検出機構は、一般にこのインターフェースチップ733に設けられている。通信部735は制御部間通信手段100を通じて他の制御部と相互に通信するためのものである。データ転送部736は、内部バス110を通じて他の制御部とデータの授受を行うと共にインタフェースチップ733およびFC−ALA41を通じてエンクロージャサービス部51Aや各ディスク21〜2Nとデータの授受を行う部分である。メモリ734は、ROMおよびRAMで構成され、ディスク制御部用プログラム(ファームウェアを含む)等を記憶する。CPU731は、メモリ734に記憶されたディスク制御部用プログラムを実行することにより、本ディスク制御部全体を制御し、本ディスク制御部に必要な機能を実現する。
【0035】
【動作】
次に本実施の形態のディスクアレイ装置の動作について説明する。
【0036】
図1を参照すると、ホストA91、B92から命令を受け取ったホスト制御部A81、B82は、論理ディスク番号(LUN)、命令コード種別、および論理ブロックアドレス(LBA)などの必要な情報を認識する。例えば、ホストA91、B92からのリード命令を受けたホスト制御部A81、B82は、キャッシュ部6に指定されたデータが存在すれば、直ちにキャッシュ部6からホストA91、B92にデータを転送する。キャッシュ部6にデータが存在しなければ、FC−ALディスク21〜2Nから読み出したデータをキャッシュ部6に格納するようディスク制御部A71、B72に対して指示し、キャッシュ部6に格納されたら、そのデータをホストA91、B92に転送する。また例えば、ホストA91、B92からのライト命令を受けたホスト制御部A81、B82は、ホストA91、B92から受け取ったデータをキャッシュ部6に格納する。このデータはホスト制御部A81、B82からディスク制御部A71、B72に対してディスクへの書き込み指示が出されることにより、あるいはディスク制御部A71、B72がディスクへの未書き込みデータがキャッシュ部6に存在することを検出することにより、ディスク制御部A71、B72によってFC−ALディスク21〜2Nへ書き込まれる。2つのディスク制御部A71、B72は、処理を担当するFC−ALディスク21〜2Nを分担して負荷を分散させる使い方が一般的である。
【0037】
次に、FC−AL A41、FC−AL B42がループ異常を起こした場合の処理を説明する。
【0038】
FC−AL A41にのみループ異常が発生すると、FC−AL A41上を信号が伝搬できなくなるため、従来と同様にディスク制御部A71がそのことを検出する。このとき、ディスク制御部A71のハートビート送信部A712が定期的に送信するハートビートコマンドもエンクロージャサービス部A51のハートビート受信部A512で受信されなくなり、ハートビート監視部A511はFC−AL A41にループ異常が発生したことを検知するが、他方のFC−AL B42は正常なので、FC−AL A41からディスク21〜2Nをバイパスする制御は実施されない。
【0039】
反対に、FC−AL B42にのみループ異常が発生すると、FC−AL B42上を信号が伝搬できなくなるため、従来と同様にディスク制御部B72がそのことを検出する。このとき、ディスク制御部B72のハートビート送信部B722が定期的に送信するハートビートコマンドもエンクロージャサービス部B52のハートビート受信部B522で受信されなくなり、ハートビート監視部B521はFC−AL B42にループ異常が発生したことを検知するが、他方のFC−AL A41は正常なので、FC−AL B42からディスク21〜2Nをバイパスする制御は実施されない。
【0040】
FC−AL A41、B42の双方でループ異常が発生すると、ディスク制御部A71がFC−AL A41のループ異常を検出し、ディスク制御部B72がFC−AL B42のループ異常を検出する。また、エンクロージャサービス部A51、B52のハートビート監視部A511、B521が、FC−AL A41、B42の双方にループ異常が発生したことを検知し、ループ接続制御部A513からループ接続切替部A31が制御されてFC−AL A41から全てのディスク21〜2Nがバイパスされ、同時にループ接続制御部B523からループ接続切替部B32が制御されてFC−AL B42から全てのディスク21〜2Nがバイパスされる。
【0041】
図4はディスク制御部A71、B72が自ループの異常を検出したときの処理例を示すフローチャートである。ディスク制御部A71、B72とも同じ処理を行うので、以下では、ディスク制御部A71を例に説明する。
【0042】
ディスク制御部A71は、FC−AL A41のループ異常を検出すると(S101)、制御部間通信手段100を通じてディスク制御部B72に他方のFC−AL B42のループ状態を問い合せる(S102)。ディスク制御部B72は、この問い合わせに対して、FC−AL B42のループ状態が正常か、異常かを示す問い合わせ応答を制御部間通信手段100を通じてディスク制御部A71に返却する。ディスク制御部A71は、他方のFC−AL B42がループ異常でなく正常であれば(S103でNO)、1つのループのみでループ異常が発生した場合の片系リンク障害対策処理を実施する(S104)。この片系リンク障害対策処理の詳細は後述する。他方、FC−AL B42もループ異常を起こしていれば(S103でYES)、ステップS105へ進む。
【0043】
ステップS105では、ディスク制御部A71は、一定時間だけ待ち合わせを行う。待ち合わせる時間は、エンクロージャサービス部A51、B52がFC−AL A41およびB42の双方でループ異常が発生した場合に自律的に全てのディスク21〜2NをFC−AL A41、B42からバイパスさせるのに要する時間より若干長い時間である。この待ち合わせ後、ディスク制御部A71は、FC−AL A41のループ異常が解消しているかどうかを判別する(S106)。そして、自ループの異常が解消していれば(S106でYES)、ループ異常が解消したFC−AL A41を通じてエンクロージャサービス部A51に対して、ハートビートコマンドの受信が両ループで途絶えたために全ディスク21〜2Nのバイパスを実施したかどうかを問い合せる(S107)。この問い合わせに対して、全ディスクのバイパスを実施した旨の回答がエンクロージャサービス部A51からFC−AL A41を通じて返された場合(S108でYES)、FC−AL A41とB42の両方でループ異常が固定的に発生した場合の両系リンク障害対策処理を実施する(S109)。この両系リンク障害対策処理の詳細は後述する。
【0044】
他方、エンクロージャサービス部A51から全ディスクのバイパスを実施していない旨の回答が得られた場合(S108でNO)、発生したループ異常が間欠障害で、自然に治癒したものとして処理する。また、ステップS105で一定時間待ち合わせても、FC−AL A41のループ異常が解消しなかった場合(S106でNO)、ループ異常の原因が例えばエンクロージャサービス部A51自体の故障等、ディスク21〜2N以外の箇所に存在するので、それに応じた障害対策処理を実施する。この障害対策処理は本発明と直接関係しないので、その説明は省略する。
【0045】
図4の処理例では、他ループも異常の場合(S103でYES)、一定時間だけ待ってから(S105)、自ループの異常が解消したかを判断したが(S106)、この部分の処理を図5のように変更しても良い。つまり、他ループも異常の場合(S103でYES)、自ループの異常が解消したかどうかを判断する処理S106と一定時間経過したどうかを判断する処理S110とを含むループを実行し、自ループの異常が解消していればステップS107へ進み、一定時間経過しても自ループの異常が解消していなければ(S110でYES)、他の障害対策処理へ進む。図4の処理では、ループ障害が間欠障害であって直ぐに解消した場合も一定時間待つ必要があるが、図5の処理によれば、そのようなことがなくなる利点がある。
【0046】
次に、ステップS104の片系リンク障害対策処理について、FC−AL A41がループ異常となった場合を例に説明する。当然ながら、FC−AL B42の場合も同様に動作する。
【0047】
図6は片系リンク障害対策処理(S104)の一例を示すフローチャートである。例えば、何れかのFC−ALディスク21〜2Nの故障によりFC−AL A41にてリンクダウンなどのループ異常が継続したとする(S1041)。この状態ではディスク制御部A71は、エンクロージャサービス部A51やFC−ALディスク21〜2Nに対してアクセスができなくなる。ディスク制御部A71の仮縮退制御部A710は、通常のディスク処理の実行を停止(この通常機能を停止している状態を仮縮退状態と呼ぶこととする)するとともに(S1042)、制御部間通信手段100によりホスト制御部A81、B82および別のディスク制御部B72に対して仮縮退状態に遷移したことを通知(仮縮退通知)する(S1043)。
【0048】
仮縮退通知を受けたディスク制御部B72、ホスト制御部A81、B82は、ループA仮縮退状態でシステムを運用する(S1044)。具体的には、仮縮退通知を受けたディスク制御部B72の仮縮退制御部B720は、最初にFC−ALディスク21〜2Nのリセットを実行し、仮縮退したディスク制御部A71が放棄したディスク処理によりFC−ALディスク21〜2N内に滞留している処理をキャンセルする。またディスク制御部B72は、全てのFC−ALディスク21〜2Nを対象に、ホスト制御部A81、B82から指示されたディスク処理、およびディスク制御部B72の判断によるディスク処理を行う。他方、仮縮退通知を受けたホスト制御部A81、B82は、仮縮退したディスク制御部A71に対して要求していた未完了のディスク処理を代替のディスク制御部B72に対して再度要求する。またディスク制御部A71が仮縮退中は、新たなホストI/Oによるディスク処理について全て代替のディスク制御部B72に対して要求する。よって、ディスク制御部A71が仮縮退している間もディスク制御部B72が処理を引き継ぐため、ホストに対して応答を継続することが可能となる。
【0049】
次に、仮縮退したディスク制御部A71のループ診断部A711とディスク制御部B72のループ診断部B721とは、連携してFC−AL A41に接続された複数のディスク21〜2Nから故障部品を特定するための診断処理を行う(S1045)。以下、ステップS1045のループ診断処理の具体例を説明する。
【0050】
先ず、ディスク制御部A71のループ診断部A711は、制御部間通信手段100を通じてディスク制御部B72のループ診断部B721に対して、FC−ALディスク21〜2Nのうち、例えばディスク21をFC−AL A41からバイパスするよう指示する。指示を受けたディスク制御部B72は、FC−AL B42を通じて、エンクロージャサービス部B52に対して、同様のバイパスを指示し、エンクロージャサービス部B52は、インタフェース130を通じてエンクロージャサービス部A51に同様のバイパスを指示する。エンクロージャサービス部A51のループ接続制御部A513は、この指示を受けてループ接続切替部A31を制御し、ディスク21をFC−AL A41から切り離す。ディスク制御部A71は、FC−AL A41のループ異常が解消したかどうかを判定し、解消していれば、ディスク21を故障ディスクと特定する。他方、ループ異常がなおも継続していれば、次のディスク22についてディスク21と同様の手順でFC−AL A41からバイパスし、ディスク22が故障ディスクでないかどうかを調べる。このような処理を故障ディスクが特定されるまで、最後のディスク2Nまで繰り返す。
【0051】
こうして故障ディスクを特定すると、ディスク制御部A71は、故障ディスクは切り離し、正常ディスクはバイパス解除してFC−AL A41に接続し直す(ステップS1046)。例えば、ディスク22が故障ディスクであった場合、図7に示すように、FC−AL A41から故障ディスク22を切り離し、正常ディスクだけを接続する。
【0052】
その後、ディスク制御部A71は、制御部間通信手段100によりホスト制御部A81、B82および別のディスク制御部B72に対して、仮縮退状態を解除し通常状態に遷移したことを通知(仮縮退解除通知)する(S1047)。仮縮退状態を解除したディスク制御部A71は、通常機能としてのディスク処理を再開する。仮縮退解除通知を受けたディスク制御部B72は、仮縮退解除したディスク制御部A71が受け持つディスクに対する処理を停止し、ループ診断により他方のループからバイパスされたディスクを含めた残りのディスクに対する処理を受け持つ。仮縮退解除通知を受けたホスト制御部A81、B82は、上記のディスクの受け持ちに応じたディスク制御部A71、B72に対してディスク処理を要求する。故障と判断されたディスクは、例えばディスクアレイ装置1に接続された保守端末(図示せず)や、あるいはホストパスで接続されたディスクアレイ管理用ホスト(図示せず)などにより保守員や使用者などに、交換が必要であることが通知される。
【0053】
上述したループ診断処理の具体例はあくまでも一例であり、本発明は上記具体例に限定されるものではない。例えば、文献2の図5に示されるような手順によるループ診断を行っても良い。また、FC−AL A41に接続されている全てのディスク21〜2Nを一旦バイパスし、1つのディスク毎にバイパス解除してそのディスクが故障ディスクかどうかを調べるようにしても良い。
【0054】
次に、図4の両系リンク障害対策処理(S109)について説明する。
【0055】
図8は両系リンク障害対策処理S109の一例を示すフローチャートである。この両系リンク障害対策処理が開始される前には、エンクロージャサービス部A51、B52によってFC−AL A41、B42から全てのディスク21〜2Nがバイパスされており、この状態ではディスク制御部A71、B72は共に通常のディスク処理が行えない。このため、ディスク制御部A71、B72の仮縮退制御部A710、B720は、通常のディスク処理の実行を停止して仮縮退状態とするとともに(S1091)、制御部間通信手段100によりホスト制御部A81、B82に対して仮縮退状態に遷移したことを通知(仮縮退通知)する(S1092)。仮縮退通知を受けたホスト制御部A81、B82は、全てのディスク制御部A71、B72が仮縮退状態となったので、ホストA91、B92からの要求の受付を一時的に中断する(S1093)。
【0056】
次に、仮縮退したディスク制御部A71、B72のループ診断部A711、B721は、先ず、何れか一方のFC−AL、例えばFC−AL A41に接続された複数のディスク21〜2Nから故障部品を特定するための診断処理を連携して行う(S1094)。以下、ステップS1094のループ診断処理の具体例を説明する。
【0057】
先ず、ディスク制御部A71のループ診断部A711は、制御部間通信手段100を通じてディスク制御部B72のループ診断部B721に対して、FC−ALディスク21〜2Nのうち、例えばディスク21をFC−AL A41に接続(バイパス解除)するよう指示する。指示を受けたディスク制御部B72は、FC−AL B42を通じて、エンクロージャサービス部B52に対して、同様のバイパス解除を指示し、エンクロージャサービス部B52は、インタフェース130を通じてエンクロージャサービス部A51に同様のバイパス解除を指示する。エンクロージャサービス部A51のループ接続制御部A513は、この指示を受けてループ接続切替部A31を制御し、ディスク21をFC−AL A41に接続する。ディスク制御部A71は、FC−AL A41のループ異常が再発したかどうかを判定し、再発していれば、ディスク21を故障ディスクと特定する。他方、ループ異常が再発しなければ、ディスク21は正常ディスクと特定する。
【0058】
ディスク21を故障ディスクと特定した場合、ディスク制御部A71のループ診断部A711は、そのバイパス解除を指示した場合と同じ経路、つまり、制御部間通信手段100、ループ診断部B721、エンクロージャサービス部B52、インタフェース130を経由する経路で、エンクロージャサービス部A51にディスク21をバイパスする指示を出し、故障ディスク21をFC−AL A41から切り離した後、次のディスク22の診断をディスク21と同様に実施する。ディスク21が故障ディスクでない場合は、ディスク21をFC−AL A41に接続したまま、次のディスク22の診断をディスク21と同様に実施する。このような手順を、残りの全てのディスクについて繰り返す。こうしてFC−ALA41のループ診断が終了すると、FC−AL A41には正常ディスクだけが接続された状態になる。
【0059】
なお、以上の説明では、ディスク制御部A71がディスク21〜2NをFC−AL A41に接続する場合、他方のディスク制御部B72、FC−AL B42、エンクロージャサービス部B52経由でエンクロージャサービス部A51にバイパス解除の指示を伝達したが、FC−AL A41経由で直接にエンクロージャサービス部51にバイパス解除の指示を送るようにしても良い。但し、若し、バイパス解除したディスクが故障ディスクであれば、FC−AL A41は再びループ異常になるので、そのディスクを再び切り離す際には、他方のディスク制御部B72、FC−AL B42、エンクロージャサービス部B52経由でエンクロージャサービス部A51にバイパスの指示を伝達する必要がある。
【0060】
その後、ディスク制御部A71は、制御部間通信手段100によりホスト制御部A81、B82に対して、ループAの仮縮退状態を解除し通常状態に遷移したことを通知(仮縮退解除通知)する(S1095)。これにより、ループB仮縮退状態でシステムの運用が再開される(S1096)。つまり、ループAの仮縮退解除通知を受けたホスト制御部A81、B82は、仮縮退したディスク制御部A71、B72に対して要求していた未完了のディスク処理を、仮縮退解除したディスク制御部A71に対して再度要求する。また、ホストA91、B92からの要求の受け付けを再開し、新たなホストI/Oによるディスク処理について全てディスク制御部A71に対して要求する。ディスク制御部A71は、正常な全てのFC−ALディスクを対象に、それらに滞留しているディスク処理をキャンセルした後、ホスト制御部A91、B92から指示されたディスク処理、およびディスク制御部A71の判断によるディスク処理を行う。これにより、システムの運用が完全に停止する期間を最小限にすることができる。
【0061】
次に、仮縮退解除したディスク制御部A71のループ診断部A711と、仮縮退中のディスク制御部B72のループ診断部B721は、連携してFC−AL B42に接続された複数のディスク21〜2Nから故障部品を特定するための診断処理を行う(S1097)。このステップS1097のループ診断処理は、例えば、ステップS1094の処理と同様に以下のように行われる。
【0062】
先ず、ディスク制御部B72のループ診断部B721は、制御部間通信手段100、ディスク制御部A71のループ診断部711、FC−AL A41、エンクロージャサービス部A51、インタフェース130を通じて、エンクロージャサービス部B52に対して、FC−ALディスク21〜2Nのうち、例えばディスク21をFC−AL B42に接続(バイパス解除)するよう指示する。エンクロージャサービス部B52のループ接続制御部B523は、この指示を受けてループ接続切替部B32を制御し、ディスク21をFC−AL B42に接続する。ディスク制御部B72は、FC−AL B42のループ異常が再発したかどうかを判定し、再発していれば、ディスク21を故障ディスクと特定し、ループ異常が再発しなければ、ディスク21は正常ディスクと特定する。ディスク21を故障ディスクと特定した場合、ディスク制御部B72のループ診断部B721は、そのバイパス解除を指示した場合と同じ経路で、ループ接続切替部B32にディスク21をバイパスする指示を出し、故障ディスク21をFC−AL B42から切り離した後、次のディスク22の診断をディスク21と同様に実施する。ディスク21が故障ディスクでない場合は、ディスク21をFC−AL B42に接続したまま、次のディスク22の診断をディスク21と同様に実施する。このような手順を、残りの全てのディスクについて繰り返す。こうしてFC−ALB42のループ診断が終了すると、FC−AL B42には正常ディスクだけが接続された状態になる。なお、ステップS1094の場合と同様に、ディスク制御部B72はFC−AL B42経由で直接にエンクロージャサービス部B52にバイパス解除の指示を送るようにしても良い。
【0063】
その後、ディスク制御部B72は、制御部間通信手段100によりホスト制御部A81、B82および他のディスク制御部A71に対して、ループBの仮縮退状態を解除し通常状態に遷移したことを通知(仮縮退解除通知)する(S1098)。これにより、ループA、Bの双方を使用してシステムの運用が継続される(S1099)。つまり、仮縮退状態を解除したディスク制御部B72は、通常機能としてのディスク処理を再開する。仮縮退解除通知を受けたディスク制御部A71は、仮縮退解除したディスク制御部B72が受け持つディスクに対する処理を停止する。ループBの仮縮退解除通知を受けたホスト制御部A81、B82は、上記のディスクの受け持ちに応じたディスク制御部A71、B72に対してディスク処理を要求する。なお、故障と判断されたディスクは、例えばディスクアレイ装置1に接続された保守端末(図示せず)や、あるいはホストパスで接続されたディスクアレイ管理用ホスト(図示せず)などにより保守員や使用者などに、交換が必要であることが通知される。
【0064】
ステップS1094、S1097で説明した上述したループ診断処理の具体例はあくまでも一例であり、本発明は上記具体例に限定されるものではない。例えば、ステップS1094における診断方法として、例えば半分のディスクを一度にFC−AL A41に接続し、ループ異常が発生していなければ、残りのディスクの半分を一度にFC−AL A41に接続するというように、一度に複数のディスクを接続するようにしても良い。この場合、複数のディスクを接続した際にループ異常が再発したら、その中に故障ディスクが存在するので、それら複数のディスクの中から故障ディスクを特定する処理を行えば良い。ステップS1097においても同様のループ診断方法を用いることができる。
【0065】
また、実際にはディスク1台の故障で両ループが異常になるケースが多いので、ステップS1097では、ステップS1094の診断結果を考慮し、故障ディスクと判定されたディスク以外のディスク全てを一度にFC−AL B42に接続し、ループ異常が再発しないかどうかを調べるようにしても良い。但し、希ではあるが2台のディスクが1ループづつ同時に故障して2ループ異常が発生する場合もあり、その場合にはループ異常が再発するので、更に診断を続けてFC−AL B42側のループ異常の原因である故障ディスクを特定する。
【0066】
【発明の他の実施の形態】
以上の実施の形態では、エンクロージャサービス部A51、B52のハートビート監視部A511、B521が双方のループ異常を検出したとき、ループ接続制御部A513、B523によって、FC−AL A41から全ディスク21〜2Nを切り離すと共に、FC−AL B42から全ディスク21〜2Nを切り離すことで、双方のループの異常を解消させた。しかし、本発明はこれに限定されず、何れか一方のFC−AL、例えばFC−AL B42から全ディスク21〜2Nを切り離し、他方のFC−AL A41にはディスクを接続したままにしておいても良い。この場合、FC−AL B42のループ異常は解消するが、FC−AL A41のループ異常は解消しない。この状態は、1つのループでのみ異常が発生した場合と類似した状態であり、図6のステップS1045で説明したと同様な方法で、ループ異常のないFC−AL B42経由でエンクロージャサービス部51をディスク制御部A71からアクセスすることで、FC−AL A41に接続されたディスクの中から故障ディスクを特定するループ診断を実施できる。そして、ループ診断で故障と判断された故障ディスクをFC−AL A41から切り離せば、FC−AL A41のループ異常が解消するので、ステップS1045と同様な方法で、他方のFC−AL B42のループ診断を実施すれば良い。
【0067】
以上の実施の形態では、ディスク制御部A71、B72に1つのFC−ALが接続されたディスクアレイ装置に本発明を適用したが、本発明はこれに限定されず、ディスク制御部A71、B72に複数のFC−ALが接続されたディスクアレイ装置に対しても本発明は適用可能である。図9にその一例を示す。
【0068】
図9に示すディスクアレイ装置は、ディスクユニット部5とそれと同様なディスクユニット部5Xとの2つのディスクユニット部を備え、双方のディスクユニット部のFC−AL A41がディスク制御部A71に接続され、双方のディスクユニット部のFC−AL B42がディスク制御部B72に接続されている。つまり、2個の独立したディスクユニット部5、5Xが並列にディスク制御部A71、B72に接続されている。ディスクユニット部5だけを備える図1のディスクアレイ装置では、ディスクユニット部5内のディスクを使ってディスクアレイを構成するが、図9のディスクアレイ装置では、それだけでなく、例えばディスクユニット部5のディスク21とディスクユニット部5Xのディスク21とでRAID1のディスクアレイを構成する如く、異なるディスクユニット部のディスクを組み合わせてディスクアレイを構成することができる。この場合、何れか一方のディスクユニット部で2重ループ異常が発生しても、もう一方のディスクユニット部でディスク処理を継続することができるため、信頼性をより高めることができる。なお、各ディスクユニット部5、5Xにおいて2重ループ異常が発生した場合の処理は基本的に図1のディスクアレイ装置と同じである。
【0069】
以上の実施の形態では、1つのFC−ALにエンクロージャサービス部が1つだけ接続されたディスクアレイ装置に本発明を適用したが、本発明はこれに限定されず、1つのFC−ALに複数のエンクロージャサービス部が接続されたディスクアレイ装置に対しても本発明は適用可能である。その一例を図10に示す。
【0070】
図10に示すディスクアレイ装置は、ディスクユニット部5と同様なディスクユニット部5Y(増設装置)によって1つのFC−AL A41、B42に接続するディスクの数を拡張している。この場合、ディスクユニット部5を含む基本装置とディスクユニット部5Yを含む増設装置毎にそれぞれの1ループ当り1つのエンクロージャサービス部が設けられるので、ディスクユニット部5に存在する各ループのエンクロージャサービス部51、52同士、ディスクユニット部5Y毎に存在する各ループのエンクロージャサービス部51、52同士をインタフェース130で互いに通信可能に接続する。また、ディスク制御部A71、B72からのハートビートコマンドは、同じループに接続された全てのエンクロージャサービス部に対して送信され、双方のループ異常を検出したときに各エンクロージャサービス部は自身が設けられている基本装置あるいは増設装置内のループ部分に接続されたディスク全てを切り離す。
【0071】
以上本発明の実施の形態について説明したが、本発明は以上の実施の形態にのみ限定されず、その他各種の付加変更が可能である。例えば、エンクロージャサービス部はハートビートコマンドの受信が途絶えたことでループ異常を検出したが、ディスク制御部におけるループ異常検出機能と同様な機能をエンクロージャサービス部に設けるようにしても良い。
【0072】
【発明の効果】
以上説明したように本発明によれば以下のような効果が得られる。
【0073】
ループへのデバイスの接続、切り離しを行うループ接続切替手段を制御するエンクロージャサービスデバイス等の制御デバイスがそのループに直接接続されたループ状インタフェースを多重化したシステムにおいて、全てのループ状インタフェースが同時にループ障害になった場合でも、デバイスの切り離し、再接続が行えることである。その理由は、多重化された全てのループ状インタフェースが異常になると、それが制御デバイスで検出され、制御デバイスが自律的にループ接続切替手段を制御して少なくとも1つのループ状インタフェースに接続された全てのデバイスをループから切り離し、少なくとも1つのループ状インタフェースのループ異常を解消して、そのループに接続された制御デバイスへのアクセス、この制御デバイス経由による他方のループに接続された制御デバイスへのアクセスが可能になるからである。
【0074】
ループへのデバイスの接続、切り離しを行うループ接続切替手段を制御するエンクロージャサービスデバイス等の制御デバイスがそのループに直接接続されたループ状インタフェースを多重化したシステムにおいて、全てのループ状インタフェースが同時にループ障害になった場合でも、ループ異常の原因となる故障デバイスを特定するループ診断が実施できることである。その理由は、ループ診断を実施するためには、ループ状インタフェースに接続されたデバイスの切り離し、再接続が必要であるが、このデバイスの切り離し、再接続が可能になるからである。
【0075】
ループへのデバイスの接続、切り離しを行うループ接続切替手段を制御するエンクロージャサービスデバイス等の制御デバイスがそのループに直接接続されたループ状インタフェースを多重化したシステムにおいて、全てのループ状インタフェースが同時にループ障害になった場合でも、システムが完全に停止したままになるのを防止できることである。その理由は、上述したようにループ診断が可能となり、故障部品をループから除去してシステムの運用を再開できるからである。
【図面の簡単な説明】
【図1】本発明を適用したディスクアレイ装置の一例を示すブロック図である。
【図2】本発明を適用したディスクアレイ装置におけるエンクロージャサービス部の内部構成例を示すブロック図である。
【図3】本発明を適用したディスクアレイ装置におけるディスク制御部の内部構成例を示すブロック図である。
【図4】ディスクアレイ装置のディスク制御部がループの異常を検出したときの処理例を示すフローチャートである。
【図5】ディスクアレイ装置のディスク制御部がループの異常を検出したときの別の処理例を示すフローチャートである。
【図6】片系リンク障害対策処理の一例を示すフローチャートである。
【図7】故障ディスクを切り離し、正常ディスクだけを接続したディスクアレイ装置の状態を示す図である。
【図8】両系リンク障害対策処理の一例を示すフローチャートである。
【図9】本発明を適用したディスクアレイ装置の別の例を示すブロック図である。
【図10】本発明を適用したディスクアレイ装置の更に別の例を示すブロック図である。
【符号の説明】
1…ディスクアレイ装置
5、5X、5Y…ディスクユニット部
6…キャッシュ部
21〜2N…FC−ALディスク
31…ループ接続切替部A
32…ループ接続切替部B
41…FC−AL A
42…FC−AL B
51…エンクロージャサービス部A
52…エンクロージャサービス部B
71…ディスク制御部A
72…ディスク制御部B
81…ホスト制御部A
82…ホスト制御部B
91…ホストA
92…ホストB
100…制御部間通信手段
110…内部バス
121…ホストインタフェースA
122…ホストインタフェースB
130…インタフェース
511…ハートビート監視部A
512…ハートビート受信部A
513…ループ接続制御部A
521…ハートビート監視部B
522…ハートビート受信部B
523…ループ接続制御部B
531…CPU
532…バス
533…インタフェースチップ
534…メモリ
535…通信部
536…切替部
710…仮縮退制御部A
711…ループ診断部A
712…ハートビート送信部A
720…仮縮退制御部B
721…ループ診断部B
722…ハートビート送信部B
731…CPU
732…バス
733…インタフェースチップ
734…メモリ
735…通信部
736…データ転送部

Claims (32)

  1. 多重化されたループ状インタフェースを有し、前記各ループ状インタフェースへのデバイスの接続および切り離しを行うループ接続切替手段を制御する制御デバイスが前記各ループ状インタフェースに接続され、且つ、前記制御デバイスが相互に通信するためのインタフェースを備えたシステムの障害解析方法であって、前記制御デバイスにおいて全ての前記ループ状インタフェースが異常となったことを検出したときに前記ループ接続切替手段を制御して少なくとも1つの前記ループ状インタフェースに接続された全ての前記デバイスを切り離す処理を行うことを特徴とするループ状インタフェースの障害解析方法。
  2. 前記制御デバイスは、自デバイスが接続されるループ状インタフェースを通じて定期的に送られてくるコマンドの受信が途絶えたことを検出して前記インタフェースを通じて他の前記制御デバイスに通知し、全ての前記制御デバイスにおいて前記コマンドの受信が途絶えたことが検出されたときに全ての前記ループ状インタフェースが異常となったことを検出することを特徴とする請求項1記載のループ状インタフェースの障害解析方法。
  3. 接続された全ての前記デバイスが切り離されてループ異常が解消した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施することを特徴とする請求項1記載のループ状インタフェースの障害解析方法。
  4. 多重化されたループ状インタフェースの1つのループ状インタフェースを通じて前記デバイスおよび前記制御デバイスに接続された制御装置が、多重化されたループ状インタフェースの全ループ異常時、自制御装置が接続されたループ状インタフェースのループ異常が一定時間内に解消するか否かを判定し、一定時間内にループ異常が解消した場合には前記制御デバイスに全ての前記デバイスの切り離しを行ったか否かを問い合せ、前記制御デバイスによって全ての前記デバイスの切り離しが行われていたときに前記ループ診断手段によるループ診断を含む両系リンク障害対策処理を実行することを特徴とする請求項3記載のループ状インタフェースの障害解析方法。
  5. 前記一定時間は、多重化されたループ状インタフェースに全ループ異常が発生した場合に前記制御デバイスが全ての前記デバイスの切り離しを行うのに要する時間より若干長い時間に設定されていることを特徴とする請求項4記載のループ状インタフェースの障害解析方法。
  6. 前記ループ診断で故障と判断された前記デバイスを前記ループ状インタフェースから切り離して当該ループ状インタフェースの利用を再開させることを特徴とする請求項3乃至5の何れか1項に記載のループ状インタフェースの障害解析方法。
  7. 利用を再開した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施することを特徴とする請求項6記載のループ状インタフェースの障害解析方法。
  8. 前記ループ状インタフェースがFC−AL(Fibre Channel Arbitrated Loop)であることを特徴とする請求項1乃至7の何れか1項に記載のループ状インタフェースの障害解析方法。
  9. 前記デバイスがハードディスク装置であり、前記制御デバイスがエンクロージャサービスデバイスであることを特徴とする請求項1乃至7の何れか1項に記載のループ状インタフェースの障害解析方法。
  10. 多重化されたループ状インタフェースを有し、前記各ループ状インタフェースへのデバイスの接続および切り離しを行うループ接続切替手段を制御する機能を有する制御デバイスが前記各ループ状インタフェースに接続されたシステムにおいて、前記制御デバイスは相互に通信するためのインタフェースを備え、且つ、全ての前記ループ状インタフェースが異常となったことを検出したときに前記ループ接続切替手段を制御して少なくとも1つの前記ループ状インタフェースに接続された全ての前記デバイスを切り離す処理を行う手段を備えたことを特徴とするループ状インタフェースの障害解析機能を有するシステム。
  11. 前記制御デバイスは、自デバイスが接続されるループ状インタフェースを通じて定期的に送られてくるコマンドの受信が途絶えたことを検出して前記インタフェースを通じて他の前記制御デバイスに通知する手段を備え、全ての前記制御デバイスにおいて前記コマンドの受信が途絶えたことが検出されたときに全ての前記ループ状インタフェースが異常となったことを検出するものであることを特徴とする請求項10記載のループ状インタフェースの障害解析機能を有するシステム。
  12. 接続された全ての前記デバイスが切り離されてループ異常が解消した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するループ診断手段を備えたことを特徴とする請求項10記載のループ状インタフェースの障害解析機能を有するシステム。
  13. 多重化されたループ状インタフェースの1つのループ状インタフェースを通じて前記デバイスおよび前記制御デバイスに接続された制御装置を備え、該制御装置は、多重化されたループ状インタフェースの全ループ異常時、自制御装置が接続されたループ状インタフェースのループ異常が一定時間内に解消するか否かを判定し、一定時間内にループ異常が解消した場合には前記制御デバイスに全ての前記デバイスの切り離しを行ったか否かを問い合せ、前記制御デバイスによって全ての前記デバイスの切り離しが行われていたときに前記ループ診断手段によるループ診断を含む両系リンク障害対策処理を実行するものであることを特徴とする請求項12記載のループ状インタフェースの障害解析機能を有するシステム。
  14. 前記一定時間は、多重化されたループ状インタフェースに全ループ異常が発生した場合に前記制御デバイスが全ての前記デバイスの切り離しを行うのに要する時間より若干長い時間に設定されていることを特徴とする請求項13記載のループ状インタフェースの障害解析機能を有するシステム。
  15. 前記ループ診断手段は、前記ループ診断で故障と判断された前記デバイスを前記ループ状インタフェースから切り離して当該ループ状インタフェースの利用を再開させるものであることを特徴とする請求項12乃至14の何れか1項に記載のループ状インタフェースの障害解析機能を有するシステム。
  16. 前記ループ診断手段は、利用を再開した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するものであることを特徴とする請求項15記載のループ状インタフェースの障害解析機能を有するシステム。
  17. 前記ループ状インタフェースがFC−AL(Fibre Channel Arbitrated Loop)であることを特徴とする請求項10乃至16の何れか1項に記載のループ状インタフェースの障害解析機能を有するシステム。
  18. 前記デバイスがハードディスク装置であり、前記制御デバイスがエンクロージャサービスデバイスであることを特徴とする請求項10乃至16の何れか1項に記載のループ状インタフェースの障害解析機能を有するシステム。
  19. 多重化されたループ状インタフェースの1つのループ状インタフェースに接続され、接続された前記ループ状インタフェースへのデバイスの接続および切り離しを行うループ接続切替手段を制御する機能を有するエンクロージャサービスデバイスにおいて、他のループ状インタフェースに接続された他のエンクロージャサービスデバイスと相互に通信するためのインタフェースを備え、且つ、全ての前記ループ状インタフェースが異常となったことを検出したときに前記ループ接続切替手段を制御して前記ループ状インタフェースに接続された全ての前記デバイスを切り離す処理を行う手段を備えたことを特徴とするエンクロージャサービスデバイス。
  20. 自デバイスが接続されるループ状インタフェースを通じて定期的に送られてくるコマンドが途絶えたことを検出して前記インタフェースを通じて他の前記エンクロージャサービスデバイスに通知する手段を備え、全ての前記エンクロージャサービスデバイスにおいて前記コマンドが途絶えたことが検出されたときに全ての前記ループ状インタフェースが異常となったことを検出するものであることを特徴とする請求項19記載のエンクロージャサービスデバイス。
  21. 前記ループ状インタフェースがFC−AL(Fibre Channel Arbitrated Loop)であることを特徴とする請求項19または20に記載のエンクロージャサービスデバイス。
  22. 前記デバイスがハードディスク装置であることを特徴とする請求項19または20に記載のエンクロージャサービスデバイス。
  23. 多重化されたループ状インタフェースの1つのループ状インタフェースを通じて、1以上のデバイスと、前記デバイスのループ状インタフェースへの接続および切り離しを行うループ接続切替手段を制御する機能を有する制御デバイスとに接続された制御装置において、多重化されたループ状インタフェースの全てが異常となったことを検出した前記制御デバイスによって少なくとも1つの前記ループ状インタフェースに接続された全ての前記デバイスが切り離されたという事象を確認する手段と、接続された全ての前記デバイスが切り離されてループ異常が解消した前記ループ状インタフェースに接続された前記制御デバイスを経由して、前記制御デバイス間を相互に通信可能に接続するインタフェースを通じて、他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するループ診断手段を備えたことを特徴とする制御装置。
  24. 前記ループ診断手段は、前記ループ診断で故障と判断された前記デバイスを前記ループ状インタフェースから切り離して当該ループ状インタフェースの利用を再開させるものであることを特徴とする請求項23記載の制御装置。
  25. 前記ループ診断手段は、利用を再開した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するものであることを特徴とする請求項24記載の制御装置。
  26. 前記ループ状インタフェースがFC−AL(Fibre Channel Arbitrated Loop)であることを特徴とする請求項23乃至25の何れか1項に記載の制御装置。
  27. 前記デバイスがハードディスク装置であり、前記制御デバイスがエンクロージャサービスデバイスであることを特徴とする請求項23乃至25の何れか1項に記載の制御装置。
  28. 多重化されたループ状インタフェースの1つのループ状インタフェースに接続され、接続された前記ループ状インタフェースへのデバイスの接続および切り離しを行うループ接続切替手段を制御する機能を有し、且つ、他のループ状インタフェースに接続された他のエンクロージャサービスデバイスと相互に通信するためのインタフェースを備えたエンクロージャサービスデバイスを構成するコンピュータを、全ての前記ループ状インタフェースが異常となったことを検出する検出手段、該検出手段による検出時に前記ループ接続切替手段を制御して前記ループ状インタフェースに接続された全ての前記デバイスを切り離す処理を行う手段、として機能させるエンクロージャサービスデバイス用プログラム。
  29. 前記検出手段は、自デバイスが接続されるループ状インタフェースを通じて定期的に送られてくるコマンドが途絶えたことを検出して前記インタフェースを通じて他の前記エンクロージャサービスデバイスに通知する手段を備え、全ての前記エンクロージャサービスデバイスにおいて前記コマンドが途絶えたことが検出されたときに全ての前記ループ状インタフェースが異常となったことを検出するものであることを特徴とする請求項28記載のエンクロージャサービスデバイス用プログラム。
  30. 多重化されたループ状インタフェースの1つのループ状インタフェースを通じて、1以上のデバイスと、前記デバイスのループ状インタフェースへの接続および切り離しを行うループ接続切替手段を制御する機能を有する制御デバイスとに接続された制御装置を構成するコンピュータを、多重化されたループ状インタフェースの全てが異常となったことを検出した前記制御デバイスによって少なくとも1つの前記ループ状インタフェースに接続された全ての前記デバイスが切り離されたという事象を確認する手段と、接続された全ての前記デバイスが切り離されてループ異常が解消した前記ループ状インタフェースに接続された前記制御デバイスを経由して、前記制御デバイス間を相互に通信可能に接続するインタフェースを通じて、他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するループ診断手段、として機能させる制御装置用プログラム。
  31. 前記ループ診断手段は、前記ループ診断で故障と判断された前記デバイスを前記ループ状インタフェースから切り離して当該ループ状インタフェースの利用を再開させるものであることを特徴とする請求項30記載の制御装置用プログラム。
  32. 前記ループ診断手段は、利用を再開した前記ループ状インタフェースに接続された前記制御デバイスを経由して他の前記ループ状インタフェースに接続された前記制御デバイスをアクセスして故障デバイスを特定するループ診断を実施するものであることを特徴とする請求項31記載の制御装置用プログラム。
JP2002257545A 2002-09-03 2002-09-03 ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム Expired - Fee Related JP3620527B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002257545A JP3620527B2 (ja) 2002-09-03 2002-09-03 ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
US10/652,482 US7302615B2 (en) 2002-09-03 2003-09-02 Method and system for analyzing loop interface failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002257545A JP3620527B2 (ja) 2002-09-03 2002-09-03 ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム

Publications (2)

Publication Number Publication Date
JP2004094774A JP2004094774A (ja) 2004-03-25
JP3620527B2 true JP3620527B2 (ja) 2005-02-16

Family

ID=31972995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002257545A Expired - Fee Related JP3620527B2 (ja) 2002-09-03 2002-09-03 ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム

Country Status (2)

Country Link
US (1) US7302615B2 (ja)
JP (1) JP3620527B2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7373546B2 (en) * 2004-07-22 2008-05-13 Dell Products L.P. Cluster network with redundant communication paths
US20060104206A1 (en) * 2004-11-18 2006-05-18 Bomhoff Matthew D Apparatus, system, and method for detecting a fibre channel miscabling event
JP4395766B2 (ja) 2005-03-30 2010-01-13 日本電気株式会社 障害解析システム及び方法並びにプログラム
JP4461485B2 (ja) * 2005-04-05 2010-05-12 株式会社ジェイテクト 分散制御装置
US7853821B2 (en) * 2006-04-17 2010-12-14 Hewlett-Packard Development Company, L.P. Identifying one or more storage devices causing a failure condition during discovery of storage devices
JP4799273B2 (ja) * 2006-05-25 2011-10-26 富士通株式会社 ストレージシステム及びループ異常時の自動復旧方法
US7486083B2 (en) * 2006-12-18 2009-02-03 Emc Corporation Managing system stability
US7861123B1 (en) * 2007-12-20 2010-12-28 Emc Corporation Managing loop interface failure
JP4685118B2 (ja) * 2008-01-30 2011-05-18 富士通株式会社 ストレージシステムおよびケーブル誤接続判定方法
JP4542163B2 (ja) * 2008-02-27 2010-09-08 富士通株式会社 ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
JP2009211510A (ja) * 2008-03-05 2009-09-17 Hitachi Ltd ディスクアレイ装置
US20090240853A1 (en) * 2008-03-21 2009-09-24 Rochester Institute Of Technology Method and apparatus for configuring a bus network in an asset management system
JP4571996B2 (ja) * 2008-07-29 2010-10-27 富士通株式会社 情報処理装置及び処理方法
JP5027311B2 (ja) * 2008-10-07 2012-09-19 株式会社日立製作所 障害が発生している物理記憶装置を検出するストレージシステム
US8139477B2 (en) * 2009-07-24 2012-03-20 International Business Machines Corporation Network element bypass in computing computer architecture
JP2011158971A (ja) * 2010-01-29 2011-08-18 Seiko Epson Corp 情報処理装置、通信装置、無線診断方法、および、プログラム
JP5617260B2 (ja) * 2010-01-29 2014-11-05 セイコーエプソン株式会社 情報処理装置
WO2011141961A1 (en) * 2010-05-12 2011-11-17 Hitachi, Ltd. Storage apparatus and method for controlling the same
US8769089B2 (en) 2011-11-15 2014-07-01 International Business Machines Corporation Distributed application using diagnostic heartbeating
US8756453B2 (en) 2011-11-15 2014-06-17 International Business Machines Corporation Communication system with diagnostic capabilities
US8903893B2 (en) 2011-11-15 2014-12-02 International Business Machines Corporation Diagnostic heartbeating in a distributed data processing environment
US8874974B2 (en) * 2011-11-15 2014-10-28 International Business Machines Corporation Synchronizing a distributed communication system using diagnostic heartbeating
US9244796B2 (en) 2011-11-15 2016-01-26 International Business Machines Corporation Diagnostic heartbeat throttling
US20130232377A1 (en) * 2012-03-01 2013-09-05 Hitachi, Ltd. Method for reusing resource and storage sub-system using the same
US10372364B2 (en) * 2016-04-18 2019-08-06 Super Micro Computer, Inc. Storage enclosure with daisy-chained sideband signal routing and distributed logic devices
WO2017214931A1 (en) * 2016-06-16 2017-12-21 Honeywell International Inc. Hardware assist mechanisms for alive detection of redundant devices

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6188668B1 (en) * 1998-05-01 2001-02-13 Emulex Corporation Automatic isolation in loops
JP2000347812A (ja) 1999-06-01 2000-12-15 Hitachi Ltd 情報処理装置およびディスクアレイ装置
JP2001167039A (ja) 1999-12-09 2001-06-22 Nec Corp ディスクアレイ装置
JP2001216206A (ja) 2000-02-01 2001-08-10 Nec Corp ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム
JP2001222385A (ja) * 2000-02-10 2001-08-17 Hitachi Ltd 記憶装置および情報処理システム
JP2002007077A (ja) 2000-06-21 2002-01-11 Nec Corp ディスクアレイ装置のループ診断システム及びその方法
JP3536829B2 (ja) * 2001-06-14 2004-06-14 日本電気株式会社 Fc−alシステムのリンク診断方法及び装置
US6990530B1 (en) * 2001-06-29 2006-01-24 Sun Microsystems, Inc. Method and apparatus for fault isolation on network loops
GB2377140B (en) * 2001-06-29 2005-01-19 Ibm Method and apparatus for recovery from faults in a loop network
US7085958B2 (en) * 2003-01-17 2006-08-01 International Business Machines Corporation System and method for isolating a faulty switch, storage device or SFP in a daisy-chained configuration

Also Published As

Publication number Publication date
JP2004094774A (ja) 2004-03-25
US20040042408A1 (en) 2004-03-04
US7302615B2 (en) 2007-11-27

Similar Documents

Publication Publication Date Title
JP3620527B2 (ja) ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
EP1712997B1 (en) Disk array device and control method therefor
EP2088508B1 (en) Storage subsystem and control method thereof
JP4039794B2 (ja) マルチパス計算機システム
US7853767B2 (en) Dual writing device and its control method
JP3536829B2 (ja) Fc−alシステムのリンク診断方法及び装置
US7236454B2 (en) Loop diagnosis system and method for disk array apparatuses
WO2011141963A1 (en) Information processing apparatus and data transfer method
JP2007280258A (ja) 記憶制御装置
JP2004199551A (ja) ストレージシステム及び障害ストレージ装置の切り離し方法
US8015434B2 (en) Management apparatus, storage system, and storage apparatus management method
US8145952B2 (en) Storage system and a control method for a storage system
JP2004088570A (ja) ネットワーク計算機システムおよび管理装置
JP3555047B2 (ja) 複合コンピュータシステム
JP4678384B2 (ja) リンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラム
JP2009110218A (ja) 仮想化スイッチおよびそれを用いたコンピュータシステム
JP2007334764A (ja) Nasシステムおよびnasシステムの情報処理方法
JP3232393B2 (ja) 分散処理システムのモジュール運転状態制御方法
JP5532687B2 (ja) 情報処理システム、情報処理システムの障害対応機構、及び情報処理システムの障害対応方法
US7509527B2 (en) Collection of operation information when trouble occurs in a disk array device
JPH0934852A (ja) クラスタシステム
JPH05224964A (ja) バス異常通知方式
KR100604552B1 (ko) 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법
JP2815730B2 (ja) アダプタ及びコンピュータシステム
JP2022036778A (ja) 監視システム、監視方法、プログラム、フォールトトレラントサーバ

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041108

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071126

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101126

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111126

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111126

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees