JP2008250929A - リンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラム - Google Patents

リンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラム Download PDF

Info

Publication number
JP2008250929A
JP2008250929A JP2007094895A JP2007094895A JP2008250929A JP 2008250929 A JP2008250929 A JP 2008250929A JP 2007094895 A JP2007094895 A JP 2007094895A JP 2007094895 A JP2007094895 A JP 2007094895A JP 2008250929 A JP2008250929 A JP 2008250929A
Authority
JP
Japan
Prior art keywords
disk
diagnosis
disk device
link failure
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007094895A
Other languages
English (en)
Other versions
JP4678384B2 (ja
Inventor
Masaya Suenaga
雅也 末永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007094895A priority Critical patent/JP4678384B2/ja
Publication of JP2008250929A publication Critical patent/JP2008250929A/ja
Application granted granted Critical
Publication of JP4678384B2 publication Critical patent/JP4678384B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】リンク診断の途中で障害が復旧し障害診断の中断が起きても、再開後の障害診断を効率良く実行し得るようにしたFC−ALディスクアレイ・システム等を提供する。
【解決手段】複数のディスク装置30,・・を接続するFC−ALとディスクアダプタ装置10とを含んで構成されるディスクアレイ・システムにおいて、アダプタ装置10が、リンク障害監視する FC-AL制御部14と、リンク障害発生時に所定の診断順序に従ってディスク装置30,・・をFC−ALから順次切り離しながら障害ディスクを探索するディスク診断制御部16と、障害ディスクが特定できないまま障害診断が中断になる場合で当該診断の再開時に必要とする診断開始ディスク装置を特定するための中断位置情報を登録する登録部15とを備え、前記診断ディスク制御部16が、障害診断再開に際し前記登録部15から中断位置情報を取得して診断再開時のディスク装置を特定するようにした。
【選択図】図1

Description

本発明は、ディスクアレイ・システム等に係り、特に、ディスクアレイ用の障害診断機能を備えたリンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラムに関する。
従来より、コンピュータとストレージ装置等との接続やディスクアレイを接続する方式の1つとして、ファイバーチャネル(FC:Fibre Channel )が、又その形態の1つとしてFC−AL(Fibre Channel−Arbitrated Loop )が知られている。
論理的には、リング状(ループ)をなす情報伝送媒体であるファイバを共有するため、調停又は仲介(Arbitration)と呼ばれるアクセス制御方式を用いてファイバの利用効率を高めている。尚、このファイバーチャネルを含め伝送路を抽象化してリンクと呼び、このリンクに接続される磁気ディスク装置等の各種機器を、抽象化してノード(ノード装置)と呼ぶことがある。
FC−ALは、FC(ファイバーチャネル)ポートの送信部と受信部を複数のノードにわたって数珠つなぎさせたリング状(ループ状)の接続形態をとる。このため、FC−AL接続で構成されたシステムでは、何れかのノードに障害が発生するとシステム全体の動作が停止してしまう恐れがある。そこで、各ノード毎にポートバイパス回路を設けておいて、障害診断手段を使って障害ノードを特定し、その障害ノードをリンクから切り離せる構成としている。
FC−AL接続されているシステムでリンク障害が発生した場合、従来は例えばノード番号の昇順に順次ノードをリンクから切り離し、その切り離しによってリンク障害が回復すれば切り離したノードが被疑ノードになり、更にそのノードを再度リンクに接続してリンク障害が起きることを確認することで、障害を発生させている障害ノードを探索診断していた(例えば特許文献1)。このような従来のリンク診断方法でも、図8(A)に示すように、リンク障害が継続している期間が、リンク診断(リンク探索ともいう)に必要な期間よりも長い場合には、最終的に障害ノード装置を特定できるので特に問題は生じなかった。
特開2001−216206号公報
しかしながら、この従来例における診断方法では、各ノードを順次切り離し、その度にリンク障害が回復したかどうかをチェックするため相当な時間がかかり、多数のノードを有するシステムでは、障害を発生させている被疑ノードの位置によっては、探索に多くの時間がかかる場合もある。そのため、図8(B)に示すように、リンク診断中にリンク障害が何らかの原因により復旧し正常に戻ってしまうと診断は中断せざるを得ず、障害ノードが特定できない場合が生じるという問題がある。また、障害が間歇的性質を有する場合などは、診断を繰り返してもそのたびに診断が中断される事態になり、被擬ノード装置が特定できず、何度も診断が繰り返されてしまうという問題もある。
本発明は、上述の問題に鑑み、リンク診断の途中で障害ノードが特定できないまま何らかの原因によりリンク障害が正常回復した場合その他の理由から障害診断を中断した場合には、その障害再発に対してリンク診断を迅速に且つ効率的に再開し得る保守性に優れたリンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラムを提供することを、その目的とする。
上記課題を解決するため、本発明に係るリンク障害診断方法では、FC−AL接続された複数のディスク装置の何れかにリンク障害が発生した場合、当該複数のディスク装置の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置を前記FC−ALから順次切り離してリンク障害が回復するか否かを判定するディスク診断工程と、前記障害ディスク装置が特定できないままリンク障害が正常回復して前記診断工程が実行不要になった場合に,診断再開時に最初に診断を開始すべきディスク装置を特定するための中断位置情報を,予め装備したディスクアダプタ装置に登録する中断位置情報登録工程と、前記診断工程の再開に際し、前記登録された中断位置情報を取得しこれに基づいて診断を始めるべき最初のディスク装置を特定する診断ディスク特定工程と、を備えるという構成を採っている(請求項1)。
このため、障害診断中に何らかの原因によりリンク障害が回復して診断が中断される場合にも、その診断再開時には、既に登録されている中断位置情報に基づいてディスク装置を特定し障害診断を開始するようにしたので、未診断のディスクに合わせて診断を再開することができ、最終的には障害ディスク装置を迅速に且つ効率よく開始し得るという保守性に優れた診断方法を提供できる。診断時間に比較して障害期間が短い間歇的なリンク障害等に特に有効である。
ここで、前述したディスク診断工程における前記診断順序は、前記複数のディスク装置を予め設定された順番に従って順次切り離しを実行するように予め特定されたものであり、前記中断位置情報登録工程では、前記中断位置情報として、診断が完了した最後のディスク装置を中断位置情報として特定すると共にその番号を登録するようにしてもよい(請求項2)。
又、前述したディスク診断工程における前記診断順序は、前記ディスク装置の障害履歴の多い順番に従って順次切り離しを実行するように予め特定されたものであってもよい(請求項3)。更に、このディスク診断工程における前記診断順序については、前記複数のディスク装置を2つのブロックに分け、同一ブロックに属するディスク装置はすべて同時に切り離しを実施し、その中に障害ディスク装置が含まれていればリンク障害が回復するので更にそのブロックを2分して同様の方法を繰り返すことによって障害ディスク装置を特定するように構成しておよい(請求項4)。
これにより、通常の整理した順に順次バイパスする方式に比べて格段に障害探索速度が速くなるという利点がある。
更に、前述した複数の各ディスク装置が二重化されたFC−ALに二重FC(ファイバチャネル)ポートを備えて接続されている場合、前記中断位置情報登録工程では、前記一方の又は他方のFCポート側でリンク障害が発生した場合にはこれに対応して当該一方の又は他方のFCポート側に装備されたディスクアダプタ装置にそれぞれ前記中断位置情報を登録するように構成してもよい(請求項5)。
上記目的を達成するため、本発明にかかるディスクアレイ・システムは、複数のディスク装置と、これらをFCポートでループ状に接続するFC−ALと、このFC−ALと外部のホストコンピュータとを接続するディスクアダプタ装置とを有し、このディスクアダプタ装置が、FC−AL接続された複数のディスク装置の何れかにリンク障害が発生した場合にこれを検知するFC−AL制御部と、前記複数のディスク装置の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置をFC−ALから順次切り離すポートバイパス制御部とを備えて成る冗長構成のディスクアレイ・システムとし、この内、前述したFC−AL制御部を、前記各ディスク装置がFC−ALから順次切り離された場合にリンク障害が回復するか否かを監視するリンク障害監視機能と、障害ディスク装置が特定できないまま前記リンク障害が回復して前記リンク障害監視機能による障害回復有無の監視が実行不要となった場合に,その後の診断再開に際し最初に診断を開始すべきディスク装置を特定するための位置情報を,予め装備した位置情報登録部に登録する位置情報登録制御機能とを備えた構成とし、更に、前記リンク障害の診断再開に際しては前記位置情報登録部に登録された中断位置情報に基づいて診断を始めるべき最初のディスク装置を特定する診断ディスク制御部を、前記FC−AL制御部に併設する、という構成を採っている(請求項6)。
このため、これによると、障害診断中に何らかの原因によりリンク障害が回復して診断が中断される場合にも、その再開に際しては登録された中断位置情報に基づいて最初のディスク装置を特定されるので、例えば未診断のディスクに合わせて診断を再開することができ、障害診断を迅速に効率良く再開することが可能となる。
ここで、前述した診断ディスク制御部は、対応する前記各ディスク装置に対する診断動作の中断後の診断再開に際しては前記位置情報登録部に登録された中断位置情報を取得すると共に、これによって特定されているディスク装置が前記診断が完了した最後のディスク装置である場合には当該ディスク装置の次のディスク装置を診断再開後の最初のディスク装置として特定する機能を備えた構成としてもよい(請求項7)。
このため、本システムでは、再開時の診断は既に診断が終了しているディスク装置を除いて、まだ診断を受けていない残りのディスク装置の診断を開始するので、最終的には障害ディスク装置を効率よく特定できるという保守性に優れたディスクアレイ・システムを提供できる。かかる点において、診断時間に比較して障害期間が短い間歇的なリンク障害等に特に有効である。
又、前述したポートバイパス制御部には、前記各ディスク装置が備えているバイパス回路に対してその開閉動作を個別に指令する制御配線を敷設し、且つこのポートバイパス制御部が前記各ディスク装置をFC−ALから順次切り離すための動作制御を前記制御配線を介して実行するように構成してもよい(請求項8)。
上記目的を達成するため、本発明にかかるディスクアレイ・システムは、複数のディスク装置と、これらを二重化FCポートでループ状に接続する二重化FC−ALと、この一方と他方の各FC−ALと外部のホストコンピュータとを接続するディスクアダプタ装置とを有している。このディスクアレイ・システムは、前述した各ディスクアダプタ装置が、FC−AL接続された複数のディスク装置の何れかにリンク障害が発生した場合にこれを検知するFC−AL制御部と、前記複数のディスク装置の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置をFC−ALから順次切り離すポートバイパス制御部とを備えて成る冗長構成のディスクアレイ・システムであり、前記各ディスクアダプタ装置が備えているFC−AL制御部が、対応する前記各ディスク装置が対応するFC−ALから順次切り離された場合にリンク障害が回復するか否かを監視するリンク障害監視機能と、障害ディスク装置が特定できないまま前記リンク障害が回復し前記リンク障害監視機能による障害回復有無の監視が実行不要となった場合に,診断再開後に最初に診断を開始すべきディスク装置を特定できる位置情報を,予め装備した位置情報登録部に登録する位置情報登録制御機能とを備えている。
更に、前記リンク障害の診断再開に際して前記位置情報登録部に記憶された位置情報に基づいて診断を始めるべき最初のディスク装置を特定する診断ディスク制御部を、前記各FC−AL制御部に併設する、という構成を採っている(請求項9)。
このため、これによると、障害診断中に何らかの原因によりリンク障害が回復して診断が中断される場合にも、その再開に際しては、各ディスクアダプタ装置の何れの側であっても登録された中断位置情報に基づいて最初のディスク装置を特定されるので、例えば未診断のディスクに合わせて診断を再開することができ、障害診断を迅速に効率良く再開することが可能となる。
ここで、前述した各ディスク装置に対する障害診断の中断後の診断再開に際しては前記何れか一方の位置情報登録部に登録された中断位置情報を、当該位置情報登録部と同一FCポート側の診断ディスク制御部が取得するように構成すると共に、この取得した中断位置情報で特定されているディスク装置が前記診断が完了した最後のディスク装置である場合には当該ディスク装置の次のディスク装置を診断再開後の最初のディスク装置として特定する機能を、前記診断ディスク制御部が備えている、という構成としてもよい(請求項10)。
又、前述した各ディスク装置には前記二重FC(ファイバチャネル)ポートに対応して一方と他方のバイパス回路が各々装備され、前記一方と他方の各ポートバイパス制御部が、前記各バイパス回路を駆動制御して対応する各ディスク装置を前記FC−ALから順次切り離すバイパス回路駆動制御機能を、前記FC−AL制御部を介して実行するようにしてもよい(請求項11)。
上記目的を達成するため、本発明にかかるリンク障害診断プログラムでは、FC−AL接続された複数のディスク装置の何れかにリンク障害が発生した場合、当該複数のディスク装置の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置を前記FC−ALから順次切り離してリンク障害が回復するか否かを監視するディスク診断処理、前記障害ディスク装置が特定できないままリンク障害が正常回復して前記診断工程が実行不要になった場合に,その後の診断再開に際して必要な最初の診断対象となるディスク装置を特定するための中断位置情報を予め装備した位置情報登録部に登録する中断位置情報登録処理、および前記リンク障害の診断再開に際しては前記登録された中断位置情報に基づいて診断を始めるべき最初のディスク装置を特定する診断ディスク特定処理、をコンピュータに実行させるようにしたことを特徴とする(請求項12)。
ここで、前述した前記診断ディスク特定処理にあって、前記中断位置情報に特定されている情報が前記障害診断が完了した最後のディスク装置である場合には、前記リンク障害の診断再開に際して当該ディスク装置の次のディスク装置を診断再開後の診断を始めるべき最初のディスク装置として特定処理するように構成してもよい(請求項13)。
本発明は以上のように構成され機能するので、これによると、障害診断の中断に際しては、その後の診断再開に際して必要な最初の診断対象となるディスク装置を特定するための中断位置情報を登録するように構成したので、障害診断の中断後のリンク診断の再開時には直ちに診断対象の最初のディスク装置が特定されることとなり、これがため、リンク障害が継続している期間がリンク診断に必要な期間より短く又障害が間歇的に発生する場合でも、未診断のディスクに合わせて診断を再開することができ、障害再発に対してはリンク診断を迅速に且つ効率的に実行し得るという従来にない保守性に優れたリンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラムを提供することができる。
〔第1の実施形態〕
以下、本発明の第1実施形態を図1乃至6に基づいて説明する。
まず、図1は本実施形態に係る二重化されたFC−AL(Fibre Channel−Arbitrated Loop )ディスクアレイ・システムのブロック構成図である。
この図1に示すFC−ALディスクアレイ・システムは、2つのディスクアダプタ10,20と、複数のディスク装置30,40,50(説明の便宜のため3台の装置を示しているがこれに限られない)と、これらを接続する二系統のFC−AL(リンク)1,2とを備え、冗長構成されている。このため、本システムでは、一方のFC−ALがリンク障害になっても、残る他方のFC−ALがディスク装置相互間の情報転送路と制御線の両者の役割を果たし、通常の情報転送動作をしながら障害診断機能も果たす耐障害性のあるシステム構成となっている。
ディスク装置30,40,50は、FC(ファイバーチャネル)ポート(ポートA,B)を2つ備え、それぞれのポートA,BはFC−AL(リンク)1,2にそれぞれ接続され、リード/ライトなどのコマンドを処理することができるように構成されている。即ち、各ディスク装置30,40,50の一方のポート(ポートA)は、FC−AL(リンク)1を介してディスクアダプタ装置10と通信でき、また、各ディスク装置30,40,50の他方のポート(ポートB)は、もう一つのFC−AL(リンク)2を介してディスクアダプタ装置20と通信できる構成となっている。
更に、ディスク装置30,40,50は、ディスク本体30A,40A,50Aと、この各ディスク本体30A,40A,50Aの前記各ポート毎に(図1に示すように)バイパス回路32,33,42および43,52,53を備えており、これにより、ディスクアダプタ装置10,20からFC−AL1及び2を介して供給されるバイパス指示(ディスク装置をFC−ALから切り離すこと)やバイパス解除指示(切り離したディスク装置をFC−ALに再接続すること)に基づいて、ディスク本体30A,40A,50AをFC−AL1及び2から切り離したり接続し得るように構成されている。
ポートA側のバイパス回路32,42,52とポートB側のバイパス回路33,43,53とは相互に通信ができるように構成されている。符号Sはこの場合の通信回線を示す。これにより、一方のリンクに異常が発生して通信できない場合でも、他方のリンクから一方のリンク側のバイパス回路の制御を行えるようになっている。例えば、FC−AL1(ポートA)側が障害時には、ポートA側の各バイパス回路32,42,52は、ディスクアダプタ20がFC−AL2(ポートB)を通じて制御し、FC−AL2(ポートB)が障害になると、ポートB側の各バイパス回路33,43,53は、ディスクアダプタ10がFC−AL1(ポートA)を通じて制御する。
前述したディスクアダプタ装置10,20は、図示しないホストコンピュータとディスク装置30,40,50との間の情報転送機能と共に障害診断装置としての機能も併せ備えている。このディスクアダプタ装置10,20は、それぞれ診断制御手段としての機能を有するMPU11,21、アダプタ間通信制御部12,22、ポートバイパス制御部13,23、FC−AL制御部14,24、中断位置情報登録部15,25及び診断ディスク制御部16,26を備えたコントローラである。
即ち、前述した各ディスクアダプタ装置10,20は、その要部として、FC−AL接続された複数のディスク装置30,40,50の何れかにリンク障害が発生した場合にこれを検知するFC−AL制御部14,24と、前記複数のディスク装置30,40,50の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置30,40,50をFC−ALから順次切り離すポートバイパス制御部13,23とを備えている。
又、上述した各FC−AL制御部14,24は、対応する前記各ディスク装置30,40,50が対応するFC−AL1又は2から順次切り離された場合にリンク障害が回復するか否かを監視するリンク障害監視機能と、障害ディスク装置が特定できないまま前記リンク障害が回復して前記リンク障害監視機能による障害回復有無の監視が実行不要となった場合に,その後の診断再開に際し最初に診断を開始すべきディスク装置30,40,50を特定するための位置情報を,予め装備した対応する位置情報登録部15,25に登録する位置情報登録制御機能とを備えている。
更に、前述したリンク障害の診断再開に際しては前記位置情報登録部15,25に記憶された位置情報に基づいて診断を始めるべき最初のディスク装置30,40,50を特定する診断ディスク制御部16,26が、前記各FC−AL制御部14,24にそれぞれ併設されている。
このため、これによると、障害診断中に何らかの原因によりリンク障害が回復して診断が中断される場合にも、その再開に際しては、各ディスクアダプタ装置10,20の何れの側であっても登録された中断位置情報に基づいて最初のディスク装置を特定されるので、例えば未診断のディスクに合わせて診断を再開することができ、障害診断を迅速に効率良く再開することが可能となる。
ここで、本実施形態では、前述した各ディスク装置30,40,50に対する障害診断の中断後の診断再開に際しては前記何れか一方の位置情報登録部15又は25に登録された中断位置情報を、当該位置情報登録部15,25と同一FCポート1,2側の診断ディスク制御部16,26が取得するように構成すると共に、この取得した中断位置情報で特定されているディスク装置が前記診断が完了した最後のディスク装置である場合には当該ディスク装置の次のディスク装置を診断再開後の最初のディスク装置として特定する機能を、前記診断ディスク制御部16,26が備えて構成されている。
又、前述した各ディスク装置30,40,50には前記二重FC(ファイバチャネル)ポート1,2に対応して一方と他方のバイパス回路32,42,52,及び33,43,53が各々装備され、前記一方と他方の各ポートバイパス制御部13,23が、前記各バイパス回路32,42,52,及び33,43,53を駆動制御して対応する各ディスク装置30,40,50を前記FC−AL1又は2から順次切り離すバイパス回路駆動制御機能を、前述したFC−AL制御部14,24を介して実行するように構成されている。
以下、これを更に詳述する。
まず、前述した一方のディスクアダプタ装置10と他方のディスクアダプタ装置20の各構成要素は、それぞれ同一に構成され同一の機能を備えている。このため、このディスクアダプタ装置10,20の各構成要素の説明にあっては、ディスクアダプタ装置10のものについて説明する。
まず、前述したFC−AL制御部14は、各ディスク装置30,40,50へのアクセスを実際に行なう情報転送機能を担うほか、前述したようにリンク障害監視部としてリンク障害を監視し検出する機能を有している。即ち、FC−AL制御部14は、FC−AL(リンク)1,2を介して各ディスク装置30,40,50にアクセスし、このアクセスしたディスク装置30,40,又は50からI/Oエラー情報が供給された場合、アクセスしたディスク装置を特定するディスク識別情報とI/Oエラーが発生した旨の情報とを、MPU11へ供給する。
また、このFC−AL制御部14は、ディスク装置30,40,50に対して各種のコマンド(I/O要求等)を供給した後、そのコマンドに対するディスク装置30,40,又は50からの応答が予め設定した時間内に得られない場合には、ディスク装置30,40,又は50を特定するディスク識別情報と転送タイムアウトが発生した旨の情報とをMPU11へ供給する機能を備えている。
更に、このFC−AL制御部14は、前述したようにFC−ALリンクのリンク障害を監視し、リンク障害を発生させたディスク装置30,40,又は50が特定された場合は、そのディスク装置30,40,又は50のディスク識別情報とリンク障害が発生した旨の情報とをMPU11へ供給する機能を備えている。
又、アダプタ間通信制御部12は、両ディスクアダプタ装置10,20相互間での通信を制御する部分である。このアダプタ間通信制御部12は、リンク障害の診断を行うに際し、逆側のディスクアダプタ装置20又は10に各ディスク装置のバイパス(リンク上からあるFC−ALディスクを切り離すこと)を指示したり,診断中に受けたI/Oを逆側のディスクアダプタ装置20又は10へ依頼するときなどに使用される。
ポートバイパス制御部13は、FC−ALを制御線として使用すると共に当該FC−AL(現実にはFC−AL1とFC−AL制御部14)を介して、各ディスク装置30,40,又は50毎にあるバイパス回路32,33,42,又は43,52,53の動作を制御し、特定のディスク装置30,40,又は50をバイパスしてリンク1又は2から切り離したり、バイパスを解除して切り離したディスク装置30,40,又は50をリンク1又は2に再接続する制御を行なう。
位置情報登録部15は、診断中断または診断終了時に、診断が終了した最後のディスク装置のディスク番号等の識別子を中断位置情報として登録する(記憶する)。
診断ディスク制御部16は,診断開始時に,中断位置情報を登録した中断位置情報登録部15に問い合わせ、それから診断を開始するためのディスク装置を特定するための情報として中断位置情報であるディスク番号を取り込む。
MPU(マイクロプロセッサユニット)11は、診断制御手段としての機能を有し、前記ポートバイパス制御部13、前記FC−AL制御部14、診断ディスク制御部16等と情報の送受を行ないながら、ディスクアダプタ装置全体の障害診断動作を含む動作を制御している。
次に、上記第1実施形態におけるFC−ALディスクアレイ・システムの動作を図2乃至図6に基づいて説明する。
ここで、図2は、ディスク装置30,40,又は50の何れかが原因となって片系(A側)リンク障害が発生した状態を示す図である。以下、このような場合について、リンク状態遷移図(図3乃至図5)及びリンク障害診断動作のフローチャート図(図6)を参照して説明する。
最初に、図3乃至図5に基づいて障害診断動作の概要を説明し、その後にその具体的な内容を説明する。
本第1の実施形態におけるFC−ALディスクアレイ・システムでは、先ず、FC−AL制御部でリンク障害を監視し、障害が検知されると、診断を開始すべきディスク装置を特定し、予め定められた診断順序に基づいて、順次リンクから切り離し(バイパス)、リンク障害が回復するか否かを監視し、回復すれば少なくともそのとき切り離したディスク装置に障害原因があったと一応推定する方法を用いている(ディスク診断工程)。このことを示したのが図3(A)であり、ディスクポートをリンクから順次切り離していき(ポートバイパス)、ディスク装置(#k)を切り離したとき、リンク障害が回復した状態を示す図である。
また、リンク障害(リンク異常)には、ディスク装置(ノード装置)に起因する障害と、それ以外のリンク(伝送経路)、ディスクアダプタ装置等に起因する障害があるので、全ディスク装置を切り離してもリンク障害が回復しなければ、リンク(伝送経路)等に起因する障害と判断し、本診断動作は終了する。
次に、このリンク障害の回復が、切り離したディスク装置以外の他の原因による障害回復でないことを確認するため、切り離したディスク装置を再度リンクに接続し(バイパス解除工程)、リンク障害が起きるか否かを監視する。図3(B)は、確認のため被疑ディスク(#k)のバイパス解除を実施した時、再びリンク障害が発生し被疑ディスクが確かにリンク障害の原因であると特定できた状態を示す図である。
被疑ディスク以外の切り離してきたディスクのバイパスを解除してリンクと再接続する。図3(C)は、再び障害確認されたディスクを切り離し(バイパス)、被疑ディスク以外のディスク装置のバイパスを解除(再接続)し、リンク障害回復を確認して診断終了になることを示した図である。なお、複数ディスク障害の時には当初のポートバイパス工程では被疑ディスクとされなかったディスクでリンク障害が発生するので、これも被疑ディスクとして再度バイパスする。
ここで、前述した図1にあって、中断位置情報登録部15,25および診断ディスク制御部16,26が無い場合に生じる不都合について、図4に基づいて説明する。
まず、ディスク装置30,40,又は50(実際にはディスク本体30A,40A,又は50A:以下、ここでは説明上同義にて使用する)の切り離し中に、正常なディスク装置の切り離しにもかかわらず、何らかの原因でリンク障害が回復する場合に生じるの問題点(従来技術の問題点)を、図4に基づいて説明する。
この場合、ディスク装置切り離し(バイパス)実施中にリンク障害が回復するので、最後にバイパスしたディスク装置が被疑ディスクと推定され(図4(A))、前述した他の原因による障害回復でないことを確認のため、バイパス解除(再接続)を行う。この場合は、リンク障害は発生していないため、被疑ディスク装置を特定できないまま診断は中断となる(図4(B))。再びリンク障害が生じた際、従来技術では予め設定された診断順序に従って最初のディスク装置から診断を始めるので、リンク障害が短期間に回復すると被疑ディスクが検出できないという事態になる場合がある(図4(C))。
これに対し、本実施形態に係るリンク診断動作では、正常ディスクをバイパス実施中にリンク障害が回復する場合にも、被疑ディスク装置が最終的に特定されることを図5に基づいて説明する。
図5(A)は、図4(A)と同様に、正常なディスク装置をバイパス実施中に、リンク障害が回復する状態を示す図であり、図5(B)は、図4(B)と同様に、リンク障害が回復した状態で、確認のため被疑(実は正常)ディスクに対しポートバイパス解除を実施した時、リンク障害が起きず確認に失敗した(診断中断)状態を示す図である。図5(C)は、再びリンク障害が発生したとき、中断したときに登録しておいた中断位置情報に基づいて中断した続きの未診断ディスク装置からリンク診断を実施するため、リンク障害の期間が短い場合にも被疑ディスクがいずれ検出できることを示している。
以上、本実施形態に係るシステム、或いはその診断方法によれば、障害ディスク装置が特定できないままリンク障害が正常回復して診断工程が実行不可能になる場合にも、中断位置情報を登録しているので、その診断工程が再開する場合に、登録された前記中断位置情報を取得し診断を始めるべきディスク装置を特定し、予め定められた診断順序に基づいて診断できるので、いづれ障害ディスクを特定できる。
上述した動作を図6のフローチャートを用いて更に具体的に説明する。
先ず、ディスクアダプタ装置10,20は、I/Oを処理しながら、定期的にリンクの状態を監視し、リンク障害が発生していないかをチェックしている(リンク障害監視工程)。図2に示すように、例えばディスクアダプタ装置10側でリンク異常が発生した場合は、予め定めた診断順序(ここでは説明の便宜のため、ディスク番号順に診断する)に基づいて、ディスクを切り離し障害が回復するか否かをチェックして診断をおこなう。診断を始めるディスクの特定は、診断ディスク制御部16が位置情報登録部15へ登録されている情報を問い合わせ、診断を開始すべきディスク番号を決定する(ステップS101、ディスク特定工程)。
上記ステップS101で決定したディスクに対して、バイパス(リンクからある特定のディスク装置を切り離す操作をいう)を行う(ステップS102、バイパス実施工程)。
このとき、リンク障害が発生しているディスクアダプタ装置10側のポートAからはディスクへのI/O処理が出来ないため、アダプタ間通信制御部12を通してディスクアダプタ装置20へその処理を依頼する。バイパスを依頼されたディスクアダプタ装置20は,両ディスクアダプタ装置10,20が行うI/O処理を行いながら、図2のようにディスクアダプタ装置10からリンクの回復の報告があるまで、ポートバイパス制御部13がディスクアダプタ装置10から指定されたディスク装置のディスクアダプタ装置10側のバイパスを行う。
ディスクアダプタ装置10のFC−AL制御部14では、リンク状態を定期的に監視しており、前記ポートバイパスによってリンク障害が回復するかを否かも監視・判定する(ステップS103、リンク監視工程)。もしリンク障害が回復(YES)ならば、切り離した(バイパスした)ディスク装置をリンク障害を発生させた被擬ディスク装置と判断して、次の確認のためのバイパス解除工程(ステップS104)に進む。
このバイパスを行ってもリンク障害が回復しない場合には、別のディスク装置が被擬ディスク装置であると判定して、次の工程(ステップS110)に進む。
このステップS110では、全てのディスク装置の診断を終了したか否かを判定する(ステップS110)。未診断のディスクが残っていれば、ステップS101に戻って上述のような診断順序に基づいてディスク装置の診断(バイパス)を繰り返す。最後のディスク(図5の例ではDISK#n)をバイパスしても回復しない場合には、診断を実施していない最初のディスク(図5の例ではDISK#0)の診断を実施する。全ディスクのバイパスを実施してもリンクが回復しない場合には、ディスク装置(ノード側)ではなくリンク側の障害、即ち「経路障害」と判断し(ケーブルやディスクアダプタ装置が被擬と判断)、診断を終了し、ディスクアダプタ装置10を切り離す(ステップS111)。
バイパスでリンク障害が回復した場合は、そのリンク障害回復がバイパスしてディスク装置を切り離したことによるものか、或いは一過性の他の原因によるリンク障害の回復によるものかを確認するために、バイパスの解除(切り離していた被疑ディスク装置をリンクに接続し直す)を行う(ステップS104、バイパス解除工程)。このとき、実際には、ディスクアダプタ装置10は、アダプタ間通信制御部12を通してディスクアダプタ装置20へこのバイパス解除を依頼する。ディスクアダプタ装置20は、ポートバイパス制御部13を通して、指示された被擬ディスクのバイパス解除を行い、被擬ディスクをFC−ALリンクにつなぎ直す。
ディスクアダプタ装置10のFC−AL制御部14が,被擬ディスクのバイパス解除によってリンク障害が回復したかを確認する(ステップS105)。被擬ディスクのバイパス解除で再びリンク障害となった場合には、被擬ディスクがリンク障害の原因であると判断し、障害ディスクとしてディスク番号を障害ディスク番号登録部に登録する(ステップS106、障害ディスク登録工程)。尚、このとき診断中断状態も終了するので、中断位置情報を登録する位置情報登録部15に、完了情報として前記診断順序において最初に診断をすべきディスク番号を登録するようにしてもよい。
続いて、ディスクアダプタ装置20のポートバイパス制御部13は、障害ディスクと判断した上記ディスク装置をリンクから切り離す。これにより、診断終了となる(ステップS107)。
一方、ステップS105において、被擬ディスクのバイパス解除をしてリンクに再接続しても、リンク障害が回復したままだった場合には、一過性のリンクダウンによる影響だと判断し、バイパスを実施していたディスク装置の1つ前のディスク装置の識別子であるディスク番号、すなわち、診断が完了した最後のディスク装置のディスク番号を中断位置情報として前述した位置情報登録部15に登録し(ステップS108、中断位置情報登録工程)、これをもって診断を終了する(ステップS109)。
ここで、上述した診断工程、中断位置情報登録工程、および診断ディスク制御工程の各工程については、これらの実行処理内容をプログラム化し、コンピュータ(MPU)に実行させるように構成してもよい。
この場合、リンク障害診断プログラムとしては下記のようになる。
即ち、本実施形態におけるリンク障害診断プログラムにあっては、FC−AL接続された複数のディスク装置の何れかにリンク障害が発生した場合、当該複数のディスク装置の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置を前記FC−ALから順次切り離してリンク障害が回復するか否かを監視するディスク診断処理と、前記障害ディスク装置が特定できないままリンク障害が正常回復して前記診断工程が実行不要になった場合に,その後の診断再開に際して必要な最初の診断対象となるディスク装置を特定するための中断位置情報を予め装備した位置情報登録部に登録する中断位置情報登録処理と、前述したリンク障害の診断再開に際しては前記登録された中断位置情報に基づいて診断を始めるべき最初のディスク装置を特定する診断ディスク特定処理と、をコンピュータに実行させるように構成した。
ここで、前述した前記診断ディスク特定処理にあって、前記中断位置情報に特定されている情報が前記障害診断が完了した最後のディスク装置である場合には、前記リンク障害の診断再開に際して当該ディスク装置の次のディスク装置を診断再開後の診断を始めるべき最初のディスク装置として特定処理するように構成してもよい。
以上説明した構成と動作を備えた上記システムでは、図8(B)に示すようにリンクダウンが継続している期間がリンク診断に必要な期間より短い障害が繰り返し発生した場合でも、いずれ全ディスクを診断できるので障害ディスク装置を特定することができるというメリットを有している。
また、上述した説明では、診断順序として、予め定められた順番にディスク装置を1台づつバイパスして診断するように説明しているが、診断順序としては、例えばディスク装置の障害履歴の多い順番に従って順次切り離しを実行するように予め特定されており、中断位置情報は診断が完了した最後のディスク装置番号であるようにしてもよい。
これにより障害履歴を考慮した診断の順位付けが可能になり、より優れた診断保守が可能になる。
更に又、診断対象である複数のディスク装置を2つのブロック(集合)に分け、2分法で1 ブロックづつバイパスをして被擬ディスクを特定する方式で診断を実施し、診断を中断する場合には中断位置情報登録部15が診断が完了していないディスク装置のブロックのリストを登録し、診断開始時に診断ディスク制御部16が中断位置情報登録部15に対して診断を実施する必要のあるディスク装置のブロックを問い合わせ、返却されたディスク装置のブロックを二分法で半分ずつバイパスして被擬を特定する方法でもよい。
この方法は、順次1 台づつポートバイパスとポートバイパス解除をおこなう方法よりも大幅に診断時間の短縮が可能となる。ディスク装置の数が増える程、その効果は大きいものとなる。
即ち、上述した実施形態にあっては、障害診断の中断に際しては、その後の診断再開に際して必要な最初の診断対象となるディスク装置を特定するための中断位置情報を登録するように構成したので、障害診断の中断後のリンク診断の再開時には直ちに診断対象の最初のディスク装置が特定されることとなり、これがため、リンク障害が継続している期間がリンク診断に必要な期間より短く又障害が間歇的に発生する場合でも、未診断のディスクに合わせて診断を再開することができ、障害再発に対してはリンク診断を迅速に且つ効率的に実行することができる。

このように、本第1の実施形態にあっては、障害診断の中断時に際しては、中断位置情報として例えば診断が終了した最後のディスク装置の番号等が記憶されるので、リンク診断再開時には直ちに未診断のディスク装置30,40,又は50から診断が再開されるように設定することができ、これがため、リンク障害が継続している期間がリンク診断に必要な期間より短く又障害が間歇的に発生する場合でも、未診断のディスクから診断を開始でき、障害再発に対してはリンク診断を迅速に且つ効率的に実行し得るという従来にない保守性に優れたリンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラムを提供することができる。
〔第2の実施形態〕
次に、本発明の第2の実施形態を、図7に基づいて説明する。
ここで、前述した第1実施形態と同一の構成部材については同一の符号を用いるものとする。
この図7に示すFC−ALディスクアレイ・システムは、複数のディスク装置30,40,50(説明の便宜のため3台の装置を示しているがこれに限られない)と、これらをループ状のネットワークであるFC−AL1(Fibre Channel-Arbitrated Loop )とを切り離し自在に接続するバイパス回路32,42,52と、このバイパス回路32,4252の接続切り離し制御に際しその制御信号を伝送する制御線3と、外部のホストコンピュータ5と、FC−ALの接続を仲介するディスクアダプタ装置10とを備えて構成されている。
即ち、この第2実施形態におけるFC−ALディスクアレイ・システムは、図7に示すように、FC−ALリンクが一重構成のディスクアレイ・システムである。
前述したディスクアダプタ装置10は、前述した第1実施形態におけるディスクアダプタ装置10とほぼ同一の構成を備えており、FC−ALのリンク状態を監視するリンク監視機能を備えたFC−AL制御部14と、制御線3を通じてバイパス回路32,42,52の接続切り離し制御を行なうポートバイパス制御部13と、診断中断時の中断位置情報を格納しておく中断位置情報登録部15と、診断再開に当たって中断位置情報登録部15に格納した中断位置情報を取得し診断を始めるべきディスク装置30,40,又は50を特定する診断ディスク制御部16と、これら全体の制御を司るMPU11とを具備している。そして、これら各構成部材は、前述した第1の実施形態とほぼ同一の機能を備えて構成されている。
次に、本実施形態におけるFC−ALディスクアレイ・システムの動作についてその概要を説明する。
まず、ディスクアダプタ装置10に設けられたFC−AL制御部14がリンク障害を発見すると、複数のディスク装置30,40,又は50の内のリンク障害を引き起こしている障害ディスク装置を特定するために、予め設定された順序に基づいて、ディスク装置30,40,又は50をFC−AL1から順次切り離しながらリンク障害が回復するか否かをリンク障害監視機能を持つFC−AL制御部14でチェックする。
もし、あるディスク装置を切り離したときリンク障害が回復すると、その切り離したディスク装置がリンク障害を引き起こした被疑ディスク装置と推定される。そこで確認のため、そのディスク装置を再度FC−ALに接続して確かに再度リンク障害が生じることを確認してこれを障害ディスクと特定し、FC−AL1から再度切り離す(ディスク診断工程)。これによってリンク障害は回復する。このあと、切り離したディスク装置は修理するか又は取り代えられて、FC−AL1の所定位置(元の位置)に組み込まれる。
尚、上述したディスク装置をFC−ALから切り離したり再接続したりするのは、実際にはバイパス回路32,42,52と、制御線3で接続されたポートバイパス制御部13からの切り離し(バイパス)指令と再接続(バイパス解除)指令とで行なわれている。
ここで、障害ディスク装置が特定できないままリンク障害が正常回復してディスク診断工程が不可能(不要)になる場合、中断位置情報登録部15に、次回診断を開始すべきディスク装置を特定できる中断位置情報を登録し(中断位置情報登録工程)、ディスク診断工程の再開に際しては、診断ディスク制御部16が、登録された中断位置情報を取得し診断を始めるべきディスク装置を特定する(診断ディスク制御工程)動作をするのが本実施形態に係るシステムの特徴である。
これにより、障害診断中に何らかの原因によりリンク障害が回復して診断が中断される場合にも、次回診断を開始すべきディスク装置が特定できる中断位置情報を登録しているので、次回診断時には既に診断が終了しているディスク装置を除いて、まだ診断を受けていない残りのディスク装置から診断を行い、最終的には障害ディスク装置が特定されるようになっている。診断時間に比較してリンク障害期間が短く、診断中断が生じやすいリンク障害等にあっては、特に有効である。
尚、前述した診断順序は、ディスク装置30,40,又は50を予め設定された順番に従って順次切り離しを実行するように予め特定されたものであり、前記中断位置情報は診断が完了した最後のディスク装置番号であるようにしてもよい。
また、前記診断順序は、ディスク装置の障害履歴の多い順番に従って順次切り離しを実行するように予め特定されたものであり、前記中断位置情報は診断が完了した最後のディスク装置番号であるようにしてもよい。障害履歴を考慮した診断順位により、より速い診断が可能になる。
更に又、前記診断順序は、複数のディスク装置を2つのブロックに分け、同一ブロックに属するディスク装置はすべて同時に切り離しを実施し、その中に障害ディスク装置が含まれていればリンク障害が回復するので、更にそのブロックを二分して同様の方法を繰り返すことによって障害ノード装置を特定するものであり、前記中断位置情報は診断が完了した最後のブロック番号であるようにしてもよい。二分法は、診断回数がディスク装置の台数Nの対数(底2)でよく、ディスク装置の台数が多い場合に、特に有効な方法であり、これに中断したブロック番号を記憶させ再開する本実施形態を適応することにより、より速く確実な診断が可能になる。
ところで、上記第2の実施形態における上記システムでは、FC−ALがリンク障害を起こし診断を行なっている間は、ホストコンピュータ5とディスク装置30,40,50との間で情報の転送はできない。これに対し、前述した第1実施形態における二重化ディスクアレイ・システム(図1参照)では、一つのFC−ALがリンク障害になっても、残るFC−ALがホストコンピュータ5とディスク装置間の情報転送路の役割と制御線3の両者の役割を果たし得るように構成されており、より耐障害性の高いシステムとなっている。
その他、FC−ALリンクが一重構成のディスクアレイ・システムとして必要とする構成およびその作用効果については、前述した第1の実施形態内におけるの一重構成部分で開示した内容とほぼ同一となっている。
以上のように、上述した各実施形態にあっては、障害ディスク装置を特定できないまま診断を中断せざるを得ない時でも、位置情報登録部15(又は25)に診断が終了した最後のディスク装置のディスク番号を登録しておき、リンク診断開始時には、診断ディスク制御部16(又は26)が位置情報登録部15(又は25)に問い合わせて、次のディスク装置から診断を実施するように構成したので、リンクダウンが継続している期間がリンク診断に必要な期間より短く、又障害が繰り返し発生した場合でも、診断開始ディスクをずらすことが可能となり最終的に被擬ノード装置(障害ディスク装置)を特定することができ、保守性に優れたリンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラムを提供することができる。
本発明の第1の実施形態に係る二重化されたFC−ALシステムの構成を示すブロック図である。 図1に開示した第1の実施形態のリンク診断時にあってディスクポートバイパスを実施してもリンク障害が回復しない状態を示す説明図である。 図1に開示した第1の実施形態のリンク診断時におけるリンク状態の遷移を示す図で、図3(A)はリンク障害が回復した状態を示す図、図3(B)はリンク障害が回復した状態にあって確認のため被疑ディスクのバイパス解除を実施した時に再びリンク障害が発生した場合の状態を示す図、図3(C)は図3(B)に示すリンク障害が再発した状態にあって被疑ディスク以外のディスクのバイパスを解除しリンク障害回復を確認して診断終了とする場合を示す図である。 図1に開示した実施形態にあって従来技術と同等の構成にした場合に生じる問題点、例えばリンク診断時に正常なディスクのバイパス実施中にリンク障害が回復する場合の問題点を説明する図である。ここで、図4(A)は正常なディスクのバイパスを実施中にリンク障害が回復する状態を示す図であり、図4(B)はリンク障害が回復した状態で確認のため被疑(実は正常)ディスクのバイパス解除を実施した時にリンク障害が起きず確認に失敗した(診断中断)状態を示す図であり、図4(C)は再びリンク障害が発生したとき従来技術では最初からリンク診断を繰り返すため、リンク障害の期間が短い場合には障害ディスクが検出できない場合があることを示す図である。 本発明に係る実施形態におけるリンク診断時にあって、正常なディスクのバイパス実施中にリンク障害が回復する場合の状態遷移を示す図である。図5(A)は正常なディスクのバイパスを実施中にリンク障害が回復する状態を示す図である。図5(B)はリンク障害が回復した状態で、確認のため被疑(実は正常)ディスクポートバイパス解除を実施した時にリンク障害が起きず確認に失敗した(診断中断)状態を示す図である。図5(C)は故障ディスクが未だ見つかっていないと判断し続きのリンク診断を実施するため診断終了ディスク情報(中断位置情報)を記憶する状態を示す図である。リンク障害の期間が短い場合にも障害ディスクが検出できる。 本発明の実施形態に係るリンク診断装置の動作のフローチャートである。 本発明の第2の実施形態に係るFC−ALシステムの構成を示すブロック図である。 従来例にかかる図で、リンク障害継続期間とリンク障害診断に必要な期間の長短によって故障ディスクが従来例では特定できない場合があることを示す説明図である。
符号の説明
1 ファイバチャネル(ポートA側のリンク:FC−AL1)
2 ファイバチャネル(ポートB 側のリンク:FC−AL2)
3 制御線
10,20 ディスクアダプタ装置(コントローラ)
12,22 アダプタ間通信制御部
13,23 ポートバイパス制御部
14,24 FC−AL制御部(リンク障害監視手段)
15,25 中断位置情報登録部
16,26 診断ディスク制御部
30,40,50 ディスク装置(ノード装置)
30A,40A,50A ディスク本体
32,42,52 ポートA側のバイパス回路
33,43,53 ポートB側のバイパス回路

Claims (13)

  1. FC−AL接続された複数のディスク装置の何れかにリンク障害が発生した場合、当該複数のディスク装置の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置を前記FC−ALから順次切り離してリンク障害が回復するか否かを判定するディスク診断工程と、
    前記障害ディスク装置が特定できないままリンク障害が正常回復して前記診断工程が実行不要になった場合に,診断再開時に最初に診断を開始すべきディスク装置を特定するための中断位置情報を,予め装備したディスクアダプタ装置に登録する中断位置情報登録工程と、
    前記ディスク診断工程の再開に際し、前記登録された中断位置情報を取得しこれに基づいて診断を始めるべき最初のディスク装置を特定する診断ディスク特定工程と、
    を備えて構成したことを特徴とするリンク障害診断方法。
  2. 前記ディスク診断工程における前記診断順序は、前記複数のディスク装置を予め設定された順番に従って順次切り離しを実行するように予め特定されたものであり、
    前記中断位置情報登録工程では、前記中断位置情報として、診断が完了した最後のディスク装置を中断位置情報として特定すると共に対応する識別子等を登録するようにしたことを特徴とする請求項1に記載のリンク障害診断方法。
  3. 前記ディスク診断工程における前記診断順序は、前記ディスク装置の障害履歴の多い順番に従って順次切り離しを実行するように予め特定されたものであり、
    前記中断位置情報登録工程では、前記中断位置情報として、診断が完了した最後のディスク装置を中断位置情報として特定すると共に対応する識別子等を登録するようにしたことを特徴とする請求項1に記載のリンク障害診断方法。
  4. 前記ディスク診断工程における前記診断順序は、前記複数のディスク装置を2つのブロックに分け、同一ブロックに属するディスク装置はすべて同時に切り離しを実施し、その中に障害ディスク装置が含まれていればリンク障害が回復するので更にそのブロックを2分して同様の方法を繰り返すことによって障害ディスク装置を特定するものであり、
    前記中断位置情報登録工程では、前記中断位置情報として、診断が完了した最後のディスク装置を中断位置情報として特定すると共に対応する識別子等を登録するようにしたことを特徴とする請求項1に記載のリンク障害診断方法。
  5. 前記請求項1乃至4の何れか一つに記載のリンク障害診断方法において、
    前記複数の各ディスク装置が二重化されたFC−ALに二重化FCポートを介して接続されている場合、前記中断位置情報登録工程では、前記一方の又は他方のFCポート側でリンク障害が発生した場合にはこれに対応して当該一方の又は他方のFCポート側に装備されたディスクアダプタ装置に、それぞれ前記中断位置情報を登録するようにしたことを特徴とする請求項1乃至4の何れか一つに記載のリンク障害診断方法。
  6. 複数のディスク装置と、これらをFCポートでループ状に接続するFC−ALと、このFC−ALと外部のホストコンピュータとを接続するディスクアダプタ装置とを有し、このディスクアダプタ装置が、FC−AL接続された複数のディスク装置の何れかにリンク障害が発生した場合にこれを検知するFC−AL制御部と、前記複数のディスク装置の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置をFC−ALから順次切り離すポートバイパス制御部とを備えて成る冗長構成のディスクアレイ・システムにおいて、
    前記FC−AL制御部を、前記各ディスク装置がFC−ALから順次切り離された場合にリンク障害が回復するか否かを監視するリンク障害監視機能と、障害ディスク装置が特定できないまま前記リンク障害が回復して前記リンク障害監視機能による障害回復有無の監視が実行不要となった場合に,その後の診断再開に際し最初に診断を開始すべきディスク装置を特定するための位置情報を,予め装備した位置情報登録部に登録する位置情報登録制御機能とを備えた構成とし、
    前記リンク障害の診断再開に際しては前記位置情報登録部に登録された位置情報に基づいて診断を始めるべき最初のディスク装置を特定する診断ディスク制御部を、前記FC−AL制御部に併設したことを特徴とするディスクアレイ・システム。
  7. 前記請求項6に記載のディスクアレイ・システムにおいて、
    前記診断ディスク制御部は、対応する前記各ディスク装置に対する診断動作の中断後の診断再開に際しては前記位置情報登録部に登録された中断位置情報を取得すると共に、これによって特定されているディスク装置が前記診断が完了した最後のディスク装置である場合には当該ディスク装置の次のディスク装置を診断再開後の最初のディスク装置として特定する機能を備えていることを特徴としたディスクアレイ・システム。
  8. 前記請求項6又は7に記載のディスクアレイ・システムにおいて、
    前記ポートバイパス制御部には前記各ディスク装置が備えているバイパス回路に対してその開閉動作を個別に指令する制御配線が敷設され、
    前記ポートバイパス制御部が、前記各ディスク装置をFC−ALから順次切り離すための動作制御を前記制御配線を介して実行するように構成されていることを特徴としたディスクアレイ・システム。
  9. 複数のディスク装置と、これらを二重化FCポートでループ状に接続する二重化FC−ALと、この一方と他方の各FC−ALと外部のホストコンピュータとを接続するディスクアダプタ装置とを有し、前記各ディスクアダプタ装置が、FC−AL接続された複数のディスク装置の何れかにリンク障害が発生した場合にこれを検知するFC−AL制御部と、前記複数のディスク装置の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置をFC−ALから順次切り離すポートバイパス制御部と、前記各ディスク装置が対応するFC−ALから順次切り離された場合にリンク障害が回復するか否かを判定する診断ディスク制御部とを備えて成る冗長構成のディスクアレイ・システムにおいて
    前記各FC−AL制御部を、対応する前記各ディスク装置が対応するFC−ALから順次切り離された場合にリンク障害が回復するか否かを監視するリンク障害監視機能と、障害ディスク装置が特定できないまま前記リンク障害が回復して前記リンク障害監視機能による障害回復有無の監視が実行不要となった場合に,その後の診断再開に際し最初に診断を開始すべきディスク装置を特定するための位置情報を,予め装備した対応する位置情報登録部に登録する位置情報登録制御機能とを備えた構成とし、
    前記リンク障害の診断再開に際しては前記位置情報登録部に記憶された位置情報に基づいて診断を始めるべき最初のディスク装置を特定する診断ディスク制御部を、前記各FC−AL制御部に併設したことを特徴とするディスクアレイ・システム。
  10. 前記請求項9に記載のディスクアレイ・システムにおいて、
    前記各ディスク装置に対する障害診断の中断後の診断再開に際しては前記何れか一方の位置情報登録部に登録された中断位置情報を、当該位置情報登録部と同一FCポート側の診断ディスク制御部が取得するように構成すると共に、
    この取得した中断位置情報で特定されているディスク装置が前記診断が完了した最後のディスク装置である場合には当該ディスク装置の次のディスク装置を診断再開後の最初のディスク装置として特定する機能を、前記診断ディスク制御部が備えていることを特徴としたディスクアレイ・システム。
  11. 前記請求項9又は10に記載のディスクアレイ・システムにおいて、
    前記各ディスク装置には前記二重FCポートに対応して一方と他方のバイパス回路が各々装備され、
    前記一方と他方の各ポートバイパス制御部が、前記各バイパス回路を駆動制御して対応する各ディスク装置を前記FC−ALから順次切り離すバイパス回路駆動制御機能を、前記FC−AL制御部を介して実行するように構成されていることを特徴としたディスクアレイ・システム。
  12. FC−AL接続された複数のディスク装置の何れかにリンク障害が発生した場合、当該複数のディスク装置の内の障害ディスク装置を特定するために予め設定された診断順序に基づいて前記各ディスク装置を前記FC−ALから順次切り離してリンク障害が回復するか否かを監視するディスク診断処理、
    前記障害ディスク装置が特定できないままリンク障害が正常回復して前記診断工程が実行不要になった場合に,その後の診断再開に際して必要な最初の診断対象となるディスク装置を特定するための中断位置情報を予め装備した位置情報登録部に登録する中断位置情報登録処理、
    前記リンク障害の診断再開に際しては前記登録された中断位置情報に基づいて診断を始めるべき最初のディスク装置を特定する診断ディスク特定処理、
    をコンピュータに実行させるようにしたことを特徴とするリンク障害診断プログラム。
  13. 前記請求項12に記載のリンク障害診断プログラムにおいて、
    前記診断ディスク特定処理にあって、前記位置情報に特定されている情報が前記診断が完了した最後のディスク装置である場合には、前記リンク障害の診断再開に際して当該ディスク装置の次のディスク装置を診断再開後の診断を始めるべき最初のディスク装置として特定処理するように構成したことを特徴とするリンク障害診断プログラム。
JP2007094895A 2007-03-30 2007-03-30 リンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラム Expired - Fee Related JP4678384B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007094895A JP4678384B2 (ja) 2007-03-30 2007-03-30 リンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007094895A JP4678384B2 (ja) 2007-03-30 2007-03-30 リンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラム

Publications (2)

Publication Number Publication Date
JP2008250929A true JP2008250929A (ja) 2008-10-16
JP4678384B2 JP4678384B2 (ja) 2011-04-27

Family

ID=39975750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007094895A Expired - Fee Related JP4678384B2 (ja) 2007-03-30 2007-03-30 リンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラム

Country Status (1)

Country Link
JP (1) JP4678384B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010170350A (ja) * 2009-01-23 2010-08-05 Fujitsu Ltd 仮想ライブラリ装置及び物理ドライブの診断方法
JP2011523108A (ja) * 2008-10-07 2011-08-04 株式会社日立製作所 障害が発生している物理記憶装置を検出するストレージシステム
CN111010315A (zh) * 2019-12-12 2020-04-14 江苏艾佳家居用品有限公司 一种基于sdn的链路故障诊断方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0467476A (ja) * 1990-07-09 1992-03-03 Fujitsu Ltd アレイディスク制御装置
JPH04230529A (ja) * 1991-01-07 1992-08-19 Nippon Telegr & Teleph Corp <Ntt> エキスパートシステム中断再開処理方法
JPH05191496A (ja) * 1992-01-16 1993-07-30 Fujitsu Ltd 故障診断方式
JPH05323705A (ja) * 1992-05-21 1993-12-07 Minolta Camera Co Ltd 画像形成装置
JPH10275060A (ja) * 1997-03-31 1998-10-13 Nec Corp アレイディスク制御装置
JP2001216206A (ja) * 2000-02-01 2001-08-10 Nec Corp ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0467476A (ja) * 1990-07-09 1992-03-03 Fujitsu Ltd アレイディスク制御装置
JPH04230529A (ja) * 1991-01-07 1992-08-19 Nippon Telegr & Teleph Corp <Ntt> エキスパートシステム中断再開処理方法
JPH05191496A (ja) * 1992-01-16 1993-07-30 Fujitsu Ltd 故障診断方式
JPH05323705A (ja) * 1992-05-21 1993-12-07 Minolta Camera Co Ltd 画像形成装置
JPH10275060A (ja) * 1997-03-31 1998-10-13 Nec Corp アレイディスク制御装置
JP2001216206A (ja) * 2000-02-01 2001-08-10 Nec Corp ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523108A (ja) * 2008-10-07 2011-08-04 株式会社日立製作所 障害が発生している物理記憶装置を検出するストレージシステム
JP2010170350A (ja) * 2009-01-23 2010-08-05 Fujitsu Ltd 仮想ライブラリ装置及び物理ドライブの診断方法
CN111010315A (zh) * 2019-12-12 2020-04-14 江苏艾佳家居用品有限公司 一种基于sdn的链路故障诊断方法

Also Published As

Publication number Publication date
JP4678384B2 (ja) 2011-04-27

Similar Documents

Publication Publication Date Title
US6678839B2 (en) Troubleshooting method of looped interface and system provided with troubleshooting function
US7213102B2 (en) Apparatus method and system for alternate control of a RAID array
JP3620527B2 (ja) ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
US7047450B2 (en) Storage system and a method for diagnosing failure of the storage system
US8370592B1 (en) Multi-machine atomic seamless migration
US20080184217A1 (en) Storage system, storage unit, and method for hot swapping of firmware
US7853767B2 (en) Dual writing device and its control method
US8015434B2 (en) Management apparatus, storage system, and storage apparatus management method
JPH086910A (ja) クラスタ型計算機システム
JP4678384B2 (ja) リンク障害診断方法、ディスクアレイ・システム、及びリンク障害診断プログラム
JP3942216B2 (ja) 二重化された監視/制御プロセッサによるシステム監視・制御方法およびシステム監視・制御装置
US6389559B1 (en) Controller fail-over without device bring-up
US7949902B2 (en) Failure analysis system, a disk array apparatus, a controller, a method for analyzing failure, and a signal-bearing medium embodying a program causing a failure analysis system to perform the method
US7908418B2 (en) Storage system, storage device, and host device
JP7110937B2 (ja) 情報処理システム及び情報処理装置
JP2011108006A (ja) ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置
US20030023797A1 (en) Method for providing master-slave heat-swapping apparatus and mechanism on a mono-ATA bus
JPH1196033A (ja) 情報処理装置
JP2630100B2 (ja) プロセッサ間通信用バスの障害処理方式
JP2815730B2 (ja) アダプタ及びコンピュータシステム
KR100604552B1 (ko) 클러스터 시스템에서 상태 정보 및 제어 명령의 공유를통한 시스템 장애 대응방법
JP2001005739A (ja) データパスにおける障害部位の特定方法および装置
JP2020024558A (ja) 情報処理装置および制御方法
JPH10187473A (ja) 2重化情報処理装置
JPH09146853A (ja) 二重化計算機及びその障害系復旧方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110118

R150 Certificate of patent or registration of utility model

Ref document number: 4678384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees