JP3752150B2

JP3752150B2 - ストレージ・エリア・ネットワーク（ｓａｎ）内でのエラー処理方法及びデータ処理システム

Info

Publication number: JP3752150B2
Application number: JP2000397033A
Authority: JP
Inventors: バリィ・スタンレィ・バーネット; ダグラス・クレイグ・ボッセン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-01-06
Filing date: 2000-12-27
Publication date: 2006-03-08
Anticipated expiration: 2020-12-27
Also published as: DE60040382D1; JP2001249856A; EP1115225B1; ATE409996T1; EP1115225A2; US6636981B1; EP1115225A3

Description

【０００１】
【発明の属する技術分野】
本発明は、改善されたデータ処理システム、特にコンピュータ・ネットワーク管理のための方法及び装置に関する。
【０００２】
【関連する技術】
ストレージ・エリア・ネットワーク（ＳＡＮ）は、複数のホスト・コンピュータが複数のストレージ周辺装置を共用すること、特にファイバ・チャンネル（ＦＣ）ネットワーク・スイッチを介してストレージ周辺装置を共用することを可能とする「オープン・システム」ストレージ・アーキテクチャである。ＦＣスイッチ、ホスト・システム、及びストレージ周辺装置は、異なるベンダによって製造されたものであってもよく、また異なるオペレーティング環境を有するものであってもよい。
【０００３】
現在、ＦＣＳＡＮの端末間問題判別機能又は仕様が求められている。マルチ・ベンダ・システム、ネットワーク・スイッチ、及び周辺装置からなる複雑な構成によって、既存の二点間ストレージ構成よりもＳＡＮ環境下で問題判別を実行することが困難である。そのため、ＳＡＮ環境で障害が生ずることで、システムの動作不能時間が増加するとともにシステムをメンテナンスするための費用も増加するであろう。
【０００４】
【発明が解決しようとする課題】
ＳＡＮに接続し、かつ障害が生じているシステム及び／又は構成要素を識別する障害分離アルゴリズムを取り込む「オープン・システム」、リアルタイム、端末間、エラー検出アーキテクチャを定義する方法及び装置を持つことは有利であろう。
【０００５】
【課題を解決するための手段】
ストレージ・エリア・ネットワーク（ＳＡＮ）で問題判別及び障害分離を行うための方法及びシステムを提供する。マルチ・ベンダ・ホスト・システム、ＦＣスイッチ、及びストレージ周辺装置からなる複雑な構成は、通信アーキテクチャ（ＣＡ）を介してＳＡＮに接続される。通信アーキテクチャ要素（ＣＡＥ）は、ネットワーク・サービス・プロトコルを介してホスト・コンピュータ上の通信アーキテクチャ・マネージャー（ＣＡＭ）によって首尾よく記録されたネットワーク接続装置である。ＣＡＭは、ＳＡＮ用の問題判別（ＰＤ）機能を有し、ＳＡＮのＰＤ情報テーブル（ＳＰＤＩＴ）を保守する。ＣＡは、ＳＰＤＩＴに格納された情報の伝達を行うことが可能なすべてのネットワーク接続要素を有する。ＣＡＭは、ＳＡＮトポロジ・マップを利用し、またＳＰＤＩＴはＳＡＮ診断テーブル（ＳＤＴ）の生成に使用される。特定の装置において障害を持つ構成要素がエラーを生じ、該エラーによって同一ネットワーク接続パス上にある装置にもエラーが生ずる可能性がある。エラー・パケット又はエラー・メッセージをＣＡＭが受信するので、エラーはＳＤＴに格納され、各エラーをＳＤＴ内の他のエラーと時間的かつ空間的に比較することによって各エラーの分析が行われる。もしあるＣＡＥがエラーを生成する候補であると判断されるならば、可能ならばそのＣＡＥを交換するように報告される。
【０００６】
【発明の実施の形態】
図１は、本発明が適用されるデータ処理システムの構成を示す模式図である。コンピュータ１００は、システム・ユニット１１０と、ビデオテーブル示端末１０２と、キーボード１０４と、フロッピー・ドライブ及び他の種類の固定記憶媒体及び取り外し可能記憶媒体を有するものであってもよいストレージ装置１０８と、マウス１０６とを備える。また、コンピュータ１００は、さらに別の入力装置を備えることも可能である。コンピュータ１００は、任意の適当なコンピュータ、例えばＩＢＭ（International Business Machines Corporation （Armonk, New York所在））の製品であるAdvanced Interactive Executive （ＡＩＸ）・オペレーティング・システムで稼働する同社のＲＩＳＣ／６０００システムを用いて実現することができる。また、図示したコンピュータ１００はサーバ型のコンピュータであり、本発明の他の実施形態を他のデータ処理システム、例えばワークステーション、ネットワーク・コンピュータ、ウェブ・ベース・テレビジョン・セット−トップ・ボックス、インターネット機器等で実現してもよい。コンピュータ１００は、該コンピュータ１００で動作するコンピュータ読み取り可能媒体上にあるシステム・ソフトウェアによって実行可能なグラフィカル・ユーザ・インタフェースも含むものであってもよい。
【０００７】
なお、図１はあくまでも本発明の一例を示すものであって、本発明のアーキテクチャ的限界を示すものではない。
【０００８】
図２は、データ処理システムの内部構成要素の典型的な構成を説明するためのブロック図である。データ処理システム２００は、多様なバス構造及びプロトコルを使用する。図に示した例ではＰＣＩバス、ＩＳＡバス、及び６ＸＸバスが用いられているが、他のバス・アーキテクチャ及びプロトコルを使用してもよい。
【０００９】
プロセッサ・カード２０１は、プロセッサ２０２及びＬ２キャッシュ２０３を有し、これらは６ＸＸバス２０５に接続されている。システム２００は、複数のプロセッサ・カードを有するものであってもよい。プロセッサ・カード２０６は、プロセッサ２０７及びＬ２キャッシュ２０８を有する。
【００１０】
６ＸＸバス２０５はシステム・プレーナ２１０をサポートするもので、該システム・プレーナ２１０は、６ＸＸブリッジ２１１と、メモリ・カード２１３をサポートするメモリ・コントローラ２１２とを有する。メモリ・カード２１３は、複数のデュアル・インライン・メモリ・モジュール（ＤＩＭＭ）２１５及び２１６から構成されるローカル・メモリ２１４を有する。
【００１１】
６ＸＸブリッジ２１１は、システム・バス２２２を介してＰＣＩブリッジ２２０及び２２１に接続する。ＰＣＩブリッジ２２０及び２２１は、種々のＩ／Ｏ構成要素及びインタフェースをサポートする固有のＩ／Ｏ（ＮＩＯ）プレーナ２２３上に包含される。ＰＣＩブリッジ２２１は、ネットワーク・アダプタ２２４及びいくつかのカード・スロット２２５を通る外部データ・ストリームのための接続がＰＣＩバス２２７を介して提供される。また、ＰＣＩブリッジ２２０は、ＰＣＩバス２２８を介して多様なＩ／Ｏ装置と接続する。ハード・ディスク２２９は、ＰＣＩバス２２８と接続するＳＣＳＩホスト・アダプタ２３０と接続してもよい。グラフィック・アダプタ２３１もまた図示したように直接又は間接的にＰＣＩバス２２８に接続してもよい。
【００１２】
ＩＳＡブリッジ２３２は、ＰＣＩバス２２８を介してＰＣＩブリッジ２２０と接続する。ＩＳＡブリッジ２３２はＩＳＡバス２３４を介したＮＩＯコントローラ２３３との相互接続機能、例えばシリアル接続２３５及び２３６を提供する。フロッピー・ドライブ接続２３７は取り外し可能なストレージを提供する。キーボード接続２３８及びマウス接続２３９によってデータ処理システム２００がユーザから入力データを受け取ることが可能となる。不揮発性ＲＡＭ（ＮＶＲＡＭ）２４０は、システム破壊又はシステムエラー、例えば電力供給上の問題に対してある種のデータが消えないように保存しておく不揮発性メモリを提供する。システム・ファームウェア２４１もまたＩＳＡバス２３４と接続されており、初期ＢＩＯＳを制御する。サービス・プロセッサ２４４は、ＩＳＡバス２３４と接続されており、システム診断又はシステム・サービスを行うための機能を提供する。
【００１３】
サービス・プロセッサ２４４はエラーを検出し、情報をオペレーティング・システムに渡す。エラーのもとがエラーを検出した時点で合理的確実性で知られていても、あるいは知られていなくてもよい。オペレーティング・システムは、ただエラーをログファイルに書いてもよく、さもなければ報告されたエラーを処理してもよい。
【００１４】
当業者は、図２に示すハードウェアがシステム・インプリメンテーションに応じて変わることを理解するであろう。例えば、システムはより多くのプロセッサを有するものであってもよく、また他の周辺機器を図２に示したハードウェアに加えて、あるいは交換して使用してもよい。図示した例は本発明に関してアーキテクチャの限界を意味するものではない。
【００１５】
ここで図３を参照する。この図は、本発明の好ましい実施の形態にもとづいて実現されたＳＡＮ問題判別方法論に参加するデータ処理システムのための通信アーキテクチャを示す。ネットワーク３００は、一組のコンピュータ、スイッチ、及びストレージ装置を有するもので、ストレージ装置は通信アーキテクチャに参加するか、又は参加しなくてもよい。
【００１６】
通信アーキテクチャ（ＣＡ）は、以下に詳細に説明されるＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）に定義された情報のいずれか、又はすべてを伝達することが可能なＳＡＮ接続要素のすべてを含む。
【００１７】
ＣＡに参加している各ＳＡＮ接続要素は、ＣＡ要素（ＣＡＥ）と呼ばれる。ＣＡに参加していない要素はいずれもＣＡ不参加者（ＣＡＮ）と呼ばれる。これらの要素は識別される。なぜなら、それらの要素はＳＡＮトポロジに参加しており、それによってシステムの問題判別（ＰＤ）機能にも参加している。WindowsNT（商標）サーバ３０２、メインフレーム・コンピュータ３０４、Unix（商標）サーバ３０６、Linux（商標）サーバ３０８は、ＣＡに参加するコンピュータであり、したがってこれらはＣＡＥである。WindowsNT（商標）サーバ３０２、メインフレーム・コンピュータ３０４、Unix（商標）サーバ３０６、Linux（商標）サーバ３０８は、様々なクライアントをサポートするホスト・コンピュータでもあり、ストレージ装置へのアクセスを要求してもよい。コンピュータ３０２〜３０６の各々は、ホスト・バス・アタッチ（ＨＢＡ）を有するもので、該ＨＢＡはＦＣホスト用のネットワーク・アダプタの一種である。ＦＣスイッチ３１１〜３１３はＣＡＥであり、ストレージ装置のいくつかもＣＡＥである。この例では、共有ＲＡＩＤ（独立したディスクの重複アレイ）３２１〜３２３及び共有テープ３２４がＣＡＥであり、一方共有テープ３２５はＣＡＮである。
【００１８】
ＣＡは、ＴＣＰ／ＩＰプロトコルを用いるバンド内通信リンク３４１〜３５２によりＦＣスイッチング・ファブリックを介して通信するか、及び／又は、すべてのＳＡＮ要素が共有する通信リンク３３１〜３３４上のバンド外ＴＣＰ／ＩＰ通信ネットワークを介して通信することができる。ここで指摘しておくべきことは、図３に示した通信リンクは単一の物理的接続を共有する論理接続であってもよいことである。あるいは、複数の物理的通信リンクによって装置が接続されてもよい。
【００１９】
情報を発行及び／又は収集するためにＣＡによって使用されたプロトコルは、ＳＮＭＰ／ＭＩＢ（シンプル・ネットワーク・マネジメント・プロトコル／マネージメント・インフォメーション・ベース、モニタされている特定の装置を記述するＳＮＭＰ構造）及びもととなった固有ＦＣの両方となるように定義される。これら２つのプロトコルを使用することで、装置／ホスト特異的及びＳＡＮ特異的情報の両方を収集することが可能となり、次いで端末間問題判別に使用される。
【００２０】
通信アーキテクチャ・マネージャー（ＣＡＭ）は、システムの端末間ＰＤ機能が存在する特定のＣＡＥである。ＳＰＤＩＴはＣＡＭに存在し、ＣＡＥごとにＣＡＭによって自動的に登録される（固有ＦＣ及び／又はＳＮＭＰサービスを介して）。ＣＡＥは、首尾よく登録する要素であり、またＣＡＮはＣＡＭによって登録できない要素ではあるがＳＡＮトポロジ発見プロセスを介して存在することが知られている。このことについては後でより詳細に説明する。ＣＡＭは、端末間問題判別に関係する任意のＦＣ拡張リンク・サービス（ＥＬＳ）をサポートする。
【００２１】
ＣＡＭは、プライマリ又はアクティブＣＡＭ、及びセカンダリ又はイナクティブＣＡＭとして分類することができる。ＣＡＭは、ＳＰＤＩＴ及び登録情報を複製する大いに利用可能な要素である。例えば、セカンダリＣＡＭ及びプライマリＣＡＭは、もしプライマリＣＡＭがハートビート信号に応答しないことによって失敗したように思われるならば、重複する方法で実行されているセカンダリＣＡＭがプライマリＣＡＭのデューティを想定するように、ハートビート信号を共有してもよい。ＣＡＭに対する問題判別インタフェースは、ＳＡＮＰＤアプリケーション・プログラミング・インタフェース（ＳＡＮＰＤＡＰＩ）から構成される。ＳＡＮＰＤＡＰＩは、ＣＡＭと、ＣＡＭ情報又はステータスを読むことが可能な任意の他のオペレーティング環境との間の通信インタフェースを定義する。
【００２２】
ここで図４を参照する。本発明の好ましい実施の形態にもとづくＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を示すテーブルである。ＳＰＤＩＴは、すべての周知のプロダクト／要素とＣＡ上で伝達可能な情報種類とで構成されている。ＳＰＤＩＴのフォーマットは、ＣＡに含まれる装置の数、サポートされるプロダクトの種類、装置に関連した情報、その他にかなり依存していると思われる。例えば、ＳＰＤＩＴは、図３に示す各々の装置に関する情報を含むであろう。
【００２３】
ＳＰＤＩＴ４００は、以下のレコード項目を含むものであってもよい。すなわち、ベンダ属性４０１、プロダクト識別子４０２、情報の種類４０３、及び記述属性４０４である。ＳＰＤＩＴ４００の各レコードは、それらのレコード項目に関するデータを含む。ベンダ属性４０１は、ＣＡ上の特定装置製造者を含む。プロダクト識別子４０２は、特定の装置を識別するためのベンダによって割り当てられた情報、例えば型の種類、型番号、プロダクト通し番号等である。
【００２４】
情報の種類４０３は、装置によってサポートされた通信リンクの種類、装置によってサポートされたエラー条件又はエラー定義のフォーマット等に関連したデータを含む。記述属性４０４は、プロダクトによって予想されるべきエラー情報の種類に関する情報を提供する。例えば、もし記述属性レコードが、プロダクトはＥＬＳ登録リンク発生事象レコード（ＲＬＩＲ）互換性であることのテーブル示のみを含むならば、ＣＡＭ関連プロセスはプロダクトのバンド外ＭＩＢを受け取ることは期待できないであろう。
【００２５】
ＳＰＤＩＴは、一般にＳＡＮ対応周辺機器、ホスト、及びスイッチによって状態／エラー条件を示すことに使われる情報のすべてを含むであろう。これは、固有ＦＣリンク及び拡張リンクエラー定義、さらにＭＩＢ定義を含むと思われる。これらの定義は、フィールド置換可能ユニット（ＦＲＵ）構成要素情報を含むことができ、ＭＩＢに位置するか、又はエラー報告プロトコルに組み込まれることができ、また障害構成要素が分離される細分性の決定に使用可能である。
【００２６】
すでに指摘したように、ＣＡＭはシステムの端末ＰＤ機能が存在する特有のＣＡであり、ＳＰＤＩＴが含まれる。ＣＡＭ初期化プロセスは、バンド内ＳＡＮ及びバンド外ネットワークの両方に接続したすべてのＦＣノードの発見及び登録を含む。ＣＡＭ初期化プロセスは、ＦＣバンド内及びＣＡバンド外（ＳＮＭＰを経由）発見／登録プロセスを使用する。このプロセスは、ＳＡＮのトポロジ・マップ（ＴＭ）を提供する。このトポロジ・マップ（ＴＭ）は、要素の種類（ホスト、周辺機器、スイッチ）、明示接続／パス、及びそれらの関連ベンダの知識、さらにＳＰＤＩＴ情報を伴って要素が接続した登録及び非登録ＳＡＮのすべてを含む。
【００２７】
ここで図５を参照する。この図では、ＳＡＮのための簡略化ネットワーク・トポロジが図示されている。ＦＣスイッチ５０１は、該ＦＣスイッチ５０１とＣＡＥ５２１〜５２３の各々との接続点を与えるポート５１１〜５１３を有するもので、該ポート５１１〜５１３はＣＡＥＡ、ＣＡＥＢ、及びＣＡＥＣとラベルされている。ＣＡの見地からすれば、ＦＣスイッチポート５１１〜５１３はＣＡＥである。なぜなら、これらのポート５１１〜５１３は障害を生じたり、又はエラーを生じたりすることが可能であり、エラーのもとと適当に診断された後は取り替えることができる。
【００２８】
図６は、図５に示すＳＡＮのための簡略化ネットワーク・トポロジのマップを提供するテーブルである。トポロジ・マップ（ＴＭ）は２次元のテーブルとしてテーブルされており、左側の欄と上側の欄との両方に、図５のＦＣスイッチ５０１のようなスイッチに接続されたＳＡＮ要素、ＣＡＥ及びＣＡＮ装置の両方が含まれている。診断セルは、対応の要素及びそれが接続されたスイッチ・ポートに関するＳＰＤＩＴ／種類情報のすべてを含む。他のセルは要素間の方向パスが含まれる。例えば、テーブルはポート３とポート１との間のパスを用いてＣＡＥＡとＣＡＥＣとの間の方向パスを示している。多重パスは可能である。トポロジ及び登録発見プロセスは周期的に繰り返されることでＴＭが正しいことを確実にする。ＣＡＭもまた、ＰＦのために使用可能な拡張リンク・サービスを提供する任意のＳＡＮ要素によって登録する。
【００２９】
図７は、ＳＡＮのためのＳＡＮ診断テーブルを示すものである。ＳＡＮのＴＭは、第１エラー・データ収集（ＦＥＤＣ）及びリアルタイム診断分析（ＲＤＡ）のために使用されるＳＡＮ診断テーブル（ＳＤＴ）を生成するために使われる。図７に示されるＳＤＴは、各スイッチ／ファブリック要素のための追加の行が含まれること以外は、図６に示すＴＭと同様である。
【００３０】
対角線上のＳＤＴセルは、スイッチ・ポートが含まれるそれ自身の行／列に対応するＣＡＥによって報告されたエラーを保持するために使われる。一つのパス、すなわちＳＤＴセルの中の各点は、別のＳＡＮ接続要素をテーブルする。各セルは、特定のプロダクト動作が知られ、かつ適当な診断決定が下されるように、ＴＭに収集された情報を含む。例えば、もしバンド外ＳＣＳＩ装置のエラーがバンド内ホスト・バス・アタッチ（ＨＢＡ）ＦＣリンクのエラーを伴うならば、ストレージ装置はＨＢＡに対してリンクエラーを生じている可能性が高いかどうか等の診断問い合わせが存在してもよい。
【００３１】
図７に含まれる模範的なエラー情報は、ＳＤＴを用いるＲＤＡのユーティリティを例証するものである。行１は、バンド内ＦＣリンクがタイムアウトであることをＣＡＥＡが報告したことを示している。行３は、ＣＡＥＣ上のバンド外ハードウェア・コントローラエラーを示す。これら２つのエラーは関連している。なぜなら、エラー情報に関連したタイムスタンプによって示されるように、これらは同一タイム・フレーム内で起こるためである。行５はバンド内ＦＣリンクエラーが生じたことを示すが、記憶されたタイムスタンプという条件のもとで、行５は前の２つとは無関係である。したがって、テーブルは２つの異なる問題を示している。すなわち、第１の問題は、ＣＡＥＣにおける制御装置のハードウェア障害に関係しており、第２の問題はＦＣスイッチのＣＡＥ２におけるＦＣリンク障害である。
【００３２】
図８は、種々のエラーに対するリアルタイム診断分析で使用される重みを図示している。ＲＤＡアルゴリズムは、ＦＥＤＣ事象が起こるたびに、ＳＤＴのエラー報告要素を走査して適当な応答を割り出す。ＲＤＡは、障害構成要素を分離するために重み判断分析を使用する。２つの広範囲のカテゴリーがＨ＝最も高い重み、Ｍ＝中間の重み、Ｌ＝最も低い重みによって例証される。
【００３３】
ＳＤＴ走査アルゴリズム及びエラー重みはダイナミックであり、ＳＡＮトポロジの複雑性及びそれに接続した要素の性質に合わせて変えられるであろう。
【００３４】
図に示す重みテーブルは、典型的なＳＡＮ環境に適用される強弱間の重みスケールを簡単に例証するものである。もしＳＡＮがその対応したホスト及び周辺機器でほんのわずかな１６ポート・スイッチまで成長するならば、単一のドライブエラー又はＨＢＡタイムアウトエラーによるエラーを報告することができる可能なノード数を増やすことができる。グローバルな端末間ＲＤＡ診断機能無しで、障害構成要素を分離するタスクは行き当たりばったりになる。マルチ・ベンダＳＡＮでは、多数の断続的な、回復可能な装置エラー（すなわちソフトのエラー）がホストによって気づかれなくなることは一般的である。結局、装置は回復不能エラー（すなわちハード・エラー）に遭遇する可能性があり、それはシステムクラッシュをもたらす。本発明によって提供されるバンド内及びバンド外機構は、回復可能なエラーが生ずるとただちにそれを検出して報告するであろう。
【００３５】
ここで、図８ないし図１２を参照しながら説明する。これらの図は、本発明の好ましい実施の形態にもとづく単一障害ＳＡＮ要素のＳＡＮ端末間障害分離を行うリアルタイム診断アルゴリズム（ＲＤＡ）のプロセスを説明するためのフローチャートである。ＴＤＡは、障害を分離するために２つのダイナミックな機構を使用する。
【００３６】
１．時間相関関係ウィンドウ（ＴＣＷ）
ＴＣＷはスカラーの値であり、すなわち時間の範囲、誤診の可能性が時間次元で最小となるように該時間次元においてＳＤＴの障害分離検索を制限するために使用される。
【００３７】
２．空間相関関係パス（ＳＣＰ）
ＳＣＰはデータ構造であって、誤診の可能性が空間次元で最小となるように、また周知のシステムとサブシステムとの関連が綿密に調べられるように、該データ構造はＳＤＴの空間ドメインにおける障害分離検索を制限するために使用される。ＳＣＰはＲＤＡの間、ＳＤＴから要素をコピーする。
【００３８】
ＲＤＡのゴールはかなりの確実性で障害のもとが分離されるまで、時間、場所、及び重大度について、受け取った障害情報のすべてを関連づけることである。このプロセスは、単一の報告された障害、又は一連の報告された障害の後に終了する。
【００３９】
単一障害ＳＡＮ要素のＳＡＮ端末間障害分離用の一般的なＲＤＡを以下に説明する。ＣＡＭが該ＣＡにあるすべての接続パスをＳＤＴに初期化する時に、プロセスが開始する（ステップ８０１）。ＳＤＴは、すべての接続されたパス、すなわちパスＡ−−＞Ｂ、Ｂ−−＞Ｃ、その他によって初期化される。接続可能とすべきそれらのパスだけが入力される。これらのパスはトポロジ・マッピング、例えば図５及び図６に示したＴＭと同様のＴＭによって確立される。ＳＡＮは、接続可能とすべきでないある特定の接続から外すために、完全には接続しない可能性がある。例えば、あるホストは特定のストレージ装置に対するデータの格納及び検索を制限されるかもしれない。システム管理者は、メインフレームがＮＴデータを破損又は破壊する能力を持たないように、ＮＴホストがデータを特定の装置に格納することを可能とすることができよう。
【００４０】
プロセスは、ＳＡＮのためにＴＣＷ及びＳＣＰを初期化することで継続する（ステップ８０２）。ＴＣＷは、時間ウィンドウであり、また時間の値、通常は秒ないし分のオーダーで要求する。ＳＣＰは、ＳＤＴから選択されたパスのすべてのセットを含んでいる。これらのパスは、周知のホストとストレージ装置との間、ホストとホストの間、ストレージ装置とストレージ装置との間の関係を反映するもので、該関係はトポロジ・マッピングによって確立される。再びここで指摘しておくべきことは、セカンダリＣＡＭはプライマリＣＡＭに格納されているデータ構造及び値を保全することである。
【００４１】
続いて、ＣＡＭは新たなエラーを受け取り（ステップ８０３）、ＲＤＡを用いてエラーを処理する（ステップ８０４）。ＲＤＡプロセスが終了したかどうかについての判断を行い（ステップ８０５）、もし終了していなければ、プロセスはステップ８０３に戻ってさらにエラーを受け取り、かつ処理する。もし終了していれば、ＳＡＮ端末間障害分離のための初期化プロセスが完了する。
【００４２】
図１０は、新しいエラーの処理ステップ、例えば図９のステップ８０４をさらに詳細に説明するフローチャートである。プロセスは、新しいエラーを受け取ることによって開始し（ステップ８１０）、エラー、エラーが生じた時間、及びエラーの重大度（高、中、低）を報告する構成要素を示すためにＳＤＴが更新される（ステップ８１１）。エラーが重大度の高いものであるかどうかについて判断を行う（ステップ８１２）。もし重大度が高ければ、このエラーはメンテナンスを必要とする障害であると直ちに報告される（ステップ８１３）。続いて、報告されたエラーが交換すべき特定の部品に関連するかどうかについて判断するために、ＳＰＤＩＴが問い合わせされる（ステップ８１４）。もし関連していなければ、高重大度のエラーの処理が完了する。もし関連していれば、障害構成要素の交換が指示され（ステップ８１５）、高重大度のエラーの処理が完了する。
【００４３】
もしエラーが高重大度エラーでなければ、該エラーが中又は低度の重大度からなるエラーであるかどうかについて判断される（ステップ８１６）。もしそうであるならば、低／中重大度エラーが処理され（ステップ８１７）、さらに該エラー処理が完了する。
【００４４】
もし、エラーが高重大度エラーでも低／中重大度エラーでもなければ、エラーの重大度は誤りとして判断され、該エラーが無視される（ステップ８１８）。
【００４５】
ここで、図１１を参照しながら説明する。この図では、図１０のステップ８１７のように、新たな低／中重大度エラーの処理を行う方法をより詳細に説明するためのフローチャートが示されている。ＳＣＰは報告されたエラーによって影響を受けるパスを判断するのに用いられる。これらのパスにおいて要素のＳＤＴセルの各々は、新しいエラーを報告している要素を含むもので、前のエラー発生に対して順番に問い合わせられる（ステップ８２０）。そして、前のエラーの発生が現在のエラーと空間的に関係しているかどうかについて判断される（ステップ８２１）。そして、問い合わせは前のエラーが現在のエラーと空間と同様に時間的に関係しているかどうかについて判断するためにＴＣＷを使用する（ステップ８２２）。もし、前のエラーが時間的かつ空間的に関係しているならば、エラーはＳＣＰに格納される（ステップ８２３）。問い合わせが終了すると、ＳＣＰは、時間的制約のなかで生じたＳＤＲの適当なパス上でのすべてのエラーのマッピングが含まれる。
【００４６】
ＳＣＰのためのデータ構造が組織化され、かつ使用される方法は、システム・インプリメンテーションに応じて変化するものであってもよい。例えば、ＳＤＴからの要素は、ＳＣＰにコピーされ、データは空間又は時間に関連していないと判断させるので、要素をＳＣＰからデリートすることができる。
【００４７】
アルゴリズムは、障害構成要素の位置を分離するためにエラー相関関係／重大度の評価をしなければならない。ここで図１２を参照する。この図では、低／中重大度のエラーに対応づけられた障害構成要素についていくつかの可能なケースを説明するフローチャートが示されている。
【００４８】
プロセスは、新たに受信されたエラーを生成した現在の要素からすべてのエラーが生ずるかどうかについて判断することから開始する（ステップ８３０）。もしそうならば、２つ以上のエラーがＳＣＰに存在するかどうかについての判断が行われる（ステップ８３１）。もしそうでなければ、現在のエラーの処理が完了する。もしそうであるならば、現在の要素はメンテナンスを必要とすることが示される（ステップ８３２）。次にＳＰＤＩＴは、報告されたエラーが交換すべき特定の部品と対応づけられているかどうかについて判断するために問い合わせられる（ステップ８３３）。もしそうであるならば、障害構成要素の交換が指示され（ステップ８３４）、新たに受信され、低／中重度大エラーが処理される。
【００４９】
もしすべてのエラーが現在の要素から生ずるならば、すべての（２つの以上の）エラーが単一のパスに含まれるかどうかについて判断がなされる（ステップ８３５）。この場合、パス内の任意の要素が報告されたエラーの根本原因であるかもしれず、また装置ハードウェア関連のエラーはリンク又はタイムアウト関連のエラーに優先される。エラーに装置ハードウェアエラーが含まれるかどうかについて判断がなされる（ステップ８３６）。もし装置ハードウェアが見いだされるならば、ステップ８３２〜８３４と同様にして、関連した要素がメンテナンスを必要とすることが示される。そして、ＳＰＤＩＴは報告されたエラーが交換すべき特定の部品に関連づけられているかどうかについて判断するように問い合わされる。もしそうであるならば、障害構成要素の交換が指示される。
【００５０】
もし信号パス上のエラーに装置ハードウェア・エラーが含まれていなければ、リンク又はタイムアウト・エラーのみが報告されている。この状況によって、リンクの性能の劣化と最終的な障害が導かれる。このような場合、アルゴリズムは最初にエラーを報告している要素を探す（ステップ８３７）。すなわち、最初のエラーの優先度が高く、また他のものは最初の発生と関係があると考えられる。複数のエラーが連鎖的に生じている要素がひとたび見つかると、上記したステップ８３２〜８３４と同様に、関連した要素がメンテナンスを必要とすることが示される。そして、ＳＰＤＩＴは報告されたエラーが交換すべき特定の部品に関連づけられているかどうかについて判断するように問い合わされる。もしそうであるならば、障害構成要素の交換が指示される。
【００５１】
もし２つ以上のエラーが単一のパスに含まれていなければ、２つ以上のエラーが多数のパスに生じている。多数のエラーが生じている複数のパス上に任意の共通の要素が存在するかどうかを判断する（ステップ８３８）。もし存在するならば、この場合はそれらのパス上の共通要素分離と（ステップ８３９）、エラー相関／重大度の評価の実行とが必要となる。
【００５２】
共通要素は、ＳＡＮ終端要素及び／又はＳＡＮファブリック要素のいずれか一方であることが可能である。ＳＡＮ終端又はファブリック要素が唯一の共通要素であるかどうかの判断が行われる（ステップ８４０）。もしそうであるならば、ステップ８３２〜８３４と同様に、この共通要素の障害があるものとして示され、メンテナンスが必要とされる。そして、ＳＰＤＩＴは報告されたエラーが交換すべき特定の部品に関連づけられているかどうかについて判断するように問い合わされる。もしそうであるならば、障害構成要素の交換が指示される。
【００５３】
さもなければ、もしＳＡＮ終端又はファブリック要素が唯一の共通要素でなければ、ＳＡＮ終端及びＳＡＮファブリック要素の両方が共通要素である。この状況は、今やステップ８３５での判断の結果に等しく、プロセスはさらに処理を行うためにステップ８３６に分岐する。
【００５４】
もし単一パスに含まれていない２つ以上のエラーがあり、またこれらのエラーに共通の要素が存在しないならば、多数のエラーの各々に対して別々にリアルタイム診断アルゴリズム（ＲＤＡ）が実行される（ステップ８４１）。このことは希ではなるが、実現可能なシンリオがＴＣＷに一つ以上のエラーが受信され、該エラーが別々に障害構成要素が生じる場合に起こりうる。この点で、あたかも各エラーが新しく受信されたエラーであるかのうように各エラーを処理するために、エラー・プロセスはステップ８０４に戻る。
【００５５】
本発明の利点は、上述した本発明の詳細な説明に鑑みて明らかである。ＳＡＮ診断テーブルはＳＡＮトポロジ、固有のファイバ・チャンネル・サービス、及びベンダ特定情報を用いて生成される。本発明は、ＳＡＮ問題判別のためにＦＣ固有バンド内及びホスト／装置特異的バンド外状況／エラー・データ収集の両方をサポートする。そして、リアルタイム診断アルゴリズムはＳＡＮ診断テーブルをトラバースして、障害ＳＡＮ構成要素を分離する。この方法論は有利である。なぜなら、この方法論は管理端末に対する固有のアクセス又は装置診断が障害構成要素を分離する上で必要とされないようにホストのオペレーティング環境に実装することが可能である。さらに、この方法論は、プラットフォームに対して独立しており、またＳＡＮ問題判別のためにＦＣ固有バンド内及びホスト／装置特異的バンド外状況／エラー・データ収集の両方をサポートする。
【００５６】
ここで指摘しておくべき重要なことは、完全に機能しているデータ処理システムというかたちで本発明を説明した一方で、当業者が本発明のプロセスがコンピュータが読み取り可能な媒体の形態及び種々の形態で分配可能であること、また本発明は分配を実行するために実際に使用される信号保持媒体の特定の種類に関わりなく等しく適用されることである。コンピュータが読み取り可能な媒体の例として、フロッピー・ディスク、ハード・ディスク・ドライブ、ＲＡＭ、及びＣＤ−ＲＯＭ等の記録可能型媒体、デジタル及びアナログ通信リンク等の転送型媒体が挙げられる。
【００５７】
以上、本発明の詳細な説明を本発明の例証及び説明を目的として行ったが、記述された形態で本発明を網羅及び限定することを意図したものではない。当業者は本発明の多くの改良例及び変形例を容易に想到することができよう。また、本発明の原理、実質的な用途を最良のかたちで説明するために、また、発明の詳細な説明では、特定の使用形態に適するように様々な修飾が施された様々な実施の形態を当業者が理解可能となるように、実施の形態が選択されて記述されている。
【００５８】
まとめとして、本発明の構成に関して以下の事項を開示する。
（１）ストレージ・エリア・ネットワーク（ＳＡＮ）内でのエラーを処理する方法であって、コンピュータ実行ステップとして、
ＳＡＮトポロジ・マップを生成するステップと、
ＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を生成するステップと、
前記ＳＡＮトポロジ・マップ及びＳＰＤＩＴを用いてＳＡＮ診断テーブル（ＳＤＴ）を生成するステップと、
を有することを特徴とするエラー処理方法。
（２）前記ＳＡＮトポロジ・マップはＳＡＮトポロジ・テーブルを有し、該ＳＡＮトポロジ・テーブルの各々の行が通信アーキテクチャ要素（ＣＡＥ）に対して一意的にマッピングされ、また前記ＳＡＮトポロジ・テーブルの各々の列がＣＡＥに対して一意的にマッピングされており、ＣＡＥはネットワーク・サービス・プロトコルを介して通信アーキテクチャ管理プログラム（ＣＡＭ）によって首尾よく登録されたネットワーク接続装置であり、ＣＡＭは前記ＳＡＮのための問題判別（ＰＤ）機能を有し、またＳＡＮのＰＤ情報テーブル（ＳＰＤＩＴ）を保持し、さらに前記通信アーキテクチャ（ＣＡ）は前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とする上記（１）に記載のエラー処理方法。
（３）前記ＳＰＤＩＴは、前記ＣＡ上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードを有することを特徴とする上記（２）に記載のエラー処理方法。
（４）前記ＣＡ上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードは、プロダクト・ベンダ情報、プロダクト識別子情報、前記プロダクト又は要素によってサポートされた通信リンクの種類に関する情報、及び／又は前記プロダクト又は要素によって報告されるエラー情報の種類に関する情報からなる群から選択される１つ以上のデータ項目をさらに有することを特徴とする上記（３）に記載のエラー処理方法。
（５）前記エラー情報の種類は、前記プロダクト又は要素が拡張リンク・サービス（ＥＬＳ）登録リンク事象レコード（ＲＬＩＲ）をサポートするかどうかを示すことを特徴とする上記（４）に記載のエラー処理方法。
（６）前記ＳＤＴは、前記ＣＡＭによってＣＡＥから受け取ったエラーと前記ＳＡＮトポロジ・マップからの情報とを格納することを特徴とする上記（４）に記載のエラー処理方法。
（７）ストレージ・エリア・ネットワーク（ＳＡＮ）内のエラーを処理する方法であって、コンピュータ実行ステップとして、
通信アーキテクチャ管理プログラム（ＣＡＭ）でのエラー・メッセージ受信するステップと、
リアルタイム診断アルゴリズム（ＲＤＡ）を用いて前記エラー・メッセージを処理するステップとを有し、
前記ＣＡＭは前記ＳＡＮのため問題判別（ＰＤ）機能を有し、該ＣＡＭは前記ＳＡＮのＰＤ情報テーブル（ＳＰＤＩＴ）を保持し、さらに前記ＣＡＭによって管理された通信アーキテクチャ（ＣＡ）は前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とするエラー処理方法。
（８）前記ＣＡをサポートするネットワークは、バンド内ファイバ・チャンネル通信リンクとバンド外通信リンクとを有することを特徴とする上記（７）に記載のエラー処理方法。
（９）前記ＳＡＮは、前記ネットワークに接続した複数のストレージ装置と、
前記ネットワークに接続した複数のホスト・コンピュータとをさらに有し、
前記複数のホスト・コンピュータの少なくとも一つはＣＡＭを有することを特徴とする上記（７）に記載のエラー処理方法。
（１０）ＳＡＮトポロジ・マップを生成するステップと、
前記ＳＡＮトポロジ・マップ及び前記ＳＰＤＩＴを用いてＳＡＮ診断テーブル（ＳＤＴ）を生成するステップとを、さらに有することを特徴とする上記（７）に記載のエラー処理方法。
（１１）すでに前記ＣＡＭによって受信され、かつ前記ＳＤＴに格納された時間的に関連したエラー・メッセージを検索する一方で、時間的制約障害分離判別に対する時間的相関ウィンドウ（ＴＣＷ）の値を用いて前記受信エラー・メッセージを分析するステップと、
すでに前記ＣＡＭによって受信され、かつ前記ＳＤＴに格納された空間的に関連したエラー・メッセージを検索する一方で、空間的制約障害分離判別に対する空間的相関パス・データ構造（ＳＣＰ）を用いて前記受信エラー・メッセージを分析するステップと、
をさらに有することを特徴とする上記（１０）に記載のエラー処理方法。
（１２）前記受信エラー・メッセージによって示されたエラーの種類に応じた重大度重みを用いて前記受信エラー・メッセージを分析するステップを、さらに有することを特徴とする上記（１１）に記載のエラー方法。
（１３）ストレージ・エリア・ネットワーク（ＳＡＮ）においてエラー情報を伝達するためのデータ処理システムであって、
バンド内ファイバ通信リンクとバンド外通信リンクとを有し、かつ通信アーキテクチャ（ＣＡ）をサポートするネットワークと、
前記ネットワークに接続した複数のストレージ装置と、
前記ネットワークに接続した複数のホスト・コンピュータとを有し、さらに、
前記複数のホスト・コンピュータの少なくとも一つは、問題判別（ＰＤ）機能を持つ通信アーキテクチャ管理プログラム（ＣＡＭ）を融資、ＣＡＭはＳＡＮのＰＤ情報テーブル（ＳＰＤＩＴ）を保持し、また前記ＣＡは前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とするデータ処理システム。
（１４）複数のＣＡＭをさらに有し、前記ＣＡはプライマリＣＡＭと１つ以上のセカンダリＣＡＭとを有し、またセカンダリＣＡＭはにプライマリＣＡＭに対して重複的に動作することを特徴とする上記（１３）に記載のデータ処理システム。
（１５）前記ＣＡは、一つ以上のＣＡ要素（ＣＡＥ）と一つ以上のＣＡノン・パーティシパント（ＣＡＮ）とをさらに有し、ＣＡＥはネットワーク・サービス・プロトコルを介してＣＡＭによって首尾よく登録されたネットワーク接続装置であり、ＣＡＮはＳＡＮトポロジ発見プロセスを介して存在することがまだ知られていないＣＡＭによって登録されていないネットワーク接続装置であることを特徴とする上記（１３）に記載のデータ処理システム。
（１６）前記バンド内ファイバ・チャンネル通信リンク及びバンド外通信リンクは、単一の物理的通信リンクによって提供されることを特徴とする上記（１３）に記載のデータ処理システム。
（１７）ストレージ・エリア・ネットワーク（ＳＡＮ）内のエラーを処理するためのデータ処理システムであって、
ＳＡＮトポロジ・マップを生成するための第１の生成手段と、
ＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を生成するための第２の生成手段と、
前記ＳＡＮトポロジ・マップ及び前記ＳＰＤＩＴを用い手ＳＡＮ診断テーブル（ＳＤＴ）を生成するための第３の生成手段とを、
有することを特徴とするデータ処理システム。
（１８）前記ＳＡＮトポロジ・マップはＳＡＮトポロジ・テーブルを有し、該ＳＡＮトポロジ・テーブルの各々の行が通信アーキテクチャ要素（ＣＡＥ）に対して一意的にマッピングされ、また前記ＳＡＮトポロジ・テーブルの各々の列がＣＡＥに対して一意的にマッピングされており、ＣＡＥはネットワーク・サービス・プロトコルを介して通信アーキテクチャ管理プログラム（ＣＡＭ）によって首尾よく登録されたネットワーク接続装置であり、ＣＡＭは前記ＳＡＮのための問題判別（ＰＤ）機能を有し、またＳＡＮのＰＤ情報テーブル（ＳＰＤＩＴ）を保持し、さらに前記通信アーキテクチャ（ＣＡ）は前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とする上記（１７）に記載のデータ処理システム。
（１９）前記ＳＰＤＩＴは、前記ＣＡ上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードを有することを特徴とする上記（１８）に記載のデータ処理システム。
（２０）前記ＣＡ上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードは、プロダクト・ベンダ情報、プロダクト識別子情報、前記プロダクト又は要素によってサポートされた通信リンクの種類に関する情報、及び／又は前記プロダクト又は要素によって報告されるエラー情報の種類に関する情報からなる群から選択される１つ以上のデータ項目をさらに有することを特徴とする上記（１９）に記載のデータ処理システム。
（２１）前記エラー情報の種類は、前記プロダクト又は要素が拡張リンク・サービス（ＥＬＳ）登録リンク事象レコード（ＲＬＩＲ）をサポートするかどうかを示すことを特徴とする上記（２０）に記載のデータ処理システム。
（２２）前記ＳＤＴは、前記ＣＡＭによってＣＡＥから受け取ったエラーと前記ＳＡＮトポロジ・マップからの情報とを格納することを特徴とする上記（２０）に記載のデータ処理システム。
（２３）ストレージ・エリア・ネットワーク（ＳＡＮ）内のエラーを処理するデータ処理システムであって、コンピュータ実行ステップとして、
通信アーキテクチャ管理プログラム（ＣＡＭ）でのエラー・メッセージ受信する受信手段と、
リアルタイム診断アルゴリズム（ＲＤＡ）を用いて前記エラー・メッセージを処理する処理手段とを有し、
前記ＣＡＭは前記ＳＡＮのため問題判別（ＰＤ）機能を有し、該ＣＡＭは前記ＳＡＮのＰＤ情報テーブル（ＳＰＤＩＴ）を保持し、さらに前記ＣＡＭによって管理された通信アーキテクチャ（ＣＡ）は前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とするデータ処理システム。
（２４）前記ＣＡをサポートするネットワークは、バンド内ファイバ・チャンネル通信リンクとバンド外通信リンクとを有することを特徴とする上記（２３）に記載のデータ処理システム。
（２５）前記ＳＡＮは、前記ネットワークに接続した複数のストレージ装置と、
前記ネットワークに接続した複数のホスト・コンピュータとをさらに有し、
前記複数のホスト・コンピュータの少なくとも一つはＣＡＭを有することを特徴とする上記（２３）に記載のデータ処理システム。
（２６）ＳＡＮトポロジ・マップを生成する第１の生成手段と、
前記ＳＡＮトポロジ・マップ及び前記ＳＰＤＩＴを用いてＳＡＮ診断テーブル（ＳＤＴ）を生成する第２の生成手段とを、さらに有することを特徴とする上記（２３）に記載のデータ処理システム。
（２７）すでに前記ＣＡＭによって受信され、かつ前記ＳＤＴに格納された時間的に関連したエラー・メッセージを検索する一方で、時間的制約障害分離判別に対する時間的相関ウィンドウ（ＴＣＷ）の値を用いて前記受信エラー・メッセージを分析する第１の分析手段と、
すでに前記ＣＡＭによって受信され、かつ前記ＳＤＴに格納された空間的に関連したエラー・メッセージを検索する一方で、空間的制約障害分離判別に対する空間的相関パス・データ構造（ＳＣＰ）を用いて前記受信エラー・メッセージを分析する第２の分析手段と、
をさらに有することを特徴とする上記（２６）に記載のデータ処理システム。
（２８）前記受信エラー・メッセージによって示されたエラーの種類に応じた重大度重みを用いて前記受信エラー・メッセージを分析する第３の分析手段を、さらに有することを特徴とする上記（２７）に記載のデータ処理システム。
（２９）ストレージ・エリア・ネットワーク（ＳＡＮ）においてエラー情報を伝達するためのデータ処理システムで使用されるコンピュータ読み取り可能媒体のコンピュータ・プログラム・プロダクトであって、
ＳＡＮトポロジ・マップを生成する第１の命令と、
ＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を生成する第２の命令と、
前記ＳＡＮトポロジ・マップ及びＳＰＤＩＴを用いてＳＡＮ診断テーブル（ＳＤＴ）を生成する第３の命令と、
を有することを特徴とするコンピュータ・プログラム・プロダクト。
（３０）ストレージ・エリア・ネットワーク（ＳＡＮ）においてエラー情報を伝達するためのデータ処理システムで使用されるコンピュータ読み取り可能媒体のコンピュータ・プログラム・プロダクトであって、
通信アーキテクチャ管理プログラム（ＣＡＭ）でのエラー・メッセージ受信する第１の命令と、
リアルタイム診断アルゴリズム（ＲＤＡ）を用いて前記エラー・メッセージを処理する第２の命令とを有し、
前記ＣＡＭは前記ＳＡＮのため問題判別（ＰＤ）機能を有し、該ＣＡＭは前記ＳＡＮのＰＤ情報テーブル（ＳＰＤＩＴ）を保持し、さらに前記ＣＡＭによって管理された通信アーキテクチャ（ＣＡ）は前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とするコンピュータ・プログラム・プロダクト。
【図面の簡単な説明】
【図１】本発明が適用されるデータ処理システムの概略的構成を説明するための模式図である。
【図２】本発明が適用されるサーバ型データ処理システムの内部構成要素の一例を説明するためのブロック図である。
【図３】本発明の好ましい実施の形態にもとづいて実現されたＳＡＮ問題判別方法論に関係するデータ処理システムの通信アーキテクチャを説明するための模式図である。
【図４】本発明の好ましい実施の形態にもとづくＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を説明するための表である。
【図５】ＳＡＮの簡略化したネットワーク・トポロジを説明するためのブロック図である。
【図６】図５に示すＳＡＮのためのトポロジ・マップを提供する表である。
【図７】ＳＡＮのためのＳＡＮ診断テーブルを示す表である。
【図８】様々なエラーに対するリアルタイム診断分析で使用される重みを説明するための表である。
【図９】本発明の好ましい実施の形態にもとづいて単一障害ＳＡＮ要素のＳＡＮ端末間障害分離用リアルタイム診断アルゴリズムのプロセスを説明するためのフローチャートである。
【図１０】本発明の好ましい実施の形態にもとづいて単一障害ＳＡＮ要素のＳＡＮ端末間障害分離用リアルタイム診断アルゴリズムのプロセスを説明するためのフローチャートである。
【図１１】本発明の好ましい実施の形態にもとづいて単一障害ＳＡＮ要素のＳＡＮ端末間障害分離用リアルタイム診断アルゴリズムのプロセスを説明するためのフローチャートである。
【図１２】本発明の好ましい実施の形態にもとづいて単一障害ＳＡＮ要素のＳＡＮ端末間障害分離用リアルタイム診断アルゴリズムのプロセスを説明するためのフローチャートである。
【符号の説明】
１００コンピュータ
１０２ビデオ表示端末
１０４キーボード
１０６マウス
１０９ストレージ装置
２００データ処理システム
２０２プロセッサ
２０３Ｌ２キャッシュ
２０５６ＸＸバス
２０６プロセッサ・カード
２０７プロセッサ
２０８Ｌ２キャッシュ
２１０システム・プレーナ
２１１６ＸＸブリッジ
２１２メモリ・コントローラ
２１３メモリ・カード
２１４ローカル・メモリ
２１５，２１６デュアル・インライン・メモリ・モジュール（ＤＩＭＭ）
２２０，２２１ＰＣＩブリッジ
２２２システム・バス
２２３Ｉ／Ｏ（ＮＩＯ）プレーナ
２２４ネットワーク・アダプタ
２２５，２２６カード・スロット
２２７，２２８ＰＣＩバス
２２９ハード・ディスク
２３０ＳＣＳＩホスト・アダプタ
２３１グラフィック・アダプタ
２３２ＩＳＡブリッジ
２３３ＮＩＯコントローラ
２３４ＩＳＡバス２３３
２３５，２３６シリアル接続
２３７フロッピー・ドライブ接続
２３８キーボード接続
２３９マウス接続
２４０不揮発性ＲＡＭ（ＮＶＲＡＭ）
２４１システム・ファームウェア
２４４サービス・プロセッサ
３００ネットワーク
３０２ WindowsNT（登録商標）サーバ
３０４メインフレーム・コンピュータ
３０６ Unix（登録商標）サーバ
３０８ Linux（登録商標）サーバ
３１１，３１２，２１３ＦＣスイッチ
３２１，３２２，３２３共有ＲＡＩＤ
３２４共有テープ
３２５共有テープ
３３１，３３２，３３３，３３４通信リンク
３４１，３４２，３４３，３４４，３４５，３４６，３４７，３５８，３４９，３５０，３５１バンド内通信リンク
４００ＳＰＤＩＴ
４０１ベンダ属性
４０２プロダクト識別子
４０３情報の種類
４０４記述属性
５０１ＦＣスイッチ
５１１，５１２，５１３ＦＣスイッチポート
５２１，５２２，５２３ＣＡＥ

Claims

ストレージ・エリア・ネットワーク（ＳＡＮ）内でのエラーを処理する方法であって、
コンピュータ実行ステップとして、
（Ａ）通信アーキテクチャ管理プログラム（ＣＡＭ）初期化プロセスを使用して、ＳＡＮトポロジ・マップを生成するステップと、
（Ｂ）各通信アーキテクチャ要素（ＣＡＥ）に関する装置情報を含むＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を生成するステップと、
を有し、
前記ＳＡＮトポロジ・マップは各ＣＡＥのネットワークの接続形態を示すＳＡＮトポロジ・テーブルを有し、該ＳＡＮトポロジ・テーブルの各々の行がＣＡＥに対して一意的にマッピングされ、また前記ＳＡＮトポロジ・テーブルの各々の列がＣＡＥに対して一意的にマッピングされており、
前記ＣＡＥはネットワーク・サービス・プロトコルを介してＣＡＭによって首尾よく登録されたネットワーク接続装置であり、
前記ＣＡＭは、前記ＳＡＮのための問題判別（ＰＤ）機能を有し、またＳＰＤＩＴを保持しており、
（Ｃ）前記ＳＡＮトポロジ・マップ及び前記ＳＰＤＩＴを用いてＳＡＮ診断テーブル（ＳＤＴ）を生成するステップであって、前記ＳＤＴは、前記ＣＡＭによってＣＡＥから受け取ったエラーと前記ＳＡＮトポロジ・マップからの情報とを格納し、前記ＳＤＴは、リアルタイム診断分析（ＲＤＡ）のために使用される、前記生成するステップと、
を有し、
それによって、ＲＤＡアルゴリズムが、前記ＳＤＴを走査して障害を有するＣＡＥを分離することを特徴とするエラー処理方法。
通信アーキテクチャ（ＣＡ）は、前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
前記ＳＰＤＩＴは、前記ＣＡ上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードを有することを特徴とする請求項１に記載のエラー処理方法。
前記ＣＡ上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードは、
プロダクト・ベンダ情報、プロダクト識別子情報、前記プロダクト又は要素によってサポートされた通信リンクの種類に関する情報、及び／又は前記プロダクト又は要素によって報告されるエラー情報の種類に関する情報からなる群から選択される１つ以上のデータ項目を有することを特徴とする請求項２に記載のエラー処理方法。
前記エラー情報の種類は、前記プロダクト又は要素が拡張リンク・サービス（ＥＬＳ）登録リンク事象レコード（ＲＬＩＲ）をサポートするかどうかを示すことを特徴とする請求項３に記載のエラー処理方法。
ストレージ・エリア・ネットワーク（ＳＡＮ）内のエラーを処理する方法であって、コンピュータ実行ステップとして、
（Ａ）通信アーキテクチャ管理プログラム（ＣＡＭ）でのエラー・メッセージを受信するステップを含み、
前記ＣＡＭは、前記ＳＡＮのため問題判別（ＰＤ）機能を有し、各通信アーキテクチャ要素（ＣＡＥ）に関する装置情報を含むＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を保持し、
さらに前記ＣＡＭによって管理された通信アーキテクチャ（ＣＡ）は前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
（Ｂ）ＣＡＭ初期化プロセスを使用して、ＳＡＮトポロジ・マップを生成するステップを含み、
前記ＳＡＮトポロジ・マップは各ＣＡＥのネットワークの接続形態を示すＳＡＮトポロジ・テーブルを有し、該ＳＡＮトポロジ・テーブルの各々の行がＣＡＥに対して一意的にマッピングされ、また前記ＳＡＮトポロジ・テーブルの各々の列がＣＡＥに対して一意的にマッピングされており、
前記ＣＡＥはネットワーク・サービス・プロトコルを介してＣＡＭによって首尾よく登録されたネットワーク接続装置であり、
（Ｃ）リアルタイム診断分析（ＲＤＡ）アルゴリズムを用いて前記エラー・メッセージを処理するステップであって、前記ＲＤＡアルゴリズムは、前記ＳＡＮトポロジ・マップ及び前記ＳＰＤＩＴを用いて生成されたＳＡＮ診断テーブル（ＳＤＴ）を使用し、前記ＳＤＴは、前記ＣＡＭによってＣＡＥから受け取ったエラーと前記ＳＡＮトポロジ・マップからの情報とを格納する、前記処理するステップを有し、
それによって、ＲＤＡアルゴリズムが、前記ＳＤＴを走査して障害を有するＣＡＥを分離することを特徴とするエラー処理方法。
前記ＣＡをサポートするネットワークは、各ＣＡＥ間をファイバ・チャンネル（ＦＣ）スイッチを介して接続するバンド内ファイバ・チャンネル通信リンクと、各ＣＡＥ間をＦＣスイッチを介さずに接続するバンド外通信リンクとを有することを特徴とする請求項５に記載のエラー処理方法。
前記ＳＡＮは、
前記ネットワークに接続した複数のストレージ装置と、
前記ネットワークに接続した複数のホスト・コンピュータと
をさらに有し、
前記複数のホスト・コンピュータの少なくとも一つはＣＡＭを有し、
前記エラー・メッセージの少なくとも一つは、前記複数のストレージ装置と前記複数のホスト・コンピュータのうちの少なくとも一つによって発生することを特徴とする請求項５に記載のエラー処理方法。
すでに前記ＣＡＭによって受信され、かつ前記ＳＤＴに格納された時間的に関連したエラー・メッセージを検索する一方で、時間的制約障害分離判別に対する時間的相関ウィンドウ（ＴＣＷ）の値を用いて前記受信エラー・メッセージを分析するステップと、
すでに前記ＣＡＭによって受信され、かつ前記ＳＤＴに格納された空間的に関連したエラー・メッセージを検索する一方で、空間的制約障害分離判別に対する空間的相関パス・データ構造（ＳＣＰ）を用いて前記受信エラー・メッセージを分析するステップと
をさらに有することを特徴とする請求項５に記載のエラー処理方法。
前記受信エラー・メッセージによって示されたエラーの種類に応じた重大度重みを用いて前記受信エラー・メッセージを分析するステップをさらに有することを特徴とする請求項８に記載のエラー方法。
ストレージ・エリア・ネットワーク（ＳＡＮ）においてエラー情報を伝達するためのデータ処理システムであって、
（Ａ）各通信アーキテクチャ要素（ＣＡＥ）間をファイバ・チャンネル（ＦＣ）スイッチを介して接続するバンド内ファイバ・チャンネル通信リンクと、各ＣＡＥ間をＦＣスイッチを介さずに接続するバンド外通信リンクとを有し、かつ通信アーキテクチャ（ＣＡ）をサポートするネットワークと、
（Ｂ）前記ネットワークに接続した複数のストレージ装置と、
（Ｃ）前記ネットワークに接続した複数のホスト・コンピュータと
を有し、
さらに、
前記複数のホスト・コンピュータの少なくとも一つは、問題判別（ＰＤ）機能を持つ通信アーキテクチャ管理プログラム（ＣＡＭ）を有し、該ＣＡＭは各ＣＡＥに関する装置情報を含むＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を保持し、また前記ＣＡは前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
前記複数のホスト・コンピュータの少なくとも一つはＳＡＮトポロジ・マップを有し、前記ＳＡＮトポロジ・マップは各ＣＡＥのネットワークの接続形態を示すＳＡＮトポロジ・テーブルを有し、該ＳＡＮトポロジ・テーブルの各々の行がＣＡＥに対して一意的にマ
ッピングされ、また前記ＳＡＮトポロジ・テーブルの各々の列がＣＡＥに対して一意的にマッピングされており、
前記ＣＡＥはネットワーク・サービス・プロトコルを介してＣＡＭによって首尾よく登録されたネットワーク接続装置であり、
前記複数のホスト・コンピュータの少なくとも一つはＳＡＮ診断テーブル（ＳＤＴ）を有し、前記ＳＡＮ診断テーブル（ＳＤＴ）は、前記ＳＡＮトポロジ・マップ及び前記ＳＰＤＩＴを用いて生成され、及び前記ＣＡＭによってＣＡＥから受け取ったエラーと前記ＳＡＮトポロジ・マップからの情報とを格納し、
前記ＳＤＴは、リアルタイム診断分析（ＲＤＡ）のために使用され、
それによって、ＲＤＡアルゴリズムが、前記ＳＤＴを走査して障害を有するＣＡＥを分離することを特徴とするデータ処理システム。
複数のＣＡＭを有し、前記ＣＡはプライマリＣＡＭと１つ以上のセカンダリＣＡＭとを有し、またセカンダリＣＡＭはプライマリＣＡＭに対して重複的に動作することを特徴とする請求項１０に記載のデータ処理システム。
前記ＣＡは、一つ以上のＣＡＥと一つ以上のＣＡノン・パーティシパント（ＣＡＮ）とを有し、
ＣＡＥは、ネットワーク・サービス・プロトコルを介してＣＡＭによって首尾よく登録されたネットワーク接続装置であり、
ＣＡＮは、ＳＡＮトポロジ発見プロセスを介して存在することが知られているが、ＣＡＭによって登録されていないネットワーク接続装置である、ことを特徴とする請求項１０に記載のデータ処理システム。
前記バンド内ファイバ・チャンネル通信リンク及びバンド外通信リンクは、単一の物理的通信リンクによって提供されることを特徴とする請求項１０に記載のデータ処理システム。
ストレージ・エリア・ネットワーク（ＳＡＮ）内のエラーを処理するためのデータ処理システムであって、
（Ａ）通信アーキテクチャ管理プログラム（ＣＡＭ）初期化プロセスを使用して、ＳＡＮトポロジ・マップを生成するための第１の生成手段を有し、
前記ＳＡＮトポロジ・マップは各通信アーキテクチャ要素（ＣＡＥ）のネットワークの接続形態を示すＳＡＮトポロジ・テーブルを有し、該ＳＡＮトポロジ・テーブルの各々の行がＣＡＥに対して一意的にマッピングされ、また前記ＳＡＮトポロジ・テーブルの各々
の列がＣＡＥに対して一意的にマッピングされており、
前記ＣＡＥはネットワーク・サービス・プロトコルを介してＣＡＭによって首尾よく登録されたネットワーク接続装置であり、
（Ｂ）各ＣＡＥに関する装置情報を含むＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を生成するための第２の生成手段を有し、
前記ＣＡＭは、前記ＳＡＮのための問題判別（ＰＤ）機能を有し、またＳＰＤＩＴを保持しており、
（Ｃ）前記ＳＡＮトポロジ・マップ及び前記ＳＰＤＩＴを用いてＳＡＮ診断テーブル（ＳＤＴ）を生成するための第３の生成手段であって、前記ＳＤＴは、前記ＣＡＭによってＣＡＥから受け取ったエラーと前記ＳＡＮトポロジ・マップからの情報とを格納し、前記ＳＤＴは、リアルタイム診断分析（ＲＤＡ）のために使用される、前記第３の生成手段を有し、
それによって、ＲＤＡアルゴリズムが、前記ＳＤＴを走査して障害を有するＣＡＥを分離することを特徴とするデータ処理システム。
通信アーキテクチャ（ＣＡ）は前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
前記ＳＰＤＩＴは、前記ＣＡ上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードを有することを特徴とする請求項１４に記載のデータ処理システム。
前記ＣＡ上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードは、
プロダクト・ベンダ情報、プロダクト識別子情報、前記プロダクト又は要素によってサポートされた通信リンクの種類に関する情報、及び／又は前記プロダクト又は要素によって報告されるエラー情報の種類に関する情報からなる群から選択される１つ以上のデータ項目を有することを特徴とする請求項１５に記載のデータ処理システム。
前記エラー情報の種類は、前記プロダクト又は要素が拡張リンク・サービス（ＥＬＳ）登録リンク事象レコード（ＲＬＩＲ）をサポートするかどうかを示すことを特徴とする請求項１６に記載のデータ処理システム。
ストレージ・エリア・ネットワーク（ＳＡＮ）内のエラーを処理するデータ処理システムであって、
（Ａ）通信アーキテクチャ管理プログラム（ＣＡＭ）でのエラー・メッセージを受信する受信手段を有し、
前記ＣＡＭは、前記ＳＡＮのため問題判別（ＰＤ）機能を有し、各通信アーキテクチャ要素（ＣＡＥ）に関する装置情報を含むＳＡＮ問題判別情報テーブル（ＳＰＤＩＴ）を保持し、
さらに前記ＣＡＭによって管理された通信アーキテクチャ（ＣＡ）は前記ＳＰＤＩＴに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
（Ｂ）ＣＡＭ初期化プロセスを使用して、ＳＡＮトポロジ・マップを生成する手段を有し、
前記ＳＡＮトポロジ・マップは各ＣＡＥのネットワークの接続形態を示すＳＡＮトポロジ・テーブルを有し、該ＳＡＮトポロジ・テーブルの各々の行がＣＡＥに対して一意的にマッピングされ、また前記ＳＡＮトポロジ・テーブルの各々の列がＣＡＥに対して一意的にマッピングされており、
前記ＣＡＥはネットワーク・サービス・プロトコルを介してＣＡＭによって首尾よく登録されたネットワーク接続装置であり、
（Ｃ）リアルタイム診断分析（ＲＤＡ）アルゴリズムを用いて前記エラー・メッセージを処理する処理手段であって、前記ＲＤＡアルゴリズムは、前記ＳＡＮトポロジ・マップ及び前記ＳＰＤＩＴを用いて生成されたＳＡＮ診断テーブル（ＳＤＴ）を使用し、前記ＳＤＴは、前記ＣＡＭによってＣＡＥから受け取ったエラーと前記ＳＡＮトポロジ・マップからの情報とを格納する、前記処理する処理手段を有し、
それによって、ＲＤＡアルゴリズムが、前記ＳＤＴを走査して障害を有するＣＡＥを分離することを特徴とするデータ処理システム。
前記ＣＡをサポートするネットワークは、各ＣＡＥ間をファイバ・チャンネル（ＦＣ）スイッチを介して接続するバンド内ファイバ・チャンネル通信リンクと、各ＣＡＥ間をＦＣスイッチを介さずに接続するバンド外通信リンクとを有することを特徴とする請求項１８に記載のデータ処理システム。
前記ＳＡＮは、前記ネットワークに接続した複数のストレージ装置と、
前記ネットワークに接続した複数のホスト・コンピュータと
をさらに有し、
前記複数のホスト・コンピュータの少なくとも一つはＣＡＭを有し、
前記エラー・メッセージの少なくとも一つは、前記複数のストレージ装置と前記複数のホスト・コンピュータのうちの少なくとも一つによって発生することを特徴とする請求項１８に記載のデータ処理システム。
すでに前記ＣＡＭによって受信され、かつ前記ＳＤＴに格納された時間的に関連したエラー・メッセージを検索する一方で、時間的制約障害分離判別に対する時間的相関ウィンドウ（ＴＣＷ）の値を用いて前記受信エラー・メッセージを分析する第１の分析手段と、
すでに前記ＣＡＭによって受信され、かつ前記ＳＤＴに格納された空間的に関連したエラー・メッセージを検索する一方で、空間的制約障害分離判別に対する空間的相関パス・データ構造（ＳＣＰ）を用いて前記受信エラー・メッセージを分析する第２の分析手段と、
をさらに有することを特徴とする請求項１８に記載のデータ処理システム。
前記受信エラー・メッセージによって示されたエラーの種類に応じた重大度重みを用いて前記受信エラー・メッセージを分析する第３の分析手段をさらに有することを特徴とする請求項２１に記載のデータ処理システム。