JP3752150B2 - ストレージ・エリア・ネットワーク(san)内でのエラー処理方法及びデータ処理システム - Google Patents

ストレージ・エリア・ネットワーク(san)内でのエラー処理方法及びデータ処理システム Download PDF

Info

Publication number
JP3752150B2
JP3752150B2 JP2000397033A JP2000397033A JP3752150B2 JP 3752150 B2 JP3752150 B2 JP 3752150B2 JP 2000397033 A JP2000397033 A JP 2000397033A JP 2000397033 A JP2000397033 A JP 2000397033A JP 3752150 B2 JP3752150 B2 JP 3752150B2
Authority
JP
Japan
Prior art keywords
san
error
cam
cae
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000397033A
Other languages
English (en)
Other versions
JP2001249856A (ja
Inventor
バリィ・スタンレィ・バーネット
ダグラス・クレイグ・ボッセン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001249856A publication Critical patent/JP2001249856A/ja
Application granted granted Critical
Publication of JP3752150B2 publication Critical patent/JP3752150B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/022Multivendor or multi-standard integration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Small-Scale Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、改善されたデータ処理システム、特にコンピュータ・ネットワーク管理のための方法及び装置に関する。
【0002】
【関連する技術】
ストレージ・エリア・ネットワーク(SAN)は、複数のホスト・コンピュータが複数のストレージ周辺装置を共用すること、特にファイバ・チャンネル(FC)ネットワーク・スイッチを介してストレージ周辺装置を共用することを可能とする「オープン・システム」ストレージ・アーキテクチャである。FCスイッチ、ホスト・システム、及びストレージ周辺装置は、異なるベンダによって製造されたものであってもよく、また異なるオペレーティング環境を有するものであってもよい。
【0003】
現在、FC SANの端末間問題判別機能又は仕様が求められている。マルチ・ベンダ・システム、ネットワーク・スイッチ、及び周辺装置からなる複雑な構成によって、既存の二点間ストレージ構成よりもSAN環境下で問題判別を実行することが困難である。そのため、SAN環境で障害が生ずることで、システムの動作不能時間が増加するとともにシステムをメンテナンスするための費用も増加するであろう。
【0004】
【発明が解決しようとする課題】
SANに接続し、かつ障害が生じているシステム及び/又は構成要素を識別する障害分離アルゴリズムを取り込む「オープン・システム」、リアルタイム、端末間、エラー検出アーキテクチャを定義する方法及び装置を持つことは有利であろう。
【0005】
【課題を解決するための手段】
ストレージ・エリア・ネットワーク(SAN)で問題判別及び障害分離を行うための方法及びシステムを提供する。マルチ・ベンダ・ホスト・システム、FCスイッチ、及びストレージ周辺装置からなる複雑な構成は、通信アーキテクチャ(CA)を介してSANに接続される。通信アーキテクチャ要素(CAE)は、ネットワーク・サービス・プロトコルを介してホスト・コンピュータ上の通信アーキテクチャ・マネージャー(CAM)によって首尾よく記録されたネットワーク接続装置である。CAMは、SAN用の問題判別(PD)機能を有し、SANのPD情報テーブル(SPDIT)を保守する。CAは、SPDITに格納された情報の伝達を行うことが可能なすべてのネットワーク接続要素を有する。CAMは、SANトポロジ・マップを利用し、またSPDITはSAN診断テーブル(SDT)の生成に使用される。特定の装置において障害を持つ構成要素がエラーを生じ、該エラーによって同一ネットワーク接続パス上にある装置にもエラーが生ずる可能性がある。エラー・パケット又はエラー・メッセージをCAMが受信するので、エラーはSDTに格納され、各エラーをSDT内の他のエラーと時間的かつ空間的に比較することによって各エラーの分析が行われる。もしあるCAEがエラーを生成する候補であると判断されるならば、可能ならばそのCAEを交換するように報告される。
【0006】
【発明の実施の形態】
図1は、本発明が適用されるデータ処理システムの構成を示す模式図である。コンピュータ100は、システム・ユニット110と、ビデオテーブル示端末102と、キーボード104と、フロッピー・ドライブ及び他の種類の固定記憶媒体及び取り外し可能記憶媒体を有するものであってもよいストレージ装置108と、マウス106とを備える。また、コンピュータ100は、さらに別の入力装置を備えることも可能である。コンピュータ100は、任意の適当なコンピュータ、例えばIBM(International Business Machines Corporation (Armonk, New York所在))の製品であるAdvanced Interactive Executive (AIX)・オペレーティング・システムで稼働する同社のRISC/6000システムを用いて実現することができる。また、図示したコンピュータ100はサーバ型のコンピュータであり、本発明の他の実施形態を他のデータ処理システム、例えばワークステーション、ネットワーク・コンピュータ、ウェブ・ベース・テレビジョン・セット−トップ・ボックス、インターネット機器等で実現してもよい。コンピュータ100は、該コンピュータ100で動作するコンピュータ読み取り可能媒体上にあるシステム・ソフトウェアによって実行可能なグラフィカル・ユーザ・インタフェースも含むものであってもよい。
【0007】
なお、図1はあくまでも本発明の一例を示すものであって、本発明のアーキテクチャ的限界を示すものではない。
【0008】
図2は、データ処理システムの内部構成要素の典型的な構成を説明するためのブロック図である。データ処理システム200は、多様なバス構造及びプロトコルを使用する。図に示した例ではPCIバス、ISAバス、及び6XXバスが用いられているが、他のバス・アーキテクチャ及びプロトコルを使用してもよい。
【0009】
プロセッサ・カード201は、プロセッサ202及びL2キャッシュ203を有し、これらは6XXバス205に接続されている。システム200は、複数のプロセッサ・カードを有するものであってもよい。プロセッサ・カード206は、プロセッサ207及びL2キャッシュ208を有する。
【0010】
6XXバス205はシステム・プレーナ210をサポートするもので、該システム・プレーナ210は、6XXブリッジ211と、メモリ・カード213をサポートするメモリ・コントローラ212とを有する。メモリ・カード213は、複数のデュアル・インライン・メモリ・モジュール(DIMM)215及び216から構成されるローカル・メモリ214を有する。
【0011】
6XXブリッジ211は、システム・バス222を介してPCIブリッジ220及び221に接続する。PCIブリッジ220及び221は、種々のI/O構成要素及びインタフェースをサポートする固有のI/O(NIO)プレーナ223上に包含される。PCIブリッジ221は、ネットワーク・アダプタ224及びいくつかのカード・スロット225を通る外部データ・ストリームのための接続がPCIバス227を介して提供される。また、PCIブリッジ220は、PCIバス228を介して多様なI/O装置と接続する。ハード・ディスク229は、PCIバス228と接続するSCSIホスト・アダプタ230と接続してもよい。グラフィック・アダプタ231もまた図示したように直接又は間接的にPCIバス228に接続してもよい。
【0012】
ISAブリッジ232は、PCIバス228を介してPCIブリッジ220と接続する。ISAブリッジ232はISAバス234を介したNIOコントローラ233との相互接続機能、例えばシリアル接続235及び236を提供する。フロッピー・ドライブ接続237は取り外し可能なストレージを提供する。キーボード接続238及びマウス接続239によってデータ処理システム200がユーザから入力データを受け取ることが可能となる。不揮発性RAM(NVRAM)240は、システム破壊又はシステムエラー、例えば電力供給上の問題に対してある種のデータが消えないように保存しておく不揮発性メモリを提供する。システム・ファームウェア241もまたISAバス234と接続されており、初期BIOSを制御する。サービス・プロセッサ244は、ISAバス234と接続されており、システム診断又はシステム・サービスを行うための機能を提供する。
【0013】
サービス・プロセッサ244はエラーを検出し、情報をオペレーティング・システムに渡す。エラーのもとがエラーを検出した時点で合理的確実性で知られていても、あるいは知られていなくてもよい。オペレーティング・システムは、ただエラーをログファイルに書いてもよく、さもなければ報告されたエラーを処理してもよい。
【0014】
当業者は、図2に示すハードウェアがシステム・インプリメンテーションに応じて変わることを理解するであろう。例えば、システムはより多くのプロセッサを有するものであってもよく、また他の周辺機器を図2に示したハードウェアに加えて、あるいは交換して使用してもよい。図示した例は本発明に関してアーキテクチャの限界を意味するものではない。
【0015】
ここで図3を参照する。この図は、本発明の好ましい実施の形態にもとづいて実現されたSAN問題判別方法論に参加するデータ処理システムのための通信アーキテクチャを示す。ネットワーク300は、一組のコンピュータ、スイッチ、及びストレージ装置を有するもので、ストレージ装置は通信アーキテクチャに参加するか、又は参加しなくてもよい。
【0016】
通信アーキテクチャ(CA)は、以下に詳細に説明されるSAN問題判別情報テーブル(SPDIT)に定義された情報のいずれか、又はすべてを伝達することが可能なSAN接続要素のすべてを含む。
【0017】
CAに参加している各SAN接続要素は、CA要素(CAE)と呼ばれる。CAに参加していない要素はいずれもCA不参加者(CAN)と呼ばれる。これらの要素は識別される。なぜなら、それらの要素はSANトポロジに参加しており、それによってシステムの問題判別(PD)機能にも参加している。WindowsNT(商標)サーバ302、メインフレーム・コンピュータ304、Unix(商標)サーバ306、Linux(商標)サーバ308は、CAに参加するコンピュータであり、したがってこれらはCAEである。WindowsNT(商標)サーバ302、メインフレーム・コンピュータ304、Unix(商標)サーバ306、Linux(商標)サーバ308は、様々なクライアントをサポートするホスト・コンピュータでもあり、ストレージ装置へのアクセスを要求してもよい。コンピュータ302〜306の各々は、ホスト・バス・アタッチ(HBA)を有するもので、該HBAはFCホスト用のネットワーク・アダプタの一種である。FCスイッチ311〜313はCAEであり、ストレージ装置のいくつかもCAEである。この例では、共有RAID(独立したディスクの重複アレイ)321〜323及び共有テープ324がCAEであり、一方共有テープ325はCANである。
【0018】
CAは、TCP/IPプロトコルを用いるバンド内通信リンク341〜352によりFCスイッチング・ファブリックを介して通信するか、及び/又はすべてSAN要素共有する通信リンク331〜334上のバンド外TCP/IP通信ネットワークを介して通信することができる。ここで指摘しておくべきことは、図3に示した通信リンクは単一の物理的接続を共有する論理接続であってもよいことである。あるいは、複数の物理的通信リンクによって装置が接続されてもよい。
【0019】
情報を発行及び/又は収集するためにCAによって使用されたプロトコルは、SNMP/MIB(シンプル・ネットワーク・マネジメント・プロトコル/マネージメント・インフォメーション・ベース、モニタされている特定の装置を記述するSNMP構造)及びもととなった固有FCの両方となるように定義される。これら2つのプロトコルを使用することで、装置/ホスト特異的及びSAN特異的情報の両方を収集することが可能となり、次いで端末間問題判別に使用される。
【0020】
通信アーキテクチャ・マネージャー(CAM)は、システムの端末間PD機能が存在する特定のCAEである。SPDITはCAMに存在し、CAEごとにCAMによって自動的に登録される(固有FC及び/又はSNMPサービスを介して)。CAEは、首尾よく登録する要素であり、またCANはCAMによって登録できない要素ではあるがSANトポロジ発見プロセスを介して存在することが知られている。このことについては後でより詳細に説明する。CAMは、端末間問題判別に関係する任意のFC拡張リンク・サービス(ELS)をサポートする。
【0021】
CAMは、プライマリ又はアクティブCAM、及びセカンダリ又はイナクティブCAMとして分類することができる。CAMは、SPDIT及び登録情報を複製する大いに利用可能な要素である。例えば、セカンダリCAM及びプライマリCAMは、もしプライマリCAMがハートビート信号に応答しないことによって失敗したように思われるならば、重複する方法で実行されているセカンダリCAMがプライマリCAMのデューティを想定するように、ハートビート信号を共有してもよい。CAMに対する問題判別インタフェースは、SAN PDアプリケーション・プログラミング・インタフェース(SAN PD API)から構成される。SAN PD APIは、CAMと、CAM情報又はステータスを読むことが可能な任意の他のオペレーティング環境との間の通信インタフェースを定義する。
【0022】
ここで図4を参照する。本発明の好ましい実施の形態にもとづくSAN問題判別情報テーブル(SPDIT)を示すテーブルである。SPDITは、すべての周知のプロダクト/要素とCA上で伝達可能な情報種類とで構成されている。SPDITのフォーマットは、CAに含まれる装置の数、サポートされるプロダクトの種類、装置に関連した情報、その他にかなり依存していると思われる。例えば、SPDITは、図3に示す各々の装置に関する情報を含むであろう。
【0023】
SPDIT400は、以下のレコード項目を含むものであってもよい。すなわち、ベンダ属性401、プロダクト識別子402、情報の種類403、及び記述属性404である。SPDIT400の各レコードは、それらのレコード項目に関するデータを含む。ベンダ属性401は、CA上の特定装置製造者を含む。プロダクト識別子402は、特定の装置を識別するためのベンダによって割り当てられた情報、例えば型の種類、型番号、プロダクト通し番号等である。
【0024】
情報の種類403は、装置によってサポートされた通信リンクの種類、装置によってサポートされたエラー条件又はエラー定義のフォーマット等に関連したデータを含む。記述属性404は、プロダクトによって予想されるべきエラー情報の種類に関する情報を提供する。例えば、もし記述属性レコードが、プロダクトはELS登録リンク発生事象レコード(RLIR)互換性であることのテーブル示のみを含むならば、CAM関連プロセスはプロダクトのバンド外MIBを受け取ることは期待できないであろう。
【0025】
SPDITは、一般にSAN対応周辺機器、ホスト、及びスイッチによって状態/エラー条件を示すことに使われる情報のすべてを含むであろう。これは、固有FCリンク及び拡張リンクエラー定義、さらにMIB定義を含むと思われる。これらの定義は、フィールド置換可能ユニット(FRU)構成要素情報を含むことができ、MIBに位置するか、又はエラー報告プロトコルに組み込まれることができ、また障害構成要素が分離される細分性の決定に使用可能である。
【0026】
すでに指摘したように、CAMはシステムの端末PD機能が存在する特有のCAであり、SPDITが含まれる。CAM初期化プロセスは、バンド内SAN及びバンド外ネットワークの両方に接続したすべてのFCノードの発見及び登録を含む。CAM初期化プロセスは、FCバンド内及びCAバンド外(SNMPを経由)発見/登録プロセスを使用する。このプロセスは、SANのトポロジ・マップ(TM)を提供する。このトポロジ・マップ(TM)は、要素の種類(ホスト、周辺機器、スイッチ)、明示接続/パス、及びそれらの関連ベンダの知識、さらにSPDIT情報を伴って要素が接続した登録及び非登録SANのすべてを含む。
【0027】
ここで図5を参照する。この図では、SANのための簡略化ネットワーク・トポロジが図示されている。FCスイッチ501は、該FCスイッチ501とCAE521〜523の各々との接続点を与えるポート511〜513を有するもので、該ポート511〜513はCAE A、CAE B、及びCAE Cとラベルされている。CAの見地からすれば、FCスイッチポート511〜513はCAEである。なぜなら、これらのポート511〜513は障害を生じたり、又はエラーを生じたりすることが可能であり、エラーのもとと適当に診断された後は取り替えることができる。
【0028】
図6は、図5に示すSANのための簡略化ネットワーク・トポロジのマップを提供するテーブルである。トポロジ・マップ(TM)は2次元のテーブルとしてテーブルされており、左側の欄と上側の欄との両方に、図5のFCスイッチ501のようなスイッチに接続されたSAN要素、CAE及びCAN装置の両方が含まれている。診断セルは、対応の要素及びそれが接続されたスイッチ・ポートに関するSPDIT/種類情報のすべてを含む。他のセルは要素間の方向パスが含まれる。例えば、テーブルはポート3とポート1との間のパスを用いてCAE AとCAE Cとの間の方向パスを示している。多重パスは可能である。トポロジ及び登録発見プロセスは周期的に繰り返されることでTMが正しいことを確実にする。CAMもまた、PFのために使用可能な拡張リンク・サービスを提供する任意のSAN要素によって登録する。
【0029】
図7は、SANのためのSAN診断テーブルを示すものである。SANのTMは、第1エラー・データ収集(FEDC)及びリアルタイム診断分析(RDA)のために使用されるSAN診断テーブル(SDT)を生成するために使われる。図7に示されるSDTは、各スイッチ/ファブリック要素のための追加の行が含まれること以外は、図6に示すTMと同様である。
【0030】
対角線上のSDTセルは、スイッチ・ポートが含まれるそれ自身の行/列に対応するCAEによって報告されたエラーを保持するために使われる。一つのパス、すなわちSDTセルの中の各点は、別のSAN接続要素をテーブルす。各セルは、特定のプロダクト動作が知られ、かつ適当な診断決定が下されるように、TMに収集された情報を含む。例えば、もしバンド外SCSI装置のエラーがバンド内ホスト・バス・アタッチ(HBA)FCリンクのエラーを伴うならば、ストレージ装置はHBAに対してリンクエラーを生じている可能性が高いかどうか等の診断問い合わせが存在してもよい。
【0031】
図7に含まれる模範的なエラー情報は、SDTを用いるRDAのユーティリティを例証するものである。行1は、バンド内FCリンクがタイムアウトであることをCAE Aが報告したことを示している。行3は、CAE C上のバンド外ハードウェア・コントローラエラーを示す。これら2つのエラーは関連している。なぜなら、エラー情報に関連したタイムスタンプによって示されるように、これらは同一タイム・フレーム内で起こるためである。行5はバンド内FCリンクエラーが生じたことを示すが、記憶されたタイムスタンプという条件のもとで、行5は前の2つとは無関係である。したがって、テーブルは2つの異なる問題を示している。すなわち、第1の問題は、CAE Cにおける制御装置のハードウェア障害に関係しており、第2の問題はFCスイッチのCAE 2におけるFCリンク障害である。
【0032】
図8は、種々のエラーに対するリアルタイム診断分析で使用される重みを図示している。RDAアルゴリズムは、FEDC事象が起こるたびに、SDTのエラー報告要素を走査して適当な応答を割り出す。RDAは、障害構成要素を分離するために重み判断分析を使用する。2つの広範囲のカテゴリーがH=最も高い重み、M=中間の重み、L=最も低い重みによって例証される。
【0033】
SDT走査アルゴリズム及びエラー重みはダイナミックであり、SANトポロジの複雑性及びそれに接続した要素の性質に合わせて変えられるであろう。
【0034】
図に示す重みテーブルは、典型的なSAN環境に適用される強弱間の重みスケールを簡単に例証するものである。もしSANがその対応したホスト及び周辺機器でほんのわずかな16ポート・スイッチまで成長するならば、単一のドライブエラー又はHBAタイムアウトエラーによるエラーを報告することができる可能なノード数を増やすことができる。グローバルな端末間RDA診断機能無しで、障害構成要素を分離するタスクは行き当たりばったりになる。マルチ・ベンダSANでは、多数の断続的な、回復可能な装置エラー(すなわちソフトのエラー)がホストによって気づかれなくなることは一般的である。結局、装置は回復不能エラー(すなわちハード・エラー)に遭遇する可能性があり、それはシステムクラッシュをもたらす。本発明によって提供されるバンド内及びバンド外機構は、回復可能なエラーが生ずるとただちにそれを検出して報告するであろう。
【0035】
ここで、図8ないし図12を参照しながら説明する。これらの図は、本発明の好ましい実施の形態にもとづく単一障害SAN要素のSAN端末間障害分離を行うリアルタイム診断アルゴリズム(RDA)のプロセスを説明するためのフローチャートである。TDAは、障害を分離するために2つのダイナミックな機構を使用する。
【0036】
1. 時間相関関係ウィンドウ(TCW)
TCWはスカラーの値であり、すなわち時間の範囲、誤診の可能性が時間次元で最小となるように該時間次元においてSDTの障害分離検索を制限するために使用される。
【0037】
2. 空間相関関係パス(SCP)
SCPはデータ構造であって、誤診の可能性が空間次元で最小となるように、また周知のシステムとサブシステムとの関連が綿密に調べられるように、該データ構造はSDTの空間ドメインにおける障害分離検索を制限するために使用される。SCPはRDAの間、SDTから要素をコピーする。
【0038】
RDAのゴールはかなりの確実性で障害のもとが分離されるまで、時間、場所、及び重大度について、受け取った障害情報のすべてを関連づけることである。このプロセスは、単一の報告された障害、又は一連の報告された障害の後に終了する。
【0039】
単一障害SAN要素のSAN端末間障害分離用の一般的なRDAを以下に説明する。CAMが該CAにあるすべての接続パスをSDTに初期化する時に、プロセスが開始する(ステップ801)。SDTは、すべての接続されたパス、すなわちパスA−−>B、B−−>C、その他によって初期化される。接続可能とすべきそれらのパスだけが入力される。これらのパスはトポロジ・マッピング、例えば図5及び図6に示したTMと同様のTMによって確立される。SANは、接続可能とすべきでないある特定の接続から外すために、完全には接続しない可能性がある。例えば、あるホストは特定のストレージ装置に対するデータの格納及び検索を制限されるかもしれない。システム管理者は、メインフレームがNTデータを破損又は破壊する能力を持たないように、NTホストがデータを特定の装置に格納することを可能とすることができよう。
【0040】
プロセスは、SANのためにTCW及びSCPを初期化することで継続する(ステップ802)。TCWは、時間ウィンドウであり、また時間の値、通常は秒ないし分のオーダーで要求する。SCPは、SDTから選択されたパスのすべてのセットを含んでいる。これらのパスは、周知のホストとストレージ装置との間、ホストとホストの間、ストレージ装置とストレージ装置との間の関係を反映するもので、該関係はトポロジ・マッピングによって確立される。再びここで指摘しておくべきことは、セカンダリCAMはプライマリCAMに格納されているデータ構造及び値を保全することである。
【0041】
続いて、CAMは新たなエラーを受け取り(ステップ803)、RDAを用いてエラーを処理する(ステップ804)。RDAプロセスが終了したかどうかについての判断を行い(ステップ805)、もし終了していなければ、プロセスはステップ803に戻ってさらにエラーを受け取り、かつ処理する。もし終了していれば、SAN端末間障害分離のための初期化プロセスが完了する。
【0042】
図10は、新しいエラーの処理ステップ、例えば図9のステップ804をさらに詳細に説明するフローチャートである。プロセスは、新しいエラーを受け取ることによって開始し(ステップ810)、エラー、エラーが生じた時間、及びエラーの重大度(高、中、低)を報告する構成要素を示すためにSDTが更新される(ステップ811)。エラーが重大度の高いものであるかどうかについて判断を行う(ステップ812)。もし重大度が高ければ、このエラーはメンテナンスを必要とする障害であると直ちに報告される(ステップ813)。続いて、報告されたエラーが交換すべき特定の部品に関連するかどうかについて判断するために、SPDITが問い合わせされる(ステップ814)。もし関連していなければ、高重大度のエラーの処理が完了する。もし関連していれば、障害構成要素の交換が指示され(ステップ815)、高重大度のエラーの処理が完了する。
【0043】
もしエラーが高重大度エラーでなければ、該エラーが中又は低度の重大度からなるエラーであるかどうかについて判断される(ステップ816)。もしそうであるならば、低/中重大度エラーが処理され(ステップ817)、さらに該エラー処理が完了する。
【0044】
もし、エラーが高重大度エラーでも低/中重大度エラーでもなければ、エラーの重大度は誤りとして判断され、該エラーが無視される(ステップ818)。
【0045】
ここで、図11を参照しながら説明する。この図では、図10のステップ817のように、新たな低/中重大度エラーの処理を行う方法をより詳細に説明するためのフローチャートが示されている。SCPは報告されたエラーによって影響を受けるパスを判断するのに用いられる。これらのパスにおいて要素のSDTセルの各々は、新しいエラーを報告している要素を含むもので、前のエラー発生に対して順番に問い合わせられる(ステップ820)。そして、前のエラーの発生が現在のエラーと空間的に関係しているかどうかについて判断される(ステップ821)。そして、問い合わせは前のエラーが現在のエラーと空間と同様に時間的に関係しているかどうかについて判断するためにTCWを使用する(ステップ822)。もし、前のエラーが時間的かつ空間的に関係しているならば、エラーはSCPに格納される(ステップ823)。問い合わせが終了すると、SCPは、時間的制約のなかで生じたSDRの適当なパス上でのすべてのエラーのマッピングが含まれる。
【0046】
SCPのためのデータ構造が組織化され、かつ使用される方法は、システム・インプリメンテーションに応じて変化するものであってもよい。例えば、SDTからの要素は、SCPにコピーされ、データは空間又は時間に関連していないと判断させるので、要素をSCPからデリートすることができる。
【0047】
アルゴリズムは、障害構成要素の位置を分離するためにエラー相関関係/重大度の評価をしなければならない。ここで図12を参照する。この図では、低/中重大度のエラーに対応づけられた障害構成要素についていくつかの可能なケースを説明するフローチャートが示されている。
【0048】
プロセスは、新たに受信されたエラーを生成した現在の要素からすべてのエラーが生ずるかどうかについて判断することから開始する(ステップ830)。もしそうならば、2つ以上のエラーがSCPに存在するかどうかについての判断が行われる(ステップ831)。もしそうでなければ、現在のエラーの処理が完了する。もしそうであるならば、現在の要素はメンテナンスを必要とすることが示される(ステップ832)。次にSPDITは、報告されたエラーが交換すべき特定の部品と対応づけられているかどうかについて判断するために問い合わせられる(ステップ833)。もしそうであるならば、障害構成要素の交換が指示され(ステップ834)、新たに受信され、低/中重度大エラーが処理される。
【0049】
もしすべてのエラーが現在の要素から生ずるならば、すべての(2つの以上の)エラーが単一のパスに含まれるかどうかについて判断がなされる(ステップ835)。この場合、パス内の任意の要素が報告されたエラーの根本原因であるかもしれず、また装置ハードウェア関連のエラーはリンク又はタイムアウト関連のエラーに優先される。エラーに装置ハードウェアエラーが含まれるかどうかについて判断がなされる(ステップ836)。もし装置ハードウェアが見いだされるならば、ステップ832〜834と同様にして、関連した要素がメンテナンスを必要とすることが示される。そして、SPDITは報告されたエラーが交換すべき特定の部品に関連づけられているかどうかについて判断するように問い合わされる。もしそうであるならば、障害構成要素の交換が指示される。
【0050】
もし信号パス上のエラーに装置ハードウェア・エラーが含まれていなければ、リンク又はタイムアウト・エラーのみが報告されている。この状況によって、リンクの性能の劣化と最終的な障害が導かれる。このような場合、アルゴリズムは最初にエラーを報告している要素を探す(ステップ837)。すなわち、最初のエラーの優先度が高く、また他のものは最初の発生と関係があると考えられる。複数のエラーが連鎖的に生じている要素がひとたび見つかると、上記したステップ832〜834と同様に、関連した要素がメンテナンスを必要とすることが示される。そして、SPDITは報告されたエラーが交換すべき特定の部品に関連づけられているかどうかについて判断するように問い合わされる。もしそうであるならば、障害構成要素の交換が指示される。
【0051】
もし2つ以上のエラーが単一のパスに含まれていなければ、2つ以上のエラーが多数のパスに生じている。多数のエラーが生じている複数のパス上に任意の共通の要素が存在するかどうかを判断する(ステップ838)。もし存在するならば、この場合はそれらのパス上の共通要素分離と(ステップ839)、エラー相関/重大度の評価の実行とが必要となる。
【0052】
共通要素は、SAN終端要素及び/又はSANファブリック要素のいずれか一方であることが可能である。SAN終端又はファブリック要素が唯一の共通要素であるかどうかの判断が行われる(ステップ840)。もしそうであるならば、ステップ832〜834と同様に、この共通要素の障害があるものとして示され、メンテナンスが必要とされる。そして、SPDITは報告されたエラーが交換すべき特定の部品に関連づけられているかどうかについて判断するように問い合わされる。もしそうであるならば、障害構成要素の交換が指示される。
【0053】
さもなければ、もしSAN終端又はファブリック要素が唯一の共通要素でなければ、SAN終端及びSANファブリック要素の両方が共通要素である。この状況は、今やステップ835での判断の結果に等しく、プロセスはさらに処理を行うためにステップ836に分岐する。
【0054】
もし単一パスに含まれていない2つ以上のエラーがあり、またこれらのエラーに共通の要素が存在しないならば、多数のエラーの各々に対して別々にリアルタイム診断アルゴリズム(RDA)が実行される(ステップ841)。このことは希ではなるが、実現可能なシンリオがTCWに一つ以上のエラーが受信され、該エラーが別々に障害構成要素が生じる場合に起こりうる。この点で、あたかも各エラーが新しく受信されたエラーであるかのうように各エラーを処理するために、エラー・プロセスはステップ804に戻る。
【0055】
本発明の利点は、上述した本発明の詳細な説明に鑑みて明らかである。SAN診断テーブルはSANトポロジ、固有のファイバ・チャンネル・サービス、及びベンダ特定情報を用いて生成される。本発明は、SAN問題判別のためにFC固有バンド内及びホスト/装置特異的バンド外状況/エラー・データ収集の両方をサポートする。そして、リアルタイム診断アルゴリズムはSAN診断テーブルをトラバースして、障害SAN構成要素を分離する。この方法論は有利である。なぜなら、この方法論は管理端末に対する固有のアクセス又は装置診断が障害構成要素を分離する上で必要とされないようにホストのオペレーティング環境に実装することが可能である。さらに、この方法論は、プラットフォームに対して独立しており、またSAN問題判別のためにFC固有バンド内及びホスト/装置特異的バンド外状況/エラー・データ収集の両方をサポートする。
【0056】
ここで指摘しておくべき重要なことは、完全に機能しているデータ処理システムというかたちで本発明を説明した一方で、当業者が本発明のプロセスがコンピュータが読み取り可能な媒体の形態及び種々の形態で分配可能であること、また本発明は分配を実行するために実際に使用される信号保持媒体の特定の種類に関わりなく等しく適用されることである。コンピュータが読み取り可能な媒体の例として、フロッピー・ディスク、ハード・ディスク・ドライブ、RAM、及びCD−ROM等の記録可能型媒体、デジタル及びアナログ通信リンク等の転送型媒体が挙げられる。
【0057】
以上、本発明の詳細な説明を本発明の例証及び説明を目的として行ったが、記述された形態で本発明を網羅及び限定することを意図したものではない。当業者は本発明の多くの改良例及び変形例を容易に想到することができよう。また、本発明の原理、実質的な用途を最良のかたちで説明するために、また、発明の詳細な説明では、特定の使用形態に適するように様々な修飾が施された様々な実施の形態を当業者が理解可能となるように、実施の形態が選択されて記述されている。
【0058】
まとめとして、本発明の構成に関して以下の事項を開示する。
(1)ストレージ・エリア・ネットワーク(SAN)内でのエラーを処理する方法であって、コンピュータ実行ステップとして、
SANトポロジ・マップを生成するステップと、
SAN問題判別情報テーブル(SPDIT)を生成するステップと、
前記SANトポロジ・マップ及びSPDITを用いてSAN診断テーブル(SDT)を生成するステップと、
を有することを特徴とするエラー処理方法。
(2)前記SANトポロジ・マップはSANトポロジ・テーブルを有し、該SANトポロジ・テーブルの各々の行が通信アーキテクチャ要素(CAE)に対して一意的にマッピングされ、また前記SANトポロジ・テーブルの各々の列がCAEに対して一意的にマッピングされており、CAEはネットワーク・サービス・プロトコルを介して通信アーキテクチャ管理プログラム(CAM)によって首尾よく登録されたネットワーク接続装置であり、CAMは前記SANのための問題判別(PD)機能を有し、またSANのPD情報テーブル(SPDIT)を保持し、さらに前記通信アーキテクチャ(CA)は前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とする上記(1)に記載のエラー処理方法。
(3)前記SPDITは、前記CA上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードを有することを特徴とする上記(2)に記載のエラー処理方法。
(4)前記CA上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードは、プロダクト・ベンダ情報、プロダクト識別子情報、前記プロダクト又は要素によってサポートされた通信リンクの種類に関する情報、及び/又は前記プロダクト又は要素によって報告されるエラー情報の種類に関する情報からなる群から選択される1つ以上のデータ項目をさらに有することを特徴とする上記(3)に記載のエラー処理方法。
(5)前記エラー情報の種類は、前記プロダクト又は要素が拡張リンク・サービス(ELS)登録リンク事象レコード(RLIR)をサポートするかどうかを示すことを特徴とする上記(4)に記載のエラー処理方法。
(6)前記SDTは、前記CAMによってCAEから受け取ったエラーと前記SANトポロジ・マップからの情報とを格納することを特徴とする上記(4)に記載のエラー処理方法。
(7)ストレージ・エリア・ネットワーク(SAN)内のエラーを処理する方法であって、コンピュータ実行ステップとして、
通信アーキテクチャ管理プログラム(CAM)でのエラー・メッセージ受信するステップと、
リアルタイム診断アルゴリズム(RDA)を用いて前記エラー・メッセージを処理するステップとを有し、
前記CAMは前記SANのため問題判別(PD)機能を有し、該CAMは前記SANのPD情報テーブル(SPDIT)を保持し、さらに前記CAMによって管理された通信アーキテクチャ(CA)は前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とするエラー処理方法。
(8)前記CAをサポートするネットワークは、バンド内ファイバ・チャンネル通信リンクとバンド外通信リンクとを有することを特徴とする上記(7)に記載のエラー処理方法。
(9)前記SANは、前記ネットワークに接続した複数のストレージ装置と、
前記ネットワークに接続した複数のホスト・コンピュータとをさらに有し、
前記複数のホスト・コンピュータの少なくとも一つはCAMを有することを特徴とする上記(7)に記載のエラー処理方法。
(10)SANトポロジ・マップを生成するステップと、
前記SANトポロジ・マップ及び前記SPDITを用いてSAN診断テーブル(SDT)を生成するステップとを、さらに有することを特徴とする上記(7)に記載のエラー処理方法。
(11)すでに前記CAMによって受信され、かつ前記SDTに格納された時間的に関連したエラー・メッセージを検索する一方で、時間的制約障害分離判別に対する時間的相関ウィンドウ(TCW)の値を用いて前記受信エラー・メッセージを分析するステップと、
すでに前記CAMによって受信され、かつ前記SDTに格納された空間的に関連したエラー・メッセージを検索する一方で、空間的制約障害分離判別に対する空間的相関パス・データ構造(SCP)を用いて前記受信エラー・メッセージを分析するステップと、
をさらに有することを特徴とする上記(10)に記載のエラー処理方法。
(12)前記受信エラー・メッセージによって示されたエラーの種類に応じた重大度重みを用いて前記受信エラー・メッセージを分析するステップを、さらに有することを特徴とする上記(11)に記載のエラー方法。
(13)ストレージ・エリア・ネットワーク(SAN)においてエラー情報を伝達するためのデータ処理システムであって、
バンド内ファイバ通信リンクとバンド外通信リンクとを有し、かつ通信アーキテクチャ(CA)をサポートするネットワークと、
前記ネットワークに接続した複数のストレージ装置と、
前記ネットワークに接続した複数のホスト・コンピュータとを有し、さらに、
前記複数のホスト・コンピュータの少なくとも一つは、問題判別(PD)機能を持つ通信アーキテクチャ管理プログラム(CAM)を融資、CAMはSANのPD情報テーブル(SPDIT)を保持し、また前記CAは前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とするデータ処理システム。
(14)複数のCAMをさらに有し、前記CAはプライマリCAMと1つ以上のセカンダリCAMとを有し、またセカンダリCAMはにプライマリCAMに対して重複的に動作することを特徴とする上記(13)に記載のデータ処理システム。
(15)前記CAは、一つ以上のCA要素(CAE)と一つ以上のCAノン・パーティシパント(CAN)とをさらに有し、CAEはネットワーク・サービス・プロトコルを介してCAMによって首尾よく登録されたネットワーク接続装置であり、CANはSANトポロジ発見プロセスを介して存在することがまだ知られていないCAMによって登録されていないネットワーク接続装置であることを特徴とする上記(13)に記載のデータ処理システム。
(16)前記バンド内ファイバ・チャンネル通信リンク及びバンド外通信リンクは、単一の物理的通信リンクによって提供されることを特徴とする上記(13)に記載のデータ処理システム。
(17)ストレージ・エリア・ネットワーク(SAN)内のエラーを処理するためのデータ処理システムであって、
SANトポロジ・マップを生成するための第1の生成手段と、
SAN問題判別情報テーブル(SPDIT)を生成するための第2の生成手段と、
前記SANトポロジ・マップ及び前記SPDITを用い手SAN診断テーブル(SDT)を生成するための第3の生成手段とを、
有することを特徴とするデータ処理システム。
(18)前記SANトポロジ・マップはSANトポロジ・テーブルを有し、該SANトポロジ・テーブルの各々の行が通信アーキテクチャ要素(CAE)に対して一意的にマッピングされ、また前記SANトポロジ・テーブルの各々の列がCAEに対して一意的にマッピングされており、CAEはネットワーク・サービス・プロトコルを介して通信アーキテクチャ管理プログラム(CAM)によって首尾よく登録されたネットワーク接続装置であり、CAMは前記SANのための問題判別(PD)機能を有し、またSANのPD情報テーブル(SPDIT)を保持し、さらに前記通信アーキテクチャ(CA)は前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とする上記(17)に記載のデータ処理システム。
(19)前記SPDITは、前記CA上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードを有することを特徴とする上記(18)に記載のデータ処理システム。
(20)前記CA上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードは、プロダクト・ベンダ情報、プロダクト識別子情報、前記プロダクト又は要素によってサポートされた通信リンクの種類に関する情報、及び/又は前記プロダクト又は要素によって報告されるエラー情報の種類に関する情報からなる群から選択される1つ以上のデータ項目をさらに有することを特徴とする上記(19)に記載のデータ処理システム。
(21)前記エラー情報の種類は、前記プロダクト又は要素が拡張リンク・サービス(ELS)登録リンク事象レコード(RLIR)をサポートするかどうかを示すことを特徴とする上記(20)に記載のデータ処理システム。
(22)前記SDTは、前記CAMによってCAEから受け取ったエラーと前記SANトポロジ・マップからの情報とを格納することを特徴とする上記(20)に記載のデータ処理システム。
(23)ストレージ・エリア・ネットワーク(SAN)内のエラーを処理するデータ処理システムであって、コンピュータ実行ステップとして、
通信アーキテクチャ管理プログラム(CAM)でのエラー・メッセージ受信する受信手段と、
リアルタイム診断アルゴリズム(RDA)を用いて前記エラー・メッセージを処理する処理手段とを有し、
前記CAMは前記SANのため問題判別(PD)機能を有し、該CAMは前記SANのPD情報テーブル(SPDIT)を保持し、さらに前記CAMによって管理された通信アーキテクチャ(CA)は前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とするデータ処理システム。
(24)前記CAをサポートするネットワークは、バンド内ファイバ・チャンネル通信リンクとバンド外通信リンクとを有することを特徴とする上記(23)に記載のデータ処理システム。
(25)前記SANは、前記ネットワークに接続した複数のストレージ装置と、
前記ネットワークに接続した複数のホスト・コンピュータとをさらに有し、
前記複数のホスト・コンピュータの少なくとも一つはCAMを有することを特徴とする上記(23)に記載のデータ処理システム。
(26)SANトポロジ・マップを生成する第1の生成手段と、
前記SANトポロジ・マップ及び前記SPDITを用いてSAN診断テーブル(SDT)を生成する第2の生成手段とを、さらに有することを特徴とする上記(23)に記載のデータ処理システム。
(27)すでに前記CAMによって受信され、かつ前記SDTに格納された時間的に関連したエラー・メッセージを検索する一方で、時間的制約障害分離判別に対する時間的相関ウィンドウ(TCW)の値を用いて前記受信エラー・メッセージを分析する第1の分析手段と、
すでに前記CAMによって受信され、かつ前記SDTに格納された空間的に関連したエラー・メッセージを検索する一方で、空間的制約障害分離判別に対する空間的相関パス・データ構造(SCP)を用いて前記受信エラー・メッセージを分析する第2の分析手段と、
をさらに有することを特徴とする上記(26)に記載のデータ処理システム。
(28)前記受信エラー・メッセージによって示されたエラーの種類に応じた重大度重みを用いて前記受信エラー・メッセージを分析する第3の分析手段を、さらに有することを特徴とする上記(27)に記載のデータ処理システム。
(29)ストレージ・エリア・ネットワーク(SAN)においてエラー情報を伝達するためのデータ処理システムで使用されるコンピュータ読み取り可能媒体のコンピュータ・プログラム・プロダクトであって、
SANトポロジ・マップを生成する第1の命令と、
SAN問題判別情報テーブル(SPDIT)を生成する第2の命令と、
前記SANトポロジ・マップ及びSPDITを用いてSAN診断テーブル(SDT)を生成する第3の命令と、
を有することを特徴とするコンピュータ・プログラム・プロダクト。
(30)ストレージ・エリア・ネットワーク(SAN)においてエラー情報を伝達するためのデータ処理システムで使用されるコンピュータ読み取り可能媒体のコンピュータ・プログラム・プロダクトであって、
通信アーキテクチャ管理プログラム(CAM)でのエラー・メッセージ受信する第1の命令と、
リアルタイム診断アルゴリズム(RDA)を用いて前記エラー・メッセージを処理する第2の命令とを有し、
前記CAMは前記SANのため問題判別(PD)機能を有し、該CAMは前記SANのPD情報テーブル(SPDIT)を保持し、さらに前記CAMによって管理された通信アーキテクチャ(CA)は前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有することを特徴とするコンピュータ・プログラム・プロダクト。
【図面の簡単な説明】
【図1】 本発明が適用されるデータ処理システムの概略的構成を説明するための模式図である。
【図2】 本発明が適用されるサーバ型データ処理システムの内部構成要素の一例を説明するためのブロック図である。
【図3】 本発明の好ましい実施の形態にもとづいて実現されたSAN問題判別方法論に関係するデータ処理システムの通信アーキテクチャを説明するための模式図である。
【図4】 本発明の好ましい実施の形態にもとづくSAN問題判別情報テーブル(SPDIT)を説明するための表である。
【図5】 SANの簡略化したネットワーク・トポロジを説明するためのブロック図である。
【図6】 図5に示すSANのためのトポロジ・マップを提供する表である。
【図7】 SANのためのSAN診断テーブルを示す表である。
【図8】 様々なエラーに対するリアルタイム診断分析で使用される重みを説明するための表である。
【図9】 本発明の好ましい実施の形態にもとづいて単一障害SAN要素のSAN端末間障害分離用リアルタイム診断アルゴリズムのプロセスを説明するためのフローチャートである。
【図10】 本発明の好ましい実施の形態にもとづいて単一障害SAN要素のSAN端末間障害分離用リアルタイム診断アルゴリズムのプロセスを説明するためのフローチャートである。
【図11】 本発明の好ましい実施の形態にもとづいて単一障害SAN要素のSAN端末間障害分離用リアルタイム診断アルゴリズムのプロセスを説明するためのフローチャートである。
【図12】 本発明の好ましい実施の形態にもとづいて単一障害SAN要素のSAN端末間障害分離用リアルタイム診断アルゴリズムのプロセスを説明するためのフローチャートである。
【符号の説明】
100 コンピュータ
102 ビデオ表示端末
104 キーボード
106 マウス
109 ストレージ装置
200 データ処理システム
202 プロセッサ
203 L2キャッシュ
205 6XXバス
206 プロセッサ・カード
207 プロセッサ
208 L2キャッシュ
210 システム・プレーナ
211 6XXブリッジ
212 メモリ・コントローラ
213 メモリ・カード
214 ローカル・メモリ
215,216 デュアル・インライン・メモリ・モジュール(DIMM)
220,221 PCIブリッジ
222 システム・バス
223 I/O(NIO)プレーナ
224 ネットワーク・アダプタ
225,226 カード・スロット
227,228 PCIバス
229 ハード・ディスク
230 SCSIホスト・アダプタ
231 グラフィック・アダプタ
232 ISAブリッジ
233 NIOコントローラ
234 ISAバス233
235,236 シリアル接続
237 フロッピー・ドライブ接続
238 キーボード接続
239 マウス接続
240 不揮発性RAM(NVRAM)
241 システム・ファームウェア
244 サービス・プロセッサ
300 ネットワーク
302 WindowsNT(登録商標)サーバ
304 メインフレーム・コンピュータ
306 Unix(登録商標)サーバ
308 Linux(登録商標)サーバ
311,312,213 FCスイッチ
321,322,323 共有RAID
324 共有テープ
325 共有テープ
331,332,333,334 通信リンク
341,342,343,344,345,346,347,358,349,350,351 バンド内通信リンク
400 SPDIT
401 ベンダ属性
402 プロダクト識別子
403 情報の種類
404 記述属性
501 FCスイッチ
511,512,513 FCスイッチポート
521,522,523 CAE

Claims (22)

  1. ストレージ・エリア・ネットワーク(SAN)内でのエラーを処理する方法であって、
    コンピュータ実行ステップとして、
    (A)通信アーキテクチャ管理プログラム(CAM)初期化プロセスを使用して、SANトポロジ・マップを生成するステップと、
    (B)各通信アーキテクチャ要素(CAE)に関する装置情報を含むSAN問題判別情報テーブル(SPDIT)を生成するステップと、
    を有し、
    前記SANトポロジ・マップは各CAEのネットワークの接続形態を示すSANトポロジ・テーブルを有し、該SANトポロジ・テーブルの各々の行がCAEに対して一意的にマッピングされ、また前記SANトポロジ・テーブルの各々の列がCAEに対して一意的にマッピングされており、
    前記CAEはネットワーク・サービス・プロトコルを介してCAMによって首尾よく登録されたネットワーク接続装置であり、
    前記CAMは、前記SANのための問題判別(PD)機能を有し、またSPDITを保持しており、
    (C)前記SANトポロジ・マップ及び前記SPDITを用いてSAN診断テーブル(SDT)を生成するステップであって、前記SDTは、前記CAMによってCAEから受け取ったエラーと前記SANトポロジ・マップからの情報とを格納し、前記SDTは、リアルタイム診断分析(RDA)のために使用される、前記生成するステップと、
    を有し、
    それによって、RDAアルゴリズムが、前記SDTを走査して障害を有するCAEを分離することを特徴とするエラー処理方法。
  2. 通信アーキテクチャ(CA)は、前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
    前記SPDITは、前記CA上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードを有することを特徴とする請求項1に記載のエラー処理方法。
  3. 前記CA上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードは、
    プロダクト・ベンダ情報、プロダクト識別子情報、前記プロダクト又は要素によってサポートされた通信リンクの種類に関する情報、及び/又は前記プロダクト又は要素によって報告されるエラー情報の種類に関する情報からなる群から選択される1つ以上のデータ項目を有することを特徴とする請求項2に記載のエラー処理方法。
  4. 前記エラー情報の種類は、前記プロダクト又は要素が拡張リンク・サービス(ELS)登録リンク事象レコード(RLIR)をサポートするかどうかを示すことを特徴とする請求項3に記載のエラー処理方法。
  5. ストレージ・エリア・ネットワーク(SAN)内のエラーを処理する方法であって、コンピュータ実行ステップとして、
    (A)通信アーキテクチャ管理プログラム(CAM)でのエラー・メッセージを受信するステップを含み、
    前記CAMは、前記SANのため問題判別(PD)機能を有し、各通信アーキテクチャ要素(CAE)に関する装置情報を含むSAN問題判別情報テーブル(SPDIT)を保持し、
    さらに前記CAMによって管理された通信アーキテクチャ(CA)は前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
    (B)CAM初期化プロセスを使用して、SANトポロジ・マップを生成するステップを含み、
    前記SANトポロジ・マップは各CAEのネットワークの接続形態を示すSANトポロジ・テーブルを有し、該SANトポロジ・テーブルの各々の行がCAEに対して一意的にマッピングされ、また前記SANトポロジ・テーブルの各々の列がCAEに対して一意的にマッピングされており、
    前記CAEはネットワーク・サービス・プロトコルを介してCAMによって首尾よく登録されたネットワーク接続装置であり、
    (C)リアルタイム診断分析(RDA)アルゴリズムを用いて前記エラー・メッセージを処理するステップであって、前記RDAアルゴリズムは、前記SANトポロジ・マップ及び前記SPDITを用いて生成されたSAN診断テーブル(SDT)を使用し、前記SDTは、前記CAMによってCAEから受け取ったエラーと前記SANトポロジ・マップからの情報とを格納する、前記処理するステップを有し、
    それによって、RDAアルゴリズムが、前記SDTを走査して障害を有するCAEを分離することを特徴とするエラー処理方法。
  6. 前記CAをサポートするネットワークは、各CAE間をファイバ・チャンネル(FC)スイッチを介して接続するバンド内ファイバ・チャンネル通信リンクと、各CAE間をFCスイッチを介さずに接続するバンド外通信リンクとを有することを特徴とする請求項に記載のエラー処理方法。
  7. 前記SANは、
    前記ネットワークに接続した複数のストレージ装置と、
    前記ネットワークに接続した複数のホスト・コンピュータと
    をさらに有し、
    前記複数のホスト・コンピュータの少なくとも一つはCAMを有し、
    前記エラー・メッセージの少なくとも一つは、前記複数のストレージ装置と前記複数のホスト・コンピュータのうちの少なくとも一つによって発生することを特徴とする請求項に記載のエラー処理方法。
  8. すでに前記CAMによって受信され、かつ前記SDTに格納された時間的に関連したエラー・メッセージを検索する一方で、時間的制約障害分離判別に対する時間的相関ウィンドウ(TCW)の値を用いて前記受信エラー・メッセージを分析するステップと、
    すでに前記CAMによって受信され、かつ前記SDTに格納された空間的に関連したエラー・メッセージを検索する一方で、空間的制約障害分離判別に対する空間的相関パス・データ構造(SCP)を用いて前記受信エラー・メッセージを分析するステップ
    をさらに有することを特徴とする請求項に記載のエラー処理方法。
  9. 前記受信エラー・メッセージによって示されたエラーの種類に応じた重大度重みを用いて前記受信エラー・メッセージを分析するステップをらに有することを特徴とする請求項に記載のエラー方法。
  10. ストレージ・エリア・ネットワーク(SAN)においてエラー情報を伝達するためのデータ処理システムであって、
    (A)各通信アーキテクチャ要素(CAE)間をファイバ・チャンネル(FC)スイッチを介して接続するバンド内ファイバ・チャンネル通信リンクと、各CAE間をFCスイッチを介さずに接続するバンド外通信リンクとを有し、かつ通信アーキテクチャ(CA)をサポートするネットワークと、
    (B)前記ネットワークに接続した複数のストレージ装置と、
    (C)前記ネットワークに接続した複数のホスト・コンピュータと
    を有し、
    さらに、
    前記複数のホスト・コンピュータの少なくとも一つは、問題判別(PD)機能を持つ通信アーキテクチャ管理プログラム(CAM)を有し、該CAMは各CAEに関する装置情報を含むSAN問題判別情報テーブル(SPDIT)を保持し、また前記CAは前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
    前記複数のホスト・コンピュータの少なくとも一つはSANトポロジ・マップを有し、前記SANトポロジ・マップは各CAEのネットワークの接続形態を示すSANトポロジ・テーブルを有し、該SANトポロジ・テーブルの各々の行がCAEに対して一意的にマ
    ッピングされ、また前記SANトポロジ・テーブルの各々の列がCAEに対して一意的にマッピングされており、
    前記CAEはネットワーク・サービス・プロトコルを介してCAMによって首尾よく登録されたネットワーク接続装置であり、
    前記複数のホスト・コンピュータの少なくとも一つはSAN診断テーブル(SDT)を有し、前記SAN診断テーブル(SDT)は、前記SANトポロジ・マップ及び前記SPDITを用いて生成され、及び前記CAMによってCAEから受け取ったエラーと前記SANトポロジ・マップからの情報とを格納し、
    前記SDTは、リアルタイム診断分析(RDA)のために使用され、
    それによって、RDAアルゴリズムが、前記SDTを走査して障害を有するCAEを分離することを特徴とするデータ処理システム。
  11. 複数のCAMを有し、前記CAはプライマリCAMと1つ以上のセカンダリCAMとを有し、またセカンダリCAMはプライマリCAMに対して重複的に動作することを特徴とする請求項10に記載のデータ処理システム。
  12. 前記CAは、一つ以上のCAEと一つ以上のCAノン・パーティシパント(CAN)とを有し、
    CAEは、ネットワーク・サービス・プロトコルを介してCAMによって首尾よく登録されたネットワーク接続装置であり、
    CANは、SANトポロジ発見プロセスを介して存在することが知られているが、CAMによって登録されていないネットワーク接続装置である、ことを特徴とする請求項10に記載のデータ処理システム。
  13. 前記バンド内ファイバ・チャンネル通信リンク及びバンド外通信リンクは、単一の物理的通信リンクによって提供されることを特徴とする請求項10に記載のデータ処理システム。
  14. ストレージ・エリア・ネットワーク(SAN)内のエラーを処理するためのデータ処理システムであって、
    (A)通信アーキテクチャ管理プログラム(CAM)初期化プロセスを使用して、SANトポロジ・マップを生成するための第1の生成手段を有し、
    前記SANトポロジ・マップは各通信アーキテクチャ要素(CAE)のネットワークの接続形態を示すSANトポロジ・テーブルを有し、該SANトポロジ・テーブルの各々の行がCAEに対して一意的にマッピングされ、また前記SANトポロジ・テーブルの各々
    の列がCAEに対して一意的にマッピングされており、
    前記CAEはネットワーク・サービス・プロトコルを介してCAMによって首尾よく登録されたネットワーク接続装置であり、
    (B)各CAEに関する装置情報を含むSAN問題判別情報テーブル(SPDIT)を生成するための第2の生成手段を有し、
    前記CAMは、前記SANのための問題判別(PD)機能を有し、またSPDITを保持しており、
    (C)前記SANトポロジ・マップ及び前記SPDITを用いてSAN診断テーブル(SDT)を生成するための第3の生成手段であって、前記SDTは、前記CAMによってCAEから受け取ったエラーと前記SANトポロジ・マップからの情報とを格納し、前記SDTは、リアルタイム診断分析(RDA)のために使用される、前記第3の生成手段を有し、
    それによって、RDAアルゴリズムが、前記SDTを走査して障害を有するCAEを分離することを特徴とするデータ処理システム。
  15. 通信アーキテクチャ(CA)は前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
    前記SPDITは、前記CA上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードを有することを特徴とする請求項14に記載のデータ処理システム。
  16. 前記CA上の各プロダクト又は要素に対応付けられた少なくとも一つのデータ・レコードは、
    プロダクト・ベンダ情報、プロダクト識別子情報、前記プロダクト又は要素によってサポートされた通信リンクの種類に関する情報、及び/又は前記プロダクト又は要素によって報告されるエラー情報の種類に関する情報からなる群から選択される1つ以上のデータ項目を有することを特徴とする請求項15に記載のデータ処理システム。
  17. 前記エラー情報の種類は、前記プロダクト又は要素が拡張リンク・サービス(ELS)登録リンク事象レコード(RLIR)をサポートするかどうかを示すことを特徴とする請求項16に記載のデータ処理システム。
  18. ストレージ・エリア・ネットワーク(SAN)内のエラーを処理するデータ処理システムであって、
    (A)通信アーキテクチャ管理プログラム(CAM)でのエラー・メッセージを受信する受信手段を有し、
    前記CAMは、前記SANのため問題判別(PD)機能を有し、各通信アーキテクチャ要素(CAE)に関する装置情報を含むSAN問題判別情報テーブル(SPDIT)を保持し、
    さらに前記CAMによって管理された通信アーキテクチャ(CA)は前記SPDITに格納された情報を伝達する能力を有するすべてのネットワーク接続要素を有し、
    (B)CAM初期化プロセスを使用して、SANトポロジ・マップを生成する手段を有し、
    前記SANトポロジ・マップは各CAEのネットワークの接続形態を示すSANトポロジ・テーブルを有し、該SANトポロジ・テーブルの各々の行がCAEに対して一意的にマッピングされ、また前記SANトポロジ・テーブルの各々の列がCAEに対して一意的にマッピングされており、
    前記CAEはネットワーク・サービス・プロトコルを介してCAMによって首尾よく登録されたネットワーク接続装置であり、
    (C)リアルタイム診断分析(RDA)アルゴリズムを用いて前記エラー・メッセージを処理する処理手段であって、前記RDAアルゴリズムは、前記SANトポロジ・マップ及び前記SPDITを用いて生成されたSAN診断テーブル(SDT)を使用し、前記SDTは、前記CAMによってCAEから受け取ったエラーと前記SANトポロジ・マップからの情報とを格納する、前記処理する処理手段を有し、
    それによって、RDAアルゴリズムが、前記SDTを走査して障害を有するCAEを分離することを特徴とするデータ処理システム。
  19. 前記CAをサポートするネットワークは、各CAE間をファイバ・チャンネル(FC)スイッチを介して接続するバンド内ファイバ・チャンネル通信リンクと、各CAE間をFCスイッチを介さずに接続するバンド外通信リンクとを有することを特徴とする請求項18に記載のデータ処理システム。
  20. 前記SANは、前記ネットワークに接続した複数のストレージ装置と、
    前記ネットワークに接続した複数のホスト・コンピュータと
    をさらに有し、
    前記複数のホスト・コンピュータの少なくとも一つはCAMを有し、
    前記エラー・メッセージの少なくとも一つは、前記複数のストレージ装置と前記複数のホスト・コンピュータのうちの少なくとも一つによって発生することを特徴とする請求項18に記載のデータ処理システム。
  21. すでに前記CAMによって受信され、かつ前記SDTに格納された時間的に関連したエラー・メッセージを検索する一方で、時間的制約障害分離判別に対する時間的相関ウィンドウ(TCW)の値を用いて前記受信エラー・メッセージを分析する第1の分析手段と、
    すでに前記CAMによって受信され、かつ前記SDTに格納された空間的に関連したエラー・メッセージを検索する一方で、空間的制約障害分離判別に対する空間的相関パス・データ構造(SCP)を用いて前記受信エラー・メッセージを分析する第2の分析手段と、
    をさらに有することを特徴とする請求項18に記載のデータ処理システム。
  22. 前記受信エラー・メッセージによって示されたエラーの種類に応じた重大度重みを用いて前記受信エラー・メッセージを分析する第3の分析手段をさらに有することを特徴とする請求項21に記載のデータ処理システム。
JP2000397033A 2000-01-06 2000-12-27 ストレージ・エリア・ネットワーク(san)内でのエラー処理方法及びデータ処理システム Expired - Fee Related JP3752150B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/478306 2000-01-06
US09/478,306 US6636981B1 (en) 2000-01-06 2000-01-06 Method and system for end-to-end problem determination and fault isolation for storage area networks

Publications (2)

Publication Number Publication Date
JP2001249856A JP2001249856A (ja) 2001-09-14
JP3752150B2 true JP3752150B2 (ja) 2006-03-08

Family

ID=23899377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000397033A Expired - Fee Related JP3752150B2 (ja) 2000-01-06 2000-12-27 ストレージ・エリア・ネットワーク(san)内でのエラー処理方法及びデータ処理システム

Country Status (5)

Country Link
US (1) US6636981B1 (ja)
EP (1) EP1115225B1 (ja)
JP (1) JP3752150B2 (ja)
AT (1) ATE409996T1 (ja)
DE (1) DE60040382D1 (ja)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8281022B1 (en) * 2000-06-30 2012-10-02 Emc Corporation Method and apparatus for implementing high-performance, scaleable data processing and storage systems
US7401139B1 (en) * 2000-09-07 2008-07-15 International Business Machines Corporation Storage area network management and configuration method and apparatus via enabling in-band communications
US20020165952A1 (en) * 2000-10-20 2002-11-07 Sewell James M. Systems and methods for remote management of diagnostic devices and data associated therewith
US7027411B1 (en) * 2000-10-31 2006-04-11 Hewlett-Packard Development Company, L.P. Method and system for identifying and processing changes to a network topology
US20020129230A1 (en) * 2001-03-08 2002-09-12 Sun Microsystems, Inc. Method, System, and program for determining system configuration information
US6766466B1 (en) * 2001-05-15 2004-07-20 Lsi Logic Corporation System and method for isolating fibre channel failures in a SAN environment
US20020191649A1 (en) * 2001-06-13 2002-12-19 Woodring Sherrie L. Port mirroring in channel directors and switches
US20030055932A1 (en) * 2001-09-19 2003-03-20 Dell Products L.P. System and method for configuring a storage area network
JP4796251B2 (ja) * 2001-09-21 2011-10-19 株式会社日立製作所 ネットワークストレージシステム及びその制御方法
US7349961B2 (en) * 2001-12-07 2008-03-25 Hitachi, Ltd. Detecting configuration inconsistency in storage networks
US7509405B2 (en) 2002-01-30 2009-03-24 Hewlett-Packard Development Company, L.P. Method and apparatus for inferring topology of a network
US6973595B2 (en) 2002-04-05 2005-12-06 International Business Machines Corporation Distributed fault detection for data storage networks
US20030212785A1 (en) * 2002-05-08 2003-11-13 Jibbe Mahmoud K. System and method for isolating faulty connections in a storage area network
US7315960B2 (en) * 2002-05-31 2008-01-01 Hitachi, Ltd. Storage area network system
US20030237017A1 (en) * 2002-06-24 2003-12-25 Jibbe Mahmoud Khaled Component fault isolation in a storage area network
US7260628B2 (en) * 2002-09-06 2007-08-21 Hitachi, Ltd. Event notification in storage networks
US7409583B2 (en) 2002-10-07 2008-08-05 Hitachi, Ltd. Volume and failure management method on a network having a storage device
JP4130615B2 (ja) 2003-07-02 2008-08-06 株式会社日立製作所 ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
JP4202709B2 (ja) 2002-10-07 2008-12-24 株式会社日立製作所 ストレージ装置を有するネットワークにおける、ボリューム及び障害管理方法
US7961594B2 (en) * 2002-10-23 2011-06-14 Onaro, Inc. Methods and systems for history analysis for access paths in networks
US7546333B2 (en) * 2002-10-23 2009-06-09 Netapp, Inc. Methods and systems for predictive change management for access paths in networks
US7617320B2 (en) * 2002-10-23 2009-11-10 Netapp, Inc. Method and system for validating logical end-to-end access paths in storage area networks
US6909992B2 (en) * 2002-11-05 2005-06-21 Sun Microsystems, Inc. Automatically identifying replacement times for limited lifetime components
CN100375434C (zh) * 2002-12-20 2008-03-12 国际商业机器公司 非置信服务器环境中san管理的安全系统和方法
JP2004259079A (ja) * 2003-02-27 2004-09-16 Hitachi Ltd データ処理システム
JP4294353B2 (ja) * 2003-03-28 2009-07-08 株式会社日立製作所 ジョブ管理機能を有するストレージ系障害管理方法及び装置
WO2004093391A1 (ja) 2003-04-10 2004-10-28 Fujitsu Limited 関係管理制御プログラム、装置、及びシステム
US8560671B1 (en) * 2003-10-23 2013-10-15 Netapp, Inc. Systems and methods for path-based management of virtual servers in storage network environments
US7383313B2 (en) * 2003-11-05 2008-06-03 Hitachi, Ltd. Apparatus and method of heartbeat mechanism using remote mirroring link for multiple storage system
US7610372B2 (en) * 2004-01-27 2009-10-27 Ricoh Company, Ltd. Method and system for managing vendor and model information in a multi-protocol remote monitoring system
JP2005258632A (ja) * 2004-03-10 2005-09-22 Hitachi Ltd ネットワークストレージ装置の導通確認方法およびホスト計算機
US20060129998A1 (en) * 2004-03-31 2006-06-15 Danilo Florissi Method and apparatus for analyzing and problem reporting in storage area networks
JP4495508B2 (ja) * 2004-04-23 2010-07-07 株式会社日立製作所 計算機システムの構成管理方法および構成管理装置
EP1751668A4 (en) * 2004-04-23 2016-06-15 Onaro METHODS AND SYSTEMS FOR HISTORICAL ANALYSIS AND MANAGEMENT OF PREDICTIVE CHANGES OF ACCESS PATHWAYS IN NETWORKS
US7404108B2 (en) * 2004-08-06 2008-07-22 International Business Machines Corporation Notification method and apparatus in a data processing system
DE102004041898A1 (de) * 2004-08-30 2006-03-09 Siemens Ag Verfahren und Vorrichtung zur Diagnose bei Servicesystemen für technische Anlagen
JP2006072717A (ja) * 2004-09-02 2006-03-16 Hitachi Ltd ディスクサブシステム
US7457871B2 (en) * 2004-10-07 2008-11-25 International Business Machines Corporation System, method and program to identify failed components in storage area network
US7188346B2 (en) 2004-11-29 2007-03-06 International Business Machines Corporation Method, system and program product for correlating data between operating environments
US20060174167A1 (en) * 2005-01-28 2006-08-03 Hitachi, Ltd. Self-creating maintenance database
US7489639B2 (en) * 2005-03-23 2009-02-10 International Business Machines Corporation Root-cause analysis of network performance problems
US20070030415A1 (en) * 2005-05-16 2007-02-08 Epstein Kenneth A Back-lit displays with high illumination uniformity
US20060271677A1 (en) * 2005-05-24 2006-11-30 Mercier Christina W Policy based data path management, asset management, and monitoring
EP1943594A4 (en) * 2005-09-27 2009-12-16 Onaro METHOD AND SYSTEMS FOR VALIDATING ACCESSIBILITY AND UPDATED REPLICATED DATA
US7793138B2 (en) * 2005-12-21 2010-09-07 Cisco Technology, Inc. Anomaly detection for storage traffic in a data center
US7607043B2 (en) * 2006-01-04 2009-10-20 International Business Machines Corporation Analysis of mutually exclusive conflicts among redundant devices
US7395187B2 (en) 2006-02-06 2008-07-01 International Business Machines Corporation System and method for recording behavior history for abnormality detection
JP5068023B2 (ja) * 2006-03-29 2012-11-07 株式会社日立製作所 計算機システム及び論理パス切替方法
FR2901648A1 (fr) * 2006-05-29 2007-11-30 France Telecom Diffusion d'images utilisant un canal de retour
US7720889B1 (en) * 2006-10-31 2010-05-18 Netapp, Inc. System and method for nearly in-band search indexing
JP4949804B2 (ja) * 2006-11-07 2012-06-13 株式会社日立製作所 統合管理計算機と記憶装置管理方法および計算機システム
US8826032B1 (en) 2006-12-27 2014-09-02 Netapp, Inc. Systems and methods for network change discovery and host name resolution in storage network environments
US8332860B1 (en) 2006-12-30 2012-12-11 Netapp, Inc. Systems and methods for path-based tier-aware dynamic capacity management in storage network environments
US8868495B2 (en) * 2007-02-21 2014-10-21 Netapp, Inc. System and method for indexing user data on storage systems
US9042263B1 (en) 2007-04-06 2015-05-26 Netapp, Inc. Systems and methods for comparative load analysis in storage networks
US8832495B2 (en) 2007-05-11 2014-09-09 Kip Cr P1 Lp Method and system for non-intrusive monitoring of library components
US8204980B1 (en) * 2007-06-28 2012-06-19 Emc Corporation Storage array network path impact analysis server for path selection in a host-based I/O multi-path system
US20090172012A1 (en) * 2007-12-28 2009-07-02 Chellam Sudhakar V Methodology to derive enterprise relationships for generating a topology view in a SOA environment
EP2248003A1 (en) 2007-12-31 2010-11-10 Netapp, Inc. System and method for automatic storage load balancing in virtual server environments
US8447719B2 (en) * 2008-01-14 2013-05-21 Hewlett-Packard Development Company, L.P. Compilation of causal rules into continuations
US20090183030A1 (en) * 2008-01-14 2009-07-16 Bethke Bob Episodic cause analysis
US8180718B2 (en) * 2008-01-14 2012-05-15 Hewlett-Packard Development Company, L.P. Engine for performing root cause and effect analysis
US7974215B1 (en) 2008-02-04 2011-07-05 Crossroads Systems, Inc. System and method of network diagnosis
US8365019B2 (en) * 2009-06-16 2013-01-29 International Business Machines Corporation System and method for incident management enhanced with problem classification for technical support services
US8181069B2 (en) * 2009-09-08 2012-05-15 International Business Machines Corporation Method and system for problem determination using probe collections and problem classification for the technical support services
US9866633B1 (en) * 2009-09-25 2018-01-09 Kip Cr P1 Lp System and method for eliminating performance impact of information collection from media drives
US8631281B1 (en) 2009-12-16 2014-01-14 Kip Cr P1 Lp System and method for archive verification using multiple attempts
US9015362B2 (en) 2010-07-16 2015-04-21 International Business Machines Corporation Monitoring network performance and detecting network faults using round trip transmission times
US8549361B2 (en) * 2010-12-21 2013-10-01 Netapp, Inc. System and method for construction, fault isolation, and recovery of cabling topology in a storage area network
US9329790B2 (en) * 2010-12-27 2016-05-03 International Business Machines Corporation Method and system for managing a storage network to reduce power consumption
JP5983420B2 (ja) * 2013-01-18 2016-08-31 富士通株式会社 故障通知装置、故障通知方法、及び故障通知プログラム
US9256500B2 (en) * 2013-04-12 2016-02-09 Oracle International Corporation Physical domain error isolation and recovery in a multi-domain system
WO2015023286A1 (en) * 2013-08-15 2015-02-19 Hewlett-Packard Development Company, L.P. Reactive diagnostics in storage area networks
US9258242B1 (en) 2013-12-19 2016-02-09 Emc Corporation Path selection using a service level objective
RU2013156784A (ru) 2013-12-20 2015-06-27 ИЭмСи КОРПОРЕЙШН Способ и устройство выбора маршрута чтения и записи данных
WO2017078662A1 (en) * 2015-11-02 2017-05-11 Hewlett Packard Enterprise Development Lp Storage area network diagnostic data
US11042320B2 (en) 2019-02-18 2021-06-22 International Business Machines Corporation Problem diagnosis in complex SAN environments

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3734051B2 (ja) * 1995-09-28 2006-01-11 日立ソフトウエアエンジニアリング株式会社 ネットワーク管理システム
US5835720A (en) * 1996-05-17 1998-11-10 Sun Microsystems, Inc. IP discovery apparatus and method
US5832196A (en) * 1996-06-28 1998-11-03 Mci Communications Corporation Dynamic restoration process for a telecommunications network
US5926463A (en) * 1997-10-06 1999-07-20 3Com Corporation Method and apparatus for viewing and managing a configuration of a computer network
US6256740B1 (en) * 1998-02-06 2001-07-03 Ncr Corporation Name service for multinode system segmented into I/O and compute nodes, generating guid at I/O node and exporting guid to compute nodes via interconnect fabric
US6230281B1 (en) * 1998-08-26 2001-05-08 Lucent Technologies, Inc. Geographic redundancy protection method and apparatus for a communications network
US6108702A (en) * 1998-12-02 2000-08-22 Micromuse, Inc. Method and apparatus for determining accurate topology features of a network
US6349333B1 (en) * 1998-12-04 2002-02-19 Sun Microsystems, Inc. Platform independent alarm service for manipulating managed objects in a distributed network management system
US6243746B1 (en) * 1998-12-04 2001-06-05 Sun Microsystems, Inc. Method and implementation for using computer network topology objects
US6356282B2 (en) * 1998-12-04 2002-03-12 Sun Microsystems, Inc. Alarm manager system for distributed network management system
US6115361A (en) * 1999-01-06 2000-09-05 Mcdata Corporation Link incident reporting extended link service for networks

Also Published As

Publication number Publication date
DE60040382D1 (de) 2008-11-13
JP2001249856A (ja) 2001-09-14
EP1115225B1 (en) 2008-10-01
ATE409996T1 (de) 2008-10-15
EP1115225A2 (en) 2001-07-11
US6636981B1 (en) 2003-10-21
EP1115225A3 (en) 2004-11-24

Similar Documents

Publication Publication Date Title
JP3752150B2 (ja) ストレージ・エリア・ネットワーク(san)内でのエラー処理方法及びデータ処理システム
US8060650B2 (en) Diagnosing a path in a storage network
US7664986B2 (en) System and method for determining fault isolation in an enterprise computing system
US7668981B1 (en) Storage paths
US8843789B2 (en) Storage array network path impact analysis server for path selection in a host-based I/O multi-path system
US6292905B1 (en) Method for providing a fault tolerant network using distributed server processes to remap clustered network resources to other servers during server failure
US6865157B1 (en) Fault tolerant shared system resource with communications passthrough providing high availability communications
US6701449B1 (en) Method and apparatus for monitoring and analyzing network appliance status information
US20030191992A1 (en) Distributed fault detection for data storage networks
JP4433967B2 (ja) マルチサイト上の遠隔二重化リンクを経由するハートビート装置、及びその使用方法
US6594775B1 (en) Fault handling monitor transparently using multiple technologies for fault handling in a multiple hierarchal/peer domain file server with domain centered, cross domain cooperative fault handling mechanisms
US6718481B1 (en) Multiple hierarichal/peer domain file server with domain based, cross domain cooperative fault handling mechanisms
US7607043B2 (en) Analysis of mutually exclusive conflicts among redundant devices
US7281040B1 (en) Diagnostic/remote monitoring by email
JP5215840B2 (ja) 非同期イベント通知
JP3880477B2 (ja) ネットワーク調査中に不良ネットワーク構成要素を識別する方法
US7315963B2 (en) System and method for detecting errors in a network
CN107870832B (zh) 基于多维度健康诊断方法的多路径存储设备
US20030158933A1 (en) Failover clustering based on input/output processors
US5761428A (en) Method and aparatus for providing agent capability independent from a network node
CA2275235A1 (en) Improved distributed remote monitoring (drmon) for networks
US20070143583A1 (en) Apparatus, system, and method for automatically verifying access to a mulitipathed target at boot time
US7860015B1 (en) Methods and apparatus for physical and logical SAN fabric analysis
US7606986B1 (en) System and method for resolving SAN fabric partitions
US20070073828A1 (en) Apparatus, system, and method for link layer message transfer over a durable and shared medium

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20031222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040120

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20040213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040213

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040419

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040430

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041116

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20041124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050210

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050210

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20050210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050210

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051110

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20051110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081216

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091216

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091216

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101216

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101216

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111216

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121216

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121216

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131216

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees