JP2006236331A - 保存領域ネットワークの分析と問題報告の方法及び装置 - Google Patents

保存領域ネットワークの分析と問題報告の方法及び装置 Download PDF

Info

Publication number
JP2006236331A
JP2006236331A JP2006017462A JP2006017462A JP2006236331A JP 2006236331 A JP2006236331 A JP 2006236331A JP 2006017462 A JP2006017462 A JP 2006017462A JP 2006017462 A JP2006017462 A JP 2006017462A JP 2006236331 A JP2006236331 A JP 2006236331A
Authority
JP
Japan
Prior art keywords
events
san
components
storage
observable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006017462A
Other languages
English (en)
Inventor
Danilo Florissi
フローリシ,ダニーロ
Patricia Florissi
フローリシ,パトリシア
Prasanna Patil
パティル,プラサナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Publication of JP2006236331A publication Critical patent/JP2006236331A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/02Protocol performance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】SANの故障原因やその影響の分析やモデル化の方法を提供する。
【解決手段】複数のコンポーネントから1つを選択し、SANに関係するコンポーネント間の関係を表現するステップと、コンポーネント間で発生する複数の事象と複数の可観察事象の間のマッピング処理を施すステップと、そのマッピング処理に基づいてシステム分析を実行するステップとを含んでいる。マッピング処理は各事象を各可観察事象と関連づける値として表示されている。また、SANが複数の論理的ドメインである大型システムに含まれている場合の分析方法と分析装置が開示され、複数のコンポーネントからコンポーネントを選択するステップと、コンポーネント間の関係を表現するステップと、コンポーネント間で発生する複数の事象と複数の可観察事象の間のマッピングステップ処理を施すステップと、そのマッピング処理に基づいてシステム分析を実行するステップとを含んでいる。
【選択図】図4

Description

本発明はコンピュータネットワークに関する。特には、保存領域(ストレージエリア)ネットワークのモデル化並びに分析装置と分析方法とに関する。
優先権主張
本出願は2004年3月31日出願の米国特許願10/813842「多領域システムモデル化の方法と装置」の一部継続出願であり、35USC120に基づく優先権を主張するものであり、その内容を本明細書に援用しており、2005年1月26日出願の米国仮特許願60/647107「保存領域ネットワークの分析と問題報告の方法及び装置」の35USC119(e)に基づく優先権を主張するものであり、その内容を本明細書に援用する。
関連出願
本願は、1994年5月25日出願の米国特許5528516の継続である1995年6月6日出願の特許願08/465754の継続である1996年7月12日出願の米国特許5661668の継続である1997年7月15日出願の米国特許6249755の継続である1994年5月25日出願の米国特許5528516の継続である1995年6月6日出願の米国特許願08/465754の継続である1996年7月12日出願の米国特許5661668の継続である1997年7月15日出願の米国特許6249755の継続である2001年3月16日出願の米国特許願09/809769の継続である2003年3月27日出願の米国特許6868367の永続である米国特許願11/077932「事件相関と問題報告のための装置及び方法」に関連する。以上の文献の内容を本明細書に援用する。
発明の背景
ストレージエリアネットワーク(SAN)は、さほど費用をかけず、再構築によるサービス中断を最低限度に留めて大量の保存性能を追加することによりサーバー能力を大幅に増大させた。しかし、SAN性能及び/又は利用可能性を分析する能力は採用されたモデルにより制限されてきた。SAN対象物やSAN関連物に特に適した系統的な行動モデルが存在しないため、いくつかの重要な分析が制限される。例えば、SAN内や、システム全体及び/又はSAN部材内での故障/不調のアプリケーションに対する影響を決定することは困難である。別例としては、SAN部材、システム全体及び/又はアプリケーションに対して症状を引き起こす原因の決定は困難である。
従って、故障/不調原因や、そのような故障/不調の影響を決定するため、ストレージエリアネットワーク(SAN)の分析とモデル化のための方法とシステムとが産業的に求められている。
従って、故障/不調原因や、そのような故障/不調の影響を決定するため、ストレージエリアネットワーク(SAN)の分析とモデル化のための方法とシステムとが産業的に求められている。
発明の概要
SANを論理的に表し、分析する方法と装置とが開示されている。この方法は、SANと関連する複数の機器から対象機器を選択するステップと、選択された機器間の関連性を表現するステップとを含んでいる。さらに、複数の事象と、それら機器間で発生する複数の可観察事象との間でマッピング処理を施すステップを含んでいる。このマッピング処理は各事象を各可観察事象と関連付ける値として表される。この方法はさらに、事象と可観察事象のマッピング処理に基づいてシステム分析するステップを含む。本発明の別特徴では、SANを表し、SANに対する分析を実行する方法と装置が開示される。そこでは複数のドメインとして論理的に表現される大型システムに含まれるSANが開示される。本発明のこの特徴では、方法は複数の機器から選択された機器と、それら機器間の関係を表現するステップを含んでおり、それら機器のうちで少なくとも1つの機器が少なくとも2つのドメインと関連し、複数の事象と、それら機器間で発生する複数の可観察事象との間でマッピング処理を施すステップを含んでいる。このマッピング処理ステップは各事象を各可観察事象と関連させる値として表現される。この方法はさらに、事象と可観察事象のマッピング処理に基づいてシステム分析を実行するステップを含んでいる。
図1はSAN100の1例であり、コンピュータシステム110はネットワーク120として表される通信パスを通ってサーバー130と情報の交換を行う。サーバー130はさらにネットワーク140を介して複数の保存媒体150.1・・・150.nと通信する。それら媒体は1つの大型保存スペースとして論理的に示される。注目すべきは、2つのサーバーが同一SANに装着されることである。1つのSANの使用は有利である。なぜなら、ネットワークに追加の保存媒体を加えることで保存能力の増強ができるからである。図1の場合には、ネットワーク120はインターネット等のネットワークであり、それはIPベースプロトコールを使用する。ネットワーク140はファイバーチャンネル(FC)ベースプロトコールを使用したネットワークであってもよい。ファイバーチャンネルベースプロトコールはSANのために開発された。高速アクセスと大型バンドパスを提供するからである。近年、IPベースネットワークがサーバー130と保存媒体150.1・・・150.nとの通信をサポートするために使用されている。SAN、ファイバーチャンネルプロトコール及びIPプロトコールは良く知られており、説明は不要であろう。

図2AはIPネットワークの論理図である。この場合、ネットワーク120は、ホストまたはコンピュータシステム110とファイルサーバー130との通信を提供する。さらにコンピュータシステム110に“ホスト”されたアプリケーション235と、ファイルサーバー130に“ホスト”されたファイルシステム240とが図示されている。アプリケーション235とファイルシステム240は、それぞれのホストデバイスで独立的に実行されるソフトウェアプログラムを提供する。データファイル245はアプリケーション235とファイルシステム240との間の関係を表示する。
図2Bは、図2Aで示すIPネットワークのマッピングを図示する。アプリケーション235によって、知られた読み取り及び/又は書き込み操作で複数のデータファイル245.1・・・245.kがアクセスされる。このアクセスは“レイヤードオーバーリレーションシップ”と呼称されるアプリケーションとファイルとの間の関連性で表現することができよう。ファイルシステム240がアプリケーション235からファイル245によって提供された情報を受領でき、アプリケーション235に情報を提供できるマネージャ機能を提供することも図示されている。この場合、ファイルシステム240はファイルシステム240とファイル245との間の関係によって表すことができる。この関係も“レイヤードオーバーリレーションシップ”と呼称される。本願の場合、“レイヤードオーバーリレーションシップ”は対象機器類として表される複数の対象機器間の相互依存性を表す。
図2Aにはそれぞれハードウェアエレメントとソフトウェアエレメントを含むドメイン210と230が図示されている。この場合、IPドメインと呼称されるドメイン210は、ハードウェアエレメントまたはフィジカルエレメントコンピュータシステム110、IPネットワーク120、そしてファイルサーバー130を含む。アプリケーションドメインと呼称されるドメイン230は、非フィジカルソフトウェアエレメントアプリケーション235、データファイル245、ファイルシステム240、ハードウェアまたはフィジカルエレメントコンピュータシステム110並びにファイルシステム130を含む。図示のごとく、コンピュータシステム110とファイルシステム130は両ドメイン内に含まれ、ドメインインターセクションまたはドメインアソシエーションと呼称される。ドメインアソシエーションは図4に関して詳述する。
図3Aは例示的SANドメイン並びに関連IPとアプリケーションのドメインの論理図である。この例ではIPネットワークのエレメント、すなわちコンピュータシステム110、ネットワーク120、ファイルサーバー130、及びソフトウェア235、240は図2Aで示す通りであり、ホストシステム315及びストレージアレイ350ともSAN310を介して通信状態である。ストレージアレイ350は論理的にディスク150.1・・・150.nである(図1参照)。ホスト315はストレージプールのマネージャであり、ストレージプール管理のためにソフトウェア320を実行する。ストレージディスク150はエクステント340と呼ばれる論理エレメントに分割される。これらはストレージボリューム330である別な論理エンティティに配分される。ストレージボリューム330へのエクステント340の配分はストレージプールマネージャ(図示せず)により実行される。
特に、エクステント340はディスク、メモリ、等々の配分ユニットであり、伝統的なストレージブロックコンセプトを一般化させる。ボリュームはエクステント340を含み、ファイルシステムのバーチャルスペースの創出に使用される。例えば、ドライブC:、D:、E:等々への言及は、例えばマイクロソフトウィンドーズ操作システム内でロジカルボリュームラベルと関連させることができる。マイクロソフトとウィンドーは米国ワシントン州レッドモンドのマイクロソフトコーポレーションの登録商標である。
ストレージプール320は複数のエクステント340であり、管理目的で使用される。この場合、ボリュームの配分が望まれれば、ストレージプールマネージャは複数のエクステント340を選択し、ボリューム330として選択エクステント340を指定する。よって、ファイルシステム240(図2)はそのファイルを保存するためにストレージボリュームを配分することができる。ストレージボリューム330とエクステント340はフィジカルストレージデバイスと論理的に関連した周知のコンセプトである。
図3BはSAN利用例を図示する。ファイルサーバー130.1・・・130.nはそれぞれ複数のルータスイッチ317.1・・・317.mと通信状態である。それぞれのルータスイッチ317.1・・・317.mはストレージメディアムアレイ350.1・・・350.pと通信状態である。
図3Cは例示的なストレージメディアアレイ350.1の例えば利用法を図示する。この例では、ストレージメディアアレイ350.1はストレージディスクメディア150または複数のストレージメディア150.1から150.nまでにより構成されている。それぞれのストレージディスクメディア150はロジカルストレージエクステント340.1から340.qまでに分割される。
図3Dは、エクステント340と関連するストレージボリューム330のリソースを配分する例示的なファイルシステム240を図示する。この例では、ストレージボリューム330からのリソースを配分するファイルサーバー130はファイルシステム240をホストする。ストレージボリューム330は例えば340.1・・・340.qのエクステントにストレージスペースを与える。ストレージボリューム330は、ホストサーバー315でホストされたストレージプール320、すなわちエクステント340のストレージプールを提供するストレージマネージャのサービスを利用する。
図4は本発明の原理に従ったSANを含むシステムのオーバーラップドメインの実施例を示す。この実施例では、ドメイン210とドメイン230(図2)はIPネットワーク120のハードウェアエレメントとソフトウェアエレメントをそれぞれ含んでいる。ドメイン410とドメイン420も示されている。バーチャル化ドメインと呼称されるドメイン410は、ハードウェアエレメントフィラーサーバー130、ホスト315、ソフトウェアストレージプール320、ソフトウェアストレージボリューム330、ソフトウェアエクステント340、ソフトウェアファイルシステム240のソフトウェアエレメントを含んでいる。SANドメインと呼称されるドメイン420はハードウェアエレメントファイルサーバー130、ネットワーク130、アレイ350、ストレージディスク150、ホスト315、及びソフトウェアエクステント340を含んでいる。
ドメイン間のインターセクションポイントまたはインターセクションアソシエーションも決定できる。例えば、ファイルサーバー130は前述のようにドメイン210とドメイン230との間のインターセクションを提供し、ドメイン410とドメイン420との間のインターセクションを提供する。同様に、ホスト315はドメイン410とドメイン420との間のインターセクションを提供する。インターセクションポイントの知識は有益である。なぜなら、インターセクションポイントに影響を及ぼすドメインのエラーや故障/不調は他のドメイン内に故障/不調及び/又はエラーを発生させるからである。すなわち、インターセクションポイントはインターセクションドメインを通じた事象の導通路として機能する。例えば、ディスク150内のエラーは、例えばエクステント340に影響を及ぼし、連鎖的にボリューム330に影響を及ぼし、ファイルシステム240に影響を及ぼす。よって、ファイルシステム240内のエラーはアプリケーションドメイン230にエラーまたは可検出事象を発生させるかもしれない。なぜなら、アプリケーション235はファイルシステム240で処理されたファイルを使用するかも知れないからである。同様に、もしファイルサーバー130が、ディスク150を使用するボリュームを配分するファイルシステムをホストするなら、ディスク150の故障/不調はファイルサーバー130に影響を及ぼし、ディスク150にアクセスするアプリケーションに問題や可検出事象をさらに発生させるかも知れない。
図5は、ストレージメディア150にデータを保存するために複数のファイルを使用し、システムのストレージメディア150に発生するエラーの影響を表す。この場合、ストレージメディア150のエラーはアプリケーションドメインに拡散し、エラーや可検出事象を関連アプリケーション235.1・・・235.rに発生させる。
図6はアレイ350での故障/不調や発生事象によって引き起こされるアプリケーションのエラーや可検出事象の発生の第2例を示す。この場合、発生事象はアレイ350を含んだ複数のストレージメディア150.1・・・150.mの1つの可検出事象でよい。
図7はコンポーネント内のエラーが、検出される同一症状を引き起こす過程を示す。この実施例では、ファイルの読み取り不調はアプリケーション235内にエラーを引き起こす。例えば、IPネットワーク120、ファイルサーバー130、SAN310、ホスト315、ストレージプール320、アレイ350及びストレージメディア150のうちの少なくとも1つのエラーは、アプリケーション235がストレージメディア150からファイルを読み取ることを妨害するであろう。この場合、“アプリケーション235はストレージメディア150からのファイルを読み取れない”症状により、問題の原因を決定することができない。
図8は図4で示すシステム内で発生するであろうエラーのチャートである。この場合、表示された対象機器クラスは、故障し、あるいは不調であり、そのシステムの問題の原因を構成するであろうエレメントである。
図9は図4で示すシステムの故障/不調の影響チャートである。この場合、対象機器は図8の対象機器の状態に依存する。特に、その依存性は図の説明欄で示されている。
図10Aから図10Eは集合的に、本発明の原理に従った概要モデルの実施例である。図10Aは本発明のSANネットワークを含んだシステムの例示的概要モデル1010である。このモデルはSMARTSInChargeコモンインフォメーションモデル(ICIM)や類似した、または存在するCIMベースモデルであり、SANに適用される既知のネットワークモデルの延長である。SANSの基準は開発過程であり、http://www.snia.org/smi/tech_activities/smi_spec_pr/spec/]で得られよう。SMARTとInchargeは米国マサチューセッツ州ホプキントンのEMCコーポレーションインクの商標である。このモデルはDMTF/SMIモデルの延長である。モデルベースシステムは2005年12月出願の米国特許願11/034192と、米国特許5528516、56686249755及び6868367で説明されている。それらの内容を本願に援用する。これら米国特許は症状や問題等の可観察事象や可検出事象のマッピング処理に基づいたシステム分析の実行を教示する。
概要モデル1010は、ノード、ルーター、コンピュータシステム、ディスクドライブ等のフィジカルネットワークコンポーネント1030、及び/又はソフトウェア、アプリケーソンソフトウェア、ポート、ディスクドライブデジグネーション等のロジカルネットワークコンポーネント1050から選択されたものを有している。選択されたネットワークエレメントまたはコンポーネントはマネージドコンポーネントと呼称される。マネージドコンポーネントはコンポーネントの特徴や特性を含んでいる。図2A、図2B、図3Aから図3D及び図4から図7で示されているようにマネージドコンポーネント間の関連性も図示されており、モデルに含まれる。ICIM_System1020とICIM_Service1070マネージドコンポーネントも図示されている。それらは図10Bと図10Cでさらに詳細に解説される。
図10Bは、対象機器クラスマネージドシステムエレメント1012の例示延長部を示し、対象機器クラスICIM_システム1020、ICIM_フィジカルエレメント1030、及びICIM_ロジカルデバイス1040を提供する。これら対象機器は、例えば図3Aで示すSANのアレイ350、ディスク150及びエクステント340の一般的コンセプトまたはコンポーネントである。図示のごとく、マネージドコンポーネント対象機器フィジカルエレメント1030とロジカルデバイス1040は関係を共有し、フィジカルエレメント1030はリアライズドバイロジカルデバイス1040とロジカルデバイス1040リアライズフィジカルエレメント1030である。さらに、対象機器クラスICIM_システム1020は対象機器クラスICIM_コンピュータシステム1022を含む。これはクラスユニタリーコンピュータシステム1024を含み、アレイ350を表す。ユニタリーコンピュータシステムとはディストリビューテドマネージメントタスクフォース(DMTF)で表されるものである。DMTFは周知であり、説明を要しないであろう。
対象機器クラスフィジカルパッケージ1032を含む対象機器クラスICIM_フィジカルエレメント1030も図示されている。これはフィジカルストレージディスク150のごときフィジカルコンポーネントである。対象機器クラスICIM_ロジカルデバイスは対象機器クラスストレージエクステント1042を含む。これはエクステント340であり、エクステント340はストレージボリューム330と通信状態である。
図10Cは対象機器クラスICIM_ロジカルエレメント1050の例示的延長を図示し、対象機器クラスICIM_ロジカルデバイス1040とICIM_サービス1070を提供する。これら対象機器クラスは図3Aで示すSANのファイルシステム、ボリューム、エクステント及びストレージプールである。特に、対象機器クラスロジカルエレメント1060はファイルシステム240であり、ICIM_サービス1070はストレージプール320である。対象機器クラス間の関係も図示されている。例えば、ファイルシステム240は対象機器クラスストレージエクステント1042とのリサイドオン関係を有する。それはファイルシステム240とのホストファイルシステム関係を有する。
図10Dは、図3Aで示すSANのディスク、カード及びポート間の関係を示す対象機器クラスの延長を図示する。例えば、フィジカルエレメント1030のフィジカルパッケージ1032は前述のようにストレージディスク150とHBA(ホットバスアダプター)であることができる。HBA1036はディスクエレメントを動的にSANに追加したりSANから除去させる。同様に、対象機器クラスロジカルデバイス1040はネットワークアダプター145でよく、対象機器クラスポート146を含む。対象機器クラスポートはこの例示モデルで示されるようにファイバーチャンネル(FC)ポート147でよい。図示はしないが、ポート146は連続、平行、ACSI、SCSII、エーテルネット等の他タイプのポートでもよい。ロジカルデバイス1040はプロトコールコントローラ148でもよく、ネットワークで使用されるプロトコールタイプのものでよい。例えば、プロトコールコントローラ148はSCSI(小型コンピュータ連続インターフェース)プロトコールコントローラ148.1とFCプロトコールコントローラ148.2でよい。図示しないが、プロトコールコントローラ148は他のタイプのプロトコール、例えば、エーテルネットでもよい。
図10Eは図3Aで示すSANのアプリケーション235、データファイル245、及びファイルシステム240間の関係を示すために対象機器クラスの延長を図示する。
ここで解説するストレージエリアネットワークのモデルに関し、原因決定または影響分析は、前述の米国特許文献で開示されているものに類似した相関関数で実施できる。
図11Aは原因相関関数のために適した例示的原因マトリックス、すなわち図1で示すSANに適した行動モデルを示す。図11Bは図11Aで示す例示的原因相関関数に関する追加情報を図示する。
原因分析の1実施例はエクステント340で発生する故障/不調を考察することである。エクステント340での故障/不調または問題は、ファイルシステム240がエクステント340内にマップ処理されたデータにアクセスできないため、ファイルシステム240内に可検出事象または症状を創出するであろう。故障/不調はアプリケーション235がファイルシステム240からデータを取得するようリクエストしたとき、アプリケーション235に可検出事象または症状をさらに創出するであろう。故障/不調が発生しても、症状は必ずしも発生しない。すなわち、エクステント240のごときコンポーネントが故障/不調を経験していることを示している。原因相関は十分に強力でなければならず、エクステント240の状態を示す症状が発生するシナリオと、症状が発生しない場合との両方に対処できなければならない。SANの原因分析は、図示された例示的因果関係マトリックスと、管理されたシステムで観察された症状から可能性が高い問題の原因を決定する。この場合、症状または可観察事象は少なくとも2つのドメインと関連するコンポーネント、すなわち、インターセクションポイントとアソシエーションとさらに関連する。
第2例としてストレージディスク150の故障/不調を考察する。ストレージディスク150の問題は、あたかもストレージディスクの全エクステントが同時的に故障している、あるいは不調であるように見える症状を引き起こすであろう。ストレージディスク150の問題はファイルシステム240に症状を引き起こすこともある。なぜなら、ファイルシステム240はストレージディスク150の一部であるエクステント340に保存されたデータにアクセスできないからである。同様に、アプリケーション235がストレージディスク150の一部であるエクステント340に保存されたデータにファイルシステム240からアクセスできないので、アプリケーション235に症状を引き起こすことがある。同様に、ストレージディスクの問題は故障している、あるいは不調であるストレージディスクと“リアライズドバイ”関係を有したエクステント340に症状を引き起こすこともあり得る。加えて、ストレージディスク内の問題はストレージディスク自体に症状を引き起こすこともあり得る。
図12Aは図1で示すSANに適した例示的影響分析またはエラー伝播相関関数を示す。図12Bは図12Aで示す例示的影響相関関数に関する追加情報を示す。図11Aと図11Bに関して説明したように、管理されたコンポーネントの1つ、または複数の故障/不調は、検出されるか、あるいはシステムで経験される症状を予測できるであろう。
図13は本発明の原理を実行するのに使用可能なシステム1300の実施例を図示する。システム1300は入力/出力装置1302、プロセッサー1303及びメモリー1304を含むことができる。I/O装置1302は情報源または装置1301の上方にアクセスするか、情報を受領できる。情報源または装置1301は、ここで解説するプロセスに従って情報を送受信できるルーター、サーバー、コンピュータ、ノートブックコンピュータ、PDA、携帯電話あるいは他の通信機器でよい。装置1301は、例えば無線広域ネットワーク、無線都市ネットワーク、無線地方ネットワーク、放送システム(ラジオ、TV)、衛星ネットワーク、携帯電話または無線電話ネットワーク、POTS等の類似有線ネットワーク、インターネット、LAN、WAN及び/又はインターネット等の個人ネットワーク、それらの一部または組み合わせを介してネットワークコネクション1350にアクセスすることができる。
I/O装置1302、プロセッサー1303及びメモリー1304は通信メディア1325で通信できる。通信メディア1325は、例えばバス、通信ネットワーク、回路の内部接続、回路カード、その他の装置、並びにそれらの一部または組み合わせであってよい。クライエント装置1301からの入力データはメモリー1304に保存されるプログラムに従って処理され、プロセッサー1303で実行される。メモリー1304はデータ入力可能で情報を永久あるいは非永久的に保存できる磁気、光またはRAM等の半導体媒体でよい。プロセッサー1303はどのような手段でもよく、例えば汎用または特殊コンピュータシステムでよく、ラップトップコンピュータ、デスクトップコンピュータ、サーバー、携帯コンピュータ、あるいはハードウェア形態でよく、専用論理回路または集積回路でよい。プロセッサー1303はプログラム可能アレイロジック(PAL)またはアプリケーション特定集積回路(ASIC)等でもよい。これらは“プログラム”可能であり、知られた入力に対応して知られた出力を提供するソフトウェアインストラクションまたはコードを含むことができる。1つの特徴では、ハードウェア回路が、本発明を実施するためにソフトウェアインストラクションの代わりに、または組み合わせて使用できる。ここで説明するエレメントはコード化された論理操作を使用して、またはハードウェア実行可能コードを実行して図示の操作の実施に利用できるディスクリートハードウェアとしても使用できる。
1特徴によれば、ここで示す方法はコンピュータ読み取り可能媒体に保存されたコンピュータ読み取り可能コードで表現できる。このコードはメモリー1304にも保存できる。このコードはメモリー媒体1383、I/O装置1385、またはフロッピディスク、CD−ROM、DVDのごとき磁性または光媒体1387から読み取り、あるいはダウンロードでき、メモリー1304に保存できる。あるいは、説明したネットワークを利用してダウンロードできる。理解されようが、このコードはプロセッサー依存形態または独立形態でよい。JAVA(登録商標)はプロセッサー独立コードの1例である。JAVA(登録商標)は米国カルフォルニア州サンタクララ市のサンマイクロシステムの商標である。
ここで説明した機能を提供するように利用できるソフトウェアプログラムに従った処理後に、I/O装置1302で受領される装置1301からの情報もネットワーク1380により表示装置1385、報告装置1390または第2プロセッサーシステム1395である出力装置に伝達される。
ここで説明するコンピュータまたはコンピュータシステムとは、少なくとも1つの処理ユニットと電気的に接続して交信する周辺機器等のメモリーユニットや他の装置のことである。さらに、デバイスはISAバス、マイクロチャンネルバス、PCIバス、PCMCIAバス等の内部バスや、回路、回路カードまたは他の装置、並びにそれらの一部またはそれら通信媒体あるいは外部ネットワークに電気的に接続できる。
以上、本発明の基本的で新規な特徴を好適実施例により説明したが、それらの様々な変形が可能である。本発明はそれら実施例で限定されない。例えば、ここで説明した方法やシステムは故障/不調検出、故障/不調モニター、実行状況、停滞、接続性、インターフェース不調、ノード不調、リンク不調、ルートプロトコールエラー、ルートコントロールエラー、及び原因分析等々を含むことができる。
実質的に同一機能を、実質的に同一方法で利用し、実質的に同一結果をもたらすエレメントの組み合わせは本発明の技術範囲内である。本発明の実施例間でのエレメントの交換も本発明の技術想定内である。
図1は従来式ストレージエリアネットワーク(SAN)を図示する。 図2Aは、例示的IPネットワークと関連する論理図である。 図2Bは、例示的IPネットワークと関連する論理図である。 図3Aは、例示的SANの論理図である。 図3Bは、例示的SANの論理図である。 図3Cは、例示的SANの論理図である。 図3Dは、例示的SANの論理図である。 図4は、本発明の原理に基づくSANの例示的オーバーラップドメインを図示する。 図5は、問題またはエラーが発生したときに影響を受ける要素の例示図である。 図6は、問題またはエラーが発生したときに影響を受ける要素の第2例示図である。 図7は、SANでのディスク問題やエラーの拡散状態を図示する。 図8Aは、本発明の原理に基づく例示的SAN診断分析(図8A〜図8C)の一部である。 図8Bは、本発明の原理に基づく例示的SAN診断分析(図8A〜図8C)の一部である。 は、本発明の原理に基づく例示的SAN診断分析(図8A〜図8C)の一部である。 図9は、本発明の原理に基づく例示的SAN影響分析である。 図10Aは、本発明の原理に基づくSANモデルの例示的特徴を図示する。 図10Bは、本発明の原理に基づくSANモデルの例示的特徴を図示する。 図10Cは、本発明の原理に基づくSANモデルの例示的特徴を図示する。 図10Dは、本発明の原理に基づくSANモデルの例示的特徴を図示する。 図10Eは、本発明の原理に基づくSANモデルの例示的特徴を図示する。 図11Aは、本発明の原理に基づく例示的原因分析相関表である。 図11Bは、本発明の原理に基づく例示的原因分析相関表である。 図12Aは、本発明の原理に基づく例示的影響分析相関表である。 図12Bは、本発明の原理に基づく例示的影響分析相関表である。 図13は、本明細書記載の方法を実行するシステムを図示する。
これら図面は本発明の説明のみを目的としており、本発明の限定は意図されていない。

Claims (9)

  1. プロセッサーとメモリーとを含んだコンピュータシステムで利用され、複数のコンポーネントを含み、複数のドメインを有して提供されるシステムで分析を実行し、該ドメインの少なくとも1つはストレージエリアネットワーク(SAN)であり、コンピュータシステムに組み込まれると少なくとも以下のステップをプロセッサーに実行させる方法であって、それらステップとは、
    複数のコンポーネントから選択されたコンポーネントを提供し、それらコンポーネント間の関係を表現するステップであって、該複数のコンポーネントの少なくとも1つは少なくとも2つのドメインと関連していることを特徴とするステップと、
    複数の事象と、コンポーネント間で発生する複数の可観察事象の間でマッピング処理を提供するステップであって、該マッピング処理は各事象を各可観察事象と関連付けることを特徴とするステップと、
    事象と可観察事象のマッピングに基づいてシステム分析を実行するステップと、
    であることを特徴とする方法。
  2. 少なくとも1つのSANドメインを提供するステップは、
    選択コンポーネントの少なくとも1つの非特定要素を創出するステップであって、該非特定要素は、ロジカルエレメント、ロジカルデバイス、サービス、ファイルシステム、ストレージエクステント、デバイスコネクション、フィジカルエレメント、ホストサービス、及びフィジカルパッケージから選択されることを特徴とするステップと、
    選択コンポーネント間で事象を拡散させる少なくとも1つの非特定要素を創出するステップであって、関係要素はリアライズ、リアライズドバイ、リザイドオン、ホストファイルシステム、コンクリートコンポーネントオブ、コンクリートコンポーネント、アロケーテドフロムストレージプール、アロケートツーストレージボリューム、コネクテドバイア、コネクテドツー、コネクテドバイプロトコールまたはプロトコールコントローラフォーポートから選択されることを特徴とするステップと、
    を含んでいることを特徴とする請求項1記載の方法。
  3. 少なくとも2つのドメインと関連するコンポーネントはファイルシステム、ファイルサーバー、ホストサービスまたはストレージエクステントであることを特徴とする請求項2記載の方法。
  4. マッピング処理は、
    各ドメインに対して、そのドメイン内のコンポーネントのための複数の可観察事象と複数の事象の間でマッピング処理を施すステップをさらに含んでおり、少なくとも1つの可観察事象は少なくとも2つのドメインと関連するコンポーネントと関連していることを特徴とする請求項1記載の方法。
  5. 複数の可観察事象のうちの少なくとも1つに基づいて少なくとも1つの蓋然性が高い事象を決定するステップであって、該ステップは、複数の可観察事象と複数の事象に関連し、対応するドメインとのミスマッチ程度を決定するステップをさらに含んでいることを特徴とする請求項4記載の方法。
  6. それぞれのドメインから決定された複数の蓋然性が高い事象のうちで少なくとも1つに基づいて少なくとも1つの事象を決定するステップをさらに含んでいることを特徴とする請求項5記載の方法。
  7. 少なくとも1つの可観察事象は少なくとも2つのドメインに関連する少なくとも1つのコンポーネントと関連することを特徴とする請求項1記載の方法。
  8. システム分析は、故障/不調検出、故障/不調モニター、実行状況、停滞、接続性、インターフェース不調、ノード不調、リンク不調、ルートプロトコールエラー、ルートコントロールエラーあるいは原因分析から選択されることを特徴とする請求項1記載の方法。
  9. システム分析は、複数の事象のうちの少なくとも1つに基づいて少なくとも1つの蓋然性が高い事象を決定するステップを含んでいることを特徴とする請求項1記載の方法。
JP2006017462A 2005-01-26 2006-01-26 保存領域ネットワークの分析と問題報告の方法及び装置 Withdrawn JP2006236331A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US64710705P 2005-01-26 2005-01-26
US11/176,982 US20060129998A1 (en) 2004-03-31 2005-07-08 Method and apparatus for analyzing and problem reporting in storage area networks

Publications (1)

Publication Number Publication Date
JP2006236331A true JP2006236331A (ja) 2006-09-07

Family

ID=36204047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006017462A Withdrawn JP2006236331A (ja) 2005-01-26 2006-01-26 保存領域ネットワークの分析と問題報告の方法及び装置

Country Status (3)

Country Link
US (1) US20060129998A1 (ja)
EP (1) EP1686764A1 (ja)
JP (1) JP2006236331A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249284B2 (en) * 2003-03-28 2007-07-24 Ge Medical Systems, Inc. Complex system serviceability design evaluation method and apparatus
US7430495B1 (en) * 2006-12-13 2008-09-30 Emc Corporation Method and apparatus for representing, managing, analyzing and problem reporting in home networks
CN101681362B (zh) * 2007-01-05 2013-08-21 桑帕尔斯技术有限公司 存储优化方法
US8655623B2 (en) 2007-02-13 2014-02-18 International Business Machines Corporation Diagnostic system and method
US8260622B2 (en) * 2007-02-13 2012-09-04 International Business Machines Corporation Compliant-based service level objectives
US7996719B2 (en) * 2008-10-24 2011-08-09 Microsoft Corporation Expressing fault correlation constraints
US8886910B2 (en) * 2011-09-12 2014-11-11 Microsoft Corporation Storage device drivers and cluster participation
US10311019B1 (en) * 2011-12-21 2019-06-04 EMC IP Holding Company LLC Distributed architecture model and management
US10061674B1 (en) * 2015-06-29 2018-08-28 EMC IP Holding Company LLC Determining and managing dependencies in a storage system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528516A (en) 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US6640278B1 (en) * 1999-03-25 2003-10-28 Dell Products L.P. Method for configuration and management of storage resources in a storage network
US6636981B1 (en) * 2000-01-06 2003-10-21 International Business Machines Corporation Method and system for end-to-end problem determination and fault isolation for storage area networks
US20030154271A1 (en) * 2001-10-05 2003-08-14 Baldwin Duane Mark Storage area network methods and apparatus with centralized management
US20030135611A1 (en) * 2002-01-14 2003-07-17 Dean Kemp Self-monitoring service system with improved user administration and user access control
US8060436B2 (en) * 2002-09-16 2011-11-15 Hewlett-Packard Development Company, L.P. Software application domain and storage domain risk analysis process and method
US20040064558A1 (en) * 2002-09-26 2004-04-01 Hitachi Ltd. Resource distribution management method over inter-networks
US7930158B2 (en) * 2003-03-31 2011-04-19 Emc Corporation Method and apparatus for multi-realm system modeling

Also Published As

Publication number Publication date
US20060129998A1 (en) 2006-06-15
EP1686764A1 (en) 2006-08-02

Similar Documents

Publication Publication Date Title
JP2006236331A (ja) 保存領域ネットワークの分析と問題報告の方法及び装置
US9864517B2 (en) Actively responding to data storage traffic
US8176497B2 (en) Method to dynamically provision additional computer resources to handle peak database workloads
US7552044B2 (en) Simulated storage area network
JP5670598B2 (ja) コンピュータプログラムおよび管理計算機
JP2019153297A (ja) Fpgaベースの加速のための新たなssd基本構造
JP5253379B2 (ja) モデルをベースにしたイベント処理
WO2013072978A1 (ja) 計算機、仮想マシン配備方法及びプログラム
US8316183B2 (en) Refactoring virtual data storage hierarchies
US20130346532A1 (en) Virtual shared storage in a cluster
US20080244620A1 (en) Dynamic Communication Fabric Zoning
EP2153309B1 (en) Physical network interface selection
US7752485B2 (en) Method and system for virtual removal of physical field replaceable units
US7689767B2 (en) Method to detect and suggest corrective actions when performance and availability rules are violated in an environment deploying virtualization at multiple levels
TW202034160A (zh) 用於通用處理器之排序及合併指令
JP2022525919A (ja) コンピューティング・ストレージ環境におけるリビルド時間を減少させること
JP2022503970A (ja) 命令の複数の実行間のマシン状態の保存および復元
US20130073914A1 (en) Storage management systems and methods
JP2007115250A (ja) ストレージ環境をマッピングするための装置、システム及び方法
US8489827B2 (en) Method and system for storage-system management
US7853688B2 (en) Method and system for proactively monitoring the coherency of a distributed cache
US11295011B2 (en) Event-triggered behavior analysis
US10061674B1 (en) Determining and managing dependencies in a storage system
US20140316539A1 (en) Drivers and controllers
US20230418638A1 (en) Log level management portal for virtual desktop infrastructure (vdi) components

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090407