JP2013509626A - 仮想コンピューティング環境における障害管理のための方法、システム、およびコンピュータ・プログラム - Google Patents

仮想コンピューティング環境における障害管理のための方法、システム、およびコンピュータ・プログラム Download PDF

Info

Publication number
JP2013509626A
JP2013509626A JP2012535699A JP2012535699A JP2013509626A JP 2013509626 A JP2013509626 A JP 2013509626A JP 2012535699 A JP2012535699 A JP 2012535699A JP 2012535699 A JP2012535699 A JP 2012535699A JP 2013509626 A JP2013509626 A JP 2013509626A
Authority
JP
Japan
Prior art keywords
event
failure
host
virtual
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012535699A
Other languages
English (en)
Other versions
JP5643321B2 (ja
Inventor
フランクリン・デヴィッド・リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2013509626A publication Critical patent/JP2013509626A/ja
Application granted granted Critical
Publication of JP5643321B2 publication Critical patent/JP5643321B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

【課題】仮想コンピューティング環境における障害管理のための方法およびシステムを提供する。
【解決手段】システムは、仮想コンピューティング環境における仮想マシンおよびホスト・デバイスからの障害イベントのモニタと、仮想コンピューティング環境における状況イベントのモニタであって、状況イベントは仮想マシン名およびホスト・デバイス名を言い表すものである、モニタとを含む。普遍的な障害コンポーネントは、障害イベントが仮想マシンとホスト・デバイスの両方に影響を与えているかどうかを判別し、相関コンポーネントは、仮想マシンおよびホスト・デバイスに関する障害イベントを同じ問題に関するものとして相関させる。ある問題に相関付けられたホスト・マシン障害イベントはルート・イベントとしてマーク付けされ、ある問題に相関付けられた仮想マシン障害イベントはルート・イベントへのリンクを備えた症状としてマーク付けされる。
【選択図】 図1

Description

本発明は、障害管理の分野に関する。具体的に言えば、本発明は仮想コンピューティング環境における障害管理に関する。
オペレーティング・システムを仮想環境で動作させることは一般的である。これらを使用して、様々なサービスを実装するアプリケーションが実行される。各仮想マシン(VM)は物理コンピュータを直接再現するが、物理ホスト・マシン上のハイパーバイザの下で実行される。ホスト・マシンはいくつかのVMをホストすることができる。ホスト・マシンの使用率を最大にし、耐障害性を上昇させるために、VMはしばしばホスト・マシンのクラスタ上で実行される。1つのマシンが障害を起こした場合、VMはクラスタ内の他のホスト・マシン上で実行するために移動または移行することができる。
障害は、VM上でも物理マシン上と同様に発生する可能性がある。障害管理システムを使用して、これらの問題を検出および監視し、オペレータに報告して、迅速な解決を可能にすることができる。たとえばIBM(R)のTivoli(R)Netcool(R)は、障害イベントを含む多くの異なるネットワーク・データ・ソースから企業規模のイベント情報を収集する、サービス・レベル管理システムである(IBM、Tivoli、およびNetcoolは、世界中の多くの管轄権で登録された、インターナショナル・ビジネス・マシーンズ・コーポレーションの商標である)。
仮想環境では、障害は、VMを実行中のホスト・ハイパーバイザ・システム上の障害によって引き起こされる可能性がある。多くのVMが単一のホストによって実行されている場合、結果として、潜在的に、VM自体での障害によるものでない大量の障害が報告されることになる。これは、オペレータが迅速に対処および解決するには、厄介で時間のかかるものである可能性がある。さらに、たとえハイパーバイザの障害監視が実装されている場合であっても、この(しばしばそれほど重症でない)根本原因である障害は、大量のVM障害イベントの中で見失われ、オペレータが見過ごしてしまう可能性がある。
加えて、VM上のいくつかの障害を解決する1つの方法は、それらを異なる物理ホスト・マシンに移動させることである。これによって、いくつかの問題はすぐに解決されるが、これらVM上で実行されている従来の障害監視システムは、この状況の変化を更新して問題を解決するために、速度が低下する可能性がある。
したがって当分野では、前述の問題に対処することが求められている。
本発明の第一の態様によれば、仮想コンピューティング環境において仮想マシンおよびホスト・デバイスからの障害イベントを監視すること、仮想コンピューティング環境において状況イベントを監視することであって、状況イベントは仮想マシン名およびホスト・デバイス名を言い表すものである、監視すること、障害イベントが仮想マシンとホスト・デバイスの両方に影響を与えているかどうかを判別すること、ならびに、仮想マシンおよびホスト・デバイスに関する障害イベントを同じ問題に関するものとして相関させること、を含む、仮想コンピューティング環境における障害管理のための方法が提供される。
方法は、仮想マシン状況テーブルを維持すること、ならびに、仮想マシン名およびホスト名のマッピングを維持することを、含むことができる。
方法は、障害イベントを障害イベント・テーブルに挿入することを含むこともできる。問題に相関付けられたホスト・マシンの障害イベントは、障害イベント・テーブルにおいてルート・イベントとしてマーク付けすることができる。問題に相関付けられた仮想マシンの障害イベントは、障害イベント・テーブルにおける症状(symptom)および障害イベント・テーブルに追加されたルート・イベントへのリンクとしてマーク付けすることができる。
仮想マシンが新しいホスト・マシンへと移動された場合、仮想マシンに関するすべての障害イベントを障害イベント・テーブル内に配置し、重症度を軽減することができる。加えて、ルート・リンクを除去することができる。
状況イベントは、プローブ(probe)のイベント警告の供給元である監視システムによって監視されること、ならびに、仮想マシンおよびホスト・デバイスとホスト障害イベントとの間の関係の指示を含むことが可能である。
仮想マシン内の障害イベントは、仮想マシン上で実行中のプローブによって供給することが可能であり、ホスト・マシン内の障害イベントは、ホスト・マシン上で実行中のプローブによって供給することが可能である。
ホスト・マシン内の障害イベントは、プローブのイベント警告の供給元である監視システムによって監視されることが可能である。
本発明の第2の態様によれば、仮想コンピューティング環境における障害管理のためのコンピュータ・ソフトウェア製品が提供され、この製品は、コンピュータ実行可能命令を備えるプログラムが格納されたコンピュータを備え、この命令は、コンピュータによって読み取りが実行された場合に、仮想コンピューティング環境において仮想マシンおよびホスト・デバイスからの障害イベントを監視するステップと、仮想コンピューティング環境において状況イベントを監視するステップであって、状況イベントは仮想マシン名およびホスト・デバイス名を言い表すものである、監視するステップと、障害イベントが仮想マシンとホスト・デバイスの両方に影響を与えているかどうかを判別するステップと、仮想マシンおよびホスト・デバイスに関する障害イベントを同じ問題に関するものとして相関させるステップと、を実行する、コンピュータ読み取り可能ストレージ・メディアを備える。
本発明の第3の態様によれば、プロセッサと、仮想コンピューティング環境における仮想マシンおよびホスト・デバイスからの障害イベントのモニタと、仮想コンピューティング環境における状況イベントのモニタであって、状況イベントは仮想マシン名およびホスト・デバイス名を言い表すものである、モニタと、障害イベントが仮想マシンとホスト・デバイスの両方に影響を与えているかどうかを判別するための正規化コンポーネントと、仮想マシンおよびホスト・デバイスに関する障害イベントを同じ問題に関するものとして相関させるための相関コンポーネントと、を備える、仮想コンピューティング環境における障害管理のためのシステムが提供される。
システムは、仮想マシン状況テーブルと、仮想マシン名およびホスト・デバイス名のマッピングとを含むことができる。
システムは、仮想マシンまたはホスト・デバイスに関する障害イベントのリストを維持するための障害イベント・テーブルをさらに含むこともできる。システムは、問題に相関付けられたホスト・マシンの障害イベントに関する障害イベント・テーブル内のルート・イベント・マーカを含むことができる。システムは、問題に相関付けられた仮想マシンの障害イベントに関する障害イベント・テーブル内の症状マーカと、障害イベント・テーブル内のルート・イベントへのリンクを含むこともできる。
システムは、障害解決(faultresolution)コンポーネントを含むことが可能であり、仮想マシンが新しいホスト・マシンに移動された場合、解決コンポーネントは仮想マシンに関するすべての障害イベントを障害イベント・テーブル内に配置し、イベントの重症度を軽減する。
状況イベントに関するモニタは、仮想環境クラスタ制御センタから状況イベントを取得することが可能であり、障害管理システムにイベント警告を供給することが可能である。
障害イベントに関するモニタは、仮想マシン上で実行中のプローブとすることが可能であり、障害イベントに関するモニタは、ホスト・マシン上で実行中のプローブとすることが可能である。
ホスト・マシン内の障害イベントに関するモニタは、仮想環境クラスタ制御センタから障害イベントを取得することが可能であり、障害管理システムにイベント警告を供給することが可能である。プローブはリモート・マシン上で実行可能であり、ネットワークを介してホスト・マシンを監視することが可能である。
第4の態様から見ると、本発明は、コンピュータ読み取り可能メディア上に格納され、デジタル・コンピュータの内部メモリにロード可能な、当該プログラムがコンピュータ上で実行された場合、本発明の諸ステップを実行するためのソフトウェア・コード部分を備える、コンピュータ・プログラムを提供する。
次に、本発明について、以下の図面に示された好ましい実施形態を参照しながら、単なる例として説明する。
本発明に従ったシステムの好ましい実施形態を示すブロック図である。 本発明の好ましい実施形態に従ったシステムのオブジェクト・サーバを示すブロック図である。 本発明の好ましい実施形態が内部に実装可能な、コンピュータ・システムを示すブロック図である。 本発明の好ましい実施形態に従った方法を示す流れ図である。 本発明の好ましい実施形態に従った方法を示す流れ図である。
図を簡単に見やすくするために、図面に示される要素は必ずしも縮尺通りに図示されているとは限らない。たとえばいくつかの要素の寸法は、見やすくするために、他の要素に対して拡大されている可能性がある。さらに、適切であるとみなされる場合、参照番号は、対応するかまたは類似の特徴を示すために、図面間で反復される可能性がある。
以下の詳細な説明では、本発明を完全に理解するために、多数の特定の細部が示される。しかしながら、当業者であれば、本発明がこれらの特定の細部なしでも実施可能であることを理解されよう。他の例では、本発明を不明瞭にしないように、周知の方法、手順、およびコンポーネントについては詳細に説明されていない。
障害イベントがハイパーバイザおよびVMの両方から集められ、正規化されて、障害管理システムに供給される、方法およびシステムについて説明される。各VMがどのホスト・マシン上で実行中であるかを示すデータも、ハイパーバイザから集められる。この情報は、以下のアクションを実行するために使用される。
1.障害イベントの相関。ホスト・マシンまたはハイパーバイザ(ホスト・イベントと呼ばれる)および同じ初期問題に関する仮想マシン(VMイベントと呼ばれる)によって生成される、障害イベントが識別される。VM上にエラーを発生させているホスト・イベントの重症度が増加し、根本原因としてマーク付けされる。VMからの対応するエラーの重症度が減少し、症状イベントとしてマーク付けされ、イベント内のフィールドは根本原因イベントを指示するように設定される。これによってオペレータは、症状イベントを除去し、重症度の高い根本原因イベントをかなり迅速に識別できるようになる。問題はより速く解決可能となり、これによってすべての症状VMイベントが解決されることになる。オペレータが特定の症状イベントに注目している場合、根本原因を迅速に識別することも可能である。
2.VM移行後の障害解決。ハードウェア関連障害は、仮想マシンを新しい物理ホスト・マシンへ移動させることによって解決可能である。VMが新しい物理ホストに移行された場合、このクラスのすべての障害の重症度が軽減される。VM上のモニタが、障害がクリアされた旨の情報を受信すると、VMイベントは通常通り解決およびクリアされることになる。このように実行することの利点は、重症度の高い障害イベントのオペレータの表示がかなり迅速にクリアされるため、いずれかのより重要な問題に集中できることである。
図1を参照すると、仮想コンピューティング環境における障害イベントに対処するための障害管理サーバ110を含むシステム100が提供される。
仮想コンピューティング環境は、1つまたは複数の仮想マシン121〜126を含み、そのそれぞれが、ハードウェア・リソースを直接およびトランスペアレントに割り振る仮想マシン・モニタまたはハイパーバイザ141、142であるソフトウェア・レイヤを有する、ホスト・マシン・オペレーティング・システム131、132またはコンピュータ・ハードウェア上で実行している。複数のオペレーティング・システムが単一の物理コンピュータ上で同時に実行可能であり、互いにハードウェア・リソースを共有することができる。中央プロセッサ、メモリ、オペレーティング・システム、およびネットワーク・デバイスを含む、マシン全体をカプセル化することによって、仮想マシン121〜126は、すべての標準的なオペレーティング・システム、アプリケーション、およびデバイス・ドライバに完全に適合可能である。
ホスト・マシンの使用率を最大にし、耐障害性を上昇させるために、VM121〜126はホスト・マシン131、132のクラスタ130上で実行される。一方のホスト・マシン131、132に障害が発生すると、VMは、クラスタ130内の他方のホスト・マシン131、132上で実行するように移動(または移行)可能である。
VM121〜126は、基礎となるハードウェアの障害または問題(VMハードウェア障害と呼ばれる)によって引き起こされたVM障害161について障害管理サーバ110に報告するための、プローブ供給160を提供するために、プローブを実行する。ホスト・マシン131、132は、ホスト・ハードウェア障害171について障害管理サーバ110に報告するための、プローブ供給170を提供するためにも、プローブ(これらがホスト・マシンによってサポートされている場合)を実行することができる。
プローブという用語は、VMまたはホスト・マシンなどのイベント・ソースに接続され、イベント・データを検出および獲得し、このイベント・データを警告として障害管理サーバ110へ転送する、プログラムに使用される。プローブは、規則ファイル内に指定された論理を使用して、イベント要素を操作した後、これらを障害管理サーバ110の警告状況テーブル内の警告フィールドに変換することができる。各プローブは、特定のソースからイベント・データを獲得するように設計される。プローブは、ネットワーク・デバイスをリモートにまたは直接監視するための、監視デバイスまたはエージェントとも呼ぶことができる。
たとえば、VM121〜126およびホスト・マシン131、132は、Linux(R)ベースの場合、標準IBM OMNIbusプローブ160を実行するか、または、IBM OMNIbusをサポートするプラットフォーム上で実行することが可能である(Linuxは、米国、他の諸外国、またはその両方における、Linus Torvaldsの登録商標である)。
代替の配置構成では、プローブはリモート・マシン上で実行され、ネットワーク・プロトコルまたはリモート・マウントを介してハイパーバイザ・マシン131、132を監視することができる。
クラスタ130は、制御センタ133を介して制御され、必要に応じて、ホスト・マシン131、132間でVM121〜126を移行することになる。制御センタ133は、クラスタ130上のVM121〜126上で実行可能である。
APIを介して制御センタ133と対話し、状況イベント181を監視システム150に報告する、エージェント151を有する、監視システム150が提供される。プローブまたはモニタを使用して、これらのイベントが障害管理サーバ110へと供給180される。状況イベント181は、どのVM121〜126がどのホスト・マシン131、132上にあるかを追跡し、ホスト障害171も報告する。
代替の配置構成では、オプションでエージェント151を、制御センタ133を介さずにハイパーバイザ141、142に直接接続することができるが、これはホスト・マシン131、132全体に障害が発生した場合、堅固性に欠ける。
ホスト131、132上のホスト・ハードウェア障害171は、状況イベント181内で制御センタ133を介して監視システム150へと報告され、その後、状況イベント181の報告に使用されるプローブ供給180を介して、障害管理サーバ110へと報告される。
加えて、ホスト・マシン131、132がプローブをサポートしている場合、ホスト・ハードウェア障害171は障害管理システム110に直接供給することができる。ハードウェア障害171がプローブを介して障害管理システムに直接供給170できる場合(このオプションは、図1内に破線で示されている)、プローブを使用して、ホスト・マシン131、132からより豊富な潜在的エラーのセットを直接集めることができる。
産業利用性の高い環境で最も一般的かつ広範囲に使用されているハイパーバイザは、VMware ESXである(VMwareおよびESXは、VMware,Incの商標である)。ある実施形態例では、VMware ESXハイパーバイザ・クラスタを使用する監視システムは、仮想インフラストラクチャのためのVMware用エージェント(VMware VIエージェント)を備えた、IBM Tivoliモニタ(ITM)の形で使用することができる。障害管理サーバは、VMware VIエージェントからイベントを供給するためのイベント統合機能(EIF/Event Integration Facility)プローブを使用するIBM Netcool/OMNIbusシステムのオブジェクト・サーバ(ObjectServer)とすることができる。
VMのハードウェア障害は、IBM OMNIbusプローブを使用して報告される。VMware ESXハイパーバイザはLinuxベースであるため、標準IBM OMNIbusプローブを実行することができる。ホスト上のハードウェア障害も、ESX制御センタを介してITMに報告され、その後、EIFプローブを介してObjectServerに報告される。
IBM pHYPE、Microsoft(R) HyperV(TM)(MicrosoftおよびHyperVは、米国、他の諸外国、またはその両方における、マイクロソフト・コーポレーションの商標である)、Linux上のKernelベースの仮想マシン、z/VM(R)(z/VMは、世界中の多くの管轄権で登録された、インターナショナル・ビジネス・マシーンズ・コーポレーションの登録商標である)、およびその他を含む、他のハイパーバイザが使用可能である。
監視エージェント151は、そのSDK APIを介して制御センタ133に接続され、以下の状況イベント181を生成することができる。各状況は発生時に立ち上げられ、適用されなくなるとクリアされる。
可用性
・ホスト・マシン・サーバの状況には到達不可能である。
中央処理装置(CPU)
・VMKernelはロードされない。
・CPU使用率は非常に高い。
・CPU使用率は低い。
・CPUはオーバロードである。
ディスク
・ファイルシステムはほぼ満杯である。
・ディスク読み取りアクティビティは多い。
・ディスク書き込みアクティビティは多い。
メモリ
・コンソールOS(COS)用の使用可能空きメモリの量は少ない。
・ホスト・マシン・サーバ用の使用可能空きメモリの量は少ない。
ネットワーク
・ネットワーク送信アクティビティは多い。
・ネットワーク受信アクティビティは多い。
仮想マシン
・仮想マシンの電源はオフである。
・仮想マシンはスタック状態である。
・仮想マシンは未知の状態である。
・仮想マシンは一時停止状態である。
「ホスト・マシン・サーバの状況には到達不可能である」という例外はあるが、これら状況はそれぞれVMサーバ名およびVM名属性を有する。これは、ハードウェア・サーバ名と、制御センタ・ソフトウェア内に構成されたVMの名前とに対応する。これは通常、仮想マシンのホスト名に対応することになる。
図2を参照すると、ブロック図は障害管理サーバ110を示している。障害管理サーバ110は、障害イベント相関コンポーネント210と障害解決コンポーネント220とを含む。加えて、障害管理サーバ110は、VM状況テーブル230と、ハードウェア障害に関する警告状況テーブル240と呼ばれる障害イベントのテーブルとを含む。
障害イベント相関コンポーネント210は、同じ初期問題に関するホストまたはハイパーバイザおよび仮想マシンによって生成された、障害イベントを識別する。VM上にエラーを発生させているホスト・イベントは重症度が増加し、根本原因としてマーク付けされる。VMからの対応するエラーは重症度が減少し、症状イベントとしてマーク付けされ、イベント内のフィールドは根本原因イベントを指示するように設定される。
障害解決コンポーネント220は、VM移行後に障害を解決する。ハードウェア関連障害は、仮想マシンを新しい物理ホスト・マシンに移動することによって解決することができる。VMが新しい物理ホストに移行された場合、このクラスのすべての障害の重症度が軽減される。VM上のモニタが、障害がクリアされた旨の情報を受信すると、VMイベントは通常通り解決およびクリアされることになる。
VM状況テーブル230は、VMホスト名およびVMサーバ・ホスト名とVM状況とを含む。
障害管理サーバ110の状況テーブル230の実施形態例は、4つの列を含む。
Figure 2013509626
上記に列挙されたあらゆる状況イベント(「ホスト・マシンの状況には到達不可能である」とは別に)について、プローブ供給は、障害管理サーバ110のVM状況テーブル230にVMサーバ名およびVM名属性を送信することになる。
第1のトリガ231は、プローブ供給からのVM状況を更新するために、VM状況テーブルに関連付けられる。VM状況テーブル230の第1のトリガ231は、テーブル内のデータが変更されないままである場合、アクションを起こすことはない。たとえば「仮想マシンの電源はオフである」、「仮想マシンはスタック状態である」、または「仮想マシンは一時停止状態である」が真となった場合、アクティブ列の値は0になり、そうでない場合は1になる。
他の実施形態では、手順を呼び出すことができる。たとえば、仮想マシンに関連付けられたホストが変更された場合、VM_Host_Change手順が呼び出される。VMエントリの状態がアクティブから非アクティブに変更された場合、VM_Down手順が呼び出される。VMエントリの状態が非アクティブからアクティブに変更された場合、VM_Restored手順が呼び出される。構成ファイルは、手順ではなくこれらのアクション実行するために他のトリガ・セットを呼び出す信号を使用することができる。
VM状況テーブル230は、VM状況エントリを削除するために関連付けられた第2の一時トリガ232を含む。これは、状況テーブル230から未使用のエントリをクリアし、1日に1回実行することができる。各状況エントリがチェックされ、所与の期間中(たとえば2週間)変更がなかった場合、エントリは削除される。このトリガの目的は、一時仮想イメージが定期的に作成および破棄されている場合、VM状況テーブルが増大するのを防ぐことである。
VMの状況は、監視エージェントからの状況イベント181によって最新の状態に維持される。
情報は、異なる状況がVM状況テーブル230に同じ情報を提供可能なように複製される。これは、状況イベントが見逃されるというあり得ないことが発生した場合に、さらに高い耐障害性を提供するために実行される。
クラスタ(VMwareエージェント、EIFプローブ、およびObjectServer)の監視は、いずれのVMが開始されるよりも前に実行されるものとする。これにより、VM状況テーブル230が正しく読み込まれることが保証される。監視が開始された時点で、VMがすでにクラスタ上で実行中である場合、これらは一時停止され、中断されていないサービスが必要な場合、VM状況テーブル230またはVMotionedを他のホストに読み込むために再開されるものとする。
プローブ規則ファイル260は、他のプローブによって生成された同様のエラー・イベントに適合する正規化されたフォーマットへの状況イベントのマッピングを実行し、エラー・イベントおよび前述のエラー状況に関する解決を挿入するために使用可能な、正規化コンポーネント261を含む。イベント生成コンポーネント262は、警告状況テーブル240ならびにVM状況テーブル230内にイベントを挿入するために、規則ファイル260内で使用される。
障害イベント相関コンポーネント210は、ハードウェア・エラー・イベントを相関させる。仮想マシンとハイパーバイザとの間でハードウェア・エラーを相関させる機能が必要である。これらのハードウェア・エラー161、171は、VM上で実行中のプローブによって、ならびに、ハイパーバイザあるいはホスト・マシンまたはその両方で実行中であるかまたはこれらと通信中のプローブまたはエージェントによって、集められる。
VMware用の構成例の場合、障害イベントはITM VI VMwareエージェントを介してリモートに集められる。
ハイパーバイザおよびその上で実行中のVMの両方に影響を与えるハードウェア障害1161、171のグループは、ごくわずかである。典型的な例は、高CPU使用、メモリ障害、または共有デバイス障害である。ハードウェア・イベントの有効なタイプのみが処理されることになる。これらは、プローブ規則ファイル270内の普遍的障害を識別する正規化コンポーネント271によって、分類および正規化される。ITM VMwareイベントの場合、これは、EIFプローブ規則ファイル260内で実行されることになる。
エラー・イベントは、警告状況テーブル240内に挿入されると、たとえば20秒ごとなどの一定の間隔で実行される、一時相関トリガ241を使用して相関されることになる。
ホストおよびVMイベントが相関されると、この関係を示すように修正する必要がある。一実施形態では、VMイベント242は「症状」イベント243としてマーク付けされ、ホスト・イベント244は「ルート」イベント245としてマーク付けされる。その後、症状イベントはルート・イベントを指示することになる。
VMが完全に障害を起こした場合、さらに多くのエラー・イベントの根本原因となる可能性もある。手順を使用する実施形態では、VM_DownおよびVM_Restoredの手順を使用して、これらタイプのエラーに関するルート・リンクを導入することができる。たとえば、VM上で実行中のプローブに障害が発生し、心拍が受信されなくなったためにエラーを生成する可能性がある。このエラーに関する詳細および概要はVM_Down手順によって更新され、VM_Restored手順は、この情報を再度更新し、エラー・イベントの重症度を軽減させること、あるいはルート・リンクを導入すること、またはその両方を実行する。しかしながら、エラーは、プローブが再度実行されている場合にのみ、クリアされる。
障害解決コンポーネント220は、ハードウェア・エラー・イベントを解決する。VMが移行された場合、これがVM状況テーブル230を更新する。この手順は、VMホスト名に関連付けられたすべてのハードウェア・エラー・イベントのスキャンを実行し、それらがもはや重要な問題でない旨を示すように、それらの重症度を減少させる。ルート・リンクが物理ホスト・イベントに導入されている場合、これは除去される。
これらのハードウェア・エラー・イベントは、状況イベントに対するスーパーセットとなる。ハイパーバイザおよびVMの両方に影響を与えるエラー・イベントは、すでに重症度がほぼ軽減されているはずであり、除去を必要とする何らかの形のルート・リンクを有することになる。その重症度を軽減させる必要のある未相関イベントが存在する可能性もある。最終的に、ディスク・スペースが少ないなどのいくつかのハードウェア・エラー・イベントは、VMの移行によって解決されないため、変更されずに残されることになる。
提案されたソリューションは、VMホスト名対ハイパーバイザ・ホスト名マッピング・テーブル280に依拠する。
このテーブル280は、いくつかのトリガ内で検索される。主キーはVMホスト名となり、これを使用してテーブルが検索され、有効なハッシュ・テーブル・ルックアップが障害管理サーバによって使用されることになる。最高の処理オーバヘッドは、VM対物理ホスト相関トリガ241である。これは、警告状況テーブル240のトラバース回数を最低に維持するものでなければならない。しかしながら、ハイパーバイザ・ホストがダウンした場合、潜在的に大量のVMが異なるホストに移行される可能性がある。
同様に、多くのVMを実行中のハイパーバイザ上でハードウェア・エラーが発生した場合、潜在的に大量のハードウェア・エラー・イベントが受信される可能性がある。
図3を参照すると、本発明の好ましい諸実施形態の諸態様を実装するための例示的システムは、メモリ要素に直接、またはバス・システム303を介して間接的に結合された、少なくとも1つのプロセッサ301を含む、プログラム・コードの格納あるいは実行またはその両方を行うのに好適な、データ処理システム300を含む。メモリ要素は、プログラム・コードの実際の実行中に、大容量ストレージと、実行中に大容量ストレージからコードを取り出さなければならない回数を減らすために少なくともいくつかのプログラム・コードの一時ストレージを提供するキャッシュ・メモリとを使用する、ローカル・メモリを含むことができる。メモリ要素は、読取り専用メモリ(ROM)304およびランダム・アクセス・メモリ(RAM)305の形の、システム・メモリ302を含むことができる。基本入力/出力システム(BIOS)306は、ROM304内に格納可能である。システム・ソフトウェア307は、オペレーティング・システム・ソフトウェア308を含み、RAM305に格納することができる。ソフトウェア・アプリケーション310もRAM305に格納することができる。
システム300は、磁気ハード・ディスク・ドライブなどの1次ストレージ手段311と、磁気ディスク・ドライブおよび光ディスク・ドライブなどの2次ストレージ手段312とを含むこともできる。ドライブおよびそれらの関連付けられたコンピュータ読み取り可能メディアは、コンピュータ実行可能命令、データ構造、プログラム・モジュール、およびシステム300に関する他のデータの、不揮発性ストレージを提供する。ソフトウェア・アプリケーションは、1次および2次のストレージ手段311、312、ならびにシステム・メモリ302上に格納することができる。
コンピューティング・システム300は、ネットワーク・アダプタ316を介した1つまたは複数のリモート・コンピュータへの論理接続を使用して、ネットワーク化環境内で動作可能である。
入力/出力デバイス313は、直接、または介在I/Oコントローラを介して、システムに結合可能である。ユーザは、キーボード、ポインティング・デバイス、または他の入力デバイス(たとえば、マイクロフォン、ジョイ・スティック、ゲーム・パッド、衛星放送用パラボラアンテナ、スキャナなど)などの入力デバイスを介して、コマンドおよび情報をシステム300に入力することができる。出力デバイスは、スピーカ、プリンタなどを含むことができる。ディスプレイ・デバイス314も、ビデオ・アダプタ315などのインターフェースを介してシステム・バス303に接続される。
図4を参照すると、流れ図400は説明された方法を示す。状況イベントが受信され(401)、正規化される(402)。これと並行して、VMプローブ・イベント(加えて、サポートされている場合はホスト・プローブ・イベント)が受信され(403)、正規化される(404)。正規化されたイベントは、障害イベントとして警告状況テーブルに挿入される(405)。
VMおよびホスト・マッピング情報が状況イベントから抽出され(406)、VM状況テーブルが更新される(407)。
VM対ホスト・マッピングが変更されたかどうかが判別される(408)。変更されていない場合、入力時間のみが更新される(409)。変更されている場合、入力時間が更新され、移動されたVMに関する警告状況テーブル内のすべてのハードウェア障害が見つけられる(410)。
VMに関する任意の好適なハードウェア障害が存在するかどうかが判別される(411)。存在しない場合、方法は終了する(412)。存在する場合、VM障害の重症度が軽減され(413)、症状分類があれば除去される。ホストの根本原因障害へのリンクがあれば、破棄される。その後、方法は終了する(414)。
図5を参照すると、流れ図500は、一定の間隔で実行される障害の相関方法を示す。
第1に、VM相関候補である障害が識別される(501)。これは、以下の点を満たす警告状況テーブル内のすべての障害を見つけることによって実行される。
・根本原因または症状として分類されていない。
・まだ解決されていない。
・VM状況テーブル内のVMホスト名のうちの1つと一致するホスト名を有する。
・ホスト問題によって引き起こされる可能性のあるタイプである。
任意の好適な障害が見つかったかどうかが判別される(502)。見つからない場合、方法は終了する(503)。こうした障害が見つかった場合、VM相関候補内の各障害について、VM状況テーブル内のホスト・サーバ名をルック・アップする(504)。ホスト・サーバ名のセットとしてすべてのホスト・サーバ名をまとめて集める(505)。
次に、ホスト相関候補である障害が識別される(506)。これは、以下の点を満たす警告状況テーブル内のすべての障害を見つけることによって実行される。
・症状として分類されていない。
・まだ解決されていない。
・ステップ505のホスト・サーバ名のセット内に、ホスト名を有する。
・ホスト問題を引き起こす可能性のあるタイプである。
任意の好適な障害が見つかったかどうかが判別される(507)。見つからない場合、方法は終了する(508)。こうした障害が見つかった場合、VM相関候補内の各障害について、ホスト相関候補内のホスト障害をルック・アップする(509)。
エラー・タイプが一致するかどうかが判別される(510)。一致しない場合、方法は終了する(511)。一致した場合、相関されたVMとホスト障害とのペアが存在する(512)。
VM障害が症状としてマーク付けされ(513)、「ローカル・ルート・オブジェクト」フィールドはホスト障害を指示し、障害の重症度が低減される。ホスト障害は根本原因としてマーク付けされ(514)、その重症度が上がる。
複数のVM障害が単一のホスト根本原因障害を指示することが可能であることに留意されたい。
障害管理システムは、ネットワークを介して顧客へのサービスとして提供することができる。
本発明は、完全にハードウェア実施形態、完全にソフトウェア実施形態、または、ハードウェアとソフトウェアの両方の要素を含む実施形態の形を取ることができる。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されない、ソフトウェア内で実装される。
本発明は、コンピュータまたは任意の命令実行システムによって、またはそれらに関連して使用するためのプログラム・コードを提供する、コンピュータ使用可能またはコンピュータ読み取り可能メディアからアクセス可能な、コンピュータ・プログラム製品の形を取ることができる。これを説明するために、コンピュータ使用可能またはコンピュータ読み取り可能メディアは、命令実行システム、装置、またはデバイスによって、あるいはそれらに関連して使用するためのプログラムを、包含、格納、通信、伝搬、または移送することが可能な、任意の装置とすることができる。
メディアは、電子、磁気、光、電磁、赤外線、または半導体システム(あるいは装置またはデバイス)、あるいは伝搬メディアとすることができる。コンピュータ読み取り可能メディアの例は、半導体またはソリッド・ステート・メモリ、磁気テープ、取り外し可能コンピュータ・ディスケット、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、剛性磁気ディスク、および光ディスクを含む。光ディスクの現行例は、コンパクト・ディスク読み取り専用メモリ(CD−ROM)、コンパクト・ディスク読み取り/書き込み(CD−R/W)、およびDVDを含む。
本発明の範囲を逸脱することなく、前述の内容に改良および修正を行うことができる。

Claims (24)

  1. 仮想コンピューティング環境において仮想マシン(121〜126)およびホスト・デバイス(131、132)からの障害イベント(401、403)を監視すること、
    前記仮想コンピューティング環境において状況イベント(401)を監視することであって、前記(401)状況イベントは仮想マシン名およびホスト・デバイス名を言い表すものである、監視すること、
    障害イベントが仮想マシン(121〜126)とホスト・デバイス(131、132)の両方に影響を与えているかどうかを判別すること(501〜512)、
    仮想マシン(121〜126)およびホスト・デバイス(131、132)に関する障害イベントを同じ問題に関するものとして相関させること(512)、
    を含む、仮想コンピューティング環境における障害管理のための方法。
  2. 仮想マシン状況テーブル(230)を維持すること(407)、および
    仮想マシン名およびホスト名のマッピング(250)を維持すること、
    を含む、請求項1に記載の方法。
  3. 障害イベントを障害イベント・テーブル(240)に挿入すること(405)
    を含む、請求項1または2に記載の方法。
  4. 問題に相関付けられたホスト・マシンの障害イベントが、前記障害イベント・テーブル(240)においてルート・イベントとしてマーク付けされる(514)、請求項3に記載の方法。
  5. 問題に相関付けられた仮想マシンの障害イベントは、前記障害イベント・テーブルにおける症状および前記障害イベント・テーブルに追加された前記ルート・イベントへのリンクとしてマーク付けされる、請求項3または4に記載の方法。
  6. 仮想マシン(121〜126)が新しいホスト・マシン(131、132)へと移動された場合、前記仮想マシン(121〜126)に関するすべての障害イベントを前記障害イベント・テーブル内に配置し、重症度を軽減する(413)、前記請求項のいずれか一項に記載の方法。
  7. ルート・リンクが除去される(413)、請求項6に記載の方法。
  8. 前記状況イベント(181)は、プローブのイベント警告(180)の供給元である監視システム(150)によって監視され、仮想マシン(121〜126)およびホスト・デバイス(131、132)とホスト障害イベント(171)との間の関係の指示を含む、前記請求項のいずれか一項に記載の方法。
  9. 前記仮想マシン内の前記障害イベント(161)は、前記仮想マシン(121〜126)上で実行中のプローブ(160)によって供給される、前記請求項のいずれか一項に記載の方法。
  10. 前記ホスト・マシン(171)内の前記障害イベントは、前記ホスト・マシン(131、132)上で実行中のプローブ(170)によって供給される、前記請求項のいずれか一項に記載の方法。
  11. 前記ホスト・マシン(171)内の前記障害イベントは、プローブのイベント警告(180)の供給元である監視システム(150)によって監視される、前記請求項のいずれか一項に記載の方法。
  12. 仮想コンピューティング環境における障害管理のためのコンピュータ・ソフトウェア製品が提供され、前記製品は、コンピュータ実行可能命令を備えるプログラムが格納されたコンピュータを備え、命令は、コンピュータによって読み取りが実行された場合に、
    仮想コンピューティング環境において仮想マシン(121〜126)およびホスト・デバイス(131、132)からの障害イベント(401、403)を監視するステップと、
    前記仮想コンピューティング環境において状況イベント(401)を監視するステップであって、前記状況イベント(401)は仮想マシン名およびホスト・デバイス名を言い表すものである、監視するステップと、
    障害イベントが仮想マシン(121〜126)とホスト・デバイス(131、132)の両方に影響を与えているかどうかを判別するステップ(501〜512)と、
    仮想マシン(121〜126)およびホスト・デバイス(131、132)に関する障害イベントを同じ問題に関するものとして相関させるステップ(512)と、
    を実行する、コンピュータ読み取り可能ストレージ・メディアを備える、コンピュータ・ソフトウェア製品。
  13. プロセッサと、
    仮想コンピューティング環境における仮想マシン(121〜126)およびホスト・デバイス(131、132)からの障害イベント(161、171)のモニタ(160、170)と、
    前記仮想コンピューティング環境における状況イベント(181)のモニタ(150)であって、前記状況イベント(181)は仮想マシン名およびホスト・デバイス名を言い表すものである、モニタと、
    障害イベント(161、171)が仮想マシン(121〜126)とホスト・デバイス(131、132)の両方に影響を与えているかどうかを判別するための正規化コンポーネント(271、261)と、
    仮想マシンおよびホスト・デバイスに関する障害イベント(161、171)を同じ問題に関するものとして相関させるための相関コンポーネント(210)と、
    を備える、仮想コンピューティング環境における障害管理のためのシステム。
  14. 仮想マシン状況テーブル(230)と、仮想マシン名およびホスト・デバイス名のマッピング(250)と
    を含む、請求項13に記載のシステム。
  15. 仮想マシン(121〜126)またはホスト・デバイス(131、132)に関する障害イベントのリストを維持するための障害イベント・テーブル(240)
    を含む、請求項13または14に記載のシステム。
  16. 問題に相関付けられたホスト・マシンの障害イベントに関する前記障害イベント・テーブル(240)内のルート・イベント・マーカ(243)を含む、請求項15に記載のシステム。
  17. 問題に相関付けられた仮想マシンの障害イベントに関する前記障害イベント・テーブル(240)内の症状マーカ(245)と、前記障害イベント・テーブル(240)内の前記ルート・イベントへのリンク(246)とを含む、請求項15または16に記載のシステム。
  18. 障害解決コンポーネント(220)を含み、仮想マシン(121〜126)が新しいホスト・マシン(131、132)に移動された場合、前記解決コンポーネント(220)は前記仮想マシンに関するすべての障害イベントを前記障害イベント・テーブル(240)内に配置し、前記イベントの重症度を軽減する、請求項13から18のいずれか一項に記載のシステム。
  19. 状況イベント(181)に関する前記モニタ(150)は、仮想環境クラスタ制御センタ(133)から前記状況イベントを取得し、前記障害管理システム(110)にイベント警告(180)を供給する、請求項13から19のいずれか一項に記載のシステム。
  20. 障害イベントに関する前記モニタは、前記仮想マシン(121〜126)上で実行中のプローブ(160)である、請求項13から20のいずれか一項に記載のシステム。
  21. 障害イベントに関する前記モニタは、前記ホスト・マシン(131、132)上で実行中のプローブ(170)である、請求項13から21のいずれか一項に記載のシステム。
  22. 前記ホスト・マシン(131、132)内の障害イベント(171)に関する前記モニタ(150)は、仮想環境クラスタ制御センタ(133)から前記障害イベント(171)を取得し、前記障害管理システム(110)にイベント警告(180)を供給する、請求項13から22のいずれか一項に記載のシステム。
  23. 前記プローブ(170)はリモート・マシン上で実行され、ネットワークを介して前記ホスト・マシン(131、132)を監視する、請求項21に記載のシステム。
  24. コンピュータ読み取り可能メディア上に格納され、デジタル・コンピュータの内部メモリにロード可能な、コンピュータ・プログラムであって、コンピュータ上で実行された場合、請求項1から11のいずれか一項の方法を実行するためのソフトウェア・コード部分を備える、コンピュータ・プログラム。
JP2012535699A 2009-10-30 2010-08-31 仮想コンピューティング環境における障害管理のための方法、システム、およびコンピュータ・プログラム Active JP5643321B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09174602 2009-10-30
EP09174602.4 2009-10-30
PCT/EP2010/062761 WO2011051025A1 (en) 2009-10-30 2010-08-31 Method and system for fault management in virtual computing environments

Publications (2)

Publication Number Publication Date
JP2013509626A true JP2013509626A (ja) 2013-03-14
JP5643321B2 JP5643321B2 (ja) 2014-12-17

Family

ID=42712499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012535699A Active JP5643321B2 (ja) 2009-10-30 2010-08-31 仮想コンピューティング環境における障害管理のための方法、システム、およびコンピュータ・プログラム

Country Status (6)

Country Link
US (1) US8381033B2 (ja)
JP (1) JP5643321B2 (ja)
CN (1) CN102597962B (ja)
DE (1) DE112010004182T5 (ja)
GB (1) GB2487494B (ja)
WO (1) WO2011051025A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015122007A1 (ja) * 2014-02-17 2015-08-20 株式会社日立製作所 計算機、及び、ハイパバイザによる資源スケジューリング方法
JP5855724B1 (ja) * 2014-09-16 2016-02-09 日本電信電話株式会社 仮想機器管理装置、仮想機器管理方法及び仮想機器管理プログラム

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012023171A1 (ja) * 2010-08-16 2012-02-23 富士通株式会社 情報処理装置、リモート保守方法、及びプログラム
US10203974B2 (en) * 2010-12-20 2019-02-12 Microsoft Technology Licensing, Llc Probe insertion via background virtual machine
US8561067B2 (en) * 2011-05-31 2013-10-15 Red Hat, Inc. Test suites for virtualized computing environments
FR2977691B1 (fr) * 2011-07-08 2013-07-12 Bull Sas Procede et programme d'ordinateur de gestion dynamique de services dans un cluster d'administration
GB2496482A (en) * 2011-10-28 2013-05-15 Ibm Passive monitoring of virtual systems without using agents executing within virtual servers
US9229758B2 (en) 2011-10-28 2016-01-05 International Business Machines Corporation Passive monitoring of virtual systems using extensible indexing
US9348724B2 (en) * 2012-05-21 2016-05-24 Hitachi, Ltd. Method and apparatus for maintaining a workload service level on a converged platform
CN102902599B (zh) * 2012-09-17 2016-08-24 华为技术有限公司 虚拟机内部故障处理方法、装置及系统
US9009706B1 (en) * 2013-01-23 2015-04-14 Symantec Corporation Monitoring and updating state information of virtual devices to guest virtual machines based on guest virtual machine's probing policy
CN103092710A (zh) * 2013-02-06 2013-05-08 浪潮电子信息产业股份有限公司 云计算操作系统中一种高可用虚拟机运行方法
US10700920B2 (en) 2013-04-29 2020-06-30 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a floating point unit
US10803133B2 (en) 2013-04-29 2020-10-13 Moogsoft Inc. System for decomposing events from managed infrastructures that includes a reference tool signalizer
US11080116B2 (en) 2013-04-29 2021-08-03 Moogsoft Inc. Methods for decomposing events from managed infrastructures
US11010220B2 (en) 2013-04-29 2021-05-18 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a feedback signalizer functor
US9535973B2 (en) * 2013-04-29 2017-01-03 Moogsoft, Inc. Methods for decomposing events from managed infrastructures
US9304885B2 (en) 2013-06-18 2016-04-05 International Business Machines Corporation Passive monitoring of virtual systems using agent-less, near-real-time indexing
US9218139B2 (en) 2013-08-16 2015-12-22 International Business Machines Corporation Minimally disruptive virtual machine snapshots
US9842015B2 (en) * 2013-09-27 2017-12-12 Intel Corporation Instruction and logic for machine checking communication
US9727357B2 (en) * 2013-10-01 2017-08-08 International Business Machines Corporation Failover detection and treatment in checkpoint systems
CN103559124B (zh) 2013-10-24 2017-04-12 华为技术有限公司 故障快速检测方法及装置
CN103763132B (zh) * 2014-01-02 2017-01-11 北京邮电大学 基于症状与故障相关性的网络虚拟化环境故障诊断方法
US10530837B2 (en) 2014-04-10 2020-01-07 International Business Machines Corporation Always-on monitoring in the cloud
US9612765B2 (en) * 2014-11-19 2017-04-04 International Business Machines Corporation Context aware dynamic composition of migration plans to cloud
US9710164B2 (en) 2015-01-16 2017-07-18 International Business Machines Corporation Determining a cause for low disk space with respect to a logical disk
US10979304B2 (en) 2015-01-27 2021-04-13 Moogsoft Inc. Agent technology system with monitoring policy
US10873508B2 (en) 2015-01-27 2020-12-22 Moogsoft Inc. Modularity and similarity graphics system with monitoring policy
US11817993B2 (en) 2015-01-27 2023-11-14 Dell Products L.P. System for decomposing events and unstructured data
US11924018B2 (en) 2015-01-27 2024-03-05 Dell Products L.P. System for decomposing events and unstructured data
US10425291B2 (en) 2015-01-27 2019-09-24 Moogsoft Inc. System for decomposing events from managed infrastructures with prediction of a networks topology
US9507626B1 (en) * 2015-07-20 2016-11-29 Red Had Israel, Ltd. Virtual device backend recovery
GB201513039D0 (en) * 2015-07-23 2015-09-09 Eaton Ind France Sas Shutting down of a virtual system
US9747154B2 (en) * 2015-08-31 2017-08-29 International Business Machines Corporation Isolating hardware and network failures in a computing environment
US10361919B2 (en) 2015-11-09 2019-07-23 At&T Intellectual Property I, L.P. Self-healing and dynamic optimization of VM server cluster management in multi-cloud platform
US9537720B1 (en) * 2015-12-10 2017-01-03 International Business Machines Corporation Topology discovery for fault finding in virtual computing environments
CN106933689B (zh) * 2015-12-29 2020-05-19 伊姆西Ip控股有限责任公司 一种用于计算设备的方法和装置
CN105700935A (zh) * 2016-01-12 2016-06-22 浪潮(北京)电子信息产业有限公司 一种Xen虚拟域的域控制方法及系统
US10754676B2 (en) * 2016-01-20 2020-08-25 International Business Machines Corporation Sharing ownership of an input/output device using a device driver partition
US10250473B2 (en) * 2016-11-29 2019-04-02 Red Hat Israel, Ltd. Recovery from a networking backend disconnect
US10263832B1 (en) * 2016-12-29 2019-04-16 Juniper Networks, Inc. Physical interface to virtual interface fault propagation
US11223534B2 (en) 2017-12-29 2022-01-11 Virtual Instruments Worldwide, Inc. Systems and methods for hub and spoke cross topology traversal
US10831526B2 (en) 2017-12-29 2020-11-10 Virtual Instruments Corporation System and method of application discovery
US10838798B2 (en) 2018-06-07 2020-11-17 Bank Of America Corporation Processing system for performing predictive error resolution and dynamic system configuration control
US10884839B2 (en) * 2018-06-07 2021-01-05 Bank Of America Corporation Processing system for performing predictive error resolution and dynamic system configuration control
TWI691852B (zh) 2018-07-09 2020-04-21 國立中央大學 用於偵測階層式系統故障之偵錯裝置及偵錯方法、電腦可讀取之記錄媒體及電腦程式產品
CN111064433A (zh) * 2018-10-17 2020-04-24 太阳能安吉科技有限公司 光伏系统故障和警报
US11126492B1 (en) 2019-11-05 2021-09-21 Express Scripts Stategic Development, Inc. Systems and methods for anomaly analysis and outage avoidance in enterprise computing systems
CN112804072B (zh) * 2019-11-14 2023-05-16 深信服科技股份有限公司 一种故障信息收集方法、装置、目标电子设备及存储介质
US11431629B2 (en) 2020-08-12 2022-08-30 Micron Technology, Inc. Data packet management
CN112994988B (zh) * 2021-05-10 2021-08-27 宁波均联智行科技股份有限公司 多操作系统间的心跳检测方法及车机系统
CN115858222B (zh) * 2022-12-19 2024-01-02 安超云软件有限公司 一种虚拟机故障处理方法、系统及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0825766A (ja) * 1994-07-18 1996-01-30 Fuji Xerox Co Ltd 障害処理装置
JP2005025483A (ja) * 2003-07-02 2005-01-27 Hitachi Ltd ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
JP2007323244A (ja) * 2006-05-31 2007-12-13 Nec Corp 仮想サーバ管理システムおよびその方法ならびに管理サーバ装置
US20090028053A1 (en) * 2007-07-27 2009-01-29 Eg Innovations Pte. Ltd. Root-cause approach to problem diagnosis in data networks
JP2010086516A (ja) * 2008-09-04 2010-04-15 Hitachi Ltd 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096459B2 (en) * 2002-09-11 2006-08-22 International Business Machines Corporation Methods and apparatus for root cause identification and problem determination in distributed systems
US7139940B2 (en) * 2003-04-10 2006-11-21 International Business Machines Corporation Method and apparatus for reporting global errors on heterogeneous partitioned systems
US8156490B2 (en) * 2004-05-08 2012-04-10 International Business Machines Corporation Dynamic migration of virtual machine computer programs upon satisfaction of conditions
US9329905B2 (en) * 2004-10-15 2016-05-03 Emc Corporation Method and apparatus for configuring, monitoring and/or managing resource groups including a virtual machine
US7640457B2 (en) * 2006-11-07 2009-12-29 International Business Machines Corporation Automated error reporting and diagnosis in distributed computing environment
US8181174B2 (en) * 2007-12-28 2012-05-15 Accenture Global Services Limited Virtual machine configuration system
US8031634B1 (en) * 2008-03-31 2011-10-04 Emc Corporation System and method for managing a virtual domain environment to enable root cause and impact analysis
US8280835B2 (en) * 2009-01-29 2012-10-02 Telcordia Technologies, Inc. Method for automated distributed diagnostics for networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0825766A (ja) * 1994-07-18 1996-01-30 Fuji Xerox Co Ltd 障害処理装置
JP2005025483A (ja) * 2003-07-02 2005-01-27 Hitachi Ltd ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
JP2007323244A (ja) * 2006-05-31 2007-12-13 Nec Corp 仮想サーバ管理システムおよびその方法ならびに管理サーバ装置
US20090028053A1 (en) * 2007-07-27 2009-01-29 Eg Innovations Pte. Ltd. Root-cause approach to problem diagnosis in data networks
JP2010086516A (ja) * 2008-09-04 2010-04-15 Hitachi Ltd 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015122007A1 (ja) * 2014-02-17 2015-08-20 株式会社日立製作所 計算機、及び、ハイパバイザによる資源スケジューリング方法
GB2537760A (en) * 2014-02-17 2016-10-26 Hitachi Ltd Computer, and resource scheduling method using hypervisor
JPWO2015122007A1 (ja) * 2014-02-17 2017-03-30 株式会社日立製作所 計算機、及び、ハイパバイザによる資源スケジューリング方法
JP5855724B1 (ja) * 2014-09-16 2016-02-09 日本電信電話株式会社 仮想機器管理装置、仮想機器管理方法及び仮想機器管理プログラム

Also Published As

Publication number Publication date
US20110107148A1 (en) 2011-05-05
CN102597962B (zh) 2015-07-22
JP5643321B2 (ja) 2014-12-17
WO2011051025A1 (en) 2011-05-05
GB201203864D0 (en) 2012-04-18
GB2487494B (en) 2016-06-29
DE112010004182T5 (de) 2012-08-30
CN102597962A (zh) 2012-07-18
US8381033B2 (en) 2013-02-19
GB2487494A (en) 2012-07-25

Similar Documents

Publication Publication Date Title
JP5643321B2 (ja) 仮想コンピューティング環境における障害管理のための方法、システム、およびコンピュータ・プログラム
US11182220B2 (en) Proactive high availability in a virtualized computer system
US8381038B2 (en) Management server and management system
US7979749B2 (en) Method and infrastructure for detecting and/or servicing a failing/failed operating system instance
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
US8799709B2 (en) Snapshot management method, snapshot management apparatus, and computer-readable, non-transitory medium
US8990772B2 (en) Dynamically recommending changes to an association between an operating system image and an update group
JP5828348B2 (ja) 試験サーバ、情報処理システム、試験プログラムおよび試験方法
US10068015B2 (en) Monitoring a monitoring-target process
JP2013535745A (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
US11157373B2 (en) Prioritized transfer of failure event log data
JP2006244522A (ja) 論理分割されたマルチプロセッシング・システム内で発生するエラー・イベントを報告する標準化されたフォーマット
EP2518627B1 (en) Partial fault processing method in computer system
US9201740B2 (en) Computer system, cluster management method, and management computer
JP2010067042A (ja) 計算機切り替え方法、計算機切り替えプログラム及び計算機システム
JP2014522052A (ja) ハードウェア故障の軽減
US9021078B2 (en) Management method and management system
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
US20050204199A1 (en) Automatic crash recovery in computer operating systems
JP2010009411A (ja) 仮想化環境運用支援システム及び仮想環境運用支援プログラム
JPWO2013124947A1 (ja) 情報システム管理装置及び情報システム管理方法及びプログラム
JP2016162428A (ja) 情報処理システム、管理装置、および情報処理システムの管理方法
US7475076B1 (en) Method and apparatus for providing remote alert reporting for managed resources
JP2018169920A (ja) 管理装置、管理方法及び管理プログラム
US8533331B1 (en) Method and apparatus for preventing concurrency violation among resources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141030

R150 Certificate of patent or registration of utility model

Ref document number: 5643321

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150