JP2008511903A - ヘルス・モニタリング技術およびアプリケーション・サーバの制御 - Google Patents

ヘルス・モニタリング技術およびアプリケーション・サーバの制御 Download PDF

Info

Publication number
JP2008511903A
JP2008511903A JP2007529825A JP2007529825A JP2008511903A JP 2008511903 A JP2008511903 A JP 2008511903A JP 2007529825 A JP2007529825 A JP 2007529825A JP 2007529825 A JP2007529825 A JP 2007529825A JP 2008511903 A JP2008511903 A JP 2008511903A
Authority
JP
Japan
Prior art keywords
health
policies
violation
monitoring
application server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007529825A
Other languages
English (en)
Other versions
JP5186211B2 (ja
Inventor
アネロウシス、ニコラウス
ブラック−ツィーゲルバイン、エリザベス、アン
ハンソン、スーザン、モウリーン
モマート、リリー、バルコビッチ
パシフィシ、ジョバンニ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2008511903A publication Critical patent/JP2008511903A/ja
Application granted granted Critical
Publication of JP5186211B2 publication Critical patent/JP5186211B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】 アプリケーション・サーバの性能および可用性を改善する技術を提供する。
【解決手段】 一態様において、ひとつまたは複数のアプリケーション・サーバのヘルス・モニタリングを行う方法は、以下のステップを含む。まず、ひとつまたは複数のヘルス・クラスを指定する。このひとつまたは複数のヘルス・クラスはそれぞれ、上記ひとつまたは複数のアプリケーション・サーバのひとつまたは複数のヘルス・ポリシーを規定するものである。そして、このひとつまたは複数のヘルス・ポリシーのうちの少なくともひとつを監視する。ひとつまたは複数のヘルス・ポリシーの侵害があれば、これを検出する。
【選択図】図1

Description

本発明は、アプリケーション・サーバの性能および可用性の改善、特に、アプリケーション・サーバのヘルス・モニタリング技術に関する。
アプリケーション・サーバ環境では、ホスト・アプリケーションの非効率的な設計に起因する機能不良等のさまざまな不具合が起こりやすい。その典型的な不具合としては、メモリ・リーク、デッドロック、一貫性のないステート/ユーザエラー等が含まれる。これらの欠陥は、アプリケーションの当面の性能および可用性、もしくは性能または可用性に対して悪影響を及ぼすものとなる。ほとんどの場合は、管理者が適当な機器を用いてこれらの状況を検出することができ、管理者は、不具合を修正するための最善の方策を決定する。
各状況においては、アプリケーション・サーバおよびそのホスト・アプリケーションの再起動等、非侵襲的なソフトウェア再構成から、より抜本的な手法に及ぶ特定の修正措置が必要となる。後者は、「ソフトウェア若化」としても知られており、メモリ・リークおよびデッドロックを含む多くのソフトウェア不具合の修復に一般的に利用される(例えば、非特許文献1参照。本明細書中に参考として開示内容を援用)。また、システムは、当面の障害を示唆する測定結果に基づいてソフトウェアを選択的に若化させることができる(例えば、特許文献1参照。本明細書中に参考として開示内容を援用)。このシステムがクラスタの一部である場合は、アプリケーションが要求する若化によって生じる作業負荷を、別のクラスタ・メンバーで対応可能であるか否かの判定が行われる。その場合、システムはクラスタ・マネージャとのやりとりを行って、別のノードでアプリケーションのインスタンスを開始することができる。
Windows NT(登録商標)クラスタ・システム等のクラスタ・システムにおいては、クラスタ上で未修正のまま動作しているアプリケーションに対して障害検出が行われる(例えば、非特許文献2参照。本明細書中に参考として開示内容を援用)。また、アプリケーションの起動、停止、および障害監視を可能とするアプリケーション固有のクラスタ・インターフェース層を設けることもできる。例えば、アプリケーションが正しく機能しているか否かを判定する際の指標となるアプリケーション要求をモニタに含めてもよい。
クラスタ・システムにおける障害検出および障害復帰のための拡張可能な基盤については、例えば、特許文献2に記載されている(本明細書中に参考として開示内容を援用)。ハートビートを用いた基本的な障害検出(例えば、特定のネットワーク上で停止または稼動された監視ノード)は、ユーザ定義モニタによる増強で特定のサブシステムにおける障害検出を行うとともに、ユーザ定義の復帰プログラムによる増強で検出障害からの復帰を行う。また、同時に使用不可となるノードの数がひとつだけとなるようにクラスタのアップグレードを行う「ローリング・アップグレード」については、例えば、非特許文献3に記載されている(本明細書中に参考として開示内容を援用)。
米国特許第6,629,266号「Method and System for Transparent Symptom−Based Selective Software Rejuvenation」R.E.ハーパー(R.E.Harper)ら 米国特許第5,805,785号「Method for Monitoring and Recovery of Subsystems in a Distributed/Clustered System」D.ディアス(D.Dias)ら Y.ホアン(Y.Huang)ら、Software Rejuvenation: Analysis, Module and Applications、IEEE第25回無停止型コンピュータに関する国際シンポジウム、381−390ページ(1995年) R.ガマシュ(R.Gamache)ら、Windows NT Clustering Service、IEEEコンピュータ、55−62ページ(1998年8月) E.A.ブルーアー(E.A.Brewer)ら、Lessons from Giant−Scale Services、IEEEインターネット・コンピューティング、46−55ページ(2001年7月/8月)
アプリケーション・サーバの障害検出および若化における近年の進展にもかかわらず、効率的かつ効果的なアプリケーション・サーバ環境の監視技術および発生したエラーへの対処技術の改善が必要となっている。
本発明は、アプリケーション・サーバの性能および可用性を改善する技術を提供する。本発明の一態様において、ひとつまたは複数のアプリケーション・サーバのヘルス・モニタリングを行う方法は、以下のステップを含む。まず、ひとつまたは複数のヘルス・クラスを指定する。このひとつまたは複数のヘルス・クラスはそれぞれ、上記ひとつまたは複数のアプリケーション・サーバのひとつまたは複数のヘルス・ポリシーを規定するものである。そして、このひとつまたは複数のヘルス・ポリシーのうちの少なくともひとつを監視する。ひとつまたは複数のヘルス・ポリシーの侵害があれば、これを検出する。
本発明は、以下の詳細な説明と図面を参照することによって、より完全に理解されるとともに、本発明のその他の特徴および利点についても明らかとなる。
図1は、アプリケーション・サーバのヘルス・モニタリングを行うシステム100の一例を示す図である。本明細書中で用いる「ヘルス」という用語は、システムの全体的な保全性および性能を意味しており、システムのサーバに適用されたひとつまたは複数のヘルス・クラスによって規定される。システム100は、マネージャ102、ポリシー・データベース104、ヘルス・コントローラ106、応答マネージャ108、ヘルス・センサ110、ユーザ・アプリケーション112、114、116、およびシステム管理エージェント118を含む。ヘルス・センサ110、ユーザ・アプリケーション112、114、116、およびシステム管理エージェント118は、システム100のアプリケーション・サーバを構成する。例示的な一実施形態において、システム100は、それぞれJ2EEアプリケーションをホスティングするひとつまたは複数のアプリケーション・サーバを有する。
本発明の例示的な一実施形態によれば、システム100は、アプリケーション・サーバのヘルス・モニタリングにおいて、ヘルスに関する特定の不具合の検出および応答、もしくは検出または応答を含む手順を実行するように構成されている。すなわち、ステップ1において、マネージャ102は、まず初めにヘルス・クラスを指定する。以下に詳述するように、所与のヘルス・クラスは、ルールに基づく記述を使用して、アプリケーション・サーバのひとつまたは複数のヘルス・モニタリング・ポリシーを規定することができる。ステップ2においては、例えばポリシー・データベース104に対して、上記指定されたヘルス・クラスの設定が格納される。
ステップ3においては、アプリケーション・サーバのヘルス・モニタリングを行うために、任意のヘルス・センサが設定される。すなわち、ヘルス・ポリシーは、監視する動作環境の属性、ヘルス例外等のポリシー侵害を引き起こす特定の境界ヘルス条件、または侵害を引き起こした条件を修正するための動作、もしくはそれらの組み合わせを指定する。したがって、ステップ4においては、ヘルス・ポリシーの監視が行われる。ヘルス・ポリシーの監視では、まずステップ5aのように、例えばポリシー・データベース104からヘルス・ポリシーを読み出し、ヘルス・ポリシーの侵害が検出された場合には、ステップ5bのように修正措置を開始する。修正措置の一例としては、ステップ6のようにアプリケーション・サーバの再起動を実施することが含まれるが、これには限定されない。
例えばヘルス・ポリシー侵害等のヘルス例外を引き起こす条件(トリガ条件)は、例えばヘルス・センサ110で観測されたセンサ・データ等のデータに対する一般的な属性値アサーションと考えることができる。すなわち、このトリガ条件は、単純な等価条件あるいは複数のセンサ・データに対する複雑な処理演算のいずれかとなり得る(例えば、例示的な一実施形態において、約60分間に約10パーセントの閾値越え(threshold crossing)が観測された場合は、エラー条件が検出される)。例えばポリシー・データベース104に対するセンサ・データの処理としては、統計関数の適用、システム・イベントの順序付け(一部または全体)に対するアサーションの適用、および範囲指定(観測中のシステム各部を包含または除外)が含まれるが、これらには限定されない。
特定のシステムのヘルス・ポリシーは、ポリシー仕様言語で記述され、ヘルス・コントローラ106等のヘルス・コントローラに渡される。ヘルス・コントローラ106は、システムの通常動作時におけるヘルス・ポリシーの実施を担うものである。ヘルス・コントローラ106は、ヘルス・ポリシーをポリシー・データベース104(ローカル・リポジトリ)に格納し、当該マネージド・システムにおける然るべきヘルス・センサ110の設定を行って、関連するシステム・データを取得する。設定するヘルス・センサ110および使用するパラメータの識別は、ヘルス・ポリシー自体に記述するか、あるいはコンパイル処理の後にヘルス・ポリシー仕様から自動的に取得することができる。
システム動作時、ヘルス・コントローラ106は一定期間ごとにヘルス・センサ110からデータを収集し、必要なデータ統合および統計処理を行って、例えばポリシー・データベース104に格納されたヘルス・ポリシーとのデータ照合を行う。ここで、ヘルス侵害が検出された場合は、その侵害に対する応答が発せられる。この応答では、例えばサービスが維持されるようにシステム100の再設定と調整を行う。
図2は、アプリケーション・サーバ環境200の一例を示す図である。アプリケーション・サーバ環境200は、ネットワーク相互接続208を介して接続されたノード202、204、および206を含む。本発明の例示的な一実施形態によれば、各ノード202、204、および206は、それぞれが実行する機能の種類に応じたアプリケーション・サーバ・ソフトウェアのコピーを有している。
アプリケーション・サーバ環境200は、一例として以下のような種類のノードを含む。ノード202は、アプリケーション・サーバ環境の他の部分に対する管理機能の実行を担う管理ノードを構成する。ノード204および206は、アプリケーション・サーバ・ノードを構成する。本明細書の記載によれば、アプリケーション・サーバ環境200は、複数のアプリケーション・サーバ・ノードを含む。各アプリケーション・サーバ・ノードは、ひとつまたは複数のアプリケーション・サーバ・インスタンスをホスティングすることができる。そして、各アプリケーション・サーバ・インスタンスは、ゼロまたは複数の企業アプリケーション・モジュール(本明細書では「アプリケーション」とも称する)をホスティングすることができる。
図3は、アプリケーション・サーバおよびクラスタを含むコンピュータ・システム300の一例を示す図である。すなわち、コンピュータ・システム300は、アプリケーション・サーバ・ノード302および304を含む。アプリケーション・サーバ・ノード302は、アプリケーション・サーバ・インスタンス306および308をホスティングする。そして、アプリケーション・サーバ・インスタンス306がアプリケーション312および314をホスティングし、プリケーション・サーバ・インスタンス308は、アプリケーション316および318をホスティングする。アプリケーション・サーバ・ノード304は、アプリケーション・サーバ・インスタンス310をホスティングする。アプリケーション・サーバ・インスタンス310は、アプリケーション320および322をホスティングする。アプリケーション・サーバ・インスタンス308および310は、クラスタ324を形成する。
コンピュータ・システム300の環境では、以下に示すアプリケーション・サーバ・インスタンスのグループ分けが可能となる。アプリケーション・サーバ・インスタンス306等の「シングルトン(singleton)」なアプリケーション・サーバ・インスタンスは、他のプリケーション・サーバ・インスタンスとは独立に動作するとともに、アプリケーションの単一のコピーを有する。アプリケーション・サーバ・インスタンス308および310等の「クラスタ化」されたアプリケーション・サーバ・インスタンス(「クラスタ」)は、アプリケーション・サーバ・インスタンスの複数のコピーをひとつまたは複数のノード上で動作させる。クラスタは、さらに静的クラスタと動的クラスタに区別することができる。具体的には、動的クラスタにおける動作中のアプリケーション・サーバ・インスタンス数がランタイムで判定されるとともに、アプリケーションに対する観測要求に基づくものであるのに対して、静的クラスタでは、サーバ数が構成により設定される。
図1の説明に関連して上述したように、ヘルス・コントローラ106等のヘルス・コントローラは、アプリケーション・サーバ・インスタンスのヘルス・ステータスの監視を担うものである。ヘルス・コントローラの動作には、設定フェーズおよびランタイム・フェーズという2つの側面が存在する。設定フェーズでは、ヘルス・ポリシーの規定が行われる。図4は、ヘルス・ポリシーを規定するシステム400の一例を示す図である。
すなわち、図4に示す通り、アドミニストレータ402は、アドミニストレータ・コンソール404を用いて多数のヘルス・クラス406を規定する。各ヘルス・クラス406は、一連のターゲット(例えば、ひとつまたは複数のヘルス・クラスのメンバー)およびそのターゲットに適用されるヘルス・ポリシーを有する。このターゲットとヘルス・ポリシーは、動的に変更可能である。また、ヘルス・ポリシーは、監視対象となるひとつまたは複数のヘルス条件、実施する修正措置、および応答モードを含む。この情報は、ポリシー・データベース104の一部となってヘルス・コントローラ106に格納され、コントローラが各ヘルス・クラスを監視する。
図5は、ヘルス・クラスの一例を示す図である。すなわち、ヘルス・クラス406は、ターゲット502、504、506、ならびにヘルス条件、応答モード、および応答をそれぞれ表すヘルス・ポリシー508、510、512を含む構成となっている。ターゲット502、504、506等のヘルス・クラス・ターゲットは、ひとつまたは複数の個別のアプリケーション・サーバ(S)、クラスタ、または動的クラスタ(DC)を含む構成が可能である。クラスタまたは動的クラスタをターゲットに指定した場合、ヘルス・クラスは、ヘルス・クラスの作成後に追加されたそのクラスタまたは動的クラスタアプリケーション・サーバを含めて、そのクラスタまたは動的クラスタのメンバーであるすべてのアプリケーション・サーバに自動的に適合する。また、ヘルス・クラス・ターゲットは、管理ドメインのすべてのノードを含む構成が可能である。ヘルス・クラス・ターゲットが管理ドメインのすべてのノードを含むインスタンスでは、ヘルス・クラスは単一のターゲットのみを有するとともに、ヘルス・クラスの作成後に追加された任意のアプリケーション・サーバに自動的に適合することになる。
ヘルス条件は、ハードウェアおよびソフトウェア、もしくはハードウェアまたはソフトウェアにおけるエラー状態であって、現在の機能不良または予想される機能不良を示す。ヘルス条件の例としては、非常に高いメモリ使用量または高い割合で内部サーバ・エラーに直結する要求が含まれるが、これらには限定されない。従来のシステムでは、これらの条件について、オペレータがアプリケーション・サーバ環境の動作中にシステムを監視し、不具合が検出された場合には、修正措置を施すようになっている。本技術では、そのような不具合に対する完全に自動化された応答方法を提供する。
本発明の例示的な一実施形態によれば、ひとつまたは複数の以下のようなヘルス条件、すなわち、アプリケーション・サーバの経時(例えば、起動からの時間)、実施作業(例えば、発行要求数)、当面のリソース不具合を示唆するメモリの使用パターン、および内部サーバ・エラー(デッドロック等)を示唆する異常に長い要求応答時間の監視が行われるが、これらには限定されない。
ヘルス・クラスは、ヘルス条件508等の厳密にひとつのヘルス条件を監視する。ヘルス条件自体は、メモリ・ヒープ・サイズおよび要求応答時間を含むひとつまたは複数の低レベル・ヘルス・パラメータに関連付けられているが、これらには限定されない。ヘルス・クラスは、検出を行うため、これらの低レベル・ヘルス・パラメータに対して所望の境界を指定する。低レベル・ヘルス・パラメータは、一定期間ごとに評価され、侵害が検出された場合は、当該ヘルス条件が呼び出される。そして、ヘルス・コントローラが、ヘルス・クラスによって指定された修正措置を施す。
応答モード510等の応答モードは、ヘルス条件508等の検出されたヘルス条件が存在する場合のシステムの応答方法を規定する。本実施形態では、応答モードを用いて、以下3つの考え得る方法のうちのひとつ、すなわち、(1)検出限定(条件の検出により診断メッセージを生成)、(2)監視応答(修正措置の提案と併せてメッセージをアドミニストレータに送信)、または(3)自動応答(修正措置の実行に対して即座に、当該条件への応答をスケジューリング)により修正措置を施す。
図6は、検出限定応答の一例を示す図である。図6に示す検出限定応答600においては、ひとつまたは複数のヘルス条件602がヘルス・コントローラ106によって検出・収集され、ログ・エントリ604が生成される。
図7は、監視応答の一例を示す図である。図7に示す監視応答700においては、アクティビティ・エンジン702等のアクティビティ・エンジンに要求を受け渡すヘルス・コントローラ106によって、ひとつまたは複数のヘルス条件602が検出・収集される。アクティビティ・エンジン702は、管理者の注意を要する実施可能なメッセージをアプリケーション・サーバ環境内から受信するとともに、その受信の認識および修正措置の承認、もしくは受信の認識または修正措置の承認といった選択肢を与える構成要素である。そして、アクティビティ・エンジン702は、ユーザに対して修正措置の承認を要求する等、応答確認のための要求704を生成する。応答が確認された場合は、応答706が実行に移される。一方、応答が確認されない場合は、上述の検出限定応答と同様に、ログ・エントリ604が生成される。
図7に示す例示的な実施形態によれば、応答は、エラー条件が観測されたアプリケーション・サーバの再起動に限定される。この処理は、ソフトウェア若化としても知られている。しかし、システムのアーキテクチャは、単に若化措置には限定されず、いかなる種類の自動または監視修正措置にも対応可能である。
図8は、自動応答の一例を示す図である。図8に示す自動応答800においては、上述の検出限定応答および監視応答と同様に、ひとつまたは複数のヘルス条件602がヘルス・コントローラ106によって検出・収集される。そして自動応答802が開始される。
ヘルス・コントローラ動作のランタイム・フェーズに関しては、上述の図4におけるヘルス・コントローラ106等のヘルス・コントローラが、上述の図5におけるヘルス・クラス406等の規定された各ヘルス・クラスを読み出し、上述の図5におけるヘルス・クラスのターゲット502、504、および506等のターゲットごとにヘルス・サブシステムを構成する。ヘルス・サブシステムは、ヘルス・クラスに指定されたヘルス条件の監視を担う高レベルの構成概念である。
ヘルス・サブシステムは、簡単なアプリケーション・プログラム・インターフェース(API)をヘルス・コントローラに与えることによってヘルス・データ集合の低レベル部分の詳細を隠すことにより、ヘルス条件が当該ヘルス・クラスに対して侵害されたか否かを判定する。そして、ヘルス・サブシステムは、ひとつまたは複数の低レベル・センサを設定して、必要なヘルス・データを取得する。
図9は、ヘルス・サブシステム構成の一例を示す図である。図9において、ヘルス・サブシステム900は、ヘルス・クラスA902およびヘルス・クラスB904を実装するように構成されている。
ヘルス・コントローラ106は、ヘルス・クラスA902のターゲットに対して、経時サブシステム906のインスタンスを作成する。そして、経時サブシステム906は、所望の境界(例えば、最大許容経時)を有する経時センサ910を設定する。同様に、ヘルス・クラスB904のターゲットごとにメモリ・サブシステム908を設定して、誤ったメモリの使用パターンを検出する必要がある。そして、メモリ・サブシステム908は、メモリ・ヒープ・サイズ・センサ912、ヒープ増加率センサ914、およびメモリ・リーク・センサ916を初期化する。これらのセンサは、オペレーティング・システムまたはアプリケーション・サーバ環境を通して利用可能な機器を用いてメモリ・ヒープ・サイズ、ヒープ増加率、およびメモリ・リーク等の量を継続的に計算する。センサ912、914、または916のいずれかに対して設定された境界条件が侵害された場合は、メモリ・サブシステム908がフラグを立てることにより、ヘルス・クラスに指定された応答(例えば、アプリケーション・サーバの再起動)が後で呼び出される。
図10は、ヘルス・サブシステムのランタイム動作1000の一例を示す図である。具体的には、センサ1004および1006等のヘルス・センサに対して、ヘルス・サブシステム1002が境界ヘルス条件の侵害の有無を一定期間ごとに確認する。単一のセンサに関わる条件の場合は、ヘルス・センサに対してトリガ条件のアサーション(isTriggered)を実行することにより、サブシステムにて侵害の有無を確認することができる。複数のセンサに関わる条件の場合は、サブシステムにおいて、多数のヘルス・センサを侵害の発生に対するトリガ状態とするか、または、センサに対してデータのポーリングを行い、当該条件が侵害されているか否かを判定する。
いったん設定を行えば、各ヘルス・センサは独立して動作し、アプリケーション・サーバ環境1008に特有の通信機構を用いて、ターゲットから一定期間ごとにヘルス関連データを収集する。取得したヘルス関連データは、ヘルス・クラスに指定された境界パラメータに対する確認が行われる。
ヘルス・センサの境界ヘルス条件の例としては、最大許容サーバ経時(例えば、最大約48時間まで)、最大実施作業(例えば、最大約100,000要求まで)、最大ヒープ・サイズ(例えば、最大約200メガバイトまで)、および最大許容応答時間(例えば、約95パーセントの入力要求に対して最大約5秒まで)が含まれるが、これらには限定されない。
図11は、ヘルス・センサ動作の一例を示す図である。図11において、境界ヘルス条件1104は、ヘルス・センサ1102により確認される。境界ヘルス条件の侵害が検出された場合は、センサにフラグ(トリガ)1106が立ち、低レベルのヘルス・データ1108が収集される。一方、境界ヘルス条件の侵害が検出されない場合は、低レベル・ヘルス・データ1108の収集のみが行われる。
ヘルス・コントローラは、そのサブシステムに対して、一定期間ごとにポーリングを行い、そして、サブシステムはセンサを確認する。サーバのサブシステムがヘルス状態に無いと判定された場合は、ヘルス・モニタが応答を開始する。この処理は、設定されたすべてのサブシステムおよびセンサに対して行われる。
特に重要なことは、ヘルス・コントローラのランタイム特性である。動作中のアプリケーション・サーバ環境では、設定は絶え間なく変化する。例えば、ノードの追加および削除、もしくは追加または削除が行われ、ノードに対するアプリケーション・サーバ・インスタンスの組み込みおよび削除、もしくは組み込みまたは削除が行われ、クラスタのメンバー構成の変更が行われる。
選択した構成要素からの設定イベントを「リスニング」して適切に応答することにより、トポロジ・マネージャ等のヘルス・コントローラの構成要素を用いてアプリケーション・サーバ環境の観測を行うことができる。例えば、新しいヘルス・クラスが作成されると、ヘルス・コントローラは、多数のサブシステムおよびセンサを作成して、クラス・ターゲットからデータを取得する。また、ヘルス・クラスが削除された場合は、ヘルス・コントローラによって対応するヘルス・サブシステムが無効化されるとともに、対応するターゲットからのヘルス・パラメータの観測が停止される。さらに、ヘルス・クラスに新しいターゲットが追加された場合は、そのサーバに対して然るべきヘルス・サブシステムが設定されるとともに、観測中のヘルス・サブシステムのリストに追加される。また、ヘルス・クラスからターゲットが削除された場合は、対応するヘルス・サブシステムが無効化される。そして、ターゲットのメンバー構成が変更となった場合(例えば、クラスタ・システムの場合に当てはまる)は、然るべきヘルス・サブシステムの追加および削除、もしくは追加または削除が行われる。
ヘルス・クラスのターゲットは、サーバまたはサーバ群により構成可能であるため、同じヘルス条件を監視する複数のヘルス・クラスを異なるレベルでサーバ上に作成することができる。例えば、クラスタの経時を監視するヘルス・クラスAを、経時がある値Yを超えた場合に再起動を行う命令とともに作成することができる。また、ヘルス・クラスAのクラスタのメンバーであるサーバの経時を監視する別のクラスBを、経時がある別の値Xを超えた場合に再起動を行う命令とともに作成することができる。この場合、両ヘルス・クラスは矛盾することになる。ヘルス・コントローラは、そのような矛盾を検出し、優先順位規則を用いて適用するヘルス・クラスを判定する。本明細書の記載によれば、同じ種類の条件(例えば、経時または作業)、修正措置、および応答モードを有する複数のヘルス・クラスが所与のサーバに対して規定されている場合に矛盾が生じる。
矛盾が生じると、ヘルス・コントローラは、範囲最小のヘルス・クラスを適用する。例示的な実施形態においては、単一サーバが範囲最小となり、クラスタおよび管理ドメインがこれに続く。また、ユーザが同じ範囲で矛盾するクラスを規定することが回避される。例えば、この規定に係る矛盾の無い条件は、メモリ条件の侵害に関する通知を送出する管理ドメインのヘルス・クラス、およびメモリ条件の侵害時にサーバを自動的に再起動するクラスタのヘルス・クラスである。これら両ヘルス・クラスが応答として自動的に再起動を行う場合は、両クラスが矛盾するため、クラスタのヘルス・クラスがクラスタのサーバに適用されることになる。
ヘルス・コントローラは、そのランタイム挙動を支配する一連の設定パラメータに従って動作する。この設定パラメータとしては、制御周期の長さ(例えば、ヘルス・サブシステムの連続するポーリングの時間周期)、再起動タイムアウト(例えば、再起動の発生に対する最大許容時間。タイムアウトを過ぎると、再起動は失敗と見なされて、ヘルス・コントローラが動作を再試行する)、サーバの再起動回数の最大値(例えば、サーバの再起動に失敗した試行回数の最大値。この後、エラーが記録される)、最小再起動間隔(例えば、サーバを再起動する連続した試行間の最小時間。これにより、不必要に頻発する再起動が防止される)、および再起動制約時間(例えば、ピーク業務時間等の再起動が禁止される時間周期のリスト)が含まれるが、これらには限定されない。
再起動タイムアウト、サーバの再起動回数の最大値、最小再起動間隔、および再起動制約時間のパラメータは、サーバの再起動応答の挙動を制御する。しかし、クラスタ・サーバ用としては、動作中のインスタンスを少なくともひとつ常に保持するのが好ましく、動的クラスタ用としてはユーザ指定の最小数のインスタンスを常に保持するのが好ましい。
図12は、ひとつまたは複数のアプリケーション・サーバのヘルス・モニタリングを行うシステムの一例を示す図である。装置1220は、媒体1227と情報のやりとりをするコンピュータ・システム1221を含む。コンピュータ・システム1221は、プロセッサ1222、ネットワーク・インターフェース1225、メモリ1223、メディア・インターフェース1226、および付加的なディスプレイ1224を含む。ネットワーク・インターフェース1225は、コンピュータ・システム1221とネットワークとの接続を可能にする一方、メディア・インターフェース1226は、コンピュータ・システム1221とデジタル多用途ディスク(DVD)またはハードディスク・ドライブ等の媒体1227との情報のやりとりを可能にする。
当技術分野で従来から知られているように、本明細書に記述した方法および装置は、具現化されたコンピュータ読み込み可能な符号化手段を有する、コンピュータ読み込み可能な媒体を含む製造物として流通するものであってもよい。コンピュータ読み込み可能なプログラム符号化手段は、コンピュータ・システム1221等のコンピュータ・システムと併せて動作することにより、ひとつまたは複数の上記方法を実行するステップの全部または一部の遂行または本明細書に記述した装置の構築が可能である。例えば、コンピュータ読み込み可能な符号は、ひとつまたは複数のアプリケーション・サーバに関して、ひとつまたは複数の指定されたヘルス・クラスにより規定されたひとつまたは複数のヘルス・ポリシーのうちの少なくともひとつを監視するステップと、このひとつまたは複数のヘルス・ポリシーの侵害があればこれを検出するステップとにより上記ひとつまたは複数のアプリケーション・サーバのヘルス・モニタリングを行う方法を実行するように構成されている。コンピュータ読み込み可能な媒体は、記録可能な媒体(例えば、フロッピ・ディスク、ハードディスク・ドライブ、DVD等の光ディスク、またはメモリ・カード)であってもよく、あるいは伝送媒体(例えば、光ファイバを含むネットワーク、ワールドワイド・ウェブ、ケーブル、もしくは時分割多重アクセス、符号分割多重アクセス、またはその他の無線周波数チャネルを用いた無線チャネル)であってもよい。また、コンピュータ・システムとの併用に適した情報を格納可能な既知または先進の任意の媒体を用いてもよい。コンピュータ読み込み可能な符号化手段は、コンピュータによる命令およびデータの読み込みを可能とする、磁気媒体上の磁気変動またはコンパクト・ディスク表面上の高さ変動等の任意の機構である。
メモリ1223は、プロセッサ1222が本明細書に開示した方法、ステップ、および機能を実行するように構成する。メモリ1223は分散またはローカルのいずれかの構成となり、プロセッサ1222は分散または単独のいずれかの構成となり得る。また、メモリ1223は、電気、磁気、または光学メモリ、もしくは、これらの任意の組み合わせ、または他の種類の記憶デバイスとして実装可能である。さらに、「メモリ」という用語は、プロセッサ1222からアクセスしたアドレス可能な空間におけるアドレスに対する読み出しまたは書き込みを可能とする任意の情報を網羅できるように十分広く解釈するものとする。この定義によると、ネットワーク・インターフェース1225を通してアクセス可能なネットワーク上の情報は、プロセッサ1222が当該ネットワーク上から読み出すことができるため、依然としてメモリ1223に属する。なお、プロセッサ1222を構成する各分散プロセッサは、それ自身のアドレス可能なメモリ空間を有するのが一般的である。また、コンピュータ・システム1221の一部または全部は、特定用途向け集積回路または汎用集積回路に組み込むことができる。
付加的なビデオ・ディスプレイ1224は、装置1220のユーザとの情報のやりとりに適した任意の種類のビデオ・ディスプレイである。一般的に、ビデオ・ディスプレイ1224は、コンピュータ用モニタまたはその他同様のビデオ・ディスプレイである。
以上、本発明の実施形態を説明したが、本発明はそのような厳密な実施形態には限定されず、本発明の範囲または思想を逸脱することなく、当業者によりその他さまざまな変更および修正が可能であることは当然のことである。
本発明の一実施形態に係る、アプリケーション・サーバのヘルス・モニタリングを行うシステムの一例を示す図である。 本発明の一実施形態に係る、アプリケーション・サーバ環境の一例を示す図である。 本発明の一実施形態に係る、アプリケーション・サーバおよびクラスタを含むコンピュータ・システムの一例を示す図である。 本発明の一実施形態に係る、ヘルス・ポリシーを規定するシステムの一例を示す図である。 本発明の一実施形態に係る、ヘルス・クラスの一例を示す図である。 本発明の一実施形態に係る、検出限定応答の一例を示す図である。 本発明の一実施形態に係る、監視応答の一例を示す図である。 本発明の一実施形態に係る、自動応答の一例を示す図である。 本発明の一実施形態に係る、ヘルス・サブシステム構成の一例を示す図である。 本発明の一実施形態に係る、ヘルス・サブシステムのランタイム動作の一例を示す図である。 本発明の一実施形態に係る、ヘルス・センサ動作の一例を示す図である。 本発明の一実施形態に係る、ひとつまたは複数のアプリケーション・サーバのヘルス・モニタリングを行うシステムの一例を示す図である。

Claims (23)

  1. ひとつまたは複数のアプリケーション・サーバのヘルス・モニタリングを行う方法であって、
    前記ひとつまたは複数のアプリケーション・サーバのひとつまたは複数のヘルス・ポリシーをそれぞれ規定する、ひとつまたは複数のヘルス・クラスを指定するステップと、
    前記ひとつまたは複数のヘルス・ポリシーのうちの少なくともひとつを監視するステップと、
    前記ひとつまたは複数のヘルス・ポリシーの侵害があればこれを検出するステップと、
    を有する方法。
  2. 前記ひとつまたは複数のヘルス・クラスの設定を格納するステップをさらに有する、請求項1に記載の方法。
  3. 前記指定ステップが、前記ひとつまたは複数のヘルス・クラスのひとつまたは複数のターゲットを規定するステップをさらに有する、請求項1に記載の方法。
  4. 検出された前記侵害に基づいて修正措置を施すステップをさらに有する、請求項1に記載の方法。
  5. 検出された前記侵害に基づいて修正措置を施すステップが、前記ひとつまたは複数のアプリケーション・サーバのうちの少なくともひとつに対する若化をさらに含む、請求項4に記載の方法。
  6. 検出された前記侵害に基づいて自動的な修正措置を施すステップをさらに有する、請求項1に記載の方法。
  7. 検出された前記侵害に基づいて修正措置を施すためにユーザの承認を要求するステップをさらに有する、請求項1に記載の方法。
  8. 前記ひとつまたは複数のヘルス・ポリシーのうちの少なくともひとつを監視するステップが、前記ひとつまたは複数のアプリケーション・サーバのひとつまたは複数の所定の属性に対する監視を含む、請求項1に記載の方法。
  9. 前記侵害を検出するステップが、ひとつまたは複数のヘルス条件に基づいた侵害の検出を含む、請求項1に記載の方法。
  10. 前記侵害を検出するステップが、アプリケーション・サーバの経時、実施作業、メモリの使用パターン、および異常に長い要求応答時間からなる群から選択されるひとつまたは複数のヘルス条件に基づいた侵害の検出を含む、請求項1に記載の方法。
  11. 前記ひとつまたは複数のヘルス・ポリシーをコンピュータ・システムに実装するステップをさらに有する、請求項1に記載の方法。
  12. 前記ひとつまたは複数のヘルス・ポリシーをコンピュータ・システムに実装するステップがヘルス・コントローラの使用を含む、請求項11に記載の方法。
  13. 前記ひとつまたは複数のヘルス・ポリシーのうちの少なくともひとつを監視するステップが、ひとつまたは複数のヘルス・センサの使用を含む、請求項1に記載の方法。
  14. 前記ひとつまたは複数のヘルス・ポリシーのうちの少なくともひとつを監視するステップが、前記ひとつまたは複数のヘルス・ポリシーを監視するように自動的に設定されたひとつまたは複数のヘルス・センサの使用を含む、請求項1に記載の方法。
  15. 前記侵害を検出するステップが、診断メッセージを生成するステップをさらに有する、請求項1に記載の方法。
  16. ヘルス・クラスの追加、ヘルス・クラスの削除、およびヘルス・クラスの変更のうちのひとつまたは複数を監視するために、トポロジ・マネージャを用いるステップをさらに有する、請求項1に記載の方法。
  17. ターゲットの追加およびターゲットの削除のうちのひとつまたは複数を監視するために、トポロジ・マネージャを用いるステップをさらに有する、請求項1に記載の方法。
  18. クラスタのメンバー構成の変更を監視するために、トポロジ・マネージャを用いるステップをさらに有する、請求項1に記載の方法。
  19. 範囲最小のヘルス・クラスを選択することによってヘルス・クラス間の矛盾を解消するステップをさらに有する、請求項1に記載の方法。
  20. ひとつまたは複数のアプリケーション・サーバのヘルス・モニタリングを行う装置であって、
    メモリと、
    前記メモリに結合された少なくともひとつのプロセッサであって、
    ひとつまたは複数の指定のヘルス・クラスによって規定された、前記ひとつまたは複数のアプリケーション・サーバのひとつまたは複数のヘルス・ポリシーのうちの少なくともひとつを監視する機能と、
    前記ひとつまたは複数のヘルス・ポリシーの侵害があればこれを検出する機能と、
    を備えたプロセッサと、
    を有する装置。
  21. 前記少なくともひとつのプロセッサが、検出された前記侵害に基づいて修正措置を施す機能をさらに備えた、請求項20に記載の装置。
  22. ひとつまたは複数のアプリケーション・サーバのヘルス・モニタリングを行うコンピュータ・プログラムであって、コンピュータに、
    ひとつまたは複数の指定のヘルス・クラスによって規定された、前記ひとつまたは複数のアプリケーション・サーバのひとつまたは複数のヘルス・ポリシーのうちの少なくともひとつを監視するステップと、
    前記ひとつまたは複数のヘルス・ポリシーの侵害があればこれを検出するステップと、
    を実行させる、前記コンピュータ・プログラム。
  23. 検出された前記侵害に基づいて修正措置を施すステップをさらに有する、請求項22に記載のコンピュータ・プログラム。
JP2007529825A 2004-08-30 2005-05-25 ヘルス・モニタリング技術およびアプリケーション・サーバの制御 Active JP5186211B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/929,878 US8627149B2 (en) 2004-08-30 2004-08-30 Techniques for health monitoring and control of application servers
US10/929,878 2004-08-30
PCT/US2005/018369 WO2006025892A2 (en) 2004-08-30 2005-05-25 Techniques for health monitoring and control of application servers

Publications (2)

Publication Number Publication Date
JP2008511903A true JP2008511903A (ja) 2008-04-17
JP5186211B2 JP5186211B2 (ja) 2013-04-17

Family

ID=35462609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007529825A Active JP5186211B2 (ja) 2004-08-30 2005-05-25 ヘルス・モニタリング技術およびアプリケーション・サーバの制御

Country Status (5)

Country Link
US (1) US8627149B2 (ja)
EP (1) EP1784728A2 (ja)
JP (1) JP5186211B2 (ja)
CN (1) CN100465919C (ja)
WO (1) WO2006025892A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256227A (ja) * 2011-06-09 2012-12-27 Hitachi Systems Ltd プロセス障害判定復旧装置、プロセス障害判定復旧方法、プロセス障害判定復旧プログラム、および記録媒体
JPWO2011104935A1 (ja) * 2010-02-25 2013-06-17 三菱電機株式会社 メンテナンスコントローラ、メンテナンス方法およびメンテナンスシステム

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113900B1 (en) * 2000-10-24 2006-09-26 Microsoft Corporation System and method for logical modeling of distributed computer systems
US6907395B1 (en) * 2000-10-24 2005-06-14 Microsoft Corporation System and method for designing a logical model of a distributed computer system and deploying physical resources according to the logical model
US6886038B1 (en) * 2000-10-24 2005-04-26 Microsoft Corporation System and method for restricting data transfers and managing software components of distributed computers
US7606898B1 (en) * 2000-10-24 2009-10-20 Microsoft Corporation System and method for distributed management of shared computers
US7689676B2 (en) * 2003-03-06 2010-03-30 Microsoft Corporation Model-based policy application
US7890543B2 (en) * 2003-03-06 2011-02-15 Microsoft Corporation Architecture for distributed computing system and automated design, deployment, and management of distributed applications
US8122106B2 (en) * 2003-03-06 2012-02-21 Microsoft Corporation Integrating design, deployment, and management phases for systems
US7613822B2 (en) * 2003-06-30 2009-11-03 Microsoft Corporation Network load balancing with session information
US7567504B2 (en) * 2003-06-30 2009-07-28 Microsoft Corporation Network load balancing with traffic routing
US7636917B2 (en) * 2003-06-30 2009-12-22 Microsoft Corporation Network load balancing with host status information
US7590736B2 (en) * 2003-06-30 2009-09-15 Microsoft Corporation Flexible network load balancing
US7606929B2 (en) * 2003-06-30 2009-10-20 Microsoft Corporation Network load balancing with connection manipulation
US7778422B2 (en) 2004-02-27 2010-08-17 Microsoft Corporation Security associations for devices
US20050246529A1 (en) * 2004-04-30 2005-11-03 Microsoft Corporation Isolated persistent identity storage for authentication of computing devies
US7409576B2 (en) * 2004-09-08 2008-08-05 Hewlett-Packard Development Company, L.P. High-availability cluster with proactive maintenance
US8423833B2 (en) * 2004-11-16 2013-04-16 Siemens Corporation System and method for multivariate quality-of-service aware dynamic software rejuvenation
US7802144B2 (en) * 2005-04-15 2010-09-21 Microsoft Corporation Model-based system monitoring
US8489728B2 (en) * 2005-04-15 2013-07-16 Microsoft Corporation Model-based system monitoring
US7797147B2 (en) * 2005-04-15 2010-09-14 Microsoft Corporation Model-based system monitoring
US7743286B2 (en) * 2005-05-17 2010-06-22 International Business Machines Corporation Method, system and program product for analyzing demographical factors of a computer system to address error conditions
JP2007004632A (ja) * 2005-06-24 2007-01-11 Nokia Corp 仮想センサ
US8549513B2 (en) 2005-06-29 2013-10-01 Microsoft Corporation Model-based virtual system provisioning
US20070005320A1 (en) * 2005-06-29 2007-01-04 Microsoft Corporation Model-based configuration management
US9104650B2 (en) 2005-07-11 2015-08-11 Brooks Automation, Inc. Intelligent condition monitoring and fault diagnostic system for preventative maintenance
WO2007008940A2 (en) 2005-07-11 2007-01-18 Brooks Automation, Inc. Intelligent condition-monitoring and dault diagnostic system
DE102005045904B4 (de) * 2005-09-26 2022-01-05 Siemens Healthcare Gmbh Datenverarbeitungseinrichtung mit Performance-Steuerung
US7941309B2 (en) * 2005-11-02 2011-05-10 Microsoft Corporation Modeling IT operations/policies
US7657793B2 (en) * 2006-04-21 2010-02-02 Siemens Corporation Accelerating software rejuvenation by communicating rejuvenation events
US9384103B2 (en) * 2006-05-16 2016-07-05 Oracle International Corporation EJB cluster timer
US8122108B2 (en) * 2006-05-16 2012-02-21 Oracle International Corporation Database-less leasing
US7661015B2 (en) * 2006-05-16 2010-02-09 Bea Systems, Inc. Job scheduler
CN100461719C (zh) * 2006-06-15 2009-02-11 华为技术有限公司 服务健康度检测系统及方法
US7685475B2 (en) * 2007-01-09 2010-03-23 Morgan Stanley Smith Barney Holdings Llc System and method for providing performance statistics for application components
US8270586B2 (en) * 2007-06-26 2012-09-18 Microsoft Corporation Determining conditions of conferences
US8903969B2 (en) * 2007-09-28 2014-12-02 Microsoft Corporation Central service control
JP2009104412A (ja) * 2007-10-23 2009-05-14 Hitachi Ltd ストレージ装置及びその制御方法
JP5237034B2 (ja) * 2008-09-30 2013-07-17 株式会社日立製作所 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
US8203937B2 (en) * 2008-10-02 2012-06-19 International Business Machines Corporation Global detection of resource leaks in a multi-node computer system
US20100085871A1 (en) * 2008-10-02 2010-04-08 International Business Machines Corporation Resource leak recovery in a multi-node computer system
US8699690B2 (en) 2008-12-12 2014-04-15 Verizon Patent And Licensing Inc. Call routing
US7996713B2 (en) * 2008-12-15 2011-08-09 Juniper Networks, Inc. Server-to-server integrity checking
US20100162036A1 (en) * 2008-12-19 2010-06-24 Watchguard Technologies, Inc. Self-Monitoring Cluster of Network Security Devices
US8117487B1 (en) * 2008-12-29 2012-02-14 Symantec Corporation Method and apparatus for proactively monitoring application health data to achieve workload management and high availability
US8161330B1 (en) 2009-04-30 2012-04-17 Bank Of America Corporation Self-service terminal remote diagnostics
US8015455B1 (en) * 2009-04-30 2011-09-06 Bank Of America Corporation Self-service terminal for making deposits and for permitting withdrawals
US8108734B2 (en) 2009-11-02 2012-01-31 International Business Machines Corporation Intelligent rolling upgrade for data storage systems
CN102439568A (zh) * 2009-11-19 2012-05-02 索尼公司 计算设备的系统健康和性能看护
US8516295B2 (en) * 2010-03-23 2013-08-20 Ca, Inc. System and method of collecting and reporting exceptions associated with information technology services
US8593971B1 (en) 2011-01-25 2013-11-26 Bank Of America Corporation ATM network response diagnostic snapshot
US8713537B2 (en) * 2011-05-04 2014-04-29 International Business Machines Corporation Monitoring heap in real-time by a mobile agent to assess performance of virtual machine
CN103218281A (zh) * 2012-01-20 2013-07-24 昆达电脑科技(昆山)有限公司 刀片式服务器监控系统
US8746551B2 (en) 2012-02-14 2014-06-10 Bank Of America Corporation Predictive fault resolution
US8990639B1 (en) * 2012-05-31 2015-03-24 Amazon Technologies, Inc. Automatic testing and remediation based on confidence indicators
US9043658B1 (en) 2012-05-31 2015-05-26 Amazon Technologies, Inc. Automatic testing and remediation based on confidence indicators
US9009542B1 (en) * 2012-05-31 2015-04-14 Amazon Technologies, Inc. Automatic testing and remediation based on confidence indicators
US9503341B2 (en) * 2013-09-20 2016-11-22 Microsoft Technology Licensing, Llc Dynamic discovery of applications, external dependencies, and relationships
JP6295856B2 (ja) * 2014-06-27 2018-03-20 富士通株式会社 管理支援方法,管理支援装置及び管理支援プログラム
US9479525B2 (en) 2014-10-23 2016-10-25 International Business Machines Corporation Interacting with a remote server over a network to determine whether to allow data exchange with a resource at the remote server
US10296502B1 (en) * 2015-08-24 2019-05-21 State Farm Mutual Automobile Insurance Company Self-management of data applications
US20170115978A1 (en) * 2015-10-26 2017-04-27 Microsoft Technology Licensing, Llc Monitored upgrades using health information
CN105573864A (zh) * 2015-12-15 2016-05-11 广州视源电子科技股份有限公司 终端系统恢复方法及其系统
CN105589787B (zh) * 2015-12-18 2018-08-28 畅捷通信息技术股份有限公司 应用程序的健康检查方法及健康检查系统
US10289347B2 (en) * 2016-04-26 2019-05-14 Servicenow, Inc. Detection and remediation of memory leaks
US20170317901A1 (en) * 2016-04-29 2017-11-02 Cisco Technology, Inc. Integrated approach to monitor gbp health and adjust policy service level
US11271989B2 (en) 2016-09-27 2022-03-08 Red Hat, Inc. Identifying a component cluster
US9800481B1 (en) * 2016-10-20 2017-10-24 International Business Machines Corporation Communicating health status when a management console is unavailable for a server in a mirror storage environment
US10545553B2 (en) * 2017-06-30 2020-01-28 International Business Machines Corporation Preventing unexpected power-up failures of hardware components
CN109460344B (zh) * 2018-09-26 2023-04-28 国家计算机网络与信息安全管理中心 一种服务器的运维分析方法与系统
US11169905B2 (en) 2018-10-30 2021-11-09 International Business Machines Corporation Testing an online system for service oriented architecture (SOA) services
KR102269647B1 (ko) * 2019-03-20 2021-06-25 주식회사 팀스톤 서버 성능 모니터링 장치
CN112579392B (zh) * 2020-12-21 2023-01-24 深圳云之家网络有限公司 应用检测方法、装置、计算机设备和存储介质
US11412040B1 (en) 2021-07-23 2022-08-09 Vmware, Inc. Using maintenance mode to upgrade a distributed system
US11748222B2 (en) 2021-07-23 2023-09-05 Vmware, Inc. Health measurement and remediation of distributed systems upgrades
EP4307117A1 (en) * 2022-07-15 2024-01-17 NXP USA, Inc. Layered architecture for managing health of an electronic system and methods for layered health management

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002252614A (ja) * 2000-12-21 2002-09-06 Fujitsu Ltd 記録媒体、ネットワーク監視装置、および、プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619656A (en) 1994-05-05 1997-04-08 Openservice, Inc. System for uninterruptively displaying only relevant and non-redundant alert message of the highest severity for specific condition associated with group of computers being managed
US5805785A (en) 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
WO2001031430A1 (fr) * 1999-10-29 2001-05-03 V-Sync Co., Ltd. Systeme de base de donnees
US6629266B1 (en) 1999-11-17 2003-09-30 International Business Machines Corporation Method and system for transparent symptom-based selective software rejuvenation
US6594784B1 (en) 1999-11-17 2003-07-15 International Business Machines Corporation Method and system for transparent time-based selective software rejuvenation
US6609213B1 (en) * 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures
US20020087612A1 (en) * 2000-12-28 2002-07-04 Harper Richard Edwin System and method for reliability-based load balancing and dispatching using software rejuvenation
WO2003014878A2 (en) * 2001-08-06 2003-02-20 Mercury Interactive Corporation System and method for automated analysis of load testing results
US6996751B2 (en) * 2001-08-15 2006-02-07 International Business Machines Corporation Method and system for reduction of service costs by discrimination between software and hardware induced outages
KR100420266B1 (ko) * 2001-10-23 2004-03-02 한국전자통신연구원 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치
US7373556B2 (en) * 2002-02-22 2008-05-13 Bea Systems, Inc. Method for monitoring sub-system health
US7100079B2 (en) * 2002-10-22 2006-08-29 Sun Microsystems, Inc. Method and apparatus for using pattern-recognition to trigger software rejuvenation
US7243265B1 (en) * 2003-05-12 2007-07-10 Sun Microsystems, Inc. Nearest neighbor approach for improved training of real-time health monitors for data processing systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002252614A (ja) * 2000-12-21 2002-09-06 Fujitsu Ltd 記録媒体、ネットワーク監視装置、および、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2011104935A1 (ja) * 2010-02-25 2013-06-17 三菱電機株式会社 メンテナンスコントローラ、メンテナンス方法およびメンテナンスシステム
JP2012256227A (ja) * 2011-06-09 2012-12-27 Hitachi Systems Ltd プロセス障害判定復旧装置、プロセス障害判定復旧方法、プロセス障害判定復旧プログラム、および記録媒体

Also Published As

Publication number Publication date
CN101010669A (zh) 2007-08-01
US8627149B2 (en) 2014-01-07
EP1784728A2 (en) 2007-05-16
JP5186211B2 (ja) 2013-04-17
WO2006025892A2 (en) 2006-03-09
WO2006025892A3 (en) 2006-04-27
US20060048017A1 (en) 2006-03-02
CN100465919C (zh) 2009-03-04

Similar Documents

Publication Publication Date Title
JP5186211B2 (ja) ヘルス・モニタリング技術およびアプリケーション・サーバの制御
US8255355B2 (en) Adaptive method and system with automatic scanner installation
RU2375744C2 (ru) Основанное на модели управление компьютерными системами и распределенными приложениями
CN100417081C (zh) 检查和修复网络配置的方法和系统
Silva et al. Using virtualization to improve software rejuvenation
US7788544B2 (en) Autonomous system state tolerance adjustment for autonomous management systems
US6742141B1 (en) System for automated problem detection, diagnosis, and resolution in a software driven system
US7418489B2 (en) Method and apparatus for applying policies
US7802083B2 (en) Utilization based installation on a computing system
US7490323B2 (en) Method and system for monitoring distributed applications on-demand
US8589727B1 (en) Methods and apparatus for providing continuous availability of applications
US8489728B2 (en) Model-based system monitoring
US20080028264A1 (en) Detection and mitigation of disk failures
KR20160044484A (ko) 클라우드 배치 기반구조 검증 엔진
US20100043004A1 (en) Method and system for computer system diagnostic scheduling using service level objectives
Levy et al. Predictive and Adaptive Failure Mitigation to Avert Production Cloud {VM} Interruptions
US20030212788A1 (en) Generic control interface with multi-level status
WO2004017201A2 (en) An adaptive management method and system with automatic dependency resolution
US7206975B1 (en) Internal product fault monitoring apparatus and method
US20140164851A1 (en) Fault Processing in a System
US9032014B2 (en) Diagnostics agents for managed computing solutions hosted in adaptive environments
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
TWI292091B (en) Computer performance evaluator and application method thereof
Buga et al. Towards modeling monitoring of smart traffic services in a large-scale distributed system
US8595349B1 (en) Method and apparatus for passive process monitoring

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121122

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130121

R150 Certificate of patent or registration of utility model

Ref document number: 5186211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3