JP4866861B2 - トランザクション・ベースのシステムを監視するための方法及びシステム - Google Patents

トランザクション・ベースのシステムを監視するための方法及びシステム Download PDF

Info

Publication number
JP4866861B2
JP4866861B2 JP2007547411A JP2007547411A JP4866861B2 JP 4866861 B2 JP4866861 B2 JP 4866861B2 JP 2007547411 A JP2007547411 A JP 2007547411A JP 2007547411 A JP2007547411 A JP 2007547411A JP 4866861 B2 JP4866861 B2 JP 4866861B2
Authority
JP
Japan
Prior art keywords
system resource
transaction
transaction performance
monitor
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007547411A
Other languages
English (en)
Other versions
JP2008537610A (ja
Inventor
マクレラン、スコット
シャッカ、ヴィンチェンツォ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2008537610A publication Critical patent/JP2008537610A/ja
Application granted granted Critical
Publication of JP4866861B2 publication Critical patent/JP4866861B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/87Monitoring of transactions

Description

本発明は、一般に、システムの性能に関し、より具体的には、本発明はトランザクションの性能に影響を与える問題から症状のシグニチャを自動的に引き出すための方法及びシステムに関する。
ITリソースを使って事業を営むときに最も重要なことは、システムが、それを効率化するサービスの段階で、ビジネス・アプリケーションをサポートするのに必要な機能を提供することである。このためには、トランザクションがタイムリーに実行される必要がある。通常、トランザクションの応答時間の問題が発生するときには、まずエンド・ユーザが問題を経験し、ITスタッフは、既にビジネスに影響が及んだ後に、その問題の警告を受け取る。その後で、故障修理のプロセスが始まり、どこに問題があるのかを発見するためにITリソースが調べられる。
洗練されたトランザクション監視ツールが存在し、トランザクションの応答時間が所定の閾値を超えるとすぐに、リアルタイムでITスタッフに警告する。これは通常の(以前の)状況に対しては大きな改良であるが、このようなツールはまだ普及しておらず、またこのようなツールを使うことには、ある影響が予想される。例えば、トランザクションの継続時間を計るためのトランザクション監視ツールを呼び出すためのアプリケーションを搭載する必要があり、この搭載がトランザクション自体のパス長に加わり、それ故にトランザクションの実行を遅くする。トランザクション自体の実行に直接影響を及ぼす方法を使わずに、劣化した応答時間を検出できることが好ましい。
商用ビジネス・アプリケーションでは、トランザクションが完了できない場合、又は極度に遅くなる場合には、ビジネス・アプリケーション(例えば、データベース、ファイル・システム、サーバなど)をサポートする1つ又は複数のITリソースに必ず問題が存在する。トランザクションの応答時間の劣化を生じるITリソース内の問題は限定的で反復可能である。ITリソースの状態を観察することによってサービス劣化を生じる条件を認識することができれば、トランザクション監視プログラムの広範囲の配備を必要とせずに、またそのような監視がもたらすパス長のオーバーヘッドなしに、問題状況に対して速やかに対処することが可能になる。
システム管理の監視スペースには、2つの異なる監視のカテゴリ、即ち、リソースの監視及びトランザクションの監視がある。トランザクションの実行性能を監視するのに用いられるITリソースの状態及び挙動を監視するために異なる技術が適用され、2つの規則が、異なるツール及び実施法で実行される。そのため、管理者が、システム内で実行中のトランザクションの性能についての情報、及び種々のITリソースがいかに動いているかについての情報を得ることができるにもかかわらず、その2つを合わせて、両セットのデータを強化して観測された問題の根本原因を特定することは極めて困難である。それゆえ、リソースの監視のみによってトランザクション性能の低下を生じる問題を特定することは不可能である。
トランザクションの応答時間を改善する既存の方法を探すと、次のアドレス、
Http://www.microsoft.com/technet/prodtechnol/sscomm/reskit/rkcapmit.mspx
におけるマイクロソフト(マイクロソフトは、特定の国におけるマイクロソフト・コーポレーションの商標である)のサイトのウェブ・ページ上で見いだすことができる。これらのページは、インターネット・トランザクションのキャパシティ・モデルを説明している。この方法は、システム監視パラメータを測定してリソース消費の静的予想曲線を作ることによってトランザクション性能の改善を試みる。次に、トランザクションの応答時間及び処理量がシステム・リソース消費を予想するモデルに対して入力データとして与えられる。このキャパシティ計画の方法は、トランザクションをサポートするシステムを計量することにおいては役立つとしても、リアルタイムでトランザクション性能を監視することには役立たない。
従って、オペレータがリアルタイムでシステム・リソースに反応することを自動的にガイドする、トランザクション監視の方法及びシステムを提供することが本発明の目的である。
トランザクションの速度を低下させる割込みコードを作らないトランザクション監視の方法及びシステムを取得することが、本発明の第二の目的である。
これらの目的は、請求項1により、メトリックの閾値を用いてシステム・リソース及びトランザクション性能データを監視する、トランザクション・ベースのシステムを監視する方法を用いて達成され、この方法は、
システム・リソース・データ及びトランザクション性能データを周期ベースで収集し、トランザクション性能データのメトリックが越えられるたびに、システム・リソースの収集を起動し、トランザクション性能データとシステム・リソース・データを関連付ける識別子をストアするステップと、
収集されたシステム・リソース及びトランザクション性能データを組み合わせるステップと、
組み合わされたデータのシステム・リソース又はトランザクション性能メトリックの各々の平均値を計算するステップと、
トリガ機能により又はトリガ機能によらずに得られた平均値の間に重要な差があるメトリックを識別するステップと、
識別されたメトリックの平均値によって、監視に用いるべきシステム・リソース・メトリックの新しい閾値を計算するステップと、
を含む。
これらの目的はまた、請求項2により、
システムの監視のために計算された閾値を使用するステップと、
システムの監視が満足されるまで、その方法に係る全ステップを必要なだけ何度も繰り返すステップと、
をさらに含む請求項1の方法を用いて達成される。
これらの目的はまた、請求項3により、メトリック閾値を用いてそれらのシステム・リソース及びトランザクション性能をローカルに監視することができる、トランザクション・ベースのサーバを管理サーバから監視するサービスを提供する方法であって、前述のシステムによって実行される、
管理されるサーバにシステム・リソース・データ及びトランザクション性能データの監視ツールをローカルにインストールするステップと、
管理されるサーバ上で、システム・リソース・データ及びトランザクション性能データを時間周期ベースでローカルに収集し、トランザクション性能データのメトリックが越えられるたびに、システム・リソースの収集を起動し、トランザクション性能データとシステム・リソース・データを関連付ける識別子をストアするステップと、
管理されるサーバから管理サーバにデータを送信するステップと、
収集されたシステム・リソース及びトランザクション性能データを管理サーバ上で組み合わせるステップと、
組み合わされたデータのシステム・リソース又はトランザクション性能メトリックの各々の平均値を管理サーバ上で計算するステップと、
トリガ機能により又はトリガ機能によらずに得られた平均値の間に大きな差があるメトリックを管理サーバ上で識別するステップと、
識別されたメトリックの平均値によって、監視に用いるべきシステム・リソース・メトリックの新しい閾値を管理サーバ上で計算するステップと、
システム・リソース・メトリックの新しい閾値を前記管理サーバから管理されるサーバに送信するステップと、
を含む、方法によって達成される。
これらの目的は、請求項4により、
システム監視のために計算された閾値を管理されるサーバ上でローカルに使用するステップと、
システム・リソースの監視が満足されるまで、収集するステップから始まる方法の全ステップを必要なだけ何度も繰り返すステップと、
管理されるサーバ上でトランザクション性能データ監視ツールをローカルにアンインストールするステップと、
をさらに含む請求項3の方法を用いて達成することができる。
これらの目的は、請求項5により、コンピュータ上で実行されるとき、請求項1又は2のいずれかによる方法のステップを実行するためのプログラミング・コード命令を含むコンピュータ・プログラムを用いて達成される。
これらの目的は、請求項6により、請求項1又は2のいずれかによる方法を実行するために適合させた手段を含むシステムを用いて達成される。
本発明は、トランザクション及びリソース監視の両方の機能を強化し、リソースの挙動をトランザクション性能に関連づけることに関連するコンテキストにおいて両方のソースからの情報を組み合わせる。特に、本発明は、動作が低下するときにリソースが何をしているのかを明らかにして、性能問題の根本原因が存在する領域の非常に迅速な特定を可能にするために、低下したトランザクション性能が観測されたまさにその瞬間にリソースの挙動のスナップショットを取得する。具体的には、本発明は、トランザクション監視問題がITリソースの挙動によって表されることを可能にして、トランザクション・モニタが配備されていないシステムにおいてさえも低下したトランザクション性能を生じる条件の検出を可能にする。
図1は、好ましい実施形態による本発明の方法の環境を示す。メイン・システム(100)は、ネットワーク(115)を通じて、ローカル・エリア・ネットワーク(125、135、145)を形成することができるサーバ(155、125、135、145)に接続されている。メイン・システムは、それ自体のシステム・リソース及びサーバの中心点としてのトランザクション性能を監視する。好ましい実施形態においては、メイン・システムにインストールされたソフトウェア・ツールIBM Tivoli Monitor(ITM)(120)及びIBM Tivoli Transaction Monitor(130)が、それぞれInformation Technology(IT)システム・リソース及びトランザクション性能を監視する。システム・リソースを監視するための任意の他のツール(RM又はシステム・リソース・モニタ又はリソース・モニタとも呼ばれる)又はトランザクション性能を測定するための任意の他のツールは、本発明を実施するために使用できることに留意されたい。メイン・システム上で動作するシグニチャ・ビルダ(110)ソフトウエア層も、本発明の好ましい実施形態の新しい機能を含む。マニュアル監視操作のためにオペレータ・コンソールがメイン・システムに接続される。
図2は、好ましい実施形態の方法の一態様である、TP及びRMデータベースの組み合わせを示す。図2は、組み合わされたトランザクション性能モニタ(200)及びリソース・モニタ(220)を示す。トランザクション性能モニタ(200)は、図1のIBM Tivoli Monitor(ITM)(130)とすることが可能であるが、今日TP製品に使われている多くの方法の1つによってトランザクション応答時間を収集する。ITリソース・モニタは、図1のIBM Tivoli Monitor(120)とすることが可能であるが、今日リソース監視製品に使われている多くの方法の1つを用いてITリソースの利用可能性及び性能に関するメトリックを収集する。この2つのエンティティは、独立に、それらのデータを共有データベース(230)に書き込む。データは、周期的に書き込まれ、この実施例のためには60秒の監視サイクルを仮定する。
図3は、TP及びRMデータベースが組み合わされるときにモニタリング・データベースにストアされる測定結果を示す。図3には、3つの異常なトランザクション性能が観察されているが、ITリソース・モニタが60秒のサイクルでデータを収集するので、トランザクション問題が観察されるのと同時にリソース・メトリックが収集されるとしても全くの偶然である。2つのエンティティによって収集される情報を組み合わせることは、以下の実施例のようなレポートを可能にすることができる。この例は意図的に過度に簡略化したものであり、非常に少ないメトリックが示されている。示されているレポートはまた、トランザクション性能及びITリソース監視データの収集の時間同期化を想定しているので、非現実的でもある。実際、今日このことは如何なるシステムによっても達成されないが、本発明の好ましい実施形態の方法によって加えられる。しかし、本実施例においては明確にするために、同期化が想定されている。
図4は、好ましい実施形態の方法の相関関係子によるトリガ機能が用いられない場合の、モニタリング・データベースの測定結果における2つの不完全な測定値を示す。トランザクション性能問題がデータの収集時には発生しないため、このレポートには如何なる問題の痕跡もない。性能低下が観察されたときにトランザクション性能モニタは記録を書き込むことはできるが、対応するリソース・データ・メトリックが無ければ何が問題を生じたかの指示はない。図4の測定結果レポートは、この状況を示している。
ここでは、2つの問題が観察されたことはわかるが、リソース・メトリックがないため、何がトランザクション性能低下の原因なのかについて如何なる結論も導き出すことができない。
図5は、好ましい実施形態の方法による、TPからRMへの相関関係子によるトリガ機能を示す。好ましい実施形態の解決法は、問題が観察された瞬間の状況の完全なスナップショットを取得するためのトランザクション性能及びITリソース監視エンティティの協働を付け加えることである。
図5においては、2つの監視エンティティは、独立にそれらの専門のドメインを監視し、独立にデータを共有データベースに書き込む。トランザクション性能モニタは問題を観察する(応答時間が閾値を超える)と、ITリソース・モニタを起動して、通常の監視サイクルの外でデータを収集する。さらに、相関関係子をリソース・モニタに送って、トランザクション及びリソース・データが相互に結合できることを確実にして、時間同期化を確実にする。それゆえ、好ましい実施形態の方法により、以前のレポートには欠けていたリソース・メトリックを捕捉することができる。
好ましい実施形態の方法においては、問題が観察された瞬間の状況の完全なスナップショットを取得するためのトランザクション性能及びITリソース監視エンティティの協働が付け加えられる。2つの監視エンティティは、独立に、それらの専門ドメインを監視し、独立にデータをデータベース(このデータベースは物理的共有データベース、又はトランザクション・データのための1つ及びリソース・データのための1つの2つの独立したデータベースとすることができ、そのデータは後のステップで組み合わされることに留意されたい)に書き込む。トランザクション性能モニタが問題(応答時間が閾値を超える)を観察すると、ITリソース・モニタを起動させて通常の監視サイクルの外でデータを収集する。さらに、相関関係子をリソース・モニタに送って、トランザクション及びリソース・データが相互に結合できることを確実にして、時間同期化を確実にする。
このトリガ機能が機能するためには、リソース・モニタはインターフェイスを公開して、外部プロセスがデータの収集を起動することができるようにしなければならない。このインターフェイスは、別々のデータ・レコードを組み合わせることを可能にする相関関係子を取得するために、入力データ内にパラメータを求めることになる。この相関関係子は、トリガの条件を表す独特の識別子であり、トランザクション・モニタによって生成される。最も簡単な場合、相関関係子は増分カウンタとすることができる。
完全な測定結果のレポートは、図6に示されるようなものになり得る。図6は、好ましい実施形態の方法により、TP及びRMデータベースが組み合わされ、かつ相関関係子によるトリガ機能が用いられるときにモニタリング・データベース(230)にストアされる測定結果を示す。
ここでは、トランザクション応答時間が許容レベルを超えて増加するとき、使用可能なメモリの量が、トランザクションが許容範囲内で動作しているときの正常値から、急激に減少することがわかる。さらに、CPU使用率が正常であって、問題の原因はCPU使用率ではなく、恐らく使用可能メモリの低下であることがわかる。適切な瞬間に、全ての関連データを集め得ること、及び異なるソースからのデータを関連付け得ることは、性能問題の根本原因を特定するために重要であり、2つの監視コンポーネントの協働によって可能となる。
次の方法が、どのメトリック値が応答時間に悪影響を与える問題の症状であるかを自動的に決定するために用いられる。
各々の収集時間間隔に対してレコードが生成される。各レコードは、以下の情報、
タイムスタンプと、
各々がメトリックのタイプ及びその時間間隔内で観察された値を示す、重要値の対のリストと、
相関関係子(トランザクション性能モニタによって収集が起動されないかぎりヌル値となる)と
を含む。
非ヌル値の相関関係子を有するレコードに含まれる各メトリックの平均値が計算される。同様に、ヌル値の相関関係子を有するレコードに含まれる各メトリックの平均値が計算される。それら2つが比較される。例外条件及び正常条件において観察されたメトリックの値の間に差がほとんどなければ、その特定のメトリックは、トランザクション応答時間に悪影響を与える問題の症状ではないことは明らかである。その2つの条件におけるメトリック値に顕著な差があれば、そのメトリックは、応答を遅らせている問題の症状として使うことができる可能性が高い。
上述の方法は、応答時間の劣化に直面しているときのシステムの状態を、リソースのメトリック及び値を用いて示す「問題のシグニチャ」を作成するために用いることができる。この方法は、システムにトランザクション・モニタがインストールされておらずアクティブでない場合でも、ITリソース・モニタが応答時間の問題を引き起こしている可能性のある状況を検出できるため、極めて有用である。さらに、トランザクションの監視は、命令をトランザクション・パス長に加えるので、トランザクション応答時間を監視することは、トランザクションを非明示的に遅くする(良好に実施されているモニタではわずかな程度であるが)が、トランザクションのパスを配備することなしにトランザクション応答時間の問題を検出することは、如何なるパス長をも加えることはない。
問題のシグニチャは、正常状態と例外状態の間で値の顕著な差を示すメトリック、及びそれらが例外状態において示す値を含むことになる。リソース・モニタが、全てのメトッリックが例外状態のレベルに合致する値を示していることを検出する場合には、システムは恐らくトランザクション応答時間の劣化に直面していると報告することになる。各メトリックに関連する値は、以前に計算された平均値とはならない。その値が使われる場合には、定義により、個々のメトリックに関する「問題状態」の半分しか認識されないことになり、全体の問題シグニチャではさらに少なく認識されることになる。より優れた方法は、正常作動状態の平均値と例外状態の平均値の中間の値、又は2つの平均値の間の連続体上の他のある値を使うことである。その連続体上の正確な箇所は設定可能であるが、好ましい実施形態においては、例外状態の平均値からの標準偏差値に基づくものとする。
本明細書でまもなく説明される図中に用いられる実施例は、少数の性能メトリックが収集される単一のシステム上で実行される単一のトランザクションを示す。これは、極めて単純な場合である。好ましい実施形態の方法はまた、多くのサブ・トランザクションから成る複数のシステムに及ぶビジネス・トランザクションに適用できる。
ウェブ・ユーザは、例えば、ウェブサーバ上、アプリケーション・サーバ上、及びデータベース上にサブ・トランザクションを作成する操作を呼び出すことができる。トランザクション・モニタは相関関係子を使用してサブ・トランザクションをつなぎ合わせることができるので、同じ相関関係子は、それぞれ個々のシステム上のリソース・モニタ・データをサブ・トランザクションに、従ってまた全体のビジネス・トランザクションに関連させるために用いることができる。それゆえ、好ましい実施形態の方法は、多くのシステムにわたるビジネス・トランザクションをサポートする全てのリソースのリソース挙動のスナップショップを取得して複雑な状況における問題の原因を明らかにすることができる。
ITリソース監視の例外的なトリガ機能に対する一つの拡張機能は、各々のコンポーネントからのデータの正確な連結を可能にするために相関関係子を常に送ることができるように、常にリソース・データ収集を起動するためにTPトリガ機構を用いることである。これにはまた、トランザクション・モニタがトランザクションの開始を観察するとすぐに、リソース・モニタがリソース・メトリックを収集するように命令することができるという利点がある。これは、メトリック値が、トランザクションが実行されている時点での状況を正確に反映するということを意味する。以前に説明された方法では、メトリックは、トランザクション・モニタが遅い応答時間に気づいた後に(即ち、トランザクションが完了した後に)収集される。殆どの場合、リソース・メトリックの収集における少しの遅れはデータの有効性に影響を与えないが、非常に動的な環境においては、状況が急速に変化することがあり、最小の遅れであってもパターン識別を困難にする可能性がある。
図7は、好ましい実施形態による、それから問題シグニチャが抽出される、モニタリング・データベース(230)にストアされた測定結果を示す。次の実施例は、例外及び非例外状態の間で値があまり違わないメトリックがいかに容易に識別できるかを示している。この場合には、メトリックA,C及びDが問題シグニチャを構成し、一方メトリックB及びEは、この問題に関して有用な情報を何も提供しない。
図8は、好ましい実施形態による方法の一般的なフロー・チャートである。サーバを監視するためのITリソース・モニタ(220)及びシグニチャ・ビルダ(110)がすでに動作しているメイン・システムに、TPコード(200)がインストールされる(800)。次に、TP及びRMデータが監視されるサーバから収集される(810)。収集されたデータがモニタリング・データベース内で組み合わされる(820)。TP及びRMレコードの両方に含まれる相関関係子が、関連する情報を関連付けるために用いられる。各々のメトリックに対して平均値が計算される(830)。重要なメトリックが識別される。「正常」及び「例外」レコードにおいて一貫して異なるメトリックは、問題シグニチャに寄与する故に識別される。各々のメトリックに対して閾値が計算される(850)。「最適」値は、任意にアルゴリズムを使って、又は代替としてオペレータ・コンソールを通じた顧客の選択を可能にすることにより、計算される。好ましい実施形態により、問題シグニチャをカプセル化するリソース・モデルが形成される(850)。本開示で説明されるリソース・モデルの概念は、IBM Tivoli Monitor(ITM)のようなシステム・リソース・モニタにすでに適用されている概念である。リソース・モデルは、特定の状況を識別する条件を記述する機械可読パッケージである。ITMの場合には、単純なRMは、システムが監視されている状況に適合する状態にあるかどうかを判断するのに必要なデータ(メトリック)を収集するためにITM内で動作する実行可能なスクリプトと、メトリック値を比較するための多数の閾値と、比較の結果を組み合わせて監視されている状況を示す組み合わせを識別するブール・ロジックとを含む。ITMのRMはもっと複雑なロジックを実行できるが、本発明の方法の目的のためには、リソース・モデルは、システム・リソース・モニタによって消費され、特定のシステム状況を識別することを可能にする機械可読パッケージを表す。
リソース・モデルは、次に、管理されるサーバに配備される(870)。問題を識別するのにより長いトレーニング期間が必要であれば、データが再び収集され、同じループが実行される。ユーザがもはやこのサービスを必要としない場合には、この方法は終了する。トレーニングはある一定期間実施され、その後(テスト880にイエスと答える)、TPコードが削除され(885)、生成されたシグニチャがリソース監視ツールによって用いられる。あるいは(テスト880にノーと答える)、トレーニングを続行することができて、シグニチャは継続して最新のデータで更新される。この後者の方法は、システム上でTPエージェントをアクティブのままにしておける場合に適切である。
図9は、トレーニング期間中に、好ましい実施形態の方法を実行するためのシステム環境を示す。この図9は、独立したデータベース(940,930,920)上のデータを収集し、そのデータをそれぞれの管理サーバ・コンポーネントに送る、TP及びRMエージェントを示している。この構成においては、両エージェントは、トレーニング期間が終了するまで、全ての管理されるサーバ上で動作する。一旦レコードがデータベース内で持続すると、新しいロジックがモニタリング・データベース(230)内でレコードを組み合わせてシグニチャを形成する。一旦トレーニング期間が終了すると、シグニチャはRMエージェントに配備されることになる。
図10は、プロダクション・モードで好ましい実施形態の方法を実行するためのシステム環境を示す。この図10は、1つの管理されるサーバ上のみで動作するTPエージェントを示している。この構成は、全ての管理サーバが、同じトランザクションを処理し、全ての点で非常に類似している(それらはHTTPサーバのクラスタを形成する)場合に適切である。「トレーニング」は、単一サーバに限定されたトレーニングのオーバーヘッドにより続行することができる。シグニチャが、1つだけのサーバ上で収集された情報から形成されていても、サーバが非常に類似しているので生成されたシグニチャは全部に適用可能である。
本発明は、サービスの提供として実施することができる。リソース監視ツールの使用は非常に普及しており、ほとんどの企業顧客は、伝統的なリソース健全状態/利用可能性の監視を実施するために1つのツールを使っていることになる。トランザクション監視ツールの使用は、トランザクションの性能がエンド・ユーザに直接影響を与え、運営されている事業に直接影響を与える可能性があるにも関らず、遥かに少なくしか普及していない。サービスの提供は、顧客が購入すべき追加のソフトウエアを必要とせずに、劣化した応答時間の状況を検出するリソース監視シグニチャを生成することとすることができる。これらのシグニチャは、顧客の環境におけるトレーニング期間中に収集されたデータから生成されることになるように、顧客のシステムに合わせて調整される。
サービス・チームは、トランザクション監視サーバを顧客のシステムにインストールするか、又はサービス・チーム所有のシステムにプリロードしたものを持って行き、TPエージェントを顧客の管理されるサーバにインストールしてデータの収集を開始する。充分なデータが収集された後、サービス・チームは、分析コードを実行させてシグニチャを作成し、次いで、このシグニチャが顧客に配信されてリソース・モニター・エージェントに配備されることになる。
図11は、サービス提供として実施されるときの好ましい実施形態の方法の一般的なフロー・チャートである。初めにTPエージェントが監視されるべきサーバにインストールされる(1100)。次に、監視されるサーバからTP及びRMデータが収集される(1110)。その後、データはエージェントによって管理サーバに送られる(1120)。次のステップ(1130)は管理サーバ内で実施される。TP及びRMエージェントからのデータはモニタリング・データベース内で組み合わされる(1115)。TP及びRMレコードの両方に含まれる相関関係子が関連情報を関連付けるために用いられる。各々のメトリックに対して平均値が計算される(1125)。重要なメトリックが識別される(1135)。「正常」及び「例外」レコードにおいて一貫して異なるメトリックは、問題のシグニチャに寄与するので識別される。各々のメトリックに対して閾値が計算される(1145)。「最適」値が、任意にアルゴリズムを使って、又は代替として顧客の選択を可能にすることによって計算される。問題のシグニチャをカプセル化するリソース・モデルが形成される(1155)。次いで、リソース・モデルが顧客に配備される(1130)。ウェブサービスのユーザが問題を識別するためのトレーニング期間の続行を希望する場合には、データが再び収集され、同じループが実施される。ユーザがもはやこのサービスを必要としなくなる場合は、この方法は終了する。トレーニンはある一定期間実施することができ、次にTPエージェントが削除され(1140)、本監視方法が終了し(1150)、生成されたシグニチャはリソース監視エージェントによって用いられる。あるいは、トレーニングは続行することができて、シグニチャは継続して最新のデータで更新される。この後者の方法は、管理されるサーバのサブセット上でTPエージェントをアクティブのままにしておける場合に適切である。
好ましい実施形態による方法を実施するためのコンピュータ・システムの概観を示す。 好ましい実施形態による方法の一態様であるTP及びRMデータベースの組み合わせを示す。 TP及びRMデータベースが組み合わされるときにモニタリング・データベースにストアされる測定結果を示す。 好ましい実施形態による方法の相関関係子によるトリガ機能が用いられない場合の、モニタリング・データベースの測定結果における2つの不完全な測定値を示す。 好ましい実施形態の方法によるTPからRMへの相関関係子の機能によるトリガ機能を示す。 好ましい実施形態の方法による、TP及びRMデータベースが組み合わされるとき、かつ、相関関係子によるトリガ機能が用いられるときに、モニタリング・データベースにストアされる測定結果を示す。 好ましい実施形態による、それから問題のシグニチャが抽出されるモニタリング・データベースにストアされた測定結果を示す。 好ましい実施形態による方法の一般的なフロー・チャートである。 トレーニング期間中に、好ましい実施形態の方法を実施するためのシステム環境を示す。 実働モードにおいて、好ましい実施形態の方法を実施するためのシステム環境を示す。 サービスの提供として実施されるときの好ましい実施形態の方法の一般的なフロー・チャートである。
符号の説明
100:メイン・システム
110:シグニチャ・ビルダ
115:ネットワーク
120:IBM Tivoliモニタ(ITM)
125、135,145,155:サーバ
130:IBM Tivoliトランザクション性能モニタ(TPM)
200:トランザクション性能モニタ
220:ITリソース・モニタ
230:モニタリング・データベース(共有データベース)
920,930,940:データベース

Claims (8)

  1. システム・リソース・モニタ及びトランザクション性能モニタを有するトランザクション・ベースのシステムを監視する方法であって、これらのモニタは、それぞれシステム・リソース・メトリック値及びトランザクション性能メトリック値を時間周期ベースで周期的に収集し、これらのモニタはまた、システム・リソース又はトランザクション性能メトリックの閾値が越えられるときを検出し、
    ある時間周期の外において、トランザクション性能メトリック閾値が越えられるたびに、システム・リソース・メトリック値を追加収集するように、前記トランザクション性能モニタから前記システム・リソース・モニタを起動するステップと、
    各々の周期的に収集されたシステム・リソース・メトリック値の平均値を計算するステップと、
    各々の追加収集されたシステム・リソース・メトリック値の平均値を計算するステップと、
    システム・リソース・メトリック値の追加収集によって得られた平均値と、時間周期ベースで行われたシステム・リソース・メトリック値の収集によって得られた平均値との間に、重要な差が存在する場合のシステム・リソース・メトリックを識別するステップと、
    前記識別されたシステム・リソース・メトリックに関して、前記2つの計算された平均値の間に新しい閾値を設定するステップと
    を含む方法。
  2. 前記起動するステップは、前記トランザクション性能モニタ自体が、トランザクション性能メトリック閾値が越えられるたびに、追加収集を示す識別子を含んだトランザクション性能メトリック値の追加収集を実行するステップをさらに含み、この識別子は前記トランザクション性能モニタに与えられてメトリック値の前記追加収集に含められる、請求項1に記載の方法。
  3. 前記新しい閾値をシステムの監視のために用いるステップと、
    前記システムの監視が満足されるまで、前記方法に係る全ステップを必要なだけ何度も繰り返すステップと
    をさらに含む、請求項1又は請求項2のいずれかに記載の方法。
  4. メトリックの閾値を用いてシステム・リソース及びトランザクション性能をローカルに監視することができる、トランザクション・ベースのサーバを管理サーバから監視するためのサービスを提供する方法であって、前記システムによって実行される、
    管理されるサーバに前記システム・リソース及びトランザクション性能を監視するツールをローカルにインストールするステップと、
    管理されるサーバ上で、前記システム・リソース・データ及びトランザクション性能データを時間周期ベースでローカルに収集するステップと、
    管理されるサーバ上で、ある時間周期外において、トランザクション性能メトリック閾値が越えられるたびに、システム・リソース・メトリック値を追加収集するように前記システム・リソースをローカルに監視するモニタを前記トランザクション性能をローカルに監視するモニタからローカルに起動するステップと、
    前記管理されるサーバから前記管理サーバにデータを送信するステップと、
    前記管理サーバ上で、各々の周期的に収集されたシステム・リソース・メトリック値の平均値を計算するステップと、
    前記管理サーバ上で、各々の追加収集されたシステム・リソース・メトリック値の平均値を計算するステップと、
    前記管理サーバ上で、システム・リソース・メトリック値の追加収集によって得られた平均値と、時間周期ベースで行われたシステム・リソース・メトリック値の収集によって得られた平均値との間に、重要な差が存在する場合のシステム・リソース・メトリックを識別するステップと、
    前記識別されたシステム・リソース・メトリックに関して、前記2つの計算された平均値の間に新しい閾値を設定するステップと、
    前記システム・リソース・メトリックの新しい閾値を前記管理サーバから前記管理されるサーバに送るステップと
    を含む、方法。
  5. 前記起動するステップは、前記トランザクション性能モニタ自体が、トランザクション性能メトリック閾値が越えられるたびに、追加収集を示す識別子を含んだトランザクション性能メトリック値の追加収集を実行するステップをさらに含み、この識別子は前記トランザクション性能モニタに与えられてメトリック値のシステム・モニタ追加収集に含められる、請求項4に記載の方法。
  6. 前記管理されるサーバ上で、前記計算された閾値をシステム監視のためにローカルに使用するステップと、
    前記システム・リソースの監視が満足されるまで、前記収集するステップから始まる前記方法の全ステップを必要なだけ何度も繰り返すステップと、
    前記管理されるサーバ上で前記トランザクション性能データ監視ツールをローカルにアンインストールするステップと
    をさらに含む、請求項4又は請求項5のいずれかに記載の方法。
  7. コンピュータに、請求項1又は請求項3のいずれかに記載のステップを実行させるためのコンピュータ・プログラム。
  8. 請求項7に記載のコンピュータ・プログラムを実行するシステム。
JP2007547411A 2004-12-24 2005-10-26 トランザクション・ベースのシステムを監視するための方法及びシステム Expired - Fee Related JP4866861B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04300953 2004-12-24
EP04300953.9 2004-12-24
PCT/EP2005/055580 WO2006066990A2 (en) 2004-12-24 2005-10-26 A method and system for monitoring transaction based systems

Publications (2)

Publication Number Publication Date
JP2008537610A JP2008537610A (ja) 2008-09-18
JP4866861B2 true JP4866861B2 (ja) 2012-02-01

Family

ID=36602114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007547411A Expired - Fee Related JP4866861B2 (ja) 2004-12-24 2005-10-26 トランザクション・ベースのシステムを監視するための方法及びシステム

Country Status (6)

Country Link
US (1) US8856312B2 (ja)
EP (1) EP1828903B1 (ja)
JP (1) JP4866861B2 (ja)
CN (1) CN101088072B (ja)
TW (1) TWI374359B (ja)
WO (1) WO2006066990A2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510430B2 (en) * 2006-08-03 2013-08-13 International Business Machines Corporation Intelligent performance monitoring based on resource threshold
WO2008056682A1 (fr) * 2006-11-06 2008-05-15 Nec Corporation Dispositif de collecte d'informations de ressource, procédé de collecte d'informations de ressource, programme et dispositif de génération de programme de collecte
KR100840129B1 (ko) * 2006-11-16 2008-06-20 삼성에스디에스 주식회사 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
US8612573B2 (en) * 2008-08-28 2013-12-17 Ca, Inc. Automatic and dynamic detection of anomalous transactions
EP2350829B1 (en) * 2008-10-22 2019-04-10 6fusion USA Inc. Method and system for determining computer resource usage in utility computing
US20100122119A1 (en) * 2008-11-12 2010-05-13 International Business Machines Corporation Method to manage performance monitoring and problem determination in context of service
US8225119B2 (en) * 2009-02-23 2012-07-17 Microsoft Corporation Energy-aware server management
US8793694B2 (en) * 2009-02-26 2014-07-29 International Business Machines Corporation Policy driven autonomic performance data collection
CA2741982C (en) 2009-05-22 2018-07-17 International Business Machines Corporation Apparatus and method for monitoring a computer system
US10546332B2 (en) 2010-09-21 2020-01-28 Visa International Service Association Systems and methods to program operations for interaction with users
US9679299B2 (en) 2010-09-03 2017-06-13 Visa International Service Association Systems and methods to provide real-time offers via a cooperative database
US10055745B2 (en) 2010-09-21 2018-08-21 Visa International Service Association Systems and methods to modify interaction rules during run time
US8849469B2 (en) 2010-10-28 2014-09-30 Microsoft Corporation Data center system that accommodates episodic computation
US8677191B2 (en) * 2010-12-13 2014-03-18 Microsoft Corporation Early detection of failing computers
US8874733B2 (en) * 2011-12-14 2014-10-28 Microsoft Corporation Providing server performance decision support
US8862727B2 (en) * 2012-05-14 2014-10-14 International Business Machines Corporation Problem determination and diagnosis in shared dynamic clouds
US9773010B1 (en) * 2013-07-24 2017-09-26 Veritas Technologies Llc Information-driven file system navigation
US9798644B2 (en) * 2014-05-15 2017-10-24 Ca, Inc. Monitoring system performance with pattern event detection
US9933804B2 (en) 2014-07-11 2018-04-03 Microsoft Technology Licensing, Llc Server installation as a grid condition sensor
US10234835B2 (en) 2014-07-11 2019-03-19 Microsoft Technology Licensing, Llc Management of computing devices using modulated electricity
US11210669B2 (en) * 2014-10-24 2021-12-28 Visa International Service Association Systems and methods to set up an operation at a computer system connected with a plurality of computer systems via a computer network using a round trip communication of an identifier of the operation
US9864670B2 (en) * 2015-04-15 2018-01-09 International Business Machines Corporation Dynamically choosing data to collect in a system
CN105069296A (zh) * 2015-08-10 2015-11-18 国网浙江省电力公司电力科学研究院 一种设备阈值确定方法及系统
US10673730B2 (en) * 2015-08-31 2020-06-02 Hitachi, Ltd. Method and apparatus to manage it infrastructure based on application characteristics
US10452511B2 (en) 2016-04-29 2019-10-22 International Business Machines Corporation Server health checking
US10303576B1 (en) 2018-05-04 2019-05-28 6Fusion Usa, Inc. Systems and methods for IT intelligence and management based on container-level metering
US11163633B2 (en) 2019-04-24 2021-11-02 Bank Of America Corporation Application fault detection and forecasting
CN110109803B (zh) * 2019-05-09 2022-05-06 腾讯科技(深圳)有限公司 一种用户行为上报方法及系统
CN110795003B (zh) * 2019-10-30 2021-07-13 邵忠 一种界面显示方法、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244998A (ja) * 1996-03-14 1997-09-19 Nec Corp オンラインプログラム性能情報採取装置および採取方法
US20020198985A1 (en) * 2001-05-09 2002-12-26 Noam Fraenkel Post-deployment monitoring and analysis of server performance
JP2003263342A (ja) * 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW480394B (en) 2000-09-21 2002-03-21 Flystone Technology Co Ltd Method of remote monitor, maintenance, and generating electronic commerce
US20020099578A1 (en) * 2001-01-22 2002-07-25 Eicher Daryl E. Performance-based supply chain management system and method with automatic alert threshold determination
US6643613B2 (en) 2001-07-03 2003-11-04 Altaworks Corporation System and method for monitoring performance metrics
WO2003009140A2 (en) * 2001-07-20 2003-01-30 Altaworks Corporation System and method for adaptive threshold determination for performance metrics
US8176154B2 (en) * 2002-09-30 2012-05-08 Avaya Inc. Instantaneous user initiation voice quality feedback
US7310777B2 (en) * 2002-10-18 2007-12-18 Computer Associates Think, Inc. User interface for viewing performance information about transactions
US7693982B2 (en) * 2004-11-12 2010-04-06 Hewlett-Packard Development Company, L.P. Automated diagnosis and forecasting of service level objective states

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244998A (ja) * 1996-03-14 1997-09-19 Nec Corp オンラインプログラム性能情報採取装置および採取方法
US20020198985A1 (en) * 2001-05-09 2002-12-26 Noam Fraenkel Post-deployment monitoring and analysis of server performance
JP2003263342A (ja) * 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム

Also Published As

Publication number Publication date
TWI374359B (en) 2012-10-11
JP2008537610A (ja) 2008-09-18
EP1828903A2 (en) 2007-09-05
TW200634511A (en) 2006-10-01
WO2006066990A3 (en) 2007-01-18
WO2006066990A2 (en) 2006-06-29
EP1828903B1 (en) 2016-12-14
CN101088072B (zh) 2011-04-20
US8856312B2 (en) 2014-10-07
CN101088072A (zh) 2007-12-12
US20080097801A1 (en) 2008-04-24

Similar Documents

Publication Publication Date Title
JP4866861B2 (ja) トランザクション・ベースのシステムを監視するための方法及びシステム
EP3882773B1 (en) Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
Cherkasova et al. Anomaly? application change? or workload change? towards automated detection of application performance anomaly and change
US9451017B2 (en) Method and system for combining trace data describing multiple individual transaction executions with transaction processing infrastructure monitoring data
US8892960B2 (en) System and method for determining causes of performance problems within middleware systems
US8224624B2 (en) Using application performance signatures for characterizing application updates
US20140172371A1 (en) Adaptive fault diagnosis
US8316354B2 (en) Execution flow shape compression for aggregate data reporting in an application manager
US10489264B2 (en) Monitoring activity on a computer
US20130151907A1 (en) Operations management apparatus, operations management method and program
JP2002082926A (ja) 分散アプリケーション試験・運用管理システム
Zhou et al. Logsayer: Log pattern-driven cloud component anomaly diagnosis with machine learning
US7484130B2 (en) Configuring an application monitor utilizing discovered structural information for an application under test
Mi et al. Analysis of application performance and its change via representative application signatures
US20080071807A1 (en) Methods and systems for enterprise performance management
JP2018060332A (ja) インシデント分析プログラム、インシデント分析方法、情報処理装置、サービス特定プログラム、サービス特定方法及びサービス特定装置
Ostrowski et al. Diagnosing latency in multi-tier black-box services
WO2013121394A1 (en) Remote debugging service
JP4575020B2 (ja) 障害解析装置
KR101968575B1 (ko) 실시간 병목 자동 분석 방법 및 이러한 방법을 수행하는 장치
Vögler et al. Non-intrusive monitoring of stream processing applications
JP2012181699A (ja) 障害調査情報資料採取システム、管理サーバ、障害調査情報資料採取方法およびそのプログラム
Chakraborty et al. Observability
AU2014200806B1 (en) Adaptive fault diagnosis
Guerreiro et al. Monitoring in Function-as-a-Service Platforms

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080630

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees