JP4983604B2 - 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法 - Google Patents

性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法 Download PDF

Info

Publication number
JP4983604B2
JP4983604B2 JP2007542548A JP2007542548A JP4983604B2 JP 4983604 B2 JP4983604 B2 JP 4983604B2 JP 2007542548 A JP2007542548 A JP 2007542548A JP 2007542548 A JP2007542548 A JP 2007542548A JP 4983604 B2 JP4983604 B2 JP 4983604B2
Authority
JP
Japan
Prior art keywords
sample
abnormal
samples
acquired
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007542548A
Other languages
English (en)
Other versions
JPWO2007052327A1 (ja
Inventor
慎司 菊池
乾 横山
明 竹山
宏司 石橋
健一 島▲崎▼
リリアン 原田
伸弘 湯上
由起子 関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2007052327A1 publication Critical patent/JPWO2007052327A1/ja
Application granted granted Critical
Publication of JP4983604B2 publication Critical patent/JP4983604B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、例えば、複層サーバシステムなどの複雑なネットワークシステムにおいて、性能異常の発生パターンを解析して明確にすることで、性能異常の早期原因特定や早期異常解消を支援する性能異常分析装置、性能異常分析方法及び性能異常分析プログラム、並びに性能異常分析装置の分析結果表示方法に関するものである。
従来より、システムの性能異常の原因を解析する方法はいくつか研究されてきている。下記非特許文献1は、イベントトレーサという測定手段をリナックス(Linux)のカーネルに埋め込み、資源の利用状況をより直接的に観測し、その挙動の分析を行っている。この方法は、より詳細なデータを直接採取するので、システムのベンチマークテストなどの環境においては、非常に有効である。
しかし、運用中のシステムにおいて、カーネルに測定手段を埋め込むのは非常に困難である。また、この手段はオープンソースのOSにしか適用できない。
また、下記非特許文献2は、システム性能分析の方法として、”automated drill down”を提案している。この手法は、時間→分、サブネット→ホストというように、パラメータを観測する粒度を変化させながら分析を行い、性能異常の割合の大きい粒度を割り出している。
しかし、この手法においては、リソース消費量など、連続量で表されるパラメータについては、粒度を設定することのできないパラメータは分析が困難である。よって、分析に用いることのできるパラメータが非常に限られてしまうため、本発明の目的である、多数の数値パラメータの分析には適用することは困難である。
決定木を利用した障害分析の方法としては、非特許文献3において、オープンソースのデータマイニングツール(Weka 3: Data Mining Software in Java, http://www.cs.waikato.ac.nz/ml/weka/)を用いて、オークションサイトのeBayで発生した障害を分析している。しかし、この手法における環境においては、分析に用いられるパラメータの種類が6つしかなく、それらはリクエストのタイプやホスト名など、全て離散的な情報であり、数値情報ではなく、それぞれのパラメータが取りうる値の数の上限は非常に限られている。そして、どのシステム内のどの機器が障害の原因となっているかなどについて分析を行うが、その機器がどのような状態(パラメータの値の範囲)になると障害が発生するかということを知ることはできない。
さらに、この手法では、「C4.5」(分割統治法に基づくアルゴリズムを有し、各ノードを構築構築するための関数を再帰的に呼び出して木を構築し、木を構築する対象となるデータから、各ノードにおける分割情報を取得して分割対象となる属性を選択する手法)や「MinEntropy」などの既存の手法を用いて決定木を生成している。
T.Horikawa, Application of Event Trace Framework for Performance Problem Solutions, IPSJ SIG Technical Report, 2003. D.G.Hart, J.L.Hellerstein, and P.C.Yue, Failure Diagnosis Using Detection Trees Automated Drill Down: An Approach to Automated Problem Isolation for Performance Management, Proc. of the Computer Measurement Group, 1999. M.Chen, A.X.Zheng, J.Lloyd, M.I.Jordan, and E.Brewer, Failure Diagnosis Using Detection Trees, Proc. of International Conference on Autonomic Computing, 2004.
ところで、近年のネットワークサービスの発展に伴い、そのサービスの品質の高さが問われるようになってきている。例えば、事業者とサービスプロバイダの間でService level agreement (SLA)が締結され、サービス品質の劣化に対して、サービスプロバイダにペナルティが課せられるケースも出てきている。このため、システム管理者はサービス品質を常に監視し、性能異常を減らすよう努める必要がある。
しかしながら、近年はWebシステムに代表されるネットワークシステムが大規模/複雑化してきている。従って、上述した従来の技術においては、それらを構成する機器の稼働状況を示す多種多様なパラメータから、システムの挙動を把握し、異常が発生した状況の特徴を分析し、異常の原因を特定するのは困難であるという問題がある。
本発明は上述した問題点を解決するためになされたものであり、実運用中のシステムに容易に適用可能になるように、サーバのログや基本コマンドの利用のみで採取可能な多種多様なパラメータを扱うことができ、精度が高く、信頼度の高い性能異常分析装置、方法及びプログラム、並びにその表示方法を提供することを目的とする。
上述した課題を解決するため、本発明は、複数のコンピュータからなるシステムの性能異常の分析をコンピュータに実行させる性能異常分析プログラムであって、システムの資源利用状況を取得する資源利用状況取得ステップと、システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステップと、システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処理時間取得ステップと、性能異常の有無を判断する性能異常有無判断ステップと、前記資源利用状況取得ステップにより取得された資源利用状況とリクエスト発生頻度取得ステップにより取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断ステップにより判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を分析する条件分析ステップであって、決定木の手法を用いて、決定木のある状況を表す親ノードを2つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決定木を生成し、性能異常の割合が高い場合の条件を判断する前記条件分析ステップとを備えてコンピュータに実行させるものである。
また、本発明の性能異常分析プログラムにおいて、前記条件分析ステップは、前記評価関数として、親ノードに属する正常サンプルの数N0及び異常サンプルの数A0と、一方の子ノードに属する異常サンプルの数A1及び他方の子ノードに属する正常サンプルの数N2の組、又は一方の子ノードに属する正常サンプルの数N1及び他方の子ノードに属する異常サンプルの数A2の組とのいずれかの組におけるそれぞれのサンプルの数と
を用いた評価関数を用いることを特徴とする。
また、本発明の性能異常分析プログラムにおいて、前記条件分析ステップは、前記評価関数として、A1/A0とN2/N0の積を用いることを特徴とする。
また、本発明の性能異常分析プログラムにおいて、前記条件分析ステップは、決定木を生成する際に、使用するパラメータの集合を探索的に変化させながら、複数の決定木を生成し、その中から所定の一つの決定木を選択することで、性能異常の発生割合が高い場合の条件を判断する。
また、本発明の性能異常分析プログラムにおいて、性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し、性能異常の発生頻度又は発生割合と、それらの性能異常が発生したときの条件を、表形式又はベン図形式で出力する分析結果出力ステップを備えることを特徴とする。
また、本発明は、複数のコンピュータからなるシステムの性能異常の分析を行う性能異常分析方法であって、システムの資源利用状況を取得する資源利用状況取得ステップと、システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステップと、システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処理時間取得ステップと、性能異常の有無を判断する性能異常有無判断ステップと、前記資源利用状況取得ステップにより取得された資源利用状況とリクエスト発生頻度取得ステップにより取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断ステップにより判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を分析する条件分析ステップであって、決定木の手法を用いて、決定木のある状況を表す親ノードを2つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決定木を生成し、性能異常の割合が高い場合の条件を判断する前記条件分析ステップとを備える。
また、本発明は、複数のコンピュータからなるシステムの性能異常を分析する性能異常分析装置であって、システムの資源利用状況を取得する資源利用状況取得部と、システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得部と、システムに送信されるリクエストをシステムが処理するのに要した時間を取得する処理時間取得部と、性能異常の有無を判断する性能異常有無判断部と、前記資源利用状況取得部により取得された資源利用状況とリクエスト発生頻度取得部により取得されたリクエストの発生頻度に関する情報と、前記性能異常有無判断部により判断された性能異常の有無に関する情報とに基づき、性能異常の発生割合が高くなる場合の条件を分析する条件分析部であって、決定木の手法を用いて、決定木のある状況を表す親ノードを2つの子ノードに分岐する際に、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて前記決定木を生成し、性能異常の割合が高い場合の条件を判断する前記条件分析部とを備えてなる。
また、本発明に係る性能異常分析装置の分析結果表示方法は、性能異常の発生割合が高くなる場合の条件をパラメータとその閾値の集合で表し、性能異常の発生割合と該性能異常が発生するときの条件をベン図形式で表示するようにした。
この性能異常分析装置の分析結果表示方法において、ベン図の各領域の描画方法を、各領域が表す状況下における性能異常発生頻度又は発生回数に対応させて変化させることで、異なる条件下における性能異常発生頻度の差異を視覚的に表すことを特徴とすることができる。
また、分析の出力結果におけるパラメータ又は閾値を任意に変更することができ、その変更による結果を図表に反映することを特徴とすることもできる。
実施の形態1に係るの構成の一例を示すブロック図である。 構造体形式で記述した分析用データ構造の一例を示す図である。 決定木によって状況分析を行う方法の一例を示す図である。 異常サンプルをほとんど含まないような葉を多数生成するような分岐を示す図である。 条件分析ステップのフローチャートである。 決定木の一例を示す図である。 図6に示した決定木を表形式で示した図である。 図6に示した決定木をベン図形式で表した例を示す図である。 ベン図インタフェースを示す図である。 分析対象システムの概要を示すブロック図である。 リソース利用状況に関する情報を示す図である。 実験条件下それぞれにおける評価関数(TEF)の値を示す図である。 図12に示した実験条件下で生成された決定木において個々の異常状態の説明に必要なパラメータの平均個数を示す図である。 パターン1(ゲイン)とパターン3(本実施の形態)における時間とパラメータ探索のためのループ回数の関係を示す図である。 本実施の形態における評価関数(FFS)の値が最大となる場合のベン図形式での出力結果を示す図である。
以下、本発明の実施の形態について図面を参照しつつ説明する。
[分析ターゲット]
本実施の形態において、性能異常の分析対象とするシステムは、一例としてWebを基本としたシステムであり、複数のUNIXサーバなどが連携してトランザクション処理を行うようなシステムを対象としている。例えば、e-commerceシステムや、エンタプライズにおける基幹業務システムなどが挙げられる。
監視対象となるサービスレベルを示すパラメータは、Webトランザクションのレスポンスタイムとし、管理者が着目するトランザクションのレスポンスが、設定された閾値を越えた場合、性能異常が発生したと判断する。
[アプローチ]
分析対象となるシステムを監視し、それらの挙動を示すパラメータを獲得するための手法には様々なものが存在している。例えば、監視のためのコードをOSに埋め込んだり、特別な監視用機器をネットワークに挿入したりする方法がある。しかし、それらの方法は、実際に稼働中のシステムに導入するのに困難が伴う場合が多い。
本実施の形態では、より実装が容易な方法として、サーバのログや基本的なコマンド操作から得られる情報のみを利用して分析を行うこととしている。なお、この手法は上記の手法の採用を妨げるものではない。このような前提に基づき、設定した本実施の形態の構成を図1に示す。図1において、1は分析対象を表し、1AはWebサーバ、1Bはアプリケーションサーバ、1Cはデータベースサーバを示す。性能異常分析装置10は分析に必要な情報を測定データとして取得し記憶するデータベース11、性能異常の条件を分析し判断する性能異常分析部12、及びその分析結果を表示する分析結果表示部13を有する。
本実施の形態のシステムにおいて、監視対象であるトランザクションの発生頻度やレスポンスタイムは、Webサーバのログから取得する。広く普及しているApache(登録商標)等のWebサーバ(Apache HTTP Server Project, http://www.apache.org/)であれば、オプションを指定することにより、msec単位でのレスポンスタイムをログに記録することが可能である。
また、各サーバのリソース利用状況を示すパラメータを、sar,mpstat,iostatなど、標準的に利用できるコマンドを利用して、監視対象システムの全てのサーバから定期的に採取する。これらのパラメータを決定木によって分析し、レスポンスタイムの閾値超えが発生した時点でのリクエスト発生頻度やリソースの使用率を分析し、性能異常が発生する条件を特定するものとする。ここにおいて、後述するように、性能異常分析装置10は、本発明の資源利用状況取得部と、リクエスト発生頻度取得部と、処理時間取得部と、性能異常有無判断部と条件分析部とを有している。
[分析アルゴリズム]
(決定木)
決定木(L.Breiman, J.H.Friedman, R.A.Olsen, and C.J.Stone, Classification and Regression Trees, Wadsworth, 1984.)は、一般的には自動制御などの意思決定や事象の判断に用いられることが多い分類手法である。この決定木は、クラスタ分析など他の分類手法に比べて、分類や状況分析の理由を説明するのに適している。そこで、本実施の形態では、この手法を性能異常が発生した状況の分析に用いることにする。
(データ構造)
分析に用いるデータの構造を構造体形式で記述したものを図2に示す。データは(1)日時、(2)リクエスト頻度、(3)リソース消費量、そして(4)正常/異常を区別するフラグの4つのカテゴリの情報によって構成されている。本実施の形態の手法においては、各パラメータを一定間隔のタイムスライスでサンプリングし、そのタイムスライス1個分のデータを1サンプルとして定義し、決定木による分析に用いる。
各カテゴリに属するパラメータの種類は、管理者の着目するトランザクションや、システムから取得可能なパラメータによって任意に変更可能であるが、例えば、以下のような情報などの利用が想定される。
(1)日時情報:データのサンプリング日時
年、月、日、時、分
(2)リクエスト頻度:タイムスライス内で発生したHTTPリクエストの数を、以下の種類別にカウントしたもの
レスポンスコード(200, 304, 404, etc)
拡張子(.html, .gif, .jsp, .cgi, etc)
リクエストタイプ(GET or POST)
性能異常監視対象のリクエスト(URL)
(3)リソース消費量:以下の場合を一例とする。
CPU使用率 (Usr, Sys, I/O wait, total, キュー長, etc)
Disk (読込/書込回数, R/W 待ち時間等)
Memory (空きメモリ, ページフォルト数等)
Process(アクティブプロセス数)
(4)フラグ属性: 各タイムスライスについて、そのタイムスライス内の着目リクエストのレスポンスタイムが所定の性能異常判定条件を満たした場合に、そのタイムスライスを性能異常サンプルと判定し、条件を満たさない場合は、正常サンプルと判定する。
性能異常判定条件とは、例えば、タイムスライス内で、以下を満たす場合を含み得る。これらの条件は適宜設定することができるものとする。
(1)着目リクエストの閾値越えが1回でも発生した。
(2)着目リクエストの閾値越えが所定の回数以上(例えば5回以上) 発生した。
(3)着目リクエストの閾値越えが所定の割合以上(例えば、そのタイムスライス内での着目リクエストの発生回数の50%以上) 発生した。
(4)着目リクエストのレスポンスタイムが長いものから上位20%のレスポンスタイムが閾値を超えた。
(決定木の構成)
上記で定義したサンプルを、決定木によって状況分析を行う方法の例を図3に示す。図3には、1つの親ノードPと、2つの子ノードC1,C2からなる木が示されている。
それぞれのノードは「状況」を表しており、その状況に合致するサンプルがそのノードに属していると考えることができる。ここでは、親ノードPには、N0個の正常サンプルとA0個の異常サンプルが含まれているものとする。そして、親ノードPが表す状況を、パラメータαがT未満である状況C1(正常サンプルN1個と異常サンプルA1個が属する)と、αがT以上である状況C2(正常サンプルN2個と、異常サンプルA2個を含む)に分岐している。
このような分岐を各ノードで再帰的に繰り返していき、状況を細分化することで、決定木を構築していく。そして、生成された決定木の葉のうち、異常サンプルを多く含む葉から根までのパスに存在する分岐条件をリストアップすることで、異常が発生しやすい条件を明らかにする。
決定木を生成する際に重要なことは、分岐に用いるパラメータとその閾値の選択方法である。一般的な決定木においては、決定木の葉に含まれるサンプルの属性から、その葉が表す属性の「代表値」を多数決によって決定する場合が多い。このようなことから、決定木の葉には、なるべく1つの属性値を持つサンプルが多数含まれ、他の属性値を持つサンプルがあまり含まれないように分割をする。
例えば、代表的な決定木構築手法ID3においては、式(1)(2)に示される情報利得という評価関数を用いて、分岐に利用するパラメータの選択を行う(S.J.Russell, and P.Norvig, Artificial Intelligence, Prentice-Hall, 1995.)。
Figure 0004983604
しかし、本発明の目的である性能異常の発生状況の分析においては、性能異常の発生確率が低く、異常サンプルよりも正常サンプルの方がはるかに多い場合(N0≧A0)が多数存在すると考えられる。このような条件下においては、
Figure 0004983604
となり、常にゲインが非常に小さくなってしまい、有用な結果が導出しにくい可能性もある。
さらに、このような分岐方法では、数の多い正常サンプルのみが発生する条件の抽出が容易になるため、図4に示したように、異常サンプルほとんど含まないような葉を多数生成するような分岐が現れる可能性も高い。このような分岐を多数行っても、分岐前のノード(P)と分岐後のノード(C4)において、それらが表す状況(含まれる異常サンプル)はほとんど変化しない。
それにも関わらず、状況の説明に必要な条件式の数はどんどん大きくなってしまう。本発明の目的である「異常が発生する状況の分析」においては、分析結果が簡潔である(状況の説明に必要な条件式が少ない)方が好ましいので、このような分岐方法は本実施の形態には適さない。
上記の問題を解決するため、本実施の形態においては、状況を「異常値の発生割合が多い状況」と「正常値の発生割合が多い状況」に分類するための評価関数SSF(Situation Separating Function)を考案し採用した。この評価関数を最大にするようなパラメータと閾値の組を選択し、決定木の分岐を行うものとする。
Figure 0004983604
図3に示すように、1つの親ノードPP(正常サンプルN0個、異常サンプルA0個)を2つの子ノードに分割する場合、片方の子ノードC1(異常サンプルN1個)に、親ノードに含まれる異常サンプルA0の大部分が含まれ、もう一方の子ノードC2(正常サンプルN2個)に、親ノードに含まれる正常サンプルN0の大部分が含まれる場合、評価関数SSFの値は大きくなる。
この方法であれば、正常サンプル数と異常サンプル数の比率(A0/N0)によらず、それらのサンプルを「異常が"比較的"発生しやすい状況」と「異常がほとんど発生しない状況」を適切に分離することが可能である。なお、本実施の形態では、評価関数として、親ノードに属する正常サンプルの数N0及び異常サンプルの数A0と、一方の子ノードに属する異常サンプルの数A1及び他方の子ノードに属する正常サンプルの数N2の組を用いるようにしたが、これに代えて、親ノードに属する正常サンプルの数N0及び異常サンプルの数A0と、一方の子ノードに属する正常サンプルの数N1及び他方の子ノードに属する異常サンプルの数A2の組とを用いて同様の効果を有する評価関数を用いるようにしても良いことはいうまでもない。
本実施の形態においては、上記の評価関数を用いて、状況の分岐を再帰的に行い、決定木を構築する。なお、決定木により状況が過度に細かく分解されないように閾値を設け、ノードCzに属する異常サンプル数Azと異常サンプル全体A0の比Ax/A0がその閾値を下回ったら、そのノードを終端するものとする。
(パラメータ選択)
決定木アルゴリズムは多数のパラメータの中から、分岐に適切と思われるパラメータを1つずつ抽出して、状況の分岐を行うことで決定木を構築していくが、本発明の目的であるシステムの性能異常分析の場合のように、利用可能なパラメータの数が非常に大きかったり、独立でないパラメータが多数存在する場合には、最適なパラメータ選択を行うことができずに、状況を適切に表す決定木を獲得できないような状況も発生する。
このような問題を解決するために、本実施の形態においては、条件分析において、決定木の生成に使用するパラメータを探索的に選択変更させながら、複数の決定木を生成し、その中から最良の結果を選択する。本発明の条件分析部における条件分析のアルゴリズムのフローチャートを図5に示す。このアルゴリズムでは、以下のような手順でパラメータの選択を行う。
(Phase1:初期化)
パラメータとして使用可能なパラメータがn個あり、それらの集合が[α12,…,αn]であるとき、V=[α12,…,αn]とおく。また、評価関数の最大値を表すパラメータMAXを0とおく(ステップS1)。
(Phase2:決定木構築)
パラメータの集合Vを使って決定木T0を構築する(ステップS2)。このとき、集合V中の全てのパラメータが決定木の生成に使用されるとは限らない。集合Vのうち、T0の構築に実際に使用されたパラメータの集合をV0とする。そして、以下のように、V0にパラメータαiを加える、もしくはV0からパラメータαiを削除した集合をViとする。
Figure 0004983604
上記のVi(1≦i≦n)を利用して、n個の決定木Ti(1≦i≦n)を構築する。
(Phase3:決定木評価と選択)
ここでは、Phase2で構築したn+1個の決定木T0,T1,…,Tnの中から、もっとも適切な決定木の選択を行う(ステップS3)。決定木の適切さを評価する関数としては、一般的には「False positive rate」や「False negative rate」、そしてそれらの複合的な関数である「F-Measure」の値などが用いられている。しかし、前述したように、異常サンプルに比べて正常サンプルの数が非常に大きいような場合には、あらゆる葉で異常サンプルよりも正常サンプルの方が多く、全ての結果において「False negative」になるような場合も存在するため、これらの評価関数は本実施の形態が適用される分析対象には適さない。
このようなことから、本実施の形態では、以下の独自の評価関数Tree Evaluation Function (TEF)を用いて、決定木の適切さを判断するものとする。
Figure 0004983604
ここで、T: 決定木
N: 正常サンプル全体の数
A: 異常サンプル全体の数
T: 閾値
Lj: 決定木Tの葉ノード
Aj: 葉Ljに属する異常サンプルの数
Nj: 葉Ljに属する正常サンプルの数
この関数の考え方は基本的には分岐に用いた関数SSFと同様であり、決定木の葉ノードLjに属する異常サンプルの、異常サンプル全体に対する割合(Aj/A)が大きく、かつそのLjに属する正常サンプルの、正常サンプル全体に対する割合(Nj/N)が小さい場合に、評価関数TEFは大きくなる。また、異常サンプル数が極度に少ない葉については、異常発生状況の説明にほとんど意味を持たないものと考え、そのような葉の影響を除去するために、一定の閾値を設け、その閾値以上の割合の異常サンプルを含むような葉のみを用いて上記の評価関数TEFを評価するものとする。
この評価関数TEFを用いて決定木T0,T1,…,Tnの評価を行い、TEF(TM)≧TEF(TM)≧TEF(Ti)(0≦i≦n)となるMを導出し、V=VMと設定する。
(Phase4:判定)
ここでは、TEFの値が極大値になったかどうかを調査する(ステップS4)。Phase3で得られたTEF(TM)を、以前のループにおけるTEFの最大値MAXと比較し、TEF(TM)>MAXの場合は、MAX=TEF(TM)と代入し(ステップS5)、再度Phase2よりループを繰り返す。TEF(TM)=MAXの場合は、TEF(TM)の値が極大値に達したと判断し、ループを終了し、TMを最終的に得られた決定木として採択する(ステップS6)。
(出力)
決定木により、性能異常が発生しやすい状況を特定することは可能になるが、決定木のサイズが大きくなり、ノードの数が増加すると、決定木を見ただけでは、その決定木の分析結果を解釈することが非常に困難になる。実際、決定木を目にしたこともないシステム管理者も多数存在すると考えられる。本実施の形態では、管理者がより直感的に状況を把握できるように、決定木をそのまま出力するのではなく、その決定木の分析結果を表形式とベン図形式という、より分かりやすい形式で出力する。
(テーブル形式)
決定木の分析結果を表形式に変換するために、異常サンプルを含むような状況を表す決定木の葉に対して、根からそれらの葉までのそれぞれのパスに現れる条件式を抽出する。そして、その条件式を、日時、リクエスト頻度、リソース消費量の3つのカテゴリにまとめて表形式で表示する。例として、図6に決定木を、図7にその決定木を表形式で現したものを示す。
(ベン図形式)
ベン図には、異常状態と関係の大きい3つの条件式と、その AND/ORで構成されるエリアに、それぞれのエリアに該当する全サンプル数と異常サンプルの数及びそれらの比を表示する。
このベン図により、表形式で表されている条件のうち、どれが重要なのかを直感的に把握することができる。また、条件の間の関係(例えば、「条件Aかつ条件B」のときに異常が発生するのか、それとも「条件Aまたは条件B」のときに異常が発生するのかなど)を瞬時に把握することが可能になる。
ベン図の生成に用いる3つの条件式は、決定木中に存在する全ての条件式について、それぞれの条件式を用いて全サンプルを分割したときの評価関数SSFを評価し、これらの条件式のうち、SSFが大きかったもの3つを、ベン図で使用するものとする。また、ベン図内のそれぞれのエリアについて、異常発生割合が高いケースほど色が濃く表示されるようにし、より着目すべきポイントを分かりやすく表示する。
図6の決定木をベン図形式で表した例を図8に示す。この図からは、異常が最も発生しやすい状況は、(1)日付が26日以降、(2)*.htmlに対するリクエストが100req/sec以上、(3)CPU使用率が70%以上という3つの条件が同時に発生している場合であるということが直感的に理解できる。
本実施の形態においては、ベン図を用いて単に結果を出力するだけでなく、ベン図そのものにインタフェースとしての機能を持たせ、インタラクティブに解析結果に手を加えて、新たな分析を行うことを可能にすることで、より柔軟な状況解析を可能にする。このベン図インタフェースをJava Appletで作成したものスクリーンショットを図9に示す。
このプロトタイプにおいては、ベン図のそれぞれのエリアにおける条件式のパラメータの種類をプルダウンメニューで、またパラメータの閾値をテキストボックスに値を直接入力することで変更することが可能になっている。そして、ベン図の右下に用意されたUpdateボタンを押すと、ユーザが変更した条件式に沿って、ベン図中の値やエリアの色の濃さが変化するようになっている。
[調査]
(条件)
本実施の形態を実際に多数のユーザによって利用されている環境に適用し、その分析および評価を行った。
図10に分析対象システムの概要を示す。分析対象システムは、4台のWebサーバ兼アプリサーバと、1台のDBサーバからなるWebシステムである。4つずつCPUが搭載されているWebサーバ兼アプリサーバには、ロードバランサによりユーザリクエストが均等に分配されるようになっている。
DBサーバは8つのCPUを持っている。これら全てのサーバのOSはSolaris8(登録商標)であり、WebサーバにはApache, アプリサーバにはFujitsu Interstage(Fujitsu Interstage, http://interstage.fujitsu.com/ )、DBサーバにはFujitsu Symfoware(Fujitsu Symfoware, http://www.fujitsu.com/services/software/symfoware/)を利用している。
ユーザから上記システムに送信されてくるリクエストのうち、比較的発生回数およびレスポンスタイムの大きいリクエスト(URL)を1つ選択し、それを、本実施の形態における分析対象リクエストとした。そのリクエストのレスポンスタイムは、Apache Webサーバのログから収集した。
また、ユーザリクエストをレスポンスコードや拡張子によって17種類(タイプ)に分類し、それぞれのタイプに属するリクエストの発生頻度を、Webログからカウントした。
また、図11に示す計96種類のリソース利用状況に関する情報を、5台のサーバより標準的なUnixコマンドによってそれぞれ獲得した。これらの情報を26日間にわたり10分間隔でサンプリングし、それらに5種類の時刻情報(年、月、日、時、分)を加え、総計502種類のパラメータを、性能異常分析のためのパラメータとして準備した。
上記のデータを分析するために、本実施の形態に係る異常分析装置を、C言語を用いてRed Hat Enterprise Linux(Red Hat Enterprise Linux, http://www.redhat.com/software/rhel/)上に実装した。なお、前述の通りベン図インタフェースの部分のみJava appletにより実装した。分析に用いたPCのCPUはPentium(登録商標)4、3EGhz, メモリは1Gbyteである。
本発明の評価関数およびパラメータ選択手法の効果を確認するために、以下のように条件を変化させ分析を行った。
(パターン1:ゲイン)
比較のため、本実施の形態で説明したアルゴリズムにおいて、評価関数SSFの代わりに、Information Gainを用いて分析を行う。
(パターン2:パラメータの選択をしない場合)
決定木生成の評価関数にはSSFを用いるが、全パラメータを使用した場合の決定木のみを採用し、パラメータ探索のためのループを行わない。
(パターン3:本実施の形態)
本発明の実施の形態のアプローチそのものを使用する。評価関数SSFを利用し、パラメータの探索を行う。
また、それぞれの条件下における分析結果の評価を行うために、以下の3つの指標を設定した。
(確度)
作成された決定木を、評価関数TEF(式5)によって評価する。この値が大きいほど、正常サンプルと異常サンプルが適切に分離できていると評価できる。
(簡易性)
決定木において、異常サンプル全体の10%以上の異常サンプルを含む決定木の葉に対し、根から葉に至る経路に現れるパラメータの個数をカウントし、決定木全体で平均する。この値が小さければ小さいほど、少ないパラメータで状況が分析できており、好ましいと評価できる。
(計算時間)
決定木の生成にかかった時間およびパラメータ選択におけるループ回数をカウントし、その値を評価する。計算時間が小さい方が好ましい。
[結果]
(確度)
図12に、それぞれの実験条件下における評価関数TEFの値を示す。図より、決定木の生成にゲインを用いた場合や、パラメータ探索を行わなかった場合に比べて、本実施の形態におけるアルゴリズムは高いTEFの値を示している。このことから、本実施の形態における評価関数およびパラメータ選択手法は、分析の精度向上に大きく寄与している。
(簡易性)
図13に、各条件下で生成された決定木において、個々の異常状態の説明に必要なパラメータの平均個数を示す。図13より、評価関数としてゲインを用いた場合よりも、SSFを利用した場合の方が説明に必要なパラメータの個数が少なかった。よって、評価関数SSFの利用は、状況の記述の簡潔化に寄与していると言える。
(計算時間)
図14に実験パターン1(ゲイン)とパターン3(本実施の形態)における、計算時間とパラメータ探索のためのループ回数の関係を示す。図より、ゲインを用いた場合よりも、SSFを用いた場合の方が、結果が収束するまでにかかるループの回数は多いが、決定木の生成にかかる時間は非常に小さいことがわかる。また、ループ1回あたりの平均計算時間は、ゲインの場合が334.11秒なのに対し、SSFの方は21.308秒と、約1/15になっている。これは、ゲインの算出に必要な対数の計算に時間がかかることや、生成される決定木のサイズが大きくなるために、1つの決定木を生成するのにかかる時間が大きくなることなどが原因であると考えられる。このことから、評価関数SSFの採用は、精度や説明の簡潔さのみならず、計算時間の短縮にも寄与していると言える。
(ベン図出力)
上記の実験のうち、評価関数TEFの値が一番大きかった場合(Pattern 3(本実施の形態)閾値5秒)のときのベン図形式での出力結果を図15に例として示す。この図においては、DB(データベース)サーバのI/O read回数が143203回/10分という条件と、DBサーバの総Disk busy時間が445秒以上605秒以下/10分という条件(Diskが複数あるので、総計が600秒/10分以上になる場合もある)と、4台目のアプリサーバのプロセス間通信メッセージ関連システムコールの発行回数が840回/10分という3つの条件によりベン図が構成されている。
ベン図を見ると、DBサーバに関する2つの条件のいずれかにあてはまる状況下における異常発生割合は、ほとんどの場合においてサンプル全体における平均異常発生割合(14.3%)を大きく上回っている。よって、このシステムにおける性能異常の原因は、データベースサーバへのディスクアクセスの集中にあると考えられる。よって、データベースサーバアプリケーションにおけるディスクアクセス方法を改善したり、分散データベースサーバを利用したりすることにより、ディスクアクセスの集中を防ぐことにより、性能異常の大部分を解消できると考えられる。
上述した本実施の形態によれば、次のような効果を奏する。
(1)多種多様なパラメータを出力する大規模システムにおいて、どのようなパラメータがどれくらいの値になると性能異常が発生しやすくなるかを瞬時に把握でき、システムの性能改善にかかる時間やコストを大幅に削減することが可能になる。
(2)また、決定木の手法を利用して、観測時の状況を、性能異常の発生割合が高い状況と、性能異常の発生割合が低い状況に分離し、性能異常の発生割合が高い場合の条件を判断することで、また、決定木中のある状況を表す親ノードを、2つの子ノードに分岐する際に、親ノードに属する正常値の大部分が一方の子ノードに所属し、親ノードに属する異常値の大部分が他方の子ノードに属するように分岐を行うような評価関数を用いて決定木を生成し、性能異常の発生割合が高い場合の条件を判断することで、異常が発生しやすい状況と正常な状況を、より少ない条件式で分離することが可能になるため、より少ない条件で異常が発生しやすい状況を説明することが可能になる。
(3)決定木を生成する際に、使用するパラメータの集合を探索的に変化させながら、複数の決定木を生成し、その中から最適な一つの決定木を選択することで、性能異常の発生割合が高い場合の条件を判断することで、より妥当な分析結果を得ることが可能になる。
(4)性能異常の発生割合が高くなる場合の条件を、パラメータとその閾値の集合で表し、性能異常の発生頻度や発生割合と、それらの性能異常が発生したときの条件を、表形式およびベン図形式で出力することで、決定木そのものを出力するよりも、性能異常が発生しやすい条件をより直感的に把握することが可能になる。
(5)ベン図の各領域の描画方法(色や模様など)を、各領域が表す状況下における性能異常発生頻度や発生回数に対応させて変化させることで、異なる条件下における性能異常発生頻度や割合の差異をより直感的に把握することが可能になる。
(6)分析の出力結果におけるパラメータや閾値を任意に変更する手段と、その変更による結果を図表に反映する手段を備えることにより、分析の結果として得られた条件を任意に変更し、その変更した条件下における性能異常発生割合や発生頻度を容易に確認することが可能になる。
以上、本発明の実施の形態において、性能異常分析及びその表示方法をコンピュータにおいて実行させるプログラムを、性能異常分析プログラムとして提供することができる。上述したプログラムは、コンピュータにより読取り可能な記録媒体に記憶させることによって、性能異常分析装置を構成するコンピュータに実行させることが可能となる。ここで、上記コンピュータにより読取り可能な記録媒体としては、ROMやRAM等のコンピュータに内部実装される内部記憶装置、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
以上説明したように、本発明によれば、実運用中のシステムに容易に適用可能になるように、サーバのログや基本コマンドの利用のみで採取可能な多種多様なパラメータを扱うことができ、精度が高く、信頼度の高い性能異常分析装置、方法及びプログラム、並びにその表示方法を提供することができるという効果を奏する。

Claims (8)

  1. 複数のコンピュータを含むシステムの性能異常の分析をコンピュータに実行させる性能異常分析プログラムであって、
    システムの資源利用状況を取得する資源利用状況取得ステップと、
    システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステップと、
    システムに送信されるリクエストをシステムが処理するのに要した処理時間を取得する処理時間取得ステップと、
    前記処理時間取得ステップにより取得された処理時間が予め設定された閾値を越えているか否か判定する閾値超過判定ステップと、
    一定時間間隔で、前記資源利用状況取得ステップにより取得された資源利用状況と前記リクエスト発生頻度取得ステップにより取得されたリクエストの発生頻度と、前記閾値超過判定ステップにより判定された判定結果とを取得し、前記判定結果に基づいて正常サンプルであるか異常サンプルであるか判断し、前記取得した資源利用状況と、前記取得した発生頻度と、前記正常サンプルであるか異常サンプルであるかの判断結果とを含む1つのサンプルを定義するサンプル定義ステップと、
    前記サンプル定義ステップにより定義されたサンプルを複数個用いて、性能異常の発生する条件を特定する条件分析ステップであって、決定木の手法における親ノードの正常サンプル数、異常サンプル数、一方の子ノードの正常サンプル数、および、他方の子ノードの異常サンプル数から求められる評価関数を用いて、親ノードを2つの子ノードに分岐する際に、前記資源利用状況及び前記リクエストの発生頻度の各々の閾値を前記分岐する条件として選択することにより、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常サンプルの大部分が他方の子ノードに属するように分岐を行う決定木を生成し、該決定木のうち前記異常サンプルの大部分が属する葉ノードから根ノードまでのパスに存在する前記分岐する条件のリストを前記性能異常の発生する条件として特定する前記条件分析ステップと
    を備えてコンピュータに実行させる性能異常分析プログラム。
  2. 請求項1に記載の性能異常分析プログラムにおいて、
    前記親ノードの正常サンプル数をN、前記親ノードの異常サンプル数をA、前記一方の子ノードの正常サンプル数をA、前記他方の子ノードの異常サンプル数をNとした場合、前記条件分析ステップは、前記評価関数として、A/AとN/Nとの積を用いることを特徴とする性能異常分析プログラム。
  3. 請求項1または2に記載の性能異常分析プログラムにおいて、
    前記条件分析ステップは、決定木を生成する際に、資源利用状況取得ステップにより取得された資源利用状況やリクエスト発生頻度取得ステップにより取得された発生頻度から採取される情報の種類を示すパラメータの集合を探索的に変化させながら、複数の決定木を生成し、その中から所定の一つの決定木を選択することで、性能異常の発生割合が高い場合の条件を判断する性能異常分析プログラム。
  4. 請求項3に記載の性能異常分析プログラムにおいて、
    前記条件分析ステップにより複数の条件が特定された場合、この条件の内、評価関数の高いものから所定数の条件を、性能異常の発生割合が高くなる場合の条件として特定し、特定された所定数の条件から前記評価関数を大きくする条件式をパラメータとその閾値の集合で表し、表形式又は、各条件式とベン図のエリアを合致させたベン図形式で出力する分析結果出力ステップを備えることを特徴とする性能異常分析プログラム。
  5. 複数のコンピュータを含むシステムの性能異常の分析を行う性能異常分析方法であって、
    システムの資源利用状況を取得する資源利用状況取得ステップと、
    システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステップと、
    システムに送信されるリクエストをシステムが処理するのに要した処理時間を取得する処理時間取得ステップと、
    前記処理時間取得ステップにより取得された処理時間が予め設定された閾値を越えているか否か判定する閾値超過判定ステップと、
    一定時間間隔で、前記資源利用状況取得ステップにより取得された資源利用状況と前記リクエスト発生頻度取得ステップにより取得されたリクエストの発生頻度と、前記閾値超過判定ステップにより判定された判定結果とを取得し、前記判定結果に基づいて正常サンプルであるか異常サンプルであるか判断し、前記取得した資源利用状況と、前記取得した発生頻度と、前記正常サンプルであるか異常サンプルであるかの判断結果とを含む1つのサンプルを定義するサンプル定義ステップと、
    前記サンプル定義ステップにより定義されたサンプルを複数個用いて、性能異常の発生する条件を特定する条件分析ステップであって、決定木の手法における親ノードの正常サンプル数、異常サンプル数、一方の子ノードの正常サンプル数、および、他方の子ノードの異常サンプル数から求められる評価関数を用いて、親ノードを2つの子ノードに分岐する際に、前記資源利用状況及び前記リクエストの発生頻度の各々の閾値を前記分岐する条件として選択することにより、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常サンプルの大部分が他方の子ノードに属するように分岐を行う決定木を生成し、該決定木のうち前記異常サンプルの大部分が属する葉ノードから根ノードまでのパスに存在する前記分岐する条件のリストを前記性能異常の発生する条件として特定する前記条件分析ステップと
    を備える性能異常分析方法。
  6. 複数のコンピュータを含むシステムの性能異常を分析する性能異常分析装置であって、
    システムの資源利用状況を取得する資源利用状況取得部と、
    システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得部と、
    システムに送信されるリクエストをシステムが処理するのに要した処理時間を取得する処理時間取得部と、
    前記処理時間取得部により取得された処理時間が予め設定された閾値を越えているか否か判定する閾値超過判定部と、
    一定時間間隔で、前記資源利用状況取得部により取得された資源利用状況と前記リクエスト発生頻度取得部により取得されたリクエストの発生頻度と、前記閾値超過判定部により判定された判定結果とを取得し、前記判定結果に基づいて正常サンプルであるか異常サンプルであるか判断し、前記取得した資源利用状況と、前記取得した発生頻度と、前記正常サンプルであるか異常サンプルであるかの判断結果とを含む1つのサンプルを定義するサンプル定義部と、
    前記サンプル定義部により定義されたサンプルを複数個用いて、性能異常の発生する条件を特定する条件分析部であって、決定木の手法における親ノードの正常サンプル数、異常サンプル数、一方の子ノードの正常サンプル数、および、他方の子ノードの異常サンプル数から求められる評価関数を用いて、親ノードを2つの子ノードに分岐する際に、前記資源利用状況及び前記リクエストの発生頻度の各々の閾値を前記分岐する条件として選択することにより、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常サンプルの大部分が他方の子ノードに属するように分岐を行う決定木を生成し、該決定木のうち前記異常サンプルの大部分が属する葉ノードから根ノードまでのパスに存在する前記分岐する条件のリストを前記性能異常の発生する条件として特定する前記条件分析部と
    を備える性能異常分析装置。
  7. 請求項6に記載の性能異常分析装置において、
    前記親ノードの正常サンプル数をN、前記親ノードの異常サンプル数をA、前記一方の子ノードの正常サンプル数をA、前記他方の子ノードの異常サンプル数をNとした場合、前記条件分析部は、前記評価関数として、A/AとN/Nの積を用いることを特徴とする性能異常分析装置。
  8. システムの資源利用状況を取得する資源利用状況取得ステップと、
    システムに送信されるリクエストの発生頻度を取得するリクエスト発生頻度取得ステップと、
    システムに送信されるリクエストをシステムが処理するのに要した処理時間を取得する処理時間取得ステップと、
    前記処理時間取得ステップにより取得された処理時間が予め設定された閾値を越えているか否か判定する閾値超過判定ステップと、
    一定時間間隔で、前記資源利用状況取得ステップにより取得された資源利用状況と前記リクエスト発生頻度取得ステップにより取得されたリクエストの発生頻度と、前記閾値超過判定ステップにより判定された判定結果とを取得し、前記判定結果に基づいて正常サンプルであるか異常サンプルであるか判断し、前記取得した資源利用状況と、前記取得した発生頻度と、前記正常サンプルであるか異常サンプルであるかの判断結果とを含む1つのサンプルを定義するサンプル定義ステップと、
    前記サンプル定義ステップにより定義されたサンプルを複数個用いて、性能異常の発生する条件を特定する条件分析ステップであって、決定木の手法における親ノードの正常サンプル数、異常サンプル数、一方の子ノードの正常サンプル数、および、他方の子ノードの異常サンプル数から求められる評価関数を用いて、親ノードを2つの子ノードに分岐する際に、前記資源利用状況及び前記リクエストの発生頻度の各々の閾値を前記分岐する条件として選択することにより、親ノードに属する正常サンプルの大部分が一方の子ノードに所属し、親ノードに属する異常サンプルの大部分が他方の子ノードに属するように分岐を行う決定木を生成し、該決定木のうち前記異常サンプルの大部分が属する葉ノードから根ノードまでのパスに存在する前記分岐する条件のリストを前記性能異常の発生する条件として特定する前記条件分析ステップと
    を備え、
    前記条件分析ステップにより複数の条件が特定された場合、この条件の内、評価関数の高いものから所定数の条件を、性能異常の発生割合が高くなる場合の条件として特定し、特定された所定数の条件から前記評価関数を大きくする条件式をパラメータとその閾値の集合で表し、各条件式とベン図エリアを合致させたベン図形式で表示するようにした性能異常分析装置の分析結果表示方法。
JP2007542548A 2005-10-31 2005-10-31 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法 Expired - Fee Related JP4983604B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/019974 WO2007052327A1 (ja) 2005-10-31 2005-10-31 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法

Publications (2)

Publication Number Publication Date
JPWO2007052327A1 JPWO2007052327A1 (ja) 2009-04-30
JP4983604B2 true JP4983604B2 (ja) 2012-07-25

Family

ID=38005491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007542548A Expired - Fee Related JP4983604B2 (ja) 2005-10-31 2005-10-31 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法

Country Status (4)

Country Link
US (1) US7970584B2 (ja)
EP (1) EP1944699B1 (ja)
JP (1) JP4983604B2 (ja)
WO (1) WO2007052327A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210212A (ja) * 2007-02-27 2008-09-11 Nec Corp 項目選択装置及び項目選択方法並びにプログラム
JP5277667B2 (ja) 2008-03-07 2013-08-28 日本電気株式会社 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP5217886B2 (ja) * 2008-10-14 2013-06-19 富士通株式会社 ループバック装置及びミラーリング方法
GB2473194A (en) * 2009-09-02 2011-03-09 1E Ltd Monitoring the performance of a computer based on the value of a net useful activity metric
US8934352B2 (en) 2011-08-30 2015-01-13 At&T Intellectual Property I, L.P. Hierarchical anomaly localization and prioritization
WO2015081307A1 (en) * 2013-11-26 2015-06-04 Anunta Technology Management Services Ltd. Management of cloud-based application delivery
JP6308077B2 (ja) * 2014-09-08 2018-04-11 京セラドキュメントソリューションズ株式会社 アプリケーション作成プログラム及び情報処理装置
CN110378591A (zh) * 2019-07-11 2019-10-25 仲恺农业工程学院 一种基于决策树的作物育种信息测定系统及方法
CN112784113A (zh) * 2019-11-07 2021-05-11 北京京东尚科信息技术有限公司 数据处理方法及装置、计算机可读存储介质、电子设备
CN110837432A (zh) * 2019-11-14 2020-02-25 北京金山云网络技术有限公司 服务集群中异常节点的确定方法、装置和监控服务器
CN113360348B (zh) * 2021-06-30 2022-09-09 北京字节跳动网络技术有限公司 异常请求处理方法、装置、电子设备和存储介质
US20230071606A1 (en) * 2021-08-18 2023-03-09 Rakuten Symphony Singapore Pte. Ltd. Ai model used in an ai inference engine configured to avoid unplanned downtime of servers due to hardware failures
US11966757B2 (en) * 2022-08-30 2024-04-23 SOURCE Ltd. System and method for selecting an execution strategy depending on validations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02267631A (ja) * 1989-04-07 1990-11-01 Fujitsu Ltd 決定木生成処理方式
JPH08278901A (ja) * 1995-04-04 1996-10-22 Kokusai Denshin Denwa Co Ltd <Kdd> 決定木形式の診断知識を用いた診断装置
JPH09330224A (ja) * 1996-06-10 1997-12-22 Fujitsu Ltd 決定木生成装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351561B1 (en) * 1999-03-26 2002-02-26 International Business Machines Corporation Generating decision-tree classifiers with oblique hyperplanes
JP2002342182A (ja) * 2001-05-21 2002-11-29 Hitachi Ltd ネットワークシステムにおける運用管理の支援システム
JP3805711B2 (ja) * 2002-04-05 2006-08-09 日本電信電話株式会社 サイト領域内ボトルネック特定方法
JP4298531B2 (ja) * 2003-01-31 2009-07-22 シャープ株式会社 入力属性条件決定装置、入力属性条件決定方法、入力属性条件決定プログラム、データ分析装置、データ分析方法、および、データ分析プログラム
US20040199484A1 (en) 2003-04-04 2004-10-07 Laurence Smith Decision tree analysis
JP2005135130A (ja) * 2003-10-30 2005-05-26 Fujitsu Ltd 負荷監視条件決定プログラム,負荷監視条件決定システム,負荷監視条件決定方法および負荷監視プログラム
WO2007047375A1 (en) * 2005-10-14 2007-04-26 Fisher-Rosemount Systems, Inc. Statistical signatures used with multivariate statistical analysis for fault detection and isolation and abnormal condition prevention in a process

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02267631A (ja) * 1989-04-07 1990-11-01 Fujitsu Ltd 決定木生成処理方式
JPH08278901A (ja) * 1995-04-04 1996-10-22 Kokusai Denshin Denwa Co Ltd <Kdd> 決定木形式の診断知識を用いた診断装置
JPH09330224A (ja) * 1996-06-10 1997-12-22 Fujitsu Ltd 決定木生成装置

Also Published As

Publication number Publication date
WO2007052327A1 (ja) 2007-05-10
US20090048807A1 (en) 2009-02-19
JPWO2007052327A1 (ja) 2009-04-30
US7970584B2 (en) 2011-06-28
EP1944699B1 (en) 2015-07-08
EP1944699A4 (en) 2009-04-08
EP1944699A1 (en) 2008-07-16

Similar Documents

Publication Publication Date Title
JP4983604B2 (ja) 性能異常分析装置、方法及びプログラム、並びに性能異常分析装置の分析結果表示方法
US20200250024A1 (en) High-volume distributed script error handling
US9996409B2 (en) Identification of distinguishable anomalies extracted from real time data streams
KR101828506B1 (ko) Jvm 및 크로스-jvm 호출 스택들의 시각화
US10922164B2 (en) Fault analysis and prediction using empirical architecture analytics
US9122602B1 (en) Root cause detection service
US20050125213A1 (en) Apparatus, system, and method for modeling and analyzing a plurality of computing workloads
KR101797185B1 (ko) 분산 환경에서 효율적으로 트랜젝션-분리 메트릭들을 수집하는 방법
Wu et al. Zeno: Diagnosing performance problems with temporal provenance
US10365995B2 (en) Composing future application tests including test action data
US20180143897A1 (en) Determining idle testing periods
US9201752B2 (en) System and method for correlating empirical data with user experience
CN108920322A (zh) 一种中间件运行监测的方法、装置及计算机存储介质
US10706108B2 (en) Field name recommendation
Ding et al. TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems
Munteanu et al. Cloud incident management, challenges, research directions, and architectural approach
CN110968479A (zh) 一种针对应用程序的业务级全链路监控方法及服务器
US10644971B2 (en) Graph search in structured query language style query
CN115766768A (zh) 一种算力网络操作系统中感知中枢设计方法及装置
Semeraro et al. It takes a village: Monitoring the blue waters supercomputer
CN115408236A (zh) 一种日志数据审计系统、方法、设备及介质
US11379444B1 (en) Data-analysis-based facility for adjusting trace fields of a database trace
Kleehaus et al. Multi-layer monitoring and visualization
Kikuchi et al. Performance problem analysis method for Web systems using multiple decision trees
Teggi et al. AIOPS Prediction for server stability based on ARIMA model

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120409

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees