JP2010182044A - 障害原因解析システム及びプログラム - Google Patents

障害原因解析システム及びプログラム Download PDF

Info

Publication number
JP2010182044A
JP2010182044A JP2009024203A JP2009024203A JP2010182044A JP 2010182044 A JP2010182044 A JP 2010182044A JP 2009024203 A JP2009024203 A JP 2009024203A JP 2009024203 A JP2009024203 A JP 2009024203A JP 2010182044 A JP2010182044 A JP 2010182044A
Authority
JP
Japan
Prior art keywords
failure cause
determination
failure
cause
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009024203A
Other languages
English (en)
Other versions
JP5215895B2 (ja
Inventor
Toshiya Moto
俊也 本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2009024203A priority Critical patent/JP5215895B2/ja
Publication of JP2010182044A publication Critical patent/JP2010182044A/ja
Application granted granted Critical
Publication of JP5215895B2 publication Critical patent/JP5215895B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】従来の障害原因の解析処理は、複数の障害原因判定条件の組み合わせの全てがイベント列の並びのパターンと完全に一致する場合に限り、障害原因を特定できる。しかし、システムの改変等により、障害原因をシステム的に特定できない場合、原因の特定に多くの時間を必要とする。
【解決手段】出願人は、事前に用意された判定ルールに対応する障害原因判定条件の全てが成立しない場合でも、システム障害の原因の可能性が高い障害原因候補を一覧形式で表示する。その際、各障害原因候補について定義されている障害原因判定条件の数と、各障害原因判定条件の成立状況とを、各障害原因候補のそれぞれに対応づけて表示できる障害原因解析システム及びプログラムを提案する。
【選択図】図3

Description

本発明は、IT(Information Technology)システム上でシステム障害が発生した場合に、その障害原因を自動的に解析するシステム及びプログラムに関する。より具体的には、ITシステムの監視系から送られてくるイベント列と、予め定義された判定ルール(1つ又は複数の障害原因判定条件の組み合わせパターン)とのマッチング処理を通じて、システム障害の根本原因を特定するシステム及びプログラムに関する。
製造、通信、金融など、システムの障害が事業や社会に大きく影響する事業分野では、システム障害の発生時における障害原因の解析時間の短縮と復旧時間の短縮とが強く求められている。このため、システム障害の根本原因の迅速な特定が特に重要である。
ところで、現状における解析作業は、障害対応手順書等の資料に基づく手作業により進められる。このため、解析作業の時間短縮には限度がある。また、ITシステムの改変により、過去に作成した障害対応手順書等の資料が陳腐化し、実態と合わなくなった場合には、システム障害の根本原因の解析自体が困難である。
このように、システム障害の根本原因の解析作業を手作業で行っている限りは、解析作業の能力は属人化し、システム障害の復旧を遅延させる要因になっている。
この問題の解決のため、システム障害の根本原因の解析をシステム化したのが、障害原因解析システムである。
図1に、障害原因解析システムの従来例を示す。図1に示す障害原因解析システム101は、接続アダプタ104と、完全一致判定ルール105と、障害原因完全一致判定機構106と、障害原因判定結果ダッシュボード生成機構107と、ディスプレイモニタ108とで構成されている。
接続アダプタ104は、監視システム103からイベントを受信してイベントの内容を解釈するインターフェース部である。完全一致判定ルール105は、システム障害の根本原因別に用意された判定ルールの集合である。なお、個々の判定ルールには、対応する根本原因に固有の障害原因判定条件が発生順に記述される。ここでの障害原因判定条件は、個々のイベントに対応する。また、個々の判定ルールの内容は、障害原因一致判定ルール定義テンプレート109に基づいて生成される。
障害原因完全一致判定機構106は、通知されたイベントと各判定ルールとを比較し、判定ルールを構成する全ての障害原因判定条件が成立する障害原因が存在するか否かを判定する。障害原因判定結果ダッシュボード生成機構107は、この判定結果に基づいて特定された障害原因を表示するダッシュボード画面を生成する。生成されたダッシュボード画面は、ディスプレイモニタ108の表示画面を通じて、ユーザ(例えば保守管理者)に提示される。
なお、図1には、障害原因解析システム101が監視対象とする監視対象システム102と、その出力ログを監視する監視システム103も描かれている。一般に、出力ログのデータ構造は、監視対象システム102毎に異なっている。このため、監視システム103では、出力ログのデータ構造を統一フォーマットのデータ構造に変換する処理が実行される。この明細書においては、統一フォーマットに変換された状態の出力ログを「イベント」という。
引き続き、障害原因解析システム101で実行される解析動作の概要を説明する。この従来システムにおいては、監視システム103が監視対象システム102の動作状態を常に監視している。監視システム103は、監視対象システム102の動作状態が予め設定された条件を満たす場合、対応するイベントを障害監視解析システム101に送出する。障害原因解析システム101は、完全一致判定ルール105に格納されている判定ルールと監視システム103から受信されたイベントの並びとを比較し、判定ルール毎に障害原因判定条件の全てが成立するか否かを判定する。いずれか一つでも判定ルールを構成する障害原因判定条件の全てが成立する場合、障害原因解析システム101は、障害原因を特定したものと判定し、特定された障害原因をディスプレイモニタ108のダッシュボード画面に表示する。
図2に、障害原因一致判定ルール定義テンプレート109に基づいて作成される障害原因別の判定ルール201の記述例を示す。この判定ルール201は、障害原因毎に用意される。なお、判定ルール201は、事前に定められたルール言語で記述される。図2に示すように、判定ルール201には、1つ又は複数の障害原因判定条件と、それらの全てが真(成立)と判定された場合に実行すべきアクションとが記述される。図2においては、ここでのアクションを障害原因判定結果アクションと記す。
特開2000−183881号公報
前述したように、図1に示す従来システムでは、システム障害の発生時に監視システム103から受信されるイベント列と完全に一致する判定ルールが存在する場合に限り、システム障害の原因を特定的に表示することができる。このことは、障害原因判定条件が真(成立)と判定されないイベントが一つでも存在する場合に、システム障害の原因を特定できないことを意味する。
従って、従来システムの場合には、発生する可能性のある障害原因と完全に一致するイベント列のパターンを全て列挙した障害原因一致判定ルール定義テンプレート109を用意する必要があった。
ところが、このパターンは、大規模システムの場合、事実上無限に近い数だけ存在する。すなわち、パターンの全てを事前に列挙することは事実上不可能に近い。しかも、システム構成に改変が生じた場合には、システム障害に対応して障害原因一致判定ルール定義テンプレート109を書き直す必要がある。このような書き換えも、事実上不可能に近い。
そこで、出願人は、事前に用意した判定ルールを構成する障害原因判定条件の一部についてしか判定条件が成立しない場合でも、障害原因判定条件が部分的に成立した障害原因の中からシステム障害の原因である可能性が高い障害原因候補を特定して画面上に一覧表示する障害原因解析システム及びプログラムを提案する。
また、その表示時に、障害原因候補のそれぞれについて、対応する障害原因判定条件の数と各障害原因判定条件の成立状況を一組として表示できる障害原因解析システム及びプログラムを提案する。
出願人の提案する発明によれば、システム障害の発生時、利用可能な判定ルールが不完全のために、判定ルールを構成する障害原因特定条件の全てと受信したイベント列とが完全に一致しない場合でも、システム障害の根本原因である可能性の高い障害原因候補を画面上に一覧表示することができる。すなわち、客観性の高い障害原因候補を画面上に表示することができる。結果的に、ユーザは、可能性の高い障害原因候補から順番に特定作業を実行することができる。すなわち、障害解析の属人化を回避し、解析時間の短縮化を実現できる。
また、障害原因候補の表示時には、個々の障害原因候補を構成する障害原因判定条件の数と各障害原因判定条件の成立状況とを明示的に表示する。この機能により、ユーザは、障害原因判定条件の単なる成立割合だけでなく、成立した又は成立しなかった障害原因判定条件を考慮して解析作業を進めることができる。
障害原因解析システムの従来例を示す図である。 障害原因完全一致判定ルールで使用する判定パターンの記述例を示す図である。 実施の形態に係る障害原因解析システムの構成例を示す図である。 障害原因判定ルール定義テンプレートのデータ構造例を示す図である。 実施の形態に係る障害原因解析結果の一覧表示画面例を示す図である。 実施の形態に係る障害原因部分一致判定ルールで使用する判定パターン例を示す図である。 実施形態に係るデシジョンテーブルのデータ構造例を示す図である。 障害原因の判定ルールの作成に使用するフローチャートの一例を示す図である。 デシジョンテーブルの作成に使用するフローチャートの一例を示す図である。
以下、発明に係る障害原因解析システムの一形態例を説明する。なお言うまでも無く、発明は、後述する形態例や説明に限定されるものではなく、既知の技術と組み合わせた他の態様にも適用できる。
[第1の形態例]
(a)処理機能の概略
図3に、障害原因解析システム301の概略構成例を示す。この障害原因解析システム301では、後述するように、障害原因判定ルール定義テンプレート314に基づいて、完全一致判定用の判定ルールだけでなく、部分一致判定用の判定ルールも同時に生成する。そして、これら2種類の判定ルールの適用により、障害原因解析システム301は、全ての障害原因判定条件が成立する障害原因が特定されない場合でも、システム障害の原因である可能性が高い障害原因候補を画面上に一覧表示する。この際、判定条件が成立する割合の大きいものを優先的に画面上に表示するようにすれば、ユーザは、システム障害の原因である可能性が高い候補から障害原因を解析できる。
なお、障害原因候補の一覧表示時には、障害原因判定条件が成立した割合(すなわち、一致率)だけでなく、障害原因を構成する障害原因判定条件の数が多いものを優先することが望ましい。一致率が同じでも、障害原因判定条件の数が多い方が成立の困難性が高く、障害原因である可能性が高いためである。
また、障害原因候補の一覧表示時には、個々の障害原因候補に対応する障害原因判定条件の数とその成立状況を一組として表示することが望ましい。障害原因判定条件によって、成立の容易さに違いがあるためである。これらの情報を画面表示することにより、一致率だけで作業の優先順位を判断する場合に比して、障害解析の作業効率を高めることができる。
なお、この明細書においては、「障害原因判定条件の成立」は、障害原因判定条件に対応するイベントが存在することを意味するものとする。また、この明細書では、「障害原因判定条件の成立」することを、障害原因判定条件とイベントとが一致するともいう。従って、障害原因に対応する全ての障害原因判定条件が成立することを、障害原因判定条件とイベント列とが完全一致したともいう。また、障害原因に対応する障害原因判定条件の一部の障害原因判定条件だけが成立することを、障害原因判定条件とイベントとが部分一致したともいう。
(b)システムの概略構成
障害原因解析システム301は、接続アダプタ304と、完全一致判定ルール305と、障害原因完全一致判定機構306と、部分一致判定ルール307と、障害原因部分一致判定機構308と、障害原因判定ルール生成機構309と、障害原因判定結果ダッシュボード生成機構310と、デシジョンテーブル311と、ログデータベース312と、ディスプレイモニタ313とで構成される。
なお、接続アダプタ304は、監視システム303からイベントを受信してイベントの内容を解釈する処理を実行するインターフェースである。ここで、監視システム303は、監視対象システム302の動作状態を、その出力ログを通じて監視している。監視対象システム302は、前述したように、障害発生の影響が大きい比較的大規模なシステム、例えば給与システム、購買システム、決算システムその他への適用を想定する。また、監視対象システム302は、障害原因の解析と解析結果の蓄積とが継続的に実行されるシステムでもある。
完全一致判定ルール305は、システム障害の根本原因別に用意された完全一致判定用の判定ルールの集合である。この完全一致判定ルール305は、図2で説明した判定ルールの集合体として実現される。なお、完全一致判定ルール305は、不図示の記憶領域に確保された一部又は全部の領域として実現される。
障害原因完全一致判定機構306は、通知されたイベント列と完全一致判定用の各判定ルールとの比較処理と、判定ルールを構成する全ての障害原因判定条件が成立したか否かの判定処理と、全ての障害原因判定条件が成立する判定ルールが検出された場合、判定ルールに記述されたアクションとを実行する信号処理部である。なお、判定ルールとイベント列との比較処理は、各判定ルールで規定された障害原因判定条件の数の範囲で実行される。
この障害原因完全一致判定機構306は、特許請求の範囲における「第1の判定部」に対応する。また、障害原因完全一致判定機構306は、ハードウェアとしてもソフトウェアとしても実現できる。ソフトウェアとして実現される場合、コンピュータで実行されるプログラムの一部の機能として実現される。
部分一致判定ルール307は、システム障害の根本原因別に用意された部分一致判定用の判定ルールの集合である。部分一致判定用の判定ルールとは、完全一致判定用の判定ルールを構成する個別の障害原因判定条件について、それぞれが成立した場合に実行するアクションの内容とを一組として記述した判定ルールの集合で構成される。
例えば完全一致判定用の判定ルールを構成する障害原因判定条件が3つの場合、部分一致判定用の判定ルールには、個々の判定動作と判定結果に対するアクションとを一組とする3つの判定ルールが記述される。この形態例の場合、判定結果に対するアクションは、判定動作で条件が成立した場合についてのみ定義される。例えばアクションの内容として、成立が確認された障害原因判定条件を、ログデータベース312に記録することが記述される。この部分一致判定ルール307の場合も、不図示の記憶領域に確保された一部又は全部の領域として実現される。
障害原因部分一致判定機構308は、通知されたイベント列と部分一致判定用の各判定ルールに基づいて、完全一致判定用の判定ルールを構成する個々の障害原因判定条件についてのイベントとの比較処理と、個々の比較結果について記述されているアクションとを実行する信号処理部である。このように、障害原因部分一致判定機構308は、個々の障害原因判定条件の判定単位で、ログデータベース312への障害原因判定条件の記録処理を実行する。
なお、この障害原因部分一致判定機構308の場合も、判定ルールとイベント列との比較処理は、各判定ルールで規定された障害原因判定条件の数の範囲で実行される。例えば判定ルールに対応する障害原因判定条件の数が6つであれば、6つ分のイベントについて比較処理が実行される。また例えば判定ルールに対応する障害原因判定条件の数が3つであれば、3つ分のイベントについて比較処理が実行される。
この障害原因部分一致判定機構308は、特許請求の範囲における「第2の判定部」に対応する。また、障害原因部分一致判定機構308は、ハードウェアとしてもソフトウェアとしても実現できる。ソフトウェアとして実現される場合、コンピュータで実行されるプログラムの一部の機能として実現される。
障害原因判定ルール生成機構309は、障害原因一致判定ルール定義テンプレート314が入力された場合に、完全一致判定用の判定ルールと部分一致判定用の判定ルールを作成する信号処理部である。障害原因一致判定ルール定義テンプレート314の入力には、不図示の入力インターフェースが用いられる。
この障害原因判定ルール生成機構309は、特許請求の範囲における「判定ルール生成部」に対応する。また、障害原因判定ルール生成機構309は、ハードウェアとしてもソフトウェアとしても実現できる。ソフトウェアとして実現される場合、コンピュータで実行されるプログラムの一部の機能として実現される。
障害原因判定結果ダッシュボード生成機構310は、完全一致判定ルールや部分一致判定ルールを用いた判定処理の結果に基づいて、解析処理結果をユーザに提示するダッシュボード画面を生成する信号処理部である。この障害原因判定結果ダッシュボード生成機構310は、特許請求の範囲における「表示画面生成部」に対応する。
障害原因判定結果ダッシュボード生成機構310は、ハードウェアとしてもソフトウェアとしても実現できる。ソフトウェアとして実現される場合、コンピュータで実行されるプログラムの一部の機能として実現される。
なお、障害原因判定結果ダッシュボード生成機構310は、事前の設定又はユーザの指示に従い、ダッシュボード画面を生成する。例えばダッシュボード画面の生成時には、障害原因判定条件とイベントとの一致率と、判定ルールを構成する障害原因判定条件の数とを参照する。例えば一致率を第1ソート条件として使用し、一致率が同じ障害原因候補間では障害原因判定条件の数を第2ソート条件として使用する。もしくは、障害原因判定条件の数を第1ソート条件として使用し、障害原因判定条件の数が同じ障害原因候補間では一致率を第2ソート条件として使用する。いずれにしても、システム障害の根本原因の可能性が高い障害原因ほど上位に表示されるように工夫することが作業時間の短縮に有利である。もっとも、これらのソート表示だけでは、短時間で障害原因に到達できない可能性もある。それは、これらのソートには、障害原因判定条件間の軽重情報が反映されていないためである。そこで、形態例に係る障害原因判定結果ダッシュボード生成機構310には、個々の障害原因候補に対するユーザの評価を助ける仕組みを採用する。詳細については後述する。生成されたダッシュボード画面は、ディスプレイモニタ313に表示される。
この他、障害原因判定結果ダッシュボード生成機構310は、ダッシュボード画面に表示される障害原因候補に対するユーザのアクション又はシステムのアクションの進捗状況を管理する機能も有している。
また、障害原因判定結果ダッシュボード生成機構310は、障害原因候補に対するその後の確認作業を通じ、今回の障害原因として確定的に特定された場合には、図3に矢印で示すように、障害原因判定ルール定義テンプレートを自動的に作成して出力する機能も有している。ここで出力される障害原因判定ルール定義テンプレートの内容は、例えばイベント列と一致した障害原因判定条件を選択的に抽出することにより実現される。障害原因判定ルール定義テンプレートの出力は、外部記憶媒体への出力、通信回線を通じての出力の他、障害原因判定ルール生成機構309への出力も含まれる。いずれにしても、この出力機能の搭載により、同じ障害原因の発生時には、完全一致する可能性を高めることが可能になる。
デシジョンテーブル311は、部分一致判定用の判定ルールを適用した場合における障害原因判定条件についての個別の判定結果を、判定ルール別に集計して格納する領域として使用される。このデシジョンテーブル311も、不図示の記憶領域に確保された一部又は全部の領域として実現される。デシジョンテーブル311に格納された内容は、障害原因判定結果ダッシュボード生成機構310により、ダッシュボード画面の生成時に参照される。
ログデータベース312は、部分一致判定用の判定ルールを用いて実行された障害原因判定条件単位の判定結果の記録領域として使用される。この形態例の場合、ログデータベース312は、判定条件が成立した障害原因判定条件の記録にのみ使用される。
(c)概略動作
形態例に係る障害原因解析システム301において実行される解析動作の概要を説明する。
障害原因解析システム301においては、監視システム303が監視対象システム302の動作状態を常に監視している。監視システム303は、監視対象システム302の動作状態が予め設定された条件を満たすと、対応するイベントを障害監視解析システム301に送出する。障害原因解析システム301は、完全一致判定ルール305に格納される判定ルールと監視システム303から受信されたイベント列の並びとを比較し、各判定ルールについて障害原因判定条件の全てが成立するか否かを判定する。判定ルールを構成する障害原因判定条件の全てが成立する場合、障害原因解析システム301は、障害原因を特定したものと判定し、判定結果をダッシュボード上に視覚化して、ディスプレイモニタ313に表示する。
しかし、完全一致判定ルール305による判定ルールでは、障害原因を特定できなかった場合、障害原因解析システム301は、部分一致判定ルール307に格納されている判定ルールと監視システム303から受信されたイベント列の並びとを比較する。すなわち、完全一致判定用の判定ルールとイベント列の並びのパターンとが部分的にでも一致するか否かを比較判定する。部分的な一致が確認された場合、障害原因解析システム301は、確認された障害原因候補によってダッシュボード画面を生成し、ディスプレイモニタ313に表示する。
(d)障害原因判定ルール定義テンプレートのデータ構造例
図4に、前述した障害原因判定ルール定義テンプレートの詳細構造例を示す。図4に示すように、障害原因判定ルール定義テンプレート401は、障害原因判定ルール名称402と、障害原因判定条件リスト403と、障害原因判定結果アクション404とから構成される。
障害原因判定条件リスト403は、更に障害原因判定条件405の配列によって構成される。なお、個々の障害原因判定条件403に配列される障害原因判定条件405の内容や個数は、監視対象である障害原因毎に異なっている。すなわち障害原因判定条件405の配列数は1個以上であり、障害原因の特定に必要な判定条件の数だけ配列される。障害原因判定結果アクション404には、障害原因判定条件リスト403に記載された全ての障害原因判定条件が成立した場合に実行すべきアクションが記述される。勿論、記載内容は、障害原因によって異なっている。このアクションの内容は、図2に示す障害原因完全一致判定ルールの障害原因判定結果アクションに引き継がれる。
(e)部分一致判定動作の実行時に表示される画面例
図5に、障害原因解析結果一覧表示画面501の表示画面例を示す。障害原因解析結果一覧表示画面501は、障害原因判定結果ダッシュボード生成機構310によって生成される。障害原因解析結果一覧表示画面501は、図5に示すように二次元表形式で構成される。
各行には、個々の障害原因候補に関する情報が表示される。なお、表示の順番は、選択又は設定された所定のソート規則に従うものとする。例えば障害原因の可能性が高い障害原因候補が上位にソートする規則を使用する。
この際、ソート規則は、一致率の高さだけでなく、障害原因判定条件数を考慮することが望ましい。例えば一致率の高さを第1ソート条件としてソートし、一致率が同じ障害原因候補については、対応する障害原因判定条件数を第2ソート条件としてソートする規則を使用する。一致率が同じであれば、障害原因判定条件数の多い方が、障害原因の可能性が高いからである。また、これらの反対に、障害原因判定条件数を第1ソート条件としてソートし、障害原因判定条件数が同じ障害原因候補については、一致率を第2ソート条件としてソートする規則を使用しても良い。
なお、図5の表示例は、いずれの障害原因候補も障害原因判定条件の数が6個の場合である。このため、表示順序は、基本的に一致率と一致している。
一方、各列には、障害原因の特定や判定結果の確認に必要な項目が順番に表示される。図5の場合は、順位502、一致率503、障害原因判定ルール名称504、障害原因判定条件成立状況505で構成される。
順位502は、各行をソートして並べた順位を表すための表示項目である。一致率503は、障害原因判定ルール定義テンプレート401で定義された障害原因判定条件リスト403の中で障害原因判定条件が部分一致した割合を表す。例えば障害原因判定条件が6個ある場合に、条件が成立した障害原因判定条件が5つある場合、四捨五入した数値(80%)を表示する。
障害原因判定ルール名称504は、一致判定で使用した障害原因判定ルール定義テンプレート401に記述された判定ルールの名称である。
障害原因判定条件成立状況505は、一致判定の元になった障害原因判定ルール定義テンプレート401のうち障害原因判定条件リスト403に記述された各障害原因判定条件405の一致状況を個別に示す表示項目である。この形態例の場合、障害原因判定条件成立状況505の表示には2種類の表示形態を用意する。1つは、通常表示画面であり、他方は拡大表示画面である。
通常表示画面は、障害原因判定条件の個別の成立状況を全体的に確認するための表示である。通常表示画面の場合、各行に対応する障害原因判定条件成立状況505の表示欄には、各行に対応する障害原因の特定に必要な障害原因判定条件の個数分だけブロックが表示される。
図5の表示例では、各行について6個のブロックが表示されている。すなわち、各障害原因候補の特定に必要な障害原因判定条件がいずれも6個であることを示している。なお図中、網掛けで表示したブロックは、判定条件が成立した障害原因判定条件に対応するブロックを表している。実施の表示画面では、このブロックは、ハイライトブロック(相対的に輝度が高いブロック)や特定の色(例えば黄色)に着色されたブロックとして表示される。一方、白抜きのブロックは、判定条件が成立していない障害原因判定条件に対応するブロックを表している。また、ここでの表示ブロックの並びは、障害原因判定条件リスト403(図4)に記述される障害原因判定条件の並びに一致する。
このように、通常表示画面は、複数の障害原因についての判定条件の成立状況(一致と不一致)を概略的に理解するのに非常に便利である。その一方で、障害原因判定条件成立状況505の表示欄は、割り当て可能な表示幅や表示面積の点で制約があり、個々のブロックに対応する障害原因判定条件の内容についてまでは確認することができない。実際、表示画面内で上下に隣り合うブロックであっても、対応する障害原因判定条件の内容は同じではない。そこで、前述したように、この形態例の場合には、後述するような拡大表示画面を用意する。
拡大表示画面は、ポインタ等によって指定された画面上の特定上のうち少なくとも障害原因判定条件成立状況505の内容を拡大して表示する表示画面である。図5の場合は、拡大表示画面を、前述した通常表示画面とは重ならないように表示している。勿論、通常表示画面に拡大表示画面を重ねて表示することもできる。この拡大表示画面には、障害原因判定条件に対応する個々のブロック内に、対応する障害判定条件の内容を表す文字や名称が個別に表示される点で通常表示画面と異なっている。勿論、通常表示画面でのハイライト表示や着色表示は、この拡大表示画面にも引き継がれる。文字情報が加わることで、どの障害判定条件が成立し、どの障害判定条件が成立しなかったかをユーザが容易に確認することができる。
(f)障害原因部分一致判定ルールのデータ構造例
図6に、障害原因一致判定ルール定義テンプレート314に基づいて作成される障害原因の部分一致判定ルール601の記述例を示す。この障害原因部分一致判定ルール601は、障害原因判定ルール定義テンプレート314に記述された障害原因判定条件リスト403の個々の障害原因判定条件405に対応する判定ルール602の集合である。判定ルール602には、障害原因判定条件と、当該障害原因判定条件が成立した場合に実行するアクションとが記述される。図6の場合、アクションとして、対応する障害原因判定条件の成立を示す文言情報等のログデータベース312に記録することを命じることが記述される。この記録命令の存在により、ログデータベース312には、判定条件が成立した障害原因判定条件が集積される。また、この情報に基づいて、デシジョンテーブル311が生成される。
(g)デシジョンテーブルのデータ構造例
図7に、デシジョンテーブル701(図3の311)のデータ構造例を示す。デシジョンテーブル701は、障害原因部分一致判定機構308が作成する。障害原因部分一致判定機構308は、障害原因の部分一致判定動作の履歴が集積されたログデータベース312を参照し、図に示すようなテーブルを生成する。前述したように、デシジョンテーブル311は、障害原因の部分成立状況を把握するためのダッシュボードの生成に用いられる重要なテーブルである。
デシジョンテーブル701は、格納する要素の数を保存する要素数情報704と、障害原因判定ルール対応要素702との配列で構成される。図7の場合は、要素数情報704で与えられる個数がN個であるので、N行の障害原因判定ルール対応要素702が配列される。なお、ここでの障害原因判定ルール対応要素702は、障害原因判定ルール定義テンプレート314を通じて障害原因解析システム301に登録されている障害原因完全一致判定ルールの一つに対応する。
障害原因判定ルール対応要素702には、完全一致判定ルール703(図3の305)へのポインタ705、障害原因判定条件数706、障害原因判定条件成立数707、部分一致判定ルールの障害原因判定条件の成否情報708を要素とする配列で構成される。
障害原因判定条件数706は、障害原因判定ルール対応要素702毎にそれぞれ固有の値Mが設定される。勿論、その数値は、対応する完全一致判定ルールを構成する障害原因判定条件の数をカウントすることにより一意的に設定される。
一方、障害原因判定条件成立数707は、M個の障害原因判定条件のうち条件が成立した条件の数Kである。この形態例の場合、この数値は、ログデータベース312とのマッチング動作を通じて設定される。
この形態例の場合、成否情報708は、後述するログデータベース312の解析動作を通じて、条件の成立した判定条件が検出されるたびに追加的に記録される。このため、成否情報708の個数Kと障害原因判定条件成立数707の個数Kとは一致している。
なお、ダッシュボードに表示される障害原因部分一致判定ルールの一致率は、このデシジョンテーブル701における障害原因判定条件成立数707を障害原因判定条件数706で除した結果の百分率として算出される。
(h)障害原因判定ルールの生成手順
図8には、障害原因判定ルール生成機構309において実行される処理手順を示す。すなわち、障害原因判定ルール定義テンプレート314から、完全一致判定ルール305と部分一致判定ルール307を生成する手順を示す。
障害原因判定ルール生成機構309は、障害原因判定ルール定義テンプレート314が入力されると、内容を障害原因完全一致判定ルール201に変換して出力する(ステップ801)。
次に、障害原因判定ルール生成機構309は、障害原因判定ルール定義テンプレート314の障害原因判定条件リスト403から、障害原因判定条件405を一つ取り出す(ステップ802)。
次に、障害原因判定ルール生成機構309は、処理対象である障害原因判定条件405について、当該条件が成立した場合に結果をログデータベース312に記録することをアクション内容とするルールを作成し、部分一致判定ルール307に追加する(ステップ803)。
この後、障害原因判定ルール生成機構309は、未処理の障害原因判定条件405が残っているか判定する(ステップ804)。残っていることが確認された場合、障害原因判定ルール生成機構309は、前述したステップ802に戻り、次の未処理の障害原因判定条件405について一連の動作を継続する(ステップ804)。なお、全ての障害原因判定条件405について判定動作が完了していた場合には、障害原因判定ルールの作成動作を終了する。
(i)デシジョンテーブルの作成手順
図9に、前述したデシジョンテーブル311を作成する際に使用する処理手順の一例を示す。動作主体は、障害原因部分一致判定機構308である。また、この処理動作は、障害原因部分一致判定機構308が、全ての部分一致判定ルール307について、判定動作が終了したことを検出した時点以降に実行される。
まず、障害原因部分一致判定機構308は、完全一致判定ルール305から障害原因完全一致判定ルールを一つ取り出す(ステップ901)。
次に、障害原因部分一致判定機構308は、障害原因判定ルール対応要素702を、新しく作成して初期化する(ステップ902)。このとき、ポインタ705、障害原因判定条件数706、障害原因判定条件成立数707のデータ欄が作成される。勿論、障害原因判定条件数706と障害原因判定条件成立数707にはゼロ(0)が記録される。
次に、障害原因部分一致判定機構308は、ステップ901で取り出した障害原因完全一致判定ルールを構成する障害原因判定条件の数Mを、ステップ902で作成した障害原因判定ルール対応要素702の障害原因判定条件数706に記録する(ステップ903)。
次に、障害原因部分一致判定機構308は、ログデータベース312にアクセスし、部分一致判定ルールに対して格納されたログの一つを取り出す(ステップ904)。この形態例の場合、条件が成立した障害原因判定条件に関するログが一つ取り出される。
障害原因部分一致判定機構308は、ステップ904で取り出したログが、ステップ901で取り出した障害原因完全一致判定ルールに係わるものか否かを、ログの内容で比較する(ステップ905)。
このステップ905の判定において、ログが、ステップ901で取り出した障害原因完全一致判定ルールと関係無いと判定された場合、障害原因部分一致判定機構308は、ステップ904へ戻る(ステップ906)。
一方、ステップ905の判定において、ログが、ステップ901で取り出した障害原因完全一致判定ルールと関係すると判定された場合、障害原因部分一致判定機構308は、部分一致判定ルールの障害原因判定条件の成否情報708に、当該条件が成立したことを示すフラグをセットする(ステップ907)。
この後、障害原因部分一致判定機構308は、障害原因判定条件成立数707の数値Kを、K+1に更新する(ステップ908)。
続いて、障害原因部分一致判定機構308は、ログデータベース312に、取り出されていないログが残っているか判定する(ステップ909)。このとき、取り出されていないログがあれば、障害原因部分一致判定機構308は、ステップ904へ戻る。一方、全てのログが取り出されていれば、障害原因部分一致判定機構308は、次のステップ910に進む。
すなわち、障害原因部分一致判定機構308は、完全一致判定ルール305にステップ901で読み出していない障害原因完全一致判定ルールが残っているか否かを判定する(ステップ910)。このとき、取り出されていない障害原因完全一致判定ルールが残っていれば、障害原因部分一致判定機構308は、ステップ901へ戻る。一方、全ての障害原因完全一致判定ルールが取り出されていれば、障害原因部分一致判定機構308は、デシジョンテーブル311の作成処理を終了する。
(j)まとめ
以上説明したように、この形態例に係る障害原因解析システム301を採用することにより、監視システムから通知されるイベント列が判定ルールと完全に一致しなくても、部分的に成立した障害条件判定条件の割合やその成否の内容を明示的に画面上に表示することができる。
このため、ユーザは、可能性の高い障害原因判定条件の絞込みを効率的に実行することができる。特に、部分的な成立状況を画面上で確認できる。すなわち、条件が成立しなかった障害原因判定条件と成立した障害原因判定条件を個別に確認できる。このため、障害原因候補の絞込みを効率的に実行できる。
また、この機能の搭載により、システム構成の改変などにより、障害時に出現するイベントの種類や並びが想定内容と異なる場合でも、障害原因に効率的にたどり着くことが可能になる。
(2)その他
前述した監視対象システム302、監視システム303及び障害原因解析システム301は、必ずしも物理的に1つの建物内に構築されている必要は無い。例えば各システムがネットワークを通じてそれぞれ異なる建物内に構築されていても良い。
また、前述したシステムは、国又は国に準じる地域を跨ぐように構築されていても良い。
また、前述した監視対象システム302、監視システム303及び障害原因解析システム301の各システムは、同一の事業者によって運用されている場合だけでなく、それぞれ異なる事業者によって運用されていても良い。例えばデータセンターを運用する事業者とその保守管理サービスを提供する事業者とによって別々に運用されていても良い。
101…障害原因解析システム、102…監視対象システム、103…監視システム、104…接続アダプタ、105…完全一致判定ルール、106…障害原因完全一致判定機構、107…障害原因判定結果ダッシュボード生成機構、108…ディスプレイモニタ、109…障害原因判定ルール定義テンプレート、201…障害原因完全一致判定ルール記述、301…障害原因解析システム、302…監視対象システム、303…監視システム、304…接続アダプタ、305…完全一致判定ルール、306…障害原因完全一致判定機構、307…部分一致判定ルール、308…障害原因部分一致判定機構、309…障害原因判定ルール作成機構、310…障害原因判定結果ダッシュボード生成機構、311…デシジョンテーブル、312…ログデータベース、313…ディスプレイモニタ、314…障害原因判定ルール定義テンプレート、401…障害原因判定ルール定義テンプレート、402…障害原因判定ルール名称、403…障害原因判定条件リスト、404…障害原因判定結果アクション、405…障害編印判定条件、501…障害原因解析結果一覧表示画面、502…順位、503…一致率、504…障害原因判定ルール名称、505…障害原因判定条件成立状況、506…障害原因判定条件、601…障害原因部分判定ルールセット、602…障害原因部分判定ルール。

Claims (9)

  1. システム障害に伴って通知されるイベント列と、個々の障害原因について定義された複数の障害原因判定条件の組み合わせとを比較し、前記複数の障害原因判定条件の全てが同時に成立するか否かを判定する第1の判定部と、
    システム障害に伴って通知されるイベント列と、個々の障害原因について定義された複数の障害原因判定条件の組み合わせとを比較し、個々の前記障害原因判定条件が個別に成立するか否かを判定する第2の判定部と、
    前記第1の判定部における判定結果が肯定的であった場合、特定された障害原因を表示する画面を生成し、前記第1の判定部における判定結果が否定的であった場合、前記障害原因判定条件が部分的に成立した障害原因候補を前記第2の判定部の判定結果を用いて特定し、当該障害原因候補を所定の規則に従って一覧的に表示する画面を生成する表示画面生成部と
    を有する障害原因解析システム。
  2. 前記表示画面生成部は、前記障害原因候補のそれぞれについて定義されている障害原因判定条件の数と、前記第2の判定部の判定結果その個別の成立状況を一組として表示する
    ことを特徴とする障害原因解析システム。
  3. 前記表示画面生成部は、前記障害原因判定条件の数を表示ブロックの数で表現し、前記障害原因判定条件の個別の成立状況を、前記表示ブロックの表示態様の違いによって表現する
    ことを特徴とする請求項2に記載の障害原因解析システム。
  4. 前記表示画面生成部は、前記表示ブロックに対応する障害原因判定条件の内容確認用の表示形式を有する
    ことを特徴とする請求項3に記載の障害原因解析システム。
  5. 個々の障害原因について定義された複数の障害原因判定条件を個々の障害原因判定条件に分割し、個々の障害原因判定条件に関する判定結果をログ情報として記憶領域に保存させる判定ルールを、前記第2の判定部における判定用に生成する判定ルール生成部
    を有することを特徴とする請求項4に記載の障害原因解析システム。
  6. システム障害に伴って通知されるイベント列と、個々の障害原因について定義された複数の障害原因判定条件の組み合わせとを比較し、前記複数の障害原因判定条件の全てが同時に成立するか否かを第1の判定部に判定させる処理と、
    システム障害に伴って通知されるイベント列と、個々の障害原因について定義された複数の障害原因判定条件の組み合わせとを比較し、個々の前記障害原因判定条件が個別に成立するか否かを第2の判定部に判定させる処理と、
    前記第1の判定部における判定結果が肯定的であった場合、特定された障害原因を表示する画面を生成する処理と、
    前記第1の判定部における判定結果が否定的であった場合、前記障害原因判定条件が部分的に成立した障害原因候補を前記第2の判定部の判定結果を用いて特定し、当該障害原因候補を所定の規則に従って一覧的に表示する画面を生成する処理と
    をコンピュータに実行させるプログラム。
  7. 前記第1の判定部における判定結果が否定的であった場合、前記障害原因候補のそれぞれについて、対応する障害原因判定条件の数とその個別の成立状況を一組として表示させる
    ことを特徴とする請求項6に記載のプログラム。
  8. 前記第1の判定部における判定結果が否定的であった場合、前記障害原因判定条件の数を表示ブロックの数で表現し、前記障害原因判定条件の個別の成立状況を、前記表示ブロックの表示態様の違いによって表現する
    ことを特徴とする請求項7に記載のプログラム。
  9. 前記第1の判定部における判定結果が否定的であった場合、前記表示ブロックに対応する障害原因判定条件の内容確認用の表示形式を有する
    ことを特徴とする請求項8に記載のプログラム。
JP2009024203A 2009-02-04 2009-02-04 障害原因解析システム及びプログラム Expired - Fee Related JP5215895B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009024203A JP5215895B2 (ja) 2009-02-04 2009-02-04 障害原因解析システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009024203A JP5215895B2 (ja) 2009-02-04 2009-02-04 障害原因解析システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2010182044A true JP2010182044A (ja) 2010-08-19
JP5215895B2 JP5215895B2 (ja) 2013-06-19

Family

ID=42763600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009024203A Expired - Fee Related JP5215895B2 (ja) 2009-02-04 2009-02-04 障害原因解析システム及びプログラム

Country Status (1)

Country Link
JP (1) JP5215895B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
WO2012053104A1 (ja) * 2010-10-22 2012-04-26 株式会社日立製作所 管理システム、及び管理方法
WO2012120629A1 (ja) * 2011-03-08 2012-09-13 株式会社日立製作所 計算機システムの管理方法及び管理装置
WO2014033945A1 (ja) * 2012-09-03 2014-03-06 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
WO2015019488A1 (ja) * 2013-08-09 2015-02-12 株式会社日立製作所 管理システム及びその管理システムによるイベント解析方法
US9141452B2 (en) 2011-12-19 2015-09-22 Fujitsu Limited Failure detection method and failure detection system
WO2020203282A1 (ja) * 2019-04-03 2020-10-08 日本電信電話株式会社 分析装置、分析方法および分析プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353094A (ja) * 1999-06-10 2000-12-19 Ishikawajima Harima Heavy Ind Co Ltd 機器の故障診断装置及び方法
JP2006048421A (ja) * 2004-08-05 2006-02-16 Canon Inc 作業指示方法
JP2007140997A (ja) * 2005-11-18 2007-06-07 Mitsubishi Electric System & Service Co Ltd 故障診断装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353094A (ja) * 1999-06-10 2000-12-19 Ishikawajima Harima Heavy Ind Co Ltd 機器の故障診断装置及び方法
JP2006048421A (ja) * 2004-08-05 2006-02-16 Canon Inc 作業指示方法
JP2007140997A (ja) * 2005-11-18 2007-06-07 Mitsubishi Electric System & Service Co Ltd 故障診断装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
WO2012053104A1 (ja) * 2010-10-22 2012-04-26 株式会社日立製作所 管理システム、及び管理方法
WO2012120629A1 (ja) * 2011-03-08 2012-09-13 株式会社日立製作所 計算機システムの管理方法及び管理装置
US8671186B2 (en) 2011-03-08 2014-03-11 Hitachi, Ltd. Computer system management method and management apparatus
US9141452B2 (en) 2011-12-19 2015-09-22 Fujitsu Limited Failure detection method and failure detection system
WO2014033945A1 (ja) * 2012-09-03 2014-03-06 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
JP5719974B2 (ja) * 2012-09-03 2015-05-20 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
US9244800B2 (en) 2012-09-03 2016-01-26 Hitachi, Ltd. Management system for managing computer system comprising multiple monitoring-target devices
WO2015019488A1 (ja) * 2013-08-09 2015-02-12 株式会社日立製作所 管理システム及びその管理システムによるイベント解析方法
WO2020203282A1 (ja) * 2019-04-03 2020-10-08 日本電信電話株式会社 分析装置、分析方法および分析プログラム
JP2020170362A (ja) * 2019-04-03 2020-10-15 日本電信電話株式会社 分析装置、分析方法および分析プログラム
JP7124783B2 (ja) 2019-04-03 2022-08-24 日本電信電話株式会社 分析装置、分析方法および分析プログラム

Also Published As

Publication number Publication date
JP5215895B2 (ja) 2013-06-19

Similar Documents

Publication Publication Date Title
JP5215895B2 (ja) 障害原因解析システム及びプログラム
JP4927448B2 (ja) 時系列パターン生成システム及び時系列パターン生成方法
KR101066949B1 (ko) 업무 분석 프로그램을 기록한 컴퓨터 판독가능한 기록 매체 및 업무 분석 장치
US8364337B2 (en) Failure countermeasure supporting system for mobile vehicle
US20080133973A1 (en) Data processing method and data analysis apparatus
CN105556515A (zh) 数据库建模与分析
US20130080834A1 (en) Computer product, test support method, and test support apparatus
JP2010157183A (ja) 情報処理装置及び情報処理プログラム
Zhang et al. A generic data analytics system for manufacturing production
JP2012208664A (ja) ソフトウェア設計・運用統合管理システム
JP5003084B2 (ja) 業務監視装置、業務監視システム、業務監視方法およびプログラム
CN114124743B (zh) 一种数据应用全链路检查规则执行方法及系统
CN111143325A (zh) 一种数据采集的监测方法、监测装置及可读存储介质
JP4983028B2 (ja) 財務統制支援プログラムおよび財務統制支援システム
JP2017194808A (ja) 行動特性分析装置及び行動特性分析システム
JP6738637B2 (ja) 業務フロー分析プログラム、業務フロー分析方法、および業務フロー分析装置
JP3980996B2 (ja) 生産プロセスマネジメント・チャートによる統合生産管理方法及びそのシステム
JP2009043188A (ja) 運用管理サポートシステム、プログラム
WO2020070929A1 (ja) プラント機器情報管理システム
US20220374799A1 (en) Display control device, and display control method
US20110320587A1 (en) Real-time determination of software installation status
JP2002351702A (ja) オンライン利用の端末稼働統計データ作成方法及び装置
KR20150142459A (ko) 인스트루먼트 인덱스 자동화 시스템 및 방법
JP2023164078A (ja) 故障復旧支援システム、および、故障復旧支援方法
US20080313557A1 (en) System and Methods for Diagnosing and Managing Organization Change

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130301

R150 Certificate of patent or registration of utility model

Ref document number: 5215895

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees