JP6233411B2 - 障害分析装置、障害分析方法、および、コンピュータ・プログラム - Google Patents

障害分析装置、障害分析方法、および、コンピュータ・プログラム Download PDF

Info

Publication number
JP6233411B2
JP6233411B2 JP2015521273A JP2015521273A JP6233411B2 JP 6233411 B2 JP6233411 B2 JP 6233411B2 JP 2015521273 A JP2015521273 A JP 2015521273A JP 2015521273 A JP2015521273 A JP 2015521273A JP 6233411 B2 JP6233411 B2 JP 6233411B2
Authority
JP
Japan
Prior art keywords
information
log
pattern
system component
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015521273A
Other languages
English (en)
Other versions
JPWO2014196129A1 (ja
Inventor
遼介 外川
遼介 外川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014196129A1 publication Critical patent/JPWO2014196129A1/ja
Application granted granted Critical
Publication of JP6233411B2 publication Critical patent/JP6233411B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、情報処理システムにおける障害を分析する技術に関する。
情報処理システムにおける障害を分析する技術として、例えば、特許文献1〜3に記載された関連技術が知られている。
特許文献1に記載された障害分析システムは、処理シーケンスの正常パターンおよび障害時の異常パターンを保持する。障害発生時、その障害分析システムは、処理シーケンスのパターン(検索パターン)を取得し、正常パターンおよび異常パターンと照合することにより障害を分析する。この障害分析システムは、検索パターンが正常パターンに一致した場合は、正常に動作していると判断する。また、この障害分析システムは、検索パターンが異常パターンに一致した場合は、その異常パターンに関する情報を提示する。また、この障害分析システムは、検索パターンが正常パターンにも異常パターンにも一致しない場合には、新たな異常パターンとして保持する。
特許文献2に記載された障害分析システムは、情報処理システムの正常運用中の学習モードにおいて収集されるメッセージについて、期間ごとに通常パターンおよびその発生回数を記録する。そして、この障害分析システムは、運用モードにおいて収集されるメッセージのパターンに一致する通常パターンがない場合、または、その発生回数が通常パターンの発生回数に基づく上限以上または下限以下である場合に、異常を検出したと判断する。
特許文献3に記載された障害分析システムは、過去に発生した障害時に得られたメッセージパターンおよび運用時に得られるメッセージパターンが一致するか否かを照合することにより、障害を検出する。この障害分析システムは、例えば、ある情報処理システムにおける過去の障害時のメッセージパターンを蓄積し、他の情報処理システムの運用時に得られるメッセージパターンと照合して他の情報処理システムの障害を検出する。また、この障害分析システムは、照合の際にメッセージパターン間で一致しない部分については、抽象度を上げて照合を行う。
特開2006−59266号公報 特許第4944391号公報 特開2012−141802号公報 特開2012−123694号公報
しかしながら、クラウドコンピューティングや仮想化環境の利用が拡大したことで、近年の情報処理システムは、物理・仮想環境の混在、マルチベンダによるヘテロ環境などといったように複雑化している。複雑化した情報処理システムでは、ノード構成の変更や、ソフトウェアの更新、追加など、構成変化の頻度も劇的に増加する。上述の各関連技術は、そのような複雑化した情報処理システムにおいて、障害の原因箇所を特定することが難しいという問題がある。
例えば、特許文献1に記載された障害分析システムは、障害分析のため、処理シーケンスの正常パターンおよび異常パターンを保持する必要がある。ここで、複雑化した情報処理システムでは、複数の開発会社の製品が組み合わされて用いられていることが多い。このため、運用管理者にとって、情報処理システムにおける処理シーケンスを事前に全て把握することは難しい。したがって、この障害分析システムにおいて、情報処理システムの構成が変化する度に、新たに正常な処理シーケンスを把握して正常パターンを生成することは難しい。
また、構成が頻繁に変化する情報処理システムでは、繰り返し発生する同一の障害は少なく、大半が未知の事例である。したがって、特許文献1に記載された障害分析システムは、情報処理システムの構成が変化すると、それまでに保持していた異常パターンと一致する障害を検出することは少なく、正常パターンとも異常パターンとも一致しない障害を検出することが多くなる。ここで、この障害分析システムは、保持された異常パターンに対して、その原因箇所などの情報をあらかじめ対応付けて記録することにより、検索パターンに一致した異常パターンの原因箇所などを提示する。しかしながら、この障害分析システムは、異常パターンに一致しない検索パターンを新たな異常パターンとして保持した場合に、新たな異常パターンに対応付ける原因箇所などの情報をどのようにして得るかについては記載されていない。したがって、この障害分析システムは、複雑化した情報処理システムにおいて過去に発生していない障害を検出した場合に、その原因箇所を提示することが難しい。
また、特許文献2に記載された障害分析システムは、あらかじめ学習モードにおいてメッセージの通常パターンおよびその発生回数を記録する必要がある。そのため、この障害分析システムは、複雑化した情報処理システムにおいて構成が変化する度に、学習モードに切り替えて通常パターンおよびその発生回数を更新しなければならない。
また、特許文献2に記載された障害分析システムは、通常パターンに一致しないメッセージのパターンや、通常パターンの発生回数に比べて上限以上または下限以下の発生回数のメッセージパターンを検出した場合に、メッセージのパターンや、その発生回数などを提示する。このとき、過去に発生した障害と同一の障害であれば、メッセージのパターンや、その発生回数などの情報から、利用者が障害の原因箇所を特定できる可能性がある。しかしながら、複雑化した情報処理システムにおいて、過去に発生していない障害が検出された場合、利用者にとって、メッセージのパターンやその発生回数などの情報だけでは、障害の原因箇所を特定するのは難しい。したがって、この障害分析システムは、複雑化した情報処理システムでは、過去に発生していない障害を検出した場合に、その原因箇所を提示することが難しい。
また、特許文献3に記載された障害分析システムは、過去の障害発生時のメッセージパターンを記憶する必要がある。そして、この障害分析システムは、運用時に得られるメッセージパターンと、過去の障害発生時のメッセージパターンとを比較する際に、パターンにおいて一致しない部分の抽象度を上げて比較を行う。抽象度を上げることにより、過去の障害発生時のメッセージパターンに一致したと判定した場合、この障害分析システムは、該当する過去の障害事例を提示する。しかしながら、前述のように、複雑化した情報処理システムでは、繰り返し発生する同一の障害は少なく、大半が未知の事例である。このため、複雑化した情報処理システムにおいて、前述のように構成が変化すると、この障害分析システムは、それまでの障害発生時のメッセージパターンと照合するだけでは、充分な障害検出ができない。その結果、この障害分析システムは、過去に発生していない障害の原因箇所を提示することが難しい。
また、複雑化した情報処理システムでは、障害事例はシステム固有のものであることが多く、あるシステムにおける過去の障害事例が、他の情報処理システムにおいて発生することは稀である。したがって、特許文献3に記載された障害分析システムは、過去の障害時のメッセージパターンを蓄積していない情報処理システムにおける障害を充分に検出できず、その原因箇所を提示することが難しい。
本発明は、上述の課題を解決するためになされたもので、構成が変化する情報処理システムにおいても、過去に発生していない障害の原因箇所をより精度よく特定可能な情報を提示する技術を提供することを目的とする。
本発明の一態様に係る障害分析装置は、情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素であるログ要素を抽出するログ要素抽出手段と、前記各ログ要素に対して、前記情報処理システムの構成要素であるシステム構成要素であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加し、前記システム構成要素情報が付加された各ログ要素を統合した統合ログ情報を生成するログ統合手段と、前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出するパターン抽出手段と、分析対象となる期間である分析対象期間中の前記パターンである分析対象パターンに、パターン記憶手段に記憶されたパターンであって、比較対象となる期間である比較対象期間中の前記パターンである比較対象パターンに含まれない前記システム構成要素情報である変換対象のシステム構成要素情報が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報と、前記比較対象パターンに含まれ該変換対象のシステム構成要素情報に類似するシステム構成要素情報との間で変換を行うパターン変換手段と、前記パターン変換手段による変換処理後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出するパターン比較手段と、前記パターン比較手段によって検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する原因箇所提示手段と、を備える。
また、本発明の一態様に係る障害分析方法は、障害分析装置の障害分析方法であって、情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素であるログ要素を抽出し、前記各ログ要素に対して、前記情報処理システムの構成要素であるシステム構成要素であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加し、前記システム構成要素情報が付加された各ログ要素を統合した統合ログ情報を生成し、前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出し、分析対象となる期間である分析対象期間中の前記パターンである分析対象パターンに、比較対象となる期間である比較対象期間中の前記パターンである比較対象パターンに含まれない前記システム構成要素情報である変換対象のシステム構成要素情報が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報と、前記比較対象パターンに含まれ該変換対象のシステム構成要素情報に類似するシステム構成要素情報との間で変換を行い、変換処理後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出し、検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する。
また、本発明の一態様に係るコンピュータで読み取り可能な記録媒体は、情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素であるログ要素を抽出するログ要素抽出ステップと、前記各ログ要素に対して、前記情報処理システムの構成要素であるシステム構成要素であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加し、前記システム構成要素情報が付加された各ログ要素を統合した統合ログ情報を生成するログ統合ステップと、前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出するパターン抽出ステップと、比較対象となる期間である比較対象期間中の前記ログ情報に対して、前記ログ要素抽出ステップ、前記ログ統合ステップ、および、前記パターン抽出ステップが実行されることにより抽出された前記パターンである比較対象パターンを記憶させるパターン記憶ステップと、分析対象となる期間である分析対象期間中の前記ログ情報に対して、前記ログ要素抽出ステップ、前記ログ統合ステップ、および、前記パターン抽出ステップが実行されることにより抽出されたパターンである分析対象パターンに、前記比較対象パターンに含まれない前記システム構成要素情報である変換対象のシステム構成要素情報が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報と、前記比較対象パターンに含まれ該変換対象のシステム構成要素情報に類似するシステム構成要素情報との間で変換を行うパターン変換ステップと、前記パターン変換ステップ後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出するパターン比較ステップと、前記パターン比較ステップにおいて検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する原因箇所提示ステップと、をコンピュータ装置に実行させるコンピュータ・プログラムを記録する。
本発明は、構成が変化する情報処理システムにおいても、過去に発生していない障害の原因箇所をより精度よく特定可能な情報を提示する技術を提供することができる。
本発明の第1の実施の形態に係る障害分析装置の機能を示す機能ブロック図である。 本発明の第1の実施の形態に係る障害分析装置のハードウェア構成図である。 本発明の第1の実施の形態に係る障害分析装置のパターン抽出動作を説明するためのフローチャートである。 本発明の第1の実施の形態に係る障害分析装置の障害分析動作を説明するためのフローチャートである。 本発明の第2の実施の形態に係る障害分析装置の機能を示す機能ブロック図である。 本発明の第2の実施の形態において対象となるログ情報の一例を示す図である。 本発明の第2の実施の形態に係る障害分析装置におけるログ形式記憶部に記憶される情報の一例を示す図である。 本発明の第2の実施の形態に係る障害分析装置におけるシステム構成要素記憶部に記憶される情報の一例を示す図である。 本発明の第2の実施の形態に係る障害分析装置におけるログ統合部によって出力される統合ログ情報の一例を示す図である。 本発明の第2の実施の形態に係る障害分析装置におけるパターン集計部によって集計されたパターンおよび集計情報の一例を示す図である。 本発明の第2の実施の形態に係る障害分析装置のパターン抽出動作を説明するためのフローチャートである。 本発明の第2の実施の形態に係る障害分析装置の障害分析動作を説明するためのフローチャートである。 本発明の第3の実施の形態に係る障害分析装置の機能を示す機能ブロック図である。 本発明の第3の実施の形態に係る障害分析装置の原因箇所提示動作を説明するためのフローチャートである。 本発明の第4の実施の形態に係る障害分析装置の機能ブロック図である。 本発明の第4の実施の形態における形式要素記憶部に記憶される情報の一例を示す図である。 本発明の第4の実施の形態においてログ形式記憶部に新たに追加される情報の一例を示す図である。 本発明の第4の実施の形態に係る障害分析装置の形式学習動作を説明するためのフローチャートである。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(第1の実施の形態)
本発明の第1の実施の形態に係る障害分析装置1の機能構成を示す機能ブロック図を図1に示す。図1において、障害分析装置1は、ログ要素抽出部101と、ログ統合部102と、パターン抽出部103と、パターン記憶部104と、パターン変換部105と、パターン比較部106と、原因箇所提示部107とを備える。
また、障害分析装置1は、情報処理システム90から出力される各種のログ情報を収集可能に構成される。ここで、情報処理システム90は、障害の分析対象となるシステムであり、LAN(Local Area Network)等のネットワークによって接続された1つ以上のコンピュータ装置(ノード)によって構成されていてもよい。例えば、障害分析装置1は、情報処理システム90とネットワークを介して接続されることにより、情報処理システム90から出力される各種のログ情報を収集可能となっていてもよい。あるいは、障害分析装置1は、情報処理システム90を構成するいずれかのノードと同一のコンピュータ装置によって実現されることにより、情報処理システム90から出力される各種のログ情報を収集可能となっていてもよい。その他、障害分析装置1は、情報処理システム90から出力される各種のログ情報が直接または複製などにより記憶される記憶装置に接続されることにより、各種のログ情報を収集可能となっていてもよい。
なお、ログ情報とは、例えば、情報処理システム90の構成要素(以下、システム構成要素ともいう)によって、ログファイルとして出力されるものであってもよい。システム構成要素とは、例えば、情報処理システム90を構成するノードや、ソフトウェアコンポーネント等であってもよい。また、そのようなシステム構成要素から出力されるログ情報としては、ノードのオペレーティングシステムによって出力されるシステムログファイル、ウェブサーバアプリケーションまたはデータベースサーバアプリケーションによって出力されるアクセス履歴または処理履歴を表すログファイルなどがある。
また、障害分析装置1は、図2に示すように、CPU(Central Processing Unit)1001と、RAM(Random Access Memory)1002と、ROM(Read Only Memory)1003と、ハードディスク等の記憶装置1004と、ネットワークインタフェース1005と、入力装置1006と、出力装置1007とを含むコンピュータ装置によって構成可能である。この場合、ログ要素抽出部101は、ネットワークインタフェース1005と、入力装置1006と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001とによって構成される。また、ログ統合部102と、パターン抽出部103と、パターン変換部105と、パターン比較部106とは、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001によって構成される。また、パターン記憶部104は、記憶装置1004によって構成される。また、原因箇所提示部107は、出力装置1007と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001とによって構成される。なお、障害分析装置1およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
次に、障害分析装置1の各機能ブロックの詳細について説明する。
ログ要素抽出部101は、情報処理システム90によって出力される1つ以上のログ情報から、ログ情報を構成する要素(ログ要素)を抽出する。例えば、ログ要素は、ログ情報を構成するログレコードに含まれる日付を表す情報や、ノード名、アプリケーション名などをそれぞれ表す情報であってもよい。また、抽出対象となるログ要素は、あらかじめ定められていてもよい。
ログ統合部102は、ログ要素抽出部101によって抽出された各ログ要素に対して、関連するシステム構成要素の情報(システム構成要素情報)を付加する。そして、ログ統合部102は、関連するシステム構成要素情報がそれぞれ付加されたログ要素を統合して、統合ログ情報を生成する。例えば、ログ統合部102は、各ログ要素に対して、該ログ要素の抽出元であるログ情報を出力したシステム構成要素を表す情報を付加してもよい。また、例えば、ログ統合部102は、システム構成要素情報が付加されたログ要素を、時系列にしたがって並べることにより統合ログ情報を生成してもよい。この場合、ログ統合部102は、抽出元のログ情報において各ログ要素に関連付けられた日時にしたがって各ログ要素を統合してもよい。
パターン抽出部103は、ログ統合部102によって生成された統合ログ情報から、システム構成要素情報を含む情報のパターンを抽出する。パターンの抽出には、例えば、aprioriやprefixspan、LCM(Linear time Closed itemset Miner)など、公知のパターン列挙アルゴリズムを採用してもよい。
パターン記憶部104は、比較対象期間中のパターン(以降、比較対象パターンとも記載する)を記憶する。比較対象期間とは、例えば、情報処理システム90が正常に稼働していることがわかっている期間であってもよい。具体的には、パターン記憶部104は、そのような比較対象期間中に情報処理システム90から出力された各種のログ情報に対して、ログ要素抽出部101、ログ統合部102、および、パターン抽出部103による一連の処理がなされることによって抽出されたパターンを、比較対象パターンとして記憶する。また、パターン記憶部104は、そのようにして抽出されたパターンのうち、所定の頻出条件を満たすものを比較対象パターンとして記憶するようにしてもよい。
パターン変換部105は、分析対象期間中のパターン(以降、分析対象パターンとも記載する)に、比較対象パターンに含まれないシステム構成要素情報が含まれている場合に動作する。以降、分析対象パターンに含まれ、比較対象パターンに含まれないシステム構成要素情報を、変換対象のシステム構成要素情報とも記載する。
ここで、分析対象期間とは、例えば、情報処理システム90に障害が発生した期間であってもよい。パターン変換部105は、そのような分析対象期間中に情報処理システム90から出力された各種のログ情報に対して、ログ要素抽出部101、ログ統合部102、および、パターン抽出部103による一連の処理がなされることによって抽出されたパターンを、分析対象パターンとして取得する。
具体的には、パターン変換部105は、比較対象パターンに含まれ、かつ、変換対象のシステム構成要素に類似するシステム構成要素情報を特定する。そして、パターン変換部105は、比較対象パターンおよび分析対象パターンのいずれかにおいて、変換対象のシステム構成要素情報、および、類似するシステム構成要素情報間の変換を行う。
例えば、パターン変換部105は、比較対象パターンにおいて「類似するシステム構成要素情報」を「変換対象のシステム構成要素情報」に変換したものを、比較対象パターンとしてもよい。あるいは、パターン変換部105は、分析対象パターンにおいて「変換対象のシステム構成要素情報」を「類似するシステム構成要素情報」に変換したものを、分析対象パターンとしてもよい。
パターン比較部106は、パターン変換部105による変換処理後に、分析対象パターンおよび比較対象パターンを比較し、差異を検出する。例えば、パターン比較部106は、変換処理後の分析対象パターンおよび比較対象パターン間で一部が一致するものを検索する。そして、パターン比較部106は、一部が一致した分析対象パターンおよび比較対象パターンにおいて、一致しない部分を差異として検出してもよい。
原因箇所提示部107は、パターン比較部106によって検出された差異の示すシステム構成要素情報を、障害の原因箇所として提示する。
以上のように構成された障害分析装置1の動作について、図3および図4を参照して説明する。
まず、障害分析装置1が、比較対象パターンを抽出してパターン記憶部104に記憶する動作を図3に示す。なお、障害分析装置1は、比較対象期間中に比較対象パターンの生成開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信すると、あらかじめ定められたログ情報を対象として、パターン抽出動作を開始してもよい。あるいは、障害分析装置1は、比較対象期間に出力されたログ情報を他の機能ブロックから受信すると、パターン抽出動作を開始してもよい。あるいは、障害分析装置1は、比較対象期間中に、あらかじめ定められたログ情報の更新を検出すると、パターン抽出動作を開始してもよい。また、障害分析装置1は、対象のログ情報のうち、比較対象期間として指定された範囲を対象として、パターン抽出動作を実行してもよい。
図3において、まず、ログ要素抽出部101は、対象の各種のログ情報から、ログ要素を抽出する(ステップS11)。
次に、ログ統合部102は、ステップS11で抽出された各ログ要素に対して、関連するシステム構成要素情報を付加する(ステップS12)。
次に、ログ統合部102は、ステップS12においてシステム構成要素情報が付加されたログ要素を統合し、統合ログ情報を生成する(ステップS13)。
次に、パターン抽出部103は、ステップS13で生成された統合ログ情報から、システム構成要素情報を含む情報のパターンを抽出する(ステップS14)。
次に、パターン記憶部104は、ステップS14で抽出されたパターンを、比較対象パターンとして記憶する(ステップS15)。
以上で、障害分析装置1は、比較対象パターンの抽出動作を終了する。
次に、障害分析装置1が、分析対象期間の障害を分析する動作を図4に示す。なお、障害分析装置1は、障害分析開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信すると、あらかじめ定められたログ情報を対象として、障害分析動作を開始してもよい。あるいは、障害分析装置1は、分析対象期間に出力されたログ情報を他の機能ブロックから受信すると、障害分析動作を開始してもよい。あるいは、障害分析装置1は、障害を検知する他の機能ブロックによって障害が検知されると、あらかじめ定められたログ情報を対象として、障害分析動作を開始してもよい。また、障害分析装置1は、対象のログ情報のうち、分析対象期間として指定された範囲を対象として、障害分析動作を実行してもよい。
図4において、まず、障害分析装置1は、分析対象パターンを取得する(ステップS21)。具体的には、ログ要素抽出部101、ログ統合部102、および、パターン抽出部103が、分析対象期間中に情報処理システム90から出力された各種のログ情報を対象として、図3に示したステップS11〜S14を実行すればよい。
次に、パターン変換部105は、ステップS21で取得された分析対象パターンに、パターン記憶部104に記憶された比較対象パターンに含まれないシステム構成要素情報が含まれているか否かを判断する(ステップS22)。
ここで、分析対象パターンに、比較対象パターンに含まれないシステム構成要素情報が含まれていない場合、障害分析装置1の動作は、ステップS25に進む。
一方、分析対象パターンに、比較対象パターンに含まれないシステム構成要素情報が含まれている場合、パターン変換部105は、そのシステム構成要素情報を変換対象として、比較対象パターンに含まれ変換対象に類似するシステム構成要素情報を特定する(ステップS23)。
次に、パターン変換部105は、分析対象パターンおよび比較対象パターンのいずれかにおいて、変換対象のシステム構成要素情報および類似するシステム構成要素情報間の変換を行う(ステップS24)。
次に、パターン比較部106は、分析対象パターンおよび比較対象パターンを比較することにより差異を検出する(ステップS25)。
次に、原因箇所提示部107は、ステップS25で検出された差異に関連するシステム構成要素情報を、障害の原因箇所として提示する(ステップS26)。
以上で、障害分析装置1は、障害分析動作を終了する。
次に、本発明の第1の実施の形態の効果について述べる。
本発明の第1の実施の形態に係る障害分析装置は、構成が変化する情報処理システムにおいても、過去に発生していない障害の原因箇所をより精度よく特定可能な情報を提示することができる。
その理由は、比較対象期間中に情報処理システムから出力される各種のログ情報から、ログ要素抽出部がログ要素を抽出し、ログ統合部が、抽出されたログ要素に対して、関連するシステム構成要素情報を付加して統合した統合ログ情報を生成するからである。そして、パターン抽出部が、統合ログ情報から、比較対象パターンを抽出してパターン記憶部に記憶するからである。そして、分析対象期間中に情報処理システムから出力される各種のログ情報から、ログ要素抽出部がログ要素を抽出し、ログ統合部が、抽出されたログ要素に対して、関連するシステム構成要素情報を付加して統合した統合ログ情報を生成する。さらに、パターン抽出部が、統合ログ情報から、分析対象パターンを抽出するからである。そして、分析対象パターンに、比較対象パターンに含まれない変換対象のシステム構成要素情報が含まれている場合、パターン変換部は、比較対象パターンに含まれ変換対象に類似するシステム構成要素情報を特定する。更に、パターン変換部は、比較対象パターンおよび分析対象パターンのいずれかにおいて、変換対象のシステム構成要素および類似するシステム構成要素間で変換を行うからである。さらに、パターン比較部が、変換処理後の分析対象パターンおよび比較対象パターンを比較して差異を検出し、原因箇所提示部が、検出された差異の示すシステム構成要素情報を提示するからである。
これにより、本発明の第1の実施の形態に係る障害分析装置は、情報処理システムにおいてその構成が変化した後に過去に発生していない障害が発生した場合も対応できる。なぜなら、パターン変換部が、上述の変換を行うことにより、障害発生時の分析対象パターンに一部分が一致する比較対象パターンを、構成変化前に蓄積された比較対象パターンからも見つけ出せる可能性を大きくするからである。そして、そのような場合に、本発明の第1の実施の形態に係る障害分析装置は、一部分が一致する比較対象パターンに対して分析対象パターンが一致しないという差異を示すシステム構成要素情報を、障害の原因箇所として提示することができる。その結果、本発明の第1の実施の形態に係る障害分析装置は、構成の変化が頻繁な複雑化した情報処理システムを対象とする場合であっても、過去に発生していない障害の原因箇所の可能性があるシステム構成要素情報を出力可能となる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
まず、本発明の第2の実施の形態に係る障害分析装置2の機能構成を示す機能ブロック図を図5に示す。図5において、障害分析装置2は、本発明の第1の実施の形態に係る障害分析装置1に対して、ログ要素抽出部101、ログ統合部102、パターン抽出部103、パターン記憶部104、パターン変換部105、パターン比較部106、および、原因箇所提示部107に替えて、ログ要素抽出部201、ログ統合部202、パターン抽出部203、パターン記憶部204、パターン変換部205、パターン比較部206、および、原因箇所提示部207を備え、さらに、ログ形式記憶部208と、システム構成要素記憶部209と、パターン集計部210とを備える点が異なる。また、パターン比較部206は、順序比較部216および数値比較部226を有する。また、パターン集計部210は、本発明のパターン抽出部、パターン比較部、および、原因箇所提示部の一実施形態の一部を構成する。
ここで、障害分析装置2は、本発明の第1の実施の形態に係る障害分析装置1と同様に、図2を参照して説明したハードウェア構成を備えるコンピュータ装置によって構成可能である。この場合、ログ形式記憶部208およびシステム構成要素記憶部209は、記憶装置1004によって構成される。また、パターン集計部210は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001によって構成される。なお、障害分析装置2およびその機能ブロックのハードウェア構成は、上述の構成に限定されない。
また、障害分析装置2は、本発明の第1の実施の形態に係る障害分析装置1と同様に、情報処理システム90から出力される各種のログ情報を収集可能に構成される。ログ情報は、例えば、情報処理システム90のシステム構成要素としてのノードやソフトウェアコンポーネントなどによって、ログファイルとして出力されるものであってもよい。障害分析装置2によって収集されるログ情報の一例を図6に示す。図6において、例えば、「mysqld.log」は、「日付」、「時刻」、および、「メッセージ本文」の各ログ要素からなる1行以上のログレコードを有するログファイルである。また、「access.log」は「ネットワークアドレス」、「日付 時刻」、および、「メッセージ本文」の各ログ要素からなる1行以上のログレコードを有するログファイルである。
ログ形式記憶部208は、ログ情報に含まれる情報の形式を記憶する。以下、ログ情報に含まれる情報の形式をログフォーマットとも記載する。ログフォーマットは、例えば、ログ種別を表す情報と、ログ要素およびその正規表現の組からなるフォーマット情報とを含むものであってもよい。このようなログフォーマットの一例を図7に示す。図7では、例えば、1行目において、ログ種別「syslog」のフォーマット情報が、「日時」、「ノード名」、「プロセス名」、および、「メッセージ」といった各ログ要素にそれぞれ対応する正規表現の集合として表されている。また、ログフォーマットは、さらに、該当するログファイルの名称を表す情報を含んでいてもよい。
システム構成要素記憶部209は、ログ情報の関連情報に対応付けて、関連するシステム構成要素情報を記憶する。ログ情報の関連情報とは、例えば、そのログ情報の記憶装置1004におけるパス名であってもよい。あるいは、ログ情報の関連情報とは、そのログ情報に含まれるログレコードやログ要素を特定可能な正規表現などの情報であってもよい。
システム構成要素記憶部209に記憶される情報の一例を図8に示す。図8において、各行は、システム構成要素情報を示している。この例では、システム構成要素情報は、ログ情報の関連情報としてのパス名に対応付けられている。また、システム構成要素情報は、「識別情報」を含む。また、システム構成要素情報は、「構成要素名」、「分類1」、「分類2」および「場所」といった属性を表す情報を含む。例えば、この例では、「構成要素名」は、ノードやソフトウェアコンポーネントの名称である。また、「分類1」は、アプリケーション、ミドルウェア、または、ハードウェアなど、該当するシステム構成要素の分類を表す情報である。「分類2」は、「分類1」をさらに細分化した項目である。例えば、「分類1」がサーバの場合、「分類2」の一例としては、ウェブサーバ、アプリケーションサーバ、または、データベースサーバなどがある。また、「分類1」がアプリケーションの場合、「分類2」の一例としては、Apache、MySQLなどがある。「場所」は、該当するシステム構成要素が情報処理システム90において属する場所を表す情報である。例えば、「分類1」がサーバであるシステム構成要素の「場所」は、ネットワークアドレスであってもよい。また、「分類1」がアプリケーションであるシステム構成要素の「場所」は、そのアプリケーションがインストールされているノードの名称であってもよい。以下、識別情報が「N」のシステム構成要素情報を、システム構成要素「N」とも記載する。
ログ要素抽出部201は、ログ形式記憶部208に記憶されたログフォーマットを参照することにより、ログ情報からログ要素を抽出する。例えば、ログ要素抽出部201は、ログ情報から、そのログレコードの発生時刻、出力ノード、出力ノードの分類、出力プロセス、出力プロセスのプロセスID、イベントID、ネットワークアドレス、ログファイル名、メッセージなどのログ要素を抽出する。
具体的には、ログ要素抽出部201は、対象のログ情報の少なくとも一部を読み出す。そして、ログ要素抽出部201は、読み出した情報に合致するログフォーマットをログ形式記憶部208から検索することにより、ログ情報のログ種別を判別する。そして、ログ要素抽出部201は、判別したログ種別に応じてログ要素を抽出すればよい。
例えば、図6に示すログファイル「message」を読み出した場合、ログ要素抽出部201は、図7の1行目のログフォーマットに合致するとして、ログ種別「syslog」であると判別する。そして、ログ要素抽出部201は、判別したログ種別に基づいて、合致したログフォーマットのフォーマット情報を参照してログ要素を抽出すればよい。
このとき、ログ要素抽出部201は、合致したフォーマット情報を構成する全てのログ要素を抽出しなくてもよく、そのうちあらかじめ設定されたものを抽出してもよい。その場合、抽出対象として設定されるログ要素は、システム構成要素記憶部209に記憶された情報に基づいて、抽出されたログ要素またはその組み合わせからシステム構成要素を特定可能なものであることが望ましい。また、抽出対象のログ要素は、ログ種別ごとに設定されていてもよい。
例えば、ログ種別「syslog」について抽出対象のログ要素が、「日時」および「ノード名」であると定められている場合を想定する。この場合、ログ要素抽出部201は、図6に示すログ情報「message」の1行目を読み出すと、「syslog」のフォーマット情報に含まれる各ログ要素「日時」、「ノード名」、「プロセス名」、「メッセージ」のうち、「日時」に相当する「Feb 01 09:04:01」および「ノード名」に相当する「node1」を抽出する。
ログ統合部202は、ログ要素抽出部201によって抽出された各ログ要素に対して、その抽出元であるログ情報の関連情報に基づいて、システム構成要素記憶部209を参照することにより、関連するシステム構成要素情報を特定する。そして、ログ統合部202は、各ログ要素に対して、関連するシステム構成要素情報のうち、少なくとも識別情報を付加し、時系列にしたがって並べることにより統合する。具体的には、ログ統合部202は、抽出元のログ情報において各ログ要素に関連付けられた日時にしたがって、各ログ要素を統合してもよい。もし、ログ要素として日時を表す情報が抽出されていれば、ログ統合部202は、日時を表すログ要素に基づいて統合を行えばよい。また、ログ統合部202は、各ログ要素に対して、関連するシステム構成要素情報の識別情報に加えて、その属性情報を付加してもよい。
例えば、図6に示すログ情報「message」から、日時「Feb 01 09:04:01」およびノード名「node1」の各ログ要素が抽出されている場合を想定する。この場合、ログ統合部202は、図8に示すシステム構成要素記憶部209の情報を参照し、これらのログ要素の抽出元のログ情報のパス名「/var/log/message」と、抽出したログ要素の1つである「node1」との組み合わせに基づいて、関連する構成要素「A」を特定する。そこで、ログ統合部202は、これらのログ要素(日時「Feb 01 09:04:01」およびノード名「node1」)に対して、識別情報「A」およびその属性情報を付加すればよい。
ログ統合部202によって出力される統合ログ情報の一例を図9に示す。図9において、各行は、ログ要素および付加されたシステム構成要素情報を示し、時系列にしたがって並べられている。この例では、ログ要素抽出部201によって、そのログレコードが記録された日時を表すログ要素が抽出されている。また、この例では、これらの日時を表すログ要素には、システム構成要素を識別するための識別情報とともに、その属性情報が付加されている。具体的には、例えば、ログ統合部202は、図8のシステム構成要素記憶部209の情報を参照し、図9における1行目のログ要素「2013/02/01 09:04:01」に対して、抽出元のログ情報のパス名「/var/log/httpd/access_log」に関連するシステム構成要素「V」を特定する。そこで、ログ統合部202は、1行目のログ要素に対して、識別情報「V」を少なくとも付加する。また、ログ統合部202は、このログ要素に対して、さらに、システム構成要素「V」の属性情報「node1, Application, apache」を付加している。また、この場合、ログ統合部202は、付加した属性情報のうち、「node1」が、さらに属性情報を有するシステム構成要素であると図8より判断する。そこで、ログ統合部202は、1行目のログ要素に対して、さらに、システム構成要素「node1」の属性情報「Server, Web server」を付加してもよい。このようにして、ログ統合部202は、ログ要素に付加した属性情報の中に、さらに属性情報を有する他のシステム構成要素が含まれていれば、再帰的にその属性情報を付加してもよい。
パターン抽出部203は、ログ統合部202によって生成された統合ログ情報から、システム構成要素の識別情報のパターンを抽出する。具体的には、パターン抽出部203は、統合ログ情報に含まれる順序を維持したまま、識別情報を抜き出す。なお、パターン抽出部203は、互いに類似する属性情報とともに付加された異なる識別情報を集約して新たな識別情報に変換した上で、識別情報のパターンを抜き出してもよい。
図9に示した統合ログ情報の場合、パターン抽出部203は、識別情報のリスト「VVWWWX」を抜き出す。そして、パターン抽出部203は、識別情報のリストから抽出可能なパターンを列挙する。ここで、パターンを列挙するアルゴリズムとしては、aprioriやprefixspan、LCMなど公知のパターン列挙アルゴリズムを採用してもよい。
また、パターン抽出部203は、識別情報のリストから抽出可能なパターンのうち、所定条件を満たすパターンを選択してもよい。例えば、所定条件は、パターンの出現回数、パターンの総数に占めるそのパターンの出現回数の比率、パターンを構成する識別情報の数、これらの値の平均値、最大値、最小値、最頻値、または、分散などの統計値に基づく条件であってもよい。そのような所定条件は、あらかじめ設定されていてもよい。例えば、ある識別情報「A」が含まれるパターンのうち、さらに他の識別情報「B」も含むパターンの割合が0.5より大きい場合、パターン抽出部203は、識別情報「A」および「B」を含むパターンを選択してもよい。例えば、図9に示した統合ログ情報の場合、パターン抽出部203は、パターン「VVWW」や「WWX」を抽出してもよい。
パターン集計部210は、抽出されたパターンに含まれるシステム構成要素の識別情報の出現回数の相対比を算出する。例えば、パターン抽出部203が、識別情報のパターン「VVWWWX」を抽出したことを想定する。この場合、このパターンに含まれる識別情報「V」の出現回数は2、「W」の出現回数は3、「X」の出現回数は1である。そこで、パターン集計部210は、このパターンの出現回数の相対比を2:3:1と算出する。以下では、パターンに識別情報「X」、「Y」、「Z」が含まれ、それぞれの出現回数の相対比がx:y:zであるとき、このパターンを「X(x)Y(y)Z(z)」とも記載するものとする。前述の例の場合、パターン「VVWWWX」を、「V(2)W(3)X(1)」とも記載する。
また、パターン集計部210は、パターンを集計し、それぞれの出現率を算出してもよい。出現率とは、あるパターンの出現回数の、そのパターンを含むパターンの出現回数の総和に対する比率である。例えば、パターン「A(1)F(1)G(3)」に対して、「A(1)F(1)G(3)L(2)H(1)」は、同一のパターンを含むパターンである。このとき、パターン「A(1)F(1)G(3)」の出現回数が8回であり、このパターンを含むパターン(例えば、前述の「A(1)F(1)G(3)L(2)H(1)」など)の出現回数の総和が10回であるとする。この場合、パターン「A(1)F(1)G(3)」の出現率は0.8と算出される。なお、あるパターンと同一のパターンを含むパターンが他に存在しない場合、そのパターンを含むパターンの出現回数の総和は、そのパターン自体の出現回数に等しい。このため、そのようなパターンの出現率は1と算出される。
このように、パターン集計部210によって集計されたパターンの一例を図10に示す。図10において、各パターンには、説明のため、識別番号が付与されている。以降、識別番号がnのパターンを、パターンnとも記載する。この例では、パターン1は、識別情報「A」、「F」、「G」および「K」から構成され、その相対比は1:1:3:1であり、その出現率は0.8である。
パターン記憶部204は、比較対象パターンと、それらの比較対象パターンについてパターン集計部210によって集計された集計情報とを記憶する。
パターン変換部205は、分析対象パターンに、比較対象パターンに含まれないシステム構成要素の識別情報が含まれている場合に、そのシステム構成要素の識別情報を変換対象として動作する。具体的には、パターン変換部205は、システム構成要素記憶部209を参照することにより、変換対象の識別情報の示すシステム構成要素が有する属性情報に対して、所定の類似条件を満たす属性情報を有するシステム構成要素を検索する。そして、パターン変換部205は、そのような所定の類似条件を満たす属性情報を有するシステム構成要素であって、比較対象パターンに含まれるシステム構成要素の識別情報を、変換対象に類似するシステム構成要素の識別情報として特定する。所定の類似条件の一例としては、例えば、「場所」以外の属性値が同一であるという条件等が挙げられる。その他、所定の類似条件とは、属性情報およびその組み合わせに基づく他の条件であってもよい。
そして、パターン変換部205は、比較対象パターンおよび分析対象パターンのいずれかにおいて、変換対象のシステム構成要素の識別情報、および、変換対象に類似するシステム構成要素の識別情報間の変換を行う。なお、パターン変換部205は、本発明の第1の実施の形態におけるパターン変換部105と同様に、比較対象パターンにおいて変換を行ってもよいし、分析対象パターンにおいて変換を行ってもよい。すなわち、パターン変換部205は、比較対象パターンにおいて、類似するシステム構成要素の識別情報を、変換対象のシステム構成要素の識別情報に変換してもよい。あるいは、パターン変換部205は、分析対象パターンにおいて、変換対象のシステム構成要素の識別情報を、類似するシステム構成要素の識別情報に変換してもよい。
例えば、分析対象パターンが「AFGL」であり、識別情報「L」がいずれの比較対象パターンにも含まれていない場合について説明する。この場合、この識別情報「L」が、変換対象となる。ここで、図8に示した、システム構成要素記憶部209に記憶された情報を参照すると、変換対象のシステム構成要素「L」に対してシステム構成要素「K」は、「場所」以外の属性値が一致している。ここで、識別情報「K」は、比較対象パターンに含まれているものとする。したがって、パターン変換部205は、変換対象のシステム構成要素「L」に対して、類似するシステム構成要素「K」を特定する。そこで、パターン変換部205は、パターン記憶部204において、識別情報「K」が含まれるすべての比較対象パターンに対し、「K」を「L」に変換する。例えば、比較対象パターン「AFGK」を「AFGL」に変換する。あるいは、パターン変換部205は、分析対象パターンにおいて、変換対象の識別情報「L」を類似する「K」に変換してもよい。例えば、パターン変換部205は、分析対象パターン「AFGL」を「AFGK」に変換する。
なお、変換対象に対して複数の類似するシステム構成要素がある場合、パターン変換部205は、変換対象の識別情報および類似する複数の各識別情報間で変換を行ってもよい。具体的には、上述の例の場合で、変換対象のシステム構成要素「L」に対して類似するシステム構成要素「K」および「J」を特定したことを想定する。この場合、パターン変換部205は、パターン記憶部204において、識別情報「K」が含まれる各比較対象パターンの「K」を「L」に変換するとともに、識別情報「J」が含まれる各比較対象パターンの「J」を「L」に変換すればよい。例えば、比較対象パターン「AFGK」を「AFGL」に変換し、「AFGJ」を「AFGL」に変換する。あるいは、パターン変換部205は、分析対象パターンにおいて、変換対象の識別情報「L」を類似する識別情報「K」に変換したパターンと、類似する識別情報「J」に変換したパターンとを生成してもよい。つまり、パターン変換部205は、分析対象パターン「AFGL」を、「AFGK」および「AFGJ」に変換してもよい。
パターン比較部206は、順序比較部216を用いて、変換処理後の分析対象パターンおよび比較対象パターンについて、それぞれを構成するシステム構成要素の識別情報の順序を比較することにより、差異を検出する。また、パターン比較部206は、数値比較部226を用いて、変換処理後の分析対象パターンおよび比較対象パターンについて、それぞれを構成するシステム構成要素の識別情報の相対比を比較することにより、差異を検出する。
具体的には、順序比較部216は、分析対象パターンに対して、システム構成要素の識別情報の順序が完全に合致する比較対象パターンがあれば、該当する分析対象パターンおよび比較対象パターンを、後述の数値比較部226に出力する。
また、順序比較部216は、分析対象パターンに対して、システム構成要素情報の順序の一部が合致する比較対象パターンがあれば、該当する分析対象パターンおよび比較対象パターンにおいて順序が一致しない部分の識別情報を、原因箇所提示部207に出力する。
例えば、順序比較部216は、分析対象パターンおよび比較対象パターンにそれぞれ含まれるシステム構成要素の相対比を考慮せずに、その出現順序を比較してもよい。具体的には、順序比較部216は、分析対象パターン「A(1)F(2)G(1)K(3)」と、比較対象パターン「A(1)F(2)G(3)K(3)」とについて、相対比を考慮せずに、順序が完全に合致すると判断し、数値比較部226に出力してもよい。また、順序比較部216は、分析対象パターン「A(1)F(2)G(1)K(3)」と、比較対象パターン「A(1)F(3)X(2)K(3)G(3)」とについて、相対比を考慮せずに、順序の一部「AF」が合致すると判断してもよい。そして、順序比較部216は、分析対象パターンにおいて一致しない部分が「GK」であり、比較対象パターンにおいて一致しない部分が「XKG」であることを検出する。そこで、順序比較部216は、差異のある部分の識別情報として「G」、「K」、「X」を、原因箇所提示部207に出力する。
また、順序比較部216は、分析対象パターンに対して少なくとも部分的に一致する比較対象パターンをパターン記憶部204から検索できない場合、分析対象パターンを新規に発生したパターンとして原因箇所提示部207に出力してもよい。
また、数値比較部226は、分析対象パターンおよび比較対象パターン間で識別情報の順序が完全に一致するものについて、それらの相対比を比較する。そして、数値比較部226は、相対比が一致しない識別情報を、原因箇所提示部207に出力する。
例えば、数値比較部226は、分析対象パターン「A(1)F(2)G(1)K(3)」と、比較対象パターン「A(1)F(2)G(1)K(3)」とについて、相対比が一致すると判断する。また、数値比較部226は、分析対象パターン「A(1)F(2)G(1)K(3)」と、比較対象パターン「A(1)F(2)G(3)K(3)」について、相対比が一致しない識別情報「G」を検出して、原因箇所提示部207に出力する。
原因箇所提示部207は、順序比較部216または数値比較部226から入力される識別情報に基づいて、関連するシステム構成要素情報を、障害の原因箇所を表す情報として提示する。このとき、原因箇所提示部207は、該当するシステム構成要素情報を、そのシステム構成要素情報が検出された分析対象パターンの出現率または比較対象パターンの出現率の順に提示してもよい。また、原因箇所提示部207は、該当する識別情報が示すシステム構成要素の属性情報に基づいて、さらに関連する他のシステム構成要素情報を提示してもよい。
例えば、上述の例において、順序比較部216から、識別情報「G」「K」「X」が入力されたとする。この場合、原因箇所提示部207は、図8に示した、システム構成要素記憶部209の情報を参照することにより、識別情報「G」「K」「X」がそれぞれ示すシステム構成要素情報を取得する。そして、原因箇所提示部207は、識別情報「G」に基づく「Node1」の「Application_Z」、識別情報「K」に基づく「Node2」の「Application_X」、識別情報「X」に基づく「Node1」の「Application_Y」を、障害の可能性がある原因箇所として提示する。このようにして、原因箇所提示部207は、検出された差異に関連するシステム構成要素情報として、情報処理システム90を構成するノード、アプリケーション、プロセスなどのシステム構成要素およびその属性値を原因箇所として、出力装置1007や記憶装置1004などに出力する。
また、原因箇所提示部207は、順序比較部216および数値比較部226のいずれからも識別情報が入力されない場合、分析対象期間のログ情報から障害が検出されないことを提示してもよい。
以上のように構成された障害分析装置2の動作について、図11および図12を参照して説明する。
まず、障害分析装置2が、比較対象パターンを抽出してパターン記憶部204に記憶する動作を図11に示す。なお、障害分析装置2は、比較対象期間中に比較対象パターンの生成開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信すると、あらかじめ対象として定められたログ情報を対象として、パターン抽出動作を開始してもよい。あるいは、障害分析装置2は、比較対象期間に出力されたログ情報を他の機能ブロックから受信すると、パターン抽出動作を開始してもよい。あるいは、障害分析装置2は、比較対象期間中に、あらかじめ対象として定められたログ情報の更新を検出すると、パターン抽出動作を開始してもよい。また、障害分析装置2は、対象のログ情報のうち、比較対象期間として指定された範囲を対象として、パターン抽出動作を実行してもよい。
図11では、まず、ログ要素抽出部201は、情報処理システム90から出力される各種のログ情報を読み出す(ステップS31)。ログ要素抽出部201は、各ログ情報の一部(例えば1行または複数行ずつ)を読み出して以降の処理を繰り返してもよいし、ログ情報の全てをまとめて読み出してもよい。
次に、ログ要素抽出部201は、ステップS31で読み出したログ情報が合致する形式を、ログ形式記憶部208を検索することにより、ログ情報の種別を判別する(ステップS32)。例えば、ログ要素抽出部201は、図6に示したログファイル「message」から情報を読み出した場合、図7に示したログ形式記憶部208の情報の1行目の形式に合致するとして、読み出したログ情報のログ種別が「syslog」であると判別する。
次に、ログ要素抽出部201は、ステップS32で判別されたログ種別に基づいて、ログ要素を抽出する(ステップS33)。例えば、ログ要素抽出部201は、判別されたログ種別について抽出するようあらかじめ定められたログ要素を抽出すればよい。
次に、ログ統合部202は、ステップS33で抽出された各ログ要素に対して、該ログ要素に関連するシステム構成要素の識別情報を少なくとも付加する(ステップS34)。このとき、前述のように、ログ統合部202は、各ログ要素に対して、関連するシステム構成要素の属性情報をさらに付加してもよい。
次に、ログ統合部202は、ステップS34においてシステム構成要素の識別情報が少なくとも付加されたログ要素を統合し、統合ログ情報を生成する(ステップS35)。
次に、パターン抽出部203は、ステップS35で生成された統合ログ情報から、システム構成要素の識別情報のパターンを抽出する(ステップS36)。このとき、前述のように、パターン抽出部203は、互いに類似する属性情報とともに付加された異なる識別情報を集約して新たな識別情報に変換した上で、識別情報のパターンを抽出してもよい。
次に、パターン集計部210は、ステップS36で抽出されたパターンに含まれる識別情報の相対比およびパターンの出現率を算出する(ステップS37)。
次に、パターン記憶部204は、ステップS36で抽出されたパターンを比較対象パターンとして、ステップS37で算出された相対比および出現率を表す集計情報とともに記憶する(ステップS38)。
以上で、障害分析装置2は、比較対象パターンの抽出動作を終了する。
次に、障害分析装置2が、分析対象期間の障害を分析する動作を図12に示す。なお、障害分析装置2は、障害分析開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信すると、あらかじめ対象として定められたログ情報を対象として、障害分析動作を開始してもよい。あるいは、障害分析装置2は、分析対象期間に出力されたログ情報を他の機能ブロックから受信すると、障害分析動作を開始してもよい。あるいは、障害分析装置2は、障害を検知する他の機能ブロックによって障害が検知されると、あらかじめ対象として定められたログ情報を対象として、障害分析動作を開始してもよい。また、障害分析装置2は、対象のログ情報のうち、分析対象期間として指定された範囲を対象として、障害分析動作を実行してもよい。
まず、障害分析装置2は、分析対象パターンおよびその集計情報を取得する(ステップS41)。具体的には、ログ要素抽出部201、ログ統合部202、パターン抽出部203、および、パターン集計部210が、分析対象期間中に情報処理システム90から出力された各種のログ情報を対象として、図11に示したステップS31〜S37を実行すればよい。
次に、パターン変換部205は、分析対象パターンに、比較対象パターンに含まれないシステム構成要素の識別情報が含まれているか否かを判断する(ステップS42)。
ここで、分析対象パターンに、比較対象パターンに含まれない識別情報が含まれていない場合、障害分析装置2の動作は、ステップS45に進む。
一方、分析対象パターンに、比較対象パターンに含まれない識別情報が含まれている場合、パターン変換部205は、その識別情報を変換対象として、パターン記憶部204に記憶されたパターンに含まれ変換対象に類似するシステム構成要素の識別情報を特定する(ステップS43)。具体的には、パターン比較部206は、変換対象の識別情報の示すシステム構成要素が有する属性情報に対して、所定の類似条件を満たす属性情報を有するシステム構成要素の識別情報を、類似する識別情報として特定する。
次に、パターン変換部205は、分析対象パターンおよび比較対象パターンのいずれかにおいて、変換対象の識別情報および類似する識別情報間の変換を行う(ステップS44)。
次に、順序比較部216は、分析対象パターンに対して、識別情報の順序が完全に一致する比較対象パターンおよび順序の一部が一致する比較対象パターンを検出する(ステップS45)。
次に、順序比較部216は、ステップS45で検出された順序の一部が一致する比較対象パターンおよび分析対象パターン間で、順序が一致しない識別情報を検出する(ステップS46)。
次に、数値比較部226は、ステップS45で検出された順序が完全に一致する比較対象パターンおよび分析対象パターン間で、相対比が一致しない識別情報を検出する(ステップS47)。
次に、原因箇所提示部207は、ステップS46またはS47で検出された識別情報の示すシステム構成要素に関連する情報を、障害の原因箇所として提示する(ステップS48)。例えば、前述のように、原因箇所提示部207は、検出された識別情報の示すシステム構成要素の名称、場所などの各種の属性値や、その属性値が示す他のシステム構成要素の属性値を提示してもよい。
以上で、障害分析装置2は動作を終了する。
次に、本発明の第2の実施の形態の効果について説明する。
本発明の第2の実施の形態に係る障害分析装置2は、構成が変化する情報処理システムにおいても、過去に発生していない障害の原因箇所をさらに精度よく特定可能な情報を提示することができる。
その理由は、ログ要素抽出部が、ログ形式記憶部に記憶された形式に基づいて、関連するシステム構成要素を特定可能なログ要素を抽出するからである。そして、ログ統合部が、抽出したログ要素に対して、システム構成要素記憶部を参照して関連するシステム構成要素を特定することにより少なくともその識別情報を付加して統合した統合ログ情報を生成するからである。更に、パターン抽出部が、統合ログ情報に含まれるシステム構成要素の識別情報のパターンを抽出し、パターン集計部が、パターンに含まれる識別情報の相対比を算出するからである。
そして、パターン変換部が、分析対象パターンに、比較対象パターンに含まれないシステム構成要素の識別情報が含まれている場合に、システム構成要素記憶部を参照する。これにより、そのような識別情報を変換対象として、変換対象の識別情報の示すシステム構成要素に対して類似するシステム構成要素の識別情報を特定し、変換対象の識別情報および類似する識別情報間の変換を行うからである。
そして、順序比較部が、識別情報の順序の一部が一致する分析対象パターンおよび比較対象パターン間で、順序が一致しない識別情報を差異として検出するからである。また、数値比較部が、識別情報の順序が完全に一致する分析対象パターンおよび比較対象パターン間で、相対比が一致しない識別情報を差異として検出するからである。そして、原因箇所提示部が、差異として検出された識別情報の示すシステム構成要素に関連する情報を、障害の原因箇所として提示するからである。
このように、本実施の形態に係る障害分析装置は、分析対象パターンに含まれる変換対象の識別情報と、比較対象パターンに含まれ変換対象に類似する識別情報との間で変換を行う。これにより、本実施の形態に係る障害分析装置は、情報処理システムの構成が変化する度に、比較対象パターンを追加、変更する必要なく、分析対象パターンに対して、識別情報の一部または全ての順序が一致する比較対象パターンを検出できる可能性を高くする。これにより、本実施の形態に係る障害分析装置は、識別情報の一部または全ての順序が一致する分析対象パターンおよび比較対象パターン間の差異を精度よく検出可能となる。その結果、本実施の形態に係る障害分析装置は、検出された差異の示すシステム構成要素に関連する情報を、障害の原因箇所を特定可能な情報として提示することができる。
また、本実施の形態に係る障害分析装置は、識別情報の順序が完全に一致する分析対象パターンおよび比較対象パターン間で相対比が一致しない識別情報を検出する。これにより、本実施の形態に係る障害分析装置は、正常なメッセージが出力されているものの、その出力回数に異常が認められるような障害についても、その原因箇所を特定可能な情報を提示することができる。
(第3の実施の形態)
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第2の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
まず、本発明の第3の実施の形態に係る障害分析装置3の機能構成を示す機能ブロック図を図13に示す。図13において、障害分析装置3は、本発明の第2の実施の形態に係る障害分析装置2に対して、原因箇所提示部207に替えて原因箇所提示部307を備え、さらに、原因箇所集計部311を備える点が異なる。なお、原因箇所集計部311は、本発明に係る原因箇所提示部の一実施形態の一部を構成する。
ここで、障害分析装置3は、本発明の第1の実施の形態に係る障害分析装置1と同様に、図2を参照して説明したハードウェア構成を備えるコンピュータ装置によって構成可能である。この場合、原因箇所集計部311は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001によって構成される。なお、障害分析装置3およびその機能ブロックのハードウェア構成は、上述の構成に限定されない。
原因箇所集計部311は、システム構成要素記憶部209を参照することにより、順序比較部216および数値比較部226によって検出された識別情報の示すシステム構成要素情報が有する属性値を集計する。例えば、該当するシステム構成要素情報について、属性「場所」の値や属性「分類2」の値を集計してもよい。
原因箇所提示部307は、順序比較部216および数値比較部226から入力された識別情報の示すシステム構成要素情報を、原因箇所集計部311による集計結果に基づいて提示する。例えば、原因箇所提示部307は、該当するシステム構成要素情報を、所定の属性値の集計数が多いものから順に提示してもよい。
例えば、順序比較部216および数値比較部226から入力された識別情報が、「X」、「G」、「K」であった場合を想定する。ここで、図8のシステム構成要素記憶部209の情報を参照すると、システム構成要素「X」は、「Node1」の「Application_Y」であり、システム構成要素「G」は、「Node1」の「Application_Z」であり、システム構成要素「K」は、「Node2」の「Application_X」である。この場合、原因箇所集計部311は、属性「場所」について、Node1が2つ、Node2が1つであると集計する。そこで、原因箇所提示部307は、属性「場所」について集計数が多いNode1の「X」および「G」に関するシステム構成要素情報を提示し、次に集計数が多いNode2を有する「K」に関するシステム構成要素情報を次に提示すればよい。なお、この場合、システム構成要素「X」および「G」についての提示順序は並列となる。このような場合、原因箇所提示部307は、さらに他の属性情報の集計結果を考慮してこれらの提示順序を決定してもよい。ただし、この例では、システム構成要素「X」および「G」について他の属性「分類2」の属性値は「Application_Y」が1つと「Application_Z」が1つであるため、依然としてこれらの提示順序は並列である。したがって、原因箇所提示部307は、属性情報の集計結果が等しいシステム構成要素情報については、ランダムな順序や、並列な順序で提示すればよい。なお、提示順序とは、表示順序や印刷順序であってもよいし、出力文字の大きさや表示領域の大きさなどの順序であってもよい。その他、提示順序は、障害の原因箇所である可能性の大きさの順序を表現可能に定められた順序であればよい。
以上のように構成された障害分析装置3の動作について、図14を参照して説明する。なお、障害分析装置3の比較対象パターン抽出動作については、図11を参照して説明した本発明の第2の実施の形態の障害分析装置2の比較対象パターン抽出動作と同様であるため、本実施の形態における説明を省略する。
また、障害分析装置3の障害分析動作は、図12を参照して説明した本発明の第2の実施の形態の障害分析装置3の障害分析動作と略同様であるが、ステップS48における動作の詳細が異なる。ステップS48における障害分析装置3の原因箇所提示動作を、図14に示す。
まず、原因箇所集計部311は、システム構成要素記憶部209を参照することにより、順序比較部216および数値比較部226によって検出された差異の示すシステム構成要素情報が有する属性情報を集計する(ステップS51)。
次に、原因箇所提示部307は、集計結果に基づく提示順序で、差異の示すシステム構成要素情報を提示する(ステップS52)。
以上で、障害分析装置3は動作を終了する。
次に、本発明の第3の実施の形態の効果について述べる。
本発明の第3の実施の形態に係る障害分析装置3は、構成が変化する情報処理システムにおいても、過去に発生していない障害の原因箇所として、より可能性の高い情報から順に提示することができる。
その理由は、原因箇所集計部が、差異として検出されたシステム構成要素情報の属性情報を集計し、集計結果に基づく提示順序でシステム構成要素情報を提示するからである。
これにより、本実施の形態に係る障害分析装置は、原因箇所として提示された情報を分析する利用者の作業をより省力化・効率化することができる。
(第4の実施の形態)
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第2の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
まず、本発明の第4の実施の形態に係る障害分析装置4の機能構成を示す機能ブロック図を図15に示す。図15において、障害分析装置4は、本発明の第2の実施の形態に係る障害分析装置2と同一の機能ブロックに加えて、さらに、形式要素記憶部412と、形式学習部413とを備える点が異なる。
ここで、障害分析装置4は、本発明の第1の実施の形態に係る障害分析装置1と同様に、図2を参照して説明したハードウェア構成を備えるコンピュータ装置によって構成可能である。この場合、形式要素記憶部412は、記憶装置1004によって構成される。また、形式学習部413は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に書き込んで実行するCPU1001によって構成される。なお、障害分析装置4およびその機能ブロックのハードウェア構成は、上述の構成に限定されない。
形式要素記憶部412は、ログ情報を構成し得るログ要素の形式を表す形式要素情報を記憶する。ログ情報を構成し得るログ要素としては、例えば、「日付」、「時刻」、「ノード名」、「ネットワークアドレス」、「アプリケーション名称」、「プロセス名」、「ログレベル」、「メッセージ本文」などの各種の情報がある。形式要素情報の一例を図16に示す。図16において、1行目は、ログ情報を構成し得るログ要素「日付」の形式として、正規表現「\d{4}/\d{2}/\d{2}」や「\D{3}/\d{2}/\d{4}」などが合致しうることを示している。また、図16における3行目は、ログ情報を構成し得るログ要素「Node」の形式としては、文字列「Node1」、「Node2」、「Node3」などのいずれかが合致しうることを示している。
形式学習部413は、ログ形式記憶部208に形式が記憶されていないログ情報について、形式要素記憶部412を参照することにより、該ログ情報を構成するログ要素の形式を学習する。そして、形式学習部413は、学習したログ情報の形式を、ログ形式記憶部208に記憶させる。
具体的には、形式学習部413は、対象のログ情報を読み出し、形式要素記憶部412に記憶された形式要素情報に合致するものを検索する。そして、読み出したログ情報を、合致した形式要素情報に置換したものを、ログ形式記憶部208に記憶させればよい。このとき、形式学習部413は、正規表現で表された形式要素情報については、読み出したログ情報において、該当するログ要素を、合致した正規表現に置換すればよい。また、形式学習部413は、単語の候補で表された形式要素情報については、読み出したログ情報において、該当するログ要素を、任意の単語を表す正規表現「\w+?」などに置換してもよい。例えば、読み出したログ情報の情報が「2013/02/01 16:00:01 DEBUG connection failure」であったとする。この場合、形式学習部413は、図16の形式要素情報を参照して合致するログ要素形式を検索し、読み出したログ情報が、「日付」、「時刻」、「ログレベル」、「メッセージ」の各ログ要素形式に合致すると判断する。なお、この例のように、形式学習部413は、いずれの形式要素情報にも合致しない要素は、ログ要素「メッセージ」であると判断してもよい。そして、この場合、形式学習部413は、図17に示すように新たなログ形式情報を、ログ形式記憶部208に記憶させればよい。
以上のように構成された障害分析装置4の動作について、図18を参照して説明する。
まず、障害分析装置4の形式学習動作を図18に示す。なお、障害分析装置4は、ログ情報の形式の学習開始を指示する情報を入力装置1006または図示しない他の機能ブロックから受信することにより、形式学習動作を開始してもよい。この場合、障害分析装置4は、例えば、あらかじめ定められた格納位置に保存されているログ情報のうち、ログ形式記憶部208に記憶されていないものを対象としてもよい。あるいは、障害分析装置4は、形式学習対象のログ情報を他の機能ブロックから受信すると、形式学習動作を開始してもよい。あるいは、障害分析装置4は、ログ要素抽出部201によってログ要素の抽出処理を実行する際に、ログ形式記憶部208に記憶されていないログ情報が検出されることを契機に、形式学習動作を開始してもよい。
図18において、まず、形式学習部413は、対象のログ情報から少なくとも一部の情報を読み出す(ステップS61)。
次に、形式学習部413は、ステップS61で読み出した情報に合致する形式要素情報を、形式要素記憶部412から検索する(ステップS62)。
次に、形式学習部413は、ステップS61で読み出した情報を、ステップS62で合致した形式要素情報に基づいて置換する(ステップS63)。
次に、形式学習部413は、ステップS63で生成された情報をフォーマット情報として、ログ形式記憶部208に追加する(ステップS64)。
以上で、障害分析装置4は、形式学習動作を終了する。
なお、障害分析装置4のパターン抽出動作および障害分析動作については、図11および図12を用いて説明した本発明の第2の実施の形態に係る障害分析装置2と同様であるため、本実施の形態における説明を省略する。
次に、本発明の第4の実施の形態の効果について述べる。
本発明の第4の実施の形態に係る障害分析装置4は、構成が変化する情報処理システムにおいて、構成変化により未知の形式のログ情報が出力されるようになっても、過去に発生していない障害の原因箇所を特定可能な情報を提示することができる。
その理由は、形式要素記憶部が、ログ情報を構成し得るログ要素の形式を記憶し、形式学習部が、未知の形式のログ情報に対して、合致する形式要素情報を検索することによりフォーマット情報を生成し、ログ形式記憶部に記憶させるからである。
これにより、本実施の形態に係る障害分析装置は、構成の変化により、比較対象や分析対象のログ情報の形式が頻繁に変化しても、そのようなログ情報からログ要素を抽出可能となり、本発明の第2の実施の形態と同様の効果を奏することができる。
なお、上述した本発明の各実施の形態において、情報処理システムを構成するシステム構成要素として、ノードやソフトウェアコンポーネントを適用する例を中心に説明した。この他、本発明におけるシステム構成要素は、障害を分析する対象となる情報処理システムを構成する要素であれば、その他の要素であってもよい。
また、上述した本発明の第2から第4の実施の形態において、パターン抽出部は、システム構成要素の識別情報のパターンを抽出する例を中心に説明した。この他、パターン抽出部は、システム構成要素の識別情報に限らず、ログ要素や、付加した属性情報も含めてパターンを抽出してもよい。
また、上述した本発明の第2から第4の実施の形態において、パターン比較部は、システム構成要素の順序を考慮した比較をまず行い、順序が完全に一致した分析対象パターンおよび比較対象パターンについて、その相対比を比較するものとして説明した。この他、各実施の形態において、パターン比較部は、分析対象パターンおよび比較対象パターンについて、順序および出現回数を考慮しないシステム構成要素情報の集合として比較を行ってもよい。この場合、パターン比較部は、集合の要素の一部が一致する分析対象パターンおよび比較対象パターンについて、一致しない部分の要素であるシステム構成要素情報を原因箇所提示部に出力してもよい。また、この場合、パターン比較部は、集合の要素が全て一致する分析対象パターンおよび比較対象パターンについて、その相対比が一致しない要素であるシステム構成要素情報を原因箇所提示部に出力してもよい。
また、上述した本発明の第2から第4の実施の形態において、パターン比較部は、順序が完全に一致した分析対象パターンおよび比較対象パターンについて、その出現回数の相対比を比較するものとして説明した。この他、パターン比較部は、出現回数の相対比に限らず、出現回数から算出可能なその他の情報に基づいて差異を検出してもよい。
また、上述した本発明の各実施の形態において、パターン比較部によって検出された差異の示すシステム構成要素情報が、パターン変換部によって変換されたシステム構成要素情報である場合、原因箇所提示部は、変換前のシステム構成要素情報を提示するようにしてもよい。
また、上述した本発明の各実施の形態において、障害分析装置の各機能ブロックが、記憶装置またはROMに記憶されたコンピュータ・プログラムを実行するCPUによって実現される例を中心に説明した。この他、障害分析装置の各機能ブロックの一部、全部、または、それらの組み合わせは、専用のハードウェアにより実現されていてもよい。
また、上述した本発明の各実施の形態において、障害分析装置の機能ブロックは、複数の装置に分散されて実現されてもよい。
また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した障害分析装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納し、係るコンピュータ・プログラムを当該CPUが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。
また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。
また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。
また、上述した各実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素(ログ要素)を抽出するログ要素抽出部と、前記各ログ要素に対して、前記情報処理システムの構成要素(システム構成要素)であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加することにより、前記システム構成要素情報が付加された各ログ要素を統合して統合ログ情報を生成するログ統合部と、前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出するパターン抽出部と、比較対象期間中の前記パターン(比較対象パターン)を記憶するパターン記憶部と、分析対象期間中の前記パターン(分析対象パターン)に、前記比較対象パターンに含まれない前記システム構成要素情報(変換対象のシステム構成要素情報)が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報、および、前記比較対象パターンに含まれ該変換対象に類似するシステム構成要素情報間の変換を行うパターン変換部と、前記パターン変換部による変換処理後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出するパターン比較部と、前記パターン比較部によって検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する原因箇所提示部と、を備える障害分析装置。
(付記2)前記パターン比較部は、前記分析対象パターンおよび前記比較対象パターンにそれぞれ含まれる前記システム構成要素情報の順序を比較することにより差異を検出することを特徴とする付記1に記載の障害分析装置。
(付記3)前記パターン比較部は、前記分析対象パターンおよび前記比較対象パターンにそれぞれ含まれる前記システム構成要素情報の出現回数に関する情報を比較することにより差異を検出することを特徴とする付記1または付記2に記載の障害分析装置。
(付記4)前記各ログ情報の関連情報に対応付けて、関連する前記システム構成要素情報を記憶するシステム構成要素記憶部をさらに備え、前記ログ統合部は、前記各ログ要素に対して、該ログ要素の抽出元である前記ログ情報の関連情報に基づいて、関連する前記システム構成要素情報を特定して付加することを特徴とする付記1から付記3のいずれか1つに記載の障害分析装置。
(付記5)前記システム構成要素記憶部は、前記システム構成要素の識別情報を、前記システム構成要素情報に含んで記憶し、前記ログ統合部は、前記各ログ要素に対して、関連するシステム構成要素の少なくとも識別情報を付加して前記統合ログ情報を生成し、前記パターン抽出部は、前記システム構成要素の識別情報のパターンを抽出することを特徴とする付記4に記載の障害分析装置。
(付記6)前記システム構成要素記憶部は、前記システム構成要素の属性を表す属性情報を、前記システム構成要素情報に含んで記憶し、前記パターン変換部は、前記システム構成要素記憶部を参照することにより、前記変換対象のシステム構成要素が有する属性情報に対して所定の類似条件を満たす属性情報を有するシステム構成要素を、前記類似するシステム構成要素情報として特定することを特徴とする付記4または付記5に記載の障害分析装置。
(付記7)前記ログ情報について、該ログ情報を構成するログ要素の形式を記憶するログ形式記憶部をさらに備え、前記ログ要素抽出部は、前記ログ形式記憶部を参照することにより、前記ログ情報から前記ログ要素を抽出することを特徴とする付記1から付記6のいずれか1つに記載の障害分析装置。
(付記8)前記ログ情報を構成し得るログ要素の形式を表す形式要素情報を記憶する形式要素記憶部と、前記ログ形式記憶部に形式が記憶されていないログ情報について、前記形式要素記憶部を参照することにより該ログ情報を構成するログ要素の形式を学習して前記ログ形式記憶部に記憶する形式学習部をさらに備えることを特徴とする付記7に記載の障害分析装置。
(付記9)前記原因箇所提示部は、前記パターン比較部によって検出された差異の示す前記システム構成要素情報について、該差異が検出された分析対象パターンまたは比較対象パターンの出現率に基づいて、該システム構成要素情報を障害の原因箇所として提示することを特徴とする付記1から付記8のいずれか1つに記載の障害分析装置。
(付記10)前記原因箇所提示部は、前記パターン比較部によって検出された差異の示す前記システム構成要素情報が有する属性情報の集計結果に基づいて、該システム構成要素情報を障害の原因箇所として提示することを特徴とする付記1から付記9のいずれか1つに記載の障害分析装置。
(付記11)前記パターン変換部は、前記比較対象パターンにおいて、前記類似するシステム構成要素情報を、前記変換対象のシステム構成要素情報に変換することを特徴とする付記1から付記10のいずれか1つに記載の障害分析装置。
(付記12)前記パターン変換部は、前記分析対象パターンにおいて、前記変換対象のシステム構成要素情報を、前記類似するシステム構成要素情報に変換することを特徴とする付記1から付記10のいずれか1つに記載の障害分析装置。
(付記13)情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素(ログ要素)を抽出し、前記各ログ要素に対して、前記情報処理システムの構成要素(システム構成要素)であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加することにより、前記システム構成要素情報が付加された各ログ要素を統合して統合ログ情報を生成し、前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出し、分析対象期間中の前記パターン(分析対象パターン)に、比較対象期間中の前記パターン(比較対象パターン)に含まれない前記システム構成要素情報(変換対象のシステム構成要素情報)が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報、および、前記比較対象パターンに含まれ該変換対象に類似するシステム構成要素情報間の変換を行い、変換処理後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出し、
検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する、障害分析方法。
(付記14)情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素(ログ要素)を抽出するログ要素抽出ステップと、前記各ログ要素に対して、前記情報処理システムの構成要素(システム構成要素)であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加することにより、前記システム構成要素情報が付加された各ログ要素を統合して統合ログ情報を生成するログ統合ステップと、前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出するパターン抽出ステップと、比較対象期間中の前記ログ情報に対して、前記ログ要素抽出ステップ、前記ログ統合ステップ、および、前記パターン抽出ステップが実行されることにより抽出された前記パターン(比較対象パターン)をパターン記憶部に記憶するパターン記憶ステップと、分析対象期間中の前記ログ情報に対して、前記ログ要素抽出ステップ、前記ログ統合ステップ、および、前記パターン抽出ステップが実行されることにより抽出されたパターン(分析対象パターン)に、前記比較対象パターンに含まれない前記システム構成要素情報(変換対象のシステム構成要素情報)が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報、および、前記比較対象パターンに含まれ該変換対象に類似するシステム構成要素情報間の変換を行うパターン変換ステップと、前記パターン変換ステップ後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出するパターン比較ステップと、前記パターン比較ステップにおいて検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する原因箇所提示ステップと、をコンピュータ装置に実行させるコンピュータ・プログラム。
この出願は、2013年6月3日に出願された日本出願特願2013−116952を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1、2、3、4 障害分析装置
90 情報処理システム
101、201 ログ要素抽出部
102、202 ログ統合部
103、203 パターン抽出部
104、204 パターン記憶部
105、205 パターン変換部
106、206 パターン比較部
107、207、307 原因箇所提示部
208 ログ形式記憶部
209 システム構成要素記憶部
210 パターン集計部
216 順序比較部
226 数値比較部
311 原因箇所集計部
412 形式要素記憶部
413 形式学習部
1001 CPU
1002 RAM
1003 ROM
1004 記憶装置
1005 ネットワークインタフェース
1006 入力装置
1007 出力装置

Claims (10)

  1. 情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素であるログ要素を抽出するログ要素抽出手段と、
    前記各ログ要素に対して、前記情報処理システムの構成要素であるシステム構成要素であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加し、前記システム構成要素情報が付加された各ログ要素を統合した統合ログ情報を生成するログ統合手段と、
    前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出するパターン抽出手段と、
    分析対象となる期間である分析対象期間中の前記パターンである分析対象パターンに、パターン記憶手段に記憶されたパターンであって、比較対象となる期間である比較対象期間中の前記パターンである比較対象パターンに含まれない前記システム構成要素情報である変換対象のシステム構成要素情報が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報と、前記比較対象パターンに含まれ該変換対象のシステム構成要素情報に類似するシステム構成要素情報との間で変換を行うパターン変換手段と、
    前記パターン変換手段による変換処理後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出するパターン比較手段と、
    前記パターン比較手段によって検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する原因箇所提示手段と、
    を備えることを特徴とする障害分析装置。
  2. 前記パターン比較手段は、前記分析対象パターンおよび前記比較対象パターンにそれぞれ含まれる前記システム構成要素情報の順序を比較することにより差異を検出することを特徴とする請求項1に記載の障害分析装置。
  3. 前記パターン比較手段は、前記分析対象パターンおよび前記比較対象パターンにそれぞれ含まれる前記システム構成要素情報の出現回数に関する情報を比較することにより差異を検出することを特徴とする請求項1または請求項2に記載の障害分析装置。
  4. 各前記ログ情報の関連情報に対応付けて、関連する前記システム構成要素情報を記憶するシステム構成要素記憶手段をさらに備え、
    前記ログ統合手段は、前記各ログ要素に対して、該ログ要素の抽出元である前記ログ情報の関連情報に基づいて、関連する前記システム構成要素情報を特定して付加することを特徴とする請求項1から請求項3のいずれか1項に記載の障害分析装置。
  5. 前記システム構成要素記憶手段は、前記システム構成要素を識別するための識別情報を、前記システム構成要素情報に含んで記憶し、
    前記ログ統合手段は、前記各ログ要素に対して、少なくとも、関連する前記システム構成要素の前記識別情報を付加して前記統合ログ情報を生成し、
    前記パターン抽出手段は、前記システム構成要素の前記識別情報のパターンを抽出することを特徴とする請求項4に記載の障害分析装置。
  6. 前記システム構成要素記憶手段は、前記システム構成要素の属性を表す属性情報を、前記システム構成要素情報に含んで記憶し、
    前記パターン変換手段は、前記システム構成要素記憶手段を参照することにより、前記変換対象のシステム構成要素情報が有する属性情報に対して所定の類似条件を満たす属性情報を有するシステム構成要素情報を、前記類似するシステム構成要素情報として特定することを特徴とする請求項4または請求項5に記載の障害分析装置。
  7. 前記ログ情報について、該ログ情報を構成するログ要素の形式を記憶するログ形式記憶手段をさらに備え、
    前記ログ要素抽出手段は、前記ログ形式記憶手段を参照することにより、前記ログ情報から前記ログ要素を抽出することを特徴とする請求項1から請求項6のいずれか1項に記載の障害分析装置。
  8. 前記ログ情報を構成し得るログ要素の形式を表す形式要素情報を記憶する形式要素記憶手段と、
    前記ログ形式記憶手段に形式が記憶されていないログ情報について、前記形式要素記憶手段を参照することにより該ログ情報を構成するログ要素の形式を学習して前記ログ形式記憶手段に記憶する形式学習手段と、をさらに備えることを特徴とする請求項7に記載の障害分析装置。
  9. 障害分析装置の障害分析方法であって、
    情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素であるログ要素を抽出し、
    前記各ログ要素に対して、前記情報処理システムの構成要素であるシステム構成要素であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加し、前記システム構成要素情報が付加された各ログ要素を統合した統合ログ情報を生成し、
    前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出し、
    分析対象となる期間である分析対象期間中の前記パターンである分析対象パターンに、比較対象となる期間である比較対象期間中の前記パターンである比較対象パターンに含まれない前記システム構成要素情報である変換対象のシステム構成要素情報が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報と、前記比較対象パターンに含まれ該変換対象のシステム構成要素情報に類似するシステム構成要素情報との間で変換を行い、
    変換処理後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出し、
    検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する、障害分析方法。
  10. 情報処理システムによって出力される1つ以上のログ情報から、前記ログ情報を構成する要素であるログ要素を抽出するログ要素抽出ステップと、
    前記各ログ要素に対して、前記情報処理システムの構成要素であるシステム構成要素であって該ログ要素に関連するシステム構成要素を表すシステム構成要素情報を付加し、前記システム構成要素情報が付加された各ログ要素を統合した統合ログ情報を生成するログ統合ステップと、
    前記統合ログ情報から、前記システム構成要素情報を含む情報のパターンを抽出するパターン抽出ステップと、
    比較対象となる期間である比較対象期間中の前記ログ情報に対して、前記ログ要素抽出ステップ、前記ログ統合ステップ、および、前記パターン抽出ステップが実行されることにより抽出された前記パターンである比較対象パターンを記憶させるパターン記憶ステップと、
    分析対象となる期間である分析対象期間中の前記ログ情報に対して、前記ログ要素抽出ステップ、前記ログ統合ステップ、および、前記パターン抽出ステップが実行されることにより抽出されたパターンである分析対象パターンに、前記比較対象パターンに含まれない前記システム構成要素情報である変換対象のシステム構成要素情報が含まれている場合、前記比較対象パターンおよび前記分析対象パターンのいずれかにおいて、前記変換対象のシステム構成要素情報と、前記比較対象パターンに含まれ該変換対象のシステム構成要素情報に類似するシステム構成要素情報との間で変換を行うパターン変換ステップと、
    前記パターン変換ステップ後に、前記分析対象パターンおよび前記比較対象パターンを比較して差異を検出するパターン比較ステップと、
    前記パターン比較ステップにおいて検出された差異の示す前記システム構成要素情報を障害の原因箇所として提示する原因箇所提示ステップと、
    をコンピュータ装置に実行させるコンピュータ・プログラム。
JP2015521273A 2013-06-03 2014-05-15 障害分析装置、障害分析方法、および、コンピュータ・プログラム Active JP6233411B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013116952 2013-06-03
JP2013116952 2013-06-03
PCT/JP2014/002569 WO2014196129A1 (ja) 2013-06-03 2014-05-15 障害分析装置、障害分析方法、および、記録媒体

Publications (2)

Publication Number Publication Date
JPWO2014196129A1 JPWO2014196129A1 (ja) 2017-02-23
JP6233411B2 true JP6233411B2 (ja) 2017-11-22

Family

ID=52007790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015521273A Active JP6233411B2 (ja) 2013-06-03 2014-05-15 障害分析装置、障害分析方法、および、コンピュータ・プログラム

Country Status (3)

Country Link
US (1) US9612898B2 (ja)
JP (1) JP6233411B2 (ja)
WO (1) WO2014196129A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6152788B2 (ja) * 2013-12-02 2017-06-28 富士通株式会社 障害予兆検知方法、情報処理装置およびプログラム
JP6295857B2 (ja) * 2014-06-27 2018-03-20 富士通株式会社 抽出方法、装置、及びプログラム
KR101594701B1 (ko) * 2014-10-20 2016-02-16 삼성에스디에스 주식회사 이상 접속 검출 장치 및 방법
US10069699B2 (en) * 2015-02-26 2018-09-04 Nippon Telegraph And Telephone Corporation Monitoring device information analyzing device and method, and non-transitory storage medium storing program
US10140287B2 (en) * 2015-09-09 2018-11-27 International Business Machines Corporation Scalable and accurate mining of control flow from execution logs across distributed systems
US9928155B2 (en) * 2015-11-18 2018-03-27 Nec Corporation Automated anomaly detection service on heterogeneous log streams
US20180365124A1 (en) * 2015-12-14 2018-12-20 Nec Corporation Log analysis system, log analysis method, and log analysis program
US10146609B1 (en) * 2016-07-08 2018-12-04 Splunk Inc. Configuration of continuous anomaly detection service
JP6720788B2 (ja) * 2016-09-07 2020-07-08 富士通株式会社 ログ管理装置及びログ管理プログラム
JP6643211B2 (ja) * 2016-09-14 2020-02-12 株式会社日立製作所 異常検知システム及び異常検知方法
JP6626016B2 (ja) * 2017-01-11 2019-12-25 日本電信電話株式会社 照合装置、照合方法及び照合プログラム
EP3407273A1 (de) * 2017-05-22 2018-11-28 Siemens Aktiengesellschaft Verfahren und anordnung zur ermittlung eines anomalen zustands eines systems
US11294754B2 (en) * 2017-11-28 2022-04-05 Nec Corporation System and method for contextual event sequence analysis
JP7184078B2 (ja) * 2018-04-19 2022-12-06 日本電気株式会社 ログ分析システム、ログ分析方法及びプログラム
CN109885505A (zh) * 2019-03-21 2019-06-14 浪潮商用机器有限公司 一种故障定位的方法、系统及相关组件
US11514360B2 (en) * 2019-07-12 2022-11-29 EMC IP Holding Company LLC Method and system for verifying state monitor reliability in hyper-converged infrastructure appliances
CN111324510B (zh) * 2020-02-21 2024-04-02 腾讯科技(深圳)有限公司 日志处理方法、装置及电子设备
US11221907B1 (en) * 2021-01-26 2022-01-11 Morgan Stanley Services Group Inc. Centralized software issue triage system
CN115495424A (zh) * 2021-06-18 2022-12-20 伊姆西Ip控股有限责任公司 数据处理的方法、电子设备和计算机程序产品

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1650274A (zh) * 2002-12-26 2005-08-03 富士通株式会社 操作管理方法和操作管理服务器
JP2006059266A (ja) 2004-08-23 2006-03-02 Fujitsu Ltd 障害解析方法及びその装置
JP2006146668A (ja) * 2004-11-22 2006-06-08 Ntt Data Corp 運用管理支援装置及び運用管理支援プログラム
JP4944391B2 (ja) 2005-05-11 2012-05-30 富士通株式会社 メッセージ異常自動判別装置、方法、及びプログラム
JP2011192097A (ja) * 2010-03-16 2011-09-29 Hitachi Ltd 異常検知方法およびそれを用いた情報処理システム
US8489525B2 (en) 2010-05-20 2013-07-16 International Business Machines Corporation Automatic model evolution
US8495429B2 (en) * 2010-05-25 2013-07-23 Microsoft Corporation Log message anomaly detection
JP5541130B2 (ja) * 2010-12-10 2014-07-09 富士通株式会社 管理装置、管理方法および管理用プログラム
JP5609637B2 (ja) 2010-12-28 2014-10-22 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
JP6295857B2 (ja) * 2014-06-27 2018-03-20 富士通株式会社 抽出方法、装置、及びプログラム

Also Published As

Publication number Publication date
WO2014196129A1 (ja) 2014-12-11
JPWO2014196129A1 (ja) 2017-02-23
US9612898B2 (en) 2017-04-04
US20160124792A1 (en) 2016-05-05

Similar Documents

Publication Publication Date Title
JP6233411B2 (ja) 障害分析装置、障害分析方法、および、コンピュータ・プログラム
US11734315B2 (en) Method and system for implementing efficient classification and exploration of data
CN110321371B (zh) 日志数据异常检测方法、装置、终端及介质
CN107111625B (zh) 实现数据的高效分类和探索的方法和系统
US10423647B2 (en) Descriptive datacenter state comparison
US9652318B2 (en) System and method for automatically managing fault events of data center
US9753801B2 (en) Detection method and information processing device
US20180075235A1 (en) Abnormality Detection System and Abnormality Detection Method
Xu et al. Mining Console Logs for Large-Scale System Problem Detection.
JP4941040B2 (ja) テスト仕様書生成プログラム、およびテスト仕様書生成装置
US9792388B2 (en) Pattern extraction apparatus and control method therefor
Gainaru et al. Event log mining tool for large scale HPC systems
JP6919569B2 (ja) ログ分析システム、方法、及び記録媒体
CN102597966B (zh) 运行管理装置以及运行管理方法
US10248517B2 (en) Computer-implemented method, information processing device, and recording medium
JP5521807B2 (ja) 障害原因推定装置、障害原因推定プログラム及び障害原因推定方法
JP2008027072A (ja) データベース分析プログラム、データベース分析装置、データベース分析方法
US20140006010A1 (en) Parsing rules for data
US10346450B2 (en) Automatic datacenter state summarization
US8543552B2 (en) Detecting statistical variation from unclassified process log
US20180276566A1 (en) Automated meta parameter search for invariant based anomaly detectors in log analytics
JP7160097B2 (ja) ログ分析装置、ログ分析方法、プログラム
WO2020070929A1 (ja) プラント機器情報管理システム
JP6547341B2 (ja) 情報処理装置、方法及びプログラム
US20220253529A1 (en) Information processing apparatus, information processing method, and computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171009

R150 Certificate of patent or registration of utility model

Ref document number: 6233411

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150