JP2012168702A - ログ解析装置およびログ解析方法 - Google Patents

ログ解析装置およびログ解析方法 Download PDF

Info

Publication number
JP2012168702A
JP2012168702A JP2011028678A JP2011028678A JP2012168702A JP 2012168702 A JP2012168702 A JP 2012168702A JP 2011028678 A JP2011028678 A JP 2011028678A JP 2011028678 A JP2011028678 A JP 2011028678A JP 2012168702 A JP2012168702 A JP 2012168702A
Authority
JP
Japan
Prior art keywords
log
event
log analysis
output
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011028678A
Other languages
English (en)
Inventor
Akihiro Yamanaka
章裕 山中
Toshimori Honjo
利守 本庄
Miyoshi Hanaki
三良 花木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011028678A priority Critical patent/JP2012168702A/ja
Publication of JP2012168702A publication Critical patent/JP2012168702A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】システム全体としてシステム内部の処理フローの挙動を容易に把握可能とする。
【解決手段】複数のサーバそれぞれから実行結果を示すログを取得し、取得したログを、当該ログに応じたプロセスと対応付けて、データベース101にあらかじめ格納された複数のプロセスを実行する順に記述したイベントパターン内に書き込み、要求に応じてイベントパターンをデータベース101から読み出して出力する。
【選択図】図1

Description

本発明は、ログを解析するためのログ解析装置およびログ解析方法に関する。
近年、検索システムに代表されるような、多数のサーバを互いに連携させることにより、大規模なデータ処理や大規模な演算処理を実現する大規模分散処理システムに関する研究が進められている。
このようなシステムでは、多数のサーバに処理を分散させることにより、巨大データの扱いや演算時間の短縮を実現させている。
その一方、運用保守の観点からは、多数のサーバを連動させて処理を行うため、システム内部の挙動の理解が困難になること、問題発生時の原因特定に時間がかかること、性能評価及びボトルネックの特定が困難であることなどが問題とされている。
これらの問題を解決するために、各サーバのメトリクス(CPU使用率やディスクI/O等)を監視する方法や、各サーバにおけるログを監視する方法などが使われている。
各サーバのメトリクスを監視する方法としては、インターネット上のサーバを監視するシステムが流用されている。例えば、NagiosやZabbix等に代表される、サーバのメトリクスの情報を取得し、グラフなどを用いてユーザに可視化するシステムが広く使われている。
Nagiosは、リアルタイムでサーバのメトリクスを表示し、問題発生時には電子メールやSMS(Short Message Service)等を用いてユーザへ通知する仕組みを持っており、サーバの監視に広く用いられている。
また、Zabbixは、収集したデータをデータベースに保存することに特徴があり、多数のサーバを監視対象とすることができる。
また、各マシンにおけるログを監視する方法としては、SplunkやChukwa等に代表されるシステムが提案されている。
Splunkは、上述したメトリクスに加えてsyslog等のテキスト形式のログや、各種アプリケーションが出力するログを収集し、インデックスを体系的に作成してデータの解析を行い、ユーザへ通知する仕組みを持つシステムである。
また、Chukwaは、大規模環境において、メトリクスや非構造的なテキストベースのログを収集するシステムである(例えば、非特許文献1参照。)。その仕組みは、まず監視対象のホストにAgentと呼ばれるメトリクスやログを収集する仮想マシンを配置する。次に、Agentからのデータを受け取るCollectorと呼ばれる仮想マシンを、データを収集するマシンに配置する。データを収集したマシンでは、MapReduceと呼ばれる分散システムを活用するデータ処理を行い、必要とするデータをデータベースに蓄積し、最終的にWebブラウザ上でメトリクス等の情報を表示する。これには、監視対象のホストの数をスケールアウトさせることができるところに特色があり、収集する対象を独自に規定することで、大規模環境において様々なデータを収集・蓄積することができる。
さらに、Chukwaにおいて収集したデータを解析するシステムとして、SALSAと呼ばれるシステムがある。SALSAでは、各ホスト内での処理シーケンスやアプリケーションレベルでの処理シーケンスを可視化することが可能である。非特許文献2に記載された技術においては、Hadoopの各DataNode内における処理フローおよびTaskTrackerによるMapReduce処理の処理フローを可視化する。それにより、システムの挙動に対する理解を深め、さらに障害の検知に対する有用性を示している。
Ariel Rabkin, Randy Katz. "Chukwa: A system for reliable large-scale log collection", 24th Large Installation System Administration Conference(LISA'10), San Jose, CA, USA, Nov 7-12, 2010. Jiaqi Tan, Xinghao Pan, Solia Kavulya, Rajeev Gandhi and Priya Narasimhan. "SALSA: Analyzing Logs as StAte Machines", First USENIX Workshop on the Analysis of System Logs(WASL '08), San Diego, CA, USA, Dec 7, 2008.
しかしながら、上述した技術においては、大規模分散処理システム全体として、システム内部でのエラーに至る過程やその影響範囲を特定したり、システム内部における性能劣化の要因を示すログの検出を行うことが困難であるという問題点がある。
本発明の目的は、大規模分散処理システムにおいて、あらかじめ記憶した当該システム内部の各処理フローの情報を用いて、各マシンから収集したログを解析することにより、当該システム全体としてシステム内部の処理フローの挙動を把握可能とすることである。
本発明のログ解析装置は、
イベントが発生してから該イベントに応じた値を得るまでに実行される複数のプロセスを複数のサーバそれぞれが実行した結果を示す複数のログを解析するログ解析装置であって、
前記複数のプロセスを実行する順に記述したイベントパターンをあらかじめ格納するデータベースと、
前記複数のサーバそれぞれから前記ログを取得するログ取得部と、
前記ログ取得部が取得したログを、該ログに応じたプロセスと対応付けて、前記イベントパターン内に書き込むログ整理部と、
当該ログ解析装置の外部からの要求に応じて、前記イベントパターンを前記データベースから読み出して出力する出力部とを有する。
また、本発明のログ解析方法は、
イベントが発生してから該イベントに応じた値を得るまでに実行される複数のプロセスを複数のサーバそれぞれが実行した結果を示す複数のログを解析するログ解析方法であって、
前記複数のサーバそれぞれから前記ログを取得する処理と、
前記取得したログを、該ログに応じたプロセスと対応付けて、データベースにあらかじめ格納された前記複数のプロセスを実行する順に記述したイベントパターン内に書き込む処理と、
前記イベントパターンを前記データベースから読み出す処理と、
前記データベースから読み出したイベントパターンを出力する処理とを行う。
以上説明したように、本発明においては、システム全体としてシステム内部の処理フローの挙動を容易に把握可能とすることができる。
本発明における構成要素単位での全体構成の一例を示す図である。 本発明における処理手順の全体構成の一例を示す図である。 あるイベントが発生してから、そのイベントに応じた値を得るまでに実行される複数のプロセスにおける一連の処理の一例を示すシーケンス図である。 図3に示した処理が行われる場合にデータベースに格納されるイベントパターンの一例を示す図である。 図3に示した処理が行われたときにエラーが発生する場合としてデータベースに格納されるイベントパターンの第1の例を示す図である。 図3に示した処理が行われたときにエラーが発生する場合としてデータベースに格納されるイベントパターンの第2の例を示す図である。 図3に示した処理が行われたときにエラーが発生する場合としてデータベースに格納されるイベントパターンの第3の例を示す図である。 ログを収集してから、データベースに記憶されているイベントパターンを用いて当該ログを解析するまでの処理を説明するためのフローチャートである。 収集したログを用いて作成されたイベントパターンの一例を示す図である。 エラーログを検出した場合、そのエラーログを含むイベントパターンを検索する概念図である。 各処理におけるタイムスタンプの一例をシーケンス図に書き込んだ図である。 1つのイベントにおけるプロセス間のタイムスタンプの差を計算する例を示す図である。 計算した発生時刻の差分をイベントパターンのテーブル内に保存した例を示す図である。 本発明のログ解析方法を実施するための大規模分散処理システムの一形態を示す図である。 図14に示したログ解析装置の内部構成の一例を示す図である。 図15に示したログ解析装置における処理を説明するためのフローチャートである。
以下に、本発明の実施の形態について図面を参照して説明する。
まず、以下に使用する用語の意味を、以下のように定義する。
[開発時の成果物]:大規模分散処理システムの各種設計書、およびソースコード等の実装に関する情報。
[イベント]:システム外部からの入力等、分散処理の起点となるもの。
[プロセス]:大規模分散処理における処理の機能単位。
[処理フロー]:大規模分散処理において、イベントから始まる内部処理が、外部への出力などで完了するまでの処理の流れをプロセス単位に時系列で整理したもの。
[イベントパターン]:処理フローをデータベースに保存する形式で表現したデータ形式。例えば、イベントの名前をテーブルの名前に、そのイベントから始まる処理において発生する順序で、各行ごとに、発生するプロセス名、処理内容、および出力されるログを持つもの。
次に、本発明のログ解析方法の概要について説明する。
図1は、本発明における構成要素単位での全体構成の一例を示す図である。
図2は、本発明における処理手順の全体構成の一例を示す図である。
図1および図2に示すように、開発段階で作られる基本設計書、外部設計書、内部設計書、詳細設計書などの各種設計書と、当該システムのソースコードとに基づいて、システム外部からの入力等の特定のイベントごとに、プロセス単位での相互作用を時系列で処理フローとして整理する。
続いて、整理した各処理フローごとに、イベントの名前をテーブル名とし、プロセスの処理フロー内での発生の順序、発生したプロセス名、処理の内容、出力が想定されるログを各行に記録した形式でデータベース101に保存(格納)する。以降、この保存されたデータテーブルを「イベントパターン」と称する。
ここまでの処理(図1および図2の破線Aで囲んだ部分)は、事前準備である。
ここで、プロセスとは、大規模分散システムにおいて特定の処理を実行する機能単位を示すものであり、必ずしも一般的なOS(Operating System)が認識するプロセスの単位とは限らない。
図3は、あるイベントが発生してから、そのイベントに応じた値を得るまでに実行される複数のプロセスにおける一連の処理の一例を示すシーケンス図である。
図3に示すように、あるイベント「Event X」が発生してから、複数のプロセス「Process A」、「Process B」、「Process C」および「Process D」が実行されて、その結果の値「Value V」が得られる。
図4は、図3に示した処理が行われる場合にデータベース101に格納されるイベントパターンの一例を示す図である。
図4に示した例では、LXはイベントXの開始を表すログを表す。また、A、B、CおよびDはプロセス名を表す。また、PA 1等はそのプロセスにおける処理の内容を表すものであり、具体的にはユーザが処理の内容を記述する。また、LA 1等はその時点での出力が想定される、プロセスの実行を表すログ(「START」等)を表すものとし、そのプロセスが実行されたことが確認できるものである。また、aA 1、bA 1、cA 1等はPA 1の実行中に出力されるログとして想定されるログを表す。なお、この中には、PA 1を実行中に出力される、一連の処理の終了を伴わないエラーログも含まれる。また、LA 1に該当するログが存在しない場合は、処理が行われるタイミングで出力されるログを選択するものとする。Value Vは、Event Xの入力に対するシステムからの出力を表す。ただし、イベントによってはValueが存在しないものもある。
また、事前準備として、データベース101に、Event Xから始まる処理の途中でエラーが発生し、処理が途中で終了してしまう場合も同様の形式で保存しておく。処理の終了を伴うエラーが発生するケースは、一般的に1つのイベントに対して複数存在する。
図5は、図3に示した処理が行われたときにエラーが発生する場合としてデータベース101に格納されるイベントパターンの第1の例を示す図である。
図5に示したEvent Xe1は、イベントXの入力が発生した後、プロセスAにおいてイベントXから始まる処理の終了を伴うエラーログEA 1が出力されることを示している。
また、同様に、プロセスBまたはプロセスCにおいてエラーログが出力されるものも保存しておく。
図6は、図3に示した処理が行われたときにエラーが発生する場合としてデータベース101に格納されるイベントパターンの第2の例を示す図である。
図6に示したEvent Xe2は、イベントXの入力が発生した後、プロセスBにおいてイベントXから始まる処理の終了を伴うエラーログEB 2が出力されることを示している。
図7は、図3に示した処理が行われたときにエラーが発生する場合としてデータベース101に格納されるイベントパターンの第3の例を示す図である。
図7に示したEvent Xe3は、イベントXの入力が発生した後、プロセスCにおいてイベントXから始まる処理の終了を伴うエラーログEC 3が出力されることを示している。
ここまでの処理が、図1および図2の破線Aで囲んだ部分で示した事前準備である。
次に、図1および図2の破線Bで囲んだ部分で示したログ収集・保存の処理について説明する。
大規模分散処理システムにおいては、処理を分散して複数のサーバ(マシン)に実行させる。そのため、それぞれのサーバにおける実行結果を示すログを収集する必要がある。
まず、複数の監視対象のマシンに仮想マシンを設置し、その仮想マシンがホストで出力されるログを収集する。
次に、データを蓄積するマシン上で、ホストからログデータを受け取る仮想マシンを設置する。そして、この仮想マシンからデータをファイル(データベース101)に書き込む。なお、これらのログ収集方法の実現に関しては、既存技術を用いることができる。
図8は、ログを収集してから、データベース101に記憶されているイベントパターンを用いて当該ログを解析するまでの処理を説明するためのフローチャートである。
収集したログからイベントごとのデータテーブル(上述したイベントパターン)を作成するために、収集したログデータの中からイベントの開始を表すログを検出する(ステップS1)。イベントの開始を表すログは各イベントパターンに1つずつ含まれている(図4に示したLX)。したがって、このログをキーワードとして収集したログの集合の中から検索することで検出を行う。
続いて、以降の処理がデータベース101に保存されたイベントパターンのいずれに該当するかを以下のようにして判別する。
まず、検出されたログが、検出された時刻を中心として、あらかじめ設定された時間の間に収集されたログを検索対象とし(ステップS2)、各プロセスにおいて事前準備でデータベース101に格納されたログが出力されたかどうかに基づいて、イベントパターンを決定する(ステップS3〜S6)。
これらの処理は、イベントごとに既に保存されているイベントパターンから作成することができるものであり、処理が終了するまでに出力されるべきログが、収集したログに含まれているかどうかを分岐の条件としたものである。さらに、収集したログは、該当するイベントパターンの中で、設計・実装から出力が想定される(上述した事前準備で格納されたイベントパターンの)ログの部分と入れ替えてログから作成されるイベントパターンとしてデータベース101に保存(格納)する。
図9は、収集したログを用いて作成されたイベントパターンの一例を示す図である。
図9に示したLX、LA 1、aA 1等は、実際に出力(収集)されたログを表す。
また、実際に出力されたログには、ログの出力時刻を示すタイムスタンプが含まれている。ここで、このタイムスタンプをプロセスの実行を表すログから抽出して、1つの情報としてデータベース101に保存しておく。
図9に示した例では、TはLXが出力された時刻を表し、T1はLA 1が出力された時刻を表す。これは、収集したログの集合の中からタイムスタンプTを含むログLXが検出され、次にタイムスタンプT1を含むLA 1が検出されたことを意味する。T2以下についても同様に、該当のログが出力された時刻を表す。
このようにしてデータベース101に保存した、収集したログから作成するイベントパターンを用いて、エラーログ検出時に障害を発生させる起点となったイベントの特定を行う。
次に、図1および図2の破線Cで囲んだ部分で示したエラーログ検出の処理について説明する。
図10は、エラーログを検出した場合、そのエラーログを含むイベントパターンを検索する概念図である。
エラーログの検出は、収集したログの中からエラーをキーワード(Error(エラー)やWarn(警告))を用いて検索することで行う。
データベース101に保存されているログから作成されるイベントパターンの集合の中から、検出されたエラーログを含むものを検索し、イベントパターンを特定する。
エラーログを含むイベントパターンは、エラーログを含むが処理自体は正常に完了するもの(図4に示したaA 1、bA 1などにエラーログが含まれるもの)と、そのエラーにより処理が終了するもの(図5に示したEA 1などが検出された場合)とがある。図10に示した例の場合、エラーログeA 1が時刻004に始まったEvent Yの処理の途中で発生したことを意味する(この例では、Event Yから始まる処理自体は完了している。上述したエラーログを含むイベントパターンのうち、前者の場合)。これにより、検出されたエラーログが、どのイベントから始まる処理の実行中に発生したものなのかを特定する。
次に、図1および図2の破線Dで囲んだ部分で示した性能低下調査の処理について説明する。
収集したログに基づいて作成したイベントパターンのデータベース101を用いて、プロセス単位での処理の遅延時間の算出という方法で、システムの性能低下の検出を行う。
まず、収集したログから作成した各イベントパターンにおいて、共通のプロセスで発生順序が異なるものを抽出し、それらのタイムスタンプ間の差分を計算する。
あるプロセスから他のプロセスへ処理が流れ、再び元のプロセスに処理が戻り、さらに他のプロセスへ処理が移動するまでの経過時間を算出する。差分を計算する時間を上述したように共通のプロセス間に限定する理由は、マシンが異なる場合、必ずしも内部時刻を共通化できないためである。
図11は、各処理におけるタイムスタンプの一例をシーケンス図に書き込んだ図である。
図11に示すように、最初のプロセスAでのログのタイムスタンプが示す時刻はT1であり、次のプロセスBでのログのタイムスタンプが示す時刻はT2であり、次のプロセスCでのログのタイムスタンプが示す時刻はT3であり、次のプロセスBでのログのタイムスタンプが示す時刻はT4であり、次のプロセスDでのログのタイムスタンプが示す時刻はT5であり、次のプロセスBでのログのタイムスタンプが示す時刻はT6であり、次のプロセスAでのログのタイムスタンプが示す時刻はT7である。
図12は、1つのイベントにおけるプロセス間のタイムスタンプの差を計算する例を示す図である。ここでのタイムスタンプが示す時刻は、図11にて挙げたものである。
図12に示すものである場合、イベントパターンの中で複数現れるプロセスはAおよびBである。プロセスAは発生順序の1および7に現れるため、この間の時間間隔をタイムスタンプから算出する(T7−T1)。また、プロセスBは発生順序2、4および6に現れるため、それぞれの時間間隔を算出する(T6−T4、T4−T2)。
このように計算した時間間隔をイベントパターンに追加して保存する。
図13は、計算した発生時刻の差分をイベントパターンのテーブル内に保存した例を示す図である。
図13に示すように、イベントパターンにおいて、計算した発生時刻の差分をタイムスタンプの次の行に保存する。
外部からデータベース101へ問い合わせがあった場合、この保存された時間差についての情報に基づいて、システムのユーザへ通知する。または、各イベントから始まる処理におけるプロセスごとに閾値をあらかじめ設定しておき、保存された時間差が当該閾値を超えるようなイベントパターンが発生した場合、システムのユーザへ通知する。これにより、処理遅延による性能の低下をユーザへ知らせることができる。
以上に述べたように本発明によれば、大規模分散処理システムのログ解析結果から内部挙動の把握を可能にし、それに基づいて、障害発生時にはその障害が属する処理過程およびイベントを特定、処理低下のボトルネック箇所を特定するという効果が得られる。
以下に、詳細な実施例を説明する。
(実施例)
図14は、本発明のログ解析方法を実施するための大規模分散処理システムの一形態を示す図である。
本形態は図14に示すように、ログ解析装置100と、複数のサーバ200−1〜200−n(nは2以上の整数)とが接続された構成となっている。
ログ解析装置100は、イベントが発生してからそのイベントに応じた値を得るまでに実行される複数のプロセスをサーバ200−1〜200−nそれぞれが実行した結果を示す複数のログを解析する装置である。
サーバ200−1〜200−nは、分散された複数の処理をそれぞれ行う情報処理装置である。また、サーバ200−1〜200−nは、各処理を実行した結果をログとして残す(保存する)。このログの保存方法は、一般的な情報処理装置で行われているものと同じである。
図15は、図14に示したログ解析装置100の内部構成の一例を示す図である。
図14に示したログ解析装置100には図15に示すように、データベース101と、ログ取得部102と、ログ整理部103と、出力部104と、間隔算出部105と、比較部106とが設けられている。
データベース101は、上述したデータベース101と同じものであり、一連の複数のプロセスを実行する順に記述したイベントパターンをあらかじめ格納する。この格納方法は、図3〜7を用いて説明したとおりである。
ログ取得部102は、サーバ200−1〜200−nそれぞれからログを取得する。また、ログ取得部102は、取得したログをログ整理部103へ出力する。
ログ整理部103は、ログ取得部102から出力されてきたログを、当該ログに応じたプロセスと対応付けて、データベース101に格納されているイベントパターン内に書き込む。また、ログ整理部103は、ログ取得部102から出力されてきたログから当該ログが出力された時刻を示す時刻情報(タイムスタンプ)を抽出し、抽出した時刻情報をログとともにデータベース101に格納されているイベントパターン内に書き込む。なお、これらの動作の詳細は、図9を用いて説明したとおりである。
間隔算出部105は、データベース101に格納されているイベントパターン内に書き込まれている時刻情報に基づいて、それぞれのプロセスについてのログの出力間隔を算出する。なお、この動作の詳細は、図11〜13を用いて説明したとおりである。また、間隔算出部105は、算出した出力間隔を比較部106へ出力する。
比較部106は、間隔算出部105から出力されてきた出力間隔と、あらかじめ設定された閾値(時間)とを比較する。この閾値は、上述したように、プロセスごとに設定されているものであっても良い。また、比較部106は、比較の結果を出力部104へ出力する。
出力部104は、ログ解析装置100の外部からの要求に応じて、イベントパターンをデータベース101から読み出して出力する。この「外部からの要求」は、ログ解析装置100を操作するユーザが、ログ解析装置100へ所定の操作(所定の情報の入力や、所定の入力キーの選択等)が行われた場合、要求があったと判定されるものであれば良い。また、その要求には、どのイベントのイベントパターンの出力を要求しているか等の、詳細な要求内容が含まれるものであっても良い。
また、出力部104は、比較部106から出力されてきた比較の結果を示す通知を出力する。このとき、出力部104は、比較部106から出力されてきた比較の結果が、出力間隔が閾値を超えているものである場合、サーバ200−1〜200−nのうちの該当するサーバの処理性能の低下を示す通知を出力する。
なお、出力部104からのイベントパターンや上述した通知の出力方法は、表示であっても良いし、他の通信装置への送信であっても良く、ユーザがそれらの情報を認識できるものであれば良い。これにより、ユーザは、イベントパターンや通知を見て、プロセスの実行状況や、障害箇所の特定、システム全体としてシステム内部の処理フローの挙動を把握することができる。
以下に、図15に示したログ解析装置100における処理について説明する。
図16は、図15に示したログ解析装置100における処理を説明するためのフローチャートである。
まず、サーバ200−1〜200−nから各プロセスを実行した結果であるログが、ログ取得部102によって取得される(ステップS11)。
すると、ログ取得部102によって取得されたログが、ログ整理部103によって、当該ログに応じたプロセスと対応付けられて、データベース101に格納されているイベントパターン内に書き込まれる(ステップS12)。
その後、ログ解析装置100の外部から、イベントパターンの出力の要求があったかどうかが出力部104によって判定される(ステップS13)。
イベントパターンの出力の要求があったと判定された場合、要求に応じたイベントパターンが出力部104によってデータベース101から読み出され(ステップS14)、読み出されたイベントパターンが出力部104から出力される(ステップS15)。
100 ログ解析装置
101 データベース
102 ログ取得部
103 ログ整理部
104 出力部
105 間隔算出部
106 比較部
200−1〜200−n サーバ

Claims (10)

  1. イベントが発生してから該イベントに応じた値を得るまでに実行される複数のプロセスを複数のサーバそれぞれが実行した結果を示す複数のログを解析するログ解析装置であって、
    前記複数のプロセスを実行する順に記述したイベントパターンをあらかじめ格納するデータベースと、
    前記複数のサーバそれぞれから前記ログを取得するログ取得部と、
    前記ログ取得部が取得したログを、該ログに応じたプロセスと対応付けて、前記イベントパターン内に書き込むログ整理部と、
    当該ログ解析装置の外部からの要求に応じて、前記イベントパターンを前記データベースから読み出して出力する出力部とを有するログ解析装置。
  2. 請求項1に記載のログ解析装置において、
    前記ログ整理部は、前記ログ取得部が取得したログから該ログが出力された時刻を示す時刻情報を抽出し、該抽出した時刻情報を前記ログとともに前記イベントパターン内に書き込むことを特徴とするログ解析装置。
  3. 請求項2に記載のログ解析装置において、
    前記時刻情報に基づいて、各プロセスについてのログの出力間隔を算出する間隔算出部と、
    前記間隔算出部が算出した出力間隔と、あらかじめ設定された閾値とを比較する比較部とを有し、
    前記出力部は、前記比較部における比較の結果を示す通知を出力することを特徴とするログ解析装置。
  4. 請求項3に記載のログ解析装置において、
    前記出力部は、前記比較部における比較の結果、前記出力間隔が前記閾値を超えている場合、前記サーバの処理性能の低下を示す通知を出力することを特徴とするログ解析装置。
  5. 請求項1に記載のログ解析装置において、
    前記出力部は、前記イベントパターンを表示することを特徴とするログ解析装置。
  6. 請求項3に記載のログ解析装置において、
    前記出力部は、前記通知を表示することを特徴とするログ解析装置。
  7. イベントが発生してから該イベントに応じた値を得るまでに実行される複数のプロセスを複数のサーバそれぞれが実行した結果を示す複数のログを解析するログ解析方法であって、
    前記複数のサーバそれぞれから前記ログを取得する処理と、
    前記取得したログを、該ログに応じたプロセスと対応付けて、データベースにあらかじめ格納された前記複数のプロセスを実行する順に記述したイベントパターン内に書き込む処理と、
    前記イベントパターンを前記データベースから読み出す処理と、
    前記データベースから読み出したイベントパターンを出力する処理とを行うログ解析方法。
  8. 請求項7に記載のログ解析方法において、
    前記取得したログから該ログが出力された時刻を示す時刻情報を抽出する処理と、
    前記抽出した時刻情報を前記ログとともに前記イベントパターン内に書き込む処理とを行うことを特徴とするログ解析方法。
  9. 請求項8に記載のログ解析方法において、
    前記時刻情報に基づいて、各プロセスについてのログの出力間隔を算出する処理と、
    前記算出した出力間隔と、あらかじめ設定された閾値とを比較する処理と、
    前記比較の結果を示す通知を出力する通知処理とを行うことを特徴とするログ解析方法。
  10. 請求項9に記載のログ解析方法において、
    前記通知処理は、前記比較の結果、前記出力間隔が前記閾値を超えている場合、前記サーバの処理性能の低下を示す通知を出力することを特徴とするログ解析方法。
JP2011028678A 2011-02-14 2011-02-14 ログ解析装置およびログ解析方法 Withdrawn JP2012168702A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011028678A JP2012168702A (ja) 2011-02-14 2011-02-14 ログ解析装置およびログ解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011028678A JP2012168702A (ja) 2011-02-14 2011-02-14 ログ解析装置およびログ解析方法

Publications (1)

Publication Number Publication Date
JP2012168702A true JP2012168702A (ja) 2012-09-06

Family

ID=46972808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011028678A Withdrawn JP2012168702A (ja) 2011-02-14 2011-02-14 ログ解析装置およびログ解析方法

Country Status (1)

Country Link
JP (1) JP2012168702A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107372A (ja) * 2015-12-09 2017-06-15 三菱電機株式会社 障害予兆検出システムおよび障害予兆検出方法
US10152366B2 (en) 2013-09-24 2018-12-11 Nec Corporation Log analysis system, fault cause analysis system, log analysis method, and recording medium which stores program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152366B2 (en) 2013-09-24 2018-12-11 Nec Corporation Log analysis system, fault cause analysis system, log analysis method, and recording medium which stores program
JP2017107372A (ja) * 2015-12-09 2017-06-15 三菱電機株式会社 障害予兆検出システムおよび障害予兆検出方法

Similar Documents

Publication Publication Date Title
JP5423904B2 (ja) 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
US11061756B2 (en) Enabling symptom verification
JP5670598B2 (ja) コンピュータプログラムおよび管理計算機
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
US9442785B2 (en) Fault symptom detection method and information processing apparatus
JP2019502191A (ja) サービス呼び出し情報処理の方法及びデバイス
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US20110307742A1 (en) Method and apparatus for cause analysis involving configuration changes
CN110309130A (zh) 一种用于主机性能监控的方法及装置
CN107273267A (zh) 基于elastic组件的日志分析方法
WO2017083148A1 (en) Periodicity analysis on heterogeneous logs
JP6823265B2 (ja) 分析装置、分析システム、分析方法および分析プログラム
JP6413537B2 (ja) 障害予兆通報装置および予兆通報方法、予兆通報プログラム
JP2014067369A (ja) 情報処理装置,プログラム,情報処理方法
EP3798848B1 (en) Analyzing large-scale data processing jobs
CN111240876B (zh) 微服务的故障定位方法、装置、存储介质及终端
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
CN106911519A (zh) 一种数据采集监控方法及装置
JP4504346B2 (ja) トラブル要因検出プログラム、トラブル要因検出方法およびトラブル要因検出装置
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
CN116755992B (zh) 一种基于OpenStack云计算的日志分析方法及系统
JP2012168702A (ja) ログ解析装置およびログ解析方法
JP2004348640A (ja) ネットワーク管理システム及びネットワーク管理方法
JP2012108708A (ja) 障害検知装置、情報処理方法、およびプログラム
JP6340990B2 (ja) メッセージ表示方法、メッセージ表示装置、およびメッセージ表示プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20130304

A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140513