JP5578487B2 - 障害解析装置、障害解析方法、及びプログラム - Google Patents

障害解析装置、障害解析方法、及びプログラム Download PDF

Info

Publication number
JP5578487B2
JP5578487B2 JP2010237623A JP2010237623A JP5578487B2 JP 5578487 B2 JP5578487 B2 JP 5578487B2 JP 2010237623 A JP2010237623 A JP 2010237623A JP 2010237623 A JP2010237623 A JP 2010237623A JP 5578487 B2 JP5578487 B2 JP 5578487B2
Authority
JP
Japan
Prior art keywords
error
server
log
occurred
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010237623A
Other languages
English (en)
Other versions
JP2012089080A (ja
Inventor
珠恵 江間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010237623A priority Critical patent/JP5578487B2/ja
Publication of JP2012089080A publication Critical patent/JP2012089080A/ja
Application granted granted Critical
Publication of JP5578487B2 publication Critical patent/JP5578487B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は、障害解析装置、障害解析方法、及びプログラムに関する。
Webアプリケーションサーバは、Webアプリケーションサーバ上で業務処理を実装したアプリケーション(以後、業務アプリケーションと記載。)を動作させる機能や、業務アプリケーションとデータベースサーバやWebサーバなどとの通信の橋渡しを行う機能を持つソフトウェアである。このため、Webアプリケーションサーバでは、業務アプリケーションのエラーや、業務アプリケーションと関連ソフトウェアとの通信エラーが、Webアプリケーションサーバのエラーとして出力されてしまうという特徴を持つ。
しかし、従来の障害解析手法は、エラーを出力したソフトウェアに障害の原因があることを前提としている。つまり、Webアプリケーションサーバのように、関連ソフトウェアのエラーであってもWebアプリケーションサーバのエラーとして出力されるような場合は想定していない。
このため、Webアプリケーションサーバを利用したシステムに、従来の障害解析手法を用いると、業務アプリケーションやその他のソフトウェアでエラーがあった場合でも、Webアプリケーションサーバに障害の原因があると判断してしまい、正しい原因箇所を特定できないという問題がある。また、Webアプリケーションサーバを利用したシステムは複数のソフトウェアが関連するため、ユーザがログを見ても、簡単には原因箇所を特定できないという問題もある。
例えば、特許文献1に記載の方法では、ログ情報に「障害No」を付与し、ログ情報に含まれる障害解析に有用な「エラーNo」、「エラーメッセージ」、「マシン名」を障害情報として上記の「障害No」と対応付けて登録し、さらに、障害解析結果を上記「障害No」と対応付けて登録することにより、あるログ情報に対する障害対応を行いたい場合等に、そのログ情報の障害解析結果を容易に参照することができるようにしている。
特許第3130871号公報
しかし、特許文献1に記載された方法では、障害情報を収集して解析を行うものの、収集対象がエラーを出力したソフトウェアのログおよび環境情報であり、関連ソフトウェアの情報までは収集できていない。このため、関連ソフトウェアに原因があった場合には原因箇所の判断ができない。
そこで、本発明の目的は、サーバ以外の関連ソフトウェアに原因がある障害についても、正しく原因箇所を特定することが可能な障害解析装置を提供することである。
本発明に係る障害解析装置は、サーバにおけるエラーの発生を検知するエラー検知手段と、前記エラーが発生した際のログへの出力内容と、発生したエラーの原因となり得る関連エラーを対応付ける関連エラーリスト、および前記エラーが発生した際のログへの出力内容と、発生したエラーに関係する可能性のある前記サーバ以外の関連ソフトウェアを対応付ける関連ソフトウェアリスト、を記憶する記憶部と、前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連エラーが発生していないか否かを解析し、前記関連エラーが発生していればその関連エラーが前記エラーの原因であることをユーザに通知するエラー解析手段と、前記関連エラーが発生していない場合に、前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連ソフトウェアに異常が発生していないか否かを解析し、異常が発生していればその関連ソフトウェアが前記エラーの原因であることをユーザに通知する関連ソフトウェア調査手段と、を備えるものである。
本発明によれば、サーバ以外の関連ソフトウェアに原因がある障害についても、正しく原因箇所を特定することができる。
本発明の実施の形態による、障害解析装置の構成を示すブロック図。 本発明の実施の形態による、関連エラーリストの例を示す図。 本発明の実施の形態による、関連ソフトウェアリストの例を示す図。 本発明の実施の形態による、利用パッケージ名リストの例を示す図。 本発明の実施の形態による、パターン1のエラーメッセージの例を示す図。 本発明の実施の形態による、パターン2のエラーメッセージの例を示す図。 本発明の実施の形態による、パターン3のエラーメッセージの例を示す図。 本発明の実施の形態による、パターン4のエラーメッセージの例を示す図。 本発明の実施の形態による、障害解析装置の動作のフローチャート。 本発明の実施の形態による、障害解析装置の動作のフローチャート。 本発明の実施の形態による、障害解析装置の動作のフローチャート。 本発明の実施の形態による、障害解析装置の動作のフローチャート。
次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
図1は、本発明の実施の形態による障害解析装置101の構成を示すブロック図である。図に示すように、障害解析装置101は、エラー検知手段102、エラー解析手段103、関連エラーリスト104、関連ソフトウェアリスト105、関連ソフトウェア調査手段106、サーバ環境調査手段111、異常停止解析手段114、ユーザ通知手段117、およびデータ更新手段118を備えている。
また、関連ソフトウェア調査手段106は、関連ソフトウェア状態確認手段107と、業務アプリケーション調査手段108を備えている。さらに、業務アプリケーション調査手段108は、スタックトレース解析手段109と、利用パッケージ名リスト110を備えている。
また、サーバ環境調査手段111は、ログ調査手段112と、負荷状況調査手段113を備えている。また、異常停止解析手段114は、Webアプリケーションサーバログ解析手段115と、Java(登録商標)VM調査手段116を備えている。
障害解析装置101は、CPU、ROMやRAM等のメモリ、各種の情報を格納する外部記憶装置、入力インタフェース、出力インタフェース、通信インタフェース及びこれらを結ぶバスを備える専用又は汎用のコンピュータを適用することができる。なお、障害解析装置101は、単一のコンピュータにより構成されるものであっても、通信回線を介して互いに接続された複数のコンピュータにより構成されるものであってもよい。
障害解析装置101は、通信回線を介してWebアプリケーションサーバと接続されており、Webアプリケーションサーバからのエラーログを受信する。
エラー検知手段102、エラー解析手段103、関連ソフトウェア調査手段106、関連ソフトウェア状態確認手段107、業務アプリケーション調査手段108、スタックトレース解析手段109、サーバ環境調査手段111、ログ調査手段112、負荷状況調査手段113、異常停止解析手段114、Webアプリケーションサーバログ解析手段115、Java(登録商標)VM調査手段116、ユーザ通知手段117、およびデータ更新手段118は、CPUがROM等に格納された所定のプログラムを実行することにより実現される機能のモジュールに相当する。関連エラーリスト104、関連ソフトウェアリスト105、および利用パッケージ名リスト110は、外部記憶装置により実装される。
エラー検知手段102は、Webアプリケーションサーバからのエラーログの通知を受信し、エラー解析手段103にエラーの解析を命令する。
エラー解析手段103は、関連エラーリスト104を参照して、受信したエラーの発生原因と考えられるエラーを取得し、Webアプリケーションサーバの起動開始後からエラー発生までの間に取得したエラーが発生していないか否かの解析を行う。原因と考えられるエラーが発生していれば、このエラーを原因としてユーザに通知する。また、関連ソフトウェアリスト105を参照し、当該エラーに関連ソフトウェアがあれば、関連ソフトウェア調査手段106を実行する。
関連エラーリスト104は、エラーが発生した際のエラーログへの出力内容と、そのエラーの原因となり得るエラーを対応付けたリストであり、図2に示すように、エラー内容を特定するエラーIDに対応付けて、各々のエラーの原因となり得るエラーのID(関連エラーID)を保持している。
関連ソフトウェアリスト105は、エラーが発生した際のエラーログへの出力内容と、そのエラーに関連する可能性があるWebアプリケーションサーバ以外のソフトウェアのリストであり、図3に示すように、エラーIDに対応付けて各々のエラーに関連する可能性があるソフトウェアの情報を保持している。
関連ソフトウェア調査手段106は、関連ソフトウェア状態確認手段107において、エラーログおよび関連ソフトウェアの状態を解析し、エラー発生の時間帯に関連ソフトウェアに問題がなかったか否かを判断する。もし、問題があった場合は、関連ソフトウェアがエラー発生の原因である旨をユーザに通知する。
業務アプリケーション調査手段108は、スタックトレースに含まれているパッケージ名に未知のパッケージ名が含まれているかどうかを判定する。未知のパッケージが含まれている場合、業務アプリケーションが障害の原因である旨をユーザに通知する。
利用パッケージ名リスト110は、図4に示すように、Webアプリケーションサーバ、およびWebアプリケーションサーバが動作するために必要なソフトウェアのパッケージ名のリストである。
サーバ環境調査手段111は、ログ調査手段112と負荷状況調査手段113を含み、Webサーバマシンの状態を調査する。ログ調査手段112は、イベントログやシスログといった、サーバマシンが出力するログファイルを解析し、エラー発生時間帯にエラーや警告が出力されていないかを調査する。負荷状況調査手段113は、サーバマシンの負荷状況を調査する。もし、問題があれば、サーバマシンの状態がエラーの原因である可能性が高い旨をユーザに通知する。
異常停止解析手段114は、Webアプリケーションサーバログ解析手段115と、Java(登録商標)VM調査手段116を含む。異常停止解析手段114は、異常停止の調査をユーザが命令した際に実行され、Webアプリケーションサーバログ解析手段115を実行してWebアプリケーションサーバの異常停止が発生した原因を解析する。
Webアプリケーションサーバログ解析手段115は、Webアプリケーションサーバのログを調査し、ログファイルの最後に停止ログが出力されているか、エラーが出力されているかを確認する。もし、停止ログが出力されており、かつエラーが出力されていれば、エラー解析手段103を実行してエラーの原因を解析する。停止ログが出力されていない、または、エラーが出力されていない場合は、Java(登録商標)VMが起動失敗もしくは異常終了したものと判断し、Java(登録商標)VM調査手段116を実行する。
Java(登録商標)VM調査手段116は、Java(登録商標)VMが起動失敗または異常終了したと判断された場合に実行され、Java(登録商標)VMのクラッシュログの有無、およびその内容の調査を行い、ユーザにその内容を通知する。
ユーザ通知手段117は、各手段における解析結果をユーザに通知する機能を有する。具体的には、例えば表示装置(図示せず)に解析結果を表示することにより通知する。
データ更新手段118は、ユーザからの入力、または通信回線を通じたアップデート等によって、関連エラーリスト104、関連ソフトウェアリスト105、利用パッケージ名リスト110に記憶されているデータを更新する。
次に、具体的なエラー出力(ログ)を用いて、障害解析装置101の動作について説明する。
説明に用いるエラーのパターンは以下のとおりである。特にパターン(2)〜(5)は、Webアプリケーションサーバ特有の事象であり、発生頻度が高いにも関わらず、これまでの解析方法では原因が正しく特定できなかった事象である。
(1)発生したエラーの原因がWebアプリケーションサーバか、Webサーバマシンの環境にある場合。
(2)発生したエラーの原因が他のエラーである場合。
(3)発生したエラーの原因が関連ソフトウェア(業務アプリケーション)にある場合。
(4)発生したエラーの原因が関連ソフトウェア(業務アプリケーション以外)にある場合。
(5)Webアプリケーションサーバが異常停止し、異常停止した原因がJava(登録商標)VM プロセスの異常終了である場合。
(1)発生したエラーの原因がWebアプリケーションサーバか、Webサーバマシンの環境にある場合。
図5に示すエラーメッセージが出力された場合を例に図9を用いて説明する。まず、エラー検知部102がエラーを検知し(ステップA1)、エラー解析手段103がエラーを取得する(ステップA2)。次に、エラー解析手段103が関連エラーリスト104を取得し(ステップA3)、関連エラーの有無、および関連エラーの発生の有無を判断する(ステップA4)。図5に示すメッセージは、エラーIDが「0001」であり、図2に示すように関連エラーは無いので(ステップA4:No)、ステップA5に進む。
次に、エラー解析手段103は関連ソフトウェアリスト105を取得し(ステップA5)、関連ソフトウェアの有無を判断する(ステップA6)。図3に示すようにエラーID「0001」に関連ソフトウェアは無いので(ステップA6:No)、ステップA9に進む。
次に、サーバ環境調査手段111においてサーバマシンに問題がないか否かの調査を行う(ステップA9)。この動作について図10を用いて詳細に説明する。まず、ログ調査手段112においてサーバマシンのイベントログまたはシスログを取得し(ステップB1)、エラーが発生した時間から一定時間前および一定時間後にエラーが発生していないか否かを確認する(ステップB2)。さらに、負荷状況調査手段113においてサーバマシンの負荷状況を取得する(ステップB3)。サーバ環境調査手段111は、サーバマシンの調査結果を通知内容に付加し(ステップA9)、ユーザに通知する(ステップA10)。ユーザは、エラーの内容およびサーバマシンの状態に基づいて、エラーの原因を判断する。
(2)発生したエラーの原因が他のエラーである場合。
図6に示すエラーメッセージが出力された場合を例に図9を用いて説明する。
まず、エラー検知部102がエラーを検知し(ステップA1)、エラー解析手段103がエラーを取得する(ステップA2)。次に、エラー解析手段103が関連エラーリスト104を取得して(ステップA3)、関連エラーの有無、および関連エラーの発生の有無を判断する(ステップA4)。図6に示すメッセージには、IDが「0002」のエラーが含まれており、図2を参照すると関連エラーとしてID「0020」が取得される。このように関連エラーが存在するため、関連ソフトウェア状態確認手段107においてその関連エラーが一定時間内に発生しているかどうかを判断する(ステップA4)。図6に示すように、5分前にエラーID「0020」のエラーが発生していることが分かる(ステップA4:Yes)。このため、エラーID「0020」のエラーが根本原因である旨をユーザに通知する(ステップA10)。
(3)発生したエラーの原因が関連ソフトウェア(業務アプリケーション)にある場合。
図7に示すエラーメッセージが出力された場合を例に図9を用いて説明する。
まず、エラー検知部102がエラーを検知し(ステップA1)、エラー解析手段103がエラーを取得する(ステップA2)。次に、エラー解析手段103が関連エラーリスト104を取得して(ステップA3)、関連エラーの有無、および関連エラーの発生の有無を判断する(ステップA4)。図7に示すメッセージはエラーIDが「0003」であり、図2から関連エラーはないことがわかる。
次に、エラー解析手段103は関連ソフトウェアリスト105を取得し(ステップA5)、関連ソフトウェアの有無を判断する(ステップA6)。図3に示すように、エラーID「0003」の関連ソフトウェアとして「業務アプリケーション」が取得される(ステップA6:Yes)。
関連ソフトウェアが存在した場合の動作について、図11を用いて説明する。まず、業務アプリケーション調査手段108が関連ソフトウェアのリストに業務アプリケーションがあるか否かを判断し(ステップC1)、業務アプリケーションがある場合(Yes)、スタックトレース解析手段109においてスタックトレースを取得する(ステップC2)。次に、スタックトレース解析手段109は利用パッケージ名リスト110からWebアプリケーションサーバで利用しているパッケージ名を取得する(ステップC3)。さらにスタックトレース解析手段109においてスタックトレースを解析し、Webアプリケーションサーバで利用しているもの以外のパッケージがあるか否かを判断する(ステップC4)。図7のスタックトレースには、「jp.co.bbb」という、利用パッケージ名リストに登録されていないパッケージ名が含まれている。このため、業務アプリケーションに問題があると判断し(ステップC4:Yes)、ユーザに業務アプリケーションに問題がある旨を通知する(ステップA10)。
(4)発生したエラーの原因が関連ソフトウェア(業務アプリケーション以外)にある場合。
図8に示すエラーメッセージが出力された場合を例に図9を用いて説明する。なお、ここではWebサーバが停止しているとする。
まず、エラー検知部102がエラーを検知し(ステップA1)、エラー解析手段103がエラーを取得する(ステップA2)。次に、エラー解析手段103が関連エラーリスト104を取得して(ステップA3)、関連エラーの有無、および関連エラーの発生の有無を判断する(ステップA4)。図8に示すメッセージはエラーIDが「0004」であり、図2から関連エラーとして「0040」が取得される。関連エラーが存在したため、関連エラーが一定時間内に発生していないか否かを判断する(ステップA4)。図8から、エラーID「0040」は発生していないことがわかる。
次に、エラー解析手段103は関連ソフトウェアリスト105を取得する(ステップA5)。図3から、エラーID「0004」の関連ソフトウェアとして「Webサーバ」が取得される。
関連ソフトウェアが存在した場合の動作について、図11を用いて詳細に説明する。まず、業務アプリケーション調査手段108が関連ソフトウェアのリストに業務アプリケーションがあるか否かを確認する(ステップC1)。ここでは業務アプリケーションがないため(No)ステップC5へ進み、「業務アプリケーション」以外の関連ソフトウェアである「Webサーバ」のログおよび状態を確認する。ステップC6では関連ソフトウェアに問題があるか否か判断する。ここでは、Webサーバが停止しているため(Yes)、関連ソフトウェアに問題がある旨をユーザに通知する(ステップA10)。
(5)Webアプリケーションサーバが異常停止し、異常停止した原因がJava(登録商標)VM プロセスの異常終了である場合。
パターン5について、図12を用いて詳細に説明する。ユーザは、Webアプリケーションサーバの異常停止に気付いたら、異常停止解析手段114を実行する(ステップD1)。異常停止解析手段114が実行されると、まずWebアプリケーションサーバログ解析手段115がWebアプリケーションサーバのログを解析し(ステップD2)、起動完了後にエラーログが出力されていないかを判断する(ステップD3)。エラーログが出力されていれば(Yes)、エラー解析手段103を実行してエラーを解析する(ステップD4)。エラー解析手段103の動作は、パターン(1)〜(4)と同様である。
ステップD3で、エラーログが出力されていないと判断された場合、Java(登録商標)VMプロセスが異常終了したと判断できるため、Java(登録商標)VM調査手段116を実行する(ステップD5)。Java(登録商標)VMのクラッシュログが出力されていれば(ステップD6:Yes)、その内容を読み込み、既知の問題でないかインターネット上を確認し(ステップD7)、その結果をユーザに通知する(ステップA10)。クラッシュログが出力されていない場合は(ステップD6:No)、サーバ環境調査手段111を利用してサーバマシンの状態を確認し、その旨をユーザに通知する(ステップA9、A10)。
以上のように、本実施形態によれば、障害解析装置101において、Webアプリケーションサーバにおけるエラーの発生を検知すると、まず、関連エラーリスト104を取得し、Webアプリケーションサーバの起動開始後からエラー発生までのログに、原因となりうる関連エラーが出力されていないか否かを確認する。もし、出力されていれば、その関連エラーが原因と考えられる旨をユーザに通知する。
原因となり得る関連エラーが出力されていない場合、関連ソフトウェアリスト105を取得し、関連ソフトウェアが存在すれば、それぞれのソフトウェアの状態をログや通信確認テストを実行して調査する。関連ソフトウェアに問題があれば、その旨をユーザに通知する。
関連ソフトウェアに業務アプリケーションが存在する場合、出力されたスタックトレースを読み込む。スタックトレースに、未知のパッケージ名が含まれていた場合、業務アプリケーションが原因だと判断して、ユーザにスタックトレースと、業務アプリケーションに問題がある旨の通知を行う。スタックトレースに、WebアプリケーションサーバおよびWebアプリケーションサーバが動作するために必要となるパッケージ名のみ含まれている場合、業務アプリケーションには問題ないと判断する。
関連ソフトウェアにも異常がない場合は、Webアプリケーションサーバ自身か、サーバの環境に問題がある。このため、サーバマシンのログを調査して、エラーが出力された時間帯に、サーバマシンのログにエラーや警告が出力されていないかを確認する。もし、サーバマシンのログにエラーや警告が出力されていれば、その旨をユーザに通知する。さらに、サーバ環境の負荷状況を計測し、高負荷であると判定された場合はその旨をユーザに通知する。サーバ環境に問題がない場合は、Webアプリケーションサーバ自身に問題があるため、エラー内容と他のソフトウェアには問題がない旨を通知する。
また、Webアプリケーションサーバが異常停止する場合も考えられる。この場合、ユーザは手動で、異常停止解析手段114を実行する。異常停止の場合、WebアプリケーションサーバのログおよびJava(登録商標)VMプロセスのクラッシュログと、当時のサーバマシンの状態を確認する必要がある。このため、まず、Webアプリケーションサーバの起動開始後からログの最後までの間にエラーが出力されているか否かを確認する。エラーが出力されている場合、エラーを検知した場合と同様の処理を実行する。
エラーが出力されていない場合、WebアプリケーションサーバのJava(登録商標)VMのプロセスが突然終了したと考えられる。このため、Java(登録商標)VMのクラッシュログの有無を確認し、クラッシュログが出力されている場合は、クラッシュログの中身を読み込む。さらに、サーバマシンがネットワークを利用できる場合は、クラッシュログに出力されているエラー内容と同様の内容が既に報告されていないかインターネットを利用して検索し、該当するエラー内容が報告されていれば、その旨をユーザに通知する。また、バグが修正されたバージョンを取得できれば、合わせてアップデートを促す。
エラーもJava(登録商標)VMのクラッシュログも出力されていな場合、原因はサーバマシンの環境にある可能性が高い。このため、イベントログ・シスログを調査して、エラー発生の時間帯にエラーや警告が出力されていないかを確認し、その結果と、サーバマシンに原因がある旨をユーザに通知する。
このように、本実施形態によればユーザはWebアプリケーションサーバで障害が発生した際に、原因箇所を簡単に把握することが可能となる。特に、これまでは特定できなかった、Webアプリケーションサーバ以外の関連ソフトウェアに原因がある場合についても、正しい原因を特定することができる。すなわち、従来の方法では、関連ソフトウェアに原因がある場合でも、Webアプリケーションサーバのエラーであると判別されてしまっていたが、本実施形態によれば、このような場合にも正しい原因を特定できるので、問題の早期解決に繋げることができる。
また、本実施形態によれば、原因箇所を自動的に特定できるため、ユーザは、業務アプリケーションの修正や、適切な製品保守部隊への問い合わせを行うことができ、障害発生時の原因究明にかかる時間を削減することができる。
また、本実施形態によれば、Webアプリケーションにあまり詳しくなくないユーザでも、障害の原因を特定することができる。
また、本実施形態によれば、エラー検知、解析、通知を自動実行するため、エラーが発生した際に即時に調査を実行することが可能であり、障害の検知が遅れたためにシステムの状態が変化してしまい、障害の原因がわからなくなるという事態を回避することができる。
さらに、関連ソフトウェアリスト105に記憶されている内容を、ユーザによる手動更新やネットワーク経由のアップデートで更新できるようにすることにより、一度目の発生では正しく解析できなかった障害についても、2度目以降は正しく原因を特定することが可能となる。
なお、本実施形態の変形例として、エラー内容から原因が明確で、かつ自動復旧が可能なエラーについては、自動復旧方法をデータベースに登録しておくようにしてもよい。そして、エラー解析の際、該当するメッセージがあった場合は、ユーザへの通知とともに、自動復旧を実行する。これにより、障害解析だけでなく、障害の自動復旧も可能となる。また、自動復旧方法を、ネットワーク上から検索してくるようにしてもよい。
さらに、他の変形例として、Webアプリケーションサーバと同一のサーバにWebアプリケーションサーバのマニュアルがインストールされている場合は、エラーに対応するマニュアルのページを取得するようにしてもよい。そして、エラーの内容、関連ソフトウェアの調査結果、マニュアルの情報をユーザに通知する。マニュアルの内容を表示することで、マニュアルを検索する時間を削減することができる。
また、ネットワークが利用できる環境である場合、エラー内容やクラッシュログの内容をインターネット上で検索し、対応方法などについての情報を取得し、ユーザに提示するようにしてもよい。これにより、ユーザによる障害復旧の手助けを行うことができる。
上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)サーバにおけるエラーの発生を検知するエラー検知手段と、
前記エラーが発生した際のログへの出力内容と、発生したエラーの原因となり得る関連エラーを対応付ける関連エラーリスト、および前記エラーが発生した際のログへの出力内容と、発生したエラーに関係する可能性のある前記サーバ以外の関連ソフトウェアを対応付ける関連ソフトウェアリスト、を記憶する記憶部と、
前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連エラーが発生していないか否かを解析し、前記関連エラーが発生していればその関連エラーが前記エラーの原因であることをユーザに通知するエラー解析手段と、
前記関連エラーが発生していない場合に、前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連ソフトウェアに異常が発生していないか否かを解析し、異常が発生していればその関連ソフトウェアが前記エラーの原因であることをユーザに通知する関連ソフトウェア調査手段と、を備える障害解析装置。
(付記2)前記関連ソフトウェア調査手段は、
前記関連ソフトウェアに業務アプリケーションが含まれるか否かを判断し、前記業務アプリケーションが含まれる場合には、スタックトレースを解析し、前記スタックトレースに前記サーバで利用しているパッケージ以外のパッケージ名が含まれている場合には、その業務アプリケーションが前記エラーの原因であることをユーザに通知する業務アプリケーション調査手段、を備える付記1に記載の障害解析装置。
(付記3)前記業務アプリケーション調査手段は、
前記関連ソフトウェアに業務アプリケーションが含まれていない場合には、その関連ソフトウェアのログおよび状態を解析し、解析の結果その関連ソフトウェアに異常がある場合には、その関連ソフトウェアが前記エラーの原因であることをユーザに通知する、付記1または2に記載の障害解析装置。
(付記4)前記関連エラーおよび前記関連ソフトウェアが前記エラーの原因ではない場合に、
前記サーバマシンが出力するログを解析し、前記エラーの発生時間帯に異常が発生している場合、または前記サーバマシンの負荷状況を調査して、高負荷であると判断された場合に、前記サーバマシンの状態が前記エラーの原因であることをユーザに通知するサーバ環境調査手段を備える、付記1から3のいずれかに記載の障害解析装置。
(付記5)ユーザが入力した異常停止解析の命令を受信した場合に、
前記サーバマシンの異常停止が発生した原因を解析し、解析結果を通知する異常停止解析手段を備える、付記1から4のいずれかに記載の障害解析装置。
(付記6)前記サーバはWebアプリケーションサーバである、付記1から5のいずれかに記載の障害解析装置。
(付記7)前記異常停止解析手段は、
前記Webアプリケーションサーバのログを解析し、起動完了後にエラーが発生している場合には前記エラー解析手段においてエラー解析を実行し、
起動完了後にエラーが発生していない場合には、Java(登録商標)VMのクラッシュログが出力されているか否かを判断し、出力されている場合には前記クラッシュログの解析を行い、
前記クラッシュログが出力されていない場合には、前記サーバマシンの状態を調査する、付記6に記載の障害解析装置。
(付記8)サーバにおけるエラーの発生を検知し、
前記エラーが発生した際のログへの出力内容と、発生したエラーの原因となり得る関連エラーを対応付ける関連エラーリストを取得し、
前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連エラーが発生していないか否かを解析し、前記関連エラーが発生していればその関連エラーが前記エラーの原因であることをユーザに通知し、
前記エラーが発生した際のログへの出力内容と、発生したエラーに関係する可能性のある前記サーバ以外の関連ソフトウェアを対応付ける関連ソフトウェアリストを取得し、
前記関連エラーが発生していない場合に、前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連ソフトウェアに異常が発生していないか否かを解析し、異常が発生していればその関連ソフトウェアが前記エラーの原因であることをユーザに通知する、障害解析方法。
(付記9)コンピュータを、
サーバにおけるエラーの発生を検知するエラー検知手段と、
前記エラーが発生した際のログへの出力内容と、発生したエラーの原因となり得る関連エラーを対応付ける関連エラーリスト、および前記エラーが発生した際のログへの出力内容と、発生したエラーに関係する可能性のある前記サーバ以外の関連ソフトウェアを対応付ける関連ソフトウェアリスト、を記憶する記憶部と、
前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連エラーが発生していないか否かを解析し、前記関連エラーが発生していればその関連エラーが前記エラーの原因であることをユーザに通知するエラー解析手段と、
前記関連エラーが発生していない場合に、前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連ソフトウェアに異常が発生していないか否かを解析し、異常が発生していればその関連ソフトウェアが前記エラーの原因であることをユーザに通知する関連ソフトウェア調査手段と、して機能させるプログラム。
101 障害解析装置、102 エラー検知手段、103 エラー解析手段、104 関連エラーリスト、105 関連ソフトウェアリスト、106 関連ソフトウェア調査手段、107 関連ソフトウェア状態確認手段、108 業務アプリケーション調査手段、109 スタックトレース解析手段、110 利用パッケージ名リスト、111 サーバ環境調査手段、112 ログ調査手段、113 負荷状況調査手段、114 異常停止解析手段、115 Webアプリケーションサーバログ解析手段、116 Java(登録商標)VM調査手段、117 ユーザ通知手段、118 データ更新手段

Claims (9)

  1. サーバにおけるエラーの発生を検知するエラー検知手段と、
    前記エラーが発生した際のログへの出力内容と、発生したエラーの原因となり得る関連エラーを対応付ける関連エラーリスト、および前記エラーが発生した際のログへの出力内容と、発生したエラーに関係する可能性のある前記サーバ以外の関連ソフトウェアを対応付ける関連ソフトウェアリスト、を記憶する記憶部と、
    前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連エラーが発生していないか否かを解析し、前記関連エラーが発生していればその関連エラーが前記エラーの原因であることをユーザに通知するエラー解析手段と、
    前記関連エラーが発生していない場合に、前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連ソフトウェアに異常が発生していないか否かを解析し、異常が発生していればその関連ソフトウェアが前記エラーの原因であることをユーザに通知する関連ソフトウェア調査手段と、を備える障害解析装置。
  2. 前記関連ソフトウェア調査手段は、
    前記関連ソフトウェアに業務アプリケーションが含まれるか否かを判断し、前記業務アプリケーションが含まれる場合には、スタックトレースを解析し、前記スタックトレースに前記サーバで利用しているパッケージ以外のパッケージ名が含まれている場合には、その業務アプリケーションが前記エラーの原因であることをユーザに通知する業務アプリケーション調査手段、を備える請求項1に記載の障害解析装置。
  3. 前記業務アプリケーション調査手段は、
    前記関連ソフトウェアに業務アプリケーションが含まれていない場合には、その関連ソフトウェアのログおよび状態を解析し、解析の結果その関連ソフトウェアに異常がある場合には、その関連ソフトウェアが前記エラーの原因であることをユーザに通知する、請求項に記載の障害解析装置。
  4. 前記関連エラーおよび前記関連ソフトウェアが前記エラーの原因ではない場合に、
    ーバマシンが出力するログを解析し、前記エラーの発生時間帯に異常が発生している場合、または前記サーバマシンの負荷状況を調査して、高負荷であると判断された場合に、前記サーバマシンの状態が前記エラーの原因であることをユーザに通知するサーバ環境調査手段を備える、請求項1から3のいずれかに記載の障害解析装置。
  5. ユーザが入力した異常停止解析の命令を受信した場合に、
    ーバマシンの異常停止が発生した原因を解析し、解析結果を通知する異常停止解析手段を備える、請求項1から4のいずれかに記載の障害解析装置。
  6. 前記サーバはWebアプリケーションサーバである、請求項1から5のいずれかに記載の障害解析装置。
  7. 前記異常停止解析手段は、
    記サーバのログを解析し、起動完了後にエラーが発生している場合には前記エラー解析手段においてエラー解析を実行し、
    起動完了後にエラーが発生していない場合には、Java(登録商標)VMのクラッシュログが出力されているか否かを判断し、出力されている場合には前記クラッシュログの解析を行い、
    前記クラッシュログが出力されていない場合には、サーバマシンの状態を調査する、請求項に記載の障害解析装置。
  8. サーバにおけるエラーの発生を検知し、
    前記エラーが発生した際のログへの出力内容と、発生したエラーの原因となり得る関連エラーを対応付ける関連エラーリストを取得し、
    前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連エラーが発生していないか否かを解析し、前記関連エラーが発生していればその関連エラーが前記エラーの原因であることをユーザに通知し、
    前記エラーが発生した際のログへの出力内容と、発生したエラーに関係する可能性のある前記サーバ以外の関連ソフトウェアを対応付ける関連ソフトウェアリストを取得し、
    前記関連エラーが発生していない場合に、前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連ソフトウェアに異常が発生していないか否かを解析し、異常が発生していればその関連ソフトウェアが前記エラーの原因であることをユーザに通知する、障害解析方法。
  9. コンピュータを、
    サーバにおけるエラーの発生を検知するエラー検知手段と、
    前記エラーが発生した際のログへの出力内容と、発生したエラーの原因となり得る関連エラーを対応付ける関連エラーリスト、および前記エラーが発生した際のログへの出力内容と、発生したエラーに関係する可能性のある前記サーバ以外の関連ソフトウェアを対応付ける関連ソフトウェアリスト、を記憶する記憶部と、
    前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連エラーが発生していないか否かを解析し、前記関連エラーが発生していればその関連エラーが前記エラーの原因であることをユーザに通知するエラー解析手段と、
    前記関連エラーが発生していない場合に、前記サーバの起動開始後から前記エラーの発生までの間のログを解析して、出力内容に対応する前記関連ソフトウェアに異常が発生していないか否かを解析し、異常が発生していればその関連ソフトウェアが前記エラーの原因であることをユーザに通知する関連ソフトウェア調査手段と、して機能させるプログラム。
JP2010237623A 2010-10-22 2010-10-22 障害解析装置、障害解析方法、及びプログラム Expired - Fee Related JP5578487B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010237623A JP5578487B2 (ja) 2010-10-22 2010-10-22 障害解析装置、障害解析方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010237623A JP5578487B2 (ja) 2010-10-22 2010-10-22 障害解析装置、障害解析方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012089080A JP2012089080A (ja) 2012-05-10
JP5578487B2 true JP5578487B2 (ja) 2014-08-27

Family

ID=46260608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010237623A Expired - Fee Related JP5578487B2 (ja) 2010-10-22 2010-10-22 障害解析装置、障害解析方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5578487B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020181437A (ja) * 2019-04-26 2020-11-05 三菱電機株式会社 監視制御装置
KR102618998B1 (ko) * 2022-12-21 2024-01-02 쿠팡 주식회사 애플리케이션의 에러의 발생을 알리는 정보를 제공하는 사용자 단말 및 그 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3902564B2 (ja) * 2003-04-15 2007-04-11 中部日本電気ソフトウェア株式会社 障害通報装置および障害通報方法
JP4606273B2 (ja) * 2004-08-30 2011-01-05 株式会社リコー ログ収集装置,ログ収集プログラム
WO2007096959A1 (ja) * 2006-02-22 2007-08-30 Fujitsu Limited イベントログ管理プログラム、イベントログ管理装置、およびイベントログ管理方法
JP2009098706A (ja) * 2007-10-12 2009-05-07 Fuji Xerox Co Ltd 処理履歴分析支援装置及び処理履歴分析支援システム及び処理履歴分析支援プログラム
JP4911074B2 (ja) * 2008-02-28 2012-04-04 日本電気株式会社 障害原因解析支援装置、方法

Also Published As

Publication number Publication date
JP2012089080A (ja) 2012-05-10

Similar Documents

Publication Publication Date Title
EP3036633B1 (en) Cloud deployment infrastructure validation engine
US9189317B1 (en) Software sustaining system
US7191364B2 (en) Automatic root cause analysis and diagnostics engine
US10268563B2 (en) Monitoring of an automated end-to-end crash analysis system
US10191837B2 (en) Automated end-to-end analysis of customer service requests
KR20150033711A (ko) 런타임 오류 복원 방법, 디바이스 및 시스템
US10338990B2 (en) Culprit module detection and signature back trace generation
WO2019169761A1 (zh) 自动化测试方法、装置及存储介质
WO2012104488A1 (en) Arrangement and method for model-based testing
EP3591485B1 (en) Method and device for monitoring for equipment failure
US10365959B2 (en) Graphical user interface for software crash analysis data
CN103248625A (zh) 一种网络爬虫运行异常监控方法和系统
JP5198154B2 (ja) 障害監視システム及びデバイスと監視装置並びに障害監視方法
CN111506470B (zh) 浏览器错误检测和告警方法、装置、设备及存储介质
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
US10331508B2 (en) Computer crash risk assessment
US10740166B2 (en) Thread based dynamic data collection
CN112988503A (zh) 分析方法、分析装置、电子装置和存储介质
CN113971031A (zh) 软件包依赖关系检查方法及装置
JP5578487B2 (ja) 障害解析装置、障害解析方法、及びプログラム
Bhardwaj et al. A Comprehensive Study of Bugs in Software Defined Networks
JP2012234381A (ja) ネットワーク運用管理システム、ネットワーク監視サーバ、ネットワーク監視方法およびプログラム
JP2007304837A (ja) 情報処理装置及び監視方法並びにプログラム
US9372746B2 (en) Methods for identifying silent failures in an application and devices thereof
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140402

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140629

R150 Certificate of patent or registration of utility model

Ref document number: 5578487

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees