JP2005190270A - 因果関係推定プログラム及び因果関係推定方法 - Google Patents

因果関係推定プログラム及び因果関係推定方法 Download PDF

Info

Publication number
JP2005190270A
JP2005190270A JP2003432187A JP2003432187A JP2005190270A JP 2005190270 A JP2005190270 A JP 2005190270A JP 2003432187 A JP2003432187 A JP 2003432187A JP 2003432187 A JP2003432187 A JP 2003432187A JP 2005190270 A JP2005190270 A JP 2005190270A
Authority
JP
Japan
Prior art keywords
time
causal relationship
error message
communication
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003432187A
Other languages
English (en)
Other versions
JP4445750B2 (ja
Inventor
Satoshi Tanaka
智 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2003432187A priority Critical patent/JP4445750B2/ja
Publication of JP2005190270A publication Critical patent/JP2005190270A/ja
Application granted granted Critical
Publication of JP4445750B2 publication Critical patent/JP4445750B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】膨大なエラーメッセージ間の因果関係を迅速かつ正確に推測する。
【解決手段】予め複数の因果関係推定値算出ルールを記憶するステップと、第1のエラーメッセージのID、第1の時刻、第1のプロセスのID、第1通信相手又は第1共有相手、第1のプロセス間通信又は第1の共有ファイルの第1生成時刻及び第1消滅時刻を第1の装置から受け取るステップと、第2のエラーメッセージについて第1のエラーメッセージと同様の情報を第2の装置から受け取るステップと、第1のプロセスIDと第2のプロセスIDが同一であるか、第1のプロセスと第2のプロセスとの間に少なくとも一時的にプロセス間通信が存在したか、少なくとも一時的に共有ファイルが存在したか、第1の時刻と第2の時刻との間にプロセス間通信又は共有ファイルが存在したかに基づいて因果関係推定値算出ルールを選択するステップと、因果関係推定値を算出するステップとを実行させる。
【選択図】図1

Description

本発明は、コンピュータシステムにおいて障害発生時に生成されるエラーメッセージ間の因果関係を迅速かつ正確に理解することを支援する因果関係推定プログラム及び因果関係推定方法に関する。
コンピュータシステムは拡大を続け、その構造は益々複雑化している。システム内で障害が発生すると、システムを構成する各コンポーネントが膨大な障害メッセージ、エラーメッセージ等を発生する。膨大な障害メッセージ、エラーメッセージ等をシステム管理者が手作業で関連付けてシステム障害の原因を特定することは容易ではない。
システム障害発生時に、さまざまなシステムを構成する各コンポーネントが生成した膨大な障害メッセージ、エラーメッセージ等を一元的に集めGUI上にリアルタイムに表示するプログラムが存在する(例えば、非特許文献1参照)。
"システム管理 Tivoli | 製品 | Tivoli Business Systems Manager"、[online]、「平成15年12月18日検索」、インターネット<URL: http://www-6.ibm.com/jp/software/tivoli/products/systems_mgr.html>
障害メッセージ又はエラーメッセージの依存関係を知ることが困難という課題がある。
マルチベンダーかつ分散協調で構成され稼動している情報システムのハードやソフト(これ以降 “ システム構成要素 ” と呼ぶ)から、運用コンソールに種々雑多なメッセージが次から次へと表示されている。メッセージには、障害あり、警告あり、単なる稼動状況ありで、有用な情報を見分けるのが困難である。
特に、システム構成要素のどこかで障害が起きると、依存関係又は因果関係を有する全てのシステム構成要素から障害メッセージが発生する。現行の障害メッセージにはその依存関係を示す情報は提供されていない。依存関係を把握するには人間の解釈が必要である。
しかし依存関係又は因果関係の把握は運用オペレータには非常に困難であり、当該システムを担当しているSE(システムエンジニア)に頼らざるを得ない。
その結果、担当SE は土日夜中もセンターから呼び出され、その負荷が大きい。障害対応には普通にやっても時間がかかる。場合によっては、重要なメッセージを読み落とし、ユーザの求める障害対応の期待水準を遵守できないこともある。
障害箇所に近い順に時間を追って、影響を受けるシステム構成要素から障害メッセージが発生するとは限らない。また、複数の障害が同時に起きている可能性は常にある。従って、障害箇所に最も近いシステム構成要素の障害メッセージを見分け、これと関連する他のシステム構成要素の障害メッセージをその依存関係又は因果関係で整理することが求められる。それも瞬時に行うことが望ましい。
依存関係の推定には知識と情報が必要である。
必要な知識(一般則)と、対象の構成情報(個別則)を持っているからこそ、担当SE による依存関係推定が可能である。しかし、一般則とは言え知識をシステム化するのは非常に困難である。
また、実際のシステムは多数の人間・部署の参加で構成され稼動している。個別則である対象システムの構成情報は常に変化していて、全体の最新の詳細な情報を常に現状と一致するように把握しておくことは極めて困難である。
従って、障害に関する知識や構成情報から障害メッセージの依存関係を推定するのは困難である。
本発明の特徴は、因果関係推定プログラムであって、コンピュータに、
予め複数の因果関係推定値算出ルール、を記憶するステップと、
第1のエラーメッセージのID、前記第1のエラーメッセージが生成された第1の時刻、前記第1のエラーメッセージを生成した第1のプロセスのID、前記第1のプロセスがコネクトしていた第1のプロセス間通信の第1通信相手又は第1の共有ファイルの第1共有相手、前記第1のプロセス間通信又は前記第1の共有ファイルの第1生成時刻及び第1消滅時刻を第1の装置から受け取るステップと、
第2のエラーメッセージのID、前記第2のエラーメッセージが生成された第2の時刻、前記第2のエラーメッセージを生成した第2のプロセスのID、前記第2のプロセスがコネクトしていた第2のプロセス間通信の第2通信相手又は第2の共有ファイルの第2共有相手、前記第2のプロセス間通信又は前記第2の共有ファイルの第2生成時刻及び第2消滅時刻を第2の装置から受け取るステップと、
前記第1のプロセスIDと前記第2のプロセスIDが同一であるかを判断する、
前記第1通信相手が前記第2のプロセスか又は前記第2通信相手が前記第1のプロセスかに基づいて、前記第1のプロセスと前記第2のプロセスとの間に少なくとも一時的にプロセス間通信が存在したかを判断する、
前記第1共有相手が前記第2のプロセスか又は前記第2共有相手が前記第1のプロセスかに基づいて、前記第1のプロセスと前記第2のプロセスとの間に少なくとも一時的に共有ファイルが存在したかを判断する、
前記第1の時刻、前記第2の時刻、並びに前記第1生成時刻、前記第1消滅時刻、前記第2生成時刻、及び前記第2消滅時刻の内の少なくとも1つの時刻に基づいて、前記第1の時刻と前記第2の時刻との間に前記第1のプロセス間通信若しくは前記第1の共有ファイル又は前記第2のプロセス間通信若しくは前記第2の共有ファイルが存在したかを判断する、
の内の少なくとも1つを実行し、その判断の結果に基づいて適用すべき因果関係推定値算出ルールを選択するステップと、
適用すべき因果関係推定値算出ルールに基づいて、因果関係推定値を算出するステップと、を実行させることにある。
「プロセス」には、「スレッド」も含まれる。「プロセスID」は、一つのプロセスと他のプロセスとを識別可能なものであれば何でも良い。
「第1の装置」と「第2の装置」は異なる装置であっても同じ装置であっても良い。
第1の時刻と第2の時刻との間に、第1生成時刻、第1消滅時刻、第2生成時刻、第2消滅時刻のいずれかが存在する場合は、第1の時刻と第2の時刻との間に少なくとも一時的に第1のプロセス間通信若しくは第1の共有ファイル又は第2のプロセス間通信若しくは第2の共有ファイルが存在したものと判断することができる。
また、第1生成時刻と第1消滅時刻との間又は第2生成時刻と第2消滅時刻との間に第1の時刻及び第2の時刻が存在する場合も、第1の時刻と第2の時刻との間に少なくとも一時的に第1のプロセス間通信若しくは第1の共有ファイル又は第2のプロセス間通信若しくは第2の共有ファイルが存在したものと判断することができる。
ファイル共有とは、一方のプロセスが、共有ファイルをオープンし、クローズした後に、他方のプロセスが、共有ファイルをオープンし、クローズする場合と、一方のプロセスが、共有ファイルをオープンし、クローズする前に、他方のプロセスが、共有ファイルをオープンする場合、の両方を含む。
本発明の特徴によれば、対象となるシステム構成がどのように変化しても、障害の依存関係がどのようであっても、エラーメッセージ間の因果関係を推定することができる。
以下、図面に基づいて本発明の実施例について説明する。実施例は、単なる例に過ぎず、本発明の技術的範囲を限定するものではない。
図1は、本発明の実施例の全体構成を示す。
第1のOSがプロセスP1,P2,P3を生成する。第1のOSは、プロセスP1、P2、P3のプロセスID、そのプロセス生成時刻、消滅時刻をOSのログファイルOS-LF1に記録する。第1のOSは、プロセスP1とプロセスP2間に、第1のプロセス間通信を介したデータ交換を仲介する。第1のOSは、前記第1のプロセス間通信のIDおよび生成時刻、消滅時刻、前記第1のプロセス間通信にコネクトしたプロセスのIDおよびそのコネクト開始時刻および終了時刻をOSのログファイルOS-LF1に記録する。
第1のOSは、プロセスP2とプロセスP3間に、第1のファイルF1を介したデータ交換を仲介する。第1のOSは、前記第1のファイルF1のIDおよび生成時刻、消滅時刻、前記第1のファイルF1にコネクトしたプロセスのIDおよびそのコネクト開始時刻および終了時刻をOSのログファイルOS-LF1に記録する。
プロセスP1、プロセスP2、プロセスP3は、各々が生成するエラーメッセージ、エラーメッセージID、エラーメッセージ生成時刻を各々のログファイルLF1、ログファイルLF2、ログファイルLF3に記録する。
また、第2のOSがプロセスP4,P5,P6を生成する。第2のOSは、プロセスP4、P5、P6のプロセスID、そのプロセス生成時刻、消滅時刻をOSのログファイルOS-LF2に記録する。第2のOSは、プロセスP4とプロセスP5間に、第2のプロセス間通信を介したデータ交換を仲介する。第2のOSは、前記第2のプロセス間通信のIDおよび生成時刻、消滅時刻、前記第2のプロセス間通信にコネクトしたプロセスのIDおよびそのコネクト開始時刻および終了時刻をOSのログファイルOS-LF2に記録する。
第2のOSは、プロセスP5とプロセスP6間に、第2のファイルF2を介したデータ交換を仲介する。第2のOSは、前記第2のファイルF2のIDおよび生成時刻、消滅時刻、前記第2のファイルF2にコネクトしたプロセスのIDおよびそのコネクト開始時刻および終了時刻をOSのログファイルOS-LF2に記録する。
プロセスP4、プロセスP5、プロセスP6は、各々が生成するエラーメッセージ、エラーメッセージID、エラーメッセージ生成時刻を各々のログファイルLF4、ログファイルLF5、ログファイルLF6に記録する。
プロセスP3とプロセスP5は第1のネットワーク1を介して第3のプロセス間通信を行う。第1のOSは、第1のネットワークが提供するプロセス間通信のIDおよび生成時刻、消滅時刻、前記第3のプロセス間通信にコネクトした第1のOS管理下のプロセスのIDおよびそのコネクト開始時刻および終了時刻を第1のOSのログファイルOS-LF1に記録する。第2のOSは、第1のネットワークが提供するプロセス間通信のIDおよび生成時刻、消滅時刻、前記第3のプロセス間通信にコネクトした第2のOS管理下のプロセスのIDおよびそのコネクト開始時刻および終了時刻を第2のOSのログファイルOS-LF2に記録する。
因果関係推定装置10は、読み取り装置11、書き込み装置12、記憶装置13、中央処理装置14、出力装置15、表示装置16などから構成される。
読み取り装置11は、ネットワーク1を介して又はネットワーク1を介さずに、OSのログファイルOS-LF-1〜2およびプロセスのログファイルLF1〜6から、記録された内容を読み取る。
書き込み装置12は、OSのログファイルOS-LF-1〜2およびプロセスのログファイルLF1〜6から読み取った内容を時系列に並べイベントファイルとして記憶装置13に記憶する。また、書き込み装置12は、ログファイルLF1〜4から読み取った内容に基づいて、エラーメッセージが生成した時刻、エラーメッセージのID、エラーメッセージを生成したプロセスのIDを、時系列に並べたエラーメッセージ・プロセス関係ファイルを記憶装置13に記憶する。
記憶装置13は、イベントファイルやエラーメッセージ・プロセス関係ファイルを記憶する他に、因果関係推定値算出ルールファイル、関係強さ係数・定数ファイル、閾値ファイルなども記憶する。記憶装置として、読み書き可能なランダムアクセスメモリ(RAM)、ハードディスク(HD)やフロッピー(登録商標)ディスク(FD)などの磁気ディスク、DVD−RAMなどの光ディスクが利用される。
中央処理装置(CPU)14は、記録装置13の内容から、任意の2つのエラーメッセージに着目し、それらが同じプロセスIDが生成したエラーメッセージか、プロセス間通信を介して情報交換していたか、ファイルを介して情報交換していたかを抽出し、エラーメッセージ生成時刻、エラーメッセージID、エラーメッセージ生成プロセスID間の関係を抽出する。また、因果関係推定値算出ルール、各関係強さ係数、各定数等に基づいて、各エラーメッセージ間の因果関係を推定する。
出力装置15は、中央処理装置14が推定した因果関係を表示装置16に表示するための表示信号を出力する。
表示装置16は、出力装置15から表示信号を受信して、エラーメッセージやそのIDやそれらの間の因果関係を表示する。表示装置16には、CRTディスプレイ、ELディスプレイ、液晶ディスプレイ、プラズマディスプレイなどが含まれる。
読み取り装置11、書き込み装置12、記憶装置13、中央処理装置14、出力装置15はバス(不図示)を介してデータを送受信することができる。
(プロセス・ファイル・通信管理機能)
各OSは「プロセス・ファイル・通信管理機能」を有する。
「プロセス・ファイル・通信管理機能」とは、
・ プロセスからの要求に基づく同一OSでの別プロセスの新規生成かつ消去
・ プロセスからの要求に基づく同一OSでのファイルの新規生成かつ接続(読み出し・書き込み)・切り離し、あるいは既存ファイルとの接続(読み出し・書き込み)・切り離し
・ プロセスからの要求に基づく同一OSでの別のプロセスとの通信の新規生成かつ接続(読み出し・書き込み)・切り離し、あるいは既存通信との接続(読み出し・書き込み)・切り離し
・ プロセスからの要求に基づく、ネットワークが提供する別のOS上のファイルの新規生成かつ接続(読み出し・書き込み)・切り離し、あるいは既存遠隔ファイルとの接続(読み出し・書き込み)・切り離し
・ プロセスからの要求に基づく、ネットワークが提供する別のOS上のプロセスとの通信の新規生成かつ接続(読み出し・書き込み)・切り離し、あるいは既存通信との接続(読み出し・書き込み)・切り離し
を管理する機能である。
これらは、当該OSによって一つのあるいは複数のログファイルに記録される。
扱われるプロセスID、ファイルID、通信IDと共に上記がログファイルに記録される。
(ログファイル・プロセス状況把握機能)
各アプリケーションは「ログファイル」を有するものとする。
アプリケーションは一つあるいは複数のプロセスから構成されるが、それらに対応して一つのあるいは複数のログファイルが生成され、対応するプロセスからその実行状況(ログ)がログファイルに書き込まれる。
・ 実行状況は、実行状況を示す内容(メッセージ文)とその状況が生じた時刻、これを書き込んだプロセスのID、書き込んだ時刻である。
読み取り装置11は、これらOSあるいはアプリケーションを構成するプロセスのログファイルから、プロセス・ファイル・通信状況を読み取り、書き込み装置12が、その内容を時系列に並べて記憶装置13にイベントファイルとして記憶する。
図2に、プロセス、プロセス間通信、ファイル、時刻の関係の一例を示す。図2に示すように、プロセスP1は、
時刻T01にプロセス間通信IPC1へのコネクトを開始し、
時刻T04にエラーメッセージE1を生成し、
時刻T12にエラーメッセージE5を生成し、
時刻T15にプロセス間通信IPC1へのコネクトを終了する。
プロセスP2は、
時刻T02にプロセス間通信IPC1へのコネクトを開始し、
時刻T05にファイルF1へのコネクトを開始し、
時刻T09にエラーメッセージE4を生成し、
時刻T13にファイルF1へのコネクトを終了し、
時刻T14にプロセス間通信IPC1へのコネクトを終了する。
プロセスP3は、
時刻T03にエラーメッセージE2を生成し、
時刻T06にプロセス間通信IPC2へのコネクトを開始し、
時刻T07にファイルF1へのコネクトを開始し、
時刻T08にエラーメッセージE3を生成し、
時刻T10にプロセス間通信IPC2へのコネクトを終了し、
時刻T11にファイルF1へのコネクトを終了する。
読み取り装置11は、これらの情報を読み取り、
CPU14は、これらを時系列に並べ、
書き込み装置12は、イベントファイルとして記憶装置13に書き込む。
図3(a)に、イベントファイルの一例を示す。尚この例でプロセスIDは、ネットワークを介したOSが異なる環境全体で個々のプロセスを識別するIDである。図3(a)に示すように、
・時刻T01、プロセスP1がプロセス間通信IPC1にコネクト開始
・時刻T02、プロセスP2がプロセス間通信IPC1にコネクト開始
・時刻T03、プロセスP3がエラーメッセージE2発生
・時刻T04、プロセスP1がエラーメッセージE1発生
・時刻T05、プロセスP2がファイルF1にコネクト開始
・時刻T06、プロセスP3がプロセス間通信IPC2にコネクト開始
・時刻T07、プロセスP3がファイルF1にコネクト開始
・時刻T08、プロセスP3がエラーメッセージE3発生
・時刻T09、プロセスP2がエラーメッセージE4発生
・時刻T10、プロセスP3がプロセス間通信IPC2へのコネクト終了
・時刻T11、プロセスP3がファイルF1へのコネクト終了
・時刻T12、プロセスP1がエラーメッセージE5発生
・時刻T13、プロセスP2がファイルF1へのコネクト終了
・時刻T14、プロセスP2がプロセス間通信IPC1へのコネクト終了
・時刻T15、プロセスP1がプロセス間通信IPC1へのコネクト終了
という内容のイベントファイルが得られる。
さらに、CPU14は、イベントファイルに基づいて、エラーメッセージとプロセスとプロセス間通信又はファイルとの関係を解析する。
書き込み装置12は、解析結果をエラーメッセージ・プロセス関係ファイルとして記憶装置13に書き込む。
CPU14が行う解析とは、具体的には、
イベント内容を検索し、エラーメッセージを探し出し、
エラーメッセージを生成したプロセスが、プロセス間通信又はファイルへのコネクト中かを判断する。
図3(a)のイベントファイルに基づいて、より具体的に説明すると、
時刻T03にエラーメッセージE2を発見したら、
エラーメッセージE2はプロセスP3が発生したことから、
プロセスP3が時刻T03以前にコネクトを開始しているかを調べ、
まだコネクトを開始していないことから、コネクト中ではないと判断する。
その結果、図3(b)に示すエラーメッセージ・プロセス関係ファイルの1行目は、
「発生日時,エラーメッセージID,プロセスID」=「T03,E2,P3」となる。
次いで、時刻T04にエラーメッセージE1を発見したら、
エラーメッセージE1はプロセスP1が発生したことから、
プロセスP1が時刻T04以前にコネクトを開始しているかを調べ、
既に時刻T01においてプロセス間通信IPC1へのコネクトを開始していることから、時刻T01とT04の間においてプロセス間通信IPC1へのコネクトを終了していないかを調べ、
まだ終了していないので、コネクト中であると判断する。
その結果、図3(b)の2行目は、
「発生日時,エラーメッセージID,プロセスID,IPC ID」=「T04,E1,P1,IPC1」となる。
このようにイベントファイル中においてエラーメッセージを検索し、そのエラーメッセージに対応するプロセスを特定し、そのプロセスがプロセス間通信又はファイルへのコネクト中であったかを調べるという処理を繰り返して、図3(b)に示すエラーメッセージ・プロセス関係ファイルを生成する。
同様にして、図4に示すプロセス、プロセス間通信又はファイル、エラーメッセージ関係にあるシステムの状況から、図3(c)に示すエラーメッセージ・プロセス関係ファイルを得る。
このようにして得られたエラーメッセージ・プロセス関係ファイル、及び記憶装置13に予め記憶されている関係強さ係数ファイル、定数ファイルに基づいて、エラーメッセージ因果関係を推定する。
図5に、本実施例の処理の概要を示す。図5に示すように、まずエラーメッセージ間の因果関係を推定し(ステップS10)、次いで、因果関係を表示装置16に表示する(ステップS20)。
(因果関係推定の概要)
まず、推定結果の概要を説明する。例えば、図2に示す例における推定結果とは、
「エラーメッセージE1が原因で、エラーメッセージE5が結果」、
「エラーメッセージE3が原因で、エラーメッセージE4が結果」、
「エラーメッセージE4が原因で、エラーメッセージE5が結果」、
「エラーメッセージE2が原因で、エラーメッセージE3が結果」であると強く推定され、一方、
「エラーメッセージE2が原因で、エラーメッセージE4が結果」が弱く推定されるということである。
なお、前記の如く、プロセス間通信は抽象化される。プロセス間通信サービスによって、同一OS内であっても、ネットワークサービスを介してもプロセス間通信は原理的に同様に行われるので、原則として区別しない。
また、プロセス間通信サービスの「生成」と「消滅」。プロセス間通信サービスに対するプロセスによるコネクト(オープン)「開始」と「終了」。これら「生成」、「消滅」、「開始」及び「終了」は独立して成立するものとして抽象化する。
さらに、前記の如く、ファイルもプロセスと同様に扱うことが可能であるので、ファイルも抽象化する。つまり、ファイルの「生成」と「消滅」。そのファイルに対するプロセスによるコネクト(オープン)「開始」と「終了」。これら「生成」、「消滅」、「開始」及び「終了」も独立して成立するものとして抽象化する。
(エラーメッセージ間関係強さ−プロセス間通信又はファイル共有の場合)
プロセスがプロセス間通信又はファイルにコネクトしている間に生じたエラーメッセージの関係強さ係数(第1の関係強さ係数)及び
プロセスがプロセス間通信又はファイルにコネクトしていない間に生じたエラーメッセージの関係強さ係数(第2の関係強さ係数)を予め記憶装置13に記憶させておく。例えば、第1の関係強さ係数を「2」、第2の関係強さ係数を「1」とする。
図6に、関係強さ係数を求める処理の流れを示す。まず、着目する2つのプロセスを定めた後に、これら2つのプロセスが生成する各エラーメッセージの関係強さ係数を求めるものとする。
図6に示すように、関係強さ係数を求めるエラーメッセージを特定し(ステップS101)、特定されたエラーメッセージが、プロセス間通信又はファイルにコネクト中に生成されたものかをエラーメッセージ・プロセス関係ファイルに基づいて調べる(ステップS102)。
エラーメッセージが、プロセス間通信又は共有ファイルにコネクト中に生成した場合は、関係強さ係数を「2」とする(ステップS103)。
エラーメッセージが、プロセス間通信又は共有ファイルにコネクトしていない間に生成した場合は、関係強さ係数を「1」とする(ステップS104)。
図3(c)の表に基づいて説明する。エラーメッセージE20,E50,E70,E35は、プロセス間通信IPC1又は共有ファイルF1にコネクトしている間に生じたエラーメッセージであるから、関係強さ係数は2になる。
エラーメッセージE20,E50,E70,E35以外は、プロセス間通信又は共有ファイルにコネクトしていない間に生じたエラーメッセージであるから、関係強さ係数は1になる。
このような関係強さ係数に基づいて、エラーメッセージ間の関係強さを求める。しかし、対象となるエラーメッセージが同一プロセスによって生成された場合は、後述するように、関係強さ係数に基づかずに、エラーメッセージ間の関係強さを求める。
なお、ファイル共有の場合は、ファイルが生成された後、プロセスがファイルをオープンし、読み書きし、クローズする一連のタスクは、相手プロセスとは非同期に行うことができる。従って、前記の方法は、ファイル共有の場合の方がプロセス間通信の場合よりも、各エラーメッセージ間の関係強さに妥当性がある。
(エラーメッセージ間関係強さ−同一プロセスの場合)
同一プロセスにおけるエラーメッセージ間の関係強さ係数(同一プロセス間関係強さ係数)を予め記憶装置13に記憶させておく。例えば、同一プロセス間関係強さ係数を「4」とする。
関係強さ係数を求める対象となる2つのエラーメッセージを生成したプロセスをエラーメッセージ・プロセス関係ファイルを参照して特定する。2つのプロセスが同一プロセスであるなら、関係強さ係数は4であるとする。
具体的には、図4に示す例において、プロセスP2におけるエラーメッセージE40とE50、E40とE60、E40とE70の間の関係強さも、エラーメッセージE50とE60、E50とE70の間の関係強さも、エラーメッセージE60とE70の間の関係強さも全て「4」とする。
同様に、プロセスP3におけるエラーメッセージE10とE20、E10とE30、E10とE35、E10とE36の間の関係強さも、エラーメッセージE20とE30、E20とE35、E20とE36の間の関係強さも、エラーメッセージE30とE35、E30とE36の間の関係強さも、エラーメッセージE35とE36の間の関係強さも、全て「4」とする。
なお、2つのエラーメッセージが別のプロセスから生成された場合は、2つのエラーメッセージの生成時刻間に着目し、その時刻間に、各々を生成したプロセスの間に通信あるいはファイル共有があったか調べる。
2つのエラーメッセージ生成時刻間にプロセス間通信もファイル共有もない場合は、その2つのエラーメッセージ間には因果関係は無いものと見なす。
具体的には、図4に示す例において、エラーメッセージE40の発生時刻とエラーメッセージE0の発生時刻との間には、エラーメッセージE40を生成したプロセスP2とエラーメッセージE0を生成したプロセスP3との間に、プロセス間通信もファイル共有も存在しないので、両エラーメッセージ間には因果関係は無いものと見なす。同様に、エラーメッセージE30とE60との間にも、因果関係は無いものと見なす。
この場合に、着目するエラーメッセージの相対する通信あるいはファイル共有と、もう一方のエラーメッセージの相対する通信あるいはファイル共有が同一であるかどうかは問わない。
具体的には、図4に示す例において、エラーメッセージE50とエラーメッセージE35とに着目する。エラーメッセージE50が相対するプロセス間通信IPC1aと、エラーメッセージE35が相対するプロセス間通信IPC1bとは同一でなくても、そのことをもって因果関係なしとは判断しない。つまり、エラーメッセージE35とE50との間には因果関係があるものと判断する。
着目するエラーメッセージが、そのメッセージを生成したプロセスがプロセス間通信又は共有ファイルにコネクトしていない時間に、生成されたということは、両エラーメッセージ間の因果関係の存在を否定しない。
具体的には、エラーメッセージE40はプロセスP2がプロセス間通信にコネクトしていない時間に生成され、同様にエラーメッセージE30はプロセスP3がプロセス間通信にコネクトしていない時間に生成されたものであるが、このことは両エラーメッセージ間の因果関係の存在を否定しない。
すなわち、両エラーメッセージ発生時刻間にプロセス間通信もファイル共有も存在しなければ、因果関係の存在が否定される。一方、両エラーメッセージ発生時刻間に「少なくとも一時的に」プロセス間通信又はファイル共有が存在すれば、因果関係の存在が否定されない。
(時間間隔ファクター−同一プロセスの場合)
図7に、時間間隔ファクター又は並び間隔数ファクターを加味して因果関係推定値を算出する処理の流れを示す。
図7に示すように、2つのエラーメッセージが発生した時刻の差又は2つのエラーメッセージが発生した間に存在する他のエラーメッセージの個数を考慮する。
同一プロセス間では、エラーメッセージ間の時間間隔が長くなるとエラーメッセージ間の因果関係は小さくなる。
そこで、2つのエラーメッセージが同一プロセスによって生成された場合(図7,ステップ111,YES)、
「因果関係推定値」
=「エラーメッセージ間関係強さ」+「時間間隔ファクター」
=「同一プロセスエラーメッセージ間関係強さ係数」+「第1定数」−「時間間隔」
とする(ステップS112)。例えば、単位をミリ秒として、第1定数を10ミリ秒とする。
エラーメッセージE10とE20の因果関係推定値を求める場合について説明する。
まず、図3(c)の表に基づいて、エラーメッセージE10とE20が共に同一プロセスによって生成されたものかなどを調べる(ステップS111)。
エラーメッセージE10とE20は、共に同一のプロセスP3によって生成されたものであるから、
「因果関係推定値」
=「同一プロセス間関係強さ係数」+「第1定数」−「時間間隔」
によって因果関係推定値を求める(ステップS112)。
エラーメッセージE10とE20との時間間隔が5ミリ秒の場合、
「因果関係推定値」=4+10−5=9
となる。
同様に、同一プロセスP3のエラーメッセージE20とE30との時間間隔が5.5ミリ秒の場合、
「因果関係推定値」=4+10−5.5=8.5
となる。
同様に、同一プロセスP2のエラーメッセージE50とE60との時間間隔が6ミリ秒の場合、
「因果関係推定値」=4+10−6=8
となる。
(時間間隔ファクター−プロセス間通信の場合)
同期が求められるプロセス間通信においても、エラーメッセージ間の時間間隔が長くなるとエラーメッセージ間の因果関係は小さくなる。
そこで、2つのエラーメッセージを生成したプロセス間にプロセス間通信が存在する場合、
「因果関係推定値」
=「関係強さ係数の和」+「第1定数」−「時間間隔」
とする(ステップS114)。
プロセスP2とプロセスP3との間にプロセス間通信IPC1が生成し、エラーメッセージE20とE50との時間間隔が1ミリ秒の場合、
「因果関係推定値」
=「エラーメッセージE20の関係強さ係数」+「エラーメッセージE50の関係強さ係数」+「第1定数」−「エラーメッセージE20とE50との時間間隔」
=2+2+10−1=13
となる。
また、エラーメッセージE50とE30との時間間隔が4ミリ秒だとすると、
「因果関係推定値」
=「エラーメッセージE50の関係強さ係数」+「エラーメッセージE30の関係強さ係数」+「第1定数」−「エラーメッセージE50とE30との時間間隔」
=2+1+10−4=9
となる。
さらに、エラーメッセージE40とE30との時間間隔が14ミリ秒だとすると、
「因果関係推定値」
=「エラーメッセージE40の関係強さ係数」+「エラーメッセージE30の関係強さ係数」+「第1定数」−「エラーメッセージE40とE30との時間間隔」
=1+1+10−14=−2
となる。
(並び間隔数ファクター−ファイル共有の場合)
同期が求められない、非同期で良いファイル共有では、時間間隔が因果関係に与える影響は、プロセス間通信等において時間間隔が因果関係に与える影響ほど大きくない。時間間隔よりもむしろ2つのエラーメッセージ間に発生した他のエラーメッセージの個数の方が因果関係に大きな影響を与える可能性が高い。
そこで、2つのエラーメッセージを生成したプロセス間に共有ファイルが存在する場合、
「因果関係推定値」
=「関係強さ係数の和」+「第1定数」−「第2定数」*「並び間隔数」
とする(ステップS116)。
例えば、単位をミリ秒として第2定数を1ミリ秒とする。
「並び間隔数」とは、ファイル共有にある任意の二つのプロセス上のエラーメッセージを、その発生時刻で並べ、着目する二つのエラーメッセージ間に他のエラーメッセージが存在しない場合は「1」、存在する場合はエラーメッセージの個数に1を加えた値とする。具体的には、図3(c)の表から明らかなように、エラーメッセージE20とE50との間には他のエラーメッセージが存在しないので、並び間隔数は「1」となる。エラーメッセージE40とE30との間にはエラーメッセージE10,E20,E50が存在するので、並び間隔数は「4」となる。
エラーメッセージE20とE50との「因果関係推定値」は、
「因果関係推定値」
=「エラーメッセージE20の関係強さ係数」+「エラーメッセージE50の関係強さ係数」+「第1定数」−「第2定数」*「エラーメッセージE20とE50との並び間隔数」
=2+2+10−1*1=13
となる。
エラーメッセージE40とE30との「因果関係推定値」は、
「因果関係推定値」
=「エラーメッセージE40の関係強さ係数」+「エラーメッセージE30の関係強さ係数」+「第1定数」−「第2定数」*「エラーメッセージE40とE30との並び間隔数」
=1+1+10−1*4=8
となる。
(「時間間隔ファクター」及び「並び間隔数ファクター」における定数について)
前記の実施例では、第1定数を10ミリ秒とし、第2定数を1ミリ秒とした。しかし、これら定数は、かかる数値に限定されない。
第1定数は、エラーメッセージ間の因果関係を把握したい対象システムのオンラインレスポンス目標最大値を基準に決めることも出来る。例えば、第1定数はオンラインレスポンス目標最大値の10倍とする。つまり、オンラインレスポンス目標最大値が1.5ミリ秒であれば、第1定数は15ミリ秒とする。
もし、対象システムがバッチシステムのみで構成されている場合は、一般的なオンラインレスポンスの目標最大値の10倍とすることも出来る。一般的なオンラインレスポンスの目標最大値が2ミリ秒であるなら、第1定数は20ミリ秒とする。
定数はシステムの特性によって異なるので、第2定数は、デフォルト値を与えておいて、ユーザが適宜変更可能とすることが好ましい。デフォルト値に基づいて表示されたエラーメッセージ間関係を見た後に、ユーザが第2定数を変更し得ることが好ましい。例えば、デフォルト値を5ミリ秒とし、かかる値に基づいて表示されたエラーメッセージ間関係をユーザが見た後に、第2定数を5ミリ秒から3ミリ秒へ変更し、変更後の第2定数に基づいて新たなエラーメッセージ間関係を表示し得ることが好ましい。
(因果関係の表示)
図8に因果関係表示処理の流れを示し、図9に因果関係の第1の表示例を示し、図10に、因果関係の第2の表示例を示す。
図10には、図示していないが、関係する2つのエラーメッセージ間には、各々を生成したプロセス間に少なくとも一時的にプロセス間通信サービスが存在する、又は少なくとも一時的にファイル共有が存在する。具体的には、プロセスP4とP5、プロセスP5とP6、プロセスP6とP7、プロセスP7とP8、及びプロセスP8とP9の間の関係する2つのエラーメッセージ間には、少なくとも一時的にプロセス間通信サービスが存在する。又はプロセスP4とP5、プロセスP5とP6、プロセスP6とP7、プロセスP7とP8、及びプロセスP8とP9間の関係する2つのエラーメッセージ間には、少なくとも一時的にファイル共有が存在する。
前記の処理によって計算された各エラーメッセージ間の因果関係推定値が、閾値以上(又は閾値より大)か調べる(図8、ステップS201)。そして、閾値以上(又は閾値より大)という条件を満たすエラーメッセージ間にのみ線を表示する。
図9(a)は閾値を12とした場合の表示例、図9(b)は閾値を8.6とした場合の表示例、 図9(c)は閾値を7とした場合の表示例を示す。
つまり、図9(a)に示すように、閾値12以上が表示されるとした場合、因果関係推定値が13であるエラーメッセージE20−E50間にのみ線が表示される。
また、図9(b)に示すように、閾値8.6以上が表示されるとした場合、
因果関係推定値が13であるエラーメッセージE20−E50間、
同推定値が9であるエラーメッセージE10−E20,E30−E50間
に線が表示される。
さらに、図9(c)に示すように、閾値7以上が表示されるとした場合、
因果関係推定値が13であるエラーメッセージE20−E50間、
同推定値が9であるエラーメッセージE10−E20,E30−E50間、
同推定値が8.5であるエラーメッセージE20−E30間、
同推定値が8であるエラーメッセージE50−E60間
に線が表示される。
因果関係推定値に応じて、線の太さ、種類、色、濃度を変えることが好ましい。例えば、因果関係推定値が大きければ線を太くし、小さければ線を細くする。又は、
因果関係推定値が大きければ実線とし、小さければ点線とする。又は、
因果関係推定値が大きければ線を赤色とし、小さければ線を青色とする。又は、
因果関係推定値が大きければ線を濃い赤色とし、小さければ線を薄い赤色とする。
(因果関係の表示−原因と結果の推定)
2つのエラーメッセージ間に因果関係があると推定し、それらを線で結ぶだけでなく、さらに、どちらのエラーメッセージが原因で、どちらのエラーメッセージが結果かを推定し、表示することが好ましい。
例えば、2つのエラーメッセージが共に同一のプロセスによって生成されたものである場合(図8,ステップS202,YES)、又は同一のプロセスによって生成されたものではないが(ステップS202,NO)、2つのエラーメッセージの発生時刻の間隔がメッセージ発生時刻間隔閾値以上である場合(ステップS204,YES)は、エラーメッセージ発生日時が古いエラーメッセージが原因、エラーメッセージ発生日時が新しいエラーメッセージが結果と推定する(ステップS203)。
定数はシステムの特性によって異なるので、第2定数は、デフォルト値を与えておいて、ユーザが適宜変更可能とすることが好ましい。デフォルト値に基づいて表示されたエラーメッセージ間関係を見た後に、ユーザが第2定数を変更し得ることが好ましい。例えば、デフォルト値を5ミリ秒とし、かかる値に基づいて表示されたエラーメッセージ間関係をユーザが見た後に、第2定数を5ミリ秒から3ミリ秒へ変更し、変更後の第2定数に基づいて新たなエラーメッセージ間関係を表示し得ることが好ましい。
また、2つのエラーメッセージの発生時刻の間隔がメッセージ発生時刻間隔閾値以上ではない場合(ステップS204,NO)であって、2つのエラーメッセージを生成したプロセスが親子プロセスの関係にある場合(ステップS205,YES)は、子プロセスが生成したエラーメッセージが原因、親プロセスが生成したエラーメッセージが結果と推定する(ステップS206)。
プロセス間通信の種類によっては、他のプロセスを起動する親プロセスと、他のプロセスによって起動される子プロセスとを区別できるものがある。そのような場合は、エラーメッセージ・プロセス関係ファイルに、プロセスP1がプロセスP2を起動した、又はプロセスP2はプロセスP1によって起動されたなどの情報を記憶させておく。かかる情報に基づいて、親子関係を判断する。
親子プロセスでは、子のエラーメッセージが原因、親のエラーメッセージが結果となることが多い。よって、親子プロセス間においては、子プロセスが原因、親プロセスが結果と推定することが好ましい。
さらに、2つのエラーメッセージを生成したプロセスが親子プロセスの関係ではない場合(ステップS205,NO)は、プロセス年齢の高いプロセスが生成したエラーメッセージが原因、プロセス年齢の低いプロセスが生成したエラーメッセージが結果と推定する(ステップS207)。
プロセス年齢が高いプロセスとは、2つのプロセスのプロセス発生日時を比較した場合に、プロセス発生日時が古い方のプロセスのことである。プロセス年齢が低いプロセスとは、プロセス発生日時が新しい方のプロセスのことである。プロセス年齢を比較するためには、各プロセスのプロセス生成時間もシステムイベントファイルに記憶する。
このようにして、原因と結果を推定したら、原因と推定される側のエラーメッセージから、結果と推定される側のエラーメッセージへ向かう矢印線を表示する(ステップS208)。
図10において、エラーメッセージ間に表示される線は、一端に矢印を有する矢印線である。例えば、エラーメッセージE81とE82との関係において、エラーメッセージE81が原因、エラーメッセージE82が結果と推定される場合、矢印の向きはエラーメッセージE81からE82へ向かう。同様に、エラーメッセージE82が原因、エラーメッセージE88が結果と推定される場合、矢印の向きはエラーメッセージE82からE88へ向かう。
矢印は、図10に例示の形状に限定されない。原因と推定される側から、結果と推定される側へ向かうことを表示可能なものであればどのような形状でも良い。
前記実施例では、第1の関係強さ係数を4、第2の関係強さ係数も4、第3の関係強さ係数を3、第4の関係強さ係数を2としたが、これらの数値に限定されない。第1の関係強さ係数と第2の関係強さ係数を異なる値としても良い。
ただし、原則として、
第4の関係強さ係数は、第3の関係強さ係数より小さくし、
第3の関係強さ係数は、第1,2の関係強さ係数より小さくする。
上記の如く、実施例によれば、エラーメッセージ間の因果関係推定値を算出することができる。また、算出された因果関係推定値に基づいて、因果関係が強いと推定されるエラーメッセージ間に線を表示するなどして、因果関係の有無を迅速かつ容易に推定することができる。また、因果関係推定値の大小に基づいて、線の太さ等を変更することによって、因果関係の強弱も迅速かつ容易に推定することができる。さらに、時間間隔、プロセスの親子関係、プロセス生成時刻などに基づいて、エラーメッセージ間の原因・結果関係も迅速かつ容易に推定することができる。
実施例の全体構成を示すブロック図である。 プロセス、プロセス間通信、ファイル、エラーメッセージ、時刻の関係の一例を示す図である。 (a)はイベントファイルの一例を示し、(b)及び(c)はエラーメッセージ・プロセス関係ファイルの一例を示す図である。 プロセス、プロセス間通信又はファイル、エラーメッセージの関係の他の例を示す図である。 実施例の処理の概要を示すフローチャートである。 関係強さ係数を求める処理の流れを示すフローチャートである。 時間間隔ファクター又は並び間隔数ファクターを加味して因果関係推定値を算出する処理の流れを示すフローチャートである。 因果関係表示処理の流れを示すフローチャートである。 因果関係の第1の表示例を示す図である。 因果関係の第2の表示例を示す図である。
符号の説明
1…ネットワーク、10…因果関係推定装置、11…読み取り装置、
12…書き込み装置、13…記憶装置、14…中央処理装置(CPU)、
15…出力装置、16…表示装置

Claims (11)

  1. コンピュータに、
    予め複数の因果関係推定値算出ルール、を記憶するステップと、
    第1のエラーメッセージのID、前記第1のエラーメッセージが生成された第1の時刻、前記第1のエラーメッセージを生成した第1のプロセスのID、前記第1のプロセスがコネクトしていた第1のプロセス間通信の第1通信相手又は第1の共有ファイルの第1共有相手、前記第1のプロセス間通信又は前記第1の共有ファイルの第1生成時刻及び第1消滅時刻を第1の装置から受け取るステップと、
    第2のエラーメッセージのID、前記第2のエラーメッセージが生成された第2の時刻、前記第2のエラーメッセージを生成した第2のプロセスのID、前記第2のプロセスがコネクトしていた第2のプロセス間通信の第2通信相手又は第2の共有ファイルの第2共有相手、前記第2のプロセス間通信又は前記第2の共有ファイルの第2生成時刻及び第2消滅時刻を第2の装置から受け取るステップと、
    前記第1のプロセスIDと前記第2のプロセスIDが同一であるかを判断する、
    前記第1通信相手が前記第2のプロセスか又は前記第2通信相手が前記第1のプロセスかに基づいて、前記第1のプロセスと前記第2のプロセスとの間に少なくとも一時的にプロセス間通信が存在したかを判断する、
    前記第1共有相手が前記第2のプロセスか又は前記第2共有相手が前記第1のプロセスかに基づいて、前記第1のプロセスと前記第2のプロセスとの間に少なくとも一時的に共有ファイルが存在したかを判断する、
    前記第1の時刻、前記第2の時刻、並びに前記第1生成時刻、前記第1消滅時刻、前記第2生成時刻、及び前記第2消滅時刻の内の少なくとも1つの時刻に基づいて、前記第1の時刻と前記第2の時刻との間に前記第1のプロセス間通信若しくは前記第1の共有ファイル又は前記第2のプロセス間通信若しくは前記第2の共有ファイルが存在したかを判断する、
    の内の少なくとも1つを実行し、その判断の結果に基づいて適用すべき因果関係推定値算出ルールを選択するステップと、
    適用すべき因果関係推定値算出ルールに基づいて、因果関係推定値を算出するステップと、を実行させる因果関係推定プログラム。
  2. 予め同一プロセス内関係強さ係数、及び第1の定数を記憶するステップを、さらに含み、
    前記第1のプロセスIDと前記第2のプロセスIDが同一である場合に選択される因果関係推定値算出ルールが、
    因果関係推定値=(同一プロセス内関係強さ係数)+(第1の定数)−|(第1の時刻)−(第2の時刻)|
    である請求項1記載の因果関係推定プログラム。
  3. 予め第1の関係強さ係数、第2の関係強さ係数、及び第1の定数を記憶するステップを、さらに含み、
    前記第1のプロセスと前記第2のプロセスとの間に少なくとも一時的にプロセス間通信が存在した場合に選択される因果関係推定値算出ルールが、
    因果関係推定値=(第1の関係強さ係数)+(第2の関係強さ係数)+(第1の定数)−|(第1の時刻)−(第2の時刻)|
    である請求項1記載の因果関係推定プログラム。
  4. 予め第1の関係強さ係数、第2の関係強さ係数、第1の定数、及び第2の定数を記憶するステップを、さらに含み、
    前記第1のプロセスと前記第2のプロセスとの間に少なくとも一時的にファイル共有が存在した場合に選択される因果関係推定値算出ルールが、
    因果関係推定値=(第1の関係強さ係数)+(第2の関係強さ係数)+(第1の定数)−(第2の定数)*(並び間隔数)
    である請求項1記載の因果関係推定プログラム。
  5. 前記第1のエラーメッセージのエラーメッセージIDと、前記第2のエラーメッセージのエラーメッセージIDとを記憶装置から読み出すステップと、
    前記第1のエラーメッセージIDと前記第2のエラーメッセージIDとを表示装置に表示する表示信号を出力するステップと、
    前記因果関係推定値が閾値以上又は閾値より大である場合に、前記第1のエラーメッセージIDと前記第2のエラーメッセージIDとを結ぶ線を前記表示装置に表示する表示信号を出力するステップと、
    をさらにコンピュータに実行させる請求項1乃至4記載の因果関係推定プログラム。
  6. 前記因果関係推定値の大小に応じて、前記線の太さ、種類、色の種類、又は色の濃さの少なくとも一つを変更する請求項5記載の因果関係推定プログラム。
  7. 予め複数の原因・結果推定ルールを記憶しておくステップと、
    前記第1のプロセスIDと前記第2のプロセスIDが同一か、
    前記第1の時刻と前記第2の時刻の間隔は、メッセージ発生時間間隔閾値以上又はより大か、
    前記第1のプロセスと前記第2のプロセスが親子プロセスか、
    に基づいて適用すべき原因結果推定ルールを選択するステップと、
    適用すべき原因結果推定ルールに基づき原因メッセージと結果メッセージを推定するステップと、
    原因結果推定結果に基づいて、前記原因メッセージから前記結果メッセージへ向かうことを示す矢印を表示する表示信号を出力するステップと、
    をさらにコンピュータに実行させる請求項5乃至6記載の因果関係推定プログラム。
  8. 前記第1のプロセスIDと前記第2のプロセスIDが同一、又は
    前記第1の時刻と前記第2の時刻の間隔がメッセージ発生時間間隔閾値以上又はより大、である場合に選択される原因結果推定ルールが、
    発生時刻が古いメッセージが原因、発生時刻が新しいメッセージが結果と推定するものである請求項7記載の因果関係推定プログラム。
  9. 前記第1のプロセスと前記第2のプロセスが親子プロセスである場合に選択される原因結果推定ルールが、
    子プロセスが発生したメッセージが原因、親プロセスが発生したメッセージが結果と推定するものである請求項7乃至8記載の因果関係推定プログラム。
  10. 前記第1のプロセスIDと前記第2のプロセスIDが同一、又は
    前記第1の時刻と前記第2の時刻の間隔は、メッセージ発生時間間隔閾値以上又はより大、ではなく、
    前記第1のプロセスと前記第2のプロセスが親子プロセスでない場合に選択される原因結果推定ルールが、
    年齢の高いプロセスが発生したメッセージが原因、年齢の低いプロセスが発生したメッセージが結果と推定するものである請求項7乃至9記載の因果関係推定プログラム。
  11. 記憶手段が、予め複数の因果関係推定値算出ルール、を記憶するステップと、
    受信手段が、第1のエラーメッセージのID、前記第1のエラーメッセージが生成された第1の時刻、前記第1のエラーメッセージを生成した第1のプロセスのID、前記第1のプロセスがコネクトしていた第1のプロセス間通信の第1通信相手又は第1の共有ファイルの第1共有相手、前記第1のプロセス間通信又は前記第1の共有ファイルの第1生成時刻及び第1消滅時刻を第1の装置から受け取り、
    第2のエラーメッセージのID、前記第2のエラーメッセージが生成された第2の時刻、前記第2のエラーメッセージを生成した第2のプロセスのID、前記第2のプロセスがコネクトしていた第2のプロセス間通信の第2通信相手又は第2の共有ファイルの第2共有相手、前記第2のプロセス間通信又は前記第2の共有ファイルの第2生成時刻及び第2消滅時刻を第2の装置から受け取るステップと、
    選択手段が、前記第1のプロセスIDと前記第2のプロセスIDが同一であるかを判断する、
    前記第1通信相手が前記第2のプロセスか又は前記第2通信相手が前記第1のプロセスかに基づいて、前記第1のプロセスと前記第2のプロセスとの間に少なくとも一時的にプロセス間通信が存在したかを判断する、
    前記第1共有相手が前記第2のプロセスか又は前記第2共有相手が前記第1のプロセスかに基づいて、前記第1のプロセスと前記第2のプロセスとの間に少なくとも一時的に共有ファイルが存在したかを判断する、
    前記第1の時刻、前記第2の時刻、並びに前記第1生成時刻、前記第1消滅時刻、前記第2生成時刻、及び前記第2消滅時刻の内の少なくとも1つの時刻に基づいて、前記第1の時刻と前記第2の時刻との間に前記第1のプロセス間通信若しくは前記第1の共有ファイル又は前記第2のプロセス間通信若しくは前記第2の共有ファイルが存在したかを判断する、
    の内の少なくとも1つを実行し、その判断の結果に基づいて適用すべき因果関係推定値算出ルールを選択するステップと、
    算出手段が、適用すべき因果関係推定値算出ルールに基づいて、因果関係推定値を算出するステップと、を含む因果関係推定方法。
JP2003432187A 2003-12-26 2003-12-26 因果関係推定プログラム及び因果関係推定方法 Expired - Fee Related JP4445750B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003432187A JP4445750B2 (ja) 2003-12-26 2003-12-26 因果関係推定プログラム及び因果関係推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003432187A JP4445750B2 (ja) 2003-12-26 2003-12-26 因果関係推定プログラム及び因果関係推定方法

Publications (2)

Publication Number Publication Date
JP2005190270A true JP2005190270A (ja) 2005-07-14
JP4445750B2 JP4445750B2 (ja) 2010-04-07

Family

ID=34789964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003432187A Expired - Fee Related JP4445750B2 (ja) 2003-12-26 2003-12-26 因果関係推定プログラム及び因果関係推定方法

Country Status (1)

Country Link
JP (1) JP4445750B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003866A (ja) * 2006-06-22 2008-01-10 Omron Corp 因果構造獲得装置、因果構造獲得方法、因果構造獲得プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
WO2008072678A1 (ja) * 2006-12-12 2008-06-19 International Business Machines Corporation 検出装置、システム、プログラムおよび検出方法
JP2011154491A (ja) * 2010-01-26 2011-08-11 Fujitsu Ltd 情報管理プログラム、情報管理装置、および情報管理方法
WO2015182072A1 (ja) * 2014-05-30 2015-12-03 日本電気株式会社 因果構造推定システム、因果構造推定方法およびプログラム記録媒体
JP2016099938A (ja) * 2014-11-26 2016-05-30 株式会社日立製作所 イベント分析システムおよび方法
JP2017037645A (ja) * 2015-08-07 2017-02-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited スマートアラートのためのシステム及び方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008003866A (ja) * 2006-06-22 2008-01-10 Omron Corp 因果構造獲得装置、因果構造獲得方法、因果構造獲得プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
WO2008072678A1 (ja) * 2006-12-12 2008-06-19 International Business Machines Corporation 検出装置、システム、プログラムおよび検出方法
KR101020018B1 (ko) 2006-12-12 2011-03-09 인터내셔널 비지네스 머신즈 코포레이션 검출 장치, 시스템, 프로그램 및 검출 방법
US7974800B2 (en) 2006-12-12 2011-07-05 International Business Machines Corporation Method, apparatus, and program for detecting the correlation between repeating events
JP4996624B2 (ja) * 2006-12-12 2012-08-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 検出装置、システム、プログラムおよび検出方法
JP2011154491A (ja) * 2010-01-26 2011-08-11 Fujitsu Ltd 情報管理プログラム、情報管理装置、および情報管理方法
WO2015182072A1 (ja) * 2014-05-30 2015-12-03 日本電気株式会社 因果構造推定システム、因果構造推定方法およびプログラム記録媒体
JP2016099938A (ja) * 2014-11-26 2016-05-30 株式会社日立製作所 イベント分析システムおよび方法
JP2017037645A (ja) * 2015-08-07 2017-02-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited スマートアラートのためのシステム及び方法

Also Published As

Publication number Publication date
JP4445750B2 (ja) 2010-04-07

Similar Documents

Publication Publication Date Title
US7475217B2 (en) Method of managing storage capacity in storage system, a storage device and a computer system
CN105357038B (zh) 监控虚拟机集群的方法和系统
EP3149591B1 (en) Tracking application deployment errors via cloud logs
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
US11061756B2 (en) Enabling symptom verification
US7552447B2 (en) System and method for using root cause analysis to generate a representation of resource dependencies
US10623235B2 (en) Correlating computing network events
US9612937B2 (en) Determining relevant events in source code analysis
US20050066027A1 (en) Method of displaying events
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US9355005B2 (en) Detection apparatus and detection method
JP5432867B2 (ja) 計算機システムの管理方法、及び管理システム
CN109284220B (zh) 集群故障恢复时长估算方法、装置、设备及存储介质
CN116089482A (zh) 分析大规模数据处理作业
US20190196897A1 (en) Influence range specifying method, influence range specifying apparatus, and storage medium
US9021078B2 (en) Management method and management system
CN109408361A (zh) Monkey测试复原方法、装置、电子设备及计算机可读存储介质
JP2010009411A (ja) 仮想化環境運用支援システム及び仮想環境運用支援プログラム
JP4445750B2 (ja) 因果関係推定プログラム及び因果関係推定方法
WO2012008058A1 (ja) 計算機システムの管理方法、及び管理システム
US20220207386A1 (en) Best outcome aiops modeling with data confidence fabrics
JP2002312205A (ja) アクセスログ情報の保存処理方法とその保存処理装置およびその処理プログラム
CN115204539A (zh) 主机安全基线管理方法、装置、设备及介质
CN111414269A (zh) 一种日志告警方法、装置、存储介质及设备
US8533331B1 (en) Method and apparatus for preventing concurrency violation among resources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100118

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees