JPH11272513A - ネットワークコンピューティング環境におけるトラブルシューティング装置及びトラブルシューティング方法並びにトラブルシューティングプログラムを記録した記録媒体 - Google Patents

ネットワークコンピューティング環境におけるトラブルシューティング装置及びトラブルシューティング方法並びにトラブルシューティングプログラムを記録した記録媒体

Info

Publication number
JPH11272513A
JPH11272513A JP10072436A JP7243698A JPH11272513A JP H11272513 A JPH11272513 A JP H11272513A JP 10072436 A JP10072436 A JP 10072436A JP 7243698 A JP7243698 A JP 7243698A JP H11272513 A JPH11272513 A JP H11272513A
Authority
JP
Japan
Prior art keywords
exception
information
time
occurrence
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10072436A
Other languages
English (en)
Other versions
JP3897897B2 (ja
Inventor
Toyoaki Furusawa
豊明 古澤
Kenichiro Inoue
健一郎 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP07243698A priority Critical patent/JP3897897B2/ja
Priority to US09/409,579 priority patent/US6530041B1/en
Publication of JPH11272513A publication Critical patent/JPH11272513A/ja
Application granted granted Critical
Publication of JP3897897B2 publication Critical patent/JP3897897B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【課題】 ネットワークコンピューティング環境におい
て発生した例外の発生原因を迅速に究明できるようにす
る。 【解決手段】 所定のアプリケーションが実行されるク
ライアント12及びサーバ14からなるクライアント/サー
バシステム10と、アプリケーションで発生した例外の発
生情報を蓄積する集計サーバ20と、アプリケーションで
例外が発生したことを検知する例外発生検知手段と、例
外が発生したことが検知されたときに、集計サーバ20に
対して発生情報を伝達する例外情報伝達手段と、伝達さ
れた発生情報を蓄積するエラー情報ファイル26と、を含
んでトラブルシューティング装置を構成する。なお、ク
ライアント/サーバシステム10及び集計サーバ20は、シ
ステム規模に応じて多階層からなる階層構造としてもよ
い。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数のコンピュー
タにより構築されるネットワークコンピューティング環
境において発生した例外の発生原因を迅速に究明するト
ラブルシューティング技術に関する。
【0002】
【従来の技術】従来から、複数のコンピュータを利用し
て、大規模なネットワークコンピューティング環境が構
築されてきた。ネットワークコンピューティング環境の
代表的なものは、クライアント/サーバシステムであ
る。これから急速に普及するであろうと予測されるネッ
トワークコンピューティング環境では、異機種/OS/
言語で開発された分散アプリケーションが、相互に連携
し合い、1つの処理を行なう。
【0003】ところで、現在の技術では、アプリケーシ
ョンに例外が発生することを完全に防止することは不可
能である。このため、現在では、各アプリケーション毎
にエラーログを残し、このエラーログを専門家が解析す
ることで、例外の発生原因等を究明している。
【0004】
【発明が解決しようとする課題】しかしながら、従来で
は、エラーログは各アプリケーション固有のものである
ため、ネットワークコンピューティング環境において
は、次のような問題点があった。 (1) 例外が発生したアプリケーションを特定するために
は、複数のコンピュータに分散されたエラーログを調査
しなければならず、その探求に多大な労力が必要であっ
た。
【0005】(2) エラーログには、例外が発生したとき
の状態、例えば、通信状態が記録されていなかった。こ
のため、専門家が各アプリケーション固有のエラーログ
に基づいて、例外が発生したときの状態を推測しなけれ
ばならず、その推測にも多大な労力が必要であった。そ
こで、本発明は以上のような従来の問題点に鑑み、ネッ
トワークコンピューティング環境において発生した例外
を一括して収集することで、例外の発生原因究明を迅速
に行えるようにしたトラブルシューティング技術を提供
することを目的とする。
【0006】
【課題を解決するための手段】このため、請求項1記載
の発明は、所定のアプリケーションが実行される複数の
アプリケーション実行手段と、該アプリケーションで発
生した例外の発生情報を収集する例外情報収集手段と、
を含んで構成されるネットワークコンピューティング環
境におけるトラブルシューティング装置であって、前記
例外情報収集手段は、前記発生情報を蓄積する例外情報
蓄積手段と、前記アプリケーション実行手段に設けら
れ、前記アプリケーションに例外が発生したことを検知
する例外発生検知手段と、該例外発生検知手段により例
外が発生したことが検知されたときに、前記例外情報蓄
積手段に発生情報を伝達する例外情報伝達手段と、を含
んで構成されたことを特徴とする。
【0007】かかる構成によれば、ネットワークコンピ
ューティング環境を構成するアプリケーションで例外が
発生すると、例外発生検知手段によりその例外発生が検
知される。例外発生検知手段により例外発生が検知され
ると、アプリケーション実行手段から例外情報蓄積手段
に例外情報が伝達される。伝達された例外情報は、例外
情報蓄積手段に蓄積される。即ち、複数のアプリケーシ
ョンが相互に連携し合うことで1つの処理を行うシステ
ムであっても、発生情報は各アプリケーション実行手段
毎に蓄積されず、外付けされた例外情報蓄積手段におい
て一括して収集される。
【0008】請求項2記載の発明は、前記発生情報は、
例外が発生した前記アプリケーションが実行されていた
アプリケーション実行手段を特定する例外発生場所情報
と、例外が発生した時刻を特定する例外発生時刻情報
と、例外が発生した前記アプリケーションが実行されて
いたアプリケーション実行手段と情報交換を行なってい
た他のアプリケーション実行手段を特定する情報交換先
情報と、を含んだ構成とした。
【0009】かかる構成によれば、例外処理蓄積手段に
蓄積される発生情報には、例外発生場所情報、例外発生
時刻情報及び情報交換先情報が含まれる。従って、一括
して収集された発生情報を解析することで、どのアプリ
ケーションにおいて例外が発生したか、どのような通信
状態で例外が発生したか、或いは、いつ例外が発生しか
たを把握することができる。このため、従来のように、
各アプリケーション実行手段毎に残されたエラーログを
一々調べる必要がなく、例外の発生原因の解析が容易に
行われる。
【0010】請求項3記載の発明は、前記各アプリケー
ション実行手段における時刻を取得する第1の時刻取得
手段と、前記ネットワークコンピューティング環境にお
ける統一時刻を取得する第2の時刻取得手段と、を備
え、前記例外発生時刻情報は、前記第1の時刻取得手段
により取得された時刻と、前記第2の時刻取得手段によ
り取得された統一時刻と、を含んだ構成とした。
【0011】かかる構成によれば、例外発生時刻情報に
は、アプリケーション実行手段における例外発生時刻
と、ネットワークコンピューティング環境における例外
発生時刻と、の2種類の時刻が含まれる。従って、各ア
プリケーション実行手段における時刻が相違していて
も、ネットワークコンピューティング環境における例外
発生時刻をキーとして発生情報をソートすることによっ
て、システムで統一された時刻に発生情報が整列され
る。このため、例外発生の時系列的な関連付けが可能と
なる。
【0012】請求項4記載の発明は、前記第2の時刻取
得手段は、前記例外情報蓄積手段における時刻を取得す
る第3の時刻取得手段と、前記アプリケーション実行手
段に設けられ、前記例外発生検知手段により例外の発生
が検知されたときに、当該例外情報蓄積手段に対して時
刻返送要求を送信する時刻返送要求送信手段と、前記例
外情報蓄積手段に設けられ、前記時刻返送要求を受信し
たときに、該時刻返送要求を送信した前記アプリケーシ
ョン実行手段に対して第3の時刻取得手段により取得さ
れた時刻を返送する時刻返送手段と、前記時刻返送要求
を送信してから時刻が返送されるまでの時間を計測する
返送時間計測手段と、前記時刻返送手段により返送され
た時刻及び返送時間計測手段により計測された時間に基
づいて、前記統一時刻を算出する統一時刻算出手段と、
を含んだ構成とした。
【0013】かかる構成によれば、ネットワークコンピ
ューティング環境における例外発生時刻は、時刻返送要
求を送信してから時刻が返送されるまでの時間と、時刻
返送要求に対して返送された時刻と、に基づいて算出さ
れる。従って、システムの統一時刻を取得することを目
的として、時計サーバを新たに設ける必要がない。請求
項5記載の発明は、前記例外情報収集手段により収集さ
れた発生情報のうち、少なくとも前記例外発生場所情
報、例外発生時刻情報及び情報交換先情報をキーとし
て、発生情報を絞り込む情報絞り込み手段と、該情報絞
り込み手段により絞り込まれた発生情報を表示する情報
表示手段と、を備えた構成とした。
【0014】かかる構成によれば、例外情報収集手段に
より収集された発生情報は、例外発生場所情報、例外発
生時刻情報及び情報交換先情報をキーとして、情報絞り
込み手段により自動的に絞り込まれる。そして、絞り込
まれた発生情報は、人間が視覚によって把握できるよう
に表示される。即ち、情報絞り込み手段を作動させる前
に、例外発生場所情報、例外発生時刻情報及び情報交換
先情報を適当に設定しておけば、発生情報が自動的に絞
り込まれ、その結果が表示される。
【0015】請求項6記載の発明は、所定のアプリケー
ションが実行される複数のアプリケーション実行工程
と、該アプリケーションで発生した例外の発生情報を収
集する例外情報収集工程と、を含んで構成されるネット
ワークコンピューティング環境におけるトラブルシュー
ティング方法であって、前記例外情報収集工程は、前記
発生情報を蓄積する例外情報蓄積工程と、前記アプリケ
ーション実行工程に設けられ、前記アプリケーションに
例外が発生したことを検知する例外発生検知工程と、該
例外発生検知工程により例外が発生したことが検知され
たときに、前記例外情報蓄積工程に発生情報を伝達する
例外情報伝達工程と、を含んで構成されたことを特徴と
する。
【0016】かかる構成によれば、ネットワークコンピ
ューティング環境を構成するアプリケーションで例外が
発生すると、例外発生検知工程によりその例外発生が検
知される。例外発生検知工程により例外発生が検知され
ると、アプリケーション実行工程から例外情報蓄積工程
に例外情報が伝達される。伝達された例外情報は、例外
情報蓄積工程に蓄積される。即ち、複数のアプリケーシ
ョンが相互に連携し合うことで1つの処理を行うシステ
ムであっても、発生情報は各アプリケーション実行工程
において蓄積されず、外付けされた例外情報蓄積工程に
おいて一括して収集される。
【0017】請求項7記載の発明は、所定のアプリケー
ションが実行される複数のアプリケーション実行機能
と、該アプリケーションで発生した例外の発生情報を収
集する例外情報収集機能と、を実現するためのネットワ
ークコンピューティング環境におけるトラブルシューテ
ィングプログラムを記録した記録媒体であって、前記例
外情報収集機能は、前記発生情報を蓄積する例外情報蓄
積機能と、前記アプリケーション実行機能に設けられ、
前記アプリケーションに例外が発生したことを検知する
例外発生検知機能と、該例外発生検知機能により例外が
発生したことが検知されたときに、前記例外情報蓄積機
能に発生情報を伝達する例外情報伝達機能と、を含んで
構成されたことを特徴とする。
【0018】ここで、「記録媒体」とは、各種情報を確
実に記録でき、かつ、必要に応じて確実に取り出すこと
が可能なものをいい、具体的には、紙カード(パンチカ
ード)、紙テープ、磁気テープ、磁気ディスク、磁気ド
ラム、ICカード、CD−ROM等が該当する。かかる
構成によれば、アプリケーション実行機能と、例外情報
収集機能と、を実現するためのネットワークコンピュー
ティング環境におけるトラブルシューティングプログラ
ムが記録媒体に記録される。そして、例外情報蓄積機能
と、例外発生検知機能と、例外情報伝達機能と、含んで
例外情報収集機能が構成される。従って、各機能を実現
するためのプログラムを記録した記録媒体があれば、例
えば、一般的な電子計算機に対して、各機能を持たせる
ことができ、本発明に係るトラブルシューティング装置
が容易に構築される。
【0019】
【発明の実施の形態】以下、添付された図面を参照して
本発明を詳述する。図1は、単一階層のクライアント/
サーバシステムに対して、本発明に係るトラブルシュー
ティング装置を適用した一実施形態を示している。クラ
イアント/サーバシステム10(アプリケーション実行
手段、アプリケーション実行工程、アプリケーション実
行機能)は、少なくとも1つのクライアント12と、1
つのサーバ14と、を含んで構築される。クライアント
12とサーバ14とは、図示しない通信回線により接続
され、例えば、一種の通信プロトコルであるTCP/I
P(Transmission Control Protocol /Internet Proto
col)のソケットを介して、情報交換が行われる。クラ
イアント12は、クライアント/サーバシステム10の
利用者に対して、対話型のユーザインターフェースを提
供する。サーバ14は、クライアント12からの処理要
求に応じて、例えば、図示しないデータベースを検索
し、検索結果をクライアント12に返送する。即ち、ク
ライアント/サーバシステム10には、クライアント1
2とサーバ14とが協働して所定の適用業務を行うプロ
グラム(アプリケーション)がインストールされてい
る。
【0020】また、本発明に係るトラブルシューティン
グ装置の特徴として、クライアント/サーバシステム1
0に、階層構造の集計サーバ20が外付けされる。集計
サーバ20は、少数のクライアント/サーバシステム1
0により構築される比較的小規模なネットワークコンピ
ューティング環境では、1つの集計サーバのみからなる
1階層構造が採用される。一方、多数のクライアント/
サーバシステム10により構築される比較的大規模なネ
ットワークコンピューティング環境では、複数の集計サ
ーバからなる多階層構造が採用される。なお、図1に示
すネットワークコンピューティング環境では、2つの集
計サーバ22,24からなる2階層構造が採用される。
以下の説明では、図1における下位階層の集計サーバ2
2を「1次集計サーバ」、上位階層の集計サーバ24を
「2次集計サーバ」と呼ぶことにする。
【0021】さらに、1次集計サーバ22或いは/及び
2次集計サーバ24には、例外解析用のクライアント
(以下「解析クライアント」という)30が接続され
る。そして、クライアント12或いはサーバ14と1次
集計サーバ22との間、1次集計サーバ22と2次集計
サーバ24との間、1次集計サーバ22或いは/及び2
次集計サーバ24と解析クライアント30との間は、図
示しない通信回線により夫々接続され、TCP/IPの
ソケット等を介して情報交換が行われる。
【0022】なお、クライアント12、サーバ14、1
次集計サーバ22、2次集計サーバ24及び解析クライ
アント30は、少なくとも中央処理装置(CPU)とメ
モリとを備えた電子計算機により夫々構成され、メモリ
に記憶されたプログラムによって所定の適用業務を行
う。かかるプログラムにより、例外情報収集手段、例外
情報収集工程、例外情報収集機能、例外発生検知手段、
例外発生検知工程、例外発生検知機能、第2の時刻取得
手段、時刻返送要求送信手段、時刻返送手段、返送時間
計測手段、統一時刻算出手段及び情報絞り込み手段が実
現される。
【0023】クライアント12及びサーバ14には、エ
ラーストリームライブラリ16(例外情報伝達手段、例
外情報伝達工程、例外情報伝達機能)と、プロパティフ
ァイル18と、が夫々備えられる。エラーストリームラ
イブラリ16は、クライアント12或いはサーバ14に
おいて例外、例えば、プログラム障害が発生したとき
に、自動的に起動される。そして、自動起動されたエラ
ーストリームライブラリ16は、1次集計サーバ22に
エラー情報を送信する。プロパティファイル18には、
エラー情報の送信先である1次集計サーバ22のアドレ
ス、及び、通信ポート番号等の通信条件が格納される。
即ち、クライアント12或いはサーバ14において例外
が発生すると、エラーストリームライブラリ16が自動
的に起動され、プロパティファイル18に格納されてい
る通信条件に従って、1次集計サーバ22にエラー情報
が送信される。
【0024】一方、エラー情報を収集する1次集計サー
バ22には、エラー情報ファイル26(例外情報蓄積手
段、例外情報蓄積工程、例外情報蓄積機能)と、プロパ
ティファイル28と、が備えられる。エラー情報ファイ
ル26には、クライアント12或いはサーバ14から送
信されたエラー情報が格納される。プロパティファイル
28には、クライアント12或いはサーバ14において
発生した例外を解析するための解析クライアント30の
アドレス、エラー情報の転送先である2次集計サーバ2
4のアドレス、及び、通信ポート番号等の通信条件が格
納される。なお、1次集計サーバ22から2次集計サー
バ24に転送されるエラー情報は、クライアント12或
いはサーバ14から送信されたエラー情報のうち、後述
する詳細情報を除いた基本情報である。
【0025】2次集計サーバ24には、1次集計サーバ
22と同様に、エラー情報ファイル26と、プロパティ
ファイル28と、が備えられる。エラー情報ファイル2
6には、1次集計サーバ22から転送されたエラー情報
が格納される。プロパティファイル28には、解析クラ
イアント30のアドレス、及び、通信ポート番号等の通
信条件が格納される。
【0026】解析クライアント30には、エラー情報を
表示するモニタ32(情報表示手段)と、プロパティフ
ァイル34と、例外解析のための各種プログラム(図示
せず)と、操作入力手段としてのキーボード等の入力装
置(図示せず)と、が備えられる。プロパティファイル
34には、エラー情報の取得先としての1次集計サーバ
22及び2次集計サーバ24のアドレス、及び、通信ポ
ート番号等の通信条件が格納される。
【0027】次に、かかる構成からなるトラブルシュー
ティング装置の作用について、図1を参照しつつ説明す
る。クライアント12からサーバ14に対して処理要求
が送信され(処理(a) )、かつ、サーバ14上で例外が
発生すると(処理(b) )、エラーストリームライブラリ
16が自動起動され、エラー情報が生成される(処理
(c) )。そして、プロパティファイル18に格納された
通信条件に基づいて、エラー情報の送信先アドレス及び
通信ポート番号等が決定され(処理(d) )、1次集計サ
ーバ22にエラー情報が送信される(処理(e) )。
【0028】一方、サーバ14に対して処理要求を送信
したクライアント12においては、処理要求に対する応
答がないため、例えば、タイムアウトに起因する例外が
発生する(処理(f) )。このため、サーバ14で例外が
発生したのと同様に、エラーストリームライブラリ16
が自動起動され、エラー情報が生成される(処理
(g))。そして、プロパティファイル18に格納された
通信条件に基づいて、エラー情報の送信先アドレス及び
通信ポート番号等が決定され(処理(h) )、1次集計サ
ーバ22にエラー情報が送信される(処理(i) )。
【0029】エラー情報を受信した1次集計サーバ22
においては、受信したエラー情報がエラー情報ファイル
26に格納される(処理(j) )。そして、プロパティフ
ァイル28に格納された通信条件に基づいて、エラー情
報の転送先アドレス及び通信ポート番号等が決定され
(処理(k) )、2次集計サーバ24に詳細情報を除いた
エラー情報(以下「基本エラー情報」という)が転送さ
れる(処理(l) )。
【0030】基本エラー情報を受信した2次集計サーバ
24においては、受信した基本エラー情報がエラー情報
ファイル26に格納される(処理(m) )。1次集計サー
バ22及び2次集計サーバ24に集計されたエラー情報
を解析する場合には、解析クライアント30において、
エラー情報の解析が行われる。即ち、プロパティファイ
ル34に格納された通信条件に基づいて、基本エラー情
報の取得先である2次集計サーバ24のアドレス及び通
信ポート番号等が決定され(処理(n) )、通信回線を介
して2次集計サーバ24から基本エラー情報が取得され
る(処理(o) )。そして、取得された基本エラー情報
は、整理された後、モニタ32に表示される(処理(p)
)。また、詳細なエラー情報を参照する場合には、プ
ロパティファイル34に格納された通信条件に基づい
て、詳細エラー情報の取得先である1次集計サーバ22
のアドレス及び通信ポート番号等が決定され(処理(q)
)、1次集計サーバ22から詳細エラー情報が取得さ
れる(処理(r))。そして、取得された詳細エラー情報
は、整理された後、モニタ32に表示される(処理(s)
)。
【0031】トラブルシューティング装置で使用される
通信データは、オブジェクト指向の「クラス」によって
識別されるフォーマットが採用されている。通信データ
の基本フォーマットは、図2に示すように、クラス識別
部と、固有データ部と、を含んで構成される。クラス識
別部には、通信データの種別を特定するクラスのクラス
名長(固定長)と、クラス名(可変長)と、が設定され
る。このようにすれば、クラス名の長短に関わらず、ク
ラス識別部が必要最小限のバイト数で記述でき、通信デ
ータの低減を図ることができる。また、固有データ部に
は、クラス識別部に設定されたクラスに対応して、可変
長の固有データが設定される。従って、通信データを受
信したときには、クラス識別部に設定されたクラスに基
づいて処理すべき内容を決定し、必要に応じて固有デー
タ部を参照して処理を行えばよい。
【0032】通信データがエラー情報である場合には、
図3に示すように、通信データの固有データ部に各種情
報が設定される。エラー情報は、大別して、基本情報と
詳細情報とから構成される。基本情報は、発生ホストア
ドレス(例外発生場所情報)と、例外発生時刻(例外発
生時刻情報)と、呼び出しホストアドレス(情報交換先
情報)と、スレッド情報と、詳細情報データ長と、予備
情報と、を含んで構成される。発生ホストアドレスに
は、例外が発生したクライアント12或いはサーバ14
(以下「ホスト」という)を特定するアドレス、例え
ば、TCP/IPの場合にはインターネットアドレスが
設定される。例外発生時刻には、例外が発生したときの
ホスト上の時刻(以下「ホスト時刻」という)と、後述
する処理によってホスト時刻を集計サーバ20上の時刻
に変換した統一時刻と、が設定される。ホスト時刻は、
ホストの内部時計(第1の時刻取得手段)により取得さ
れ、統一時刻は、後述する処理を実現するプログラムに
より取得される。呼び出しホストアドレスには、例外が
発生したときに、例外が発生したホスト(即ち、サーバ
14)を呼び出していたホスト、具体的には、クライア
ント12を特定するアドレスが設定される。なお、クラ
イアント12で例外が発生したときには、呼び出しホス
トアドレスは設定されず、例えば、「NULL」が設定され
る。スレッド情報には、例外が発生したホストにおい
て、例外が発生したスレッドを特定するスレッドの識別
子が設定される。詳細情報データ長には、可変長である
詳細情報のデータ長が設定される。予備情報には、本実
施形態では何も設定されていないが、将来の拡張に対応
するための情報が設定可能となっている。
【0033】一方、詳細情報は、システム情報と、スタ
ック情報と、ユーザ定義情報と、を含んで構成される。
システム情報には、例外が発生したホストのハードウエ
ア情報、OS(Operating System)名、OSのバージョ
ン情報、適用業務の処理を行ったユーザのアカウント名
等が設定される。スタック情報には、例外が発生したプ
ログラムの関数及びこの関数を呼び出した関数の階層情
報が設定される。ユーザ定義情報には、ユーザが自由に
定義できる情報が設定される。
【0034】ここで、統一時刻の算出方法について、図
4を参照しつつ説明する。統一時刻を算出する理由は、
各ホスト及び集計サーバ20の時刻は必ずしも同一では
なく、エラー情報を収集した時刻を統一しておかなけれ
ば、システム全体で発生したエラー情報を時系列にソー
トすることができないからである。エラー情報を受信し
た集計サーバ20上の時刻を使用することも考えられる
が、エラー情報はネットワークを経由して伝達されるた
めに時間のずれが発生し、例外の発生時刻が必ずしもシ
ステム全体で統一されない。
【0035】なお、図4に示す例では、説明を簡略化す
るために、ホスト及び集計サーバ20上の時刻を「分:
秒」で表わすこととする。ホストにおいて、例外がホス
ト上の時刻ATE(10:02)に発生したと仮定す
る。例外が発生したホストでは、前述したように、エラ
ーストリームライブラリ16が自動起動され、エラー情
報が生成される。このとき、統一時刻を算出するため、
ホストから集計サーバ20に対して、ホスト上の時刻A
T0(10:03)に時刻通知要求が送信される(時刻
返送要求送信手段に相当)。時刻通知要求を受信した集
計サーバ20は、時刻通知要求を受信した集計サーバ2
0上の時刻BT1(10:01)を迅速にホストに返送
する(時刻返送手段に相当)。時刻BT1は、集計サー
バ20の内部時計(第3の時刻取得手段)により取得さ
れる。ホストでは、返送された時刻BT1を受信したホ
スト上の時刻AT2(10:09)、時刻ATE、時刻
AT0、時刻AT2及び時刻BT1に基づいて、以下に
示す手順により、例外が発生した統一時刻を算出する。
【0036】先ず、時刻AT0及びAT2に基づいて次
式により、集計サーバ20が時刻通知要求を受信したと
推定されるホスト上の時刻AT1を算出する。 AT1=AT0+(AT2−AT0)/2 =10:03+(10:09−10:10:03)/2 =10:06 次に、ホスト上の時刻と集計サーバ20上の時刻とのず
れを、 BT1−AT1=10:01−10:06=−00:05 と仮定する。その後、次式により、統一時刻BTEs を
算出する。
【0037】 なお、時刻AT2から時刻AT0を減算する処理が返送
時間計測手段に相当し、統一時刻BTEs を算出する処
理が統一時刻算出手段に相当する。
【0038】このように、ホスト上の時刻を集計サーバ
20上の時刻に変換するようにすれば、時計サーバがな
くとも、時計サーバ並みの正確さをもって時刻の統一が
可能となる。即ち、時計サーバを追加することによる、
システム構築コストの増加を防止することができる。ま
た、ネットワークコンピューティング環境で発生した例
外に対して、統一した時刻で昇順或いは降順にソートす
ることができるので、例外の順序付けが可能となる。こ
のため、例外発生要因の探索が、迅速かつ容易に行える
ようになる。
【0039】次に、トラブルシューティング装置を実現
するための具体的な手法について説明する。ホスト上の
エラーストリームライブラリ16から集計サーバ20に
エラー情報を送信するため、次のようなエラーストリー
ムクラス「ERCErrorStream」が定義される。なお、エラ
ーストリームクラスは、本実施形態ではJAVAによっ
て記述されているが、JAVAに限らず他の言語、例え
ば、COBOL,C++等を使用しても何ら差し支えな
い(以下同様)。 public class ERCErrorStream extends PrintStream { public ERCErrorStream(Exception e); public static void pushClientHost(InetAddress hostAddress); public static void popClientHost(); public void appendVar(String itemName, Serializable obj); public void notifyErr(); } エラーストリームクラスのコンストラクタ及びメソッド
は、次のような機能を有する。
【0040】 (1) public ERCErrorStream(Exception e); 機能 コンストラクタ(エラーストリームクラスを構築する) 引数 e:例外 (2) public static void pushClientHost(InetAddress hostAddress); 機能 エラー情報の呼び出しホストアドレスを設定する 引数 hostAddress :設定するホストアドレス (3) public static void popClientHost(); 機能 エラー情報の呼び出しホストアドレスの設定を解除する 引数 なし (4) public void appendVar(String itemName, Serializable obj); 機能 エラー情報のユーザ定義情報を設定する 引数 itemName:ユーザ定義データの名前 obj :ユーザ定義データの実体 (5) public void notifyErr(); 機能 収集サーバへエラー情報を送信する 送信される情報 (a) 例外発生時刻(ホスト時刻及び統一時刻) (b) スタック情報 (c) システム情報 (d) 発生ホストアドレス (e) 呼び出しホストアドレス(pushClientHostで設定したもの) (f) ユーザ定義情報(appendVar で設定したもの) 引数 なし かかるエラーストリームクラスは、次のプログラム例に
示すように、ホスト上の各アプリケーションで例外が発
生したときに生成され、集計サーバ20にエラー情報を
送信する。なお、エラーストリームクラスの構築、及
び、エラー情報の送信処理は、例えば、各アプリケーシ
ョンの作成者等によって、予めアプリケーションに組み
込まれていなければならない。 public class Example... { public void method(){ String strA; // 社員名格納変数 String strB; // 住所格納変数 // 第1の実現例 try { ここに、通常の処理が記述される } catch(Exception e){ // 例外発生 ERCErrorStream errStream = new ERCErrorStream(e); errStream.notifyErr(); } // 第2の実現例 try { ここに、通常の処理が記述される } catch(Exception e){ // 例外発生 ERCErrorStream errStream = new ERCErrorStream(e); errStream.appendVar(" 社員名", strA); errStream.appendVar(" 住所", strB); errStream.notifyErr(); } } } なお、上記プログラムにおけるcatch() 文が、例外発生
検知手段、例外発生検知工程、例外発生検知機能に相当
する。
【0041】次に、クライアント12がJAVAアプレ
ットで実現されている場合について、図5を参照しつつ
説明する。なお、先の実施形態(図1参照)と同一構成
には、同一符号を付すことで、その説明は省略するもの
とする。JAVAアプレットには、JAVAアプレット
が動作するコンピュータの資源に直接アクセスできない
という制限がある。このため、例外が発生したコンピュ
ータ上で、エラーログを残したり、或いは、エラー情報
をモニタ等に出力することができない。かかる制限下で
エラー情報を収集するため、本実施形態では、1次集計
サーバ22をクライアント/サーバシステム10のサー
バ14上に構築する構成を採用した。
【0042】即ち、サーバ14のデータベース40に
は、クライアント12から参照等されるHTML(Hype
rtext Markup Language )ファイル42と、JAVAア
プレット44と、が蓄積されている。クライアント12
からサーバ14に対してHTMLファイル42の参照要
求があると、サーバ14は、参照対象であるHTMLフ
ァイル42と共にJAVAアプレット44をクライアン
ト12に返送する(処理(a) )。その後、クライアント
12に返送されたJAVAアプレット44は、クライア
ント12に作り込みのプログラムと同様に動作する。
【0043】このとき、JAVAアプレット44は、J
AVAアプレット44を返送したサーバ14とのみ通信
ができる。この特性を利用し、クライアント12で例外
が発生したとき(処理(b) )、JAVAアプレット44
を介してエラー情報がサーバ14、即ち、1次集計サー
バ22に送信されるようにする(処理(c) )。そして、
1次集計サーバ22は、先の実施形態と同様に、基本エ
ラー情報を2次集計サーバ24に転送する(処理(d)
)。
【0044】かかる構成を実現するため、次のようなア
プレットエラーストリーム「ERCAppletErrorStream」ク
ラスが定義される。 public class ERCAppletErrorStream extends ERCErrorStream { public ERCAppletErrorStream(Applet apl, Exception e); } アプレットエラーストリームクラスのコンストラクタ
は、次のような機能を有する。
【0045】 public ERCAppletErrorStream(Applet apl, Exception e); 機能 コンストラクタ(アプレットエラーストリームクラスを構築する) 引数 apl :アプレットのインスタンス e :例外 なお、アプレットエラーストリームクラスは、エラース
トリームクラスを継承したものであるので、その使用方
法は、先のエラーストリームクラスと同様である。
【0046】また、分散呼出しされる場合の処理とし
て、UNIX系の分散呼出しの標準プロトコルであるC
ORBA環境における実施形態について説明する。即
ち、分散呼出しシステムを構築する場合、リモートメソ
ッドとして直接呼び出される部分に、呼び出しホスト名
を登録することにより呼び出し元を辿ることが可能とな
る。CORBA環境の場合には、Context オブジェクト
または独自の方法(引数渡し等)によって、CORBA
クライアント、CORBAサーバに自ホスト名を転送す
る必要がある。CORBAサーバは、そのホスト情報を
利用してホストのアドレスをpushClientHostメソッドを
利用して登録する。
【0047】CORBA環境におけるプログラム例は、
次のようになる。 import com.fujitsu.jbk.erc; import java.net.*; public class Example( ) extends.... implements.... { public void method() { ここに、通常の処理が記述される } public void remoteMethod() { hostName = .........; // context オブジェクト又は // 引数より呼び出しホスト名 // を取得 InetAddress hostAddress; hostAddress = InetAddress.getByName(hostName); ERCErrorStream.pushClientHost(hostAddress); try { ここに、通常の処理が記述される } catch(Exception e){ // 例外発生 ERCErrorStream errStream = new ERCErrorStream(e); errStream.notifyErr(); } ERCErrorStream.popClientHost(); // 呼び出しホストをリセット } } 次に、解析クライアント30におけるエラー情報の解析
手法について説明する。
【0048】解析クライアント30において、エラー情
報の解析を開始すると、モニタ32には、図6(A)に
示すようなエラー情報表示画面50が表示される。エラ
ー情報表示画面50は、一覧表示ウインドウ52と、基
本情報表示ウインドウ54と、詳細情報表示ウインドウ
56と、を含んで構成される。一覧表示ウインドウ52
には、エラー情報を自動解析した結果の一覧、即ち、解
析済みのホストが表示される。なお、図6(A)の一覧
表示ウインドウ52は、エラー情報の解析を開始した直
後の画面構成を表わしているため、解析済みのホストが
ない状態である。基本情報表示ウインドウ54には、例
外が発生したホスト名、例外発生時刻、呼び出しホスト
名が表示される。例外が発生したホスト名は、エラー情
報の発生ホストアドレスから取得され、また、呼び出し
ホスト名は、エラー情報の呼び出しホストアドレスから
取得される。詳細情報表示ウインドウ56には、エラー
情報の詳細情報、即ち、システム情報、スタック情報、
ユーザ定義情報が表示される。
【0049】エラー情報表示画面50において、メニュ
ー「処理」58からサブメニュー「自動解析」58aが
選択されると、図6(B)に示すような解析条件設定画
面60が表示される。解析条件設定画面60は、解析開
始ホスト設定部62と、解析開始時刻設定部64と、解
析時間間隔設定部66と、「開始」ボタン68と、「キ
ャンセル」ボタン70と、を含んで構成される。解析開
始ホスト設定部62では、エラー情報の解析を開始する
起点のホストが設定される。解析開始時刻設定部64で
は、統一時刻をキーとしてソートされたエラー情報の中
から、エラー情報の解析を開始する時刻が設定される。
即ち、設定された解析開始時刻以後のエラー情報のみが
解析対象となる。解析時間間隔設定部66では、解析開
始時刻設定部64で設定された解析開始時刻を起点とし
て、解析が行われる時間間隔が設定される。即ち、設定
された時間間隔内、例えば、5秒間のエラー情報のみが
解析対象となる。「開始」ボタン68が押されると、設
定された解析開始ホスト、解析開始時刻及び解析時間間
隔を解析条件として、エラー情報の解析が開始される。
「キャンセル」ボタン70が押されると、解析条件の設
定が中止され、図6(A)に示すエラー情報表示画面5
0に戻る。なお、エラー情報の解析手法に関しては、後
述する。
【0050】解析条件設定画面60において、「開始」
ボタン68が押されると、設定された解析条件に従って
エラー情報の解析が自動的に行われ、図6(C)に示す
ように、解析結果が一覧表示ウインドウ52に追加され
る。この状態で、例えば、一覧表示ウインドウ52から
「ホストA」が選択されると、ホストAに関連する解析
結果が基本情報表示ウインドウ54及び詳細情報表示ウ
インドウ56に夫々表示される。基本情報表示ウインド
ウ54及び詳細情報表示ウインドウ56に表示される解
析結果は、統一時刻をキーとしてソートされた状態で表
示されるため、例外の解析が容易に行われるようにな
る。即ち、基本情報表示ウインドウ54に時系列的に表
示された基本情報をトレースすることで、どのホストに
おいて例外が発生したかが容易に特定される。そして、
例外が発生したホストにおける詳細情報を検討すること
で、例外が発生したスレッド等が容易に特定される。
【0051】ここで、エラー情報の解析手法について、
図7のフローチャートを参照しつつ説明する。なお、以
下説明する処理が、情報絞り込み手段、情報表示手段を
実現する。ステップ1(図では、「S1」と略記する。
以下同様)では、エラー情報の解析結果が登録される配
列の初期化が行われる。即ち、エラー情報の解析結果が
登録されていない状態に配列を初期化する。なお、配列
は、メモリ上に構築してもよいし、或いは、ファイル上
に構築してもよい。
【0052】ステップ2では、図6(B)に示した解析
条件設定画面60により、解析条件(解析開始ホスト、
解析開始時刻、解析時間間隔)が入力される。ステップ
3では、集計サーバ20上のエラー情報ファイル26に
集計されたエラー情報が、統一時刻をキーとして昇順或
いは降順にソートされる。昇順にソートされるか、或い
は、降順にソートされるかは、ユーザが任意に選択でき
るようにしてもよい。
【0053】ステップ4では、設定された解析条件のう
ち、解析開始ホストを解析起点ホストとし、解析起点ホ
ストを呼び出したホスト(以下「呼び出しホスト」とい
う)を検索する。例えば、ホストAがホストBから呼び
出されたときに例外が発生した場合には、解析起点ホス
トをホストAに設定すると、呼び出しホストはホストB
になる。一方、解析起点ホストをホストBに設定する
と、ホストBを呼び出したホストは存在しないため、呼
び出しホストはNULLとなる。
【0054】ステップ5では、呼び出しホストがNUL
Lであるか否か、即ち、呼び出しホストが存在するか否
かが判断される。そして、呼び出しホストがNULLの
ときには、呼び出しホストが存在しないと判断してステ
ップ10へと進み(Yes)、呼び出しホストがNUL
Lでないときには、ステップ6へと進む(No)。ステ
ップ6では、統一時刻をキーとしてソートされたエラー
情報の中から、所定の検索条件を満たしたエラー情報の
検索が行われる。検索条件は、解析情報設定画面60
(図6(B)参照)において設定された解析開始ホス
ト、解析開始時刻及び解析時間間隔に基づいて決定され
る。即ち、解析開始時刻及び解析時間間隔から、解析対
象となるエラー情報の時間的な範囲が決定される。そし
て、かかる時間的な範囲内におけるエラー情報の中か
ら、解析開始ホスト及び呼び出しホストの呼び出し関係
が設定され、かつ、配列にかかる呼び出し関係が未登録
であるエラー情報が検索される。
【0055】ステップ7では、検索が成功したか否かが
判断される。そして、検索が成功したときにはステップ
8へと進み(Yes)、検索が失敗、即ち、検索が完了
したときにはステップ10へと進む(No)。ステップ
8では、検索結果(具体的には、解析起点ホスト、例外
発生時刻及び呼び出しホストの関係)が配列に登録され
る。
【0056】ステップ9では、呼び出しホストが解析起
点ホストとされ、ステップ4へと戻る。即ち、ステップ
9以降の処理では、呼び出しホストを解析起点ホストと
し、エラー情報の解析が続行される。ステップ10で
は、解析済みのホストが一覧表示ウインドウ52に表示
されると共に、配列に登録された検索結果が基本情報ウ
ィンドウ54に表示される。
【0057】以上説明したステップ1〜ステップ10の
処理によれば、エラー情報の解析を開始する起点となる
ホスト及び時間的な解析範囲を設定するだけで、関連が
あるエラー情報のみが自動的に検索され、その検索結果
がモニタ32上に表示される。従って、例外が発生した
ホストを探求する手間が大幅に低減し、プログラム障害
等の例外の発生原因究明を容易に行うことができる。
【0058】かかるエラー情報の解析を、具体例をもっ
て説明する。例えば、図8に示すような多階層のネット
ワークコンピューティング環境があったと仮定する。ネ
ットワークコンピューティング環境は、ホストAを最上
位階層とし、ホストAの下位階層にホストB〜D、ホス
トB〜Dの下位階層にホストE〜J、ホストE〜Jの下
位階層にホストK〜Vがある4階層構造とする。ホスト
KからホストEを呼び出すときに例外が発生し、例外が
ホストBからホストAを呼び出すときまで波及したとす
る。このとき、ホストK→ホストE→ホストB→ホスト
Aという呼び出し関係において、エラー情報が夫々収集
される。
【0059】そこで、エラー情報の解析を行う場合に
は、エラー情報表示画面50の基本情報表示ウインドウ
54に表示されたエラー情報の中から、エラー解析を行
う解析開始ホストを選択する。前記呼び出し関係におい
ては、ホストAを解析開始ホストとすればよい。する
と、前述したフローチャートの処理により、ホストK→
ホストE、ホストE→ホストB、ホストB→ホストAの
呼び出し関係が設定されたエラー情報が抽出される。抽
出されたエラー情報を見れば、例外はホストKにおいて
発生したことが一目して把握できる。従って、エラー情
報の解析を極めて容易に行うことができるのである。
【0060】解析されたエラー情報の詳細情報をさらに
参照する場合には、基本情報表示ウィンドウ54に表示
される基本情報の中から、詳細情報を参照したい基本情
報を選択する。すると、選択されたエラー情報の詳細情
報が、詳細情報表示ウインドウ56に表示される。詳細
情報のユーザ定義情報を表示するため、利用者定義のJ
AVAクラスを利用してモニタ32上に表示するプラグ
イン機能が準備されている。解析クライアント30で
は、かかるプラグイン機能によりユーザ定義情報が表示
される。
【0061】プラグイン機能が使用する利用者定義のJ
AVAクラスをプラグインクラスと呼ぶ。エラーストリ
ームライブラリ16によって、エラー情報を送信するア
プリケーションを作成した場合には、アプリケーション
作成者は、ユーザ定義情報をモニタ32上に表示する処
理を定義したプラグインクラスを作成し、解析クライア
ント30に登録しなければならない。
【0062】実際にプラグインクラスを作成する場合に
は、次のようなプラグイン「ERCPlugin 」インターフェ
ースを実装する。 package com.fujitsu.jbk.erc; import java.lang.*; import java.io.*; inport java.awt.*; public interface ERCPlugin { public void setProperty(ObjectInputStream in); public Frame createFrame(); } プラグインインターフェースのメソッドは、次のような
機能を有する。
【0063】(1) public void setProperty(java.io.Ob
jectInputStream in); 機能 引数のストリームからユーザ定義情報を復元する 引数 in:変数を格納したストリーム (2) public java.awt.Frame creatFrame(); 機能 復元されたユーザ定義情報を表示するフレームを
作成する 引数 なし かかるプラグインの作成例を次に示す。 import java.lang.*; import java.io.*; public class SampleClass implements Serializable{ public String prop1; public Integer prop2; public SampleClass(String arg1, Integer arg2) { prop1 = arg1; prop2 = arg2; } } 以下は、SampleClass 型のユーザ定義情報を表示するプ
ラグインクラスの定義例である。 import java.lang.*; import java.io.*; import java.awt.*; public class SampleClassPlugin implements com.fujitsu.jbk.erc.ERCPlugin { public SampleClass data; public void setProperty(ObjectInputStream in){ try { data = (SampleClass)in.readObject(); } catch(Exception e){ data = null; } } public Frame createFrame() { Frame frame = new Frame(); Frame.setLayout(new FlowLayout()); Label label; label = new Label("prop1:"+data.prop1); frame.add(label); label = new Label("prop2:"+data.prop2.toString()); frame.add(label); frame.pack(); return frame; } public String getValueString(){ String str = "prop1:"+data.prop1+",prop2:"+data.prop2.toString( ); return str; } } 機種に依存しないJAVAにより定義されたプラグイン
機能を備えることで、相違するOS等により構成される
ネットワークコンピューティング環境においても、同一
のプラグイン機能によりユーザ定義情報が表示できるよ
うになる。
【0064】なお、かかる機能を実現するプログラム
を、例えば、紙カード(パンチカード)、紙テープ、磁
気テープ、磁気ディスク、磁気ドラム、ICカード、C
D−ROM等の記録媒体に記録しておけば、本発明に係
るトラブルシューティングプログラムを流通させること
ができる。そして、かかる記録媒体を取得した者は、容
易にトラブルシューティング装置を構築することができ
る。
【0065】
【発明の効果】以上説明したように、請求項1又は請求
項6に記載の発明によれば、発生情報は一括して収集さ
れるので、分散された各アプリケーションの発生情報を
一々調べる必要がなく、例外の発生原因究明のための労
力を大幅に低減することができる。
【0066】請求項2記載の発明によれば、発生情報に
は、例外発生場所情報、例外発生時刻情報及び情報交換
先情報が含まれるので、どのアプリケーションで例外が
発生したか等が判断でき、例外の発生原因の解析を容易
に行うことができる。請求項3記載の発明によれば、例
外発生時刻情報には、ネットワークコンピューティング
環境における例外発生時刻が含まれるので、システムで
統一された時刻に発生情報を整列することができる。こ
のため、例外発生の時系列的な関連付けが可能となり、
例外の発生原因の解析をより容易に行うことができる。
【0067】請求項4記載の発明によれば、ネットワー
クコンピューティング環境における時刻を取得すること
を目的として、時計サーバを新たに設ける必要がなく、
システムの構築コストを低減することができる。請求項
5記載の発明によれば、発生情報が自動的に絞り込ま
れ、その結果が表示されるので、例外の発生原因の解析
を自動で行うことができる。
【0068】請求項7記載の発明によれば、請求項1又
は請求項6記載の発明の効果に加え、本発明に係るトラ
ブルシューティングプログラムを市場に流通させること
ができる。従って、かかるプログラムを記録した媒体を
取得した者は、一般的な電子計算機を利用してトラブル
シューティング装置を容易に構築することができる。
【図面の簡単な説明】
【図1】トラブルシューティング装置の一実施形態を示
すシステム構成図である。
【図2】通信データのフォーマットの説明図である。
【図3】エラー情報の説明図である。
【図4】統一時刻の算出原理の説明図である。
【図5】トラブルシューティング装置の他の実施形態を
示すシステム構成図である。
【図6】エラー情報の自動解析を行う手順を説明する図
であり、(A)はエラー情報表示画面、(B)は解析条
件設定画面、(C)は解析結果が表示された画面であ
る。
【図7】エラー情報の自動解析処理を説明するフローチ
ャートである。
【図8】エラー情報の自動解析を具体例をもって説明す
るためのネットワークコンピューティング環境の構成図
である。
【符号の説明】
10・・・クライアント/サーバシステム 12・・・クライアント 14・・・サーバ 16・・・エラーストリームライブラリ 20・・・集計サーバ 22・・・1次集計サーバ 24・・・2次集計サーバ 26・・・エラー情報ファイル 32・・・モニタ

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】所定のアプリケーションが実行される複数
    のアプリケーション実行手段と、 該アプリケーションで発生した例外の発生情報を収集す
    る例外情報収集手段と、 を含んで構成されるネットワークコンピューティング環
    境におけるトラブルシューティング装置であって、 前記例外情報収集手段は、 前記発生情報を蓄積する例外情報蓄積手段と、 前記アプリケーション実行手段に設けられ、前記アプリ
    ケーションに例外が発生したことを検知する例外発生検
    知手段と、 該例外発生検知手段により例外が発生したことが検知さ
    れたときに、前記例外情報蓄積手段に発生情報を伝達す
    る例外情報伝達手段と、 を含んで構成されたことを特徴とするネットワークコン
    ピューティング環境におけるトラブルシューティング装
    置。
  2. 【請求項2】前記発生情報は、 例外が発生した前記アプリケーションが実行されていた
    アプリケーション実行手段を特定する例外発生場所情報
    と、 例外が発生した時刻を特定する例外発生時刻情報と、 例外が発生した前記アプリケーションが実行されていた
    アプリケーション実行手段と情報交換を行なっていた他
    のアプリケーション実行手段を特定する情報交換先情報
    と、 を含んだ構成である請求項1記載のネットワークコンピ
    ューティング環境におけるトラブルシューティング装
    置。
  3. 【請求項3】前記各アプリケーション実行手段における
    時刻を取得する第1の時刻取得手段と、 前記ネットワークコンピューティング環境における統一
    時刻を取得する第2の時刻取得手段と、 を備え、 前記例外発生時刻情報は、 前記第1の時刻取得手段により取得された時刻と、 前記第2の時刻取得手段により取得された統一時刻と、 を含んだ構成である請求項2記載のネットワークコンピ
    ューティング環境におけるトラブルシューティング装
    置。
  4. 【請求項4】前記第2の時刻取得手段は、 前記例外情報蓄積手段における時刻を取得する第3の時
    刻取得手段と、 前記アプリケーション実行手段に設けられ、前記例外発
    生検知手段により例外の発生が検知されたときに、当該
    例外情報蓄積手段に対して時刻返送要求を送信する時刻
    返送要求送信手段と、 前記例外情報蓄積手段に設けられ、前記時刻返送要求を
    受信したときに、該時刻返送要求を送信した前記アプリ
    ケーション実行手段に対して第3の時刻取得手段により
    取得された時刻を返送する時刻返送手段と、 前記時刻返送要求を送信してから時刻が返送されるまで
    の時間を計測する返送時間計測手段と、 前記時刻返送手段により返送された時刻及び返送時間計
    測手段により計測された時間に基づいて、前記統一時刻
    を算出する統一時刻算出手段と、 を含んだ構成である請求項3記載のネットワークコンピ
    ューティング環境におけるトラブルシューティング装
    置。
  5. 【請求項5】前記例外情報収集手段により収集された発
    生情報のうち、少なくとも前記例外発生場所情報、例外
    発生時刻情報及び情報交換先情報をキーとして、発生情
    報を絞り込む情報絞り込み手段と、 該情報絞り込み手段により絞り込まれた発生情報を表示
    する情報表示手段と、 を備えた構成である請求項2〜4のいずれか1つに記載
    のネットワークコンピューティング環境におけるトラブ
    ルシューティング装置。
  6. 【請求項6】所定のアプリケーションが実行される複数
    のアプリケーション実行工程と、 該アプリケーションで発生した例外の発生情報を収集す
    る例外情報収集工程と、 を含んで構成されるネットワークコンピューティング環
    境におけるトラブルシューティング方法であって、 前記例外情報収集工程は、 前記発生情報を蓄積する例外情報蓄積工程と、 前記アプリケーション実行工程に設けられ、前記アプリ
    ケーションに例外が発生したことを検知する例外発生検
    知工程と、 該例外発生検知工程により例外が発生したことが検知さ
    れたときに、前記例外情報蓄積工程に発生情報を伝達す
    る例外情報伝達工程と、 を含んで構成されたことを特徴とするネットワークコン
    ピューティング環境におけるトラブルシューティング方
    法。
  7. 【請求項7】所定のアプリケーションが実行される複数
    のアプリケーション実行機能と、 該アプリケーションで発生した例外の発生情報を収集す
    る例外情報収集機能と、 を実現するためのネットワークコンピューティング環境
    におけるトラブルシューティングプログラムを記録した
    記録媒体であって、 前記例外情報収集機能は、 前記発生情報を蓄積する例外情報蓄積機能と、 前記アプリケーション実行機能に設けられ、前記アプリ
    ケーションに例外が発生したことを検知する例外発生検
    知機能と、 該例外発生検知機能により例外が発生したことが検知さ
    れたときに、前記例外情報蓄積機能に発生情報を伝達す
    る例外情報伝達機能と、 を含んで構成されたことを特徴とするネットワークコン
    ピューティング環境におけるトラブルシューティングプ
    ログラムを記録した記録媒体。
JP07243698A 1998-03-20 1998-03-20 ネットワークコンピューティング環境におけるトラブルシューティング装置及びトラブルシューティング方法並びにトラブルシューティングプログラムを記録したコンピュータ読取可能な記録媒体 Expired - Fee Related JP3897897B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP07243698A JP3897897B2 (ja) 1998-03-20 1998-03-20 ネットワークコンピューティング環境におけるトラブルシューティング装置及びトラブルシューティング方法並びにトラブルシューティングプログラムを記録したコンピュータ読取可能な記録媒体
US09/409,579 US6530041B1 (en) 1998-03-20 1999-09-30 Troubleshooting apparatus troubleshooting method and recording medium recorded with troubleshooting program in network computing environment

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP07243698A JP3897897B2 (ja) 1998-03-20 1998-03-20 ネットワークコンピューティング環境におけるトラブルシューティング装置及びトラブルシューティング方法並びにトラブルシューティングプログラムを記録したコンピュータ読取可能な記録媒体
US09/409,579 US6530041B1 (en) 1998-03-20 1999-09-30 Troubleshooting apparatus troubleshooting method and recording medium recorded with troubleshooting program in network computing environment

Publications (2)

Publication Number Publication Date
JPH11272513A true JPH11272513A (ja) 1999-10-08
JP3897897B2 JP3897897B2 (ja) 2007-03-28

Family

ID=26413568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07243698A Expired - Fee Related JP3897897B2 (ja) 1998-03-20 1998-03-20 ネットワークコンピューティング環境におけるトラブルシューティング装置及びトラブルシューティング方法並びにトラブルシューティングプログラムを記録したコンピュータ読取可能な記録媒体

Country Status (2)

Country Link
US (1) US6530041B1 (ja)
JP (1) JP3897897B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107430A (ja) * 2004-09-30 2006-04-20 Microsoft Corp コンピュータプログラムの無応答部分を識別するための方法、システムおよび装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020165784A1 (en) * 2001-03-01 2002-11-07 John Taggart Launch service or purchase request directly from a network-enabled appliance
US7181647B2 (en) * 2003-10-15 2007-02-20 International Business Machines Corporation Error tracking method and system
TW200535602A (en) * 2004-04-16 2005-11-01 Hon Hai Prec Ind Co Ltd A system and method for testing motherboards automatically
US20060070027A1 (en) * 2004-09-24 2006-03-30 Ralf Schmelter Enhancing exception information in virtual machines
US7475135B2 (en) * 2005-03-31 2009-01-06 International Business Machines Corporation Systems and methods for event detection
US20080005281A1 (en) * 2006-06-29 2008-01-03 Microsoft Corporation Error capture and reporting in a distributed computing environment
US20080209030A1 (en) * 2007-02-28 2008-08-28 Microsoft Corporation Mining Web Logs to Debug Wide-Area Connectivity Problems
US8407520B2 (en) * 2010-04-23 2013-03-26 Ebay Inc. System and method for definition, creation, management, transmission, and monitoring of errors in SOA environment
US20160266951A1 (en) * 2015-03-10 2016-09-15 Unisys Corporation Diagnostic collector for hadoop

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5113521A (en) * 1988-03-18 1992-05-12 Digital Equipment Corporation Method and apparatus for handling faults of vector instructions causing memory management exceptions
JP3197403B2 (ja) * 1993-09-07 2001-08-13 富士通株式会社 計算機システムのアプリケーションプログラム障害発生時の制御方法
US5721857A (en) * 1993-12-30 1998-02-24 Intel Corporation Method and apparatus for saving the effective address of floating point memory operations in an out-of-order microprocessor
US5797019A (en) * 1995-10-02 1998-08-18 International Business Machines Corporation Method and system for performance monitoring time lengths of disabled interrupts in a processing system
US5729726A (en) * 1995-10-02 1998-03-17 International Business Machines Corporation Method and system for performance monitoring efficiency of branch unit operation in a processing system
JPH1196006A (ja) * 1997-09-19 1999-04-09 Hitachi Ltd 情報処理装置
US6249886B1 (en) * 1997-10-17 2001-06-19 Ramsesh S. Kalkunte Computer system and computer implemented process for performing user-defined tests of a client-server system with run time compilation of test results

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107430A (ja) * 2004-09-30 2006-04-20 Microsoft Corp コンピュータプログラムの無応答部分を識別するための方法、システムおよび装置

Also Published As

Publication number Publication date
JP3897897B2 (ja) 2007-03-28
US6530041B1 (en) 2003-03-04

Similar Documents

Publication Publication Date Title
US7003781B1 (en) Method and apparatus for correlation of events in a distributed multi-system computing environment
US6748555B1 (en) Object-based software management
US7958234B2 (en) System and method for monitoring user interaction with web pages
EP2871574B1 (en) Analytics for application programming interfaces
US20040268314A1 (en) System and method for automatically collecting trace detail and history data
US20030195959A1 (en) Framework for managing data that provides correlation information in a distributed computing system
KR101300360B1 (ko) 동적 어플리케이션 사용 정보의 분산 캡쳐 및 결집체
US7966398B2 (en) Synthetic transaction monitor with replay capability
CN101553769B (zh) 用于跟踪并监控计算机应用的系统和方法
US7523463B2 (en) Technique to generically manage extensible correlation data
US20100287416A1 (en) Method and apparatus for event diagnosis in a computerized system
US20030061541A1 (en) Method and apparatus for analyzing performance of data processing system
US20090049429A1 (en) Method and System for Tracing Individual Transactions at the Granularity Level of Method Calls Throughout Distributed Heterogeneous Applications Without Source Code Modifications
CN109643255A (zh) 在云系统中自动检测分布式并发错误
WO2002079909A2 (en) Synthetic transaction monitor
US20090307347A1 (en) Using Transaction Latency Profiles For Characterizing Application Updates
JP3897897B2 (ja) ネットワークコンピューティング環境におけるトラブルシューティング装置及びトラブルシューティング方法並びにトラブルシューティングプログラムを記録したコンピュータ読取可能な記録媒体
Mansouri-Samani et al. Monitoring distributed systems: A survey
US11853330B1 (en) Data structure navigator
CN101394314B (zh) 一种Web应用系统的故障定位方法
US6618766B1 (en) Correlating protocol events in distributed applications
Hellerstein et al. ETE: A customizable approach to measuring end-to-end response times and their components in distributed systems
US7457991B1 (en) Method for scanning windows event logs on a cellular multi-processor (CMP) server
JP3199876B2 (ja) プログラム解析システムおよび方法
Ramakrishna et al. A platform for end-to-end mobile application infrastructure analytics using system log correlation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110105

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees