JPH10133916A - 計算機システムにおける問題解析方式及び計算機システムにおける問題解析ツールを記録した媒体 - Google Patents

計算機システムにおける問題解析方式及び計算機システムにおける問題解析ツールを記録した媒体

Info

Publication number
JPH10133916A
JPH10133916A JP8288692A JP28869296A JPH10133916A JP H10133916 A JPH10133916 A JP H10133916A JP 8288692 A JP8288692 A JP 8288692A JP 28869296 A JP28869296 A JP 28869296A JP H10133916 A JPH10133916 A JP H10133916A
Authority
JP
Japan
Prior art keywords
communication
analysis data
computer
analysis
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8288692A
Other languages
English (en)
Other versions
JP3141988B2 (ja
Inventor
Yoshimi Kagaya
芳美 加賀屋
Masahiro Momomoto
征弘 百本
Yoko Hara
陽子 原
Fumio Igarashi
史生 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP08288692A priority Critical patent/JP3141988B2/ja
Publication of JPH10133916A publication Critical patent/JPH10133916A/ja
Application granted granted Critical
Publication of JP3141988B2 publication Critical patent/JP3141988B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 障害発生時のデータ収集を容易化及び収集し
たログに基づき問題原因追求を容易にして解析時間を短
縮する計算機システムにおける問題解析方式を提供す
る。 【解決手段】 各マシン101,111において通信ロ
グ及び動作状況ログを収集するデータ収集ツール10
3,113と、表示マシン21において各マシン10
1,111において収集された通信ログファイル5,1
5に含まれる各パケットを対応づけて矢印線を引くこと
で通信ダイアグラムを、また、動作状況ログファイル
6,16に含まれる資源の使用状況を通信ダイアグラム
の同一画面上の時間軸に合わせてシステム動作状況を、
それぞれ自動生成し、グラフィック端末23に表示する
障害解析ツール22と、を有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、計算機システムに
おける問題解析方式、特に各計算機において収集した解
析データに基づいて問題を解析する際に有用な情報の表
示に関する。
【0002】
【従来の技術】近年、開発されているシステムのアプリ
ケーションは、クライアント・サーバ方式による分散ア
プリケーションシステムの形態を採るものが一般化して
いる。このクライアント・サーバ型アプリケーション上
で通信障害若しくは性能障害などの問題が発生した場
合、その問題箇所を特定し解消しなくてはならない。問
題の原因を追求するためには、まず、クライアントマシ
ン側、サーバマシン側、あるいはクライアントマシンと
サーバマシンとを接続するネットワークのいずれかに問
題があるかを切り分ける必要がある。そのためには、自
マシンと相手マシンとの通信をトレースすることによっ
て得られる通信ログと、自マシン、相手マシン双方の資
源の動作状況すなわち使用状況を監視することによって
得られる動作状況ログとを、障害を再現させて解析デー
タとしてファイルに収集し、各マシンにおいて収集され
た解析データを突き合わせて解析を行なうことが一般的
である。以下に、この問題解析の手法について図を用い
てより具体的に説明する。
【0003】図26は、従来のクライアント・サーバシ
ステムの構成例を示した図である。問題の発生原因であ
ると考えられる各アプリケーション2,12は、それぞ
れクライアントマシン1、サーバマシン11上において
動作し、ネットワーク20を経由して通信処理を行な
う。問題を解析するために各マシン1,11には、障害
発生時、アプリケーション2,12の実行を制御して解
析データの収集を行なうデータ収集ツール3,13と、
各データ収集ツール3,13が収集した解析データ(通
信ログ、動作状況ログ)を記録する通信ログファイル
5,15及び動作状況ログファイル6,16を記憶する
ディスク装置4,14とが設けられている。データ収集
ツール3,13は、解析データを収集する際に各マシン
1,11においてそれぞれのメモリにロードされ各CP
Uにより実行されるアプリケーションプログラムであ
り、人手により起動され、終了される。
【0004】次に、従来におけるデータ収集方法につい
て図27のフローチャートに基づいて説明する。
【0005】クライアント・サーバシステムで障害(主
に性能問題)が発生すると、クライアント/サーバの各
マシン上で解析データを収集するため、最初にどんなデ
ータを収集するか設定する(ステップ1)。例えば、サ
ンプリング周期やCPU、ディスク、メモリ等どの資源
に係る使用率を収集するかなどである。そして、データ
収集ツールを起動し(ステップ2)、問題となるアプリ
ケーション2,12を起動させ現象を再現させる(ステ
ップ3)。そして、人手により適当なタイミングでデー
タ収集ツール3,13を停止させ(ステップ4)、通信
ログ及び動作状況ログをディスク装置4,14内の通信
ログファイル5,15、動作状況ログファイル6,16
にそれぞれ格納する。このようにして解析データを採取
できると、解析担当者は、この採取した解析データに基
づいて問題解析を行う。
【0006】採取したデータを解析するために、解析担
当者は、両マシン1,11において採取したキャラクタ
ベースの膨大な通信ログから手作業で通信のやり取りを
示した通信ダイアグラムを作成して解析を行なってい
た。また、特に、性能問題の場合、通信ログとシステム
の動作状況を時間軸を合わせて比較し、問題の原因とな
る情報がないか解析を行なう必要があった。
【0007】
【発明が解決しようとする課題】しかしながら、上述し
た従来の解析手法では、解析すること自体が非常に難解
で、解析を行なう担当者は、コンピュータやネットワー
クに関して相当の知識を有していなければならない。
【0008】また、収集した解析データの量が通常膨大
となるため、解析には、多くの労力と時間を費やすとい
う問題点もある。すなわち、解析の際には、膨大な解析
データを参照して手作業により通信ダイアグラムを作成
し、更に通信ダイアグラムにシステム動作状況を対応づ
ける必要がある。また、計算機間のシステム時刻は、必
ずしも一致しているとは限らないので、計算機間の同期
合せすなわち時刻の対応付けを行なう必要がある。
【0009】また、障害を再現させて発生させた時点に
おける解析データを収集することは、容易なことではな
い。例えば、障害の発生を含んだ長めの時間帯のデータ
を収集することは可能であるが、その分解析しなければ
ならないデータが膨大になりすぎてしまい現実的でな
い。一方、収集するデータ量若しくは収集時間を一定に
してしまうと、必要なデータが収集できているかの保証
がない。更に、一定量のリングバッファを設けてデータ
収集を行い、障害発生したと考えられそうな時点の後に
収集を停止するという方法も考えられるが、この方法だ
と解析に必要なデータを新たに収集したデータで上書き
してしまう可能性が生じ、また、その逆にデータ収集を
早目に止めてしまう可能性も生じる。このように、従来
においては、適切なデータの収集自体が困難であった。
【0010】この発明は、上記のような問題を解決する
ためになされたものであり、その第一の目的は、収集し
たデータに対して専門知識がなくても問題原因追求を容
易にして解析時間を短縮することができる計算機システ
ムにおける問題解析方式を提供することにある。
【0011】また、第二の目的は、障害発生時のデータ
収集を容易にできる計算機システムにおける問題解析方
式を提供することにある。
【0012】
【課題を解決するための手段】以上のような目的を達成
するために、本発明における計算機システムにおける問
題解析方式は、ネットワークを介して通信を行なう計算
機により構築される計算機システムにおいて、前記各計
算機において問題発生時において行われた通信をトレー
スすることによって得る通信ログ及びその時の各計算機
の資源の動作状況を監視することによって得る動作状況
ログを解析データとして収集するデータ収集手段と、前
記各計算機において収集される解析データに基づいて問
題解析に必要な情報を表示する解析データ表示制御手段
とを有し、前記解析データ表示制御手段は、前記解析デ
ータに基づいて計算機間の通信のやり取りを時間軸上に
矢印線で表した通信ダイアグラムを自動的に生成し表示
することを特徴とする。
【0013】また、前記データ収集手段は、前記各計算
機において問題発生時における各計算機の資源の動作状
況を監視することによって得る動作状況ログを解析デー
タとして収集し、前記解析データ表示制御手段は、前記
通信ダイアグラムの時間軸に合わせて、前記動作状況ロ
グに基づくシステム動作状況を表示することを特徴とす
る。
【0014】また、前記データ収集手段は、通信をトレ
ースすることによって通信の度に作成されるパケットを
通信ログとして通信ログファイルに採取し、前記解析デ
ータ表示制御手段は、前記各計算機それぞれに収集され
た前記通信ログファイルを検索し、正常な通信時にパケ
ットに記録されるパケット識別情報に基づいて対応する
パケットを特定することによって矢印線を引くことを特
徴とする。
【0015】また、所定の事象が発生したことを認識し
た時点でデータの収集を停止させる解析データ収集制御
手段を有することを特徴とする。
【0016】また、前記解析データ収集制御手段は、前
記各計算機上において収集される通信に関するログの内
容を監視し、ある特定のログが生成された時点で解析デ
ータの収集を停止させることを特徴とする。
【0017】また、前記解析データ収集制御手段は、前
記計算機上において動作し通信を行う特定のアプリケー
ションが異常終了した時点で解析データの収集を停止さ
せることを特徴とする。
【0018】また、前記解析データ収集制御手段は、前
記各計算機上において動作し通信を行う特定のアプリケ
ーションから通知を受けた時点で解析データの収集を停
止させることを特徴とする。
【0019】また、前記解析データ収集制御手段は、前
記アプリケーションが動作する前記各計算機に設けら
れ、自計算機においてデータ収集を停止させたことを他
方の計算機に通知することを特徴とする。
【0020】また、前記解析データ表示制御手段は、前
記各計算機におけるシステム時刻が一致していない場
合、対応する各パケットに記録された時間情報に基づい
て表示するための時間軸の補正を行った後に前記通信ダ
イアグラムの表示を行うことを特徴とする。
【0021】また、前記解析データ表示制御手段は、一
方の計算機により収集された通信ログのみに基づいて、
矢印線の一端が不特定な前記通信ダイアグラムの作成を
行うことを特徴とする。
【0022】また、前記解析データ表示制御手段は、一
方の計算機により収集された解析データと、他方の計算
機により収集された動作状況ログに基づいて表示する場
合、双方の前記計算機に対してシステム時刻の問合せを
行い、その問合せの返答に基づいて表示するための時間
軸の補正を行った後に、矢印線の一端が不特定な前記通
信ダイアグラムとその通信ダイアグラムの時間軸に対応
させて前記システム動作状況の作成を行うことを特徴と
する。
【0023】また、表示内容の条件設定を入力する条件
入力手段を有し、前記解析データ表示制御手段は、その
入力された条件に従って表示内容の設定することを特徴
とする。
【0024】また、前記条件入力手段は、画面上に表示
されているいずれかの矢印線を選択できる機構を有し、
前記解析データ表示制御手段は、前記条件入力手段によ
り選択された矢印線に対応した通信に関する詳細情報を
表示することを特徴とする。
【0025】更に、前記解析データ表示制御手段は、正
常でない通信に基づくパケットのみを前記通信ログファ
イルから抽出して通信ダイアグラムを生成することを特
徴とする。
【0026】また、本発明に係る媒体は、ネットワーク
を介して通信を行なう各計算機において、問題発生時に
おいて行われた通信をトレースすることによって得る通
信ログ及びその時の各計算機の資源の動作状況を監視す
ることによって得る動作状況ログを解析データとして収
集するデータ収集プログラムと、前記各計算機において
収集される解析データに基づいて計算機間の通信のやり
取りを時間軸上に矢印線で表示する通信ダイアグラムを
自動的に生成し、システム動作状況と合わせて表示する
解析データ表示制御プログラムとを含む計算機システム
における問題解析ツールを記録したことを特徴とする。
【0027】
【発明の実施の形態】以下、図面に基づいて、本発明の
好適な実施の形態について説明する。なお、従来例と同
様の要素には、同じ符号を付け説明を省略する。また、
各実施の形態の説明で使用する各図面についても同じ要
素及び処理には、同じ符号を付ける。
【0028】実施の形態1.図1は、本発明に係る計算
機システムにおける問題解析方式の一実施の形態を示し
たネットワーク構成図である。本実施の形態では、従来
例と同様に本発明をクライアント・サーバシステムに適
用した場合で説明する。なお、本実施の形態における各
計算機は、TCP/IPプロトコルを採用してネットワ
ーク通信を行うものとする。本実施の形態におけるクラ
イアント・サーバシステムは、問題解析の対象となるク
ライアントマシン101及びサーバマシン111の他に
通信ダイアグラムなどを表示するための表示マシン21
をネットワーク20に接続している。なお、本実施の形
態では、ネットワーク20を有線であるLANで構築し
たが、無線を利用するようにしてもよい。クライアント
マシン101及びサーバマシン111には、従来と同様
に問題発生時において行われた通信をトレースすること
によって得る通信ログ並びに問題発生時の各マシン10
1,111の資源の動作状況を監視することによって得
る動作状況ログを解析データとして収集するためのデー
タ収集ツール103,113が搭載されている。
【0029】表示マシン21には、各マシン101,1
11において収集される解析データに基づいて問題解析
に必要な情報を表示する障害解析ツール22が搭載され
ている。具体的には、接続されているグラフィック端末
23に通信ダイアグラムと通信ダイアグラムに合わせて
システム動作状況をビジュアルに表示する。障害解析ツ
ール22は、それぞれのメモリにロードされ各CPUに
より実行される障害解析用のアプリケーションプログラ
ムであり、解析データ表示制御手段を構成する。障害解
析ツール22は、各マシン101,111からディスク
装置24にコピーした通信ログファイル5,15及び動
作状況ログファイル6,16に基づいて問題解析に必要
な情報すなわち前述した通信ダイアグラム等を自動的に
作成し、グラフィック端末23に表示することになる。
定義ファイル25は、ディスク装置24に予め設定され
ており、問題解析の対象とするクライアントマシンとサ
ーバマシンとを設定する。図2は、定義ファイル25の
設定内容例を示した図である。図2に示したようにクラ
イアント及びサーバそれぞれのホスト名、通信ログファ
イル名、動作状況ログファイル名が設定される。
【0030】本実施の形態では、解析データとして通信
ログと動作状況ログとを用いる。通信ログには、通信が
実行される度に図3に示したような通常パケットと呼ば
れるログが通信相手双方の通信ログファイル5,15に
順次記録される。従って、通信ログファイル5,15
は、通信ログの集まりである。動作状況ログには、測定
時刻とその時刻における資源使用状況とが順次記録され
る。資源使用状況としてCPU使用率、ディスクIO
率、メモリ使用率を収集することが一般的であり、本実
施の形態においても同様である。本実施の形態では、解
析データの一部としてCPU使用率のデータを収集する
例を用いるので、図4に示したように各測定時刻に対応
してCPU使用率(%)が記録される。図5には、デー
タ収集ツール103,113により通信ログに記録され
るパケットの内容例が示されている。ここで、パケット
の内容について必要な項目のみ説明する。
【0031】本実施の形態におけるクライアント・サー
バシステムは、イーサネット及びTCP/IPプロトコ
ルに基づいて通信を行っている。従って、各パケットに
おいて、イーサネットに基づく通信に関する情報が“E
THER”の欄に、TCP/IPプロトコルに関するヘ
ッダ情報が“IP HEADER”、“TCP HEA
DER”の欄に、そして、通信された実際の通信パケッ
トの内容がキャラクタベースに変換され“USER D
ATA”の欄に、それぞれテキスト形式で記録される。
“ETHER”の欄には、通信相手双方の物理アドレス
の他に通信が行われた時刻が“DATE:”に記録され
る。“IP HEADER”の欄においては、“SOU
RCE:”、“DEST:”にそれぞれ送信元及び送信
先のIPアドレスが記録される。この例では、ホスト名
がわかっているときにはホスト名が記録される。また、
“ID:”にはネットワーク上一意に特定されるパケッ
トIDが記録される。本実施の形態では、主に時刻、通
信相手のホスト名及びパケットIDの情報を用いる。正
常に通信が行われている場合は、送受信双方のマシン1
01,111の通信ログファイル5,15に全ての情報
が所定のフィールドに書き込まれたパケットがログされ
ることになるが、異常発生時には、パケット自身がログ
されないか、あるいは可能な情報のみが書き込まれたパ
ケットがログされることになる。
【0032】本実施の形態において特徴的なことは、問
題発生時に各マシン101,111において収集した解
析データに基づいて通信ダイアグラムを自動的に生成す
ることである。また、時間軸を設けることで、通信をビ
ジュアルに表示し、更に同期させて動作状況ログをもビ
ジュアルに表示させることである。
【0033】次に、本実施の形態における通信ダイアグ
ラム等の自動生成処理について説明する。なお、解析デ
ータは、従来と同様の方法で収集する。すなわち、通信
ログと動作状況ログ自身は、従来例と同じでよい。
【0034】本実施の形態における通信ダイアグラム等
の自動生成処理は、図6に示したように解析データを分
析することによってマシン間の通信処理の内容を分析す
る処理と、その分析結果に基づいてグラフィック端末2
3に通信ダイアグラム等を作成し、表示するための処理
とに大別できる。最初に図7を用いて解析データの分析
処理から説明する。
【0035】まず、前準備として障害解析ツール22を
起動して、予め作成済みの定義ファイル25の内容(定
義情報)をディスク装置24から読み込み(ステップ1
00)、クライアントマシン101に対するホスト名、
問題発生時に収集した通信ログと動作状況ログのファイ
ル名の情報、また、同様にサーバマシン111に対する
ホスト名、収集した通信ログと動作状況ログのファイル
名の情報を得る。障害解析ツール22は、その情報に従
い、収集された通信ログを各マシン101,111から
ネットワーク20を経由して取得する(ステップ10
1)。同様に、動作状況ログを取得する(ステップ10
2)。
【0036】問題解析をする際、まず、各マシン10
1,111から取得したディスク装置24内の通信ログ
ファイル5,15を読み込む(ステップ103)。次
に、読み込んだクライアント側の通信ログファイル5の
先頭パケットから検索を行う(ステップ104)。最初
に、そのパケットがサーバマシン111との送受信のパ
ケットかどうかチェックする。サーバマシン111から
の受信パケットかどうかは、キャラクタベースのパケッ
ト内で“SOURCE:”で示されるフィールドがサー
バマシン111のホスト名“server”かどうかで
判別できる(ステップ105)。また、、サーバマシン
111への送信パケットかどうかは、キャラクタベース
のパケット内で“DEST:”で示されるフィールドが
サーバマシン111のホスト名かどうかで判別できる
(ステップ106)。従って、その判別の結果、サーバ
マシン111との通信でない場合は、最終パケットの判
断を行なう処理(ステップ112)へ進む。結果がサー
バマシン111との通信パケットであった場合、パケッ
ト内の“ID:”のフィールドにパケットIDが設定さ
れているかのチェックを行なう(ステップ107)。一
般のネットワーク通信で使用されるTCP及びUDPの
通信では、その上位層のIPプロトコルが持つIDがネ
ットワーク上でユニークな値となるため、この値を使う
ことで各マシン101,111の通信ログファイル5,
15の中から送信と受信のパケットの対応をとることが
できる。“ID:”のフィールドに何も設定されていな
ければ、ステップ112の処理に進む。“ID:”にパ
ケットIDが存在した場合は、そのクライアントマシン
101のパケットに対応するサーバマシン111側のパ
ケットを探しだすためサーバ側の通信ログファイル15
の先頭パケットから検索処理を行なう(ステップ10
8)。
【0037】検索処理として、サーバ側の通信ログファ
イル15に同じパケットIDのパケットが存在するかど
うかのチェックを行い(ステップ109)、存在すれ
ば、対応するクライアントマシン101及びサーバマシ
ン111のパケットの通信ログファイル5,15内にお
ける位置情報をセーブする(ステップ110)。もし、
サーバ側の通信ログファイル15の最後まで検索し、当
該パケットが存在しなければ、サーバ側の通信ログファ
イル15への検索処理を終了する(ステップ111)。
【0038】サーバ側の通信ログファイル15への検索
が終ると、クライアントマシン101のパケットが最終
かチェックする(ステップ112)。この処理をクライ
アント側の通信ログファイル5に記録された最終のパケ
ットまで上記処理(ステップ104〜ステップ112)
を繰り返し行う。
【0039】次に、解析データの分析処理により得たパ
ケットの位置情報に基づいて行う通信ダイアグラム等の
作成、表示処理について図8を用いて説明する。
【0040】まず、セーブした(対応が取られた)パケ
ットの位置情報から、該当するパケット情報を各通信ロ
グファイル5,15から読み込む(ステップ113)。
最初に表示するパケットを基点にして、パケット内にあ
る時間データすなわち“DATE:”の欄のデータを画
面上の位置データに変換する(ステップ114)。対応
が取られたパケットの位置データを線で繋ぐことで通信
のやり取りの表示が可能であるが、通信の向きを出すた
め、クライアント側からの送信の場合、クライアント側
からの矢印線を引き、サーバ側からの送信(クライアン
ト側では受信)の場合、サーバ側からの矢印線を引く
(ステップ115〜117)。この処理をセーブしたパ
ケット全てに対して行なう(ステップ118)。この処
理を繰り返し行うことで通信ダイアグラムを作成するこ
とができる。
【0041】更に、障害解析ツール22は、ディスク装
置24にある動作状況ログファイル6,16から動作状
況ログを読み込み(ステップ119)、上述した通信ダ
イアグラムの作成と同様に時刻情報を画面上の位置デー
タに変換し、通信ダイアグラムでの時間(時刻)に同期
させ、使用率を折れ線でグラフィック端末23に表示す
る(ステップ120)。この動作状況ログに関するデー
タの表示をクライアントマシン101、サーバマシン1
11のそれぞれについて実施すると、図9に示したよう
なシステム状況表示が可能になる。
【0042】図9において、グラフィック端末23の表
示画面の中央に設けられた通信ダイアグラム表示部31
には通信ダイアグラムが表示され、その両側に設けられ
たクライアントマシン101及びサーバマシン111の
システム動作状況表示部32には、CPU使用率がそれ
ぞれ表示される。通信ダイアグラム表示部31の最上部
には、各マシンのシステム時刻が表示され、縦方向に時
間軸を形成している。システム動作状況部32には、こ
の時間軸に合わせて動作状況ログファイル6,16に記
録されているCPU使用率が表示される。
【0043】以上のように、本実施の形態によれば、問
題発生時に収集した通信ログ及び動作状況ログから構成
される解析データを表示マシン21に収集し、その1台
の表示マシン21で解析し、通信ログファイル5,15
から同一パケットIDを検出し、表示する際に矢印で結
ぶようにすることによって通信ダイアグラムを容易に作
成することができる。そして、自動作成した通信ダイア
グラム並びに通信ダイアグラムの時間軸に合わせて動作
状況ログを表示するようにしたので、解析担当者は、こ
れを参照することによって、特に専門知識がなくても問
題点を感覚的に把握できるため問題解析を容易に行なう
ことが可能となる。
【0044】なお、本実施の形態では、解析対象となる
マシン101,111とは別個に表示マシン21を設け
障害解析ツール22を実行させるようにしたが、いずれ
かのマシン101,111で実行させるようにしてもよ
い。
【0045】また、通信ダイアグラム等は、グラフィッ
ク端末23に画面表示することを基本としているが、フ
ァイル、プリンタあるいは他の出力手段に出力するよう
にしてもよい。
【0046】実施の形態2.上記実施の形態1では、主
に障害解析ツール22における通信ダイアグラム等の自
動生成に関して説明した。本実施の形態、更に後述する
実施の形態3、4は、解析対象となるマシン101,1
11において動作するデータ収集ツール103,113
における処理についての形態である。
【0047】ところで、データ収集ツール103,11
3は、解析データを収集するためのツールであり、収集
される解析データ、特に通信ログに関しては、問題発生
時におけるものを採取しなければならない。そのために
も通信ログを収集する期間のうち特にその終期を正しく
設定する必要がある。そこで、本実施の形態におけるデ
ータ収集ツール103,113は、所定の事象が発生し
たことを認識した時点でデータの収集を自ら停止させる
解析データ収集制御手段としての機能を有しており、本
実施の形態では、特に各マシン101,111上におい
て収集される通信に関するログの内容を監視し、ある特
定のログが生成されたという所定の事象が発生した時点
で解析データの収集を停止するようにしたことを特徴と
している。なお、ここでいう通信に関するログは、通常
各マシン101,111において動作するシステムが持
つエラーログファイル(図示せず)に書き込まれるログ
を意味する。
【0048】更に、本実施の形態においては、データ収
集ツール103,113に、自マシン101,111に
おいてデータ収集を停止させたことを他方のマシン11
1,101に通知する機能を持たせてたことを特徴とし
ている。すなわち、データ収集ツール103,113
は、他方のマシン111,101と常時定期的に通信を
行い、他方から停止要求を受けた時点で自マシン10
1,111においても解析データの収集を停止させる。
【0049】次に、本実施の形態におけるデータ収集処
理について図10を用いて説明する。なお、各マシン1
01,111において行われる処理は同じなので、ここ
ではクライアントマシン101における処理を代表して
説明する。
【0050】収集すべきデータ種類(CPU使用率、メ
モリ使用率等)の設定等の情報収集に関する設定(ステ
ップ1)並びに設定された情報の内容に基づいてデータ
収集ツール103を起動する処理(ステップ2)につい
ては、従来例と同様である。但し、本実施の形態におけ
る情報設定処理(ステップ1)においては、データ収集
処理を停止させるための条件を指定することが必須条件
である。
【0051】通信ログの収集を開始すると、まず、他方
のサーバマシン111から停止要求があったかどうかを
チェックする(ステップ5)。停止要求を受信した場
合、前述したように情報収集を終了させる(ステップ
4)。停止要求を受信していなければ、エラーログファ
イルの内容を監視し(ステップ6)、予め指定された条
件を満たすログが発生しているかを確認する(ステップ
7)。例えば、通信エラーに関するログがエラーログフ
ァイルに書き込まれたことを上記条件とするなどであ
る。なお、このようなパケットは、異常なアプリケーシ
ョン間通信などにより作成されうる。このような条件を
満たすログがエラーログファイルにないときには、サー
バマシン111からの停止要求の有無をチェックする処
理(ステップ5)に戻る。上記条件を満たすログがエラ
ーログファイルの中に見つけたときに他方のサーバマシ
ン111に停止要求を通知してから(ステップ8)、自
クライアントマシン101の情報収集を停止させる(ス
テップ4)。従って、停止要求を受信するか、あるいは
指定した条件を満たす通信ログを見つけるまで、ステッ
プ5〜7の処理を繰り返す。このようにして、収集した
解析データに基づいて、上記実施の形態1において示し
た方法で解析データを分析し、通信ダイアグラム等の表
示を行うことになる。
【0052】以上のように、本実施の形態によれば、デ
ータ収集ツール103,113に自マシン101,11
1のエラーログファイルの内容を監視させること並びに
相手側への情報収集停止要求を通知する、逆に言うと、
相手側から情報収集停止要求の通知を受けることによ
り、問題が発生したその直後にデータ収集処理を停止さ
せることができる。これにより、問題解析に必要な情報
を確実に収集でき、かつ無駄なデータ収集を行わないよ
うにすることができるので、各マシン101,111に
おいて不要な解析データの量の削減を図ることができ
る。
【0053】なお、本実施の形態においては、データ収
集を停止させるための事象を特定するためにエラーログ
ファイルに書き込まれるログを監視させるようにした
が、エラーログファイルでなくても例えば通信に関する
ログが書き込まれる通信ログファイル5を監視させるよ
うにしてもよい。
【0054】実施の形態3.上記実施の形態2では、基
本的に特定の通信ログの発生時にデータ収集処理を停止
させたが、本実施の形態においては、アプリケーション
2,12が異常終了した時点で解析データの収集を停止
させるようにしたことを特徴としている。
【0055】次に、本実施の形態におけるデータ収集処
理について図11を用いて説明する。なお、各マシン1
01,111において行われる処理は同じなので、本実
施の形態においてもクライアントマシン101における
処理を代表して説明する。
【0056】情報収集の設定(ステップ1)、データ収
集ツール103を起動する処理(ステップ2)並びに停
止要求をチェックする処理(ステップ5)については、
上記実施の形態1と同様である。但し、本実施の形態に
おける情報設定処理(ステップ1)においては、解析の
対象とするアプリケーション2を設定することが条件と
なる。
【0057】通信ログの収集を開始し、サーバマシン1
11から停止要求を受信していなければ、設定したアプ
リケーションプログラム(APP)の動作状態を監視し
(ステップ9)、そのアプリケーションプログラム(A
PP)が異常終了したかどうか確認する(ステップ1
0)。アプリケーションプログラムが異常終了したかど
うかは、システムが提供する機能により把握することが
できる。異常終了しておらずまだ動作中であれば、再度
サーバマシン111からの停止要求の有無をチェックす
る処理(ステップ5)に戻る。異常終了していれば、他
方のサーバマシン111に停止要求を通知してから(ス
テップ8)、自マシン101の情報収集を停止させる
(ステップ4)。従って、停止要求を受信するか、ある
いはアプリケーション2が異常終了するまで、ステップ
5,9,10の処理を繰り返す。このようにして、収集
した解析データに基づいて、上記実施の形態1において
示した方法で解析データを分析し、通信ダイアグラム等
の表示を行うことになる。
【0058】本実施の形態によれば、解析の対象とする
アプリケーションを特定しても上記実施の形態2と同様
の効果を奏することができる。
【0059】実施の形態4.上記実施の形態3では、基
本的にアプリケーション2,12が異常終了した時点で
解析データの収集を停止させるようにしたが、本実施の
形態においては、アプリケーション2,12から所定の
通知を受けた時点で解析データの収集を停止させるよう
にしたことを特徴としている。
【0060】次に、本実施の形態におけるデータ収集処
理について図12を用いて説明する。なお、各マシン1
01,111において行われる処理は同じなので、本実
施の形態においてもクライアントマシン101における
処理を代表して説明する。
【0061】情報集の設定(ステップ1)、データ収集
ツール103を起動する処理(ステップ2)並びに停止
要求をチェックする処理(ステップ5)については、上
記実施の形態1と同様である。但し、本実施の形態にお
ける情報設定処理(ステップ1)においては、実施の形
態3と同様に解析の対象とするアプリケーション2を設
定することが条件となる。
【0062】通信ログの収集を開始し、サーバマシン1
11から停止要求を受信していなければ、アプリケーシ
ョンプログラム(APP)からの通知があるかのチェッ
クを行う(ステップ11)。アプリケーションプログラ
ムから所定の通知がなかった場合は、再度サーバマシン
111からの停止要求の有無をチェックする処理(ステ
ップ5)に戻る。アプリケーションプログラムから所定
の通知があった場合、他方のサーバマシン111に停止
要求を通知してから(ステップ8)、自マシン101の
情報収集を停止させる(ステップ4)。すなわち、所定
の通知とは、アプリケーションとデータ収集ツール10
3との間で定められたデータ収集を停止させるための指
示である。従って、他方のサーバマシン111からの停
止要求を受信するか、あるいはアプリケーション2から
所定の通知を受信するまで、ステップ5,11の処理を
繰り返す。このようにして、収集した解析データに基づ
いて、上記実施の形態1において示した方法で解析デー
タを分析し、通信ダイアグラム等の表示を行うことにな
る。
【0063】本実施の形態によれば、解析の対象とする
アプリケーションを特定しても上記実施の形態2と同様
の効果を奏することができる。
【0064】なお、説明の便宜上、データ収集ツール1
03,113の持つ機能を個別に分けて持たせるように
したが、各機能を任意に組み合わせて持たせることも可
能である。
【0065】実施の形態5.本発明に係る計算機システ
ムにおける問題解析方式では、図9に示したような通信
ダイアグラム等を自動生成し表示することができる。こ
の通信ダイアグラムには、対応する各マシン101,1
11におけるパケットIDを矢印線で結ぶことによって
通信の状況を視覚的に把握することができる。通信ダイ
アグラムには、表示画面の縦方向に時間軸が設けられる
ことになるので、矢印線の傾きによって各データの通信
に要した時間を把握することができる。
【0066】しかし、この通信ダイアグラムを作成する
際の時間軸は、各マシン101,111におけるシステ
ム時刻に基づいて設定されるので、各システム時刻に基
づいて矢印線を引こうとすると、矢印線の傾きが実際の
通信の状況とは微妙に異なる可能性がある。各マシン1
01,111におけるシステム時刻は、必ずしも完全に
一致しているとは限らないからである。
【0067】そこで、本実施の形態では、このような不
都合を解消するために各マシン101,111のシステ
ム時刻が一致していない場合、障害解析ツール22は、
対応する各パケットに記録された時刻情報に基づいて表
示するための時間軸の補正を行った後に通信ダイアグラ
ムの表示を行うようにしたことを特徴としている。
【0068】次に、本実施の形態における通信ダイアグ
ラム等の自動生成処理について説明する。なお、解析デ
ータを分析することによってマシン間の通信処理の内容
を分析する処理は、図7に示した実施の形態1と同じ処
理でよいため説明を省略し、解析データの分析処理によ
り得たパケットの位置情報に基づいて行う通信ダイアグ
ラム等の作成、表示処理について図13及び図14を用
いて説明する。
【0069】図13において、まず、各マシン101,
111間でシステム時刻が異なる場合、障害解析ツール
22は、時間補正値算出処理を実施するが(ステップ1
21)、この処理について図14を用いて説明する。
【0070】上記分析処理において対応がとられたパケ
ットの位置情報に基づいて該当するパケットの情報を各
通信ログファイル5,15から読み込む(ステップ11
3)。そして、読み込んだパケットのうち最初に表示す
るパケットを基点(傾き=0)にして、各通信における
矢印線の傾きをそれぞれ計算する(ステップ200)。
これは、各マシン101,111のシステム時刻に基づ
いて、より具体的にはパケットの“DATE:”のフィ
ールドに記録された時間情報により計算する。この時間
補正値算出処理を図15に示した図を用いて説明する。
図15に示した通信を表す矢印線の両端にある縦方向の
直線は、通信ダイアグラムにおける各マシン101,1
11の時間軸を表している。矢印線の傾きは、通信に要
した時間であり、送信から着信までの相対的な時間差で
ある。その傾きをクライアントマシン101側に対する
送信受信毎に計算し、それぞれにおいて最も傾きの小さ
いパケットを検索し、その値をセーブする(ステップ1
15,201,202)。図15(a)の例によると、
右向き矢印(クライアントマシン101から送信)は、
パケット1,3で表されているが、各パケットの傾き
1,6のうちパケット1の傾き0が最小となる。一方、
左向き矢印(クライアントマシンが受信)は、パケット
2,4で表されているが、各パケットの傾き6,2のう
ちパケット4の傾き2が最小となる。この各最小値をセ
ーブする。次に、セーブした送信側と受信側の傾きの平
均値をとる(ステップ203)。この例では、(パケッ
ト1の傾き“0”+パケット4の傾き“2”)/2で、
傾き1が平均となる。この値から、送信側、受信側の平
均値に対する補正値は、(平均値−補正前)の値で各々
求めることができる(ステップ204)。すなわち、送
信側、受信側の補正値は、それぞれ+1,−1となるた
め、図15(b)に示したように送信の各パケット1,
3の傾き0,6の補正後の傾きは、1,7、受信の各パ
ケット2,4の傾き6,2の補正後の傾きは、5,1、
となる。
【0071】このようにして、時間の補正がなされ、各
マシン101,111の時間軸のずれが解消されると、
図13において、実施の形態1のときと同様に、対応が
取られたパケットの位置情報から、該当するパケット情
報を各通信ログファイル5,15から読み込み、矢印線
を引くことになるが(ステップ113〜117)、本実
施の形態においては、矢印線を引く処理(ステップ11
6,117)の前に上述した時間補正値算出処理(ステ
ップ121)で得られた補正値でもって、描画する位置
データを微調整する(ステップ122,123)。な
お、その後の処理(ステップ118〜120)は、実施
の形態1と同じなので説明を省略する。
【0072】以上のようにして、本実施の形態によれ
ば、通信ダイアグラムを作成する際に各マシン101,
111のシステム時刻の不一致に基づく時間軸のずれを
調整することができるので、通信に要した時間を表すこ
とのできる矢印線の傾きを実際の通信状況に即した形で
バランス良く表示することができる。この結果、より精
度の良い問題解析を行うことができるようになる。
【0073】実施の形態6.上記実施の形態では、クラ
イアントマシン101及びサーバマシン111の双方が
通信ログ及び動作状況ログを確実に収集でき、障害解析
ツール22は、各マシン101,111における通信ロ
グファイル5,15及び動作状況ログファイル6,16
を得ることができることを前提としている。しかし、何
らかの障害が発生したり、あるいはどちらかが異機種の
計算機であり制約上ログファイルを受信できなかったり
する場合もあり得る。そこで、本実施の形態では、ま
ず、障害解析ツール22が一方の通信ログファイルを得
ることができなかった場合を想定し、このような場合の
通信ダイアグラムの自動作成処理について図16及び図
17に示したフローチャートを用いて説明する。なお、
以降の説明では、障害解析ツール22は、クライアント
マシン101からのみ通信ログファイル5を受信できた
場合を例にして説明する。
【0074】まず、解析データを分析する処理は、実施
の形態1と基本的には同じであるが、一方のクライアン
トマシン101からの通信ログファイル5しか受け取れ
なかったので、図16に示したように一方の通信ログフ
ァイル5のみの検索を行えばよいことになる(ステップ
130〜133)。
【0075】その後の通信ダイアグラム等の作成、表示
処理において、図17に示したようにセーブしたパケッ
トの位置情報から、該当するパケット情報を通信ログフ
ァイル5から読み込む(ステップ113)。なお、この
場合のパケットの位置情報は、上記各実施の形態とは異
なり、両マシンの対応は取られていない。そして、最初
に表示するパケットを基点にして、パケット内にある時
間データすなわち“DATE:”の欄のデータを画面上
の位置データに変換する(ステップ114)。本実施の
形態では、クライアントマシン101側のパケットに対
応するサーバマシン111側のパケット情報は存在しな
いので、クライアント側からの送信の場合、クライアン
ト側の時間軸上における所定の位置からサーバ側に向け
て一直線に通信ダイアグラムのほぼ中央の位置まで矢印
線を引く(ステップ136)。一方、サーバ側からの送
信(クライアント側では受信)の場合、時間軸上におけ
る通信ダイアグラムのほぼ中央の位置から一直線にクラ
イアント側の所定の位置まで矢印線を引く(ステップ1
35)。この処理をセーブしたパケット全てに対して行
なう(ステップ118)。この処理を繰り返し行うこと
で通信ダイアグラムを作成することができる。なお、そ
の後の処理(ステップ119,120)は、実施の形態
1と同じなので説明を省略する。以上の処理により作成
された通信ダイアグラムの概念図を図18に示す。
【0076】以上のように、本実施の形態によれば、一
方のマシン上でしか通信ログが収集できなかった場合で
も、通信ダイアグラム及びシステム動作状況をビジュア
ルに表示することができる。正常の場合と異なり、通信
に要した時間などはわからないが、矢印線の方向並びに
各矢印線の時間間隔は把握できるので、送受信の状況は
ある程度把握することができる。また、送受信を一組に
して処理を行うアプリケーションの場合は、その矢印線
の方向を確認することによって障害の発生を認識でき
る。このように、限られた情報に基づいて可能な範囲で
通信ダイアグラムをビジュアルに表示することができる
ので、障害解析ツール22が参照できた通信ログを収集
した一方のマシンにおいて問題発生の切り分けなどある
程度の問題解析を行うことは可能である。
【0077】実施の形態7.上記実施の形態6では、障
害解析ツール22が一方の計算機からのみ通信ログファ
イルを受け取ることができた場合について説明した。本
実施の形態では、このような場合でも他方の計算機から
動作状況ログファイルは受け取ることができた場合にお
ける処理について説明する。
【0078】図19は、本実施の形態における通信ダイ
アグラム等の作成、表示処理を示したフローチャートで
ある。なお、解析データの分析処理並びに図19に示し
た処理のうち通信ダイアグラムの作成、表示を行う処理
等(ステップ113〜119)は、上記実施の形態6と
同じなので、説明を省略する。
【0079】収集した両マシン101,111の動作状
況ログを読み込んだ後(ステップ119)、両方のマシ
ン101,111に対して、システム時刻を問い合わせ
る通信を行なう(ステップ140)。その返答の結果か
ら、クライアント/サーバ間でどのくらい時間の差があ
るか計算する(ステップ141)。その後、障害解析ツ
ール22が通信ログファイル5を受け取ることができた
クライアントマシン101のシステム動作状況について
は、実施の形態1と同様な方法で通信ダイアグラムの時
刻に合わせて、位置データに変換し表示する(ステップ
120)。一方、通信ログがないサーバマシン111の
システム動作状況については、クライアントマシン10
1のシステム時刻を基準に、前述した処理で求めた時間
差に基づいて動作状況ログの位置データを補正して表示
する(ステップ143)。
【0080】以上のように、本実施の形態における障害
解析ツール22は、サーバマシン111の通信ログファ
イル15を受け取っていないため、実施の形態5のよう
に通信ログファイル15のパケットの時間情報“DAT
E:”から時間軸の補正の元になる時間情報を得ること
ができないが、双方のマシン101,111にシステム
時刻を問い合わせる機能を有しているので、各マシン1
01,111から返答されたシステム時刻に基づいて双
方のマシン101,111のシステム動作状況を通信ダ
イアグラムの時間軸に合わせて表示することができる。
これにより、問題発生の有無等の切り分け等が可能であ
る。例えば、連続したクライアント/サーバマシン間通
信の実行中に、ある時点の通信が正常でないとクライア
ントマシン101の通信ログから把握できたとき、両マ
シン101,111のシステム動作状況(CPU使用
率)を参照することにより、その時点におけるクライア
ントマシン101にかかるCPU負荷はほとんど変化が
ないのに対して、サーバマシン111にかかるCPU負
荷が大きくなったことが確認できたとすると、通信異常
の原因は、サーバマシン111側にあるということが容
易に推定できる。本実施の形態は、通信ログの収集機能
は有していないが、動作状況ログの機能は有しているよ
うなシステムなどに有用である。
【0081】実施の形態8.上記各実施の形態では、グ
ラフィック端末23に表示するための通信ダイアグラム
等の作成、表示する処理について説明した。これ以降
は、問題解析のための有用なツールとして前述した上記
各実施の形態に付加的に設けた表示方法に関する実施の
形態である。
【0082】まず、本実施の形態では、表示内容の条件
設定を入力する条件入力手段を設けたことを特徴とし、
障害解析ツール22は、入力された条件に従って表示内
容を設定することを特徴とする。本実施の形態において
は、グラフィック端末23から条件の設定ができるよう
にした。図9に示した“設定”キー33をマウス等でク
リックすると、条件設定画面が表示されることになる。
図20に本実施の形態における条件設定画面の例を示し
た。本実施の形態では、この画面例のように表示させる
時間帯の開始の“時刻”、通信に使用した“プロトコ
ル”、ユーザデータに含まれる“データパターン”、発
生した“エラー種別”が設定可能である。もちろん、こ
れは例示であり、他の指定項目や他の指定方法を設ける
ことも可能である。
【0083】次に、本実施の形態の条件設定検索処理に
ついて図21に示したフローチャートを用いて説明す
る。なお、この説明においては、図9に示した通信ダイ
アグラム等がグラフィック端末23に表示されている状
態が初期の状態である。
【0084】通信ダイアグラム等の表示画面において、
“設定”キー33をマウス等でクリックすると、図20
に示した条件設定画面が表示されることになる(ステッ
プ300)。そして、解析担当者がこの画面から条件を
入力すると、その設定された条件を読み込む(ステップ
301)。そして、セーブしてあるパケットの位置情報
からパケットを読み込み(ステップ113)、パケット
が、設定条件にマッチしているかのチェックを行う(ス
テップ302)。マッチしていれば、該当したパケット
の情報に基づき通信ダイアグラムにおける矢印線を引く
(ステップ116,117)。この作業をセーブしてあ
るパケット全てに対して繰り返し行うことによって(ス
テップ118)、設定条件を満たしたパケットだけの通
信ダイアグラム(通信のやり取り)を作成し表示するこ
とができる。
【0085】以上のように、本実施の形態によれば、検
索条件を設定可能としたことで、その設定条件にマッチ
したパケットのみで通信ダイアグラムを表示することが
でき、これにより、問題解析時に解析したい部分の絞り
込みが容易に行うことができ、問題解析の時間短縮を図
ることができる。特にログ情報が膨大であるときには必
要な情報のみを解析の対象とすることができるので、問
題解析の時間を短縮することができる。
【0086】実施の形態9.本実施の形態も実施の形態
8と同様に表示された通信ダイアグラムに基づいて入力
された条件に従ってパケットの情報を表示させる他の例
である。本実施の形態は、図9に示したような通信ダイ
アグラムが表示されている画面に対し、通信のやり取り
を示した矢印線をマウスでクリックすることで、そのク
リックしたパケットの詳細表示を行う処理を付加したこ
とを特徴とする。このパケットの詳細表示処理について
図22に示したフローチャートを用いて説明する。
【0087】マウスでいずれかの矢印線がクリックされ
ると、障害解析ツール22は、当該矢印線に対応したパ
ケットの位置情報を一時セーブしたデータの中から読み
込む(ステップ400)。次に、その位置情報から該当
するパケットのデータを通信ログファイル5,15から
それぞれ読み込む(ステップ401)。そして、そのデ
ータをグラフィック画面上に表示する(ステップ40
2)。表示する内容は、図5に示したパケットの詳細情
報である。このデータの表示形式は、設計事項の範囲で
ある。
【0088】以上の処理を行なうことにより、通信ダイ
アグラム内のいずれかの矢印線をマウスによりクリック
することで、そのパケットに対する詳細情報を迅速に参
照することができるので、問題解析において、詳しい調
査を即座に行うことができる。
【0089】また、この実施の形態では、矢印線をクリ
ックするようにしたが、指定された範囲に含まれる複数
の矢印線に対応したパケットの詳細情報の表示や、指定
された範囲の拡大、縮小などの表示機能を付加すること
も可能である。
【0090】実施の形態10.上記実施の形態1では、
マシン101,111双方の通信ログファイル5,15
にパケットIDが正常にパケットに書き込まれた情報に
基づいて通信ダイアグラムを作成するものであった。ま
た、上記実施の形態6では、一方のマシンからしか通信
ログファイルが収集できないため矢印線の一端が不特定
の状態で通信ダイアグラムを作成するものであった。た
だ、双方の通信ログファイル自身は正常に存在しても、
一方の通信ログファイル中のパケットに対応するパケッ
トが他方の通信ログファイルの中に存在しない場合は、
そのパケットの情報に基づくと実施の形態6と同様に通
信ダイアグラムのほぼ中央までの矢印線が引かれるのと
同様になる。上記説明では、作成される通信ダイアグラ
ムの相違を明確にするために対応するパケットが正常に
存在する場合とそうでない場合とを分けて実施の形態1
及び実施の形態6でそれぞれ説明したが、実際には、対
応するパケットが正常に存在するパケットとそうでない
パケットとが通信ログファイルに混在することは容易に
考えられる。
【0091】本実施の形態では、このような場合におい
て、正常でない通信に基づくパケットのみを通信ログフ
ァイル5,15から抽出して通信ダイアグラムを生成す
ることを特徴としている。
【0092】次に、本実施の形態の正常な通信部分は表
示せずに異常時(通信の送受信がうまくできていない通
信)のみの表示を行う処理について、図23及び図24
に示したフローチャートを用いて説明する。
【0093】まず、図23に基づく解析データ分析処理
において、ステップ100からステップ109までの各
通信ログファイル5,15を検索し対応するパケットを
見つけ出す処理は、図7に示した実施の形態1と同じな
ので説明を省略する。
【0094】サーバ側パケット検索(ステップ108)
において、クライアント側と同じパケットIDが存在し
た場合、つまり、クライアントマシン101と正常に通
信を行った場合は、対応するサーバマシン111側のパ
ケットに検索済みのマークを付加する(ステップ15
0)。そうでない場合、つまり、クライアントマシン1
01側には、サーバマシン111との通信によるパケッ
トが存在したが、サーバマシン111側には、その通信
によるパケットが存在しない場合に異常の発生とみな
し、クライアントマシン101側の当該パケットの位置
情報をセーブする(ステップ151)。以上の処理をク
ライアント側の通信ログファイル5に記録された最終の
パケットまで上記処理(ステップ104〜ステップ11
2)を繰り返し行う。
【0095】ところで、上記の処理は、クライントマシ
ン101の通信ログファイル5を主とした処理なので、
サーバマシン111から送信してクライアントマシン1
01に届かなかった通信に関するパケットは見つけられ
ない。従って、サーバマシン111の通信ログファイル
15を主とした処理を行う必要がある。
【0096】まず、サーバマシン111の通信ログファ
イル15のパケットの先頭からの検索処理を開始する
(ステップ152)。検索したパケット内の“DES
T:”で示されるフィールドがクライアントマシン10
1のホスト名かどうかでクライアントマシン101への
送信のパケットかどうかを判別する(ステップ15
3)。クライアントマシン101との通信のパケットで
あった場合、そのパケットが検査済みのマークが付いて
いるかどうかのチェックを行う(ステップ154)。検
査済みのマークが付いていなければ、“ID:”のフィ
ールドの文字列をチェックし(ステップ155)、正し
くパケットIDが付与されていれば、当該パケットの位
置情報をセーブする(ステップ156)。以上の処理を
サーバ側の通信ログファイル15に記録された最終のパ
ケットまで上記処理(ステップ152〜ステップ15
7)を繰り返し行う。これにより、サーバ側から送信し
てクライアント側に届いていないパケットを検出するこ
とができる。
【0097】次に、図24に示したフローチャートを用
いて、検出された異常のパケットを通信ダイアグラムと
して作成し表示する処理に移るが、基本的には図8に示
した実施の形態1における処理と同様である。但し、対
応するパケットが存在しないので、矢印線を引く処理に
おいて、クライアントマシン101からの送信の場合
は、クライアント側の時間軸上における所定の位置から
サーバ側に向けて一直線に通信ダイアグラムのほぼ中央
の位置まで矢印線を引く(ステップ159)。一方、サ
ーバマシン111からの送信の場合は、サーバ側の時間
軸上における所定の位置からクライアント側に向けて一
直線に通信ダイアグラムのほぼ中央の位置まで矢印線を
引く(ステップ158)。この処理をセーブしたパケッ
ト全てに対して行なう(ステップ118)。この処理を
繰り返し行うことで通信ダイアグラムを作成することが
できる。なお、その後の処理(ステップ119,12
0)は、実施の形態1と同じなので説明を省略する。以
上の処理により作成された通信ダイアグラムの概念図を
図25に示す。
【0098】以上のように、本実施の形態によれば、通
信ログファイル5,15の中から対応したパケットが存
在しない異常と考えられる通信によるパケットのみに基
づいて通信ダイアグラムを生成し、表示することができ
る。このように、異常通信のみを表示させることによ
り、問題解析の時間を短縮させることができる。問題の
箇所がクライアント、サーバあるいはネットワークのい
ずれかにあるかの一次切り分けも行うことが容易であ
る。
【0099】なお、本実施の形態は、正常でない通信に
基づくパケットのみで通信ダイアグラムを生成すること
を特徴としているので、送信側には通信の基づくパケッ
トは存在するが、それに対応した受信側のパケットがな
い以外の場合があれば、それも含めて通信ダイアグラム
を生成する。例えば、これとは逆のパターンで、送信の
パケットは存在しないが、その送信に対応した受信のパ
ケットのみが存在するような場合である。実際に発生す
ることは考えにくいが、論理的には存在しうる。
【0100】以上、各実施の形態において説明したよう
に、本実施の形態は、主として動作する障害解析ツール
22、あるいは実施の形態2〜4において機能を発揮す
るデータ収集ツール103,113は、前述したように
ソフトウェアにより構築される。従って、これらをフロ
ッピーディスクなどの媒体に格納しておき、この媒体を
用いていずれかの計算機にインストレーションをするこ
とで上記問題解析方式を実現することは、容易に実現す
ることができる。なお、媒体としては、前述したフロッ
ピーディスクの他にCD−ROM、磁気テープ、フラッ
シュメモリ、光ディスク、DVDなどの記憶手段が考え
られる。更に、ソフトウェアを通信により送信する手段
及び送信されてきたソフトウェアを記憶する手段もこの
媒体に含まれる。このように、上記機能を有する障害解
析ツール22及びデータ収集ツール103,113を記
録した媒体も本発明の範囲内である。
【0101】
【発明の効果】本発明によれば、計算機システムにおけ
る問題発生時に収集した通信ログに基づいて通信ダイア
グラムを自動的に作成することができる。また、時間軸
を設けることで、通信の方向を矢印線でビジュアルに表
示することができる。通信ログに記録されるパケット識
別情報を用いることにより矢印線の引く方向を特定する
ことができる。また、同時に採取した動作状況ログもそ
の時間軸に合わせてビジュアルに表示することができ
る。これにより、専門知識がなくても時間をかけずに容
易に問題解析を行うことができる。
【0102】また、アプリケーション間の特定の通信、
特定のアプリケーションが異常終了、特定のアプリケー
ションから通知を受信という所定の事象が発生したこと
を認識した時点でデータの収集を停止させるようにした
ので、問題解析に必要な情報を確実に収集でき、かつそ
の後の無駄なデータ収集を行わないようにすることがで
きる。
【0103】また、自計算機におけるデータ収集処理の
停止を他方の計算機に通知するようにしたので、他方の
計算機においても不要な解析データの収集を停止させる
ことができる。これにより、不要な解析データの量の削
減を図ることができる。
【0104】また、各計算機におけるシステム時刻が一
致していない場合に、通信ログに記録された時間情報を
使用してシステム時刻のずれを補正するようにしたの
で、各計算機間における解析データを同一時間軸上に表
示することができる。
【0105】また、通信ログが一方の計算機からしか得
られない場合であっても、その通信ログに基づいて通信
ダイアグラムの表示を可能な範囲で行うようにしたの
で、問題解析を行うことは可能である。
【0106】また、各計算機間のシステム時刻が一致し
ていない場合であって通信ログが一方の計算機からしか
得られずパケットに記録された時間情報を利用できない
場合でも、各計算機にシステム時刻を問い合わせる機能
を解析データ表示制御手段に持たせることによって、各
マシンの解析データを同一時間軸上に表示することがで
きる。
【0107】また、表示された通信ダイアグラムに基づ
いて表示させる内容の条件を設定できるようにしたの
で、問題解析時に解析したい部分の絞り込みが容易に行
うことができ、また、問題解析の時間短縮を図ることが
できる。
【0108】また、表示した通信ダイアグラムに対し
て、マウスにより、通信のやり取りを示した矢印線をク
リックするだけで、そのパケットに対する詳細情報を迅
速に参照することができるので、問題解析において、詳
しい調査を即座に行うことが可能となり、その結果、問
題解析に要する時間を短縮することができる。
【0109】また、異常時のパケットのみを表示される
ことができるので、通信ログの情報量が膨大であっても
問題解析の時間を短縮させることができる。
【図面の簡単な説明】
【図1】 本発明に係る計算機システムにおける問題解
析方式の実施の形態1を示したネットワーク構成図であ
る。
【図2】 実施の形態1において使用する定義ファイル
の設定内容例を示した図である。
【図3】 実施の形態1において作成される通信ログフ
ァイルの内容の構成を示した概略図である。
【図4】 実施の形態1において作成される動作状況ロ
グファイルの内容の構成を示した概略図である。
【図5】 実施の形態1において収集されるパケットの
内容例を示した図である。
【図6】 実施の形態1における基本処理を示したフロ
ーチャートである。
【図7】 実施の形態1における解析データの分析処理
を示したフローチャートである。
【図8】 実施の形態1における通信ダイアグラム等の
作成、表示処理を示したフローチャートである。
【図9】 実施の形態1において作成された通信ダイア
グラム及びシステム状況の表示例を示した図である。
【図10】 実施の形態2におけるデータ収集処理を示
したフローチャートである。
【図11】 実施の形態3におけるデータ収集処理を示
したフローチャートである。
【図12】 実施の形態4におけるデータ収集処理を示
したフローチャートである。
【図13】 実施の形態5における通信ダイアグラム等
の作成、表示処理を示したフローチャートである。
【図14】 図13に示した処理に含まれる時間補正値
算出処理を示したフローチャートである。
【図15】 実施の形態5における時間補正値算出処理
を説明するために用いる通信ダイアグラムの要部を示し
た図である。
【図16】 実施の形態6における解析データの分析処
理を示したフローチャートである。
【図17】 実施の形態6における通信ダイアグラム等
の作成、表示処理を示したフローチャートである。
【図18】 実施の形態6において作成された通信ダイ
アグラムの概念図である。
【図19】 実施の形態7における通信ダイアグラム等
の作成、表示処理を示したフローチャートである。
【図20】 実施の形態8における条件設定画面の例を
示した図である。
【図21】 実施の形態8における条件設定検索処理を
示したフローチャートである。
【図22】 実施の形態9におけるパケットの詳細表示
処理を示したフローチャートである。
【図23】 実施の形態10における解析データの分析
処理を示したフローチャートである。
【図24】 実施の形態10における通信ダイアグラム
等の作成、表示処理を示したフローチャートである。
【図25】 実施の形態10において作成された通信ダ
イアグラムの概念図である。
【図26】 従来の計算機システムにおける問題解析方
式を示したネットワーク構成図である。
【図27】 問題解析を行う際に従来の計算機システム
において実行される処理を示したフローチャートであ
る。
【符号の説明】
2,12 アプリケーション、4,14,24 ディス
ク装置、5,15 通信ログファイル、6,16 動作
状況ログファイル、20 ネットワーク、21表示マシ
ン、22 障害解析ツール、23 グラフィック端末、
25 定義ファイル、31 通信ダイアグラム表示部、
32 システム動作状況表示部、33設定キー、101
クライアントマシン、103,113 データ収集ツ
ール、111 サーバマシン。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 五十嵐 史生 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークを介して通信を行なう計算
    機により構築される計算機システムにおいて、 前記各計算機において問題発生時において行われた通信
    をトレースすることによって得る通信ログ及びその時の
    各計算機の資源の動作状況を監視することによって得る
    動作状況ログを解析データとして収集するデータ収集手
    段と、 前記各計算機において収集される解析データに基づいて
    問題解析に必要な情報を表示する解析データ表示制御手
    段と、 を有し、 前記解析データ表示制御手段は、前記解析データに基づ
    いて計算機間の通信のやり取りを時間軸上に矢印線で表
    した通信ダイアグラムを自動的に生成し表示することを
    特徴とする計算機システムにおける問題解析方式。
  2. 【請求項2】 前記データ収集手段は、前記各計算機に
    おいて問題発生時における各計算機の資源の動作状況を
    監視することによって得る動作状況ログを解析データと
    して収集し、 前記解析データ表示制御手段は、前記通信ダイアグラム
    の時間軸に合わせて、前記動作状況ログに基づくシステ
    ム動作状況を表示することを特徴とする請求項1記載の
    計算機システムにおける問題解析方式。
  3. 【請求項3】 前記データ収集手段は、通信をトレース
    することによって通信の度に作成されるパケットを通信
    ログとして通信ログファイルに採取し、 前記解析データ表示制御手段は、前記各計算機それぞれ
    に収集された前記通信ログファイルを検索し、正常な通
    信時にパケットに記録されるパケット識別情報に基づい
    て対応するパケットを特定することによって矢印線を引
    くことを特徴とする請求項1又は2いずれかに記載の計
    算機システムにおける問題解析方式。
  4. 【請求項4】 所定の事象が発生したことを認識した時
    点でデータの収集を停止させる解析データ収集制御手段
    を有することを特徴とする請求項1記載の計算機システ
    ムにおける問題解析方式。
  5. 【請求項5】 前記解析データ収集制御手段は、前記各
    計算機上において収集される通信に関するログの内容を
    監視し、ある特定のログが生成された時点で解析データ
    の収集を停止させることを特徴とする請求項4記載の計
    算機システムにおける問題解析方式。
  6. 【請求項6】 前記解析データ収集制御手段は、前記計
    算機上において動作し通信を行う特定のアプリケーショ
    ンが異常終了した時点で解析データの収集を停止させる
    ことを特徴とする請求項4記載の計算機システムにおけ
    る問題解析方式。
  7. 【請求項7】 前記解析データ収集制御手段は、前記各
    計算機上において動作し通信を行う特定のアプリケーシ
    ョンから通知を受けた時点で解析データの収集を停止さ
    せることを特徴とする請求項4記載の計算機システムに
    おける問題解析方式。
  8. 【請求項8】 前記解析データ収集制御手段は、前記ア
    プリケーションが動作する前記各計算機に設けられ、自
    計算機においてデータ収集を停止させたことを他方の計
    算機に通知することを特徴とする請求項5乃至7のいず
    れかに記載の計算機システムにおける問題解析方式。
  9. 【請求項9】 前記解析データ表示制御手段は、前記各
    計算機におけるシステム時刻が一致していない場合、対
    応する各パケットに記録された時間情報に基づいて表示
    するための時間軸の補正を行った後に前記通信ダイアグ
    ラムの表示を行うことを特徴とする請求項3記載の計算
    機システムにおける問題解析方式。
  10. 【請求項10】 前記解析データ表示制御手段は、一方
    の計算機により収集された通信ログのみに基づいて、矢
    印線の一端が不特定な前記通信ダイアグラムの作成を行
    うことを特徴とする請求項1記載の計算機システムにお
    ける問題解析方式。
  11. 【請求項11】 前記解析データ表示制御手段は、一方
    の計算機により収集された解析データと、他方の計算機
    により収集された動作状況ログに基づいて表示する場
    合、双方の前記計算機に対してシステム時刻の問合せを
    行い、その問合せの返答に基づいて表示するための時間
    軸の補正を行った後に、矢印線の一端が不特定な前記通
    信ダイアグラムとその通信ダイアグラムの時間軸に対応
    させて前記システム動作状況の作成を行うことを特徴と
    する請求項2記載の計算機システムにおける問題解析方
    式。
  12. 【請求項12】 表示内容の条件設定を入力する条件入
    力手段を有し、 前記解析データ表示制御手段は、その入力された条件に
    従って表示内容の設定することを特徴とする請求項1記
    載の計算機システムにおける問題解析方式。
  13. 【請求項13】 前記条件入力手段は、画面上に表示さ
    れているいずれかの矢印線を選択できる機構を有し、 前記解析データ表示制御手段は、前記条件入力手段によ
    り選択された矢印線に対応した通信に関する詳細情報を
    表示することを特徴とする請求項12記載の計算機シス
    テムにおける問題解析方式。
  14. 【請求項14】 前記解析データ表示制御手段は、正常
    でない通信に基づくパケットのみを前記通信ログファイ
    ルから抽出して通信ダイアグラムを生成することを特徴
    とする請求項3記載の計算機システムにおける問題解析
    方式。
  15. 【請求項15】 ネットワークを介して通信を行なう各
    計算機において、問題発生時において行われた通信をト
    レースすることによって得る通信ログ及びその時の各計
    算機の資源の動作状況を監視することによって得る動作
    状況ログを解析データとして収集するデータ収集プログ
    ラムと、 前記各計算機において収集される解析データに基づいて
    計算機間の通信のやり取りを時間軸上に矢印線で表示す
    る通信ダイアグラムを自動的に生成し、システム動作状
    況と合わせて表示する解析データ表示制御プログラム
    と、 を含む計算機システムにおける問題解析ツールを記録し
    た媒体。
JP08288692A 1996-10-30 1996-10-30 計算機システムにおける問題解析方式 Expired - Fee Related JP3141988B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08288692A JP3141988B2 (ja) 1996-10-30 1996-10-30 計算機システムにおける問題解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08288692A JP3141988B2 (ja) 1996-10-30 1996-10-30 計算機システムにおける問題解析方式

Publications (2)

Publication Number Publication Date
JPH10133916A true JPH10133916A (ja) 1998-05-22
JP3141988B2 JP3141988B2 (ja) 2001-03-07

Family

ID=17733465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08288692A Expired - Fee Related JP3141988B2 (ja) 1996-10-30 1996-10-30 計算機システムにおける問題解析方式

Country Status (1)

Country Link
JP (1) JP3141988B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000066177A (ko) * 1999-04-14 2000-11-15 김영환 홈 위치 등록기의 메시지 트레이스 방법
WO2005086374A1 (ja) * 2004-03-05 2005-09-15 Anritsu Corporation 効率的なトレース情報表示機能を有する通信端末の性能測定システム及び通信端末の性能測定方法
JP2008033754A (ja) * 2006-07-31 2008-02-14 Toshiba Corp 病院内ワークフロー解析システム及び病院内ワークフロー解析プログラム
JP2010231275A (ja) * 2009-03-25 2010-10-14 Nec Commun Syst Ltd シーケンス図作成装置、シーケンス図作成方法及びプログラム
JP2011237882A (ja) * 2010-05-06 2011-11-24 Toshiba Corp 性能計測分析支援プログラムおよび性能計測分析支援装置
US8489525B2 (en) 2010-05-20 2013-07-16 International Business Machines Corporation Automatic model evolution
JP2019197461A (ja) * 2018-05-11 2019-11-14 オムロン株式会社 解析支援装置及び解析支援方法
JP2020114016A (ja) * 2015-03-30 2020-07-27 アマゾン・テクノロジーズ、インコーポレイテッド マルチテナント環境のためのネットワークフローログ

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000066177A (ko) * 1999-04-14 2000-11-15 김영환 홈 위치 등록기의 메시지 트레이스 방법
WO2005086374A1 (ja) * 2004-03-05 2005-09-15 Anritsu Corporation 効率的なトレース情報表示機能を有する通信端末の性能測定システム及び通信端末の性能測定方法
US7289802B2 (en) 2004-03-05 2007-10-30 Anritsu Corporation Communication terminal performance measurement system having effective trace information display function and communication terminal performance measurement method
JP2008033754A (ja) * 2006-07-31 2008-02-14 Toshiba Corp 病院内ワークフロー解析システム及び病院内ワークフロー解析プログラム
JP2010231275A (ja) * 2009-03-25 2010-10-14 Nec Commun Syst Ltd シーケンス図作成装置、シーケンス図作成方法及びプログラム
JP2011237882A (ja) * 2010-05-06 2011-11-24 Toshiba Corp 性能計測分析支援プログラムおよび性能計測分析支援装置
US8489525B2 (en) 2010-05-20 2013-07-16 International Business Machines Corporation Automatic model evolution
US8577818B2 (en) 2010-05-20 2013-11-05 International Business Machines Corporation Automatic model evolution
JP2020114016A (ja) * 2015-03-30 2020-07-27 アマゾン・テクノロジーズ、インコーポレイテッド マルチテナント環境のためのネットワークフローログ
US11659004B2 (en) 2015-03-30 2023-05-23 Amazon Technologies, Inc. Networking flow logs for multi-tenant environments
JP2019197461A (ja) * 2018-05-11 2019-11-14 オムロン株式会社 解析支援装置及び解析支援方法

Also Published As

Publication number Publication date
JP3141988B2 (ja) 2001-03-07

Similar Documents

Publication Publication Date Title
CN106484611B (zh) 基于自动化协议适配的模糊测试方法和装置
US20100223446A1 (en) Contextual tracing
CN107241229B (zh) 一种基于接口测试工具的业务监控方法及装置
US20050286435A1 (en) Remote management system
CN107133161B (zh) 一种生成客户端性能测试脚本方法及装置
WO2014049804A1 (ja) 分散システムにおけるシステム動作トレース方法
EP3364627B1 (en) Adaptive session intelligence extender
CN117155832B (zh) 用于udp传输协议的多端无侵入录制回放测试方法及系统
CN112968815B (zh) 一种断网续传的实现方法
JP2010205011A (ja) 障害再現システム、障害再現方法および通信再現装置
JP3141988B2 (ja) 計算機システムにおける問題解析方式
CN111600945A (zh) 一种基于块传输的ftp服务器断点下载方法及装置
JP7047621B2 (ja) オペレーション装置、および、オペレーション方法
CN105207829B (zh) 一种入侵检测数据处理方法、装置,及系统
CN104967667A (zh) 一种基于云服务的软件稳定性测试远程监控系统
CN100421381C (zh) 一种获取网络设备运行和故障状态信息的方法及装置
JP4636775B2 (ja) ネットワーク監視システム
JP4257364B2 (ja) 通信エラー情報出力プログラム、通信エラー情報出力方法および通信エラー情報出力装置
JP5418070B2 (ja) 業務操作支援方法及びコンピュータ装置
CN116800438A (zh) 一种反弹shell检测方法及装置
CN109684158B (zh) 分布式协调系统的状态监控方法、装置、设备及存储介质
JP3691272B2 (ja) 分散処理システムおよび障害解析情報の保存方法
JP2003233514A (ja) 分散コンピュータシステム及びタイムアウト値の設定方法
CN116886691B (zh) 一种文件管理控制方法、装置、系统及存储介质
JP2015072531A (ja) テスト支援方法、テスト支援装置およびプログラム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees