JP3933655B2

JP3933655B2 - ネットワークアプリケーション障害原因切り分け装置及び該障害原因切り分けプログラム

Info

Publication number: JP3933655B2
Application number: JP2004248204A
Authority: JP
Inventors: 秀幸亀元
Original assignee: 株式会社日立情報システムズ
Priority date: 2004-08-27
Filing date: 2004-08-27
Publication date: 2007-06-20
Anticipated expiration: 2024-08-27
Also published as: JP2006065619A

Description

本発明は、ネットワークを利用するアプリケーションの品質障害（レスポンス遅延）が発生した場合に、原因を切り分けるための障害原因切り分け装置及び該障害原因切り分けプログラムに関するものである。

従来の技術では、ネットワークを利用するアプリケーションの品質障害を監視するため、主に、次の方法が用いられている。
（１）専用装置を設置し、アプリケーションレベルのトラフィック量やＴＣＰヘッダ情報を監視することで、品質劣化の原因を特定する方法（特許文献１）。
（２）アプリケーションの品質情報やネットワーク内のトラフィック量、プロトコル毎のトラフィック量等を収集し、収集した情報全てから、品質劣化の原因を特定する方法（特許文献２）。
（３）専用装置を設置し、一般的に使わるＴＣＰプロトコルの受渡しを分析することで、サーバ内遅延とネットワーク内遅延を切り分ける方法。前記分析方法は、クライアントからリクエストがあってから、サーバが最初のパケットを返すまでの時間をサーバ内処理時間とし、それ以外はネットワーク内の処理時間とする方法であって、ＴＣＰの接続から切断までを１トランザクションとして監視し、情報蓄積する。代表的な製品には、Ｐａｃｋｅｔｅｅｒ社のＰａｃｋｅｔＳｈａｐｅｒ（Ｐａｃｋｅｔｅｅｒ社の登録商標）という製品がある。
特開２００２−１６４８９０号公報特開２００３−２１８８６８号公報

一般的にアプリケーションの品質劣化が発生した場合、第１ステップとして、原因がサーバなのかネットワークなのかを切り分け、次に第２ステップとして、サーバであれば、サーバ内のリソースや処理内容といった詳細を調べ、ネットワークであれば、トラフィックや機器のリソース状況を調べる、といった手順を踏む。しかし、この第１ステップでの切り分けが難しく、上記のようないくつかの方法が考案されているが、従来の技術では、次の問題点がある。

（１）特許文献１記載の方法では、その専用装置を設置した個所によるネットワークの状況しかわからないため、問題がサーバなのかネットワークなのかを切り分けるためには、経由するネットワーク全てに専用装置を設置しなければならず、構成が複雑になるだけでなく、投資が大きくなるという問題がある。また、ＴＣＰのヘッダ情報の分析にしても、主にウィンドウサイズだけで判断するため、例えばサーバ内の処理遅延による品質劣化の場合、ウィンドウサイズには影響がないため、問題を検出することができなくなってしまう。
（２）前記方法は、ネットワーク内のトラフィックの情報を元に監視を行うため、品質劣化が、監視対象となっているネットワーク以外で発生すると原因の切り分けができない。
（３）前記方法は、クライアントがリクエストを出した後、次にサーバが出すパケットが処理結果のデータである場合は、その間をサーバ内の処理時間とし、それ以外をネットワーク内の処理時間として区別することができる。しかし、アプリケーションによっては、クライアントのリクエストを受取ると、サーバがまずはその要求を受け取った確認パケットを送信するものもある。このようなアプリケーションでは、その間をサーバ内処理時間としてしまうため、正確な値を測定することができない。または、接続が継続するようなアプリケーションでは、正確なトランザクション毎のレスポンス時間を測定することができない。
このように従来技術によるネットワークシステムの監視方法では、アプリケーションの品質障害の原因が、サーバなのかネットワークなのかを正確に切り分けることが困難であると言う不具合があった。

本発明の目的は、アプリケーションの品質障害の原因が、サーバなのかネットワークなのかを正確に切り分けることができる監視装置及び該障害原因切り分けプログラムを提供することである。

前記目的を達成するために本発明は、ネットワークアプリケーションサーバとクライアントの間で受渡しされるパケットデータの障害原因の切り分けを行う障害原因切り分け装置において、ネットワークアプリケーションサーバとクライアントの間で受渡しされるパケットデータを取得し記憶する記憶手段と、該記憶されたパケットデータからネットワーク処理時間を定義するための区間及びサーバ処理時間を定義するための区間を設定させる定義情報設定手段と、該記憶手段に記憶されたパケットデータを基に前記定義情報設定手段により設定した定義情報に基づいてサーバの処理時間とネットワークの処理時間に切り分ける切り分け手段とを備えることを第１の特徴とし、この障害原因切り分け装置において、前記ネットワークアプリケーションサーバとクライアントの間で受渡しされるパケットデータを取得し記憶する記憶手段により記憶されたパケットデータに基づき、ネットワークアプリケーションサーバとクライアントで受け渡しされるパケットデータの動作フローを事前に表示する表示手段と、該表示手段により表示された画面からネットワーク処理時間を定義するための区間およびサーバ処理時間を定義するための区間を設定させる設定手段とを備えることを第２の特徴とする。

更に本発明は、ネットワークアプリケーションサーバとクライアントの間で受渡しされるパケットデータの障害原因の切り分けを行う障害原因切り分けプログラムにおいて、ネットワークアプリケーションサーバとクライアントの間で受渡しされるパケットデータを取得し記憶する記憶機能と、該記憶されたパケットデータからネットワーク処理時間を定義するための区間及びサーバ処理時間を定義するための区間を設定させる定義情報設定機能と、該記憶機能により記憶されたパケットデータを基に前記定義情報設定機能により設定した定義情報に基づいてサーバの処理時間とネットワークの処理時間に切り分ける切り分け機能とを実現させることを第３の特徴とし、この障害原因切り分けプログラムにおいて、前記ネットワークアプリケーションサーバとクライアントの間で受渡しされるパケットデータを取得し記憶する記憶手段により記憶されたパケットデータに基づき、ネットワークアプリケーションサーバとクライアントで受け渡しされるパケットデータの動作フローを事前に表示する表示機能と、該表示機能により表示された画面からネットワーク処理時間を定義するための区間およびサーバ処理時間を定義するための区間を設定させる設定機能とを実現させることを第４の特徴とする。

本発明を適用すると、ネットワークアプリケーション障害原因切り分け装置及びプログラムが、ネットワーク内を流れるデータをパケットレベルの動作で分析し、ネットワーク処理時間とサーバ処理時間とに切り分けることにより、ネットワークアプリケーションで障害が発生した場合、その障害の原因がサーバなのかネットワークなのかを正確に切り分けることが可能となり、障害発生時に迅速な対応をはかることができ、その結果としてシステムを利用するユーザに高品質なサービスを提供することができる。

以下、図面を参照して本発明を詳細に説明する。図１は、本発明の実施形態の一例を示すネットワークアプリケーション障害原因切り分け装置を適用したネットワークシステムの全体構成図であり、図２は前記ネットワークアプリケーション障害原因切り分け装置１０３の各機能を示すブロック図である。
＜システムの全体構成＞

図１に示すネットワークシステムは、クライアントからの要求に応じて処理を行うアプリケーションサーバ１０１と、該アプリケーションサーバ１０１に対してネッッワーク１４１を介して各種アプリケーションの実行要求をする複数のクライアント１１１〜１１３と、ネットワークアプリケーション障害原因切り分け装置から切り分け結果を取得し監視を行う監視センタ１３１と、前記アプリケーションサーバ１０１と前記クライアント１１１〜１１３間のアプリケーションデータ／プログラム等の転送情報をパケット単位で収集し、サーバの処理時間とネットワークの処理時間に切り分けるネットワークアプリケーション障害原因切り分け装置１０３とから構成される。

＜ネットワークアプリケーション障害原因切り分け装置の構成＞
前記本実施形態の特徴であるネットワークアプリケーション障害原因切り分け装置１０３は、図２に示す如く、サーバの処理時間とネットワークの処理時間に切り分ける際の定義をさせる分析方法設定機能２０２と、アプリケーションサーバ１０１とクライアント１１１〜１１３の間の転送情報をパケット単位で収集するトラフィックキャプチャ機能２０６と、前記キャプチャ機能により収集されたパケット単位の転送情報を前記分析方法設定機能２０２により定義された情報に基づき、サーバの処理時間とネットワークの処理時間に切り分ける品質分析機能２０４と、該品質分析機能２０４の処理結果を監視センタ１３１への送信や他システムから品質情報収集のリクエストがきた場合等に、必要な情報の送信を行う品質情報送信機能２０５と、品質分析機能が分析した分析結果の品質情報が格納されている品質情報ＤＢ２１２と、、トラフィックキャプチャ機能が取得したパケット情報を保存するキャプチャデータＤＢ２１３と、ＰＣに付随するネットワークカード２０７と、ネットワークケーブル２０８と、前記トラフィックキャプチャ機能２０６、品質分析機能２０４および品質情報送信機能２０４を制御する制御機能２０３と、分析方法設定機能２０２で設定された情報を記憶する分析方法設定情報データベース（ＤＢ）２１１とを備える。

＜ネットワークアプリケーション障害原因切り分け装置の扱うデータ説明＞
図４は、ネットワークアプリケーション障害原因切り分け装置１０３が扱うデータテーブルの例を示す図であり、これらデータテーブルは、機器テーブル４０１、データＩｎｄｅｘテーブル４０２、データ格納テーブル４０３とを含み、いずれもキャプチャデータＤＢ２１３内にあり、ネットワーク内を流れるパケットを取得し、保存しておくキャブチャデータに関する情報である。

前記機器テーブル４０１は、機器情報を保存しておくためのテーブルであり、図４（ａ）の如く、テーブル内の行をユニークに識別するための機器Ｉｎｄｅｘと機器を一意に識別するためのアドレス情報が保存されている。なお、アドレス情報には、ＩＰアドレス等が一例として挙げられる。

データＩｎｄｅｘテーブル４０２は、取得したデータを識別するためのデータＩｎｄｅｘテーブルであり、図４（ｂ）に示す如く、データ格納テーブル４０３とリンクするデータＩｎｄｅｘと、送受信を行った機器の機器Ｉｎｄｅｘと、データをキャプチャした時のｍｓ単位までの日時が保存されている。

データ格納テーブル４０３は、取得したデータを保存しておくためのデータ格納テーブルであり、図４（ｃ）に示す如く、Ｉｎｄｅｘ以外は、レイヤを４つに分け、それぞれ保存している。図示の例として、レイヤ１＝ＤＬＣ、レイヤ２＝ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）、レイヤ３＝ＴＣＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）、レイヤ４＝アプリケーションデータとしているが、レイヤ数および各レイヤに保存する情報についてはこれらに限定するものではない。

機器テーブル４１１、分析機器対応テーブル４１２、分析内容設定テーブル４１３、設定内容とテーブル内容との対応表４１４、品質分析間隔テーブル４１５、品質情報送信間隔テーブル４１６およびトラヒックキャプチャ時間テーブル４１７は、いずれも分析方法設定情報ＤＢ２１１内にあり、取得したデータからレスポンスを算出する際に、キーとなる情報の定義をはじめ、ネットワークアプリケーション障害原因切り分け装置の各機能の制御に関する情報である。

機器テーブル４１１は、分析を行うマシンのアドレス情報を登録した機器テーブルであり、図５（ａ）に示す如く、テーブル内の行をユニークに識別するための機器Ｉｎｄｅｘと機器を一意に識別するためのアドレス情報が保存されている。なお、機器テーブル４０１と同じデータが格納され常に整合性が保たれている。ここでは、機器テーブル４０１と機器テーブル４１１は、同期を取りながら別々に保持しているが、どちらか一方に併合しても構わない。

分析機器対応テーブル４１２は、分析を行うマシンの対応関係を関連付けした分析機器対応テーブルであり、図５（ｂ）に示す如く、どのマシン同士の通信に対して分析を行うかが設定されている。ここで、値０は全ての機器という意味を持ち、例では、機器１と他の全ての機器、機器２と他の全ての機器に対する通信の分析を行う設定となっていることを意味する。

分析内容テーブル４１３は、分析を行うデータの内容を定義した分析内容設定テーブルであり、図５（ｃ）に示す如く、Ｉｎｄｅｘ以外に開始・終了を意味する開始・終了フラグと、分析するためのキーワードが設定されている分析内容と、複数キーワードを設定する場合に必用な関連分析内容Ｉｎｄｅｘと関連条件とがある。前記分析内容には、開始フラグ（０）が設定されている条件に当てはまるデータから終了フラグ（１）が設定されている条件に当てはまるデータまでを分析時間（主にサーバ内処理時間）として算出する。条件としては、複数条件を設定でき、例では、分析内容Ｉｎｄｅｘの１、２が開始の複数条件としてａｎｄ条件で設定されているため、これら両方の条件に当てはまるデータが開始データとなる。ａｎｄ以外には、ｏｒの設定が行え、この場合は、どちらかの条件に当てはまるデータが分析対象のデータとなる。

これら設定内容とテーブル内容との対応表４１４は、後述の図８における定義変更項目５０４から設定を行った設定内容を分析内容設定テーブル４１３へ格納する際に参照される定義変更項目５０４の各内容と分析内容設定テーブルに格納されるデータの対応表である。

図３及び図８の例では、簡略に設定内容を記述しているが、それぞれの時間を計測するための判断の基準となるパケットの内部データ情報を設定する必要がある。図３及び図８では、全体レスポンスをＴＣＰフローとして定義しているが、これは一般的なＴＣＰのフローに順ずるという意味であり、ＴＣＰのコネクション確立から切断までの処理を全体時間として計算するということになる。

図３及び図８では、サーバ処理時間をＲｅｓｐｏｎｓｅＤａｔａ１ − ＲｅｑｕｅｓｔＤａｔａとして定義している。ここで、ＲｅｓｐｏｎｓｅＤａｔａ１とＲｅｑｕｅｓｔＤａｔａを識別するための情報が必要になる。設定時にその設定を行うが、ここでは、ＲｅｓｐｏｎｓｅＤａｔａ１は、ＴＣＰの上位レイヤの１２、１３バイト目のデータで判断（設定）している。またＲｅｑｕｅｓｔＤａｔａに関しては、ＴＣＰのＰｕｓｈフラグの状態とＴＣＰの上位レイヤの１バイト目のデータで判断（設定）している。

図３及び図８では、ネットワーク処理時間をＡＲ−ＳＲと定義している。ここで、全体レスポンスがＴＣＰフローに順ずるという設定のため、ネットワーク処理時間もＴＣＰフローに準じ、ＴＣＰのコネクション切断までを全体時間として、該全体時間からサーバ処理時間を引いた値をネットワークの処理時間として算出する。

品質分析間隔テーブル４１５は、図６（ｂ）の如く、分析機器対応テーブル４１２の分析情報Ｉｎｄｅｘをキーとして、特定の通信機器間のキャプチャデータを分析内容設定テーブル４１３の定義をもとにネットワーク処理時間とサーバ処理時間に切り分ける動作間隔の情報を格納している。図示の例では、分析情報Ｉｎｄｅｘ１は５分と設定しているため、機器テーブル４１１と分析機器対応テーブル４１２から、機器１とその他全ての機器間でキャプチャされるデータのネットワーク処理時間とサーバ処理時間の切り分け動作が５分毎、機器２とその他全ての機器間でキャプチャされるデータのネットワーク処理時間とサーバ処理時間の切り分け動作は３分毎に行われることを意味している。

品質情報送信間隔テーブル４１６は、図６（ｃ）の如く、分析機器対応テーブル４１２の分析情報Ｉｎｄｅｘをキーとして、ネットワーク処理時間とサーバ処理時間に切り分けた結果を監視装置へ送信する間隔に関する情報を格納している。図示の例では、分析情報Ｉｎｄｅｘ１は６０分と設定しているため、機器テーブル４１１と分析機器対応テーブル４１２から、機器１とその他全ての機器間のネットワーク処理時間とサーバ処理時間の切り分けた結果が６０分毎、機器２とその他全ての機器間のネットワーク処理時間とサーバ処理時間の切り分けた結果は３０分毎に送信される。この品質情報送信間隔が０に設定されている場合は、監視装置への送信を行わない。但し、ネットワークアプリケーション障害原因切り分け装置は、これらテーブルで定義されている内容や算出結果を保持し、監視装置からのデータ取得要求に答えて、結果を送る機能を持つ。この結果の送受信には、ＳＮＭＰを利用することができる。つまり、ネットワークアプリケーション障害原因切り分け装置は、ＳＮＭＰエージェントとして動作することが可能で、定義内容や算出結果をＭＩＢとして保持することができる。

トラヒックキャプチャ時間テーブル４１７は、図６（ｄ）の如く、分析機器対応テーブル４１２の分析情報Ｉｎｄｅｘをキーとして、特定の通信機器間を流れるデータを取得する開始時間と終了時間の情報を格納している。図示の例では、分析情報Ｉｎｄｅｘ１は、開始時刻が８：００、終了時刻が１９：３０となっているので機器テーブル４１１と分析機器対応テーブル４１２から、機器１とその他全ての機器間でやり取りされるデータの取得を８：００に開始し、終了時刻の１９：３０までデータの取得をし続ける。

これら機器テーブル４２１および分析結果テーブル４２２は、いずれも品質情報ＤＢ２１２にあり、品質分析機能２０４によりネットワーク処理時間とサーバ処理時間に切り分けられた結果に関する情報である。

機器テーブル４２１は、図７（ａ）に示す如く、機器情報を保存しておくためのテーブルである。これは、分析方法設定情報の機器テーブル４１１と共有しても構わない。分析結果テーブル４２２は、図７（ｂ）に示す如く、分析結果を保存しておくテーブルの構成例である。全体のレスポンス時間と分析方法設定情報で設定されている指定範囲での時間とを別々のレコードで保存している。

＜システム全体の動作説明＞
次に、図３のネットワークアプリケーションの動作フローと図１のネットワークシステム構成図をもとにネットワークシステム全体の動作をデータの流れを中心に説明する。

図３は、クライアント（１１１〜１１３）がアプリケーションサーバ１０１にあるネットワークアプリケーションへ処理を要求してから処理結果が返ってくるまでのやり取りされるデータの流れをフローとして表したものであり、図５に示したＡＰ動作フロー５０２と同一なものである。

図中の符号Ｔ１からＴ７までのパケットのやり取りまでがＴＣＰセッションの確立を表しており以下の通りである。なお、この手順は、「３Ｗａｙハンドシェイク」という一般的なセッション確立手段である。
［１］１−Ｔ３：クライアントからサーバにＴＣＰ同期要求パケット（ＳＹＮ）を送信
［２］Ｔ３−Ｔ５：サーバから同期要求の確認応答パケット（ＳＹＮＡＣＫ）を送信
［３］Ｔ５−Ｔ７：クライアントから確認応答パケット（ＡＣＫ）を送信
セッションが確立されたことを確認すると、クライアントは処理要求（ＲｅｑｕｅｓｔＤａｔａ）をサーバに向けて送信する（Ｔ８−Ｔ１０）。処理要求を受けたサーバは、処理を開始すると共に処理要求を受け付けた旨の確認応答（ＡＣＫ）をクライアントへ送信する（Ｔ１０−Ｔ１２）。クライアントから要求された処理が終了したら、サーバはクライアントに対して処理結果（ＲｅｓｐｏｎｓｅＤａｔａ１〜ＲｅｓｐｏｎｓｅＤａｔａｎ）を送信する（Ｔ１３−Ｔ１５、Ｔ１６−Ｔ１８、Ｔ１９−Ｔ２１）。ここで、複数の送信が行われているのは、一度に送信できるデータ容量に制限があるので、処理結果を前記制限内の容量に分割して送信しているためであり、サーバ処理自体は最初の処理結果（ＲｅｓｐｏｎｓｅＤａｔａ１）の送信時点で終了している。よって、サーバ処理時間はＴ１４の時間からＴ９の時間を引くことで求めることができる。サーバから処理結果を受取ったクライアントは、受け取りの確認応答（ＡＣＫ）をサーバへ送信する（Ｔ２２−Ｔ２４）。

次に、目的の処理結果を受取ったクライアントは、ＴＣＰコネクション切断要求パケット（ＦＩＮ）をサーバへ送信する（Ｔ２５−Ｔ２７）。前記切断要求を受取ったサーバは、切断要求の確認応答パケット（ＦＩＮＡＣＫ）を送信し（Ｔ２７−Ｔ２９）、該応答を受取ったクライアントは、その旨の確認応答（ＡＣＫ）パケットを送信し（Ｔ２９−Ｔ３１）、コネクションの切断が完了する。

ここでネットワークアプリケーション障害原因切り分け装置１０３は、上述のようにクライアントとネットワークアプリケーションサーバとで受渡しされるパケットデータ１５１を取得するとともに、該パケットデータの取得した時間を関連付けて記録する。そして、予め管理者により定義された分析方法設定情報に基づき前記パケットデータの受渡しをサーバの処理時間とネットワークの処理時間に切り分けた上で該分析結果を蓄積する。蓄積された前記分析結果は、管理者の設定した一定間隔で監視センタ１３１へ送信される。

監視センタ１３１では、ネットワークアプリケーション障害原因切り分け装置１０３から送信された前記分析結果を受信し、図８の分析結果表示画面例５１１に示した一例のようにグラフ化するなどして、表示画面装置に表示する。

＜ネットワークアプリケーション障害原因切り分け装置の動作説明＞
次に、図９乃至図１３の動作フローをもとに図２に示す各機能の動作を説明する。図９は分析方法設定機能の動作を示すフローであり、この処理手順は、分析方法設定機能２０２により図８に示すＧＵＩ等５０１を監視センタ１３１等にある表示装置上に表示し（Ｓ６０１）、次に監視対象機器を選択する項目に該対象機器が選択されているかを確認し（Ｓ６０２）、選択されていなければ選択を促すメッセージを表示し（Ｓ６０３）、選択されていた場合は、機器テーブル４１１を参照し、機器インデックスを分析機器対応テーブル４１２へ格納し（Ｓ６０４）、選択機器間で受渡しされるデータを取得するために制御機能２０３へ指示をだす（Ｓ６０５）。なお、ここでは対象機器をプルダウンメニューより入力する形式としているが、画面上にネットワーク構成図を表示して該ネットワーク構成図上に配置した機器を示すアイコン等をクリックすることで選択できるようにしても良い。

次に、本処理は、前記制御機能より前記選択機器間の取得データを受取った後、表示装置上に前記選択機器間のデータの受渡しをＡＰ動作フロー５０２へ表示し（Ｓ６０６）、最後に該動作フローをもとに定義項目５０４を用いてサーバ処理時間とネットワーク処理時間を設定する。その際、これら決定されたサーバ処理時間とネットワーク処理時間項目は、設定内容とテーブル内容との対応表４１４を用いて変換され（Ｓ６０７）、分析内容設定テーブル４１３に格納される（Ｓ６０８）。

なお、図８の定義変更項目５０４では、簡略に設定内容を記述しているが、それぞれの時間を計測するための判断の基準となるパケットの内部データ情報を設定する必要がある。また、動作フロー５０２では、全体レスポンスをＴＣＰフローとして定義している。これは、一般的なＴＣＰのフローに準ずるという意味であり、ＴＣＰのコネクション確立から切断までの処理を全体時間として計算するということになる。

定義変更項目５０４は、サーバ処理時間をＲｅｓｐｏｎｓｅＤａｔａ１ − ＲｅｑｕｅｓｔＤａｔａとして定義している。ここで、ＲｅｓｐｏｎｓｅＤａｔａ１とＲｅｑｕｅｓｔＤａｔａを識別するための情報が必要になる。設定時にその設定を行うが、テーブル４１３または４１４では、ＲｅｓｐｏｎｓｅＤａｔａ１は、ＴＣＰの上位レイヤの１２、１３バイト目のデータで判断（設定）している。また、ＲｅｑｕｅｓｔＤａｔａに関しては、ＴＣＰのＰｕｓｈフラグの状態とＴＣＰの上位レイヤの１バイト目のデータで判断（設定）している。

定義変更項目５０４は、ネットワーク処理時間を、ＡＲ − ＳＲと定義している。ここで、全体レスポンスがＴＣＰフローに準ずるという設定のため、ネットワーク処理時間もＴＣＰフローに準じ、ＴＣＰのコネクション断までを全体時間として、ネットワークの処理時間を算出する。

また、その他の設定項目として、制御項目５０５に示すように品質分析間隔、品質情報送信、トラヒックキャプチャ時間等があり、適宜選択された制御項目は、品質分析間隔テーブル４１５、品質情報送信間隔テーブル４１６、トラヒックキャプチャ時間テーブル４１７へ格納される（Ｓ６０９）。

次に制御機能２０３は、図１３に示す如く、上述のように分析方法設定機能２０２より選択された特定機器間を流れるデータの取得依頼があった場合（Ｓ１００１）、トラヒックキャプチャ機能２０６へデータを取得するよう指示を出し（Ｓ１００７）、前記キャプチャ機能が採取したデータをキャプチャデータＤＢ２１３から取得し（Ｓ１００８）、分析方法設定機能２０２へ渡す（Ｓ１００９）。次に、分析方法設定情報ＤＢ２１１を確認し（Ｓ１００２）、新たな設定項目を読み込み（Ｓ１００３）、各機能へ指示を出す。

例えば、トラヒックキャプチャ機能に対しては、分析機器対応テーブル４１２より、設定された取得データをユニークに特定する分析情報Ｉｎｄｅｘを用いてトラヒックキャプチャ時間テーブル４１７に設定された開始時刻と終了時刻データを読み込み、このデータをもとにトラヒックキャプチャ機能２０６へパケットデータの読み込み開始時刻と終了時刻の指示をだす（Ｓ１００４）。

品質分析機能に対しては、分析機器対応テーブル４１２より、設定された取得データをユニークに特定する分析情報Ｉｎｄｅｘを用いて品質分析間隔テーブル４１５に設定された分析実行間隔データを読み込み、このデータをもとに品質分析機能２０４へ分析間隔の指示をだす（Ｓ１００５）。

品質情報送信機能に対しては、分析機器対応テーブル４１２より、設定された取得データをユニークに特定する分析情報Ｉｎｄｅｘを用いて品質情報送信間隔テーブル４１６に設定された品質情報送信間隔データを読み込み、このデータをもとに品質情報送信機能２０５へ分析間隔の指示をだす（Ｓ１００６）。

品質分析機能２０４は、図１０に示す如く、制御機能２０３より分析方法設定情報ＤＢ２１１に格納させたデータに基づいた制御情報を受取る（Ｓ７０１）。次にキャプチャデータＤＢ２１３からキャプチャデータを読み込んでくる（Ｓ７０３）。前記制御情報に基づきキャプチャデータから全体の処理時間と指定された範囲の処理時間を切り分けし（Ｓ７０４）、該分析結果を品質情報ＤＢ２１２へ格納する（Ｓ７０５）。

次に、品質情報送信機能２０５は、図１２に示す如く、制御機能２０３より分析方法設定情報ＤＢ２１１に格納させたデータに基づいた制御情報を受取り（Ｓ９０１）、制御機能２０３から指示があった場合（Ｓ９０２）、前記制御機能から受取る指示（制御情報）に基づき品質情報ＤＢ２１２から分析結果を読み込み（Ｓ９０３）、監視センタ１３１等へ送信する（Ｓ９０４）。具体的には、分析機器対応テーブル４１２の情報を受取り、分析結果テーブル４２２から該当するレコードのデータを抽出し品質情報送信間隔テーブル４１６で指定された間隔で送信する。

なお、この分析結果の送信については、分析方法設定情報に定めた一定の間隔で送信することとしているが、監視センタ１３１等から適宜要求を出し、該要求に基づいて送信するようにしても良い。

送信されたデータを受信した監視センタ１３１等にある表示端末では、受信データをグラフ化して表示し、閾値を予め定めておくことで該閾値を超えた場合にアラームを発するように構成することで、障害発生時の切り分けだけでなく障害発生検出装置としても機能させることができる。

次に、トラヒックキャプチャ機能２０６は、図１１に示す如く、制御機能２０３より分析方法設定情報ＤＢ２１１に格納させたデータに基づいた制御情報を受取り（Ｓ８０１）、制御機能２０３から指示があった場合（Ｓ８０２）、前記制御機能から受取った指示（制御情報）に基づき、ネットワーク上に流れるデータから特定機器間のデータを取得し（Ｓ８０３）、キャプチャデータＤＢ２１３へ格納する（Ｓ８０４）。具体的には、分析機器対応テーブル４１２より通信機器Ｉｎｄｅｘ１及びＩｎｄｅｘ２を受取ることでデータＩｎｄｅｘテーブル４０２の送信元機器Ｉｎｄｅｘと送信先Ｉｎｄｅｘに機器Ｉｎｄｅｘを、データキャプチャ日及びデータキャプチャ時刻にデータをキャプチャした日付および時刻を書き込むと共に、キャプチャした実データが格納されるデータ格納テーブル４０３にデータＩｎｄｅｘテーブル４０２のデータＩｎｄｅｘをキーとして、各レイヤにデータを格納するという動作になる。

このように図８は、制御機能２０３の動作設定を行う際の分析機能設定機能２０２におけるＧＵＩの一例であり、社内インフラ管理者等のネットワークアプリケーション障害原因切り分け装置１０３を操作する者が、図８に示したＧＵＩより分析方法設定機能２０２を使用し、制御機能２０３をどのように動作させるかの動作を設定する。

画面左のＡＰ動作フロー５０２は、本システムのトラヒックキャプチャ機能２０６により読み込まれたパケットデータをもとに作成されたネットワークアプリケーションの動作フローであり、右上の定義変更項目５０４は、ネットワーク処理とサーバ処理の定義を行う項目である。本例ではプルダウンメニュー形式で設定できるようにしているが、画面左のフローを直接クリックして選択できるようにしても良い。

更に画面右下の制御項目５０５は、制御機能２０３が品質分析機能２０４／品質情報送信機能２０５／トラヒックキャプチャ機能２０６を制御する際に、どのように制御させるかを管理者が事前に定義する際に使用する項目である。尚、本画面にて設定された分析方法設定機能２０２および制御機能２０３に関する設定情報は分析方法設定情報２１１に格納される。

以上、詳述したように、本実施形態によるネットワークアプリケーション障害原因切り分け装置及びプログラムは、ネットワークアプリケーションで障害が発生した場合、その障害の原因がサーバなのかネットワークなのかを切り分ける際にネットワーク内を流れるデータをパケットレベルで設定・分析することによって、ネットワークアプリケーションの障害原因がサーバで発生しているのかネットワークで発生しているのかを正確に切り分けることができる。

本発明は、次の方法で使用することが考えられる。
使用者：社内インフラ管理者、アウトソーシング企業の顧客インフラ運用担当者
使用方法：
［１］社内システムの品質監視
［２］ＩＳＰ（Ｉｎｔｅｒｎｅｔ・Ｓｅｒｖｉｃｅ・Ｐｒｏｖｉｄｅｒ）によるＷｅｂアプリケーションの品質監視
［３］ＭＳＰ（ｍａｎａｇｅｍｅｎｔＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）による顧客システムの品質監視

ネットワークアプリケーション障害原因切り分け装置を設置した場合の監視システム構成例図。ネットワークアプリケーション障害原因切り分け装置の構成図。アプリケーションの動作フローの例図。ネットワークアプリケーション障害原因切り分け装置が使用する各テーブル（キャプチャデータ）構成図。ネットワークアプリケーション障害原因切り分け装置が使用する各テーブル（分析方法設定情報）の構成図。ネットワークアプリケーション障害原因切り分け装置が使用する各テーブル（キャプチャデータ）の構成図。ネットワークアプリケーション障害原因切り分け装置が使用する各テーブル（分析結果）の構成図。分析方法設定機能の画面（ＧＵＩ）例図。分析方法設定機能の動作を示すフローチャート図。品質分析機能の動作を示すフローチャート図。トラヒックキャプチャ機能の動作を示すフローチャート図。品質情報送信機能の動作を示すフローチャート図。制御機能の動作を示すフローチャート図。

符号の説明

１０１：サーバ郡、１０２：スイッチングネットワーク、１０３：ネットワークアプリケーション障害原因切り分け装置、１１１〜１１３：クライアント拠点、１２１〜１２５、１３１：監視センタ、１４１：Ｎｅｔｗｏｒｋ、１５１：パケット動作、１５２：監視情報の流れ、２０１：ネットワークアプリケーション障害原因切り分け装置、２０２：分析方法設定機能、２０３：制御機能、２０４：品質分析機能、２０５：品質情報送信機能、２０６：トラフィックキャプチャ機能、２０７：ネットワークカード、２０８：ネットワークケーブル、２１１：分析方法設定情報ＤＢ、２１２：品質情報ＤＢ、２１３：キャプチャデータＤＢ、３０１：アプリケーションの動作フロー、４０１：機器テーブル、４０２：データＩｎｄｅｘテーブル、４０３：データ格納テーブル、４１１：機器テーブル、４１２：分析機器対応テーブル、４１３：分析内容設定テーブル、４１４：設定内容とテーブル内容との対応表、４１５：品質分析間隔テーブル、４１６：品質情報送信間隔テーブル、４１７：トラヒックキャプチャ時間テーブル、４２１：機器テーブル、４２２：分析結果テーブル、５０１：画面表示例、５０２：ネットワーク動作フロー、５０３：機器指定項目、５０４：切り分け定義設定項目、５０５：制御設定項目、５１１：分析結果表示画面例。

Claims

ネットワークアプリケーションサーバとクライアントの間で受け渡しされるパケットデータの障害原因の切り分けを行う障害原因切り分け装置であって、
ネットワークアプリケーションサーバとクライアントの間で受け渡しされるパケットデータを取得し記憶する記憶手段と、
ネットワークアプリケーションサーバとクライアントの間でのパケットデータの受け渡しに要する時間を、パケットがネットワークの通過のために要するネットワーク処理時間とサーバでのデータ処理のために要するサーバ処理時間とに切り分けるための情報を記憶する定義情報設定手段と、
前記記憶手段に記憶されたパケットデータ及び前記定義情報設定手段に記憶されている情報に基づいて、ネットワークアプリケーションサーバとクライアントの間でのパケットデータの受け渡しに要する時間を、ネットワーク処理時間とサーバ処理時間とに切り分ける切り分け手段とを備え、
前記切り分け手段は、前記記憶手段に記憶されたパケットを分析し、分析によってパケットデータの種類を判別することにより、ネットワークアプリケーションサーバとクライアントの間でのパケットデータの受け渡しに要する時間を、ネットワーク処理時間とサーバ処理時間とに切り分けること
を特徴とするネットワークアプリケーションの障害原因切り分け装置。
前記ネットワークアプリケーションサーバとクライアントの間で受け渡しされるパケットデータを取得し記憶する記憶手段により記憶されたパケットデータに基づき、ネットワークアプリケーションサーバとクライアントで受け渡しされるパケットデータの受け渡しタイミングを時系列に表した時系列フローを事前に表示する表示手段と、
該表示手段により表示された画面から、ネットワークアプリケーションサーバとクライアントの間でのパケットデータの受け渡しに要する時間を、ネットワーク処理時間とサーバ処理時間とに切り分けるための情報の入力を受け付けて、入力された前記情報を前記定義情報設定手段に記憶させる手段とを
備えることを特徴とする請求項１記載のネットワークアプリケーションの障害原因切り分け装置。
ネットワークアプリケーションサーバとクライアントの間で受け渡しされるパケットデータの障害原因の切り分けを行う障害原因切り分けプログラムであって、
ネットワークアプリケーションサーバとクライアントの間で受け渡しされるパケットデータを取得し記憶する記憶機能と、
ネットワークアプリケーションサーバとクライアントの間でのパケットデータの受け渡しに要する時間を、パケットがネットワークの通過のために要するネットワーク処理時間とサーバでのデータ処理のために要するサーバ処理時間とに切り分けるための情報を記憶する定義情報設定機能と、
前記記憶機能により記憶されたパケットデータ及び前記定義情報設定機能に記憶されている情報に基づいて、ネットワークアプリケーションサーバとクライアントの間でのパケットデータの受け渡しに要する時間を、ネットワーク処理時間とサーバ処理時間とに切り分ける切り分け機能とを備え、
前記切り分け手段は、前記記憶手段に記憶されたパケットを分析し、分析によってパケットデータの種類を判別することにより、ネットワークアプリケーションサーバとクライアントの間でのパケットデータの受け渡しに要する時間を、ネットワーク処理時間とサーバ処理時間とに切り分けること
を特徴とするネットワークアプリケーションの障害原因切り分けプログラム
前記ネットワークアプリケーションサーバとクライアントの間で受け渡しされるパケットデータを取得し記憶する記憶手段により記憶されたパケットデータに基づき、ネットワークアプリケーションサーバとクライアントで受け渡しされるパケットデータの受け渡しタイミングを時系列に表した時系列フローを事前に表示する表示機能と、
該表示機能により表示された画面から、ネットワークアプリケーションサーバとクライアントの間でのパケットデータの受け渡しに要する時間を、ネットワーク処理時間とサーバ処理時間とに切り分けるための情報の入力を受け付けて、入力された前記情報を前記定義情報設定機能に記憶させる機能とを
備えることを特徴とする請求項３記載のネットワークアプリケーションの障害原因切り分けプログラム。