JP6031224B2 - 障害発生箇所診断システム - Google Patents

障害発生箇所診断システム Download PDF

Info

Publication number
JP6031224B2
JP6031224B2 JP2011210432A JP2011210432A JP6031224B2 JP 6031224 B2 JP6031224 B2 JP 6031224B2 JP 2011210432 A JP2011210432 A JP 2011210432A JP 2011210432 A JP2011210432 A JP 2011210432A JP 6031224 B2 JP6031224 B2 JP 6031224B2
Authority
JP
Japan
Prior art keywords
log
mobile terminal
failure
dependency graph
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011210432A
Other languages
English (en)
Other versions
JP2013073315A (ja
Inventor
卓 土岐
卓 土岐
堀 賢治
賢治 堀
吉原 貴仁
貴仁 吉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2011210432A priority Critical patent/JP6031224B2/ja
Publication of JP2013073315A publication Critical patent/JP2013073315A/ja
Application granted granted Critical
Publication of JP6031224B2 publication Critical patent/JP6031224B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は、障害発生箇所診断システムに関する。
携帯端末の利用者は、携帯端末になんらかの障害が発生した場合、一般に、携帯端末を販売店に持ち込んで障害発生箇所の特定を依頼する。販売店の店員は、通信事業者や携帯端末開発事業者から予め支給されたマニュアルに従って、持ち込まれた携帯端末の障害発生箇所がソフトウェアなのか、ハードウェアなのか、またはそれ以外なのかを診断する。しかしながら、販売店の店員が障害発生箇所を特定することが困難な場合がある。例えば、携帯端末の障害内容が「電話が途切れる」というものである場合、障害発生箇所はソフトウェア、ハードウェア、又は携帯端末以外(例えば、基地局などの無線通信網の障害、劣悪な電波環境など)であることが考えられるが、ソフトウェア又はネットワークである場合には障害が再現しないなど、障害発生箇所を特定することができない事象もあり得る。
非特許文献1には、障害発生箇所を特定するための従来技術が開示されている。この従来技術では、携帯端末内のアプリケーションやドライバ、ネットワーク側のサーバプログラムやネットワーク機器等の「コンポーネント」が出力するログの共起関係に基づいて、コンポーネント間の動作の依存関係を表すグラフ(依存関係グラフ(Dependency graph:DG)を予め作成しておく。そして、障害発生時には、DGにおいて依存関係が失われる箇所をコンポーネントのエラーログから特定し、障害発生箇所を絞り込んでいる。
J. Lou, Q. Fu, Y. Wang, and J. Li, "Mining dependency indistributed systems through unstructured log analysis," in ACM SIGOPS Operating Systems Review, Volume 44 Issue 1, January 2010.
しかし、上述した非特許文献1の従来技術では、DGが変化することが考慮されていない。携帯端末では移動したりすることによって、無線通信環境や利用するネットワーク側のサーバプログラムが変わることがある。このため時間と共にDGも変化し得るが、上記従来技術ではDGの変化に対応することができないので、携帯端末の障害発生箇所の絞り込みが困難であった。
本発明は、このような事情を考慮してなされたもので、時間的なDGの変化に対応できるようにすることで、携帯端末の障害発生箇所の診断の精度を向上させることができる、障害発生箇所診断システムを提供することを課題とする。
上記の課題を解決するために、本発明に係る障害発生箇所診断システムは、携帯端末が利用したコンポーネントが出力したネットワークログを収集し、該ネットワークログの共起関係に基づいて、当該携帯端末が利用したコンポーネント間の動作の依存関係及び当該利用時刻を表す依存関係グラフを作成する依存関係グラフ推定サーバと、前記依存関係グラフ推定サーバが作成した依存関係グラフを保存する依存関係グラフ管理データベースと、障害発生箇所特定用端末と、を備え、前記依存関係グラフ推定サーバは、定期的に、取得したネットワークログを用いて前記依存関係グラフを作成し、作成した前記依存関係グラフを前記依存関係グラフ管理データベースに保存し、前記依存関係グラフ管理データベースは、コンポーネント間の動作の依存関係が異なる複数の前記依存関係グラフを格納し、前記障害発生箇所特定用端末は、調査対象の携帯端末の障害発生箇所特定用情報を受信する障害発生箇所特定用情報受信部と、前記調査対象の携帯端末が利用したコンポーネント間の動作の依存関係及び当該利用時刻を表す前記依存関係グラフを蓄積する前記依存関係グラフ管理データベースから該依存関係グラフを受信する依存関係グラフ受信部と、前記調査対象の携帯端末の障害発生箇所特定用情報に含まれる障害発生時点の端末ログに基づいて該障害発生時点の直前の利用時刻を有する当該調査対象の携帯端末に関する前記依存関係グラフを前記依存関係グラフ管理データベースから取得し、該取得した依存関係グラフに基づいて当該調査対象の携帯端末の障害発生箇所を調べる障害発生箇所特定部と、前記調査対象の携帯端末の障害発生箇所の調査結果を表す表示データを作成する障害診断結果作成部と、を備え、前記障害発生箇所特定部は、前記依存関係グラフ管理データベースから取得した依存関係グラフを構成する各コンポーネントが前記調査対象の携帯端末のエラーログ出力時に出力していたログを当該ログのデータベースから取得し、前記調査対象の携帯端末のエラーログ出力時に、前記各コンポーネントがログを出力していたか否かを調べ、前記各コンポーネントからのログの有無の境界を検出し、ログ無しのコンポーネント側で障害が発生したと判断前記障害診断結果作成部は、前記調査対象の携帯端末の障害発生箇所特定用情報にエラーログ無しの場合、任意の日時情報と、該日時情報に最も直近に前記調査対象の携帯端末で起動されたアプリケーションが出力した端末ログとを用いて、前記依存関係グラフ管理データベースから、前記調査対象の携帯端末に関する当該日時付近の依存関係グラフを取得し、該取得した依存関係グラフを構成する各コンポーネントが該日時付近に出力していたログを当該ログのデータベースから取得し、該取得した依存関係グラフ、及び、該依存関係グラフを構成する各コンポーネントが該日時付近に出力していたログを表示する表示データを作成する、ことを特徴とする。
本発明に係る障害発生箇所特定用端末は、携帯端末の障害発生箇所特定用情報を受信する障害発生箇所特定用情報受信部と、前記携帯端末が利用したコンポーネント間の動作の依存関係及び当該利用時刻を表す依存関係グラフを蓄積するデータベースから前記依存関係グラフを受信する依存関係グラフ受信部と、前記携帯端末の障害発生箇所特定用情報に含まれる障害発生時点の端末ログに基づいて該障害発生時点の直前の利用時刻を有する当該携帯端末に関する依存関係グラフを前記データベースから取得し、該取得した依存関係グラフに基づいて当該携帯端末の障害発生箇所を調べる障害発生箇所特定部と、前記携帯端末の障害発生箇所の調査結果を表す表示データを作成する障害診断結果作成部と、を備えたことを特徴とする。
本発明に係る障害発生箇所特定用端末において、前記障害発生箇所特定部は、前記データベースから取得した依存関係グラフを構成する各コンポーネントが前記携帯端末のエラーログ出力時に出力していたログを当該ログのデータベースから取得し、前記携帯端末のエラーログ出力時に、各コンポーネントがログを出力していたか否か、または各コンポーネントからエラーログの出力があったか否かを調べ、この調査結果に基づいて前記携帯端末の障害発生箇所を判断する、ことを特徴とする。
本発明に係る障害発生箇所特定用端末において、前記障害診断結果作成部は、前記データベースから取得した依存関係グラフと、該依存関係グラフを構成する各コンポーネントが前記携帯端末のエラーログ出力時にログを出力していたか否かを示す情報とを表示する表示データを作成する、ことを特徴とする。
本発明に係る障害発生箇所特定用端末において、前記障害診断結果作成部は、ログ出力有りのコンポーネントについては当該ログ及びログ出力日時の情報を表示する表示データを作成する、ことを特徴とする。
本発明に係る障害発生箇所特定用端末において、前記障害診断結果作成部は、前記携帯端末の障害発生箇所特定用情報にエラーログ無しの場合、任意の日時情報と、該日時情報に最も直近に前記携帯端末で起動されたアプリケーションが出力した端末ログとを用いて、前記データベースから、前記携帯端末に関する当該日時付近の依存関係グラフを取得し、該取得した依存関係グラフを構成する各コンポーネントが該日時付近に出力していたログを当該ログのデータベースから取得し、該取得した依存関係グラフ、及び、該依存関係グラフを構成する各コンポーネントが該日時付近に出力していたログを表示する表示データを作成する、ことを特徴とする。
本発明に係る障害発生箇所特定用端末において、前記障害診断結果作成部は、前記携帯端末の障害発生箇所の調査結果に基づいて特定した障害発生箇所を示す情報又は障害発生箇所がないことを示す情報を表示する表示データを作成する、ことを特徴とする。
本発明に係る障害発生箇所診断方法は、依存関係グラフ推定サーバが、携帯端末が利用したコンポーネントが出力したネットワークログを収集し、該ネットワークログの共起関係に基づいて、当該携帯端末が利用したコンポーネント間の動作の依存関係及び当該利用時刻を表す依存関係グラフを作成するステップと、依存関係グラフ管理データベースが、前記依存関係グラフ推定サーバが作成した依存関係グラフを保存するステップと、を含み、前記依存関係グラフ推定サーバは、定期的に、取得したネットワークログを用いて前記依存関係グラフを作成し、作成した前記依存関係グラフを前記依存関係グラフ管理データベースに保存し、前記依存関係グラフ管理データベースは、コンポーネント間の動作の依存関係が異なる複数の前記依存関係グラフを格納し、障害発生箇所特定用端末が、調査対象の携帯端末の障害発生箇所特定用情報を受信するステップと、前記障害発生箇所特定用端末が、前記調査対象の携帯端末が利用したコンポーネント間の動作の依存関係及び当該利用時刻を表す前記依存関係グラフを蓄積する前記依存関係グラフ管理データベースから依存関係グラフを受信するステップと、前記障害発生箇所特定用端末が、前記調査対象の携帯端末の障害発生箇所特定用情報に含まれる障害発生時点の端末ログに基づいて該障害発生時点の直前の利用時刻を有する当該調査対象の携帯端末に関する前記依存関係グラフを前記依存関係グラフ管理データベースから取得し、該取得した依存関係グラフに基づいて当該調査対象の携帯端末の障害発生箇所を調べる障害発生箇所特定ステップと、前記障害発生箇所特定用端末が、前記調査対象の携帯端末の障害発生箇所の調査結果を表す表示データを作成するステップと、をさらに含み、前記障害発生箇所特定ステップにおいて、前記障害発生箇所特定用端末は、前記依存関係グラフ管理データベースから取得した依存関係グラフを構成する各コンポーネントが前記調査対象の携帯端末のエラーログ出力時に出力していたログを当該ログのデータベースから取得し、前記調査対象の携帯端末のエラーログ出力時に、前記各コンポーネントがログを出力していたか否かを調べ、前記各コンポーネントからのログの有無の境界を検出し、ログ無しのコンポーネント側で障害が発生したと判断する、ことを特徴とする。
本発明に係るコンピュータプログラムは、コンピュータに、携帯端末の障害発生箇所特定用情報を受信するステップと、前記携帯端末が利用したコンポーネント間の動作の依存関係及び当該利用時刻を表す依存関係グラフを蓄積するデータベースから前記依存関係グラフを受信するステップと、前記携帯端末の障害発生箇所特定用情報に含まれる障害発生時点の端末ログに基づいて該障害発生時点の直前の利用時刻を有する当該携帯端末に関する依存関係グラフを前記データベースから取得し、該取得した依存関係グラフに基づいて当該携帯端末の障害発生箇所を調べるステップと、前記携帯端末の障害発生箇所の調査結果を表す表示データを作成するステップと、を実行させるためのコンピュータプログラムであることを特徴とする。
これにより、前述の障害発生箇所特定用端末がコンピュータを利用して実現できるようになる。
本発明によれば、時間的なDGの変化に対応することができる。これにより、携帯端末の障害発生箇所の診断の精度を向上させることができるという効果が得られる。
本発明の一実施形態に係る障害発生箇所診断システムの概略構成図である。 図1に示す障害発生箇所特定用端末4の構成図である。 本発明の一実施形態に係る障害発生箇所診断方法のシーケンスチャートである。 図1に示すDG管理データベース2に格納されるDGの例である。 本発明の一実施形態に係るコンポーネント間のログの共起関係を説明する説明図である。 本発明の一実施形態に係る障害発生箇所診断処理の説明図である。 携帯端末3が出力する障害発生箇所特定用情報(エラーログ)の例である。 本発明に係る実施例1である。 本発明に係る実施例2である。 本発明に係る実施例3である。
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る障害発生箇所診断システムの概略構成図である。図1において、DG(依存関係グラフ)推定サーバ1は、携帯端末3が利用したコンポーネントが出力したネットワークログを収集し、該ネットワークログの共起関係に基づいて、当該携帯端末3が利用したコンポーネント間の動作の依存関係及び当該利用時刻を表すDGを作成する。DG管理データベース2は、DG推定サーバ1が作成したDGを保存する。障害発生箇所特定用端末4は、障害が発生した携帯端末3に関するDGをDG管理データベース2から取得し、該取得したDGに基づいて当該携帯端末3の障害発生箇所を調べる。
携帯端末3は、メール送受信やインターネット6に接続するサーバ7を利用する際に、インターネットサービスプロバイダ(ISP)や通信事業者が設けたゲートウェイ網5を介して通信する。ゲートウェイ網5は、携帯端末3に関するネットワークログを全て記録する。DG推定サーバ1は、ゲートウェイ網5に接続し、ゲートウェイ網5から携帯端末3に関するネットワークログを収集する。又、DG推定サーバ1は、インターネット6に接続し、サーバ7から携帯端末3に関するネットワークログを収集する。
図2は、図1に示す障害発生箇所特定用端末4の構成図である。図2において、制御部401は、障害発生箇所特定用端末4内の各部を制御する。USB接続検知部403は、携帯端末3(障害携帯端末3)がUSBケーブルでUSB接続部402に接続されたことを検知して制御部401に通知する。これにより、制御部401は、障害発生箇所特定用情報取得要求送信部404に対して、障害携帯端末3から障害発生箇所特定用情報を取得するように命令する。
障害発生箇所特定用情報取得要求送信部404は、制御部401からの命令に従って、USB接続部402を介して障害携帯端末3に障害発生箇所特定用情報取得要求を送信する。障害発生箇所特定用情報取得応答受信部405は、USB接続部402を介して障害携帯端末3から障害発生箇所特定用情報を受信する。障害発生箇所特定用情報保存部406は、障害発生箇所特定用情報取得応答受信部405が障害携帯端末3から受信した障害発生箇所特定用情報408を、障害携帯端末3の識別子(MS−ID)407に関連付けて記憶する。
制御部401は、DG取得要求送信部409に対して、障害携帯端末3に関するDGを取得するように命令する。DG取得要求送信部409は、制御部401からの命令に従って、ネットワーク接続部410を介してDG取得要求をDG管理データベース2へ送信する。DG取得要求は、障害携帯端末3のMS−ID407、及びMS−ID407に関連付けて障害発生箇所特定用情報保存部406に記憶されている障害発生箇所特定用情報408(端末ログ)を有する。
DG取得応答受信部411は、ネットワーク接続部410を介して、DG管理データベース2から、障害携帯端末3に関する障害発生直前のDGを受信する。DG保存部412は、DG取得応答受信部411が受信した障害携帯端末3に関する障害発生直前のDG413を記憶する。
障害発生箇所特定部414は、DG保存部412内の障害携帯端末3に関する障害発生直前のDG413と、障害発生箇所特定用情報保存部406内の障害携帯端末3に関する障害発生箇所特定用情報408とを用いて、障害携帯端末3の障害発生箇所を調べる。障害診断結果作成部420は、障害発生箇所特定部414による診断結果(障害携帯端末3の障害発生箇所の調査結果等)を用いて、障害発生箇所の診断結果を表示するための表示データを作成する。障害診断結果表示部415は、障害診断結果作成部420による表示データを画面上に表示する。
図3は、本実施形態に係る障害発生箇所診断方法のシーケンスチャートである。この図3を参照して、障害が発生した携帯端末3の障害発生箇所を調べる手順を説明する。
ステップS1:利用者は、障害が発生した携帯端末3を販売店に持ち込む。
ステップS2:販売店の店員は、携帯端末3をUSBケーブルで障害発生箇所特定用端末4に接続する。
ステップS3:障害発生箇所特定用端末4は、携帯端末3がUSB接続されたことを検出すると、該携帯端末3に対して障害発生箇所特定用情報取得要求を送信する。
ステップS4:携帯端末3は、障害発生箇所特定用情報取得要求を受信すると、自身の携帯端末ID(MS−ID)と障害発生箇所特定用情報を障害発生箇所特定用端末4へ送信する。
ステップS5:障害発生箇所特定用端末4は、携帯端末3が障害を発生する直前の障害発生箇所特定用情報から、エラーログを出力したコンポーネントに関する文字列を抽出する。
ステップS6:障害発生箇所特定用端末4は、DG取得要求をDG管理データベース2へ送信する。DG取得要求は、携帯端末3のMS−IDとステップS5で抽出した文字列と障害発生時刻を示す情報(例えば、携帯端末3が障害を発生する直前の端末ログの時刻)とを有する。
ステップS7:DG管理データベース2は、DG取得要求に含まれるMS−ID、文字列および障害発生時刻を示す情報を用いて、自身が有するDGの中から、障害発生直前に作成され、且つ、該MS−IDに関するDGであって該文字列を有するDGを検索する。
ステップS8:DG管理データベース2は、ステップS7の検索結果であるDGを障害発生箇所特定用端末4へ送信する。
ステップS9:障害発生箇所特定用端末4は、DG管理データベース2から受信したDGに含まれるネットワーク側のコンポーネントが障害発生時に出力したネットワークログを取得するために、DG推定サーバ1へネットワークログ取得要求を送信する。
ステップS10:DG推定サーバ1は、障害発生箇所特定用端末4からのネットワークログ取得要求に応じて該当するネットワークログを検索し、検索結果であるネットワークログを障害発生箇所特定用端末4に送信する。この検索結果のネットワークログは、ステップS7の検索結果であるDGに含まれるネットワーク側のコンポーネントが障害発生時に出力したネットワークログである。
ステップS11:障害発生箇所特定用端末4は、DG管理データベース2から受信した障害発生直前のDGと、携帯端末3から受信した障害発生箇所特定用情報(障害発生時の端末ログ)と、DG推定サーバ1から受信した障害発生時のネットワークログとを用いて、障害携帯端末3の障害発生箇所を調べる。
ステップS12:障害発生箇所特定用端末4は、ステップS11の調査結果である障害発生箇所を画面上に表示するための表示データを作成する。そして、障害発生箇所特定用端末4は、その表示データを画面上に表示する。これにより、店員は、その表示内容に基づいて、携帯端末3に係る障害発生箇所を判断することができる。
図4は、図1に示すDG管理データベース2に格納されるDGの例である。
携帯端末では移動したりすることによって、DGが時間的に変化することがあり得る。このため、本実施形態では、図4に示されるように、DG推定サーバ1は、定期的に、取得したネットワークログを用いてDGを作成し、作成したDGをDG管理データベース2に保存する。
図4において、まず時刻t1では、時刻t1に取得された「ある一の携帯端末3(対象携帯端末3)に関するネットワークログ」を用い、時刻t1における対象携帯端末3に関するDG#1を作成する。このDG#1では、コンポーネント「アプリA」とコンポーネント「Wi−Fiアンテナ」間の動作、及び、コンポーネント「Wi−Fiアンテナ」とコンポーネント「サーバA」間の動作が共に依存関係にあることが示されている。
次いで、時刻t2では、時刻t2に取得された対象携帯端末3に関するネットワークログを用い、時刻t2における対象携帯端末3に関するDG#2を作成する。このDG#2では、コンポーネント「アプリB」とコンポーネント「Wi−Fiアンテナ」間の動作、及び、コンポーネント「Wi−Fiアンテナ」とコンポーネント「サーバB」間の動作が共に依存関係にあることが示されている。
次いで、時刻t3では、時刻t3に取得された対象携帯端末3に関するネットワークログを用い、時刻t3における対象携帯端末3に関するDG#3を作成する。このDG#3では、コンポーネント「アプリB」とコンポーネント「3Gアンテナ」間の動作、及び、コンポーネント「3Gアンテナ」とコンポーネント「サーバB」間の動作が共に依存関係にあることが示されている。
次いで、時刻t4では、時刻t4に取得された対象携帯端末3に関するネットワークログを用い、時刻t4における対象携帯端末3に関するDG#4を作成する。このDG#4では、コンポーネント「アプリA」とコンポーネント「3Gアンテナ」間の動作、及び、コンポーネント「3Gアンテナ」とコンポーネント「サーバA」間の動作が共に依存関係にあることが示されている。
次いで、時刻t5では、時刻t5に取得された対象携帯端末3に関するネットワークログを用い、時刻t5における対象携帯端末3に関するDG#5を作成する。このDG#5では、コンポーネント「アプリA」とコンポーネント「WiMAXアンテナ」間の動作、及び、コンポーネント「WiMAXアンテナ」とコンポーネント「サーバA」間の動作が共に依存関係にあることが示されている。
次いで、時刻t6では、時刻t6に取得された対象携帯端末3に関するネットワークログを用い、時刻t6における対象携帯端末3に関するDG#6を作成する。このDG#6では、コンポーネント「アプリA」とコンポーネント「WiMAXアンテナ」間の動作、及び、コンポーネント「WiMAXアンテナ」とコンポーネント「サーバB」間の動作が共に依存関係にあることが示されている。
DG管理データベース2は、各DGに対して、コンポーネント間の動作の依存関係が同じであるDGに対して同じDG識別子(DG−ID)を付与する。図4においては、時刻t1〜t6に作成されたDG#1〜#6におけるコンポーネント間の動作の依存関係が全て異なるので、各DGに対して異なるDG−ID(パターンP1〜P6)が付与される。又、DG管理データベース2は、各DGに対して、どの携帯端末3に関するDGであるのかを識別するために、携帯端末のMS−IDを付与する。
なお、コンポーネントのネットワークログの共起関係に基づいて、どのコンポーネントとどのコンポーネント間の動作が依存関係にあるかを検出することができる。具体的には、同一時刻に取得した対象携帯端末3に関するネットワークログのうち、同一文字列を含むネットワークログは、共起関係にあると判断する。例えば、携帯端末3がVoIP通信を行った場合、共起関係にある複数のネットワークログは、文字列「SIP」や文字列「Call」を含むことが予想される。従って、文字列「SIP」や文字列「Call」を含むネットワークログを出力した複数のコンポーネント間の動作は依存関係にあると検出する。
なお、コンポーネント間の動作の依存関係の順番は、一定期間である「時間窓」を用いて判断する。時間窓は、あるコンポーネントからログが出力されてから、そのログと共起するログが存在するか否かを判断するための時間帯である。図5を参照して、コンポーネント間の動作の依存関係の順番を判断する方法を説明する。
(1)まず、コンポーネント1からログが出力される。このログは文字列「SIP」、「Call」を有する。
(2)次いで、コンポーネント1のログ出力時点から時間窓内で、コンポーネント2からログが出力される。このコンポーネント2のログは、コンポーネント1のログと同じ文字列「SIP」、「Call」を有する。これにより、コンポーネント1のログとコンポーネント2のログ間に共起関係があると判断し、コンポーネント1とコンポーネント2間に依存関係があると判断する。
(3)次いで、コンポーネント2のログ出力時点から時間窓内で、コンポーネント3からログが出力される。このコンポーネント3のログがコンポーネント2のログと同じ文字列「SIP」、「Call」を有する場合には、コンポーネント2のログとコンポーネント3のログ間に共起関係があると判断し、コンポーネント2とコンポーネント3間に依存関係があると判断する。
(4)コンポーネント2のログとコンポーネント3のログ間に共起関係がある場合において、コンポーネント3のログ出力時点から時間窓内で、他のコンポーネントからログが出力されなかったときには、コンポーネント間のログの共起が終了したと判断する。これにより、当該DGは、コンポーネント1とコンポーネント2間の動作に依存関係があり、次いでコンポーネント2とコンポーネント3間の動作に依存関係にあるという、依存関係の順番「コンポーネント1→コンポーネント2→コンポーネント3」を有するものとなる。
次に、図6を参照して、図2に示す障害発生箇所特定用端末4の障害発生箇所特定部414が障害携帯端末3の障害発生箇所を調べる処理を説明する。
図6において、障害携帯端末3に関する障害発生直前のDGは、DG管理データベース2から取得される。障害発生箇所特定部414は、障害携帯端末3に関する障害発生直前のDGと、障害携帯端末3に関する障害発生箇所特定用情報(端末ログ)と、DGに含まれるネットワーク側のコンポーネントが障害発生時に出力したネットワークログとを用いて、障害携帯端末3の障害発生箇所を絞り込む。具体的には、端末ログとネットワークログにおいて、障害発生直前のDGに含まれるコンポーネントからのログが、障害発生時に存在するか否かを調べ、ログが存在するコンポーネントとログが存在しないコンポーネントとの境界を検出する。
図6の例では、障害発生直前のDGは、コンポーネント1とコンポーネント2間の動作、及び、コンポーネント2とコンポーネント4間の動作が共に依存関係にあることを示す。そして、端末ログには、コンポーネント1のログとコンポーネント2のログとは存在するが、コンポーネント4のログは存在しない。従って、コンポーネント2とコンポーネント4間で何らかの障害が発生したと判定することができる。
例えば、携帯端末3がVoIP通信を行っている途中で障害が発生した場合に、端末ログには、携帯端末3内のVoIP通信アプリプログラム実行部(コンポーネント1)のログ「VoIP App Start」、及び、携帯電話ネットワーク接続部(コンポーネント2)のログ「CDMA isActivity:false」が含まれているが、ネットワーク側のSIPサーバ(コンポーネント4)のログは含まれていなかったとする。この場合、携帯端末3ではアプリケーションが正常に動作しているが、携帯電話ネットワーク用のアンテナの先のどこかで障害が発生したと判定することができる。
図7は、携帯端末3やWebサーバ7などのネットワーク側のコンポーネントが出力する障害発生箇所特定用情報(エラーログ)の例である。エラーログは、コンポーネント毎に区別される。エラーログは、該当するコンポーネントに関する異常の種類を示す文字列を有する。
以下、本実施形態に係る実施例を説明する。
本発明の実施例1を図8に示す。図8の実施例1では、携帯端末3の無線LANアンテナやセルラー網通信用アンテナなどのハードウェア障害を特定する例を示す。また、本実施例1は、障害を実際に含んだ携帯端末(障害携帯端末)の障害発生箇所を特定する例である。
障害携帯端末3の障害発生箇所特定用情報408の中には、エラーログ「ERROR:XXX:java.net.ConnectException: Connection refused: connect.」がある。この障害携帯端末3を障害発生箇所特定用端末4にUSB接続すると、障害携帯端末3から障害発生箇所特定用端末4へメッセージが送信される。このメッセージは、各メッセージを識別するためのメッセージIDと、障害携帯端末3のMS−ID「175153」と、エラーログ出力の有無及びエラーログ出力の日時の情報を含むエラー情報と、そのエラーログが出力される前の最も直近に起動されたアプリケーションが出力したログの文字列「Starting VoIP…」及び「Connect SIP Server…」(以下、関連ログ)とを有する。
障害発生箇所特定用端末4は、MS−ID、エラー情報及び関連ログを用いて、DG管理データベース2から、障害携帯端末3がエラーログを出力する直前のDGを取得する。さらに、障害発生箇所特定用端末4は、障害携帯端末3からエラーログが出力される直前のDGを構成する各コンポーネントが、障害携帯端末3のエラーログ出力時に出力していたログを、DG推定サーバ1から取得する。
障害発生箇所特定用端末4は、DG推定サーバ1から取得したログにおいて、障害携帯端末3のエラーログ出力時に、各コンポーネントがログを出力していたか否か、または各コンポーネントからエラーログの出力があったか否かを調べる。
図8の例では、障害携帯端末3のエラーログ出力直前のDGを構成する、コンポーネントのログ出力の有無を調べたところ、コンポーネント「アプリA」からはログ「Starting VoIP…」の出力があったにもかかわらず、コンポーネント「3Gアンテナ」及びコンポーネント「サーバA」からはいずれもログ出力がなかった。これにより、障害発生箇所特定用端末4は、コンポーネント「3Gアンテナ」又はネットワーク側のどこかで障害が発生したと判断する。
障害発生箇所特定用端末4は、その障害箇所の判断結果を用いて表示データを作成する。そして、障害発生箇所特定用端末4は、その表示データを画面上に表示する。図8には、その表示画面1000の構成例が示されている。
図8の表示画面1000では、DG管理データベース2から取得したDG1100(障害携帯端末3がエラーログを出力する直前のDG)が表示される。さらに、DG1100を構成する各コンポーネントのログ出力の有無の情報1200が表示される。さらに、ログ出力有りのコンポーネントについては、そのログ及びログ出力日時の情報が表示される。さらには、障害発生箇所が携帯端末であることを示すメッセージ「ハードウェア障害」が表示される。店員は、その表示画面1000の表示内容に基づいて、障害携帯端末3に係る障害発生箇所を判断することができる。さらに、障害携帯端末3の利用者に対して表示画面1000を提示することにより、障害発生箇所の説明を分かり易く行うことができる。
本発明の実施例2を図9に示す。図9の実施例2では、実施例1と同様にハードウェア障害を特定するが、さらに加えてWebサーバやSIPサーバなどの故障やサービス停止といったネットワーク障害の特定も行う。また、本実施例2は、障害を含んでいない携帯端末(正常携帯端末)が障害発生箇所特定用端末4にUSB接続されて、障害発生箇所を特定する例である。
正常携帯端末3の障害発生箇所特定用情報408の中には、エラーログ「ERROR:XXX:java.net.ConnectException: Connection refused: connect.」がある。この正常携帯端末3を障害発生箇所特定用端末4にUSB接続すると、正常携帯端末3から障害発生箇所特定用端末4へメッセージが送信される。このメッセージは、メッセージIDと、正常携帯端末3のMS−IDと、エラー情報と、関連ログとを有する。
障害発生箇所特定用端末4は、MS−ID、エラー情報及び関連ログを用いて、DG管理データベース2から、正常携帯端末3がエラーログを出力する直前のDGを取得する。さらに、障害発生箇所特定用端末4は、正常携帯端末3からエラーログが出力される直前のDGを構成する各コンポーネントが、正常携帯端末3のエラーログ出力時に出力していたログを、DG推定サーバ1から取得する。
障害発生箇所特定用端末4は、DG推定サーバ1から取得したログにおいて、正常携帯端末3のエラーログ出力時に、各コンポーネントがログを出力していたか否か、または各コンポーネントからエラーログの出力があったか否かを調べる。
図9の例では、正常携帯端末3のエラーログ出力直前のDGを構成する、コンポーネントのログ出力の有無を調べたところ、コンポーネント「アプリA」、コンポーネント「3Gアンテナ」からはそれぞれに、ログ「Starting VoIP…」、ログ「CDMA isAvaibale:true…」の出力があったにもかかわらず、コンポーネント「サーバA」からはログ出力がなかった。これにより、障害発生箇所特定用端末4は、ネットワーク側のどこかで障害が発生したと判断する。
障害発生箇所特定用端末4は、その障害箇所の判断結果を用いて表示データを作成する。そして、障害発生箇所特定用端末4は、その表示データを画面上に表示する。図9には、その表示画面1000の構成例が示されている。
図9の表示画面1000では、DG管理データベース2から取得したDG1100(正常携帯端末3がエラーログを出力する直前のDG)が表示される。さらに、DG1100を構成する各コンポーネントのログ出力の有無の情報1200が表示される。さらに、ログ出力有りのコンポーネントについては、そのログ及びログ出力日時の情報が表示される。さらには、障害発生箇所がネットワーク側であることを示すメッセージ「ネットワーク障害」が表示される。店員は、その表示画面1000の表示内容に基づいて、正常携帯端末3に係る障害発生箇所を判断することができる。さらに、正常携帯端末3の利用者に対して表示画面1000を提示することにより、障害発生箇所の説明を分かり易く行うことができる。
本発明の実施例3を図10に示す。図10の実施例3では、実施例2と同様に、正常携帯端末が障害発生箇所特定用端末4にUSB接続されて、障害発生箇所を特定する例である。
正常携帯端末3の障害発生箇所特定用情報408の中にはエラーログが無い。この正常携帯端末3を障害発生箇所特定用端末4にUSB接続すると、正常携帯端末3から障害発生箇所特定用端末4へメッセージが送信される。このメッセージは、メッセージIDと、正常携帯端末3のMS−IDと、エラー情報「エラーログ無し」と、関連ログ「無し」とを有する。
障害発生箇所特定用端末4は、エラー情報「エラーログ無し」に基づいて、正常携帯端末3に係る障害が発生していないと判断する。そして、障害発生箇所特定用端末4は、障害発生箇所の診断結果の表示データを作成すえるために、MS−IDと、任意の日時情報(例えば店員が指定した日時情報、又は予め設定された日時情報)と、その日時情報に最も直近に前記携帯端末で起動されたアプリケーションが出力した端末ログの文字列とを用いて、DG管理データベース2から、正常携帯端末3に関する当該日時付近のDGを取得する。さらに、障害発生箇所特定用端末4は、その取得したDGを構成する各コンポーネントが、当該日時付近に出力していたログを、DG推定サーバ1から取得する。
障害発生箇所特定用端末4は、その取得したDG及びログを用いて表示データを作成する。そして、障害発生箇所特定用端末4は、その表示データを画面上に表示する。図10には、その表示画面1000の構成例が示されている。
図10の表示画面1000では、DG管理データベース2から取得したDG1100(正常携帯端末3に係る任意日時のDG)が表示される。さらに、DG1100を構成する各コンポーネントが当該日時付近に出力していたログの情報1200が表示される。この例では、正常携帯端末3の任意日時のDGを構成する各コンポーネント「アプリA」、コンポーネント「3Gアンテナ」、コンポーネント「サーバA」からはそれぞれに、ログ「Starting VoIP…」、ログ「CDMA isAvaibale:true…」、ログ「SIP calling…」の出力があった。さらには、障害発生箇所がないことを示すメッセージ「障害箇所無し」が表示される。店員は、その表示画面1000の表示内容に基づいて、正常携帯端末3に係る障害発生なしを判断することができる。さらに、正常携帯端末3の利用者に対して表示画面1000を提示することにより、障害が発生していないことの説明を分かり易く行うことができる。
なお、上述の各実施例において、携帯端末3から障害発生箇所特定用端末4へのメッセージ転送方法は、USB接続に限定されない。例えば、SDカードなどのデータカードを経由してメッセージを転送してもよい。又は、ネットワーク上のサーバ経由でメッセージを転送してもよい。例えば、携帯端末3がセルラー網、無線LAN、WiMAX等の無線通信網を利用してインターネット上に存在するサーバに情報を一時的に蓄えておき、障害発生箇所特定用端末4が該サーバから情報を取得するようにしてもよい。
また、メッセージID、MS−ID及びエラー情報のデータ形式としては、カンマで区切って並べたデータ形式である「Comma Separated Values(CSV)」、タブで区切って並べたデータ形式である「Tab Separated Values(TSV)」、スペースで区切って並べたデータ形式である「Space Separated Values(SSV)」、タグで区切って並べたデータ形式である「Hyper Text Markup Language(HTML)」、さらにはその拡張形式であり論理的なタブを付けることが出来る「eXtensible Markup Language(XML)」などを利用可能である。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
また、図3に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、障害発生箇所診断処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1…DG(依存関係グラフ)推定サーバ、2…DG管理データベース、3…携帯端末、4…障害発生箇所特定用端末、5…ゲートウェイ網、6…インターネット、7…サーバ、414…障害発生箇所特定部、415…障害診断結果表示部、420…障害診断結果作成部

Claims (1)

  1. 携帯端末が利用したコンポーネントが出力したネットワークログを収集し、該ネットワークログの共起関係に基づいて、当該携帯端末が利用したコンポーネント間の動作の依存関係及び当該利用時刻を表す依存関係グラフを作成する依存関係グラフ推定サーバと、
    前記依存関係グラフ推定サーバが作成した依存関係グラフを保存する依存関係グラフ管理データベースと、
    障害発生箇所特定用端末と、を備え、
    前記依存関係グラフ推定サーバは、定期的に、取得したネットワークログを用いて前記依存関係グラフを作成し、作成した前記依存関係グラフを前記依存関係グラフ管理データベースに保存し、
    前記依存関係グラフ管理データベースは、コンポーネント間の動作の依存関係が異なる複数の前記依存関係グラフを格納し、
    前記障害発生箇所特定用端末は、
    調査対象の携帯端末の障害発生箇所特定用情報を受信する障害発生箇所特定用情報受信部と、
    前記調査対象の携帯端末が利用したコンポーネント間の動作の依存関係及び当該利用時刻を表す前記依存関係グラフを蓄積する前記依存関係グラフ管理データベースから該依存関係グラフを受信する依存関係グラフ受信部と、
    前記調査対象の携帯端末の障害発生箇所特定用情報に含まれる障害発生時点の端末ログに基づいて該障害発生時点の直前の利用時刻を有する当該調査対象の携帯端末に関する前記依存関係グラフを前記依存関係グラフ管理データベースから取得し、該取得した依存関係グラフに基づいて当該調査対象の携帯端末の障害発生箇所を調べる障害発生箇所特定部と、
    前記調査対象の携帯端末の障害発生箇所の調査結果を表す表示データを作成する障害診断結果作成部と、を備え、
    前記障害発生箇所特定部は、前記依存関係グラフ管理データベースから取得した依存関係グラフを構成する各コンポーネントが前記調査対象の携帯端末のエラーログ出力時に出力していたログを当該ログのデータベースから取得し、前記調査対象の携帯端末のエラーログ出力時に、前記各コンポーネントがログを出力していたか否かを調べ、前記各コンポーネントからのログの有無の境界を検出し、ログ無しのコンポーネント側で障害が発生したと判断
    前記障害診断結果作成部は、
    前記調査対象の携帯端末の障害発生箇所特定用情報にエラーログ無しの場合、任意の日時情報と、該日時情報に最も直近に前記調査対象の携帯端末で起動されたアプリケーションが出力した端末ログとを用いて、前記依存関係グラフ管理データベースから、前記調査対象の携帯端末に関する当該日時付近の依存関係グラフを取得し、
    該取得した依存関係グラフを構成する各コンポーネントが該日時付近に出力していたログを当該ログのデータベースから取得し、
    該取得した依存関係グラフ、及び、該依存関係グラフを構成する各コンポーネントが該日時付近に出力していたログを表示する表示データを作成する、
    ことを特徴とする障害発生箇所診断システム。
JP2011210432A 2011-09-27 2011-09-27 障害発生箇所診断システム Expired - Fee Related JP6031224B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011210432A JP6031224B2 (ja) 2011-09-27 2011-09-27 障害発生箇所診断システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011210432A JP6031224B2 (ja) 2011-09-27 2011-09-27 障害発生箇所診断システム

Publications (2)

Publication Number Publication Date
JP2013073315A JP2013073315A (ja) 2013-04-22
JP6031224B2 true JP6031224B2 (ja) 2016-11-24

Family

ID=48477799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011210432A Expired - Fee Related JP6031224B2 (ja) 2011-09-27 2011-09-27 障害発生箇所診断システム

Country Status (1)

Country Link
JP (1) JP6031224B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6287274B2 (ja) * 2014-01-31 2018-03-07 富士通株式会社 監視装置、監視方法及び監視プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001256032A (ja) * 2000-03-14 2001-09-21 Mitsubishi Electric Corp 障害メッセージ表示装置
JP2002278853A (ja) * 2001-03-21 2002-09-27 Hitachi Information Systems Ltd 分散オブジェクト環境における通信障害監視システムと通信障害監視方法およびプログラム
CN1650274A (zh) * 2002-12-26 2005-08-03 富士通株式会社 操作管理方法和操作管理服务器
JP2006031109A (ja) * 2004-07-12 2006-02-02 Ntt Docomo Inc 管理システム及び管理方法
JP4172807B2 (ja) * 2006-09-08 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 障害発生の原因箇所の発見を支援する技術
JP5324209B2 (ja) * 2008-12-25 2013-10-23 Kddi株式会社 コンピュータ装置、情報収集方法及び情報収集プログラム
JP5707263B2 (ja) * 2011-07-14 2015-04-22 Kddi株式会社 障害発生箇所診断システムおよび障害発生箇所診断方法

Also Published As

Publication number Publication date
JP2013073315A (ja) 2013-04-22

Similar Documents

Publication Publication Date Title
US9483572B2 (en) Interactivity analyses of web resources based on reload events
EP2769304B1 (en) Telemetry file hash and conflict detection
US20130191814A1 (en) Test scenario generation method, test scenario generation system, and test scenario generation program
CN113687974B (zh) 客户端日志处理方法、装置及计算机设备
CN111447170B (zh) 数据处理方法及其系统、计算机系统及计算机可读介质
CN105607986A (zh) 用户行为日志数据采集方法及装置
CN112506755B (zh) 日志采集方法、装置、计算机设备和存储介质
CN108038039B (zh) 记录日志的方法及微服务系统
JP2013191188A (ja) ログ管理装置、ログ蓄積方法、ログ検索方法、重要度決定方法、およびプログラム
CN111259275B (zh) 一种数据追踪方法、设备及存储介质
US11294746B2 (en) Extracting moving image data from an error log included in an operational log of a terminal
CN104579830A (zh) 服务监控方法及装置
CN109802842B (zh) 应用拓扑的生成方法及相关设备
EP3188022B1 (en) System monitoring device
CN107360036A (zh) 一种网络故障定位方法、终端和服务器
JP5707263B2 (ja) 障害発生箇所診断システムおよび障害発生箇所診断方法
CN107770030B (zh) 基于vpn技术的舞台设备控制系统、控制方法及控制装置
JP6031224B2 (ja) 障害発生箇所診断システム
US9374437B2 (en) Schema validation proxy
CN107483294B (zh) 监控网络请求的方法及装置
US20150326677A1 (en) Screen information collecting computer, screen information collecting method, and computer-readable storage medium
US20140344756A1 (en) Information processing apparatus, and control method therefor
CN109756393B (zh) 信息处理方法、系统、介质和计算设备
JP2021163475A (ja) ログベースのマッシュアップのコード生成
CN112416698A (zh) 监控系统的扩展方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150320

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160405

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161024

R150 Certificate of patent or registration of utility model

Ref document number: 6031224

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees