JP2016146555A - サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法 - Google Patents

サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法 Download PDF

Info

Publication number
JP2016146555A
JP2016146555A JP2015022516A JP2015022516A JP2016146555A JP 2016146555 A JP2016146555 A JP 2016146555A JP 2015022516 A JP2015022516 A JP 2015022516A JP 2015022516 A JP2015022516 A JP 2015022516A JP 2016146555 A JP2016146555 A JP 2016146555A
Authority
JP
Japan
Prior art keywords
software
flow
physical equipment
cause
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015022516A
Other languages
English (en)
Other versions
JP6310405B2 (ja
Inventor
愛子 尾居
Aiko Oi
愛子 尾居
浩行 大西
Hiroyuki Onishi
浩行 大西
高明 森谷
Takaaki Moriya
高明 森谷
大己 遠藤
Daiki Endo
大己 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015022516A priority Critical patent/JP6310405B2/ja
Publication of JP2016146555A publication Critical patent/JP2016146555A/ja
Application granted granted Critical
Publication of JP6310405B2 publication Critical patent/JP6310405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】ソフトウェアの故障や劣化も検出でき、作業が簡易で、装置規模が比較的小規模であり、サービス品質の劣化が生じている原因箇所の推定もできるようにする。【解決手段】モデル生成部61は、記憶部50を参照して、各フローについてデータが流れる物理設備及びソフトウェアのIDと当該データが流れる順番を特定するモデルであるフローモデルを生成する。処理部60及び設定情報管理部70は、フローモデル同士を比較して当該比較結果から通信ネットワーク上でのサービス影響の原因となる物理設備又はソフトウェアを推定する。【選択図】図3

Description

本発明は、サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法に関する。
通信ネットワークを介してサービスを提供するのに際して、通信ネットワーク中の故障又は品質劣化が発生している箇所を推定する技術が知られている。
特許文献1には、ユーザからの通信ネットワーク上でのトラブル発生の申告を契機に、利用端末と情報ソース(サーバに相当)の間に配置される複数のサービス構成要素(物理的な設備)からなる設備モデルを生成し、全サービス構成要素が正常な場合の通信シーケンスと、サービス構成要素それぞれが故障した場合の通信シーケンスとを生成し、これらの通信シーケンスと故障申告時における観測情報とを比較することで、故障したサービス構成要素を推定する技術について開示されている(詳細は「第1の比較例」として後述)。
また、通信ネットワーク上の装置間のパケットをキャプチャし、キャプチャしたパケットを解析することで、ユーザの体感品質に影響を与える種々の特性値(リオーダ幅、トラヒック流量、RTT(Round-Trip Time)、パケットロス、ジッタ、セッション確立率、ウィンドウサイズ、サーバの応答時間)を算出し、その算出した値に基づいて当該特性値の正常性の判定を行い、前記装置間の通信品質劣化の原因箇所を推定する技術も知られている(詳細は「第2の比較例」として後述)。
さらに、非特許文献1には、仮想化された通信ネットワーク機能の選択的利用を可能とする柔軟な経路制御技術であるSFC(Service Function Chaining)技術を用いて、各フローに対し試験パケットを送信し、当該試験パケットが通過した転送機能部(物理/仮想ルータ又は物理/仮想スイッチに相当)及びアプリケーションのIDを、試験パケットが備えるリストにそれぞれ格納し、そのIDが格納されたリストと事前に設定した情報とを比較することで故障箇所を推定する技術について開示されている(詳細は「第3の比較例」として後述)。
特開平10−200527号公報
Y. Jiang他、"Fault Management in Service Function Chaining"、[online]、2014年10月27日、The Internet Engineering Task Force、[平成27年1月27日検索]、インターネット<URL:https://datatracker.ietf.org/doc/draft-jxc-sfc-fm/?include_text=1>
しかしながら、前記第1〜第3の比較例の技術では、仮想化設備やアプリケーションソフトといったソフトウェアに故障や劣化が生じていても異常を検出できないこと(特許文献1)、IDを付与できない設備に対しては故障診断ができないこと(非特許文献1)、作業が煩雑になること、装置規模が大規模になること、サービス品質の劣化が生じている場合に原因箇所の推定をすることができないこと等の不具合点が存在する。
そこで、本発明は、ソフトウェアの故障や劣化も検出でき、作業が簡易で、装置規模が比較的小規模であり、サービス品質の劣化が生じている原因箇所の推定もできるサービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法を提供することを目的とする。
本発明は、通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアのうち少なくとも1つ以上を用いて構成されるフローについて、当該フローを識別するフローIDと、前記物理設備を識別する物理設備ID、前記物理設備であるサーバを識別するサーバID、及び当該各サーバで用いられる前記ソフトウェアを識別するソフトウェアIDとを関連付けて記憶する記憶部と、前記記憶部を参照して、前記各フローについてデータが流れる前記物理設備及びソフトウェアの前記IDと当該データが流れる順番を特定するモデルであるフローモデルを生成するモデル生成部と、前記フローモデル同士を比較して当該比較結果から前記通信ネットワーク上でのサービス影響の原因となる前記物理設備又は前記ソフトウェアを推定する推定部と、を備えたことを特徴とするサービス影響原因推定装置である。
本発明によれば、ソフトウェアの故障や劣化も検出でき、作業が簡易で、装置規模が比較的小規模であり、サービス品質の劣化が生じている原因箇所の推定もできる。
この場合に、前記推定部は、前記ソフトウェアIDを格納できるリストを生成するリスト生成部と、前記リストを備えた試験パケットを生成する試験パケット生成部と、前記試験パケットを前記フローごとに所定時間内に所定数送信するパケット送信部と、前記試験パケットが通過した前記ソフトウェアのIDを前記リストに格納した当該試験パケットのリプライパケットを受信するパケット受信部と、前記受信したリプライパケットを格納するリプライ格納部と、を備えたことを特徴としてもよい。
本発明によれば、試験パケットを送信してリプライパケットを受け取るだけなので、ソフトウェアの故障や劣化も検出でき、作業が簡易で、装置規模が比較的小規模であり、サービス品質の劣化が生じている原因箇所の推定もできる。
この場合に、前記リプライ格納部に格納されている前記リプライパケットの受信についての計測結果に基づいて前記各フローを正常グループと異常グループとに分類するグループ構成部を備えたことを特徴としてもよい。
本発明によれば、正常なフローと異常なフローとに分類することができる。
この場合に、前記グループ構成部は、前記計測結果としてのレスポンスタイム及び前記計測結果としてのリプライのカウント数がそれぞれ各所定値の範囲内にあり、かつ、前記記憶部から取得したソフトウェアIDと前記リプライパケットのリストに格納されたソフトウェアIDとを比較し、全てのソフトウェアIDが一致した前記フローを正常グループに分類し、それ以外の前記フローを異常グループに分類することを特徴としてもよい。
本発明によれば、レスポンスタイム、リプライのカウント数により簡易に正常なフローと異常なフローとに分類することができる。
この場合に、前記グループ構成部は、前記異常グループについて、前記レスポンスタイムの実測値及び前記カウント数がそれぞれ各所定値の範囲内にあるとき、又は、記憶部から取得したソフトウェアIDと前記リプライパケットのリストに格納されたソフトウェアIDとを比較し、少なくとも1つ以上のソフトウェアIDが一致しない前記フローを故障グループに分類し、それ以外の前記フローを性能劣化グループに分類することを特徴としてもよい。
本発明によれば、異常のあるフローを故障ありのものと劣化ありのものに分類できる。
この場合に、前記グループ構成部で前記レスポンスタイムに用いる前記所定値は、所定時間内に所定の値だけ送信された前記試験パケットに対する前記レスポンスタイムについて平均値をとる又は統計的手法を用いることで求めるものであり、前記カウント数に用いる前記所定値は、所定時間内に所定の値だけ送信された前記試験パケットに対する前記カウント数の平均値をとる又は統計的手法を用いることで求めるものであることを特徴としてもよい。
本発明によれば、レスポンスタイム、リプライのカウント数に用いる所定値を適切に決定することができる。
前記の場合に、前記推定部は、前記性能劣化グループ内又は前記故障グループ内で前記各フローのフローモデル同士を比較し、共通する前記物理設備又は前記ソフトウェアを抽出し、当該抽出した物理設備又はソフトウェアを前記サービス影響の原因として推定する第1の原因特定部と、前記性能劣化グループ又は前記故障グループと、前記正常グループとの間で前記各フローのフローモデル同士を比較して、共通する前記物理設備又は前記ソフトウェアは前記サービス影響の原因の候補から除外し、残った前記物理設備又は前記ソフトウェアを抽出して、当該抽出した前記物理設備又は前記ソフトウェアを前記サービス影響の原因として推定する第2の原因特定部と、を備えたこと特徴としてもよい。
本発明によれば、適切な手段によりサービス影響の原因の推定を行うことができる。
この場合に、前記推定部は、前記故障又は性能劣化グループに割り振られたフローの数が、同じグループについての所定の閾値以上の場合は前記第1の原因特定部を用い、前記所定の閾値未満の場合は前記第1の原因特定部を用いた後、前記第2の原因特定部を用いて前記サービス影響の原因の推定を行うことを特徴としてもよい。
本発明によれば、第1の原因特定部又は第2の原因特定部を的確に選択することができる。
前記の場合に、前記推定部は、前記性能劣化グループ内又は前記故障グループ内で前記各フローのフローモデル同士を比較し、共通する前記物理設備又は前記ソフトウェアの数をそれぞれカウントし、その後、当該比較をした前記性能劣化グループ又は前記故障グループと前記正常グループとの間で前記各フローのフローモデル同士を比較し、共通する前記物理設備又は前記ソフトウェアについては前記カウントの数を0とし、最終的に前記カウントの数が最大である前記物理設備又は前記ソフトウェアを抽出し、当該抽出した前記物理設備又は前記ソフトウェアを前記サービス影響の原因であるものとして推定すること特徴としてもよい。
本発明によれば、サービス影響の原因であるものの推定を的確に行うことができる。
この場合に、前記記憶部は、前記物理設備ID及び前記ソフトウェアIDとして、当該IDが示す物理設備又はソフトウェアと、当該物理設備又はソフトウェアと親子関係又は接続関係にある他の物理設備、ソフトウェア、又はサーバとの相関関係を示すものであり、前記推定部は、前記サービス影響の原因である前記物理設備又は前記ソフトウェアが複数推定された場合に、当該複数の物理設備又はソフトウェア同士、又は、前回行われた前記推定で推定された前記物理設備又は前記ソフトウェアと今回行われた前記推定で推定された前記物理設備又は前記ソフトウェアとについて前記親子関係又は接続関係がある場合に、今回行われて複数推定された前記物理設備又は前記ソフトウェアの前記カウントの数に優先度をつけること特徴としてもよい。
本発明によれば、親子関係又は接続関係によってカウントの数に優先度をつけることができる。
別の本発明は、通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアのうち少なくとも1つ以上を用いて構成されるフローについて、当該フローを識別するフローIDと、前記物理設備を識別する物理設備ID、前記物理設備であるサーバを識別するサーバID、及び当該各サーバで用いられる前記ソフトウェアを識別するソフトウェアIDとを関連付けて記憶する記憶部を参照して、前記各フローについてデータが流れる前記物理設備及びソフトウェアの前記IDと当該データが流れる順番を特定するモデルであるフローモデルを生成するモデル生成処理と、前記フローモデル同士を比較して当該比較結果から前記通信ネットワーク上でのサービス影響の原因となる前記物理設備又は前記ソフトウェアを推定する推定処理と、をコンピュータに実行させることを特徴とするコンピュータに読み取り可能なサービス影響原因推定プログラムである。
本発明によれば、ソフトウェアの故障や劣化も検出でき、作業が簡易で、装置規模が比較的小規模であり、サービス品質の劣化が生じている原因箇所の推定もできる。
別の本発明は、通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアのうち少なくとも1つ以上を用いて構成されるフローについて、当該フローを識別するフローIDと、前記物理設備を識別する物理設備ID、前記物理設備であるサーバを識別するサーバID、及び当該各サーバで用いられる前記ソフトウェアを識別するソフトウェアIDとを関連付けて記憶する記憶部を参照して、前記各フローについてデータが流れる前記物理設備及びソフトウェアの前記IDと当該データが流れる順番を特定するモデルであるフローモデルを生成するモデル生成工程と、前記フローモデル同士を比較して当該比較結果から前記通信ネットワーク上でのサービス影響の原因となる前記物理設備又は前記ソフトウェアを推定する推定工程と、を備えたことを特徴とするサービス影響原因推定方法である。
本発明によれば、ソフトウェアの故障や劣化も検出でき、作業が簡易で、装置規模が比較的小規模であり、サービス品質の劣化が生じている原因箇所の推定もできる。
本発明によれば、ソフトウェアの故障や劣化も検出でき、作業が簡易で、装置規模が比較的小規模であり、サービス品質の劣化が生じている原因箇所の推定もできる。
本発明の一実施形態にかかるシステムの全体の構成図である。 本発明の一実施形態にかかるサービス影響原因推定装置のハードウェア構成の概要を示すブロック図である。 本発明の一実施形態にかかるサービス影響原因推定プログラムに基づいて中央処理装置が実行する機能を説明する機能ブロック図である。 本発明の一実施形態にかかるサービス影響原因推定装置の設備情報DBに登録されているデータ構成の説明図である。 本発明の一実施形態にかかるサービス影響原因推定装置のソフトウェア情報DBに登録されているデータ構成の説明図である。 本発明の一実施形態にかかるフローモデルの一例を示す説明図である。 本発明の一実施形態にかかる試験パケットの例を説明する。 本発明の一実施形態にかかる各フローをグループ分けする処理のフローチャートである。 図8のグループ分けにおける判断を示す状態遷移図である。 本発明の一実施形態におけるサービス影響の原因推定処理を説明する説明図である。 本発明の一実施形態において第1原因特定部を用いるか、第2原因特定部を用いるかを選択するためのフローチャートである。 本発明の一実施形態におけるサービス影響の原因推定処理の変形例を説明する説明図である。 本発明の一実施形態におけるサービス影響の原因推定処理の変形例を説明する説明図である。 本発明の一実施形態におけるサービス影響の原因推定処理の変形例を説明する説明図である。 第1の比較例の技術内容を説明する説明図である。 第2の比較例の技術内容を説明する説明図である。 第3の比較例の技術内容を説明する説明図である。
まず、本実施形態を説明する前に本実施形態に対する比較例を複数例説明する。
[比較例]
(第1の比較例)
本明細書において、サービス品質に「劣化」が生じているとは、ネットワーク管理者側で異常の発生を示すアラームを確認できないような異常が発生している場合であり、サービス品質に「故障」が生じているとは、ネットワーク管理者側で当該アラームを確認できる異常が発生している場合である。
図15は、第1の比較例(特許文献1)の技術内容を説明する説明図である。このネットワークサービス故障診断方法及び装置では、ユーザがサービスを利用する際にその端末と情報ソースとの間に配置される複数のサービス構成要素のそれぞれに関する役割を記述している設備情報データベース(DB)201と、各サービス構成要素に関する正常時及び故障時の動作を記述している設計情報データベース(DB)202とを備えている。設備情報DB201の登録情報の例は符号203で示している。
まず、通信ネットワークのユーザ(ユーザA)の申告により、そのユーザIDと利用サービス名で検索を要求すると(S211)、設備情報DB201に基づいて、当該ユーザAのEnd-to-Endの設備モデルを、サービス構成要素(物理的装置)を単位として出力する(S212)。そして、設計情報DB202を参照して、当該設備モデルに基づいて、全サービスの構成要素が正常なときの通信シーケンスを生成する(S213)。また、各サービスの構成要素が故障した際の通信シーケンスを、設計情報DB202を参照して生成する(S214)。
次に、正常時の通信シーケンス(S213)、異常時の通信シーケンス(S214)と、観測情報(通信システムの保守者の入力した情報)とを比較して、両者に共通の情報が含まれる通信シーケンスを抽出する。そして、各サービス構成要素のうち、本来の役割を果たさなかったサービス構成要素を抽出する(S215,S216)。この例では、S215で、No.48のNIC(Network Interface Controller)の故障時の通信シーケンスが通信シーケンス番号1〜4として示されている。これらは、様々な故障パターンの通信シーケンス例である。また、S216で保守者の入力した情報は、「アラームA」という警告が表示されたこと、「メッセージB」というメッセージ(S214における「ホストからの応答がありません」というメッセージ)が表示されたこと、及び「○○が動かない」とのユーザAからの申告である。
この例では、正常/異常時の通信シーケンスと観測情報との比較により、シーケンス番号1,3で一致し、これを抽出する。そして、シーケンス番号1,3の通信シーケンスにおいて、どのサービス構成要素が本来の役割を果たさないのかを判断して、異常個所の推定を行う。
しかしながら、このような第1の比較例は、予め故障時の通信シーケンスを網羅的に用意する必要があるため、作業が煩雑である。また、第1の比較例は、仮想化設備やアプリケーションソフトといったソフトウェアがサービス構成要素の対象外とされている(対象とされているのは物理的装置だけ)ため、例えば、同一サーバ内に複数の仮想化設備やアプリケーションソフトが設定されている場合、これを設備モデルに変換する際に、ある物理的装置に同居して存在する仮想化設備又はアプリケーションソフトなのか、ある物理的装置に単一で存在する仮想化設備又はアプリケーションソフトなのかを区別できないため、人手による1つ1つの確認作業が必要となってしまい、作業が煩雑である。さらに、第1の比較例は、通信シーケンスの異常を判断するものであるため、通信シーケンスは正常だがサービス品質に劣化が生じている場合に、原因となるサービス構成要素を推定できないという不具合もある。
(第2の比較例)
図16は、第2の比較例の技術内容を説明する説明図である。この品質劣化原因推定方法は、図16(a)に示すように、ユーザ端末301とサーバ302がネットワーク303を介して接続されている。そして、ネットワーク303に設けられた品質劣化原因推定装置304がユーザ端末301、サーバ302間のパケットP311をキャプチャし、キャプチャしたパケットP311を解析することで、ユーザの体感品質に影響を与える種々の特性値(リオーダ幅、トラヒック流量、RTT(Round-Trip Time)、パケットロス、ジッタ、セッション確立率、ウィンドウサイズ、サーバの応答時間)を算出し、その算出した値に基づいて特性値の正常性判定を行い、ユーザ端末301、サーバ302間の通信品質劣化の原因箇所を推定するものである。
図16(b)は、特性値がセッション確立率の例である場合の判定処理のフローチャートである。特性値がセッション確立率であるときは、まず、品質劣化原因推定装置304は、セッション確立失敗率が所定の閾値より大きいか否か判断する(S321)。大きくないときは(S321のN)、品質劣化原因推定装置304は、ネットワーク303は正常であると判断する(S322)。大きいときは(S321のY)、品質劣化原因推定装置304は、セッション終端装置があるか否か判断する(S323)。セッション終端装置がある場合は(S323のY)、セッション終端装置に異常の原因がある可能性があるので、品質劣化原因推定装置304は、セッション終端装置のログを確認する必要があると判断する(S324)。セッション終端装置がない場合は(S323のN)、品質劣化原因推定装置304は、サーバ302に原因があると判断する(S325)。
図16(c)は、特性値がウィンドウサイズの例である場合の判定処理のフローチャートである。特性値がウィンドウサイズであるときは、まず、品質劣化原因推定装置304は、ウィンドウサイズが所定の閾値より小さいか否か判断する(S331)。閾値以上であるときは(S331のN)、品質劣化原因推定装置304は、ネットワーク303は正常であると判断する(S332)。閾値より小さいときは(S331のY)、品質劣化原因推定装置304は、帯域制御装置があるか否か判断する(S333)。帯域制御装置がある場合は(S333のY)、帯域制御装置に異常の原因がある可能性があるので、品質劣化原因推定装置304は、帯域制御装置のログを確認する必要があると判断する(S334)。帯域制御装置がない場合は(S333のN)、品質劣化原因推定装置304は、サーバ302に原因があると判断する(S335)。
しかしながら、このような第2の比較例は、フローごとに、End-to-Endで、ネットワーク303内の個々の装置も含めた原因箇所推定を行う場合に、ネットワーク303内の装置に設けるキャプチャポイントが多くなってしまい、キャプチャしたパケットP311のデータの保存量及び判定処理にかかる負荷が増大してしまうので、作業が煩雑となり、装置規模が大規模になってしまう。このため、通信キャリアといった大規模なネットワークにおいては適用が困難である。
(第3の比較例)
図17は、第3の比較例の技術内容を説明する説明図である。この仮想化機構を含む故障診断方法は、図17(a)に示すように、ネットワーク401中に、複数台のサーバ402、複数台のスイッチ(ネットワークスイッチ)403が配置されている。検出ノード404は、ネットワーク401中のノードのひとつである。サーバ402は、データ転送を行う転送機能部(仮想スイッチに相当)411と、アプリケーションソフト412とを備えている。SFF1〜SFF3は、各転送機能部411のIDであり、SF1〜SF5は、各アプリケーションソフト412のIDである。
本技術は、仮想化されたネットワーク機能の選択的利用を可能とする柔軟な経路制御技術であるSFC(Service Function Chaining)を用いている。検出ノード404は、各フローに対して試験パケットを1つ送信する。この試験パケットは、転送機能部411とアプリケーションソフト412のIDを格納するリストを備えている。試験パケットを受信したサーバ402では、当該試験パケットのリストに自身の転送機能部411のIDを格納し、当該格納後のリストをコピーし、コピーしたリストを送信元の検出ノード404にリプライする。その後、当該コピー元のリストを備えた試験パケットを同一サーバ402のアプリケーションソフト412に転送し、ここでも転送機能部411と同様にリストのコピー、コピーしたリストの送信元の検出ノード404へのリプライが行われる。さらに別のサーバ402に試験パケットが転送される場合も同様である。
図17(b)には、検出ノード404に予め格納されている設定情報421の例を示している。この設定情報421は、あるフローを転送される試験パケットの通過経路の各部のIDを通過する順に上から並べて示している。この例では、IDがSFF1の転送機能部411を備えたサーバ402に試験パケットが転送され、その転送機能部411、アプリケーションソフト412を試験パケットが順次通過した後、IDがSFF2の転送機能部411を備えたサーバ402に試験パケットが転送され、その転送機能部411、アプリケーションソフト412を試験パケットが順次通過する例である。そのため、当該試験パケットが通過する予定の各部のIDを順に示すと、“SFF1→SF1→SFF1→SFF2→SF2→SFF2→SF3→SFF2”となる。
図17(c)は、試験パケットに基づいて、検出ノード404にリプライされたリストの例である。リスト1はIDがSFF1の転送機能部411からリプライされ、リスト2はIDがSF1のアプリケーションソフト412からリプライされ、リスト3はIDがSFF1の転送機能部411からリプライされ、リスト4はIDがSFF2の転送機能部411からリプライされたものである。
これらのリストと設定情報421とを比較することにより、各転送機能部411、アプリケーションソフト412のうち、異常が存在する部位はどれであるかを判定することができる。リスト1〜リスト4は、設定情報421と比較すれば、いずれも検出ノード404に正しくリプライされたものであることがわかる。すなわち、リスト1〜リスト4の各最下段のIDは設定情報421中に存在し、当該IDが当該リストのリプライ元であるから、そのリプライ元の転送機能部411又はアプリケーションソフト412は正常に動作していると判定できる。
ここで、仮に、IDがSFF2である転送機能部411に異常が存在していると、最下段にIDのSFF2が記録されたリスト4はリプライされないので、リスト4のリプライの不存在をもって、IDがSFF2である転送機能部411に異常があると判定することになる。
しかしながら、このような第3の比較例は、IDを付与可能な転送機能部411及びアプリケーションソフト412のみを異常診断の対象としているため,それ以外のIDを付与できない物理的な装置やソフト的な設備に対しては異常診断ができないという不具合がある。また、転送機能部411及びアプリケーションソフト412のIDが格納されたリストと設定情報421との比較だけでは、サービス品質の劣化が生じている場合に原因箇所の推定をすることができないという不具合もある。
[実施形態]
次に、第1〜第3の比較例における不具合を解消した本実施形態の技術内容について説明する。
(システム構成の概要)
図1は、本実施形態の全体のシステム構成図である。インターネットなどの通信ネットワーク10上には複数のサーバ11が設置され、これらのサーバ11は、スイッチ(ネットワークスイッチ)12、リンク13を介して接続されている。各サーバ11には、いずれもソフトウェアである仮想スイッチ(vSW)21、アプリケーションソフト(APL)22が用意されている。これらの通信ネットワーク10中の各構成要素には、そのIDを、例えば「ID:sv01」のように図示している。
サービス影響原因推定装置1は、この例ではサーバ11に接続されて設けられている。しかし、本発明はこれに限定されるものではなく、サービス影響原因推定装置1をサーバ11とは独立させて通信ネットワーク10中に配置してもよい。
図2は、サービス影響原因推定装置1のハードウェア構成の概要を示すブロック図である。サービス影響原因推定装置1は、各種演算及び制御を行う中央処理装置(CPU)31と、中央処理装置31の作業領域となる主記憶装置32と、各種データを記憶する補助記憶装置(HDD等)33と、通信ネットワーク10と通信を行う通信インターフェイス(I/F)34とを備えている。補助記憶装置33には、サービス影響原因推定装置1における下記に説明する特徴的な処理を実行するためのプログラムであるサービス影響原因推定プログラム45が格納されている。
図3は、サービス影響原因推定プログラム45に基づいて中央処理装置31が実行する機能を説明する機能ブロック図である。
すなわち、サービス影響原因推定装置1は、記憶部50と、処理部60と、管理部70とを備えている。
記憶部50には、設備情報データベース(DB)51と、ソフトウェア情報データベース(DB)52とが設けられている。これら各部の詳細な機能は後述する。
処理部60は、後述のフローモデルに関する処理を行う。処理部60には、モデル生成部61と、構成要素方法決定部62と、構成要素抽出部63と、抽出要素格納部64とが設けられている。構成要素抽出部63は、第1原因特定部631と、第2原因特定部632とを備えている。これら各部の詳細な機能は後述する。
管理部70は、各種データの管理に関する処理を行う。管理部70には、設定情報管理部71と、グループ管理部72と、閾値管理部73と、試験パケット管理部74と、記録部75とが設けられている。グループ管理部72には、グループ構成部721と、グループ格納部722とが設けられている。閾値管理部73は、レスポンスタイム閾値格納部731と、リプライカウント数閾値格納部732と、故障フロー数閾値格納部733と、性能劣化フロー数閾値格納部734とが設けられている。試験パケット管理部74は、試験パケット生成部741と、リスト生成部742と、パケット送信部743と、パケット受信部744と、リプライ格納部745とが設けられている。記録部75は、レスポンスタイム格納部751と、リプライカウント数格納部752と、故障フロー数格納部753と、性能劣化フロー数格納部754とが設けられている。これら各部の詳細な機能は後述する。
以下では、サービス影響原因推定装置1が実行する処理であるサービス影響原因推定方法について順次説明する。
(サービス影響原因推定方法の概要)
図4は、設備情報DB51(図3)に登録されているデータ構成の説明図である。設備情報DB51には、フローIDと物理設備IDとが関連付けられて登録される。フローIDは、通信ネットワーク10において、転送装置や通信ケーブル等の物理設備と、仮想マシンや仮想スイッチ等の仮想化された設備及びアプリケーションソフト等のソフトウェアとのうち(図1の例では、サーバ11、スイッチ12、リンク13、仮想スイッチ21、アプリケーションソフト22)の少なくとも1つ以上を用いて構成されるフローを識別する識別子である。物理設備IDは、通信ネットワーク10において、前記各フロー中の物理設備(図1の例では、サーバ11、スイッチ12、リンク13)を識別する識別子である。物理設備IDは、データが流れる物理設備のIDをデータが流れる順番に左から右に連結して示している。
図5は、ソフトウェア情報DB52(図3)に登録されているデータ構成の説明図である。設備情報DB51には、前記のフローIDと、サーバIDと、ソフトウェアIDとが関連付けられて登録される。サーバIDは、サーバ11を識別する識別子である。ソフトウェアIDは、各サーバIDが示すサーバ11に搭載されている仮想マシンや仮想スイッチ等の仮想化された設備及びアプリケーションソフト等のソフトウェア(図1の例では、仮想スイッチ21、アプリケーションソフト22)を識別する識別子である。ソフトウェアIDは、データが流れるソフトウェアのIDをデータが流れる順番に左から右に連結して示している。ソフトウェアIDは、各サーバ11のサーバIDと関連付けられていて、当該サーバIDの示すサーバ11内のソフトウェアのIDのみで示されている。
図6は、フローモデルの一例を示す説明図である。フローモデルもフローIDが識別子となり、図6においては、フローIDごとのフローモデル例を示している。フローモデルは、モデル生成部61により生成される。すなわち、モデル生成部61は、あるフローIDのフローモデルを作成するに際して、設備情報DB51(図4)とソフトウェア情報DB52(図5)とを参照して、それぞれ対象となるフローIDと関連付けられている、物理設備IDが示す物理設備と、サーバID及びソフトウェアIDが示すソフトウェアとを、データが流れる順番に左から右に連結して示している。すなわち、モデル生成部61は、各フローについてデータが流れる物理設備及びソフトウェアのIDと当該データが流れる順番を特定するモデルである。
本実施形態では、処理部60及び管理部70が推定部に相当し、この処理部60及び管理部70の実行する処理により、前記のフローモデル同士を比較して当該比較結果から、通信ネットワーク10上での劣化、故障のようなサービス影響の原因となる物理設備又はソフトウェアを推定するものである。以下では、サービス影響原因推定装置1が実行する詳細な処理、特に、推定部となる処理部60及び管理部70が実行する具体的な処理について説明する。
(試験パケット)
通信ネットワーク10上での劣化、故障のようなサービス影響の原因となる物理設備又はソフトウェアを推定するために用いる試験パケットの例を説明する。
まず、リスト生成部742がソフトウェアIDを格納できる、図7(a)に示すようなリストを生成する。このリストには、対象となるフローモデルのフローIDとソフトウェアIDとが、試験パケットが当該ソフトウェアを通過した際に記載される。そして、試験パケット生成部741が、当該リストを備えた試験パケットを生成する。この試験パケットのヘッダには、該当するフローの設備情報DB51及びソフトウェア情報DB52を参照して、当該試験パケットが通過する物理設備の物理設備ID、ソフトウェアのソフトウェアIDが格納されている。
パケット送信部743は、この生成した試験パケットをフローごとに所定時間内に所定数送信する。具体的には、1フローにつき複数個の同一の試験パケットが送信される。
これにより、各フローにおいて、フローモデルの最後の構成要素がリプライパケットを生成し、送信する。リプライパケットには、対応する試験パケットが通過したソフトウェアのIDをそれぞれ格納した、図7(b)に示すようなリストが添付される。リプライパケットはパケット受信部744が受信する。そして、リプライ格納部745は、当該リプライパケットのリストを格納する。
この試験パケットのレスポンスタイムの実測値はレスポンスタイム格納部751に格納され、また、試験パケットのリプライパケットのカウント数はリプライカウント数格納部752に格納される。
(グループ分け)
次に、前記試験パケットの送信の結果に基づいて、各フローをグループ分けする。グループ分けは、まず、異常が存在しないフローと判断する「正常グループ」と、異常が存在するフローと判断する「異常グループ」である「性能劣化グループ」及び「故障グループ」とに分類する。グループ構成部721は、この正常グループ、異常グループ、性能劣化グループのグループ分けを行う。グループ格納部722は、このグループ分けの結果を格納する。また、設定情報管理部71には、設備情報DB51、ソフトウェア情報DB52の登録情報を設定情報として取り込む。
図8は各フローをグループ分けする処理のフローチャートである。本処理では、レスポンスタイム格納部751に格納されている試験パケットのレスポンスタイムの実測値の閾値としてN1,N2(N1<N2)、リプライカウント数格納部752に格納されている試験パケットのリプライパケットのカウント数の閾値としてC1,C2,C3(C1>C2>C3)を用いる。
ここで、レスポンスタイム閾値格納部731に格納されるレスポンスタイムに用いる所定値である閾値N1,N2は、所定時間内に前記のとおり所定の値だけ送信された試験パケットに対するレスポンスタイムについて平均値をとる又は所定の統計的手法を用いることで求めるものである。同様に、リプライカウント数閾値格納部732に格納されるリプライパケットのカウント数に用いる所定値である閾値C1,C2,C3は、所定時間内に前記所定の値だけ送信された試験パケットに対するカウント数の平均値をとる又は所定の統計的手法を用いることで求めるものである。
まず、フローごとに図8に示す処理を行う。すなわち、グループ構成部721は、レスポンスタイム格納部751に格納されているレスポンスタイムの実測値が閾値N1より小さいか否かを判断する(S1)。レスポンスタイムの実測値が閾値N1より小さいときは(S1のYes)、グループ構成部721は、リプライカウント数格納部752に格納されているリプライパケットのカウント数が閾値C1以上か否かを判断する(S2)。リプライパケットのカウント数が閾値C1以上であるときは(S2のYes)、グループ構成部721は、リプライ格納部745に格納されているリプライパケットのリストが設定情報管理部71に格納されている設定情報と完全に一致するか否かを判断する(S3)。リプライパケットのリストと設定情報とが完全に一致するときは(S3のYes)、レスポンスが良く、リプライパケットは十分な数が返ってきて、試験パケットは該当するフロー中の物理設備、ソフトウェアを全て正常に経由しているので、グループ構成部721は、そのフローを正常グループに分類する(S4)。
一方、リプライパケットのカウント数が閾値C1を下回ったときは(S2のNo)、グループ構成部721は、S3と同様にリプライ格納部745に格納されているリプライパケットのリストが設定情報管理部71に格納されている設定情報と完全に一致するか否かを判断する(S5)。リプライパケットのリストと設定情報とが完全に一致するときは(S5のYes)、リプライパケットは十分な数が返ってきていないが、試験パケットは該当するフロー中の物理設備、ソフトウェアを全て正常に経由しているので、グループ構成部721は、そのフローを性能劣化グループに分類する(S6)。リプライパケットのリストと設定情報とで一致しないものがあるときは(S5のYes)、リプライパケットは十分な数が返ってきておらず、試験パケットは該当するフロー中の物理設備、ソフトウェアで正常に経由していないものであるので、グループ構成部721は、そのフローを故障グループに分類する(S7)。S3で、リプライパケットのリストと設定情報とで一致しないものがあるときも(S3のNo)、リプライパケットは十分な数が返ってきてはいるが、試験パケットは該当するフロー中の物理設備、ソフトウェアで正常に経由していないものであるので、グループ構成部721は、そのフローを故障グループに分類する(S7)。
レスポンスタイムの実測値が閾値N1以上であるときは(S1のNo)、グループ構成部721は、レスポンスタイムの実測値が閾値N1以上で、かつ、閾値N2未満であるか否かを判断する(S8)。レスポンスタイムの実測値が閾値N1以上で、かつ、閾値N2未満であるときは(S8のYes)、グループ構成部721は、リプライカウント数格納部752に格納されているリプライパケットのカウント数が閾値C2以上か否かを判断する(S9)。リプライパケットのカウント数が閾値C2以上であるときは(S9のYes)、グループ構成部721は、リプライ格納部745に格納されているリプライパケットのリストが設定情報管理部71に格納されている設定情報(記憶部50の情報)と完全に一致するか否かを判断する(S10)。リプライパケットのリストと設定情報とが完全に一致するときは(S10のYes)、レスポンスがそれほど良くはないリプライパケットが複数返ってきており、かつ、試験パケットは該当するフロー中の物理設備、ソフトウェアを全て正常に経由しているので、グループ構成部721は、そのフローを性能劣化グループに分類する(S6)。リプライパケットのリストと設定情報とで一致しないものがあるときは(S10のNo)、レスポンスがそれほど良くはないリプライパケットが複数返ってきており、かつ、試験パケットは該当するフロー中の物理設備、ソフトウェアで正常に経由していないものがあるので、グループ構成部721は、そのフローを故障グループに分類する(S7)。リプライパケットのカウント数が閾値C2未満であるときは(S9のNo)、グループ構成部721は、前記のS3の判断により、正常グループと性能劣化グループとにグループ分けする。
レスポンスタイムの実測値が閾値N1以上で、かつ、閾値N2未満ではないときは(S8のNo)、グループ構成部721は、レスポンスタイムの実測値が閾値N2以上であるか否かを判断する(S11)。レスポンスタイムの実測値が閾値N2以上であるときは(S11のYes)、リプライパケットのカウント数が閾値C3以上か否かを判断する(S12)。リプライパケットのカウント数が閾値C3以上のときは(S12のYes)、レスポンスが悪いリプライパケットが所定数以上返ってきているので、グループ構成部721は、当該フローを故障グループに分類する(S7)。リプライパケットのカウント数が閾値C3未満のときは(S12のYes)、グループ構成部721は、前記のS10の判断により、性能劣化グループと故障グループとに分類する。
以上のグループ分けの結果は、グループ格納部722に格納される。
図9は、図8のグループ分けにおける判断を示す状態遷移図である。正常グループ、性能劣化グループ、故障グループにグループ分けする各判断の項目81〜89において、(1)は前記のレスポンスタイムの判断、(2)は前記のリプライパケットのカウント数の判断、(3)は前記した設定情報とリストの一致性をそれぞれ示している。
(サービス影響の原因推定)
構成要素抽出部63は、第1原因特定部631と、第2原因特定部632とを備えている。構成要素抽出部63は、フローモデル同士を比較して当該比較結果から通信ネットワーク10上でのサービス影響の原因となる物理設備又は前記ソフトウェアを推定する。構成要素抽出部63の第1原因特定部631と、第2原因特定部632とは、それぞれ異なる手法で当該推定を行う。
まず、第1原因特定部631は、前記のように分類された性能劣化グループ内又は故障グループ内で各フローについて、フローモデル同士を比較し、共通する要素となる物理設備又はソフトウェアを抽出し、当該抽出した物理設備又はソフトウェアをサービス影響の原因として推定する。
図10(a)の例では、性能劣化グループ内又は故障グループ内で、フローIDがP11とP12のフローモデル同士を比較し、共通する要素となる物理設備IDがps95のスイッチ12を抽出している。
第2原因特定部632は、前記のように分類された性能劣化グループ又は故障グループと、正常グループとの間で各フローのフローモデル同士を比較して、共通する物理設備又はソフトウェアはサービス影響の原因の候補から除外し、残った物理設備又はソフトウェアを抽出して、当該抽出した物理設備又はソフトウェアをサービス影響の原因として推定する。
図10(b)の例では、性能劣化グループ又は故障グループのフローIDがP21のフローモデルと、正常グループのフローIDがP22のフローモデルとを比較し、共通の要素である、ソフトウェアIDが“bk2”のアプリケーションソフト22、物理設備IDが“ps95”のスイッチ12を共通するものとして除外し、残った要素である物理設備又はソフトウェアを抽出している。
このようにして、第1原因特定部631又は第2原因特定部632により抽出された構成要素は抽出要素格納部64に格納される。
図11は、構成要素抽出部63の第1原因特定部631を用いるか、第2原因特定部632を用いるかを選択するためのフローチャートである。
すなわち、構成要素抽出方法決定部62が図11の処理により、第1原因特定部631を用いるか、第1原因特定部631及び第2原因特定部632の両方を用いるかを選択する。この場合に後述の故障フロー数に関する閾値D1が故障フロー数閾値格納部733に格納されていて、同様に後述の性能劣化フロー数に関する閾値D2が性能劣化フロー数閾値格納部734に格納されていて、本処理では当該各閾値を用いる。
構成要素抽出方法決定部62は、各フローについて図11の処理を実行する。まず、当該フローが性能劣化グループに分類されているときは(S21のYes)、構成要素抽出方法決定部62は、性能劣化グループに分類されたフローの数である性能劣化フロー数を、その閾値である閾値D1以上であるか否か判断する(S22)。性能劣化フロー数が閾値D1以上であるときは(S22のYes)、構成要素抽出方法決定部62は、第1原因特定部631を使用する(S23)。性能劣化フロー数が閾値D1未満であるときは(S22のNo)、構成要素抽出方法決定部62は、第1原因特定部631を使用した後(S24)、第2原因特定部632を使用する(S25)。
一方、該当するフローが故障グループに分類されているときは(S26のYes)、構成要素抽出方法決定部62は、故障グループに分類されたフローの数である故障フロー数を、その閾値である閾値D2以上であるか否か判断する(S27)。故障フロー数が閾値D2以上であるときは(S27のYes)、構成要素抽出方法決定部62は、第1原因特定部631を使用する(S23)。故障フロー数が閾値D2未満であるときは(S27のNo)、構成要素抽出方法決定部62は、第1原因特定部631を使用した後(S24)、第2原因特定部632を使用する(S25)。
以上のように、第1原因特定部631又は第2原因特定部632が使用されて、前記のとおり構成要素となる物理設備又はソフトウェアが抽出されると、その抽出した構成要素をサービス影響の原因の特定個所と推定する(S28)。
(サービス影響の原因推定の変形例)
図12〜図14を参照して前記したサービス影響の原因推定の処理の変形例について説明する。
図12は、当該変形例を説明する説明図である。図12(a)には、正常グループと故障グループ(性能劣化グループ)のフローモデルの例を示している。本例では、まず、構成要素抽出部63が、前記の性能劣化グループ内又は前記の故障グループ内で、各フローのフローモデル同士を比較し、共通する物理設備又はソフトウェアの数をそれぞれカウントする。図12(b)には、そのカウント結果の例を示している。例えば、ソフトウェアIDが“a1”のアプリケーションソフト22についてはカウント数が“21”、物理設備IDが“vs3”のスイッチ12についてはカウント数が“17”であるという例を示している。
その後、構成要素抽出部63は、このような比較をした性能劣化グループ又は故障グループと、正常グループとの間で各フローのフローモデル同士を比較し、共通する物理設備又はソフトウェアについては、図12(c)に例示するようにカウントの数を0とする。図12(c)の例では、ソフトウェアIDが“a1”のアプリケーションソフト22については、性能劣化グループ又は故障グループと、正常グループとの間で共通していたのでカウント数が“21”から“0”に変更され、物理設備IDが“vs3”のスイッチ12については、性能劣化グループ又は故障グループと、正常グループとの間で共通していなかったので、カウント数が“17”のままであるという例を示している(いずれも「合計」)。
そして、構成要素抽出部63は、最終的に前記のカウントの数が最大である物理設備又はソフトウェアを抽出し、当該抽出した物理設備又はソフトウェアをサービス影響の原因であるものとして推定する。図12(c)の例では、カウントの数が最大である物理設備又はソフトウェアは、物理設備IDが“s3”のスイッチ12のカウント数“45”であり、これが「最終結果」となる。そのため、構成要素抽出部63は、物理設備IDが“s3”のスイッチ12が、サービス影響の原因であるものとして推定する。
このような処理において、最終的に前記のカウントの数が最大である物理設備又はソフトウェアを抽出し、その抽出した物理設備又はソフトウェアが複数個になる場合もある。
この場合に、抽出した複数個の物理設備又はソフトウェアについて説明する。まず、図1を参照して前記したように、通信ネットワーク10上の各部にID(物理設備ID、サーバID、ソフトウェアID)が付されている。
これに対して、物理設備ID及びソフトウェアIDとして、当該IDが示す物理設備又はソフトウェアと、当該物理設備又はソフトウェアと親子関係又は接続関係にある他の物理設備、ソフトウェア、又はサーバとの相関関係を示すものを用いるようにする。
図13は、図1の例において、物理設備ID、ソフトウェアIDとして、このような相関関係のあるIDを用いた例を示す図である。例えば、物理設備IDが“l1:sv01:s1”であるリンク13において、物理設備IDの“l1”の部分は当該リンク13自体を示しており、これに続く“sv01”の部分は当該スイッチ12と接続関係にあるサーバ11のIDを示し、同様に、“s1”の部分は当該スイッチ12と接続関係にあるスイッチ12のIDを示している。
このような物理設備ID及びソフトウェアIDを用いることで、当該IDから当該IDと親子関係又は接続関係にある他の物理設備、ソフトウェア、又はサーバを認識することができる。
図14は、図13のIDを用いて実行する処理の説明図である。この例では、図12の処理で求めた今回の結果が、物理設備ID又はソフトウェアID(の図1の例に相当する部分だけを図14に示している)が、それぞれ“b2”、“vs2”、“l2”の場合の物理設備又はソフトウェアのカウントの数がいずれも“25”である。すなわち、前記のサービス影響の原因である物理設備又はソフトウェアが複数推定された場合である。この場合に、構成要素抽出部63は、今回の当該複数の物理設備又はソフトウェア同士、又は、前回行われた処理で推定された物理設備又はソフトウェアと今回行われた処理で推定された物理設備又はソフトウェアとについて前記の親子関係又は接続関係がある場合に、今回行われて複数推定された物理設備又はソフトウェアのカウントの数に優先度をつける。
図14の例では、ソフトウェアIDが“b2(図13では、“b2:vs2”)”のアプリケーションソフト22と、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21との間には親子関係(前者が子、後者が親)があるため、親であるソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21の優先度を+1だけ上げる。また、物理設備IDが“l2(図13では、“l2:sv02:s1”)”のリンク13の前回の結果と、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21の今回の結果との間には直接的な接続関係があるため、物理設備IDが“l2(図13では、“l2:sv02:s1”)”のリンク13の影響が波及したと推定し、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21の今回の結果の優先度を−0.5下げる。
物理設備IDが“s3(図13では、“s3:l4:l5”)”のスイッチ12の前回の結果と、今回の結果との間には、親子関係又は接続関係がないため、当該スイッチ12が単独で故障していると推定し、+1だけ優先度を上げる。
これらの結果、ソフトウェアIDが“b2(図13では、“b2:vs2”)”のアプリケーションソフト22の最終結果は“25”、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21の最終結果は“25.5”、物理設備IDが“s3(図13では、“s3:l4:l5”)”のスイッチ12の最終結果は“26”となる。
以上の処理により、物理設備及びソフトウェアの探索順序は、最終結果の値が大きい物理設備IDが“s3(図13では、“s3:l4:l5)”のスイッチ12、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2)”の仮想スイッチ21、ソフトウェアIDが“b2(図13では、“b2:vs2”)”のアプリケーションソフト22の順番となる。
以上説明した本実施形態によれば、ソフトウェアの故障や劣化も検出でき、作業が簡易で、装置規模が比較的小規模であり、サービス品質の劣化が生じている原因箇所の推定もできるサービス影響原因推定装置1、サービス影響原因推定プログラム45、及びサービス影響原因推定方法を提供することができる。
1 サービス影響原因推定装置
45 サービス影響原因推定プログラム
50 記憶部
60 処理部(推定部)
61 モデル生成部
70 管理部(推定部)
631 第1原因特定部
632 第2原因特定部
721 グループ構成部
741 試験パケット生成部
742 リスト生成部
743 パケット送信部
744 パケット受信部
745 リプライ格納部

Claims (12)

  1. 通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアのうち少なくとも1つ以上を用いて構成されるフローについて、当該フローを識別するフローIDと、前記物理設備を識別する物理設備ID、前記物理設備であるサーバを識別するサーバID、及び当該各サーバで用いられる前記ソフトウェアを識別するソフトウェアIDとを関連付けて記憶する記憶部と、
    前記記憶部を参照して、前記各フローについてデータが流れる前記物理設備及びソフトウェアの前記IDと当該データが流れる順番を特定するモデルであるフローモデルを生成するモデル生成部と、
    前記フローモデル同士を比較して当該比較結果から前記通信ネットワーク上でのサービス影響の原因となる前記物理設備又は前記ソフトウェアを推定する推定部と、
    を備えたことを特徴とするサービス影響原因推定装置。
  2. 前記推定部は、
    前記ソフトウェアIDを格納できるリストを生成するリスト生成部と、
    前記リストを備えた試験パケットを生成する試験パケット生成部と、
    前記試験パケットを前記フローごとに所定時間内に所定数送信するパケット送信部と、
    前記試験パケットが通過した前記ソフトウェアのIDを前記リストに格納した当該試験パケットのリプライパケットを受信するパケット受信部と、
    前記受信したリプライパケットを格納するリプライ格納部と、
    を備えたことを特徴とする請求項1に記載のサービス影響原因推定装置。
  3. 前記リプライ格納部に格納されている前記リプライパケットの受信についての計測結果に基づいて前記各フローを正常グループと異常グループとに分類するグループ構成部を備えたことを特徴とする請求項2に記載のサービス影響原因推定装置。
  4. 前記グループ構成部は、前記計測結果としてのレスポンスタイム及び前記計測結果としてのリプライのカウント数がそれぞれ各所定値の範囲内にあり、かつ、前記記憶部から取得したソフトウェアIDと前記リプライパケットのリストに格納されたソフトウェアIDとを比較し、全てのソフトウェアIDが一致した前記フローを正常グループに分類し、それ以外の前記フローを異常グループに分類することを特徴とする請求項3に記載のサービス影響原因推定装置。
  5. 前記グループ構成部は、前記異常グループについて、前記レスポンスタイムの実測値及び前記カウント数がそれぞれ各所定値の範囲内にあるとき、又は、記憶部から取得したソフトウェアIDと前記リプライパケットのリストに格納されたソフトウェアIDとを比較し、少なくとも1つ以上のソフトウェアIDが一致しない前記フローを故障グループに分類し、それ以外の前記フローを性能劣化グループに分類することを特徴とする請求項4に記載のサービス影響原因推定装置。
  6. 前記グループ構成部で前記レスポンスタイムに用いる前記所定値は、所定時間内に所定の値だけ送信された前記試験パケットに対する前記レスポンスタイムについて平均値をとる又は統計的手法を用いることで求めるものであり、前記カウント数に用いる前記所定値は、所定時間内に所定の値だけ送信された前記試験パケットに対する前記カウント数の平均値をとる又は統計的手法を用いることで求めるものであることを特徴とする請求項4又は5に記載のサービス影響原因推定装置。
  7. 前記推定部は、
    前記性能劣化グループ内又は前記故障グループ内で前記各フローのフローモデル同士を比較し、共通する前記物理設備又は前記ソフトウェアを抽出し、当該抽出した物理設備又はソフトウェアを前記サービス影響の原因として推定する第1の原因特定部と、
    前記性能劣化グループ又は前記故障グループと、前記正常グループとの間で前記各フローのフローモデル同士を比較して、共通する前記物理設備又は前記ソフトウェアは前記サービス影響の原因の候補から除外し、残った前記物理設備又は前記ソフトウェアを抽出して、当該抽出した前記物理設備又は前記ソフトウェアを前記サービス影響の原因として推定する第2の原因特定部と、
    を備えたこと特徴とする請求項5に記載のサービス影響原因推定装置。
  8. 前記推定部は、前記故障又は性能劣化グループに割り振られたフローの数が、同じグループについての所定の閾値以上の場合は前記第1の原因特定部を用い、前記所定の閾値未満の場合は前記第1の原因特定部を用いた後、前記第2の原因特定部を用いて前記サービス影響の原因の推定を行うことを特徴とする請求項7に記載のサービス影響原因推定装置。
  9. 前記推定部は、前記性能劣化グループ内又は前記故障グループ内で前記各フローのフローモデル同士を比較し、共通する前記物理設備又は前記ソフトウェアの数をそれぞれカウントし、その後、当該比較をした前記性能劣化グループ又は前記故障グループと前記正常グループとの間で前記各フローのフローモデル同士を比較し、共通する前記物理設備又は前記ソフトウェアについては前記カウントの数を0とし、最終的に前記カウントの数が最大である前記物理設備又は前記ソフトウェアを抽出し、当該抽出した前記物理設備又は前記ソフトウェアを前記サービス影響の原因であるものとして推定すること特徴とする請求項5に記載のサービス影響原因推定装置。
  10. 前記記憶部は、前記物理設備ID及び前記ソフトウェアIDとして、当該IDが示す物理設備又はソフトウェアと、当該物理設備又はソフトウェアと親子関係又は接続関係にある他の物理設備、ソフトウェア、又はサーバとの相関関係を示すものであり、
    前記推定部は、前記サービス影響の原因である前記物理設備又は前記ソフトウェアが複数推定された場合に、当該複数の物理設備又はソフトウェア同士、又は、前回行われた前記推定で推定された前記物理設備又は前記ソフトウェアと今回行われた前記推定で推定された前記物理設備又は前記ソフトウェアとについて前記親子関係又は接続関係がある場合に、今回行われて複数推定された前記物理設備又は前記ソフトウェアの前記カウントの数に優先度をつけること特徴とする請求項9に記載のサービス影響原因推定装置。
  11. 通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアのうち少なくとも1つ以上を用いて構成されるフローについて、当該フローを識別するフローIDと、前記物理設備を識別する物理設備ID、前記物理設備であるサーバを識別するサーバID、及び当該各サーバで用いられる前記ソフトウェアを識別するソフトウェアIDとを関連付けて記憶する記憶部を参照して、前記各フローについてデータが流れる前記物理設備及びソフトウェアの前記IDと当該データが流れる順番を特定するモデルであるフローモデルを生成するモデル生成処理と、
    前記フローモデル同士を比較して当該比較結果から前記通信ネットワーク上でのサービス影響の原因となる前記物理設備又は前記ソフトウェアを推定する推定処理と、
    をコンピュータに実行させることを特徴とするコンピュータに読み取り可能なサービス影響原因推定プログラム。
  12. 通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアのうち少なくとも1つ以上を用いて構成されるフローについて、当該フローを識別するフローIDと、前記物理設備を識別する物理設備ID、前記物理設備であるサーバを識別するサーバID、及び当該各サーバで用いられる前記ソフトウェアを識別するソフトウェアIDとを関連付けて記憶する記憶部を参照して、前記各フローについてデータが流れる前記物理設備及びソフトウェアの前記IDと当該データが流れる順番を特定するモデルであるフローモデルを生成するモデル生成工程と、
    前記フローモデル同士を比較して当該比較結果から前記通信ネットワーク上でのサービス影響の原因となる前記物理設備又は前記ソフトウェアを推定する推定工程と、
    を備えたことを特徴とするサービス影響原因推定方法。
JP2015022516A 2015-02-06 2015-02-06 サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法 Active JP6310405B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015022516A JP6310405B2 (ja) 2015-02-06 2015-02-06 サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015022516A JP6310405B2 (ja) 2015-02-06 2015-02-06 サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法

Publications (2)

Publication Number Publication Date
JP2016146555A true JP2016146555A (ja) 2016-08-12
JP6310405B2 JP6310405B2 (ja) 2018-04-11

Family

ID=56686527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015022516A Active JP6310405B2 (ja) 2015-02-06 2015-02-06 サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法

Country Status (1)

Country Link
JP (1) JP6310405B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020162207A1 (ja) * 2019-02-07 2020-08-13 日本電信電話株式会社 通信システム、および、導通確認方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008023570A1 (fr) * 2006-08-22 2008-02-28 Nec Corporation Procédé d'estimation d'une partie à qualité dégradée sur un réseau dans un système de réseau de communication
WO2014003889A1 (en) * 2012-06-27 2014-01-03 Google Inc. Deterministic network failure detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008023570A1 (fr) * 2006-08-22 2008-02-28 Nec Corporation Procédé d'estimation d'une partie à qualité dégradée sur un réseau dans un système de réseau de communication
WO2014003889A1 (en) * 2012-06-27 2014-01-03 Google Inc. Deterministic network failure detection

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020162207A1 (ja) * 2019-02-07 2020-08-13 日本電信電話株式会社 通信システム、および、導通確認方法
JP2020129715A (ja) * 2019-02-07 2020-08-27 日本電信電話株式会社 通信システム、および、導通確認方法
JP7188156B2 (ja) 2019-02-07 2022-12-13 日本電信電話株式会社 通信システム、および、導通確認方法

Also Published As

Publication number Publication date
JP6310405B2 (ja) 2018-04-11

Similar Documents

Publication Publication Date Title
JP5767617B2 (ja) ネットワーク障害検出システムおよびネットワーク障害検出装置
JP5538652B2 (ja) ネットワークの状態監視方式
US8245079B2 (en) Correlation of network alarm messages based on alarm time
US20110270957A1 (en) Method and system for logging trace events of a network device
JP5120784B2 (ja) 通信ネットワークシステムにおけるネットワーク上の品質劣化箇所を推定する方法
US10033592B2 (en) Method and system for monitoring network link and storage medium therefor
CN112311580B (zh) 报文传输路径确定方法、装置及系统、计算机存储介质
CN108270643B (zh) Leaf-Spine交换机之间的链路的探测方法及设备
JP2011146982A (ja) コンピュータシステム、及びコンピュータシステムの監視方法
JP4412031B2 (ja) ネットワーク監視システム及びその方法、プログラム
US10708155B2 (en) Systems and methods for managing network operations
JP2018147172A (ja) 異常検知装置、異常検知方法及びプログラム
CN110224883A (zh) 一种应用于电信承载网的灰色故障诊断方法
CN102684902B (zh) 基于探针预测的网络故障定位方法
CN109728981A (zh) 一种云平台故障监测方法及装置
CN111988170B (zh) 一种终端故障定位方法及装置
JP5842641B2 (ja) 通信システム、および生成装置
CN107566036A (zh) 自动检测通信中的错误并且自动确定该错误的源
JP6378653B2 (ja) サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法
CN104950832B (zh) 钢铁厂控制系统
JP6310405B2 (ja) サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法
JP4464256B2 (ja) ネットワーク上位監視装置
CN114205263B (zh) 用于Ether CAT网络的通信方法、系统和存储介质
JP5687972B2 (ja) 障害リンク特定システムおよびその監視経路設定方法
JP2019201342A (ja) 検証パケット生成装置、検証システム、および検証パケット生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180316

R150 Certificate of patent or registration of utility model

Ref document number: 6310405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150