JP2013026841A - 障害検出装置、障害検出方法及び障害検出プログラム - Google Patents

障害検出装置、障害検出方法及び障害検出プログラム Download PDF

Info

Publication number
JP2013026841A
JP2013026841A JP2011160009A JP2011160009A JP2013026841A JP 2013026841 A JP2013026841 A JP 2013026841A JP 2011160009 A JP2011160009 A JP 2011160009A JP 2011160009 A JP2011160009 A JP 2011160009A JP 2013026841 A JP2013026841 A JP 2013026841A
Authority
JP
Japan
Prior art keywords
failure
error
errors
occurrence
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011160009A
Other languages
English (en)
Other versions
JP5624954B2 (ja
Inventor
Kimiyoshi Yamazaki
公義 山崎
Koichi Kawahara
浩一 川原
Takaharu Omi
貴晴 近江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Comware Corp
Original Assignee
NTT Comware Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Comware Corp filed Critical NTT Comware Corp
Priority to JP2011160009A priority Critical patent/JP5624954B2/ja
Publication of JP2013026841A publication Critical patent/JP2013026841A/ja
Application granted granted Critical
Publication of JP5624954B2 publication Critical patent/JP5624954B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】個々のSIPパケットを解析することなくSIP信号網における障害箇所を正確に特定する。
【解決手段】SIP信号の統計情報を取得し、該取得したSIP信号の統計情報に基づいて、SIPサーバ間の経路毎の発生エラー数を推定する発生エラー数推定部303と、推定された経路毎の発生エラー数に基づいて、障害発生を検出する障害発生検出部304と、を備える。
【選択図】図4

Description

本発明は、障害検出装置、障害検出方法及び障害検出プログラムに関する。
近年、通信キャリア網を中心として、IP(Internet Protocol)電話の利用が増加している。IP電話サービスにおけるユーザ間の発呼及び着呼はSIP(Session Initiation Protocol)を利用して実現されていることが多く、呼の中継を担うSIPサーバの役割が重要である。また、多くの通信キャリアは、一般のユーザはもとより、他の通信キャリアとも相互接続を行っており、SLA(Service Level Agreement)に基づき、SIPシグナリングの伝搬正常を維持しつつ、異常時は劣化要因箇所を早期に特定し、サービスを回復することが非常に重要になってきている。
通信キャリアなどIP電話サービスを提供する広域に分散配置されたSIPサーバの障害監視に関しては、SIPサーバに流入又は流出する全SIPパケットをキャプチャーし、各SIPサーバ間のトラフィックをリアルタイムに監視するシステムが知られている(非特許文献1)。
また、特許文献1には、各SIPサーバが送受信したSIPメッセージの数に基づいて、サーバ障害を検出し、端末が接続するSIPサーバを基点としてユーザ側/非ユーザ側のどちらで障害が発生しているかを判断し、SIPサーバ間の論理障害を検出する監視装置が開示されている。
特開2009−239343号公報
NetCall Monitor、http://www.softfront.co.jp/products/applience/netcall/netcall_monitor.html
しかしながら、非特許文献1に示されるシステムは、複数のSIPサーバから構成されるSIP信号網における障害を監視する際に、SIPパケットのキャプチャーデータを個々に確認する必要がある。そのため、今後加入者の増加によりSIPパケットが増加すると、非特許文献1に示されるシステムは解析負荷が高くなるという問題がある。
その問題に対し、特許文献1では、個々のSIPパケットではなく、各SIPサーバが送信および受信するSIP信号の数に基づいてSIP信号網における障害を監視することにより解決を図っている。
しかしながら、特許文献1に示されている監視装置では、SIP信号が正常に転送されなかった(エラーが発生した)サーバを障害箇所として単純に判断しているため、障害等により異常なSIP信号が転送される場合については障害箇所を正確に特定することができないという問題があった。また特許文献1に示されている監視装置では、端末間で3台以上のSIPサーバを経由する場合に、障害箇所を特定することができないという問題があった。
そこで本発明は、上記問題に鑑みてなされたものであり、個々のSIPパケットを解析することなくSIP信号網における障害箇所を正確に特定することを可能とする障害検出装置、障害検出方法及び障害検出プログラムを提供することを課題とする。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、SIP信号の通信に関する統計情報に基づいて、SIPサーバ間の経路毎の発生エラー数を推定する発生エラー数推定部と、前記推定された発生エラーを送信又は受信している経路数に基づいて、障害箇所を特定する障害箇所特定部と、を備えることを特徴とする障害検出装置である。
また、本発明の一態様は、上記の障害検出装置において、前記発生エラー数推定部は、あるSIPサーバが経路毎に受信及び送信したエラーの数と、該SIPサーバが経路毎に受信した正常呼の数とに基づいて、該SIPサーバが経路毎に送信した転送エラー数を算出し、該算出した転送エラー数と該SIPサーバが経路毎に送信したエラーの数とに基づいて、該SIPサーバが送信する前記発生エラー数を経路毎に推定することを特徴とする。
また、本発明の一態様は、上記の障害検出装置において、前記障害箇所特定部は、前記発生エラーを送信又は受信している経路数と該発生エラーの経路毎の送信数又は受信数とに基づいて、障害箇所を特定することを特徴とする。
また、本発明の一態様は、上記の障害検出装置において、前記推定された経路毎の発生エラー数に基づいて、SIP信号網における障害発生を検出する障害発生検出部を更に備えることを特徴とする。
また、本発明の一態様は、上記の障害検出装置において、前記障害発生検出部は、前記発生エラーに関連する項目毎に過去の発生エラー数を取得し、前記障害発生検出部による障害発生の検出は、前記項目毎に現時刻の発生エラー数を集計し、該集計した項目毎の発生エラー数を対応する前記項目毎の過去の発生エラー数と比較することにより行われることを特徴とする。
また、本発明の一態様は、障害検出装置が実行する障害検出方法であって、SIP信号の通信に関する統計情報に基づいて、SIPサーバ間の経路毎の発生エラー数を推定する発生エラー数推定手順と、前記推定された経路毎の発生エラー数に基づいて、SIP信号網における障害発生を検出する障害発生検出手順と、を有することを特徴とする障害検出方法である。
また、本発明の一態様は、コンピュータに、SIP信号の通信に関する統計情報に基づいて、SIPサーバ間の経路毎の発生エラー数を推定する発生エラー数推定ステップと、前記推定された経路毎の発生エラー数に基づいて、SIP信号網における障害発生を検出する障害発生検出ステップと、を実行させることを特徴とする障害検出プログラムである。
本発明によれば、個々のSIPパケットを解析することなくSIP信号網における障害箇所を正確に特定することができる。
エラー、発生エラー及び転送エラーを説明するための図である。 本実施形態における障害箇所検出システムの概略ブロック図である。 正常呼の統計情報とエラー時の統計情報のデータ構造の一例である。 本実施形態における障害検出装置の概略ブロック図である。 SIPサーバが経路iに対して送信した転送エラーの数T(i)の算出方法を説明するための図である。 発生エラー数推定部により抽出されたSIPサーバXに関連する統計情報の一例である。 図6の統計情報から着番号帯が「03」であるものが抽出された後の統計情報である。 図7の統計情報からエラー番号が「400」であるものが抽出された後の統計情報である。 発生エラーが推定された後の統計情報の一例である。 図9の例において送信側アドレス/エラー番号の組み合わせ毎に集計された発生エラー数を示した図である。 統計情報記憶部に記憶されている過去一定期間の平均発生エラー数の一例である。 統計情報から経路毎に分計された後の発生エラー数の一例である。 本実施形態における障害検出装置の処理全体の流れを示すフローチャートである。 図13のステップS103における発生エラー数推定部の処理の詳細を示すフローチャートである。 図13のステップS104における障害発生検出部の処理の詳細を示すフローチャートである。 図13のステップS105における障害箇所特定部の処理の詳細を示すフローチャートである。
以下、本発明の実施形態について、図面を参照して詳細に説明する。まず、本実施形態で使う単語の意味について説明する。本実施形態では、「呼」はSIPのINVITEメッセージ(以後、INVITEとも称す)を意味する。また、「着番号帯」は、呼の着信先を表す番号における特定の上位桁分を意味する。
図1は、エラー、発生エラー及び転送エラーを説明するための図である。同図において、端末10と、SIPサーバ20と、SIPサーバ30と、SIPサーバ40とが示されている。端末10は、INVITEをSIPサーバ20へ送信する。SIPサーバ20は、端末10からINVITEを受信すると、受信したINVITEをSIPサーバ30へ転送する。SIPサーバ30は、SIPサーバ20からINVITEを受信すると、受信したINVITEをSIPサーバ40へ転送する。
SIPサーバ40がSIPサーバ30からINVITEを受信した時に、SIPサーバ40に障害が発生していた場合、SIPサーバ40はエラーメッセージをSIPサーバ30に送信する。SIPサーバ30は、SIPサーバ40からエラーメッセージを受信すると、それをSIPサーバ20へ転送する。SIPサーバ20は、SIPサーバ30からエラーメッセージを受信すると、それを端末10へ転送する。
すなわち、SIPサーバ40で発生したエラーは、INVITEが経由してきたSIPサーバを辿って端末10まで転送される。このとき、発生元のSIPサーバ40が送信するエラーメッセージを「発生エラー」、途中のSIPサーバ(20、30)によって転送されるエラーメッセージを「転送エラー」と呼ぶ。また、単に「エラー」と呼ぶ場合には、発生エラーと転送エラーとを包含するエラーメッセージを意味する。
「経路」は、呼やエラーが送信/転送される通信経路を意味する。「送信側サーバ/受信側サーバ」は、ある経路における、呼やエラーの送信側/受信側それぞれのSIPサーバを意味する。また、ある経路において呼やエラーを送信/受信する装置のIPアドレスを、「送信側アドレス」及び「受信側アドレス」と称する。
一般にSIP信号では、エラーの発生メカニズムを大きく2つに分類できる。ひとつは、呼を受信したSIPサーバに起因するエラーである「サーバ型エラー」と称する。もうひとつは、呼を送信したSIPサーバに起因するエラーである「クライアント型エラー」と称する。具体的には、サーバ型エラーは、障害等が発生しているSIPサーバが受信した正常な呼に応答してエラーを送信する場合のエラーである。一方、クライアント型エラーは、あるSIPサーバが異常なINVITEを送信したために、送信先の正常なSIPサーバからエラーが返ってくる場合のエラーである。
図2は、本実施形態における障害箇所検出システム1の概略ブロック図である。障害箇所検出システム1は、SIP信号網100と、SIP信号収集装置200と、障害検出装置300とを備える。
SIP信号網100は、障害箇所の切り分け対象となるネットワークである。
SIP信号網100は、SIPサーバ101、…、108までの8台のSIPサーバを備える。各SIPサーバは、他のSIPサーバと接続されている。例えば、SIPサーバ101は、SIPサーバ102、104、105及び107と接続されている。
各SIPサーバは、一例として以下の処理を行う。各SIPサーバは、着番号帯毎に転送先が設定された呼転送情報を自SIPサーバが備える記憶部に記憶する。各SIPサーバは、他のSIPサーバから呼を受信すると、呼転送情報を参照し、受信した呼の着番号帯に合致する転送先に呼を転送する。またエラーが発生した場合には、各SIPサーバは、呼が転送されてきた経路を遡ってエラーを転送する。各SIPサーバは、自SIPサーバにおける呼やエラーの転送処理を全てSIPログに記録する。
なお、本実施形態では、SIP信号網100は8台のSIPサーバを備えるとしたが、これに限らず、2台以上のSIPサーバを備えていればよい。
SIP信号収集装置200は、一例として以下の処理を行う。SIP信号収集装置200は、SIP信号網を構成する全てのSIPサーバ(101〜108)と通信ネットワークにより接続しており、定期的に各SIPサーバからSIPログを収集する。SIP信号収集装置200は、収集したSIPログの情報を基に、SIPサーバ毎の単位時間毎の通信に関する統計情報を生成する。ここで、通信に関する統計情報とは、正常に応答している呼の送受信数(以下、正常呼数と称す)、呼の転送途中でエラーが発生している呼の送受信数、エラーメッセージの送受信数(以下、エラー数と称す)などを意味する。
本実施形態におけるSIP信号収集装置200は、正常呼数とエラー数とを集計する。具体的には、SIP信号収集装置200は、正常呼について「経路」/「着番号帯」の組み合わせ毎に送受信数を集計する。一方、SIP信号収集装置200は、エラーについて「経路」/「着番号帯」/「エラー番号」の組み合わせ毎に送受信数を集計する。そして、SIP信号収集装置200は、生成した統計情報を、障害検出装置300に送信する。
障害検出装置300は、SIP信号の統計情報を基に、障害箇所を特定する。障害検出装置300は、SIP信号収集装置200から受信したSIP信号の統計情報を基に、発生エラー数の推定、障害発生の検出、障害箇所の特定を実施する。また、障害検出装置300は、障害発生の検出のために、過去一定期間のSIP信号の統計情報を保持する。
ここで、本実施形態における通信に関する統計情報のデータ構造の一例について説明する。統計情報は、正常呼の数とエラーの数をそれぞれ集計する2つの情報に大別され、それらは図3のデータ構造で表される。
図3は、正常呼の統計情報とエラーの統計情報のデータ構造の一例である。図3(A)は、正常呼の統計情報のデータ構造の一例である。図3(A)において、正常呼の統計情報のデータは、開始時刻、終了時刻、送信側アドレス、受信側アドレス、着番号帯及び呼数の組で表される。
図3(B)は、エラーの統計情報のデータ構造の一例である。図3(B)において、エラー時の統計情報のデータは、開始時刻、終了時刻、送信側アドレス、受信側アドレス、着番号帯、エラー番号及びエラー数の組で表される。
ここで、統計情報は、単位時間毎にSIPログ収集装置200で生成されるが、図3中の「開始時刻」/「終了時刻」は、統計情報が生成される単位時間の開始時刻と終了時刻を表す。
図3(A)に示された正常呼の統計情報は、単位時間毎、経路毎、着番号帯毎に、呼数を集計したものである。このとき、エラーとなった呼については、集計の対象外とする。図3(B)に示されたエラーの統計情報は、単位時間毎、経路毎、着番号帯毎、エラー番号毎に、エラーの数を集計したものである。なお、エラーの送受信の向きは、呼の送受信の方向に対して逆向きとなる。
なお、このデータ構造は後述する具体的な処理方法の説明で利用するが、必要に応じて一部の列を省略するとともに、「呼数」と「エラー数」については、特定のグループ化条件においてそれぞれを集計した数として表記するものとする。また「エラー数」について、SIPログ収集装置200から受信した時点では、転送エラーと発生エラーの合計数となっているが、障害検出装置300における発生エラー数推定処理を実施した以降については、推定された発生エラーの数として表記するものとする。
図4は、本実施形態における障害検出装置300の概略ブロック図である。障害検出装置300は、統計情報受信部301と、統計情報記憶部302と、発生エラー数推定部303と、障害発生検出部304と、障害箇所特定部305とを備える。
統計情報受信部301は、SIPログ収集装置200から統計情報を受信し、受信した統計情報を統計情報記憶部302に格納する。また、統計情報受信部301は、受信した統計情報を発生エラー数推定部303に出力する。
統計情報記憶部302は、SIPログ収集装置200から受信したSIP信号の統計情報を保持する。また、統計情報記憶部302は、発生エラー数推定部303において算出した過去の発生エラー数を示す過去発生エラー数情報を、障害発生検出部304にて必要とされる一定期間分、保持する。
発生エラー数推定部303は、統計情報受信部301から受信した統計情報に基づいて、各SIPサーバにおける発生エラー数の推定(以下、発生エラー数推定処理とも称す)を行う。発生エラー数推定処理の詳細については、後述する。
発生エラー数推定部303は、発生エラー数を、「経路」/「エラー番号」/「着番号帯」の組み合わせ毎に算出する。発生エラー数推定部303は、算出した発生エラー数を示す発生エラー数情報を統計情報記憶部302に格納されている過去の発生エラー数情報に追記する。また、発生エラー数推定部303は、発生エラー数情報を障害発生検出部304に出力する。
障害発生検出部304は、発生エラー数推定部303から入力された発生エラー数情報が示す発生エラー数を、「送信側アドレス」/「エラー番号」の組み合わせ又は「受信側アドレス」/「エラー番号」の組み合わせ毎に集計する。そして、障害発生検出部304は、集計した発生エラー数を統計情報記憶部302に保持されている過去一定期間の発生エラー数の平均(以後、平均発生エラー数と称する)と比較することにより、障害の発生の検出(以下、障害発生検出処理とも称す)を行う。障害発生検出処理の詳細については、後述する。
障害発生検出部304は、検出により得られた障害の発生を示す障害発生情報を障害箇所特定部305に出力する。これにより、障害発生として検出されたものについては、障害箇所特定部305により障害箇所が特定される。
障害箇所特定部305は、障害発生検出部304にて障害発生が検出されたものについて、該発生エラーを送信(又は受信)している経路と該発生エラーの送信数(又は受信数)とに基づいて、障害箇所の特定(以下、障害箇所特定処理とも称す)を行う。障害箇所特定部305における障害箇所の特定処理の詳細は、後述する。障害箇所特定部305は、特定した障害箇所を示す障害箇所情報を自装置の外部へ出力する。
<発生エラー数推定処理の原理>
続いて、発生エラー数推定処理の原理について説明する。以降、説明のため、下記の定義を用いる。なお、正常呼とエラーの送受信の向きは逆である。あるSIPサーバXが経路iから受信した正常呼の数がNI(i)である。また、あるSIPサーバXが経路iから受信したエラーの数がEI(i)である。あるSIPサーバXが経路iに対して送信したエラーの数がEO(i)である。また、あるSIPサーバXが経路iに対して送信したエラーのうち、転送エラーの数がT(i)である。また、あるSIPサーバXが経路iに対して送信したエラーのうち、発生エラーの数がG(i)である。上記のうち、正常呼の数NI(i)、受信したエラーの数EI(i)、送信したエラーの数EO(i)については、SIPログ収集装置200から受信する統計情報に含まれる。
発生エラー数推定部303は、あるSIPサーバXが経路iに対して送信した転送エラーの数T(i)は、あるSIPサーバXが予め決められた単位時間あたりに全経路から受信したエラーの合計数に、そのSIPサーバXがその単位時間あたりに全経路から受信した正常呼の合計数に対するそのSIPサーバXがその単位時間あたりに経路iから受信した正常呼の数の割合を乗じることにより算出する。
具体的には、発生エラー数推定部303は、あるSIPサーバXが経路iに対して送信した転送エラーの数T(i)を、経路毎に、以下の式(1)に従って算出する。
Figure 2013026841
ここで、ΣEI(X)及びΣNI(X)は、それぞれSIPサーバXが全経路から受信したエラーの合計数及びSIPサーバXが全経路から受信した正常呼の合計数である。
なお、式(1)は確率的に確からしい値として算出しているため、統計情報によっては式(1)の計算結果において転送エラーの数が送信エラーの数より大きくなる(すなわちT(i)>EO(i))となる経路が発生しうる。この場合には、発生エラー数推定部303は、該経路においてT(i)の値をEO(i)とする。
このとき、受信したエラーの合計数と転送エラーの合計数に差分が発生するため、発生エラー数推定部303は、その差分をT(i)がEO(i)より小さい経路に対して分配する。
具体的には、例えば、発生エラー数推定部303は、各経路に分配される転送エラーの数をT´(i)とすると、T´(i)を以下の式に従って、算出する。
Figure 2013026841
ここで、ΣNI(y)は、SIPサーバXにおけるT(i)がEO(i)より小さい経路における正常呼の合計数である。発生エラー数推定部303は、この式で求めたT´(i)をT(i)に加算したものを、新たにT(i)とする。また、これによってT(i)がEO(i)より大きい経路が再度発生する場合には、発生エラー数推定部303は、T(i)がEO(i)より大きい経路が全てなくなる(ΣT(x)=ΣEI(x)となる)まで前述の処理を繰り返す。
続いて、発生エラーの数G(i)は、送信エラーの数EO(i)から転送エラーの数T(i)を引いたものであるから、発生エラー数推定部303は、経路毎に、発生エラーの数G(i)を以下の式(3)に従って算出する。
Figure 2013026841
以上、発生エラー数推定部303は、あるSIPサーバが経路毎に受信したエラーの数と、該SIPサーバが経路毎に受信した正常呼の数とに基づいて、該SIPサーバが経路毎に送信した転送エラー数を算出し、該算出した転送エラー数と該SIPサーバが経路毎に送信したエラーの数とに基づいて、該SIPサーバが送信する発生エラー数を推定する。
続いて、上記、発生エラー数推定部303による転送エラーの数T(i)の算出方法を、図5の例を用いて説明する。
図5は、SIPサーバ54が経路iに対して送信した転送エラーの数T(i)の算出方法を説明するための図である。同図において、SIPサーバ51、52、53、54、55、56及び57の7つのSIPサーバが示されている。ここで、実線は正常呼を表し、破線はエラーを表す。以後、SIPサーバXからSIPサーバZへの経路を経路X→Zと記載する。
同図において、経路51→54のエラーの数EI(51→54)は5個であり、経路52→54のエラーの数EI(52→54)は5個であり、経路53→54のエラーの数EI(53→54)は10個であることが示されている
また、同図において、経路55→54の正常呼の数NI(55→54)は4個であり、経路56→54の正常呼の数NI(56→54)は4個であり、経路57→54の正常呼の数NI(57→54)は12個であることが示されている。
また、同図において、経路54→55のエラーの数EO(54→55)は20個であり、経路54→56のエラーの数EO(54→56)は20個であり、経路54→57のエラーの数EO(54→57)は10個であることが示されている。
ここで、SIPサーバ54が他のSIPサーバから受信したエラーの数の合計数は、20(=5+5+10)である。また、SIPサーバ54が他のSIPサーバから受信した正常呼の合計数は、20(=4+4+12)である。したがって、図5の例の場合、発生エラー数推定部303は経路54→55の転送エラー数T(54→55)を、4(=20×4/20)と算出する。また、同様に、発生エラー数推定部303は経路54→56の転送エラー数T(54→56)を、4(=20×4/20)と算出する。また、同様に、発生エラー数推定部303は経路54→57の転送エラー数T(54→57)を、12(=20×12/20)と算出する。
そして、経路54→57の転送エラー数T(54→57)が、同じ経路の送信エラー数EO(54→57)より大きいので、経路54→57の転送エラー数T(54→57)を経路54→57の送信エラー数EO(54→57)である10とする。
発生エラー数推定部303は、SIPサーバ54が受信したエラーの合計数20とSIPサーバ54が送信した転送エラーの合計数18に差分2が発生するため、発生エラー数推定部303は、その差分2をT(i)がEO(i)より小さい経路である経路54→55と経路54→56に対して分配する。
ここで、SIPサーバXにおいてT(i)がEO(i)より小さい経路における正常呼の合計数ΣNI(y)は、経路54→55の正常呼の数4と経路54→56の正常呼の数4の和であり、その値は8である。
ゆえに、発生エラー数推定部303は、経路54→55の経路に分配される転送エラーの数T´(54→55)を1(=(20−18)×4/8)と算出する。発生エラー数推定部303は、経路54→55の転送エラーの数T(54→55)の値4に経路54→55の経路に分配される転送エラーの数T´(54→55)の値1を加算した値5を、新たに経路54→55の転送エラーの数T(54→55)の値とする。
同様に、発生エラー数推定部303は、経路54→56の経路に分配される転送エラーの数T´(54→56)を1(=(20−18)×4/8)と算出する。発生エラー数推定部303は、経路54→56の転送エラーの数T(54→56)の値4に経路54→56の経路に分配される転送エラーの数T´(54→56)の値1を加算した値5を、新たに経路54→56の転送エラーの数T(54→56)の値とする。
続いて、発生エラー数推定部303は、経路54→55のエラー数EO(54→55)である20から経路54→55の転送エラー数T(54→55)である5を減算して、経路54→55の発生エラー数G(54→55)として15を算出する。
また、発生エラー数推定部303は、経路54→56のエラー数EO(54→56)である20から経路54→56の転送エラー数T(54→56)である5を減算して、S経路54→56の発生エラー数G(54→56)として15を算出する。
また、発生エラー数推定部303は、経路54→57のエラー数EO(54→57)である10から経路54→57の転送エラー数T(54→57)である10を減算して、経路54→57の発生エラー数G(54→57)として0を算出する。すなわち、発生エラー数推定部303は、経路54→57の発生エラー数G(54→57)は存在しないと判定する。
<発生エラー数推定処理の具体例>
続いて、発生エラー数推定処理について、具体例を用いて説明する。発生エラー数推定部303は、繰り返しにより、以下の処理を、SIP信号網100内に存在する全てのSIPサーバについてそれぞれ実施する。まず、発生エラー数推定部303が、予め決められた単位時間毎にSIP信号網100内のあるSIPサーバであるSIPサーバXに関連する統計情報を抽出する。具体的には、発生エラー数推定部303は、送信側アドレス又は受信側アドレスのいずれかが「X」である統計情報を抽出する。その場合、例えば図6に示された統計情報が抽出される。ここで、障害検出装置300が処理中の統計情報が生成された単位時間のことを現時刻と称す。
図6は、発生エラー数推定部303により抽出されたSIPサーバXに関連する統計情報の一例である。図6(A)は、予め決められた単位時間における正常呼の統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯及び呼数(正常呼の数)の組が示されている。例えば、同図の1行目には、送信側アドレスが「A」で、受信側アドレスが「X」で、着番号帯が「02」で、呼数が「120」であることが示されている。
図6(B)は、予め決められた単位時間におけるエラーの統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯、エラー番号及びエラー数の組が示されている。例えば、同図の1行目には、送信側アドレスが「X」で、受信側アドレスが「A」で、着番号帯が「02」で、エラー番号が「400」で、エラー数が「21」であることが示されている。エラー番号は、サーバ内部エラー、正しくない要求、認証失敗等を一意に表すものである。
続いて、発生エラー数推定部303は、SIPサーバXに関連する統計情報に含まれる着番号帯を全て抽出する。図6の例の場合、着番号帯として「02」「03」「04」の3種類が抽出されるため、発生エラー数推定部303は、繰り返しにより、以降の処理をこれら全ての着番号帯に対してそれぞれ実施する。ここでは着番号帯が「03」の場合を例に、以降の処理を説明する。
発生エラー数推定部303は、SIPサーバXに関連する統計情報(図6)から着番号帯が「03」である統計情報を抽出する。その場合、図7に示される統計情報が抽出される。
図7は、図6の統計情報から着番号帯が「03」であるものが抽出された後の統計情報である。図7(A)は、予め決められた単位時間における着番号帯が「03」の正常呼の統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯及び呼数(正常呼の数)の組が示されている。例えば、同図の1行目には、送信側アドレスが「C」で、受信側アドレスが「X」で、着番号帯が「03」で、呼数が「300」であることが示されている。
図7(B)は、予め決められた単位時間における着番号帯が「03」のエラーの統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯、エラー番号及びエラー数の組が示されている。例えば、同図の1行目には、送信側アドレスが「X」で、受信側アドレスが「C」で、着番号帯が「03」で、エラー番号が「400」で、エラー数が「16」であることが示されている。
続いて、発生エラー数推定部303は、上記で抽出した統計情報に含まれるエラー番号を全て抽出する。この例の場合、エラー番号として「400」「401」の2種類が抽出されるため、発生エラー数推定部303は、繰り返しにより、以降の処理をこれら全てのエラー番号に対してそれぞれ実施する。ここではエラー番号が「400」の場合を例に、以降の処理を説明する。
発生エラー数推定部303が、上記で抽出した統計情報(図7)からエラー番号が「400」である統計情報を抽出する。その場合、図8に示される統計情報が抽出される。
図8は、図7の統計情報からエラー番号が「400」であるものが抽出された後の統計情報である。図8(A)は、予め決められた単位時間におけるエラー番号が「400」の正常呼の統計情報の一例である。図8(A)は、図7(A)と同一である。
図8(B)は、予め決められた単位時間におけるエラー番号が「400」のエラーの統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯、エラー番号及びエラー数の組が示されている。例えば、同図の1行目には、送信側アドレスが「X」で、受信側アドレスが「C」で、着番号帯が「03」で、エラー番号が「400」で、エラー数が「16」であることが示されている。
発生エラー数推定部303は、以上により抽出した統計情報を用いて、SIPサーバXでの、着番号帯が「03」、エラー番号が「400」の組み合わせにおける、経路毎の発生エラー数を推定する。
図8の例では、SIPサーバXはSIPサーバAから35個のエラーを受信し、SIPサーバC、SIPサーバD及びSIPサーバEに対して合計55個のエラーを送信していることから、発生エラー数推定部303は、転送エラー数の合計を35個、発生エラー数の合計を20個と算出する。
発生エラー数推定部303は、経路毎の発生エラー数の推定を、上述した処理に基づき実施する。まず、発生エラー数推定部303は、図8の統計情報からSIPサーバXが受信した各経路における正常呼の数及びエラーの数とSIPサーバXが各経路に対して送信したエラーの数とを設定する。
具体的には、発生エラー数推定部303は、図8(A)の統計情報から、経路C→Xの正常呼の数NI(C→X)を300に、経路D→Xの正常呼の数NI(D→X)を240に、経路E→Xの正常呼の数NI(E→X)を160と設定する。また、発生エラー数推定部303は、図8(B)の統計情報から、経路A→Xのエラーの数EI(A→X)を35に、経路X→Cのエラーの数EO(X→C)を16に、経路X→Dのエラーの数EO(X→D)を10に、経路X→Eのエラーの数EO(X→E)を29に設定する。
発生エラー数推定部303は、これらの値から、経路毎の転送エラー数を、式(1)を用いて以下のように算出する。発生エラー数推定部303は、経路X→Cの転送エラーの数T(X→C)を15(=35×300/(300+240+160))、経路X→Dの転送エラーの数T(X→D)を12(=35×240/(300+240+160))、経路X→Eの転送エラーの数T(X→E)を8(=35×160/(300+240+160))と算出する。
ここで、経路X→Dにおいて、経路X→Dの転送エラーの数T(X→D)が経路X→Dのエラーの数EO(X→D)より大きくなっているため、発生エラー数推定部303は、経路X→Dの転送エラーの数T(X→D)を10とする。これにより、SIPサーバXが送信した転送エラーの合計数ΣT(X)は33となり、SIPサーバXが送信したエラー数の合計数ΣEI(X)=35との差分2が発生するため、発生エラー数推定部303は、この差分2を残りの経路に配分する。
発生エラー数推定部303は、経路毎に配分する転送エラー数を、式(2)を用いて以下のように算出する。なお、ここでの計算結果は小数点以下が発生するため、四捨五入により整数化している。具体的には、発生エラー数推定部303は、経路X→Cに配分する転送エラー数T´(X→C)を1(≒2×300/(300+160))と、経路X→Eに配分する転送エラー数T´(X→E)を1(≒2×160/(300+160))と算出する。
これにより、発生エラー数推定部303は、経路毎の転送エラー数を以下のように算出する。発生エラー数推定部303は、経路X→Cの転送エラー数T(X→C)を16(=15+1)と、経路X→Eの転送エラー数T(X→E)を9(=8+1)と算出する。
よって、発生エラー数推定部303は、経路毎の発生エラー数を、式(3)を用いて以下のように算出する。発生エラー数推定部303は、経路X→Cの発生エラー数G(X→C)を0(=16−16)と、経路X→Dの発生エラー数G(X→D)を0(=10−10)と、経路X→Eの発生エラー数G(X→E)を20(=29−9)と算出する。
<障害発生検出処理の具体例>
発生エラー数推定部303による発生エラー数の推定により、図9に示す発生エラーが推定された場合を例に、障害発生検出処理について説明する。
図9は、発生エラーが推定された後の統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯、エラー番号及び発生エラー数の組が示されている。例えば、同図の第1行目には、送信側アドレスが「X」で、受信側アドレスが「A」で、着番号帯が「02」で、エラー番号が「400」で、発生エラー数が「20」であることが示されている。
障害発生検出部304は、推定された発生エラーにおいて送信側アドレス/エラー番号の組み合わせ毎に、発生エラー数を集計する。図9の例の場合、集計した結果は図10のようになる。
図10は、図9の例において送信側アドレス/エラー番号の組み合わせ毎に集計された発生エラー数を示した図である。同図において、送信側アドレス、エラー番号及び発生エラー数の組が示されている。例えば、同図の1行目には、送信側アドレスが「X」で、エラー番号が「400」で、発生エラー数が「61」であることが示されている。
障害発生検出部304は、繰り返しにより、以降の処理を、これら全ての送信側アドレス/エラー番号の組み合わせに対してそれぞれ実施する。ここでは送信側アドレス/エラー番号の組み合わせが「X」/「400」の場合を例に、以降の処理を説明する。
障害発生検出部304は、送信側アドレス/エラー番号の組み合わせ毎に、過去一定期間の平均発生エラー数を、統計情報記憶部302から取得する。そして、障害発生検出部304は、送信側アドレス/エラー番号の組み合わせ毎に、過去一定期間の平均発生エラー数に対する現時刻における発生エラー数の比率を算出する。
図11は、統計情報記憶部302に記憶されている過去一定期間の平均発生エラー数の一例である。同図において、送信側アドレス/エラー番号の組み合わせ毎に、過去一定期間の平均発生エラー数が示されている。例えば、同図の1行目には、送信側アドレスが「X」とエラー番号が「400」の組み合わせで、過去一定期間の平均発生エラー数が「8」であることが示されている。
以下、統計情報記憶部302から取得した送信側アドレス/エラー番号の組み合わせ毎の過去一定期間の平均発生エラー数が図11に示された値を示す場合を一例にして説明する。
例えば、障害発生検出部304は、図10の1行目の発生エラー数と図11の1行目の過去一定期間の平均発生エラー数とを用いて、送信側アドレス/エラー番号の組み合わせが「X」/「400」の発生エラーについて、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率7.625(=61/8)を算出する。
障害発生検出部304は、「送信側アドレス」/エラー番号の組み合わせ毎に、算出した比率に基づいて、障害が発生したか否か判定する。具体的には、例えば、障害発生検出部304は、算出した比率が予め決められた閾値以上である場合、障害が発生したと判定する。一方、障害発生検出部304は、算出した比率が予め決められた閾値未満である場合、その送信側アドレス/エラー番号の組み合わせにおいて障害が発生したと判定しない。
ここで、例えば閾値が3.0の場合、送信側アドレス/エラー番号の組み合わせが「X」/「400」の発生エラーは、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率7.625が閾値3.0を超えているため、障害発生検出部304は、障害が発生したと判定する。
上記の例における他の組み合わせについて補足すると、送信側アドレス/エラー番号の組み合わせが「A」/「400」の発生エラーは、前述の比率が3.0に満たないため、障害発生検出部304は、その送信側アドレス/エラー番号の組み合わせ(「A」/「400」)では障害が発生したと判定しない。
また、送信側アドレス/エラー番号の組み合わせが「A」/「500」の発生エラーは、過去一定期間の平均が0であるため、障害発生検出部304は、前述の比率が計算できない(比率が+∞となる)。この場合、障害発生検出部304は、現時刻の発生エラー数が予め決められた一定数以上である場合に、障害が発生したと判定する。
なお、障害発生検出部304は、過去一定期間の平均が0である場合、一律に障害が発生したと判定してもよい。
障害発生検出部304は、上記の例の「送信側アドレス」を「受信側アドレス」に置き換えることで、上記の同様の処理を行う。具体的には、障害発生検出部304は、「受信側アドレス」/エラー番号の組み合わせ毎に、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率を算出する。そして、障害発生検出部304は、「受信側アドレス」/エラー番号の組み合わせ毎に、算出した比率に基づいて、障害が発生したか否か判定する。
障害発生検出部304は、障害が発生したと判定した全ての送信側アドレス/エラー番号の組み合わせと、障害が発生したと判定した全ての受信側アドレス/エラー番号の組み合わせとを障害箇所特定部305に出力する。
<障害箇所特定処理の具体例>
続いて、障害箇所特定処理の詳細を、具体例を用いて説明する。
障害箇所特定部305は、繰り返しにより、下記の処理を、障害発生検出部304により障害が発生したと判定された全ての送信側アドレス/エラー番号の組み合わせ、及び障害発生検出部304により障害発生と判定された全ての受信側アドレス/エラー番号の組み合わせのそれぞれに対して実施する。ここでは、送信側アドレス/エラー番号が「X」/「400」の場合を例に、以降の処理を説明する。
まず、障害箇所特定部305は、障害発生と判定された「送信側アドレス」と「エラー番号」の組み合わせ又は障害発生と判定された「受信側アドレス」と「エラー番号」の組み合わせ毎に発生エラー数を経路毎に分計する。
図12は、統計情報から経路毎に分計された後の発生エラー数の一例である。同図において、送信側アドレス、受信側アドレス、エラー番号及び発生エラー数の組が示されている。例えば、同図の1行目には、送信側アドレスが「X」で、受信側アドレスが「A」で、エラー番号が「400」で、発生エラー数が「20」であることが示されている。
続いて、障害箇所特定部305は、特定のエラー番号についての発生エラーを送信(又は受信)している経路数と該特定のエラー番号についての発生エラーの経路毎の送信数(又は受信数)とに基づいて、障害箇所を特定する。具体的には、例えば、障害箇所特定部305は、分計した発生エラー数が、予め決められた発生エラー閾値以上である経路数を算出する。例えば、発生エラー閾値が10の場合、その経路数は経路X→A、経路X→B及び経路X→Eの3経路である。
なお、発生エラー閾値は、あるサーバXが予め決められた単位時間に送信するエラー数の総数に対する割合に基づいて、決められていてもよい。具体的には、例えば、図12の例において、送信側アドレスがXでエラー番号が400の組み合わせにおける発生エラー数の総数が61であるが、発生エラー閾値は、その発生エラー数の総数の10%である6であってもよい。
障害箇所特定部305は、算出した経路数が予め決められた経路閾値以上である場合、その送信側アドレスを有するSIPサーバをサーバ型エラーの障害箇所として特定する。例えば、上記の経路閾値が3である場合、障害箇所特定部305は、送信側アドレスが「X」であるSIPサーバをエラー番号「400」に関するサーバ型エラーの障害箇所として特定する。一方、障害箇所特定部305は、算出した経路数が予め決められた経路閾値未満であれば、その送信側アドレスを有するSIPサーバをサーバ型エラーの障害箇所として特定しない。
また、システム全体で一律の発生エラー閾値を設定するだけでなく、SIPサーバやエラー番号毎に個別に発生エラー閾値を設定してもよい。これにより、障害箇所特定部305は、エラー発生数の特性が異なる場合においても、柔軟に障害箇所を特定することができる。
障害箇所特定部305は、上記の例の「送信側アドレス」を「受信側アドレス」に置き換えることで同様の処理を行う。但し、このときに障害箇所特定部305により検出される障害箇所は、クライアント型エラーの障害箇所である。具体的には、障害箇所特定部305は、算出した経路数が予め決められた経路閾値以上であれば、その受信側アドレスを有するSIPサーバをクライアント型エラーの障害箇所として特定する。一方、障害箇所特定部305は、算出した経路数が予め決められた経路閾値未満であれば、その受信側アドレスを有するSIPサーバをクライアント型エラーの障害箇所として特定しない。
なお、本実施形態では、障害箇所特定部305は、障害発生として検出された「送信側アドレス」と「エラー番号」の組み合わせ又は「受信側アドレス」と「エラー番号」の組み合わせ毎に発生エラー数を経路毎に分計したが、これに限ったものではない。障害箇所特定部305は、障害発生として検出された「送信側アドレス」又は「受信側アドレス」毎に発生エラー数を経路毎に分計してもよい。
換言すれば、障害箇所特定部305による障害箇所の特定は、障害発生検出部304により障害発生が検出された送信側サーバ又は障害発生検出部304により障害発生が検出された受信側サーバの発生エラー数を経路毎に分計し、該経路毎に分計した発生エラー数に基づいて行われてもよい。
また、本実施形態では、障害箇所特定部305は、分計した発生エラー数が予め決められた発生エラー閾値以上である経路数に基づいて、障害箇所を特定したが、これに限ったものではない。
障害箇所特定部305は、障害発生検出部304により障害発生が検出された送信側サーバ及び該送信側サーバが送信する発生エラーが含まれる経路、又は障害発生検出部304により障害発生が検出された受信側サーバ及び該受信側サーバが受信する発生エラーが含まれる経路に基づいて、障害箇所を特定すればよい。
図13は、本実施形態における障害検出装置300の処理全体の流れを示すフローチャートである。障害検出装置300は、以下の処理を予め決められた単位時間毎に繰り返して実施する(ステップS101)。まず、統計情報受信部301は、統計情報を受信する(ステップS102)。次に、発生エラー数推定部303は、発生エラー数を推定する(ステップS103)。次に、障害発生検出部304は、障害発生を検出する(ステップS104)。次に、障害箇所特定部305は、障害箇所を特定する(ステップS105)。以上で、本フローチャートの処理を終了する。
図14は、図13のステップS103における発生エラー数推定部303の処理の詳細を示すフローチャートである。発生エラー数推定部303は、全てのSIPサーバに対してそれぞれステップS302からステップS307までの処理を実施する(ステップS301)。まず、発生エラー数推定部303は、統計情報から現在対象となっているSIPサーバに関連するものを抽出する(ステップS302)。
発生エラー数推定部303は、ステップS302において抽出した統計情報に対して、その統計情報に含まれる「着番号帯」に対してそれぞれステップS304からステップS307までの処理を実施する(ステップS303)。発生エラー数推定部303は、抽出後の統計情報から現在対象となっている「着番号帯」を含むものを抽出する(ステップS304)。
次に、発生エラー数推定部303は、ステップS304において抽出した統計情報に対して、その統計情報に含まれる全ての「エラー番号」に対してそれぞれ以下の処理を実施する(ステップS305)。まず、発生エラー数推定部303は、「着番号帯」が抽出後の統計情報から現在対象となっている「エラー番号」を含むものを抽出する(ステップS306)。次に、発生エラー数推定部303は、現在対象となっているSIPサーバで、現在対象となっている「着番号帯」と「エラー番号」の組み合わせにおける、経路毎の発生エラー数の推定処理を行う(ステップS307)。発生エラー数推定部303は、全てのSIPサーバで、全ての「着番号帯」と「エラー番号」の組み合わせで、上記処理を実施した場合、図13のステップS103における発生エラー数推定処理を終了する。
図15は、図13のステップS104における障害発生検出部304の処理の詳細を示すフローチャートである。障害発生検出部304は、発生エラーの「送信側アドレス」と「エラー番号」の組み合わせ毎に、発生エラー数を集計する(ステップS401)。次に、障害発生検出部304は、全ての発生エラーの「送信側アドレス」と「エラー番号」の組み合わせに対してステップS403からステップS405までの処理を実施する(ステップS402)。
障害発生検出部304は、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率を算出する(ステップS403)。次に、障害発生検出部304は、算出した比率が閾値以上か否か判定する(ステップS404)。比率が閾値以上の場合(ステップS404 YES)、障害発生検出部304は、障害が発生したと判定する(ステップS405)。そして、障害発生検出部304は、次の「送信側アドレス」と「エラー番号」の組み合わせがある場合、ステップS403の処理に戻る。
一方、比率が閾値未満の場合(ステップS404 NO)、障害発生検出部304は、次の「送信側アドレス」と「エラー番号」の組み合わせがある場合、ステップS403の処理に戻る。障害発生検出部304は、全ての発生エラーの「送信側アドレス」と「エラー番号」の組み合わせに対してステップS403からステップS405までの処理を実施した場合、ステップS406の処理に進む。
次に、障害発生検出部304は、発生エラーの「受信側アドレス」と「エラー番号」の組み合わせ毎に、発生エラー数を集計する(ステップS406)。次に、障害発生検出部304は、全ての発生エラーの「受信側アドレス」と「エラー番号」の組み合わせに対してステップS408からステップS410までの処理を実施する(ステップS407)。障害発生検出部304は、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率を算出する(ステップS408)。
次に、障害発生検出部304は、算出した比率が閾値以上か否か判定する(ステップS409)。比率が閾値以上の場合(ステップS409 YES)、障害発生検出部304は、障害が発生したと判定する(ステップS410)。そして、障害発生検出部304は、次の「受信側アドレス」と「エラー番号」の組み合わせがある場合、ステップS408の処理に進む。
一方、比率が閾値未満の場合(ステップS409 NO)、障害発生検出部304は、次の「受信側アドレス」と「エラー番号」の組み合わせがある場合、ステップS408の処理に進む。障害発生検出部304は、全ての発生エラーの「受信側アドレス」と「エラー番号」の組み合わせに対してステップS408からステップS410までの処理を実施した場合、図13のステップS104における障害発生検出部304の処理を終了する。
図16は、図13のステップS105における障害箇所特定部305の処理の詳細を示すフローチャートである。まず、障害箇所特定部305は、障害が発生したと判定された「送信側アドレス」と「エラー番号」の全ての組み合わせに対してステップS502からステップS505までの処理を実施する(ステップS501)。まず、障害箇所特定部305は、発生エラー数を、経路毎に分計する(ステップS502)。
次に、障害箇所特定部305は、分計した発生エラー数が、予め決められた発生エラー閾値以上である経路数を算出する(ステップS503)。次に、障害箇所特定部305は、算出した経路数が予め決められた経路閾値以上か否か判定する(ステップS504)。経路数が経路閾値以上である場合(ステップS504 YES)、障害箇所特定部305は、その送信側アドレスを有するSIPサーバをサーバ型エラーの障害箇所として特定する(ステップS505)。そして、障害箇所特定部305は、次の「送信側アドレス」と「エラー番号」の組み合わせがある場合、ステップS502の処理に戻る。
一方、経路数が経路閾値未満である場合(ステップS504 NO)、障害箇所特定部305は次の「送信側アドレス」と「エラー番号」の組み合わせがある場合、ステップS502の処理に戻る。障害箇所特定部305は、全ての発生エラーの「送信側アドレス」と「エラー番号」の組み合わせに対してステップS502からステップS505までの処理を実施した場合、ステップS506の処理に進む。
次に、障害箇所特定部305は、障害が発生したと判定された「受信側アドレス」と「エラー番号」の全ての組み合わせに対してステップS507からステップS510までの処理を実施する(ステップS506)。まず、障害箇所特定部305は、発生エラー数を、経路毎に分計する(ステップS507)。
次に、障害箇所特定部305は、分計した発生エラー数が、予め決められた発生エラー閾値以上である経路数を算出する(ステップS508)。次に、障害箇所特定部305は、算出した経路数が予め決められた経路閾値以上か否か判定する(ステップS509)。経路数が経路閾値以上である場合(ステップS509 YES)、障害箇所特定部305は、その受信側アドレスを有するSIPサーバをクライアント型エラーの障害箇所として特定する(ステップS510)。そして、障害箇所特定部305は、次の「受信側アドレス」と「エラー番号」の組み合わせがある場合、ステップS507の処理に戻る。
一方、経路数が経路閾値未満である場合(ステップS509 NO)次の「受信側アドレス」と「エラー番号」の組み合わせがある場合、ステップS507の処理に戻る。障害箇所特定部305は、全ての発生エラーの「受信側アドレス」と「エラー番号」の組み合わせに対してステップS507からステップS510までの処理を実施した場合、図13のステップS105における障害箇所特定部305の処理を終了する。
<効果>
以上、本実施形態の障害検出装置300は、統計情報を用いてSIP信号網の障害を検出するので、分析対象となるデータ量を削減して大規模網をリアルタイムに監視することができる。
また、本実施形態の障害検出装置300は、分析対象となるデータから個人情報を排除し、統計情報のみに基づいて障害を検出するので、セキュリティ面でも安全に運用することができる。
本実施形態の障害検出装置300は、障害が発生したと判定された送信側アドレス/エラー番号の組及び障害が発生したと判定された受信側アドレス/エラー番号の組、それぞれの組み合わせに対して発生エラー数を集計する。すなわち、障害検出装置300は、送信と受信とを分けて、エラー番号毎であって経路毎の発生エラー数を集計する。そして障害検出装置300は、あるSIPサーバが特定のエラー番号の発生エラーを送信している数が予め決められた閾値を超えた経路の数に基づいて、あるSIPサーバがサーバ型エラーであるか否か判定する。また、障害検出装置300は、あるSIPサーバが特定のエラー番号の発生エラーを受信している数が予め決められた閾値を超えた経路の数に基づいて、あるSIPサーバがクライアント型エラーであるか否か判定する。
これにより、障害検出装置300は、エラーが発生しているSIPサーバを検出するだけでなく、サーバ型エラーの障害箇所かクライアント型エラーの障害箇所かを区分けして、障害箇所を特定することができる。
また、本実施形態の障害検出装置300は、統計情報に対して、「着番号帯」と「エラー番号」の組み合わせ毎に経路毎の発生エラー数を推定し、推定した発生エラー数を「送信側アドレス」と「エラー番号」の組み合わせ又は「受信側アドレス」と「エラー番号」の組み合わせ毎に障害が発生したか否か判定する。
そのため、SIPサーバやエラー番号などにより異なる発生エラー数の特性が多様に混在している場合でも、障害検出装置300は、精度高く障害の発生を検出することができる。
更に、本実施形態の障害検出装置300は、障害が発生したと判定された「送信側アドレス」と「エラー番号」の組み合わせ又は障害が発生したと判定された「受信側アドレス」と「エラー番号」の組み合わせ毎に発生エラー数を経路毎に分計し、分計した発生エラー数に基づいて障害箇所を特定する。
そのため、SIPサーバやエラー番号などにより異なる発生エラー数の特性が多様に混在している場合でも、障害検出装置300は、精度高く障害箇所を特定することができる。
また、本実施形態の障害検出装置300は、障害検出方法及び障害箇所特定方法の特性上、実運用において、インサービス呼のみを用いて実現できるため、障害検出及び障害箇所特定のための試験呼等を別途SIP信号網に流す必要がなく、既存のサービスの提供に影響を与えないという効果を有する。
なお、本実施形態の障害発生検出部304による障害発生の検出は、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率に基づいて行われたが、これに限らず、現時刻の発生エラー数と過去の発生エラー数とを比較することにより行われればよい。
また、本実施形態の障害検出装置300は、過去の発生エラー数が統計情報記憶部302に記憶されていたが、これに限らず、過去の発生エラー数は外部のデータベース(不図示)に記憶されていてもよい。その場合、障害発生検出部304は、過去の発生エラー数を外部のデータベースから読み出せばよい。すなわち、障害発生検出部304は、統計情報記憶部302又は外部のデータベース(不図示)から過去の発生エラー数を取得すればよい。
なお、障害発生検出部304による障害発生の検出は、発生エラーの送信側アドレスとエラー番号の組み合わせ毎、又は発生エラーの受信側アドレスとエラー番号の組み合わせ毎に、現時刻の発生エラー数を集計し、該集計した発生エラー数を対応する過去の発生エラー数と比較することにより行われたが、このような集計に限ったものではない。
障害発生検出部304による障害発生の検出は、発生エラーのエラー番号毎に現時刻の発生エラー数を集計し、該集計したエラー番号毎の発生エラー数を対応するエラー番号毎の過去の発生エラー数と比較することにより行われてもよい。その場合、障害発生検出部304は、エラー番号毎に、過去の発生エラー数を取得すればよい。
これによれば、障害発生検出部304は、エラー番号が混在した発生エラー数が時間的に変化しない場合でも、エラー番号毎に発生エラー数を集計することにより、障害発生を検出することができる。
また、障害発生検出部304による障害発生の検出は、発生エラーの着番号毎に現時刻の発生エラー数を集計し、該集計した着番号毎の発生エラー数を対応する着番号毎の過去の発生エラー数と比較することにより行われてもよい。その場合、障害発生検出部304は、着番号毎に過去の発生エラー数を取得すればよい。
これによれば、障害発生検出部304は、着番号が混在した発生エラー数が時間的に変化しない場合でも、着番号毎に発生エラー数を集計することにより、障害発生を検出することができる。
すなわち、障害発生検出部304による障害発生の検出は、発生エラーに関連する項目(例えば、送信側アドレス、受信側アドレス、エラー番号、着番号及びそれらの2つ以上の組み合わせ)毎に現時刻の発生エラー数を集計し、該集計した項目毎の発生エラー数を対応する項目毎の過去の発生エラー数と比較することにより行われてもよい。その場合、障害発生検出部304は、該発生エラーに関連する項目毎に過去の発生エラー数を取得すればよい。
これによれば、障害発生検出部304は、該項目が混在した発生エラー数が時間的に変化しない場合でも、項目毎に発生エラー数を集計することにより、障害発生を検出することができる。
なお、本実施形態では、障害箇所特定部305は、特定のエラー番号についての発生エラーを送信(又は受信)している経路数と該特定のエラー番号についての発生エラーの経路毎の送信数(又は受信数)とに基づいて、障害箇所を特定したがこれに限ったものではない。障害箇所特定部305は、特定のエラー番号毎ではなく、全てのエラー番号についての発生エラーを送信(又は受信)している経路数と全てのエラー番号についての発生エラーの経路毎の送信数(又は受信数)とに基づいて、障害箇所を特定してもよい。
また、障害箇所特定部305は、発生エラーを送信(又は受信)経路数と経路毎の送信数(又は受信数)でなく、発生エラーを送信(又は受信)している経路数だけに基づいて、障害箇所を特定してもよい。具体的には、例えば、障害箇所特定部305は、あるSIPサーバXが有する経路のうち、特定のエラー番号または全てのエラー番号について発生エラーを送信(又は受信)している経路の数が予め決められた閾値以上の場合、そのSIPサーバをサーバ型エラー(又はクライアント型エラー)の障害箇所として特定してもよい。
また、本実施形態の障害検出装置300の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、障害検出装置300に係る上述した種々の処理を行ってもよい。
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1 障害箇所検出システム
100 SIP信号網
200 SIP信号収集装置
300 障害検出装置
301 統計情報受信部
302 統計情報記憶部
303 発生エラー数推定部
304 障害発生検出部
305 障害箇所特定部

Claims (7)

  1. SIP信号の通信に関する統計情報に基づいて、SIPサーバ間の経路毎の発生エラー数を推定する発生エラー数推定部と、
    前記推定された発生エラーを送信又は受信している経路数に基づいて、障害箇所を特定する障害箇所特定部と、
    を備えることを特徴とする障害検出装置。
  2. 前記発生エラー数推定部は、あるSIPサーバが経路毎に受信及び送信したエラーの数と、該SIPサーバが経路毎に受信した正常呼の数とに基づいて、該SIPサーバが経路毎に送信した転送エラー数を算出し、該算出した転送エラー数と該SIPサーバが経路毎に送信したエラーの数とに基づいて、該SIPサーバが送信する前記発生エラー数を経路毎に推定することを特徴とする請求項1に記載の障害検出装置。
  3. 前記障害箇所特定部は、前記発生エラーを送信又は受信している経路数と該発生エラーの経路毎の送信数又は受信数とに基づいて、障害箇所を特定することを特徴とする請求項1又は請求項2に記載の障害検出装置。
  4. 前記推定された経路毎の発生エラー数に基づいて、SIP信号網における障害発生を検出する障害発生検出部を更に備えることを特徴とする請求項1から請求項3のいずれか一項に記載の障害検出装置。
  5. 前記障害発生検出部は、前記発生エラーに関連する項目毎に過去の発生エラー数を取得し、
    前記障害発生検出部による障害発生の検出は、前記項目毎に現時刻の発生エラー数を集計し、該集計した項目毎の発生エラー数を対応する前記項目毎の過去の発生エラー数と比較することにより行われることを特徴とする請求項4に記載の障害検出装置。
  6. 障害検出装置が実行する障害検出方法であって、
    SIP信号の通信に関する統計情報に基づいて、SIPサーバ間の経路毎の発生エラー数を推定する発生エラー数推定手順と、
    前記推定された経路毎の発生エラー数に基づいて、SIP信号網における障害発生を検出する障害発生検出手順と、
    を有することを特徴とする障害検出方法。
  7. コンピュータに、
    SIP信号の通信に関する統計情報に基づいて、SIPサーバ間の経路毎の発生エラー数を推定する発生エラー数推定ステップと、
    前記推定された経路毎の発生エラー数に基づいて、SIP信号網における障害発生を検出する障害発生検出ステップと、
    を実行させることを特徴とする障害検出プログラム。
JP2011160009A 2011-07-21 2011-07-21 障害検出装置、障害検出方法及び障害検出プログラム Expired - Fee Related JP5624954B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011160009A JP5624954B2 (ja) 2011-07-21 2011-07-21 障害検出装置、障害検出方法及び障害検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011160009A JP5624954B2 (ja) 2011-07-21 2011-07-21 障害検出装置、障害検出方法及び障害検出プログラム

Publications (2)

Publication Number Publication Date
JP2013026841A true JP2013026841A (ja) 2013-02-04
JP5624954B2 JP5624954B2 (ja) 2014-11-12

Family

ID=47784708

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011160009A Expired - Fee Related JP5624954B2 (ja) 2011-07-21 2011-07-21 障害検出装置、障害検出方法及び障害検出プログラム

Country Status (1)

Country Link
JP (1) JP5624954B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015165636A (ja) * 2014-03-03 2015-09-17 株式会社日立製作所 検出装置、検出方法、および検出プログラム
CN111751705A (zh) * 2020-06-18 2020-10-09 捷普电子(广州)有限公司 测试结果展示方法、装置及电子设备、存储介质
WO2020234992A1 (ja) * 2019-05-21 2020-11-26 日本電信電話株式会社 呼制御システム、端末装置、呼制御装置、呼制御方法及び呼制御プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003115806A (ja) * 2001-10-09 2003-04-18 Kddi Corp 障害リソース推定方法
JP2005149281A (ja) * 2003-11-18 2005-06-09 Hitachi Ltd 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム
WO2011058135A1 (en) * 2009-11-12 2011-05-19 Intune Networks Limited Switch system and method for the monitoring of virtual optical paths in an optical burst switched (obs) communication network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003115806A (ja) * 2001-10-09 2003-04-18 Kddi Corp 障害リソース推定方法
JP2005149281A (ja) * 2003-11-18 2005-06-09 Hitachi Ltd 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム
WO2011058135A1 (en) * 2009-11-12 2011-05-19 Intune Networks Limited Switch system and method for the monitoring of virtual optical paths in an optical burst switched (obs) communication network
JP2013511181A (ja) * 2009-11-12 2013-03-28 インチューン ネットワークス リミテッド 光バースト交換式(OpticalBurstSwitched:OBS)通信ネットワークにおける仮想的光学経路の監視のためのスイッチシステム及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CSNG201100769001; 山崎 公義 他: 'SIP信号の統計情報を用いた障害箇所切り分け手法' 電子情報通信学会技術研究報告 Vol.111 No.279, 20111103, p.1〜6, 社団法人電子情報通信学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015165636A (ja) * 2014-03-03 2015-09-17 株式会社日立製作所 検出装置、検出方法、および検出プログラム
WO2020234992A1 (ja) * 2019-05-21 2020-11-26 日本電信電話株式会社 呼制御システム、端末装置、呼制御装置、呼制御方法及び呼制御プログラム
CN111751705A (zh) * 2020-06-18 2020-10-09 捷普电子(广州)有限公司 测试结果展示方法、装置及电子设备、存储介质
CN111751705B (zh) * 2020-06-18 2023-04-07 捷普电子(广州)有限公司 测试结果展示方法、装置及电子设备、存储介质

Also Published As

Publication number Publication date
JP5624954B2 (ja) 2014-11-12

Similar Documents

Publication Publication Date Title
JP5430744B2 (ja) 通信システムのリアルタイムの性能および負荷統計のためのシステムならびに方法
US8243599B2 (en) Method and apparatus for high resolution passive network latency measurement
US20080080390A1 (en) Packet loss rate calculation system
US10616088B2 (en) Apparatus and method for measurements at intermediate nodes in end-to-end performance test
RU2010145045A (ru) Система и способ управления связью в сотах в системе сотовой связи
US9935861B2 (en) Method, system and apparatus for detecting instant message spam
JP2002271833A (ja) 移動通信システムにおけるサービスエリアの通信品質維持方法ならびにその移動通信端末装置、管理サーバシステム
CN103609160A (zh) 用于自动自扰网络元件的消息流重新路由
CN111034251A (zh) 通过从通信会话中提取地理坐标来提高无线电网络中的服务质量
JP5593944B2 (ja) 判定装置、判定方法及びコンピュータプログラム
JP5624954B2 (ja) 障害検出装置、障害検出方法及び障害検出プログラム
CN110401965A (zh) VoLTE语音质量拨测分析方法及系统
KR101533719B1 (ko) 스트리밍 기반의 실시간 데이터 분석 장치 및 방법
JP4761078B2 (ja) マルチキャストノード装置とマルチキャスト転送方法ならびにプログラム
CN109963292B (zh) 投诉预测的方法、装置、电子设备和存储介质
TW201640867A (zh) 通信裝置、可用頻寬計算系統、可用頻寬計算方法及程式
WO2010052695A1 (en) Method and apparatus for assessing communication quality
US8228813B2 (en) Network quality measurement based on quality measurement packet
US20140200041A1 (en) Evaluation of overall performance of interactive application service
JP5008337B2 (ja) コール制御サーバおよびその方法
CN114710801A (zh) 网络性能的测评参数的处理方法、装置、存储介质及设备
CN110972199A (zh) 一种流量拥塞监测方法及装置
JP2016092656A (ja) 品質劣化分析方法、品質劣化分析装置、及びネットワークシステム
JP2011188450A (ja) ネットワーク監視装置
JP5126081B2 (ja) コミュニケーション品質劣化予兆検出/劣化回避システム、装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140929

R150 Certificate of patent or registration of utility model

Ref document number: 5624954

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees