JP2013026841A

JP2013026841A - 障害検出装置、障害検出方法及び障害検出プログラム

Info

Publication number: JP2013026841A
Application number: JP2011160009A
Authority: JP
Inventors: Kimiyoshi Yamazaki; 公義山崎; Koichi Kawahara; 浩一川原; Takaharu Omi; 貴晴近江
Original assignee: NTT Comware Corp
Current assignee: NTT Comware Corp
Priority date: 2011-07-21
Filing date: 2011-07-21
Publication date: 2013-02-04
Anticipated expiration: 2031-07-21
Also published as: JP5624954B2

Abstract

【課題】個々のＳＩＰパケットを解析することなくＳＩＰ信号網における障害箇所を正確に特定する。
【解決手段】ＳＩＰ信号の統計情報を取得し、該取得したＳＩＰ信号の統計情報に基づいて、ＳＩＰサーバ間の経路毎の発生エラー数を推定する発生エラー数推定部３０３と、推定された経路毎の発生エラー数に基づいて、障害発生を検出する障害発生検出部３０４と、を備える。
【選択図】図４

Description

本発明は、障害検出装置、障害検出方法及び障害検出プログラムに関する。

近年、通信キャリア網を中心として、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）電話の利用が増加している。ＩＰ電話サービスにおけるユーザ間の発呼及び着呼はＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ）を利用して実現されていることが多く、呼の中継を担うＳＩＰサーバの役割が重要である。また、多くの通信キャリアは、一般のユーザはもとより、他の通信キャリアとも相互接続を行っており、ＳＬＡ（ＳｅｒｖｉｃｅＬｅｖｅｌＡｇｒｅｅｍｅｎｔ）に基づき、ＳＩＰシグナリングの伝搬正常を維持しつつ、異常時は劣化要因箇所を早期に特定し、サービスを回復することが非常に重要になってきている。

通信キャリアなどＩＰ電話サービスを提供する広域に分散配置されたＳＩＰサーバの障害監視に関しては、ＳＩＰサーバに流入又は流出する全ＳＩＰパケットをキャプチャーし、各ＳＩＰサーバ間のトラフィックをリアルタイムに監視するシステムが知られている（非特許文献１）。
また、特許文献１には、各ＳＩＰサーバが送受信したＳＩＰメッセージの数に基づいて、サーバ障害を検出し、端末が接続するＳＩＰサーバを基点としてユーザ側／非ユーザ側のどちらで障害が発生しているかを判断し、ＳＩＰサーバ間の論理障害を検出する監視装置が開示されている。

特開２００９−２３９３４３号公報

NetCall Monitor、http://www.softfront.co.jp/products/applience/netcall/netcall_monitor.html

しかしながら、非特許文献１に示されるシステムは、複数のＳＩＰサーバから構成されるＳＩＰ信号網における障害を監視する際に、ＳＩＰパケットのキャプチャーデータを個々に確認する必要がある。そのため、今後加入者の増加によりＳＩＰパケットが増加すると、非特許文献１に示されるシステムは解析負荷が高くなるという問題がある。
その問題に対し、特許文献１では、個々のＳＩＰパケットではなく、各ＳＩＰサーバが送信および受信するＳＩＰ信号の数に基づいてＳＩＰ信号網における障害を監視することにより解決を図っている。

しかしながら、特許文献１に示されている監視装置では、ＳＩＰ信号が正常に転送されなかった（エラーが発生した）サーバを障害箇所として単純に判断しているため、障害等により異常なＳＩＰ信号が転送される場合については障害箇所を正確に特定することができないという問題があった。また特許文献１に示されている監視装置では、端末間で３台以上のＳＩＰサーバを経由する場合に、障害箇所を特定することができないという問題があった。

そこで本発明は、上記問題に鑑みてなされたものであり、個々のＳＩＰパケットを解析することなくＳＩＰ信号網における障害箇所を正確に特定することを可能とする障害検出装置、障害検出方法及び障害検出プログラムを提供することを課題とする。

本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、ＳＩＰ信号の通信に関する統計情報に基づいて、ＳＩＰサーバ間の経路毎の発生エラー数を推定する発生エラー数推定部と、前記推定された発生エラーを送信又は受信している経路数に基づいて、障害箇所を特定する障害箇所特定部と、を備えることを特徴とする障害検出装置である。

また、本発明の一態様は、上記の障害検出装置において、前記発生エラー数推定部は、あるＳＩＰサーバが経路毎に受信及び送信したエラーの数と、該ＳＩＰサーバが経路毎に受信した正常呼の数とに基づいて、該ＳＩＰサーバが経路毎に送信した転送エラー数を算出し、該算出した転送エラー数と該ＳＩＰサーバが経路毎に送信したエラーの数とに基づいて、該ＳＩＰサーバが送信する前記発生エラー数を経路毎に推定することを特徴とする。

また、本発明の一態様は、上記の障害検出装置において、前記障害箇所特定部は、前記発生エラーを送信又は受信している経路数と該発生エラーの経路毎の送信数又は受信数とに基づいて、障害箇所を特定することを特徴とする。

また、本発明の一態様は、上記の障害検出装置において、前記推定された経路毎の発生エラー数に基づいて、ＳＩＰ信号網における障害発生を検出する障害発生検出部を更に備えることを特徴とする。

また、本発明の一態様は、上記の障害検出装置において、前記障害発生検出部は、前記発生エラーに関連する項目毎に過去の発生エラー数を取得し、前記障害発生検出部による障害発生の検出は、前記項目毎に現時刻の発生エラー数を集計し、該集計した項目毎の発生エラー数を対応する前記項目毎の過去の発生エラー数と比較することにより行われることを特徴とする。

また、本発明の一態様は、障害検出装置が実行する障害検出方法であって、ＳＩＰ信号の通信に関する統計情報に基づいて、ＳＩＰサーバ間の経路毎の発生エラー数を推定する発生エラー数推定手順と、前記推定された経路毎の発生エラー数に基づいて、ＳＩＰ信号網における障害発生を検出する障害発生検出手順と、を有することを特徴とする障害検出方法である。

また、本発明の一態様は、コンピュータに、ＳＩＰ信号の通信に関する統計情報に基づいて、ＳＩＰサーバ間の経路毎の発生エラー数を推定する発生エラー数推定ステップと、前記推定された経路毎の発生エラー数に基づいて、ＳＩＰ信号網における障害発生を検出する障害発生検出ステップと、を実行させることを特徴とする障害検出プログラムである。

本発明によれば、個々のＳＩＰパケットを解析することなくＳＩＰ信号網における障害箇所を正確に特定することができる。

エラー、発生エラー及び転送エラーを説明するための図である。本実施形態における障害箇所検出システムの概略ブロック図である。正常呼の統計情報とエラー時の統計情報のデータ構造の一例である。本実施形態における障害検出装置の概略ブロック図である。ＳＩＰサーバが経路ｉに対して送信した転送エラーの数Ｔ（ｉ）の算出方法を説明するための図である。発生エラー数推定部により抽出されたＳＩＰサーバＸに関連する統計情報の一例である。図６の統計情報から着番号帯が「０３」であるものが抽出された後の統計情報である。図７の統計情報からエラー番号が「４００」であるものが抽出された後の統計情報である。発生エラーが推定された後の統計情報の一例である。図９の例において送信側アドレス／エラー番号の組み合わせ毎に集計された発生エラー数を示した図である。統計情報記憶部に記憶されている過去一定期間の平均発生エラー数の一例である。統計情報から経路毎に分計された後の発生エラー数の一例である。本実施形態における障害検出装置の処理全体の流れを示すフローチャートである。図１３のステップＳ１０３における発生エラー数推定部の処理の詳細を示すフローチャートである。図１３のステップＳ１０４における障害発生検出部の処理の詳細を示すフローチャートである。図１３のステップＳ１０５における障害箇所特定部の処理の詳細を示すフローチャートである。

以下、本発明の実施形態について、図面を参照して詳細に説明する。まず、本実施形態で使う単語の意味について説明する。本実施形態では、「呼」はＳＩＰのＩＮＶＩＴＥメッセージ（以後、ＩＮＶＩＴＥとも称す）を意味する。また、「着番号帯」は、呼の着信先を表す番号における特定の上位桁分を意味する。

図１は、エラー、発生エラー及び転送エラーを説明するための図である。同図において、端末１０と、ＳＩＰサーバ２０と、ＳＩＰサーバ３０と、ＳＩＰサーバ４０とが示されている。端末１０は、ＩＮＶＩＴＥをＳＩＰサーバ２０へ送信する。ＳＩＰサーバ２０は、端末１０からＩＮＶＩＴＥを受信すると、受信したＩＮＶＩＴＥをＳＩＰサーバ３０へ転送する。ＳＩＰサーバ３０は、ＳＩＰサーバ２０からＩＮＶＩＴＥを受信すると、受信したＩＮＶＩＴＥをＳＩＰサーバ４０へ転送する。

ＳＩＰサーバ４０がＳＩＰサーバ３０からＩＮＶＩＴＥを受信した時に、ＳＩＰサーバ４０に障害が発生していた場合、ＳＩＰサーバ４０はエラーメッセージをＳＩＰサーバ３０に送信する。ＳＩＰサーバ３０は、ＳＩＰサーバ４０からエラーメッセージを受信すると、それをＳＩＰサーバ２０へ転送する。ＳＩＰサーバ２０は、ＳＩＰサーバ３０からエラーメッセージを受信すると、それを端末１０へ転送する。

すなわち、ＳＩＰサーバ４０で発生したエラーは、ＩＮＶＩＴＥが経由してきたＳＩＰサーバを辿って端末１０まで転送される。このとき、発生元のＳＩＰサーバ４０が送信するエラーメッセージを「発生エラー」、途中のＳＩＰサーバ（２０、３０）によって転送されるエラーメッセージを「転送エラー」と呼ぶ。また、単に「エラー」と呼ぶ場合には、発生エラーと転送エラーとを包含するエラーメッセージを意味する。

「経路」は、呼やエラーが送信／転送される通信経路を意味する。「送信側サーバ／受信側サーバ」は、ある経路における、呼やエラーの送信側／受信側それぞれのＳＩＰサーバを意味する。また、ある経路において呼やエラーを送信／受信する装置のＩＰアドレスを、「送信側アドレス」及び「受信側アドレス」と称する。

一般にＳＩＰ信号では、エラーの発生メカニズムを大きく２つに分類できる。ひとつは、呼を受信したＳＩＰサーバに起因するエラーである「サーバ型エラー」と称する。もうひとつは、呼を送信したＳＩＰサーバに起因するエラーである「クライアント型エラー」と称する。具体的には、サーバ型エラーは、障害等が発生しているＳＩＰサーバが受信した正常な呼に応答してエラーを送信する場合のエラーである。一方、クライアント型エラーは、あるＳＩＰサーバが異常なＩＮＶＩＴＥを送信したために、送信先の正常なＳＩＰサーバからエラーが返ってくる場合のエラーである。

図２は、本実施形態における障害箇所検出システム１の概略ブロック図である。障害箇所検出システム１は、ＳＩＰ信号網１００と、ＳＩＰ信号収集装置２００と、障害検出装置３００とを備える。
ＳＩＰ信号網１００は、障害箇所の切り分け対象となるネットワークである。
ＳＩＰ信号網１００は、ＳＩＰサーバ１０１、…、１０８までの８台のＳＩＰサーバを備える。各ＳＩＰサーバは、他のＳＩＰサーバと接続されている。例えば、ＳＩＰサーバ１０１は、ＳＩＰサーバ１０２、１０４、１０５及び１０７と接続されている。

各ＳＩＰサーバは、一例として以下の処理を行う。各ＳＩＰサーバは、着番号帯毎に転送先が設定された呼転送情報を自ＳＩＰサーバが備える記憶部に記憶する。各ＳＩＰサーバは、他のＳＩＰサーバから呼を受信すると、呼転送情報を参照し、受信した呼の着番号帯に合致する転送先に呼を転送する。またエラーが発生した場合には、各ＳＩＰサーバは、呼が転送されてきた経路を遡ってエラーを転送する。各ＳＩＰサーバは、自ＳＩＰサーバにおける呼やエラーの転送処理を全てＳＩＰログに記録する。

なお、本実施形態では、ＳＩＰ信号網１００は８台のＳＩＰサーバを備えるとしたが、これに限らず、２台以上のＳＩＰサーバを備えていればよい。

ＳＩＰ信号収集装置２００は、一例として以下の処理を行う。ＳＩＰ信号収集装置２００は、ＳＩＰ信号網を構成する全てのＳＩＰサーバ（１０１〜１０８）と通信ネットワークにより接続しており、定期的に各ＳＩＰサーバからＳＩＰログを収集する。ＳＩＰ信号収集装置２００は、収集したＳＩＰログの情報を基に、ＳＩＰサーバ毎の単位時間毎の通信に関する統計情報を生成する。ここで、通信に関する統計情報とは、正常に応答している呼の送受信数（以下、正常呼数と称す）、呼の転送途中でエラーが発生している呼の送受信数、エラーメッセージの送受信数（以下、エラー数と称す）などを意味する。

本実施形態におけるＳＩＰ信号収集装置２００は、正常呼数とエラー数とを集計する。具体的には、ＳＩＰ信号収集装置２００は、正常呼について「経路」／「着番号帯」の組み合わせ毎に送受信数を集計する。一方、ＳＩＰ信号収集装置２００は、エラーについて「経路」／「着番号帯」／「エラー番号」の組み合わせ毎に送受信数を集計する。そして、ＳＩＰ信号収集装置２００は、生成した統計情報を、障害検出装置３００に送信する。

障害検出装置３００は、ＳＩＰ信号の統計情報を基に、障害箇所を特定する。障害検出装置３００は、ＳＩＰ信号収集装置２００から受信したＳＩＰ信号の統計情報を基に、発生エラー数の推定、障害発生の検出、障害箇所の特定を実施する。また、障害検出装置３００は、障害発生の検出のために、過去一定期間のＳＩＰ信号の統計情報を保持する。

ここで、本実施形態における通信に関する統計情報のデータ構造の一例について説明する。統計情報は、正常呼の数とエラーの数をそれぞれ集計する２つの情報に大別され、それらは図３のデータ構造で表される。

図３は、正常呼の統計情報とエラーの統計情報のデータ構造の一例である。図３（Ａ）は、正常呼の統計情報のデータ構造の一例である。図３（Ａ）において、正常呼の統計情報のデータは、開始時刻、終了時刻、送信側アドレス、受信側アドレス、着番号帯及び呼数の組で表される。
図３（Ｂ）は、エラーの統計情報のデータ構造の一例である。図３（Ｂ）において、エラー時の統計情報のデータは、開始時刻、終了時刻、送信側アドレス、受信側アドレス、着番号帯、エラー番号及びエラー数の組で表される。

ここで、統計情報は、単位時間毎にＳＩＰログ収集装置２００で生成されるが、図３中の「開始時刻」／「終了時刻」は、統計情報が生成される単位時間の開始時刻と終了時刻を表す。
図３（Ａ）に示された正常呼の統計情報は、単位時間毎、経路毎、着番号帯毎に、呼数を集計したものである。このとき、エラーとなった呼については、集計の対象外とする。図３（Ｂ）に示されたエラーの統計情報は、単位時間毎、経路毎、着番号帯毎、エラー番号毎に、エラーの数を集計したものである。なお、エラーの送受信の向きは、呼の送受信の方向に対して逆向きとなる。

なお、このデータ構造は後述する具体的な処理方法の説明で利用するが、必要に応じて一部の列を省略するとともに、「呼数」と「エラー数」については、特定のグループ化条件においてそれぞれを集計した数として表記するものとする。また「エラー数」について、ＳＩＰログ収集装置２００から受信した時点では、転送エラーと発生エラーの合計数となっているが、障害検出装置３００における発生エラー数推定処理を実施した以降については、推定された発生エラーの数として表記するものとする。

図４は、本実施形態における障害検出装置３００の概略ブロック図である。障害検出装置３００は、統計情報受信部３０１と、統計情報記憶部３０２と、発生エラー数推定部３０３と、障害発生検出部３０４と、障害箇所特定部３０５とを備える。
統計情報受信部３０１は、ＳＩＰログ収集装置２００から統計情報を受信し、受信した統計情報を統計情報記憶部３０２に格納する。また、統計情報受信部３０１は、受信した統計情報を発生エラー数推定部３０３に出力する。

統計情報記憶部３０２は、ＳＩＰログ収集装置２００から受信したＳＩＰ信号の統計情報を保持する。また、統計情報記憶部３０２は、発生エラー数推定部３０３において算出した過去の発生エラー数を示す過去発生エラー数情報を、障害発生検出部３０４にて必要とされる一定期間分、保持する。

発生エラー数推定部３０３は、統計情報受信部３０１から受信した統計情報に基づいて、各ＳＩＰサーバにおける発生エラー数の推定（以下、発生エラー数推定処理とも称す）を行う。発生エラー数推定処理の詳細については、後述する。
発生エラー数推定部３０３は、発生エラー数を、「経路」／「エラー番号」／「着番号帯」の組み合わせ毎に算出する。発生エラー数推定部３０３は、算出した発生エラー数を示す発生エラー数情報を統計情報記憶部３０２に格納されている過去の発生エラー数情報に追記する。また、発生エラー数推定部３０３は、発生エラー数情報を障害発生検出部３０４に出力する。

障害発生検出部３０４は、発生エラー数推定部３０３から入力された発生エラー数情報が示す発生エラー数を、「送信側アドレス」／「エラー番号」の組み合わせ又は「受信側アドレス」／「エラー番号」の組み合わせ毎に集計する。そして、障害発生検出部３０４は、集計した発生エラー数を統計情報記憶部３０２に保持されている過去一定期間の発生エラー数の平均（以後、平均発生エラー数と称する）と比較することにより、障害の発生の検出（以下、障害発生検出処理とも称す）を行う。障害発生検出処理の詳細については、後述する。

障害発生検出部３０４は、検出により得られた障害の発生を示す障害発生情報を障害箇所特定部３０５に出力する。これにより、障害発生として検出されたものについては、障害箇所特定部３０５により障害箇所が特定される。

障害箇所特定部３０５は、障害発生検出部３０４にて障害発生が検出されたものについて、該発生エラーを送信（又は受信）している経路と該発生エラーの送信数（又は受信数）とに基づいて、障害箇所の特定（以下、障害箇所特定処理とも称す）を行う。障害箇所特定部３０５における障害箇所の特定処理の詳細は、後述する。障害箇所特定部３０５は、特定した障害箇所を示す障害箇所情報を自装置の外部へ出力する。

＜発生エラー数推定処理の原理＞
続いて、発生エラー数推定処理の原理について説明する。以降、説明のため、下記の定義を用いる。なお、正常呼とエラーの送受信の向きは逆である。あるＳＩＰサーバＸが経路ｉから受信した正常呼の数がＮＩ（ｉ）である。また、あるＳＩＰサーバＸが経路ｉから受信したエラーの数がＥＩ（ｉ）である。あるＳＩＰサーバＸが経路ｉに対して送信したエラーの数がＥＯ（ｉ）である。また、あるＳＩＰサーバＸが経路ｉに対して送信したエラーのうち、転送エラーの数がＴ（ｉ）である。また、あるＳＩＰサーバＸが経路ｉに対して送信したエラーのうち、発生エラーの数がＧ（ｉ）である。上記のうち、正常呼の数ＮＩ（ｉ）、受信したエラーの数ＥＩ（ｉ）、送信したエラーの数ＥＯ（ｉ）については、ＳＩＰログ収集装置２００から受信する統計情報に含まれる。

発生エラー数推定部３０３は、あるＳＩＰサーバＸが経路ｉに対して送信した転送エラーの数Ｔ（ｉ）は、あるＳＩＰサーバＸが予め決められた単位時間あたりに全経路から受信したエラーの合計数に、そのＳＩＰサーバＸがその単位時間あたりに全経路から受信した正常呼の合計数に対するそのＳＩＰサーバＸがその単位時間あたりに経路ｉから受信した正常呼の数の割合を乗じることにより算出する。
具体的には、発生エラー数推定部３０３は、あるＳＩＰサーバＸが経路ｉに対して送信した転送エラーの数Ｔ（ｉ）を、経路毎に、以下の式（１）に従って算出する。

ここで、ΣＥＩ（Ｘ）及びΣＮＩ（Ｘ）は、それぞれＳＩＰサーバＸが全経路から受信したエラーの合計数及びＳＩＰサーバＸが全経路から受信した正常呼の合計数である。
なお、式（１）は確率的に確からしい値として算出しているため、統計情報によっては式（１）の計算結果において転送エラーの数が送信エラーの数より大きくなる（すなわちＴ（ｉ）＞ＥＯ（ｉ））となる経路が発生しうる。この場合には、発生エラー数推定部３０３は、該経路においてＴ（ｉ）の値をＥＯ（ｉ）とする。

このとき、受信したエラーの合計数と転送エラーの合計数に差分が発生するため、発生エラー数推定部３０３は、その差分をＴ（ｉ）がＥＯ（ｉ）より小さい経路に対して分配する。
具体的には、例えば、発生エラー数推定部３０３は、各経路に分配される転送エラーの数をＴ´（ｉ）とすると、Ｔ´（ｉ）を以下の式に従って、算出する。

ここで、ΣＮＩ（ｙ）は、ＳＩＰサーバＸにおけるＴ（ｉ）がＥＯ（ｉ）より小さい経路における正常呼の合計数である。発生エラー数推定部３０３は、この式で求めたＴ´（ｉ）をＴ（ｉ）に加算したものを、新たにＴ（ｉ）とする。また、これによってＴ（ｉ）がＥＯ（ｉ）より大きい経路が再度発生する場合には、発生エラー数推定部３０３は、Ｔ（ｉ）がＥＯ（ｉ）より大きい経路が全てなくなる（ΣＴ（ｘ）＝ΣＥＩ（ｘ）となる）まで前述の処理を繰り返す。

続いて、発生エラーの数Ｇ（ｉ）は、送信エラーの数ＥＯ（ｉ）から転送エラーの数Ｔ（ｉ）を引いたものであるから、発生エラー数推定部３０３は、経路毎に、発生エラーの数Ｇ（ｉ）を以下の式（３）に従って算出する。

以上、発生エラー数推定部３０３は、あるＳＩＰサーバが経路毎に受信したエラーの数と、該ＳＩＰサーバが経路毎に受信した正常呼の数とに基づいて、該ＳＩＰサーバが経路毎に送信した転送エラー数を算出し、該算出した転送エラー数と該ＳＩＰサーバが経路毎に送信したエラーの数とに基づいて、該ＳＩＰサーバが送信する発生エラー数を推定する。

続いて、上記、発生エラー数推定部３０３による転送エラーの数Ｔ（ｉ）の算出方法を、図５の例を用いて説明する。
図５は、ＳＩＰサーバ５４が経路ｉに対して送信した転送エラーの数Ｔ（ｉ）の算出方法を説明するための図である。同図において、ＳＩＰサーバ５１、５２、５３、５４、５５、５６及び５７の７つのＳＩＰサーバが示されている。ここで、実線は正常呼を表し、破線はエラーを表す。以後、ＳＩＰサーバＸからＳＩＰサーバＺへの経路を経路Ｘ→Ｚと記載する。

同図において、経路５１→５４のエラーの数ＥＩ（５１→５４）は５個であり、経路５２→５４のエラーの数ＥＩ（５２→５４）は５個であり、経路５３→５４のエラーの数ＥＩ（５３→５４）は１０個であることが示されている
また、同図において、経路５５→５４の正常呼の数ＮＩ（５５→５４）は４個であり、経路５６→５４の正常呼の数ＮＩ（５６→５４）は４個であり、経路５７→５４の正常呼の数ＮＩ（５７→５４）は１２個であることが示されている。

また、同図において、経路５４→５５のエラーの数ＥＯ（５４→５５）は２０個であり、経路５４→５６のエラーの数ＥＯ（５４→５６）は２０個であり、経路５４→５７のエラーの数ＥＯ（５４→５７）は１０個であることが示されている。

ここで、ＳＩＰサーバ５４が他のＳＩＰサーバから受信したエラーの数の合計数は、２０（＝５＋５＋１０）である。また、ＳＩＰサーバ５４が他のＳＩＰサーバから受信した正常呼の合計数は、２０（＝４＋４＋１２）である。したがって、図５の例の場合、発生エラー数推定部３０３は経路５４→５５の転送エラー数Ｔ（５４→５５）を、４（＝２０×４／２０）と算出する。また、同様に、発生エラー数推定部３０３は経路５４→５６の転送エラー数Ｔ（５４→５６）を、４（＝２０×４／２０）と算出する。また、同様に、発生エラー数推定部３０３は経路５４→５７の転送エラー数Ｔ（５４→５７）を、１２（＝２０×１２／２０）と算出する。

そして、経路５４→５７の転送エラー数Ｔ（５４→５７）が、同じ経路の送信エラー数ＥＯ（５４→５７）より大きいので、経路５４→５７の転送エラー数Ｔ（５４→５７）を経路５４→５７の送信エラー数ＥＯ（５４→５７）である１０とする。
発生エラー数推定部３０３は、ＳＩＰサーバ５４が受信したエラーの合計数２０とＳＩＰサーバ５４が送信した転送エラーの合計数１８に差分２が発生するため、発生エラー数推定部３０３は、その差分２をＴ（ｉ）がＥＯ（ｉ）より小さい経路である経路５４→５５と経路５４→５６に対して分配する。

ここで、ＳＩＰサーバＸにおいてＴ（ｉ）がＥＯ（ｉ）より小さい経路における正常呼の合計数ΣＮＩ（ｙ）は、経路５４→５５の正常呼の数４と経路５４→５６の正常呼の数４の和であり、その値は８である。
ゆえに、発生エラー数推定部３０３は、経路５４→５５の経路に分配される転送エラーの数Ｔ´（５４→５５）を１（＝（２０−１８）×４／８）と算出する。発生エラー数推定部３０３は、経路５４→５５の転送エラーの数Ｔ（５４→５５）の値４に経路５４→５５の経路に分配される転送エラーの数Ｔ´（５４→５５）の値１を加算した値５を、新たに経路５４→５５の転送エラーの数Ｔ（５４→５５）の値とする。

同様に、発生エラー数推定部３０３は、経路５４→５６の経路に分配される転送エラーの数Ｔ´（５４→５６）を１（＝（２０−１８）×４／８）と算出する。発生エラー数推定部３０３は、経路５４→５６の転送エラーの数Ｔ（５４→５６）の値４に経路５４→５６の経路に分配される転送エラーの数Ｔ´（５４→５６）の値１を加算した値５を、新たに経路５４→５６の転送エラーの数Ｔ（５４→５６）の値とする。

続いて、発生エラー数推定部３０３は、経路５４→５５のエラー数ＥＯ（５４→５５）である２０から経路５４→５５の転送エラー数Ｔ（５４→５５）である５を減算して、経路５４→５５の発生エラー数Ｇ（５４→５５）として１５を算出する。

また、発生エラー数推定部３０３は、経路５４→５６のエラー数ＥＯ（５４→５６）である２０から経路５４→５６の転送エラー数Ｔ（５４→５６）である５を減算して、Ｓ経路５４→５６の発生エラー数Ｇ（５４→５６）として１５を算出する。

また、発生エラー数推定部３０３は、経路５４→５７のエラー数ＥＯ（５４→５７）である１０から経路５４→５７の転送エラー数Ｔ（５４→５７）である１０を減算して、経路５４→５７の発生エラー数Ｇ（５４→５７）として０を算出する。すなわち、発生エラー数推定部３０３は、経路５４→５７の発生エラー数Ｇ（５４→５７）は存在しないと判定する。

＜発生エラー数推定処理の具体例＞
続いて、発生エラー数推定処理について、具体例を用いて説明する。発生エラー数推定部３０３は、繰り返しにより、以下の処理を、ＳＩＰ信号網１００内に存在する全てのＳＩＰサーバについてそれぞれ実施する。まず、発生エラー数推定部３０３が、予め決められた単位時間毎にＳＩＰ信号網１００内のあるＳＩＰサーバであるＳＩＰサーバＸに関連する統計情報を抽出する。具体的には、発生エラー数推定部３０３は、送信側アドレス又は受信側アドレスのいずれかが「Ｘ」である統計情報を抽出する。その場合、例えば図６に示された統計情報が抽出される。ここで、障害検出装置３００が処理中の統計情報が生成された単位時間のことを現時刻と称す。

図６は、発生エラー数推定部３０３により抽出されたＳＩＰサーバＸに関連する統計情報の一例である。図６（Ａ）は、予め決められた単位時間における正常呼の統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯及び呼数（正常呼の数）の組が示されている。例えば、同図の１行目には、送信側アドレスが「Ａ」で、受信側アドレスが「Ｘ」で、着番号帯が「０２」で、呼数が「１２０」であることが示されている。

図６（Ｂ）は、予め決められた単位時間におけるエラーの統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯、エラー番号及びエラー数の組が示されている。例えば、同図の１行目には、送信側アドレスが「Ｘ」で、受信側アドレスが「Ａ」で、着番号帯が「０２」で、エラー番号が「４００」で、エラー数が「２１」であることが示されている。エラー番号は、サーバ内部エラー、正しくない要求、認証失敗等を一意に表すものである。

続いて、発生エラー数推定部３０３は、ＳＩＰサーバＸに関連する統計情報に含まれる着番号帯を全て抽出する。図６の例の場合、着番号帯として「０２」「０３」「０４」の３種類が抽出されるため、発生エラー数推定部３０３は、繰り返しにより、以降の処理をこれら全ての着番号帯に対してそれぞれ実施する。ここでは着番号帯が「０３」の場合を例に、以降の処理を説明する。

発生エラー数推定部３０３は、ＳＩＰサーバＸに関連する統計情報（図６）から着番号帯が「０３」である統計情報を抽出する。その場合、図７に示される統計情報が抽出される。
図７は、図６の統計情報から着番号帯が「０３」であるものが抽出された後の統計情報である。図７（Ａ）は、予め決められた単位時間における着番号帯が「０３」の正常呼の統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯及び呼数（正常呼の数）の組が示されている。例えば、同図の１行目には、送信側アドレスが「Ｃ」で、受信側アドレスが「Ｘ」で、着番号帯が「０３」で、呼数が「３００」であることが示されている。

図７（Ｂ）は、予め決められた単位時間における着番号帯が「０３」のエラーの統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯、エラー番号及びエラー数の組が示されている。例えば、同図の１行目には、送信側アドレスが「Ｘ」で、受信側アドレスが「Ｃ」で、着番号帯が「０３」で、エラー番号が「４００」で、エラー数が「１６」であることが示されている。

続いて、発生エラー数推定部３０３は、上記で抽出した統計情報に含まれるエラー番号を全て抽出する。この例の場合、エラー番号として「４００」「４０１」の２種類が抽出されるため、発生エラー数推定部３０３は、繰り返しにより、以降の処理をこれら全てのエラー番号に対してそれぞれ実施する。ここではエラー番号が「４００」の場合を例に、以降の処理を説明する。

発生エラー数推定部３０３が、上記で抽出した統計情報（図７）からエラー番号が「４００」である統計情報を抽出する。その場合、図８に示される統計情報が抽出される。
図８は、図７の統計情報からエラー番号が「４００」であるものが抽出された後の統計情報である。図８（Ａ）は、予め決められた単位時間におけるエラー番号が「４００」の正常呼の統計情報の一例である。図８（Ａ）は、図７（Ａ）と同一である。

図８（Ｂ）は、予め決められた単位時間におけるエラー番号が「４００」のエラーの統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯、エラー番号及びエラー数の組が示されている。例えば、同図の１行目には、送信側アドレスが「Ｘ」で、受信側アドレスが「Ｃ」で、着番号帯が「０３」で、エラー番号が「４００」で、エラー数が「１６」であることが示されている。

発生エラー数推定部３０３は、以上により抽出した統計情報を用いて、ＳＩＰサーバＸでの、着番号帯が「０３」、エラー番号が「４００」の組み合わせにおける、経路毎の発生エラー数を推定する。
図８の例では、ＳＩＰサーバＸはＳＩＰサーバＡから３５個のエラーを受信し、ＳＩＰサーバＣ、ＳＩＰサーバＤ及びＳＩＰサーバＥに対して合計５５個のエラーを送信していることから、発生エラー数推定部３０３は、転送エラー数の合計を３５個、発生エラー数の合計を２０個と算出する。

発生エラー数推定部３０３は、経路毎の発生エラー数の推定を、上述した処理に基づき実施する。まず、発生エラー数推定部３０３は、図８の統計情報からＳＩＰサーバＸが受信した各経路における正常呼の数及びエラーの数とＳＩＰサーバＸが各経路に対して送信したエラーの数とを設定する。
具体的には、発生エラー数推定部３０３は、図８（Ａ）の統計情報から、経路Ｃ→Ｘの正常呼の数ＮＩ（Ｃ→Ｘ）を３００に、経路Ｄ→Ｘの正常呼の数ＮＩ（Ｄ→Ｘ）を２４０に、経路Ｅ→Ｘの正常呼の数ＮＩ（Ｅ→Ｘ）を１６０と設定する。また、発生エラー数推定部３０３は、図８（Ｂ）の統計情報から、経路Ａ→Ｘのエラーの数ＥＩ（Ａ→Ｘ）を３５に、経路Ｘ→Ｃのエラーの数ＥＯ（Ｘ→Ｃ）を１６に、経路Ｘ→Ｄのエラーの数ＥＯ（Ｘ→Ｄ）を１０に、経路Ｘ→Ｅのエラーの数ＥＯ（Ｘ→Ｅ）を２９に設定する。

発生エラー数推定部３０３は、これらの値から、経路毎の転送エラー数を、式（１）を用いて以下のように算出する。発生エラー数推定部３０３は、経路Ｘ→Ｃの転送エラーの数Ｔ（Ｘ→Ｃ）を１５（＝３５×３００／（３００＋２４０＋１６０））、経路Ｘ→Ｄの転送エラーの数Ｔ（Ｘ→Ｄ）を１２（＝３５×２４０／（３００＋２４０＋１６０））、経路Ｘ→Ｅの転送エラーの数Ｔ（Ｘ→Ｅ）を８（＝３５×１６０／（３００＋２４０＋１６０））と算出する。

ここで、経路Ｘ→Ｄにおいて、経路Ｘ→Ｄの転送エラーの数Ｔ（Ｘ→Ｄ）が経路Ｘ→Ｄのエラーの数ＥＯ（Ｘ→Ｄ）より大きくなっているため、発生エラー数推定部３０３は、経路Ｘ→Ｄの転送エラーの数Ｔ（Ｘ→Ｄ）を１０とする。これにより、ＳＩＰサーバＸが送信した転送エラーの合計数ΣＴ（Ｘ）は３３となり、ＳＩＰサーバＸが送信したエラー数の合計数ΣＥＩ（Ｘ）＝３５との差分２が発生するため、発生エラー数推定部３０３は、この差分２を残りの経路に配分する。

発生エラー数推定部３０３は、経路毎に配分する転送エラー数を、式（２）を用いて以下のように算出する。なお、ここでの計算結果は小数点以下が発生するため、四捨五入により整数化している。具体的には、発生エラー数推定部３０３は、経路Ｘ→Ｃに配分する転送エラー数Ｔ´（Ｘ→Ｃ）を１（≒２×３００／（３００＋１６０））と、経路Ｘ→Ｅに配分する転送エラー数Ｔ´（Ｘ→Ｅ）を１（≒２×１６０／（３００＋１６０））と算出する。

これにより、発生エラー数推定部３０３は、経路毎の転送エラー数を以下のように算出する。発生エラー数推定部３０３は、経路Ｘ→Ｃの転送エラー数Ｔ（Ｘ→Ｃ）を１６（＝１５＋１）と、経路Ｘ→Ｅの転送エラー数Ｔ（Ｘ→Ｅ）を９（＝８＋１）と算出する。

よって、発生エラー数推定部３０３は、経路毎の発生エラー数を、式（３）を用いて以下のように算出する。発生エラー数推定部３０３は、経路Ｘ→Ｃの発生エラー数Ｇ（Ｘ→Ｃ）を０（＝１６−１６）と、経路Ｘ→Ｄの発生エラー数Ｇ（Ｘ→Ｄ）を０（＝１０−１０）と、経路Ｘ→Ｅの発生エラー数Ｇ（Ｘ→Ｅ）を２０（＝２９−９）と算出する。

＜障害発生検出処理の具体例＞
発生エラー数推定部３０３による発生エラー数の推定により、図９に示す発生エラーが推定された場合を例に、障害発生検出処理について説明する。
図９は、発生エラーが推定された後の統計情報の一例である。同図において、送信側アドレス、受信側アドレス、着番号帯、エラー番号及び発生エラー数の組が示されている。例えば、同図の第１行目には、送信側アドレスが「Ｘ」で、受信側アドレスが「Ａ」で、着番号帯が「０２」で、エラー番号が「４００」で、発生エラー数が「２０」であることが示されている。

障害発生検出部３０４は、推定された発生エラーにおいて送信側アドレス／エラー番号の組み合わせ毎に、発生エラー数を集計する。図９の例の場合、集計した結果は図１０のようになる。
図１０は、図９の例において送信側アドレス／エラー番号の組み合わせ毎に集計された発生エラー数を示した図である。同図において、送信側アドレス、エラー番号及び発生エラー数の組が示されている。例えば、同図の１行目には、送信側アドレスが「Ｘ」で、エラー番号が「４００」で、発生エラー数が「６１」であることが示されている。

障害発生検出部３０４は、繰り返しにより、以降の処理を、これら全ての送信側アドレス／エラー番号の組み合わせに対してそれぞれ実施する。ここでは送信側アドレス／エラー番号の組み合わせが「Ｘ」／「４００」の場合を例に、以降の処理を説明する。
障害発生検出部３０４は、送信側アドレス／エラー番号の組み合わせ毎に、過去一定期間の平均発生エラー数を、統計情報記憶部３０２から取得する。そして、障害発生検出部３０４は、送信側アドレス／エラー番号の組み合わせ毎に、過去一定期間の平均発生エラー数に対する現時刻における発生エラー数の比率を算出する。

図１１は、統計情報記憶部３０２に記憶されている過去一定期間の平均発生エラー数の一例である。同図において、送信側アドレス／エラー番号の組み合わせ毎に、過去一定期間の平均発生エラー数が示されている。例えば、同図の１行目には、送信側アドレスが「Ｘ」とエラー番号が「４００」の組み合わせで、過去一定期間の平均発生エラー数が「８」であることが示されている。

以下、統計情報記憶部３０２から取得した送信側アドレス／エラー番号の組み合わせ毎の過去一定期間の平均発生エラー数が図１１に示された値を示す場合を一例にして説明する。
例えば、障害発生検出部３０４は、図１０の１行目の発生エラー数と図１１の１行目の過去一定期間の平均発生エラー数とを用いて、送信側アドレス／エラー番号の組み合わせが「Ｘ」／「４００」の発生エラーについて、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率７．６２５（＝６１／８）を算出する。

障害発生検出部３０４は、「送信側アドレス」／エラー番号の組み合わせ毎に、算出した比率に基づいて、障害が発生したか否か判定する。具体的には、例えば、障害発生検出部３０４は、算出した比率が予め決められた閾値以上である場合、障害が発生したと判定する。一方、障害発生検出部３０４は、算出した比率が予め決められた閾値未満である場合、その送信側アドレス／エラー番号の組み合わせにおいて障害が発生したと判定しない。
ここで、例えば閾値が３．０の場合、送信側アドレス／エラー番号の組み合わせが「Ｘ」／「４００」の発生エラーは、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率７．６２５が閾値３．０を超えているため、障害発生検出部３０４は、障害が発生したと判定する。

上記の例における他の組み合わせについて補足すると、送信側アドレス／エラー番号の組み合わせが「Ａ」／「４００」の発生エラーは、前述の比率が３．０に満たないため、障害発生検出部３０４は、その送信側アドレス／エラー番号の組み合わせ（「Ａ」／「４００」）では障害が発生したと判定しない。
また、送信側アドレス／エラー番号の組み合わせが「Ａ」／「５００」の発生エラーは、過去一定期間の平均が０であるため、障害発生検出部３０４は、前述の比率が計算できない（比率が＋∞となる）。この場合、障害発生検出部３０４は、現時刻の発生エラー数が予め決められた一定数以上である場合に、障害が発生したと判定する。

なお、障害発生検出部３０４は、過去一定期間の平均が０である場合、一律に障害が発生したと判定してもよい。

障害発生検出部３０４は、上記の例の「送信側アドレス」を「受信側アドレス」に置き換えることで、上記の同様の処理を行う。具体的には、障害発生検出部３０４は、「受信側アドレス」／エラー番号の組み合わせ毎に、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率を算出する。そして、障害発生検出部３０４は、「受信側アドレス」／エラー番号の組み合わせ毎に、算出した比率に基づいて、障害が発生したか否か判定する。

障害発生検出部３０４は、障害が発生したと判定した全ての送信側アドレス／エラー番号の組み合わせと、障害が発生したと判定した全ての受信側アドレス／エラー番号の組み合わせとを障害箇所特定部３０５に出力する。

＜障害箇所特定処理の具体例＞
続いて、障害箇所特定処理の詳細を、具体例を用いて説明する。
障害箇所特定部３０５は、繰り返しにより、下記の処理を、障害発生検出部３０４により障害が発生したと判定された全ての送信側アドレス／エラー番号の組み合わせ、及び障害発生検出部３０４により障害発生と判定された全ての受信側アドレス／エラー番号の組み合わせのそれぞれに対して実施する。ここでは、送信側アドレス／エラー番号が「Ｘ」／「４００」の場合を例に、以降の処理を説明する。
まず、障害箇所特定部３０５は、障害発生と判定された「送信側アドレス」と「エラー番号」の組み合わせ又は障害発生と判定された「受信側アドレス」と「エラー番号」の組み合わせ毎に発生エラー数を経路毎に分計する。

図１２は、統計情報から経路毎に分計された後の発生エラー数の一例である。同図において、送信側アドレス、受信側アドレス、エラー番号及び発生エラー数の組が示されている。例えば、同図の１行目には、送信側アドレスが「Ｘ」で、受信側アドレスが「Ａ」で、エラー番号が「４００」で、発生エラー数が「２０」であることが示されている。

続いて、障害箇所特定部３０５は、特定のエラー番号についての発生エラーを送信（又は受信）している経路数と該特定のエラー番号についての発生エラーの経路毎の送信数（又は受信数）とに基づいて、障害箇所を特定する。具体的には、例えば、障害箇所特定部３０５は、分計した発生エラー数が、予め決められた発生エラー閾値以上である経路数を算出する。例えば、発生エラー閾値が１０の場合、その経路数は経路Ｘ→Ａ、経路Ｘ→Ｂ及び経路Ｘ→Ｅの３経路である。

なお、発生エラー閾値は、あるサーバＸが予め決められた単位時間に送信するエラー数の総数に対する割合に基づいて、決められていてもよい。具体的には、例えば、図１２の例において、送信側アドレスがＸでエラー番号が４００の組み合わせにおける発生エラー数の総数が６１であるが、発生エラー閾値は、その発生エラー数の総数の１０％である６であってもよい。

障害箇所特定部３０５は、算出した経路数が予め決められた経路閾値以上である場合、その送信側アドレスを有するＳＩＰサーバをサーバ型エラーの障害箇所として特定する。例えば、上記の経路閾値が３である場合、障害箇所特定部３０５は、送信側アドレスが「Ｘ」であるＳＩＰサーバをエラー番号「４００」に関するサーバ型エラーの障害箇所として特定する。一方、障害箇所特定部３０５は、算出した経路数が予め決められた経路閾値未満であれば、その送信側アドレスを有するＳＩＰサーバをサーバ型エラーの障害箇所として特定しない。

また、システム全体で一律の発生エラー閾値を設定するだけでなく、ＳＩＰサーバやエラー番号毎に個別に発生エラー閾値を設定してもよい。これにより、障害箇所特定部３０５は、エラー発生数の特性が異なる場合においても、柔軟に障害箇所を特定することができる。

障害箇所特定部３０５は、上記の例の「送信側アドレス」を「受信側アドレス」に置き換えることで同様の処理を行う。但し、このときに障害箇所特定部３０５により検出される障害箇所は、クライアント型エラーの障害箇所である。具体的には、障害箇所特定部３０５は、算出した経路数が予め決められた経路閾値以上であれば、その受信側アドレスを有するＳＩＰサーバをクライアント型エラーの障害箇所として特定する。一方、障害箇所特定部３０５は、算出した経路数が予め決められた経路閾値未満であれば、その受信側アドレスを有するＳＩＰサーバをクライアント型エラーの障害箇所として特定しない。

なお、本実施形態では、障害箇所特定部３０５は、障害発生として検出された「送信側アドレス」と「エラー番号」の組み合わせ又は「受信側アドレス」と「エラー番号」の組み合わせ毎に発生エラー数を経路毎に分計したが、これに限ったものではない。障害箇所特定部３０５は、障害発生として検出された「送信側アドレス」又は「受信側アドレス」毎に発生エラー数を経路毎に分計してもよい。

換言すれば、障害箇所特定部３０５による障害箇所の特定は、障害発生検出部３０４により障害発生が検出された送信側サーバ又は障害発生検出部３０４により障害発生が検出された受信側サーバの発生エラー数を経路毎に分計し、該経路毎に分計した発生エラー数に基づいて行われてもよい。

また、本実施形態では、障害箇所特定部３０５は、分計した発生エラー数が予め決められた発生エラー閾値以上である経路数に基づいて、障害箇所を特定したが、これに限ったものではない。
障害箇所特定部３０５は、障害発生検出部３０４により障害発生が検出された送信側サーバ及び該送信側サーバが送信する発生エラーが含まれる経路、又は障害発生検出部３０４により障害発生が検出された受信側サーバ及び該受信側サーバが受信する発生エラーが含まれる経路に基づいて、障害箇所を特定すればよい。

図１３は、本実施形態における障害検出装置３００の処理全体の流れを示すフローチャートである。障害検出装置３００は、以下の処理を予め決められた単位時間毎に繰り返して実施する（ステップＳ１０１）。まず、統計情報受信部３０１は、統計情報を受信する（ステップＳ１０２）。次に、発生エラー数推定部３０３は、発生エラー数を推定する（ステップＳ１０３）。次に、障害発生検出部３０４は、障害発生を検出する（ステップＳ１０４）。次に、障害箇所特定部３０５は、障害箇所を特定する（ステップＳ１０５）。以上で、本フローチャートの処理を終了する。

図１４は、図１３のステップＳ１０３における発生エラー数推定部３０３の処理の詳細を示すフローチャートである。発生エラー数推定部３０３は、全てのＳＩＰサーバに対してそれぞれステップＳ３０２からステップＳ３０７までの処理を実施する（ステップＳ３０１）。まず、発生エラー数推定部３０３は、統計情報から現在対象となっているＳＩＰサーバに関連するものを抽出する（ステップＳ３０２）。

発生エラー数推定部３０３は、ステップＳ３０２において抽出した統計情報に対して、その統計情報に含まれる「着番号帯」に対してそれぞれステップＳ３０４からステップＳ３０７までの処理を実施する（ステップＳ３０３）。発生エラー数推定部３０３は、抽出後の統計情報から現在対象となっている「着番号帯」を含むものを抽出する（ステップＳ３０４）。

次に、発生エラー数推定部３０３は、ステップＳ３０４において抽出した統計情報に対して、その統計情報に含まれる全ての「エラー番号」に対してそれぞれ以下の処理を実施する（ステップＳ３０５）。まず、発生エラー数推定部３０３は、「着番号帯」が抽出後の統計情報から現在対象となっている「エラー番号」を含むものを抽出する（ステップＳ３０６）。次に、発生エラー数推定部３０３は、現在対象となっているＳＩＰサーバで、現在対象となっている「着番号帯」と「エラー番号」の組み合わせにおける、経路毎の発生エラー数の推定処理を行う（ステップＳ３０７）。発生エラー数推定部３０３は、全てのＳＩＰサーバで、全ての「着番号帯」と「エラー番号」の組み合わせで、上記処理を実施した場合、図１３のステップＳ１０３における発生エラー数推定処理を終了する。

図１５は、図１３のステップＳ１０４における障害発生検出部３０４の処理の詳細を示すフローチャートである。障害発生検出部３０４は、発生エラーの「送信側アドレス」と「エラー番号」の組み合わせ毎に、発生エラー数を集計する（ステップＳ４０１）。次に、障害発生検出部３０４は、全ての発生エラーの「送信側アドレス」と「エラー番号」の組み合わせに対してステップＳ４０３からステップＳ４０５までの処理を実施する（ステップＳ４０２）。

障害発生検出部３０４は、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率を算出する（ステップＳ４０３）。次に、障害発生検出部３０４は、算出した比率が閾値以上か否か判定する（ステップＳ４０４）。比率が閾値以上の場合（ステップＳ４０４ＹＥＳ）、障害発生検出部３０４は、障害が発生したと判定する（ステップＳ４０５）。そして、障害発生検出部３０４は、次の「送信側アドレス」と「エラー番号」の組み合わせがある場合、ステップＳ４０３の処理に戻る。

一方、比率が閾値未満の場合（ステップＳ４０４ＮＯ）、障害発生検出部３０４は、次の「送信側アドレス」と「エラー番号」の組み合わせがある場合、ステップＳ４０３の処理に戻る。障害発生検出部３０４は、全ての発生エラーの「送信側アドレス」と「エラー番号」の組み合わせに対してステップＳ４０３からステップＳ４０５までの処理を実施した場合、ステップＳ４０６の処理に進む。

次に、障害発生検出部３０４は、発生エラーの「受信側アドレス」と「エラー番号」の組み合わせ毎に、発生エラー数を集計する（ステップＳ４０６）。次に、障害発生検出部３０４は、全ての発生エラーの「受信側アドレス」と「エラー番号」の組み合わせに対してステップＳ４０８からステップＳ４１０までの処理を実施する（ステップＳ４０７）。障害発生検出部３０４は、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率を算出する（ステップＳ４０８）。

次に、障害発生検出部３０４は、算出した比率が閾値以上か否か判定する（ステップＳ４０９）。比率が閾値以上の場合（ステップＳ４０９ＹＥＳ）、障害発生検出部３０４は、障害が発生したと判定する（ステップＳ４１０）。そして、障害発生検出部３０４は、次の「受信側アドレス」と「エラー番号」の組み合わせがある場合、ステップＳ４０８の処理に進む。

一方、比率が閾値未満の場合（ステップＳ４０９ＮＯ）、障害発生検出部３０４は、次の「受信側アドレス」と「エラー番号」の組み合わせがある場合、ステップＳ４０８の処理に進む。障害発生検出部３０４は、全ての発生エラーの「受信側アドレス」と「エラー番号」の組み合わせに対してステップＳ４０８からステップＳ４１０までの処理を実施した場合、図１３のステップＳ１０４における障害発生検出部３０４の処理を終了する。

図１６は、図１３のステップＳ１０５における障害箇所特定部３０５の処理の詳細を示すフローチャートである。まず、障害箇所特定部３０５は、障害が発生したと判定された「送信側アドレス」と「エラー番号」の全ての組み合わせに対してステップＳ５０２からステップＳ５０５までの処理を実施する（ステップＳ５０１）。まず、障害箇所特定部３０５は、発生エラー数を、経路毎に分計する（ステップＳ５０２）。

次に、障害箇所特定部３０５は、分計した発生エラー数が、予め決められた発生エラー閾値以上である経路数を算出する（ステップＳ５０３）。次に、障害箇所特定部３０５は、算出した経路数が予め決められた経路閾値以上か否か判定する（ステップＳ５０４）。経路数が経路閾値以上である場合（ステップＳ５０４ＹＥＳ）、障害箇所特定部３０５は、その送信側アドレスを有するＳＩＰサーバをサーバ型エラーの障害箇所として特定する（ステップＳ５０５）。そして、障害箇所特定部３０５は、次の「送信側アドレス」と「エラー番号」の組み合わせがある場合、ステップＳ５０２の処理に戻る。

一方、経路数が経路閾値未満である場合（ステップＳ５０４ＮＯ）、障害箇所特定部３０５は次の「送信側アドレス」と「エラー番号」の組み合わせがある場合、ステップＳ５０２の処理に戻る。障害箇所特定部３０５は、全ての発生エラーの「送信側アドレス」と「エラー番号」の組み合わせに対してステップＳ５０２からステップＳ５０５までの処理を実施した場合、ステップＳ５０６の処理に進む。

次に、障害箇所特定部３０５は、障害が発生したと判定された「受信側アドレス」と「エラー番号」の全ての組み合わせに対してステップＳ５０７からステップＳ５１０までの処理を実施する（ステップＳ５０６）。まず、障害箇所特定部３０５は、発生エラー数を、経路毎に分計する（ステップＳ５０７）。

次に、障害箇所特定部３０５は、分計した発生エラー数が、予め決められた発生エラー閾値以上である経路数を算出する（ステップＳ５０８）。次に、障害箇所特定部３０５は、算出した経路数が予め決められた経路閾値以上か否か判定する（ステップＳ５０９）。経路数が経路閾値以上である場合（ステップＳ５０９ＹＥＳ）、障害箇所特定部３０５は、その受信側アドレスを有するＳＩＰサーバをクライアント型エラーの障害箇所として特定する（ステップＳ５１０）。そして、障害箇所特定部３０５は、次の「受信側アドレス」と「エラー番号」の組み合わせがある場合、ステップＳ５０７の処理に戻る。

一方、経路数が経路閾値未満である場合（ステップＳ５０９ＮＯ）次の「受信側アドレス」と「エラー番号」の組み合わせがある場合、ステップＳ５０７の処理に戻る。障害箇所特定部３０５は、全ての発生エラーの「受信側アドレス」と「エラー番号」の組み合わせに対してステップＳ５０７からステップＳ５１０までの処理を実施した場合、図１３のステップＳ１０５における障害箇所特定部３０５の処理を終了する。

＜効果＞
以上、本実施形態の障害検出装置３００は、統計情報を用いてＳＩＰ信号網の障害を検出するので、分析対象となるデータ量を削減して大規模網をリアルタイムに監視することができる。
また、本実施形態の障害検出装置３００は、分析対象となるデータから個人情報を排除し、統計情報のみに基づいて障害を検出するので、セキュリティ面でも安全に運用することができる。

本実施形態の障害検出装置３００は、障害が発生したと判定された送信側アドレス／エラー番号の組及び障害が発生したと判定された受信側アドレス／エラー番号の組、それぞれの組み合わせに対して発生エラー数を集計する。すなわち、障害検出装置３００は、送信と受信とを分けて、エラー番号毎であって経路毎の発生エラー数を集計する。そして障害検出装置３００は、あるＳＩＰサーバが特定のエラー番号の発生エラーを送信している数が予め決められた閾値を超えた経路の数に基づいて、あるＳＩＰサーバがサーバ型エラーであるか否か判定する。また、障害検出装置３００は、あるＳＩＰサーバが特定のエラー番号の発生エラーを受信している数が予め決められた閾値を超えた経路の数に基づいて、あるＳＩＰサーバがクライアント型エラーであるか否か判定する。
これにより、障害検出装置３００は、エラーが発生しているＳＩＰサーバを検出するだけでなく、サーバ型エラーの障害箇所かクライアント型エラーの障害箇所かを区分けして、障害箇所を特定することができる。

また、本実施形態の障害検出装置３００は、統計情報に対して、「着番号帯」と「エラー番号」の組み合わせ毎に経路毎の発生エラー数を推定し、推定した発生エラー数を「送信側アドレス」と「エラー番号」の組み合わせ又は「受信側アドレス」と「エラー番号」の組み合わせ毎に障害が発生したか否か判定する。
そのため、ＳＩＰサーバやエラー番号などにより異なる発生エラー数の特性が多様に混在している場合でも、障害検出装置３００は、精度高く障害の発生を検出することができる。

更に、本実施形態の障害検出装置３００は、障害が発生したと判定された「送信側アドレス」と「エラー番号」の組み合わせ又は障害が発生したと判定された「受信側アドレス」と「エラー番号」の組み合わせ毎に発生エラー数を経路毎に分計し、分計した発生エラー数に基づいて障害箇所を特定する。
そのため、ＳＩＰサーバやエラー番号などにより異なる発生エラー数の特性が多様に混在している場合でも、障害検出装置３００は、精度高く障害箇所を特定することができる。

また、本実施形態の障害検出装置３００は、障害検出方法及び障害箇所特定方法の特性上、実運用において、インサービス呼のみを用いて実現できるため、障害検出及び障害箇所特定のための試験呼等を別途ＳＩＰ信号網に流す必要がなく、既存のサービスの提供に影響を与えないという効果を有する。

なお、本実施形態の障害発生検出部３０４による障害発生の検出は、過去一定期間の平均発生エラー数に対する現時刻の発生エラー数の比率に基づいて行われたが、これに限らず、現時刻の発生エラー数と過去の発生エラー数とを比較することにより行われればよい。

また、本実施形態の障害検出装置３００は、過去の発生エラー数が統計情報記憶部３０２に記憶されていたが、これに限らず、過去の発生エラー数は外部のデータベース（不図示）に記憶されていてもよい。その場合、障害発生検出部３０４は、過去の発生エラー数を外部のデータベースから読み出せばよい。すなわち、障害発生検出部３０４は、統計情報記憶部３０２又は外部のデータベース（不図示）から過去の発生エラー数を取得すればよい。

なお、障害発生検出部３０４による障害発生の検出は、発生エラーの送信側アドレスとエラー番号の組み合わせ毎、又は発生エラーの受信側アドレスとエラー番号の組み合わせ毎に、現時刻の発生エラー数を集計し、該集計した発生エラー数を対応する過去の発生エラー数と比較することにより行われたが、このような集計に限ったものではない。

障害発生検出部３０４による障害発生の検出は、発生エラーのエラー番号毎に現時刻の発生エラー数を集計し、該集計したエラー番号毎の発生エラー数を対応するエラー番号毎の過去の発生エラー数と比較することにより行われてもよい。その場合、障害発生検出部３０４は、エラー番号毎に、過去の発生エラー数を取得すればよい。
これによれば、障害発生検出部３０４は、エラー番号が混在した発生エラー数が時間的に変化しない場合でも、エラー番号毎に発生エラー数を集計することにより、障害発生を検出することができる。

また、障害発生検出部３０４による障害発生の検出は、発生エラーの着番号毎に現時刻の発生エラー数を集計し、該集計した着番号毎の発生エラー数を対応する着番号毎の過去の発生エラー数と比較することにより行われてもよい。その場合、障害発生検出部３０４は、着番号毎に過去の発生エラー数を取得すればよい。
これによれば、障害発生検出部３０４は、着番号が混在した発生エラー数が時間的に変化しない場合でも、着番号毎に発生エラー数を集計することにより、障害発生を検出することができる。

すなわち、障害発生検出部３０４による障害発生の検出は、発生エラーに関連する項目（例えば、送信側アドレス、受信側アドレス、エラー番号、着番号及びそれらの２つ以上の組み合わせ）毎に現時刻の発生エラー数を集計し、該集計した項目毎の発生エラー数を対応する項目毎の過去の発生エラー数と比較することにより行われてもよい。その場合、障害発生検出部３０４は、該発生エラーに関連する項目毎に過去の発生エラー数を取得すればよい。
これによれば、障害発生検出部３０４は、該項目が混在した発生エラー数が時間的に変化しない場合でも、項目毎に発生エラー数を集計することにより、障害発生を検出することができる。

なお、本実施形態では、障害箇所特定部３０５は、特定のエラー番号についての発生エラーを送信（又は受信）している経路数と該特定のエラー番号についての発生エラーの経路毎の送信数（又は受信数）とに基づいて、障害箇所を特定したがこれに限ったものではない。障害箇所特定部３０５は、特定のエラー番号毎ではなく、全てのエラー番号についての発生エラーを送信（又は受信）している経路数と全てのエラー番号についての発生エラーの経路毎の送信数（又は受信数）とに基づいて、障害箇所を特定してもよい。

また、障害箇所特定部３０５は、発生エラーを送信（又は受信）経路数と経路毎の送信数（又は受信数）でなく、発生エラーを送信（又は受信）している経路数だけに基づいて、障害箇所を特定してもよい。具体的には、例えば、障害箇所特定部３０５は、あるＳＩＰサーバＸが有する経路のうち、特定のエラー番号または全てのエラー番号について発生エラーを送信（又は受信）している経路の数が予め決められた閾値以上の場合、そのＳＩＰサーバをサーバ型エラー（又はクライアント型エラー）の障害箇所として特定してもよい。

また、本実施形態の障害検出装置３００の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、障害検出装置３００に係る上述した種々の処理を行ってもよい。

なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１障害箇所検出システム
１００ＳＩＰ信号網
２００ＳＩＰ信号収集装置
３００障害検出装置
３０１統計情報受信部
３０２統計情報記憶部
３０３発生エラー数推定部
３０４障害発生検出部
３０５障害箇所特定部

Claims

ＳＩＰ信号の通信に関する統計情報に基づいて、ＳＩＰサーバ間の経路毎の発生エラー数を推定する発生エラー数推定部と、
前記推定された発生エラーを送信又は受信している経路数に基づいて、障害箇所を特定する障害箇所特定部と、
を備えることを特徴とする障害検出装置。
前記発生エラー数推定部は、あるＳＩＰサーバが経路毎に受信及び送信したエラーの数と、該ＳＩＰサーバが経路毎に受信した正常呼の数とに基づいて、該ＳＩＰサーバが経路毎に送信した転送エラー数を算出し、該算出した転送エラー数と該ＳＩＰサーバが経路毎に送信したエラーの数とに基づいて、該ＳＩＰサーバが送信する前記発生エラー数を経路毎に推定することを特徴とする請求項１に記載の障害検出装置。
前記障害箇所特定部は、前記発生エラーを送信又は受信している経路数と該発生エラーの経路毎の送信数又は受信数とに基づいて、障害箇所を特定することを特徴とする請求項１又は請求項２に記載の障害検出装置。
前記推定された経路毎の発生エラー数に基づいて、ＳＩＰ信号網における障害発生を検出する障害発生検出部を更に備えることを特徴とする請求項１から請求項３のいずれか一項に記載の障害検出装置。
前記障害発生検出部は、前記発生エラーに関連する項目毎に過去の発生エラー数を取得し、
前記障害発生検出部による障害発生の検出は、前記項目毎に現時刻の発生エラー数を集計し、該集計した項目毎の発生エラー数を対応する前記項目毎の過去の発生エラー数と比較することにより行われることを特徴とする請求項４に記載の障害検出装置。
障害検出装置が実行する障害検出方法であって、
ＳＩＰ信号の通信に関する統計情報に基づいて、ＳＩＰサーバ間の経路毎の発生エラー数を推定する発生エラー数推定手順と、
前記推定された経路毎の発生エラー数に基づいて、ＳＩＰ信号網における障害発生を検出する障害発生検出手順と、
を有することを特徴とする障害検出方法。
コンピュータに、
ＳＩＰ信号の通信に関する統計情報に基づいて、ＳＩＰサーバ間の経路毎の発生エラー数を推定する発生エラー数推定ステップと、
前記推定された経路毎の発生エラー数に基づいて、ＳＩＰ信号網における障害発生を検出する障害発生検出ステップと、
を実行させることを特徴とする障害検出プログラム。