JP2018064160A - 故障位置特定装置、故障位置特定方法、および、故障位置特定プログラム - Google Patents

故障位置特定装置、故障位置特定方法、および、故障位置特定プログラム Download PDF

Info

Publication number
JP2018064160A
JP2018064160A JP2016200537A JP2016200537A JP2018064160A JP 2018064160 A JP2018064160 A JP 2018064160A JP 2016200537 A JP2016200537 A JP 2016200537A JP 2016200537 A JP2016200537 A JP 2016200537A JP 2018064160 A JP2018064160 A JP 2018064160A
Authority
JP
Japan
Prior art keywords
oms
failure
component
detection
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016200537A
Other languages
English (en)
Other versions
JP6586067B2 (ja
Inventor
拓紀 伊達
Hiroki Date
拓紀 伊達
山本 宏
Hiroshi Yamamoto
宏 山本
福田 亜紀
Aki Fukuda
亜紀 福田
星平 鎌村
Seihei Kamamura
星平 鎌村
理恵 林
Rie Hayashi
理恵 林
植松 芳彦
Yoshihiko Uematsu
芳彦 植松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016200537A priority Critical patent/JP6586067B2/ja
Publication of JP2018064160A publication Critical patent/JP2018064160A/ja
Application granted granted Critical
Publication of JP6586067B2 publication Critical patent/JP6586067B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定するための稼働を削減する。
【解決手段】上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定する故障位置特定装置100を用いる。下位レイヤの機器がコンポーネント単位に分類されている。故障位置特定装置100は、下位レイヤのコンポーネントごとに、上位レイヤの異常検出を、1または複数種類のパラメータに換算し、換算したパラメータを用いて故障が発生したコンポーネントを推定する確認順決定部3、を備える、ことを特徴とする。
【選択図】図3

Description

本発明は、故障位置特定装置、故障位置特定方法、および、故障位置特定プログラムに関する。
光伝送装置やルータなどの通信機器の大容量化、汎用部品の活用の増加、FPGA(field-programmable gate array)などのプロセス微細化により、ソフトエラーが発生しやすいメモリ(SRAM(Static Random Access Memory)など)を大量に搭載するプログラマブルデバイスなどが多く活用されている。その結果、通信機器、および、通信機器の接続からなるネットワークの監視の技術において、通信機器の故障要因の多様化と故障時の影響の大規模化が進む傾向にある。
この傾向により、光伝送装置からなる光トランスポートレイヤなどの下位レイヤにおいていわゆる間欠故障やサイレント故障といった故障が発現するケースが増加することが見込まれる。つまり、下位レイヤ上の故障は明確な警報として検出されないが、光トランスポートレイヤに収容されるルータからなるL3レイヤや、更にそのL3レイヤに収容される各ユーザのサービスレイヤなどの上位レイヤにおいて断続的に通信品質やスループットが低下するケースが増加することが見込まれる。
上記のケースに対して、例えば、各レイヤの通信機器から取得する性能情報の種別や、取得の頻度を増やし、きめ細かに状態を監視することで監視機能自体を強化する対策が考えられる。しかし、先述した故障要因の多様化のために、このような対策は、全てのケースに対処することは難しく、明確な警報として検出できずに上位レイヤの通信品質に影響を及ぼすケースは依然として残る。そのため、上位レイヤに発現する通信品質やスループットの低下を契機に故障または故障予兆の位置を特定し早期の対処を可能とする技術の必要性が高まっている。
また、下位レイヤの間欠故障やサイレント故障を検出する方法として、例えば、L3レイヤに対するMIB(Management Information Base)トラヒック監視によって、急激なトラヒックの減少(または増加)を判定する閾値を設定する方法が知られている。しかし、非特許文献1によれば、故障の検出漏れや誤検出を極力抑えるように閾値を設定することは困難であるとされている。
一般的には、故障の影響が上位レイヤの通信品質に漏れ出た状態においては、その上位レイヤが収容される通信路上の通信機器の全てが、故障の被疑箇所となることから広範に亘る。また、通信品質やスループットの低下は検出漏れや誤検出を伴う確率的な情報である。非特許文献2によれば、3割程度の高確率で検出漏れが発生し得るとされている。これらの事情から、一意に故障箇所を特定することは難しい。
そこで、収容関係にある複数のレイヤ間での情報流通や連携動作を可能とすることで、上位レイヤの通信品質低下情報から、下位レイヤの被疑範囲内にある通信機器の状態を順次確認して故障箇所を一意に特定する方法が考えられる。しかし、このような方法は、通信機器の性能情報を過去にまで遡り時間経過とともに確認する必要があることから、故障位置を特定するために多大な稼働および時間を要する。
石橋 圭介、林 孝典、塩本 公平、"機械学習・データ分析によるネットワーク設計・運用高度化" NTT技術ジャーナル 2015.12 Yongning Tang, Ehab Al-Shaer, Kaustubh Joshi, "Reasoning under Uncertainty for Overlay Fault Diagnosis," IEEE Trans. on Network and Service Management, Volume 9, Issue 1, March 2012.
このような事情に鑑みて、本発明は、上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定するための稼働を削減することを課題にする。
前記した課題を解決するため、請求項1に記載の発明は、上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定する故障位置特定装置であって、前記下位レイヤの機器がコンポーネント単位に分類されており、前記下位レイヤのコンポーネントごとに、前記上位レイヤの異常検出を、1または複数種類のパラメータに換算し、前記換算したパラメータを用いて故障が発生したコンポーネントを推定する制御部、を備える、ことを特徴とする。
また、請求項7に記載の発明は、上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定する故障位置特定装置における故障位置特定方法であって、前記下位レイヤの機器がコンポーネント単位に分類されており、前記故障位置特定装置が、前記下位レイヤのコンポーネントごとに、前記上位レイヤの異常検出を、1または複数種類のパラメータに換算するステップと、前記換算したパラメータを用いて故障が発生したコンポーネントを推定するステップと、を実行する、ことを特徴とする。
また、請求項8に記載の発明は、コンピュータを、上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定する故障位置特定装置として機能させるための故障位置特定プログラムであって、前記下位レイヤの機器がコンポーネント単位に分類されており、前記コンピュータを、前記下位レイヤのコンポーネントごとに、前記上位レイヤの異常検出を、1または複数種類のパラメータに換算し、前記換算したパラメータを用いて故障が発生したコンポーネントを推定する制御手段、として機能させるための故障位置特定プログラムである。
請求項1,7,8に記載の発明によれば、確率的に発現し、下位レイヤの故障位置の特定を元々困難にしている上位レイヤの異常検出から、下位レイヤのコンポーネント単位でのパラメータの分布を求めることができる。このような分布でパラメータが極端な値を示すコンポーネントを見つけることができ、見つけたコンポーネントを故障が発生したコンポーネントと推定することができる。これにより、下位レイヤの故障の被疑範囲を絞り込むことができる。換言すれば、下位レイヤの故障の位置を最終的に特定するために多大な負担を伴う詳細分析を行う対象を効率的に絞り込むことができる。
したがって、上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定するための稼働を削減することができる。
また、請求項2に記載の発明は、請求項1に記載の故障位置特定装置であって、前記制御部は、前記故障の位置特定に関して、前記パラメータの値に応じて前記下位レイヤのコンポーネントの各々を順位付けする、ことを特徴とする。
請求項2に記載の発明によれば、複数のコンポーネントを対象にして、詳細分析を優先的に行うコンポーネントを決定することができる。このため、優先順位の高いコンポーネントから順に詳細分析を行うことで、下位レイヤの故障の位置の特定するための稼働をさらに削減することができる。
また、請求項3に記載の発明は、請求項1または請求項2に記載の故障位置特定装置であって、前記パラメータは、(1)前記コンポーネントの各々が収容する前記上位レイヤの機器を経由するパスのうち、前記異常検出があったパスの数となる、コンポーネント単位の検出数、(2)前記コンポーネントの各々が収容する前記上位レイヤの機器を経由するパスの数である収容数と、前記検出数との比となる、コンポーネント単位の検出率、(3)前記コンポーネントの各々に属する前記下位レイヤの機器の過去の故障から求められる、コンポーネント単位の故障率、(4)前記故障率に基づいて、前記異常検出に対し、前記コンポーネントの各々に属する前記下位レイヤの機器の故障していない確率である、コンポーネント単位の故障していない率、(5)前記上位レイヤのパスの各々に対応するコンポーネント数の逆数を用いて前記検出数の重み付けした、コンポーネント単位の重み付け検出数、のいずれかである、ことを特徴とする。
請求項3に記載の発明によれば、下位レイヤのコンポーネント単位での各種類のパラメータの分布を数値化することができる。よって、パラメータが極端な値を示すコンポーネントを容易に見つけることができる。
また、請求項4に記載の発明は、請求項1から請求項3のいずれか1項に記載の故障位置特定装置であって、前記パラメータが複数種類あり、前記制御部は、前記パラメータを複数種類組み合わせて故障が発生したコンポーネントを推定する場合、前記組み合わせた複数種類のパラメータの各々に優先度を付与し、前記優先度の高いパラメータから前記推定を実行する、ことを特徴とする。
請求項4に記載の発明によれば、複数種類のパラメータを用いて、故障が発生したコンポーネントの推定を実現することができる。
また、請求項5に記載の発明は、請求項1から4のいずれか1項に記載の故障位置特定装置であって、前記制御部は、前記推定したコンポーネントに故障が無かった場合、当該推定したコンポーネントの近傍のコンポーネントに故障が発生したと推定する、ことを特徴とする。
請求項5に記載の発明によれば、下位レイヤの故障が発生したと推定したコンポーネントの近傍のコンポーネントを優先して詳細分析を行うことができる。
また、請求項6に記載の発明は、請求項1から請求項5のいずれか1項に記載の故障位置特定装置であって、前記制御部は、前記異常検出があった上位レイヤのパスの各々について、当該パスの各々に対応するコンポーネントに基づいて、前記パス間の類似度を評価し、前記類似度が小さいパスでの異常検出を誤検出として除去する、ことを特徴とする。
請求項6に記載の発明によれば、誤検出を除去した上で、下位レイヤのコンポーネント単位でのパラメータの分布を求めることができる。このため、下位レイヤの故障の被疑範囲の絞り込みの精度を向上させることができる。
本発明によれば、上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定するための稼働を削減することができる。
面的分析の対象となる通信システムの構成図の例である。 (a)が、通信システムの簡略構成図であり、(b)が、OMSごとの確認順の決定に関する表である。 本実施形態における故障位置特定装置の機能構成図の例である。 確認順の決定に関して、検出数が有効であるケース(a)、検出率が有効であるケース(b)、近傍情報が有効であるケース(c)、をそれぞれ説明する図である。 (a)が、通信システムの簡略構成図であり、(b)が、故障率を用いた確認順の決定に関する表である。 (a)が、通信システムの簡略構成図であり、(b)が、故障していない率を用いた確認順の決定に関する表である。 (a)が、通信システムの簡略構成図であり、(b)が、重みづけされた検出数を用いた確認順の決定に関する表である。 (a)が、通信システムの簡略構成図であり、(b)が、複数種類のパラメータの組み合わせを用いた確認順の決定に関する表である。 (a)が、通信システムの簡略構成図であり、(b)が、誤検出の判定に関する表であり、(c)が、誤検出と判定したOMSの除去を反映させたときの確認順の決定に関する表である。
≪概要≫
本発明の実施形態について、図面を参照しながら詳細に説明する。
本実施形態では、監視対象のネットワークの下位レイヤに配置されている機器のうち1または複数をまとめて扱うコンポーネントを複数用意し、下位レイヤの機器をコンポーネント単位で予め分類する。そして、本実施形態では、通信品質低下やスループット低下など、といった上位レイヤでの異常の検出を、下位レイヤのコンポーネントごとの検出に換算し、コンポーネント単位の検出の分布を分析する面的分析を採用する。この面的分析によって、検出数または検出率が極端に多いコンポーネントを特定して被疑範囲を絞り込む。
その後、特定したコンポーネントに属する機器について詳細分析を行うことで、異常を引き起こす故障の位置を最終的に特定する。本発明は、面的分析による被疑範囲の絞り込みの効率化を図るものである。機器ごとの詳細分析は、周知の分析を採用することができ、その説明は省略する。
コンポーネントの定め方は任意であり、例えば、下位レイヤの機器1つとしてもよいし、すべてとしてもよいが、本実施形態では、コンポーネントをOMS(Optical Multiplex Section)とし、OMS単位の面的分析について説明する。OMSは、波長多重化された光信号の論理的な通信路(パスまたはコネクション)を表す。OMSは、OXC(Optical Cross Connect)ノードやAdd/Dropノードにおいて、波長多重信号が合分波し終端されるという性質を持つ。
1つのOMSの区間内で収容している上位レイヤの機器は同じとなり、収容関係は変化しない。一方、複数のOMS間では、各OMSの区間内で収容している上位レイヤの機器が異なり、収容関係が変化する。このようなOMSは、収容関係が変化しない最大の単位として扱うことができるとともに、収容関係を把握すべき最小の単位として扱うことができる。このような扱いが可能なため、コンポーネントをOMSとすることが好ましい。
本実施形態の面的分析の対象となる通信システムの構成は、図1に示す通りである。この構成は1例であって、面的分析が適用される構成は図1のものに限定されない。
図1の通信システムは、L0/L1網、L2/L1.5網、L3網、および、サービス網の各々に配置される機器群から構成されている。L0/L1網は、下位レイヤである。L2/L1.5網、L3網、および、サービス網は、上位レイヤであり、この順番でより上位となる。
L0/L1網に配置されている機器について説明する。符号11〜14は、例えば、OXC(OXCノード)である。符号51〜54は、例えば、REP(Repeater:リピータ)である。符号61〜64は、例えば、トラポン(トランスポンダ)である。符号1a〜1dは、例えば、MUX(Multiplexer)/DMUX(Demultiplexer)であるが、CDC(Colorless Directionless Contentionless)機器としてもよい。符号2a〜2hは、例えば、WSS(Wavelength Selective Switch)である。符号3a〜3pは、例えば、AMP(Amplifier)である。MUX(Multiplexer)/DMUX(1a〜1d)と、WSS(2a〜2h)と、AMP(3a〜3p)とは、光ファイバで接続されている。
L2/L1.5網に配置されている機器について説明する。符号21〜24は、例えば、MPLS−TP(Multi-Protocol Label Switching-Transport Profile)装置である。
L3網に配置されている機器について説明する。符号31〜34は、例えば、ルータである。ルータ31〜34は、トラヒック監視用のトラヒックMIBを記憶している。
サービス網に配置されている機器について説明する。符号41〜46は、例えば、サーバである。
図1の構成において、OXC11,12間の機器は、1つのコンポーネントを形成し、OMS A(または、単に「A」)と呼ぶことにする。OXC12,13間の機器は、1つのコンポーネントを形成し、OMS B(または、単に「B」)と呼ぶことにする。OXC13,14間の機器は、1つのコンポーネントを形成し、OMS C(または、単に「C」)と呼ぶことにする。OXC12,14間の機器は、1つのコンポーネントを形成し、OMS D(または、単に「D」)と呼ぶことにする。
図1に示すように、L3網上にパス[1]〜[3]が設定されている。パス[1]〜[3]は、通信システムの管理者が適宜設定したものであり、設定態様はこれに限定されない。パス[1]は、ルータ31〜34を経由する論理的な通信路である。パス[2]は、ルータ32〜34を経由する論理的な通信路である。パス[3]は、ルータ31〜33を経由する論理的な通信路である。
L3網上のパス[1]〜[3]の各々に対して、パス[1]〜[3]が経由する機器を収容するL0/L1網上の機器を経由するパス(下位レイヤパス)が設定される。図1には、L0/L1網上に設定されている3つのパスが、L2/L1.5網上の該当の機器を介在して図示されている。図1にて、L3網上のパス[1]〜[3]に対応するL0/L1網上のパスはそれぞれ、L3網上のパス[1]〜[3]を描く線の線種(太実線、太破線、太い一点鎖線)と同じ線種で描かれている。
同様に、L3網上のパス[1]〜[3]の各々に対して、パス[1]〜[3]が経由する機器が収容するサービス網上の機器を経由するパスが設定される。図1には、サービス網上に設定されている3つのパスが図示されている。図1にて、L3網上のパス[1]〜[3]に対応するサービス網上のパスはそれぞれ、L3網上のパス[1]〜[3]を描く線の線種(太実線、太破線、太い一点鎖線)と同じ線種で描かれている。
図1の構成によれば、パス[1]を収容するコンポーネントは、OMS A,B,Cである。パス[2]を収容するコンポーネントは、OMS B,Cである。パス[3]を収容するコンポーネントは、OMS A,Bである。このように、L3網上のパスの各々を収容するOMS(群)は、一意に定まる。
下位レイヤ、つまり、L0/L1網上で、間欠故障やサイレント故障などの故障が発生した場合、上位レイヤのL3網上に設定されたパス[1]〜[3]にて、例えば、MIB閾値監視によるトラヒック減などの異常が確率的に検出される。また、故障が発生した場合、上位レイヤのサービス網上に設定されたパスにて、例えば、トラヒック減を示唆するユーザ申告によって異常が検出される。ユーザ申告は、トラヒック減があったときに確実になされるものではなく、また、意図的であるか否かに関わらず誤申告となる場合もある。このため、ユーザ申告による異常検出も確率的であるといえる。
このように検出された上位レイヤ上の異常は、OMS単位に換算した異常の検出数、検出率などの分布として表現することができる。本実施形態の故障位置特定装置は、この検出数、検出率などが高い値を示すOMSを特定し優先的に詳細分析を行う。
検出数、検出率などが高い値を示すOMSを特定する方法について、図2を参照して、詳細に説明する。図2(a)に示すように、OMS B(に属する特定の機器)に故障が発生したとする。この場合、MIB閾値監視によって、OMS Bが収容するL3網上の機器(つまり、ルータ32,33)を経由するパス[1]〜[3]に、トラヒック減などの異常が検出される。
本実施形態の故障位置特定装置は、パス[1]〜[3]での異常検出を、各OMS単位に換算する。具体的には、パス[1]の異常検出は、当該パス[1]が経由する機器を収容するOMS A,B,Cの各々で発生したと疑われる故障に起因する異常検出としてカウントする。同様に、パス[2]の異常検出は、当該パス[2]が経由する機器を収容するOMS B,Cの各々で発生したと疑われる故障に起因する異常検出としてカウントする。パス[3]の異常検出は、当該パス[3]が経由する機器を収容するOMS A,Bの各々で発生したと疑われる故障に起因する異常検出としてカウントする。
パス[1]〜[3]でカウントした異常検出から、コンポーネント単位の検出数を求める。つまり、各OMS A〜Dで、異常検出のカウントが何回なされたかを集計する。OMS Aについては、パス[1]、[3]の2つの異常検出をカウントするため、OMS Aの検出数は2である。OMS Bについては、パス[1]〜[3]の3つの異常検出をカウントするため、OMS Bの検出数は3である。OMS Cについては、パス[1]、[2]の2つの異常検出をカウントするため、OMS Bの検出数は2である。なお、L3網上には、OMS Dが収容する機器にパスが元々設定されていないため、異常検出のカウントはされず、OMS Dの検出数は0である。
OMSごとの異常検出の集計結果は、図2(b)の表(後記の確認順情報3b(図3)に相当)に示されている。図2(b)の表には、「コンポーネント」、「収容数」、「検出数」、「検出率」、「近傍コンポーネント」、「故障率」、「確認順」といった項目が設けられている。
「コンポーネント」は、故障発生の被疑範囲を示す単位であり、本実施形態ではOMSごとに用意される。
「収容数」は、対象のコンポーネントが収容するL3網上の機器を経由するパス(全体でもよいし一部でもよい)の数である。各コンポーネントが収容するL3網上の機器に設定されている接続(コネクション)の数(収容L3接続数)ともいえる。図2(a)に描かれている矢印は、L3網上のパスと、当該パスが経由する機器を収容するOMSとの関係を示す。各OMSの収容数は、自身のOMSに到達する矢印の本数に等しい。
「検出数」は、対象のコンポーネントが収容するL3網上の機器を経由するパス(全体でもよいし一部でもよい)のうち異常が検出されたパスの数である。
「検出率」は、対象のコンポーネントについて、検出数を収容数で除算した値(パーセント表示)である。
「近傍コンポーネント」は、対象のコンポーネントに隣接するコンポーネントをいう。隣接コンポーネントについては後記する。
「故障率」は、対象のコンポーネントに属する(下位レイヤの)機器にて故障が発生する確率である。コンポーネントの各々に属する下位レイヤの機器の過去の故障から求められる、コンポーネント単位の確率であるともいえる。コンポーネント単位の「故障率」については後記するが、所定の計算式で適宜求めることができる。機器に故障が発生するたびに故障率が更新される。故障が多いほど、故障率の値は大きくなるとする。
「検出数」、「検出率」、「近傍コンポーネント」、「故障率」は、面的分析のパラメータとなる。
「確認順」は、面的分析のパラメータの全部または一部に基づいて、どのコンポーネントから優先的に詳細分析を行うかを示す優先順位である。被疑箇所の確度が高いほど優先順位が高くなる。例えば、検出数が多いOMSを優先し、検出数が同じOMSについては、検出率が大きいOMSを優先し、検出率も同じとなるOMSについては、故障率が高いOMSを優先する、という確認順決定ルールを採用したとする。この場合、図2(b)によれば、OMS Bが、各OMS間で検出数が最も多くなり(検出数が3)、確認順が1位となる。また、OMS Dが、各OMS間で検出数が最少となり(検出数が0)、確認順が4位となる。
次に、OMS A,Cについては、検出数がともに2であり優劣がなく、さらに、検出率がともに100%(2/2)であり優劣が無い。しかし、故障率は、OMS Aの方が高いため、OMS Aが優先される。その結果、OMS Aの確認順が2位となり、OMS Cの確認順が3位となる。
本実施形態の故障位置特定装置は、図2(b)の表で決定した確認順にしたがって、B→A→C→Dの順に詳細分析を行う。このように、実際に故障が発生したOMS Bを最有力の被疑箇所候補とすることができ、下位レイヤの機器のすべてを被疑箇所とすることは無い。したがって、下位レイヤにて発現される故障の位置を特定するための稼働を削減することができる。
≪構成≫
本実施形態の故障位置特定装置の機能構成について説明する。図3に示すように、故障位置特定装置100は、網構成管理部1−1〜1−4と、性能情報管理部2−1〜2−3と、ユーザ申告管理部2−4と、確認順決定部3と、故障位置特定部4といった機能部を制御部に備える。また、故障位置特定装置100は、網構成情報1a〜1dと、性能情報2a〜2cと、申告情報2dと、レイヤ間収容情報3aと、確認順情報3bとを記憶部に記憶する。
なお、故障位置特定装置100は、CPU(Central Processing Unit)と、記憶手段(記憶部)と、ネットワークインタフェースとを有するコンピュータとして構成される。このコンピュータは、CPUが、記憶部上に読み込んだプログラム(故障位置特定プログラムを含む。)を実行することで、各機能部により構成される制御部(制御手段)を動作させる。
網構成管理部1−1は、L0/L1網の網構成を管理する。L0/L1網の網構成には、例えば、L0/L1網上に配置されている機器間のトポロジ情報や、L0/L1網上に配置されている機器に設定されているパスの設定情報が含まれる。網構成管理部1−1は、L0/L1網の網構成の管理結果を網構成情報1aとして出力する。
網構成管理部1−2は、L2/L1.5網の網構成を管理する。L2/L1.5網の網構成には、例えば、L2/L1.5網上に配置されている機器間のトポロジ情報や、L2/L1.5網上に配置されている機器に設定されているパスの設定情報が含まれる。網構成管理部1−2は、L2/L1.5網の網構成の管理結果を網構成情報1bとして出力する。
網構成管理部1−3は、L3網の網構成を管理する。L3網の網構成には、例えば、L3網上に配置されている機器間のトポロジ情報や、L3網上に配置されている機器に設定されているパスの設定情報が含まれる。網構成管理部1−3は、L3網の網構成の管理結果を網構成情報1cとして出力する。
網構成管理部1−4は、サービス網の網構成を管理する。サービス網の網構成には、例えば、サービス網上に配置されている機器間のトポロジ情報や、サービス網上に配置されている機器に設定されているパスの設定情報が含まれる。網構成管理部1−4は、サービス網の網構成の管理結果を網構成情報1dとして出力する。
性能情報管理部2−1は、L0/L1網の性能を管理する。L0/L1網の性能には、例えば、L0/L1網に配置されている機器の各々の性能値(例:CPU周波数、メモリ量、処理トラヒック量)の履歴が含まれる。性能情報管理部2−1は、L0/L1網の性能の管理結果を性能情報2aとして出力する。性能情報2aには、間欠故障やサイレント故障とは異なり明確に確認可能な故障が発生したことを示す警報情報が含まれる。
性能情報管理部2−2は、L2/L1.5網の性能を管理する。L2/L1.5網の性能には、例えば、L2/L1.5網に配置されている機器の各々の性能値(例:CPU周波数、メモリ量、処理トラヒック量)の履歴が含まれる。性能情報管理部2−2は、L2/L1.5網の性能の管理結果を性能情報2bとして出力する。性能情報2bには、現在の性能値が過去の性能値よりも所定の閾値以上に低下したことを示す、上位レイヤの警報情報が含まれる。
性能情報管理部2−3は、L3網の性能を管理する。L3網の性能には、例えば、L3網に配置されている機器の各々の性能値(例:CPU周波数、メモリ量、処理トラヒック量)の履歴が含まれる。性能情報管理部2−3は、L3網の性能の管理結果を性能情報2cとして出力する。性能情報2cには、MIBトラヒック監視によって、現在の性能値が過去の性能値よりも所定の閾値以上に低下したことを示す、上位レイヤの警報情報が含まれる。
ユーザ申告管理部2−4は、サービス網上に発生したユーザ申告を管理する。ユーザ申告は、所定のサービスを利用するユーザのユーザ端末(図示せず)から出力される申告であって、例えば、所定の閾値を超えるトラヒック減を示唆する申告を含む。ユーザ申告管理部2−4は、ユーザ申告の管理結果を、申告情報2dとして出力する。申告情報2dは、例えば、ユーザ申告の内容と、申告がなされたタイミング、申告をしたユーザ端末の識別子が関連付けられた情報とすることができる。ユーザ申告の内容には、上位レイヤの警報情報が含まれる。
レイヤ間収容情報3aは、L0/L1網、L2/L1.5網、L3網、および、サービス網といったレイヤに配置される機器について、異なるレイヤ間に配置されている機器間の収容関係を示す情報である。
確認順決定部3は、網構成情報1a〜1dと、性能情報2b、2c、申告情報2dに含まれる上位レイヤの警告情報と、レイヤ間収容情報3aとに基づいて、下位レイヤのコンポーネント群を対象にして、どのコンポーネントから詳細分析を行って確認するか、という確認順を決定する(コンポーネントの順位付け)。確認順決定部3は、確認順の決定に関する処理結果を確認順情報3b(図2(b)参照)として出力する。確認順決定部3は、確認順の決定に関して、面的分析のパラメータを用いた確認順決定ルールに従う。確認順決定ルールは、例えば、通信システムの管理者が適宜決定することができ、故障位置特定装置100の記憶部に記憶されている。
故障位置特定部4は、確認順情報3bに示されている、コンポーネントの確認順に沿って詳細分析を行う。具体的には、故障位置特定部4は、異なる時点の性能情報2a〜2cを取得して、被疑箇所のコンポーネントに属する機器について、過去の性能と現在の性能とを分析することで最終的な故障位置を特定する。この分析の詳細は周知であり、説明は省略する。
≪各パラメータの詳細≫
面的分析のパラメータの各々について詳細に説明する。
<検出数>
すでに説明した通り、異常の検出数の多いコンポーネントを優先的に確認するという確認順を採用することができる。図4(a)の上段に示す簡略構成図は、図2(a)のものと同じである。図4(a)の上段に描かれているパス[1]〜[3]は、図2(a)に描かれているパス[1]〜[3]と同じである。また、OMS Bにて故障(×で図示)が発生したとする。
図4(a)の上段に示すように、検出漏れが無い場合には、OMS A〜CのなかでOMS Bの検出数が最大となり、OMS Bを被疑箇所として優先する(OMS DについてはL3網上にパスが設定されていないので無視する)。
例えば、パス[1]での検出漏れが生じる場合がある。この場合、パス[1]が経由する機器を収容するOMS A〜Cの検出数はそれぞれ、検出漏れが無い場合と比較して1減る(図4(a)下段参照)。なお、検出漏れのケースには、例えば、間欠故障やサイレント故障の発生時にサービス網においてユーザ申告が漏れるケース、または、L3網においてトラヒックMIB監視時に異常検出用のトラヒック変動閾値に達しないケースがある。
パス[1]での検出漏れがあった場合でも、OMS A〜CのなかでOMS Bの検出数が最大となるため、OMS Bを被疑箇所として優先することができる。このように、面的分析のパラメータとして検出数を用いることは有用である。
なお、図4(a)下段に示すように、パス[1]での検出漏れがあった場合、検出率についてもOMS Bが最大(66%)となり、検出率を用いて、OMS Bを被疑箇所として優先することができる。
<検出率>
すでに説明した通り、異常の検出率の多いコンポーネントを優先的に確認するという確認順を採用することができる。図4(b)の上段に示す簡略構成図は、図4(a)の上段に示す簡略構成図と比較して、パス[1]〜[3]は同じであるが、実際の故障発生箇所(×で図示)がOMS BからOMS Cに変更されている点で異なる。
図4(b)の上段に示すように、OMS Cの実際の故障に対して、原則的には、パス[3]での検出は無い。このため、検出漏れが無い場合には、OMS A〜Cのなかで、OMS B,Cの検出数は同数(2)となる。そこで、検出率に着目すると、OMS B,Cの各々の収容数(矢印の数)の違いに起因して、OMS Bの検出率よりもOMS Cの検出率の方が大きい。よって、OMS Cを被疑箇所として優先することができる。このように、面的分析のパラメータとして検出数を用いることは有用である。
なお、図4(b)下段に示すように、パス[1]での検出漏れがあった場合、パス[1]での検出のカウントが無くなるが、検出率については、OMS Cが最大(50%)となり、検出率を用いて、OMS Cを被疑箇所として優先することができる。
<近傍情報>
コンポーネントの隣接関係を表す近傍情報を用いて、他のパラメータで判断した優先コンポーネントに隣接する(近傍の)コンポーネントを優先的に確認するという確認順を採用することができる。近傍情報は、具体的には、図2(b)の近傍コンポーネントとして表すことができる。図4(c)の上段に示す簡略構成図は、図4(a)の上段に示す簡略構成図と比較して、パス[1]〜[3]に加えて、パス[4]が追加されている点が異なる。パス[4]は、ルータ31〜33を経由する論理的な通信路であるがパス[3]とは別である。図4(c)の上段に示す簡略構成図にて、実際の故障発生箇所は、OMS Bである(×印で図示)。
図4(c)の上段に示すように、検出漏れが無い場合には、OMS A〜CのなかでOMS Bの検出数が最大(4)となり、OMS Bを被疑箇所として優先する。
パス[2]での検出漏れが生じた場合、パス[2]が経由する機器を収容するOMS B,Cの検出数はそれぞれ、検出漏れが無い場合と比較して1減る(図4(c)下段参照)。その結果、OMS Aの検出数と、OMS Cの検出数とが同数となり、検出数に関しては、OMS A,C間で優劣が無い。そこで、次点パラメータとして、検出率に注目すると、OMS Aがパス[2]での検出漏れの影響を受けないため、OMS Bの検出率(75%)よりもOMS Aの検出率(100%)の方が大きくなる。よって、OMS Aを最優先の被疑箇所として選定してしまうが、このような選定は、実際の故障発生箇所(OMS B)と異なる。
このように、いずれかのパラメータにより選定したコンポーネントに故障が無かった場合、選定したコンポーネントの近傍を優先的に確認するという確認順を採用することができる。パス[2]での検出漏れが生じた場合に選定したコンポーネントであるOMS Aの近傍コンポーネント(図2(b)、および、図2(b)を参照した説明部分を参照)は、OMS B,Dである。OMS Dは、当該OMS Dが収容する機器にパスが設定されていないため除外する。結果として、残ったOMS B(実際の故障発生箇所)を、OMS Aに代えて、最優先の被疑箇所として選定する。検出数や検出率といったパラメータを用いて選定したコンポーネント(図4(c)ではOMS A)に故障が無かった場合、選定したコンポーネントの近傍に故障が発生している可能性が高い。よって、面的分析のパラメータとして近傍情報を用いることは有用である。
なお、一般的には、検出数や検出率を用いた場合には、故障個所と同じ収容接続を誤って被疑箇所として選定する可能性が高い。図4(c)の例によれば、OMS A,B間では、パス[1],[3],[4]の3つで同じ収容接続を持つため、OMS B(実際の故障発生箇所)の代わりにOMS A(検出率が最大のコンポーネント)を選定しまう可能性が高い。OMS A,Bのように、同じ接続を多く収容するコンポーネント同士は、トポロジが類似するため、検出数や検出率よりも近傍情報の方が有効である。
<故障率>
故障率の大きいコンポーネントを優先的に確認するという確認順を採用することができる。図5(a)に示す簡略構成図は、図2(a)のものと同じである。図5(a)に描かれているパス[1]〜[3]は、図2(a)に描かれているパス[1]〜[3]と同じである。図2(a)と比較して、図5(a)では、OMS Aにて故障(×で図示)が発生したとする。
パス[1]〜[3]すべてで異常が検出されたとする。よって、OMS Aが収容しない機器を経由しないパス[2]での異常検出は、誤検出となる。また、図5(a)に対し、OMSごとの確認順の決定に関する表は、図5(b)に示す通りである。
例えば、検出数が多いOMSを優先し、検出数が同じOMSについては、検出率が大きいOMSを優先し、検出率も同じとなるOMSについては、故障率が高いOMSを優先する、という確認順決定ルールを採用したとする。この場合、図5(b)に示すように、検出数が最大(3)となるOMS Bの確認順が1位となり、検出数が最少(0)となるOMS Dの確認順が4位となる。
OMS A,Cは、検出数、検出率が同じである(検出数:2、検出率100%)。そこで、故障率に注目すると、OMS Aの方が、故障率が大きい(0.2)ため、OMS AをOMS Cよりも優先する。結果として、B→A→C→Dの順に詳細分析を行う。
故障率を重視する確認順決定ルールを採用することもできる。例えば、故障率が高いOMSを優先し、故障率が同じOMSについては、検出数、検出率の順にパラメータが大きいOMSを優先する、という確認順決定ルールを採用することができる。このルールに従えば、故障率が最大となるOMS Aを最優先の被疑箇所と判定することができる。
<故障していない率>
故障していない率の小さいコンポーネントを優先的に確認するという確認順を採用することができる。「着目するコンポーネントの故障していない率」とは、各コンポーネントの故障率(予め取得済み)から、着目するコンポーネント以外のコンポーネントが故障している確率をいう。または、故障率に基づいて、異常検出に対し、コンポーネントの各々に属する下位レイヤの機器の故障していない確率ともいえる。すべての異常検出に対してコンポーネントごとに故障していない率を求め、故障していない率の小さいコンポーネントを決定する。
故障していない率の説明を、図6(a)に示す簡略構成図を用いて行う。図6(a)において、L3網上には、パス[1]、[2]が設定されているとする。
パス[1]は、ルータ31〜34を経由する論理的な通信路である。よって、パス[1]が経由するL3網上の機器を収容するOMSは、OMS A,B,Cとなる。
パス[2]は、ルータ33、32、34をこの順(またはこの逆の順)で経由する論理的な通信路である。よって、パス[2]が経由するL3網上の機器を収容するOMSは、OMS B,Dとなる。
OMS Aにて故障(×で図示)が発生したとする。また、パス[1]、[2]すべてで異常が検出されたとする。よって、OMS Aが収容する機器を経由しないパス[2]での異常検出は、誤検出となる。また、図6(a)に対し、OMSごとの確認順の決定に関する表は、図6(b)に示す通りである。
OMS A〜Dの故障率をぞれぞれ、PA,PB,PC,PDとする。本実施形態の故障位置特定装置100は、故障率PA,PB,PC,PDに対して、コンポーネントごとに故障していない率を求めることができる。例えば、OMS Bについて説明すると、「パス[1]での異常検出に対してBが故障していない率」、「パス[2]での異常検出に対してBが故障していない率」、および、「パス[1][2]での異常検出に対してBが故障していない率」の3種類を求めることができる。3種類のBの故障していない率の計算式は以下の通りである。
・パス[1]での異常検出に対してBが故障していない率
=(1−PB)[1−(1−PA)(1−PC)]
・パス[2]での異常検出に対してBが故障していない率
=(1−PB)[1−(1−PD)]=(1−PB)PD
・パス[1][2]での異常検出に対してBが故障していない率
=(1−PB)[1−(1−PA)(1−PC)]PD
例えば、図6(b)の表の「故障していない率」には、パス[1][2]での異常検出に対して各OMSが故障していない率の値を登録することができ、OMS A〜Dの故障していない率が登録される。登録された故障していない率のうち最小となるOMSを最優先の被疑箇所と判定することができる。
<拡張された検出数(重み付け検出数)>
すでに説明した検出数の概念を拡張させ、拡張された検出数の多いコンポーネントを優先的に確認するという確認順を採用することができる。異常が検出されるパスが経由する機器を収容するコンポーネントの数が少ないほど、当該コンポーネントから見たときの故障の重要度は高い。そこで、対応するコンポーネントの数が少ないパスには大きな重みを付与してコンポーネント単位の検出数を計算する。重みには、1つのパスが経由する機器を収容するコンポーネントの数の逆数を利用することができるが、これに限定されない。
拡張された検出数の説明を、図7(a)に示す簡略構成図を用いて行う。図7(a)において、L3網上には、パス[1]〜[3]が設定されているとする。
パス[1]は、ルータ31〜34を経由する論理的な通信路である。よって、パス[1]が経由するL3網上の機器を収容するOMSは、OMS A,B,Cとなる。
パス[2]は、ルータ32〜34を経由する論理的な通信路である。よって、パス[2]が経由するL3網上の機器を収容するOMSは、OMS B,Cとなる。
パス[3]は、ルータ35,31〜33を経由する論理的な通信路である。なお、図7(a)中、ルータ35は、L3網上の機器である。符号25は、例えば、L2/L1.5網上のMPLS−TP装置である。符号15は、例えば、OXCである。OXC11,15間にOMS Eが形成される。パス[3]が経由するL3網上の機器を収容するOMSは、OMS E,A,Bとなる。
OMS Cにて故障(×で図示)が発生したとする。また、パス[1]〜[3]すべてで異常が検出されたとする。よって、OMS Cが収容する機器を経由しないパス[3]での異常検出は、誤検出となる。また、図7(a)に対し、OMSごとの確認順の決定に関する表は、図7(b)に示す通りである。
図7(a)において、パス[1]に対応するコンポーネント数は3である。よって、3の逆数1/3(=2/6)を、パス[1]に対する重みとする。また、パス[2]に対応するコンポーネント数は2である。よって、2の逆数1/2(=3/6)を、パス[2]に対する重みとする。また、パス[3]に対応するコンポーネント数は3である。よって、3の逆数1/3(=2/6)を、パス[3]に対する重みとする。
拡張した検出数、検出率、故障率という優先度で確認順を決定する(近傍情報は使用しない)確認順決定ルールを採用したとする。図7(b)の表を参照すると、OMS Aの(拡張しない)検出数は2であるが、拡張した検出数は、OMS Aに収容されるパス[1]に対する重み(2/6)+OMS Aに収容されるパス[3]に対する重み(2/6)=4/6となる。
また、OMS Bの(拡張しない)検出数は3であるが、拡張した検出数は、OMS Bに収容されるパス[1]に対する重み(2/6)+OMS Bに収容されるパス[2]に対する重み(3/6)+OMS Bに収容されるパス[3]に対する重み(2/6)=7/6となる。
同様にして、OMS Cの(拡張しない)検出数は2であるが、拡張した検出数は、OMS Cに収容されるパス[1]に対する重み(2/6)+OMS Bに収容されるパス[2]に対する重み(3/6)=5/6となる。
同様にして、OMS Eの(拡張しない)検出数は1(誤検出)であるが、拡張した検出数は、OMS Eに収容されるパス[3]に対する重み=2/6となる。
図7(b)の表によれば、(拡張しない)検出数を用いた場合、OMS A,Cに関して、(拡張しない)検出数、および、検出率が同じであるが、故障率の違いから、OMS Aの確認順(2位)がOMS Cの確認順(3位)を上回っている。しかし、拡張した検出数を用いた場合、OMS Aの拡張した検出数(4/6)よりも、OMS Cの拡張した検出数(5/6)が上回る。このため、OMS Aの確認順(3位)よりも、OMS Cの確認順(2位)が上回る、という結果が得られる。このことは、拡張された検出数を用いることで、実際の故障個所(OMS C)を被疑箇所とする推定の精度を向上させることができることを意味する。
<面的分析のパラメータの組み合わせ>
これまでに説明したパラメータ(検出数、検出率、近傍情報(近傍コンポーネント)、故障率(または故障していない率))を組み合わせて、コンポーネントの確認順を決定することができる。なお、全種類のパラメータを用いる必要はない。
パラメータの組み合わせの説明を、図8(a)に示す簡略構成図を用いて行う。図8(a)において、L3網上には、パス[1]〜[4]が設定されているとする。
パス[1]は、ルータ31〜34を経由する論理的な通信路である。よって、パス[1]が経由するL3網上の機器を収容するOMSは、OMS A,B,Cとなる。
パス[2]は、ルータ32〜34をこの順(またはこの逆の順)で経由する論理的な通信路である。よって、パス[2]が経由するL3網上の機器を収容するOMSは、OMS B,Cとなる。
パス[3]は、ルータ35,31〜33を経由する論理的な通信路である。よって、パス[3]が経由するL3網上の機器を収容するOMSは、OMS E,A,Bとなる。
パス[4]は、ルータ35,31を経由する論理的な通信路である。よって、パス[4]が経由するL3網上の機器を収容するOMSは、OMS Eとなる。
OMS Bにて故障(×で図示)が発生したとする。また、パス[1],[2],[4]で異常が検出されたとする。よって、OMS Bが収容する機器を経由しないパス[4]での異常検出は、誤検出となる。また、OMS Bが収容する機器を経由するパス[3]での異常検出はなく、パス[3]では検出漏れがある。図8(a)中の破線矢印は、L3網上のパスと、当該パスが経由する機器を収容するOMSとの関係を示すとともに、当該パスで検出漏れがあったことを示す。また、図8(a)に対し、OMSごとの確認順の決定に関する表は、図8(b)に示す通りである。
(組み合わせ方法1)
パラメータの組み合わせを使用する場合、例えば、パラメータごとに優先度を付与し、優先度の高いパラメータからコンポーネントの確認順を決定する方法がある。この方法において、優先度の高いパラメータにて同値をとるコンポーネントについては、次に優先度の高いパラメータで判断する。この方法は、先述した確認順決定ルールと同様である。故障位置特定装置100は、パラメータに付与する優先度を優先度情報として記憶部に記憶している。優先度情報は、例えば、故障位置特定装置100のオペレータが決定することができる。
図8(b)に示すように、例えば、検出数、検出率、近傍コンポーネント、故障率といったパラメータに対してそれぞれ、優先度1,2,4,3といった優先度情報を付与することができる。優先度1,2,3,4の順に優先度が高い。この場合、検出数、検出率、故障率、近傍コンポーネントという優先度で確認順を決定する。
近傍情報(近傍コンポーネント)については、利用するか否かを適宜決定することができる。近傍情報を利用する場合、近傍情報より優先するパラメータ(近傍情報に付与した優先度よりも高い優先度が付与されたパラメータ)で判定した最優先コンポーネントの近傍と、近傍情報より優先する同一パラメータの次点優先コンポーネントとの間でどちらの詳細分析を優先するかという問題がある。この場合は、例えば、最優先コンポーネントの近傍の詳細分析を優先し、その後、次点優先コンポーネントの詳細分析を行う、という確認順を採用するとよい。
一方、近傍情報を利用しない場合、近傍探索は行わないことを意味し、近傍情報に優先度を付与しないこととして処理することができる。
図8(b)の表によれば、検出数(優先度1)→検出率(優先度2)→故障率(優先度3)の順に確認順を決定する(図8(b)の最右欄のカッコ無の数値参照)。そのため、検出数(2)および検出率(100%)が最大となるOMS Cが、確認順が1位となる。近傍情報を利用する場合(近傍コンポーネントに優先度4を付与する場合)、次点(つまり、OMS B)に移る前に、OMS Cの近傍を優先的に探索する。つまり、OMS Cの近傍となるOMS B,Dを優先的に探索する。OMS Dは検出数0なので、OMS BがOMS Dよりも優先する。その結果、OMS Bの確認順が2位となり、OMS Dの確認順が3位となる。なお、OMS A,Eについては、最優先のOMS Cに対して、OMS B,Dの次に近傍となるOMS Aが、OMS Cから最も遠いOMS Eよりも優先される。その結果、OMS Aの確認順が4位となり、OMS Eの確認順が5位となる。
近傍情報を利用しない場合(近傍コンポーネントに優先度を付与しない場合)、近傍探索を行わないため、OMS Cの次点となるOMS Bの確認順が2位となる(図8(b)の最右欄のカッコ内の数値参照)。なお、残りのOMS A,D,Eについては、まず、検出数が0となるOMS Dの確認順が5位となる。OMS A,Eについては、検出数(1)および検出率(50%)がともに同じであり、故障率において、OMS E(故障率0.3)のほうがOMS A(故障率0.2)よりも大きいため優先される。結果として、OMS Eの確認順が3位となり、OMS Aの確認順が4位となる。
(組み合わせ方法2)
パラメータの組み合わせを使用する場合、例えば、各パラメータを数値化して合算し、合算値の大きいコンポーネントを優先するようにコンポーネントの確認順を決定する方法がある。パラメータの数値化は、例えば、各パラメータ値に所定の係数を乗じて合算するという方法をとることができる。図8(b)の表には、OMSごとの合算値(a〜e)が登録される。
近傍情報を利用する場合、例えば、近傍コンポーネントを用いない暫定的な合算値を計算した後、暫定的な合算値の高いコンポーネントの近傍コンポーネントに対して、所定値を加算し、最終的な合算値を計算するとよい。図8(b)の表には、OMSごとの最終的な合算値(a〜e)が登録される。最終的な合算値の大きいコンポーネントを優先するようにコンポーネントの確認順を決定する。
上記のようにパラメータを組み合わせることで、被疑箇所の特定の精度をより向上させることができる。
<誤検出の除去>
L3網上のパス(群)での異常検出に、誤検出が含まれていると判定した場合には、その誤検出を除去した残りの異常検出からコンポーネントの確認順を決定することができる。例えば、各異常検出に対応するコンポーネントを特定して、特定したコンポーネントから異常検出があったパス間の類似度を評価し、類似度の小さなパスでの異常検出を誤検出とすることができる。
誤検出の除去の説明を、図9(a)に示す簡略構成図を用いて行う。図9(a)において、L3網上には、パス[1]〜[4]が設定されているとする。
パス[1]は、ルータ31〜34を経由する論理的な通信路である。よって、パス[1]が経由するL3網上の機器を収容するOMSは、OMS A,B,Cとなる。
パス[2]は、ルータ32〜34をこの順(またはこの逆の順)で経由する論理的な通信路である。よって、パス[2]が経由するL3網上の機器を収容するOMSは、OMS B,Cとなる。
パス[3]は、ルータ31,32を経由する論理的な通信路である。よって、パス[3]が経由するL3網上の機器を収容するOMSは、OMS Aとなる。
パス[4]は、ルータ33,32,34をこの順(またはこの逆の順)で経由する論理的な通信路である。よって、パス[4]が経由するL3網上の機器を収容するOMSは、OMS B,Dとなる。
OMS Cにて故障(×で図示)が発生したとする。また、パス[1]〜[4]で異常が検出されたとする。よって、OMS Cが収容する機器を経由しないパス[3],[4]での異常検出は、誤検出となる。
図9(b)は、誤検出の判定に関する表である。故障位置特定装置100は、図9(b)の表に相当する情報を記憶部に記憶している。また、図9(a)に対し、OMSごとの確認順の決定に関する表は、図9(c)に示す通りである。検出数、検出率、故障率の順に優先する確認順決定ルールを採用する。
図9(b)の表には、「異常検出パス」、「通過コンポーネント(OMS)」、「類似度メトリック」といった項目が設けられている。
「異常検出パス」は、L3網上に設定されたパスのうち、異常が検出されたパスである。
「通過コンポーネント」は、対象の異常検出パスが設定されているL3網上の機器を収容するコンポーネントをOMS単位で示す。
「類似度メトリック」は、対象の異常検出パスで発生した異常検出と、対応の通過コンポーネントに発生した他の異常検出との間の類似度を評価する評価値である。評価値の決定には以下の例1,2がある。
(例1)
評価値として、異常検出パスに対応する通過コンポーネントの各々について、当該通過コンポーネントに対応する他の異常検出パスの数の最大数とする方式である。換言すれば、例1の評価値は、同一のコンポーネントで共有する異常検出の数の最大数ともいえる。
例えば、図9(b)の表のうち異常検出パス[1]に注目すると、対応する通過コンポーネントはOMS A,B,Cである。
OMS Aは、注目する異常検出パス[1]の異常検出の他に、異常検出パス[3]の異常検出を共有している。よって、OMS Aで共有する異常検出の数は1である。
また、OMS Bは、注目する異常検出パス[1]の異常検出の他に、異常検出パス[2],[4]の異常検出を共有している。よって、OMS Bで共有する異常検出の数は2である。
また、OMS Cは、注目する異常検出パス[1]の異常検出の他に、異常検出パス[2]の異常検出を共有している。よって、OMS Cで共有する異常検出の数は1である。
上記によれば、OMS Bで共有する異常検出の数である2が最大数となるので、評価値として2が「類似度メトリック」に登録される。
図9(b)の表の他の異常検出パス[2]〜[4]についても上記と同様にして評価値を求めることができる。
異常検出パス[2]については、OMS Bで共有する異常検出の数(2)が最大数となるので、評価値として2が「類似度メトリック」に登録される。
異常検出パス[3]については、OMS Aで共有する異常検出の数(1)が最大数となるので、評価値として1が「類似度メトリック」に登録される。
異常検出パス[4]については、OMS Bで共有する異常検出の数(2)が最大数となるので、評価値として2が「類似度メトリック」に登録される。
他のコンポーネントのいずれとも異常検出を共有していない異常検出、または、他のコンポーネントと共有している異常検出の数が相対的に少ない異常検出は、(2重故障がない場合)誤検出である可能性が高いと考えることができる。よって、例1において、評価値が最小である異常検出パス[3]は誤検出として除去する候補とすることができる。
(例2)
評価値として、異常検出パスに対応する通過コンポーネントの少なくとも1つに対応する他の異常検出パスの数とする方式である。換言すれば、例2の評価値は、任意のコンポーネントで共有する異常検出の数ともいえる。
例えば、図9(b)の表のうち異常検出パス[1]に注目すると、対応する通過コンポーネントはOMS A,B,Cである。OMS A,B,Cの少なくとも1つが、異常検出パス[2][3][4]の3つの異常検出を共有している。よって、評価値として3が「類似度メトリック」に登録される。
図9(b)の表の他の異常検出パス[2]〜[4]についても上記と同様にして評価値を求めることができる。
異常検出パス[2]については、OMS B,Cの少なくとも1つが異常検出パス[1][4]の2つの異常検出を共有している。よって、評価値として2が「類似度メトリック」に登録される。
異常検出パス[3]については、OMS Aが異常検出パス[1]の1つの異常検出を共有している。よって、評価値として1が「類似度メトリック」に登録される。
異常検出パス[4]については、OMS B,Dの少なくとも1つ(図9(a)によればBのみ)が異常検出パス[1][2]の2つの異常検出を共有している。よって、評価値として2が「類似度メトリック」に登録される。
例1と同様、他のコンポーネントのいずれとも異常検出を共有していない異常検出、または、他のコンポーネントと共有している異常検出の数が相対的に少ない異常検出は、(2重故障がない場合)誤検出である可能性が高いと考えたとき、評価値が最小である異常検出パス[3]は誤検出として除去する候補とすることができる。
図9(c)の表において、異常検出パス[3]を誤検出として除去しないときは、OMS Aと、OMS Cとの間で検出数が同じである。しかし、故障率の違いのため、OMS Aの確認順の順位(2位)が、OMS Cの順位(3位)を上回る。ここで、異常検出パス[3]を誤検出として除去した場合、OMS Aの検出数が「2」から「1」に減じられる。これに伴い、OMS Aの検出率は「50%」になる。よって、OMS Aの検出数の減少により、OMS Cが優先され、確認順は2位となる。これに伴い、検出率の関係で、OMS Dの順位(3位)、OMS Aの順位(4位)が決定される。結果として、実際の故障個所であるOMS Cの確認順(3位→2位)を向上させることができる。
図9の例のように、誤検出と判定することができれば、除去することで、対応するコンポーネントの確認順の順位を下げることができ、被疑箇所の推定精度をさらに向上させることができる。
<レイヤ間判定>
上位レイヤの異常検出(例:ユーザ申告、トラヒック減)から下位レイヤの被疑箇所をコンポーネント単位で推定する場合、上位レイヤの正常性確認の確認結果を用いて、下位レイヤの被疑箇所を絞り込むことができる場合がある。この絞り込みの効果が、上位レイヤの正常性確認に伴う時間ロスを補って余りあれば、下位レイヤの面的分析を、上位レイヤの正常性確認の確認結果で補強することが有用である。
例えば、図1の通信システムの構成図において、L3網上には、パス[2],[3]のみが設定されており、パス[1]が設定されていないものを対象にした具体例を説明する。サービス網上でなされたユーザ申告(サーバ41,43間のパス(一点鎖線))によって、OMS A,Bの2区間が被疑候補となったとする。この場合、以下の2通りの対処が考えられる。
対処1:OMS A,Bの2区間を対象にして面的分析を行う。
対処2:L3網の正常性確認によって情報を補強してから面的分析を行う。
サービス網に対するユーザ申告に対し、被疑OMS A,Bが収容するL3網上の機器を経由する2つのパス[2],[3]の正常性を確認する。L3網上のパスの正常性確認の方法は周知であり、説明は省略する。結果として、L3網上のパスの正常性確認によって、被疑候補をOMS Bの1区間に絞り込むことができるとする。なお、この1区間への絞り込みは、被疑候補の範囲に属する下位レイヤの機器の各々で故障していると見積もられる確率が一様に分布していると予想される最悪ケースであっても実現することができるとする。
例えば、L3網上のパスの正常性確認に要する時間が時間オーダであり、1区間ごとのOMSの面的分析に要する時間が日オーダである場合には、最悪ケースでもOMS1区間に絞り込むことができるため、対処2を選択するほうが故障位置特定を短時間で済ませることができ有用であるといえる。
1コンポーネントの面的分析に要する稼働時間である分析オーバヘッド情報を活用する。故障位置特定装置100は、分析オーバヘッド情報を記憶部に記憶している。分析オーバヘッド情報の内容、つまり分析対象の稼働時間は、オペレータには既知であるとする。
一般的には、「故障箇所の推定確度向上による下位レイヤの分析オーバヘッドの削減効果」>「故障箇所の推定確度向上のための上位レイヤの分析オーバヘッド」という関係式を満たす場合、故障箇所の推定確度の向上、つまり、上位レイヤのパスの正常性確認を優先する。
ここで、推定確度は、最悪ケースの手順数、つまり、被疑候補のコンポーネントの数(被疑候補の範囲に属する下位レイヤの機器の各々で故障していると見積もられる確率が一様に分布している場合の期待値として表現することができたときの分析の手順数)をいう。
また、「下位レイヤの分析オーバヘッド」とは、下位レイヤの被疑候補に該当する下位レイヤの機器それぞれの分析オーバヘッドの合計をいう。
また、「下位レイヤの分析オーバヘッドの削減効果」は、被疑候補の絞り込みによって排除される下位レイヤの機器それぞれの分析オーバヘッドの合計に相当する。
また、「上位レイヤの分析オーバヘッド」とは、下位レイヤの被疑候補が収容する上位レイヤの機器それぞれの分析オーバヘッドの合計をいう。
上記の具体例(最悪ケースでの計算の場合)でいえば、「故障箇所の推定確度向上による下位レイヤの分析オーバヘッドの削減効果」は、(L3網の正常性未確認時での2区間のOMS − L3網の正常性確認後の1区間のOMS) × 日オーダ = 1×日オーダの削減と表すことができる。
また、「故障箇所の推定確度向上のための上位レイヤの分析オーバヘッド」は、L3網状に設定されたパス2つ × 時間オーダ = 2×時間オーダと表すことができる。上記関係式によれば、いくつか分の時間オーダの時間短縮が見込まれるため、L3網の正常性を行うことが有用であるといえる。
≪まとめ≫
本実施形態によれば、確率的に発現し、下位レイヤの故障位置の特定を元々困難にしている上位レイヤの異常検出から、下位レイヤのコンポーネント単位でのパラメータの分布を求めることができる。このような分布でパラメータが極端な値を示すコンポーネントを見つけることができ、見つけたコンポーネントを故障が発生したコンポーネントと推定することができる。これにより、下位レイヤの故障の被疑範囲を絞り込むことができる。換言すれば、下位レイヤの故障の位置を最終的に特定するために多大な負担を伴う詳細分析を行う対象を効率的に絞り込むことができる。
したがって、上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定するための稼働を削減することができる。
また、複数のコンポーネントを対象にして、パラメータの値に応じた順位付けを行うことで、詳細分析を優先的に行うコンポーネントを決定することができる。このため、優先順位の高いコンポーネントから順に詳細分析を行うことで、下位レイヤの故障の位置の特定するための稼働をさらに削減することができる。
また、パラメータを、コンポーネント単位の検出数、検出率、故障率、故障していない率、重み付け検出数のいずれかとすることで、下位レイヤのコンポーネント単位での各種類のパラメータの分布を数値化することができる。よって、パラメータが極端な値を示すコンポーネントを容易に見つけることができる。
また、パラメータが複数種類ある場合、それらの複数種類のパラメータを用いて、故障が発生したコンポーネントの推定を実現することができる。
また、パラメータの値にしたがった故障の推定ではなく、下位レイヤの故障が発生したと推定したコンポーネントの近傍のコンポーネントを優先して詳細分析を行うことができる。
また、パス間の類似度を評価し、誤検出を除去した上で、下位レイヤのコンポーネント単位でのパラメータの分布を求めることができる。このため、下位レイヤの故障の被疑範囲の絞り込みの精度を向上させることができる。
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能である。例えば、下位レイヤ(L0/L1網)のコンポーネント単位をOMSとしたが、コンポーネントとして、OMSよりも大きな単位となるOCh(Optical Channel)、OTU(Optical Transport Unit)などとしてもよいし、OMSよりも小さな単位となるOTS(Optical Transmission Section)などとしてもよい。
また、本実施形態では、確認順決定部3によって、被疑範囲となるコンポーネントごとの順位付けを行ったが、最も疑わしい(確認順が1位の)コンポーネントだけを特定してもよい。このような特定により、面的分析の処理を高速化することができる。
また、本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
また、本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
その他、ハードウェア、ソフトウェア、処理手順などについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
100 故障位置特定装置
1−1〜1−4 網構成管理部
1a〜1d 網構成情報
2−1〜2−3 性能情報管理部
2−4 ユーザ申告管理部
2a〜2c 性能情報
2d 申告情報
3 確認順決定部(制御部:制御手段)
3a レイヤ間収容情報
3b 確認順情報
4 故障位置特定部

Claims (8)

  1. 上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定する故障位置特定装置であって、
    前記下位レイヤの機器がコンポーネント単位に分類されており、
    前記下位レイヤのコンポーネントごとに、前記上位レイヤの異常検出を、1または複数種類のパラメータに換算し、
    前記換算したパラメータを用いて故障が発生したコンポーネントを推定する制御部、を備える、
    ことを特徴とする故障位置特定装置。
  2. 前記制御部は、
    前記故障の位置特定に関して、前記パラメータの値に応じて前記下位レイヤのコンポーネントの各々を順位付けする、
    ことを特徴とする請求項1に記載の故障位置特定装置。
  3. 前記パラメータは、
    (1)前記コンポーネントの各々が収容する前記上位レイヤの機器を経由するパスのうち、前記異常検出があったパスの数となる、コンポーネント単位の検出数、
    (2)前記コンポーネントの各々が収容する前記上位レイヤの機器を経由するパスの数である収容数と、前記検出数との比となる、コンポーネント単位の検出率、
    (3)前記コンポーネントの各々に属する前記下位レイヤの機器の過去の故障から求められる、コンポーネント単位の故障率、
    (4)前記故障率に基づいて、前記異常検出に対し、前記コンポーネントの各々に属する前記下位レイヤの機器の故障していない確率である、コンポーネント単位の故障していない率、
    (5)前記上位レイヤのパスの各々に対応するコンポーネント数の逆数を用いて前記検出数の重み付けした、コンポーネント単位の重み付け検出数、のいずれかである、
    ことを特徴とする請求項1または請求項2に記載の故障位置特定装置。
  4. 前記パラメータが複数種類あり、
    前記制御部は、
    前記パラメータを複数種類組み合わせて故障が発生したコンポーネントを推定する場合、
    前記組み合わせた複数種類のパラメータの各々に優先度を付与し、前記優先度の高いパラメータから前記推定を実行する、
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の故障位置特定装置。
  5. 前記制御部は、
    前記推定したコンポーネントに故障が無かった場合、当該推定したコンポーネントの近傍のコンポーネントに故障が発生したと推定する、
    ことを特徴とする請求項1から4のいずれか1項に記載の故障位置特定装置。
  6. 前記制御部は、
    前記異常検出があった上位レイヤのパスの各々について、当該パスの各々に対応するコンポーネントに基づいて、前記パス間の類似度を評価し、
    前記類似度が小さいパスでの異常検出を誤検出として除去する、
    ことを特徴とする請求項1から請求項5のいずれか1項に記載の故障位置特定装置。
  7. 上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定する故障位置特定装置における故障位置特定方法であって、
    前記下位レイヤの機器がコンポーネント単位に分類されており、
    前記故障位置特定装置が、
    前記下位レイヤのコンポーネントごとに、前記上位レイヤの異常検出を、1または複数種類のパラメータに換算するステップと、
    前記換算したパラメータを用いて故障が発生したコンポーネントを推定するステップと、を実行する、
    ことを特徴とする故障位置特定方法。
  8. コンピュータを、上位レイヤの異常検出に対し下位レイヤで発生した故障の位置を特定する故障位置特定装置として機能させるための故障位置特定プログラムであって、
    前記下位レイヤの機器がコンポーネント単位に分類されており、
    前記コンピュータを、
    前記下位レイヤのコンポーネントごとに、前記上位レイヤの異常検出を、1または複数種類のパラメータに換算し、
    前記換算したパラメータを用いて故障が発生したコンポーネントを推定する制御手段、
    として機能させるための故障位置特定プログラム。
JP2016200537A 2016-10-12 2016-10-12 故障位置特定装置、故障位置特定方法、および、故障位置特定プログラム Active JP6586067B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016200537A JP6586067B2 (ja) 2016-10-12 2016-10-12 故障位置特定装置、故障位置特定方法、および、故障位置特定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016200537A JP6586067B2 (ja) 2016-10-12 2016-10-12 故障位置特定装置、故障位置特定方法、および、故障位置特定プログラム

Publications (2)

Publication Number Publication Date
JP2018064160A true JP2018064160A (ja) 2018-04-19
JP6586067B2 JP6586067B2 (ja) 2019-10-02

Family

ID=61968054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016200537A Active JP6586067B2 (ja) 2016-10-12 2016-10-12 故障位置特定装置、故障位置特定方法、および、故障位置特定プログラム

Country Status (1)

Country Link
JP (1) JP6586067B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020162055A (ja) * 2019-03-27 2020-10-01 富士通株式会社 情報処理方法及び情報処理装置
WO2021192316A1 (ja) * 2020-03-27 2021-09-30 日本電気株式会社 光通信システム、故障確率推定装置、故障解析装置及び光通信システムの故障解析方法
WO2023162187A1 (ja) * 2022-02-25 2023-08-31 日本電信電話株式会社 光伝送システムおよび故障箇所特定方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020162055A (ja) * 2019-03-27 2020-10-01 富士通株式会社 情報処理方法及び情報処理装置
JP7135969B2 (ja) 2019-03-27 2022-09-13 富士通株式会社 情報処理方法及び情報処理装置
WO2021192316A1 (ja) * 2020-03-27 2021-09-30 日本電気株式会社 光通信システム、故障確率推定装置、故障解析装置及び光通信システムの故障解析方法
WO2023162187A1 (ja) * 2022-02-25 2023-08-31 日本電信電話株式会社 光伝送システムおよび故障箇所特定方法

Also Published As

Publication number Publication date
JP6586067B2 (ja) 2019-10-02

Similar Documents

Publication Publication Date Title
EP2795841B1 (en) Method and arrangement for fault analysis in a multi-layer network
US20200106662A1 (en) Systems and methods for managing network health
US9712290B2 (en) Network link monitoring and testing
US11316728B2 (en) Method and system for assessing network resource failures using passive shared risk resource groups
EP1768045A2 (en) Application of cut-sets to network interdependency security risk assessment
JP6586067B2 (ja) 故障位置特定装置、故障位置特定方法、および、故障位置特定プログラム
CN107870832B (zh) 基于多维度健康诊断方法的多路径存储设备
US9030928B2 (en) Communication system, communication method and network management apparatus
CN108933694B (zh) 基于拨测数据的数据中心网络故障节点诊断方法及系统
CN104471902A (zh) 确定性网络故障检测
CN111600805B (zh) 基于贝叶斯的电力数据网拥塞链路推断方法
JPWO2008108231A1 (ja) 品質劣化箇所推定方法、品質劣化箇所推定装置およびプログラム
Oi et al. Method for estimating locations of service problem causes in service function chaining
JP5780553B2 (ja) 障害監視装置及び障害監視方法
CN111865667A (zh) 网络连通性故障根因定位方法及装置
JP5722167B2 (ja) 障害監視判定装置、障害監視判定方法、及びプログラム
JP6378653B2 (ja) サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法
US10432451B2 (en) Systems and methods for managing network health
Dusia et al. Probe generation for active probing
JP5130968B2 (ja) 障害箇所特定方法
US8284044B2 (en) Poll-based alarm handling system and method
CN106713035B (zh) 一种基于分组测试的拥塞链路定位方法
CN115733726A (zh) 网络群障确定方法、装置、存储介质及电子装置
CN115150253B (zh) 一种故障根因确定方法、装置及电子设备
JP2005252765A (ja) ネットワーク故障判定装置及びネットワーク保守システム及びネットワーク故障判定方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190906

R150 Certificate of patent or registration of utility model

Ref document number: 6586067

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150