JP2017153015A - 故障解析装置、故障解析プログラムおよび故障解析方法 - Google Patents
故障解析装置、故障解析プログラムおよび故障解析方法 Download PDFInfo
- Publication number
- JP2017153015A JP2017153015A JP2016035398A JP2016035398A JP2017153015A JP 2017153015 A JP2017153015 A JP 2017153015A JP 2016035398 A JP2016035398 A JP 2016035398A JP 2016035398 A JP2016035398 A JP 2016035398A JP 2017153015 A JP2017153015 A JP 2017153015A
- Authority
- JP
- Japan
- Prior art keywords
- information
- service
- failure
- suspected
- monitoring information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Description
しかし、このような障害検知では、事業者ネットワークが提供するネットワークリソースの障害の一部分を複数のサービス提供事業者が個々に検知しているにすぎないため、事業者ネットワーク内において故障の可能性が高いノード(故障箇所)を推定することは困難であった。特に、事業者ネットワーク内で当該事業者が把握できない故障、つまり、サービスに障害が発生しているにもかかわらず、事業者ネットワーク内で故障が検知されないサイレント故障の場合、より問題は深刻となる。
非特許文献1に記載の故障箇所推定手法では、図20(a)に示すように、まず、複数の事業者と跨ったエンドツーエンド(E2E)の品質を示すようなサービス監視情報(以下、「E2E監視情報」と称する場合がある。)を収集する。次に、警報が監視された区間について、事業者毎の区間に分解する。図20(a)では、ノード「A」−「D」間を、事業者A、事業者B、事業者Cの区間に分解した例を示している。続いて、事業者内の簡易トポロジ(3階梯(全国、県単位、市町村単位))を用いて、通過ノードに、被疑ポイントを加算する。この処理を、サービス監視情報毎に実行する。そして、最も被疑ポイントの多い箇所を故障被疑箇所と推定するものである。
また、被疑ポイントが多い箇所が複数存在する場合には、以下のようにして故障被疑箇所を推定する。
図20(c)に示すように、上位ノード(ノードy1)と下位ノード(ノードy2,y3)のすべてが同じ最大値の被疑ポイントである場合には、上位ノード(ノードy1)を故障被疑箇所とする。これは、下位ノード(ノードy2,y3)の被疑ポイントが高いのは、上位ノード(ノードy1)が故障していることの影響であると推定されるためのである。
図20(d)に示すように、上位ノード(ノードz1)とその下位に属する一部のノード(ノードz2)のみが被疑ポイントの最大値を有する場合には、一部の下位ノード(ノードz2)を故障被疑箇所とする。これは、上位ノード(ノードz1)の被疑ポイントが高いのは、下位ノード(ノードz2)が故障していることの影響であると推定されるためである。
さらに、非特許文献1に記載の故障箇所推定手法では、図21に示すような、1つのサービスに関して複数の事業者ネットワークを経由する可能性がある場合では、いろいろなネットワーク事業者の組み合わせパターンのサービスが想定できるため、故障被疑箇所を1つに特定することが難しく、また、絞り込みにも多くのサンプルを要する問題があった。
図1は、本実施形態に係る故障解析装置1を含む故障解析システム1000の全体構成を示す図である。
本実施形態に係る故障解析システム1000は、複数のネットワーク事業者20(図1においては、アクセスネットワーク事業者20a(「A」,「B」)、コアネットワーク事業者20b、クラウド事業者20c(「A」,「B」))と、そのネットワーク事業者20のネットワーク(事業者ネットワーク)を利用してユーザにサービスを提供するサービス提供事業者10と、故障解析装置1とを含んで構成される。
故障解析装置1は、サービス提供事業者10と各ネットワーク事業者20との間で通信可能に接続される。なお、図1に示す、アクセスネットワーク事業者20a、コアネットワーク事業者20b、クラウド事業者20c等の個々の事業ネットワークを管理する事業者をまとめて、上記のように、ネットワーク事業者20と称する。
この故障解析装置1が実行する処理は、B2B2Xモデルにおいて、複数のネットワーク事業者20のリソースを組み合わせてサービスを提供するアーキテクチャ(連携機能部)が備える機能の一部としてもよい。
具体的には、故障解析装置1は、ネットワーク事業者20から障害発生通知(異常情報)が出ていない場合において、サービス提供事業者10等からサービス障害に関するサービス監視情報を受信したときに、そのサービスの提供において利用されるどのネットワーク事業者20のどのエリア(ノード)が原因であるかを特定するための被疑箇所推定を行う。そして、故障解析装置1は、被疑箇所推定によって絞り込んだネットワーク事業者20に対して、トラブルチケット(詳細は後記する。)を発行し、詳細な障害発生箇所と障害発生原因の調査を依頼する。
次に、本実施形態に係る故障解析装置1について説明する。故障解析装置1は、複数のネットワーク事業者20を利用したサービスに関する故障を解析し、故障箇所(故障ノードや故障エリア)を推定し、当該故障に関係するサービス提供事業者10やネットワーク事業者20等に通知を行う装置である。
なお、以下の説明においては、サービス提供事業者10は1事業者として説明するが、複数の事業者であってもよい。複数のサービス提供事業者10の場合であっても、それぞれのサービス提供事業者10に対し、以下において説明する処理を同様に実行する。
また、以下の説明においては、複数のネットワーク事業者20を利用したサービスを前提として説明するが、1つのネットワーク事業者20であってもよく、その場合であっても、故障解析装置1が、サービス監視情報や部分監視情報等を用いて、被疑箇所を推定することができる。特に、装置側から異常情報があがってこないサイレント故障の場合に有効となる。
この入出力部11を介して、故障解析装置1は、サービス提供事業者10、ログ収集サーバ30、各ネットワーク事業者20等との間で、性能情報や、警報情報、各種の通知等の送受信を行う。なお、ログ収集サーバ30については、後記する。
本実施形態において、サービス提供事業者10等から得られる、当該サービス提供事業者10がユーザに提供するサービスの性能に関する情報を「性能情報」と称する。この性能情報には、後記する異常判定の結果に基づき、正常値と判定される「性能正常情報」と、異常値と判定される「性能異常情報」とがある。また、各ネットワーク事業者20から送信されてくる警報情報、故障発生情報等を単に「異常情報」と称する。このサービス提供事業者10等からの「性能情報」と、各ネットワーク事業者20からの「異常情報」とを併せて、「異常関連情報」と称する場合がある。
なお、この制御部12は、例えば、記憶部13に格納されたプログラム(故障解析プログラム)をCPU(Central Processing Unit)が不図示のRAMに展開し実行することで実現される。
図3に示すように、情報取得設定情報100には、レイヤ、種別、情報取得元(情報取得内容)、取得契機、取得間隔等の各項目が格納される。
ここで、「レイヤ」は、取得先のレイヤ(階層)を示し、例えば、「複数事業者間」、「1事業者」、「IP(レイヤ)」「イーサ(レイヤ)」「伝送(レイヤ)」の各レイヤが設定される。なお、「複数事業者間」のレイヤから取得する情報に、複数の事業者を跨ったエンドツーエンド(E2E)の品質を示すサービス監視情報(E2E監視情報)が含まれる。また、「1事業者」のレイヤから取得する情報に、一部区間の監視情報(部分監視情報)が含まれる。
「種別」には、「性能情報」、「異常情報」、「位置情報」等が設定される。
「情報取得元」には、その情報の取得元となるAPI(Application Programming Interface)や、各事業者ネットワークを管理するOpS(Operation System)が取得元として設定される。
「取得契機」には、ユーザがそのサービスを利用する毎(「ユーザアクセス契機」)や、所定の時間間隔で取得することを示す「定期取得」、異常やその異常箇所の検証のためにその時々で行われることを示す「随時取得」、対象とするネットワーク事業者20側を契機として送信されてくることを示す「通知」等が設定される。
「取得間隔」には、取得契機において、「定期取得」が設定された場合における、その時間間隔が格納される。
また、「GeoLocation API」は、ユーザ端末やサーバの位置情報を取得するためのAPIである。この位置情報は、ネットワーク事業者のサーバ構成の初期設定に利用する(詳細は後記)。
「CloudWatch API」は、AWS(Amazon Web Services(商標))が提供するAPIであり、例えばクラウド区間内の往復の処理時間等が取得できる。
「PM/SQM API」は、パフォーマンス情報やサービス品質情報を収集するAPIである。
「TroubleTicket API」は、ネットワーク内で発生した障害に関する情報を記録し、そのネットワークの状況や作業の進行状況を把握するためのAPIである。
「SLA Management API」は、サービス品質保証に関しネットワーク事業者やクラウド事業者が、その保証契約に違反(品質劣化)した場合に、その内容を通知するためのAPIである。
その他、故障解析装置1は、IPレイヤ、イーサレイヤ、伝送レイヤにおける各ネットワーク内の装置から、異常を示す情報の有無を定期取得したり、必要に応じて随時取得したりすることができる。
この情報取得部122は、後記する情報解析部125による被疑箇所推定によって絞り込んだ被疑エリアを持つネットワーク事業者に対して、異常が発生しているか否かを確認する要求(異常確認要求)を送信することにより、性能情報や異常情報を随時取得することもできる。
図4(a)は、正常・故障にかかわらず、常に装置状態が所定の時間間隔で(定期的に)通知されるパターンである。
図4(b)は、故障時にのみ警報が定期的に通知されるパターンである。
図4(c)は、正常時にのみ警報が定期的に通知されるパターンである。
図4(d)は、故障発生時に警報が通知され、その故障警報に対応する回復時に回復報が通知されるパターンである。
図4(e)は、故障発生時にのみ警報が通知され、その故障警報に対応する回復時には、回復報が通知されないパターンである。
図4(f)は、故障発生時に警報は通知されず、故障が回復し正常起動時に通知があるパターンである。
図5(a)は、図4(a)の通知パターンに対応している。ここでは、メディエータが、定期的に受信する通知の時間間隔を学習しておき、直前の通知と内容が同じであれば、単なる定期的なメッセージとみなし、情報取得部122には出力しない処理を行う。また、故障中においても、定期的に受信する通知の時間間隔を学習しておき、直前の通知と内容が同じであれば、単なる定期的なメッセージとみなし、情報取得部122には出力しない処理を行う。
このサービス異常判定部123による異常判定は、既存の技術を利用することができる。例えば、ある対象となる測定値に閾値を設定し、その閾値を上回る若しくはその閾値以下の場合に、異常と判定するようにしてもよい。その他にも、複数の関連するデータの相関係数を用いて、相関係数が所定値以下の場合に、異常と判定してもよい。また、LOF(Local Outlier Factor)も用いて、データの密度を考慮し、他の点と比べて密度が小さいことをもって異常と判定してもよい。なお。LOFについては、参考文献(M.M.Breunig, et.al., “LOF : Identifying Density-Based Local Outliers,”In Proceedings of the ACM SIGMOD International Conference on Management of Data. ACM Press, 2000)に詳しい。
性能情報200には、図6に示すように、受信した各性能情報について、性能情報ID、サービスID、そのサービスの始点、終点、始点の緯度経度、計測値、異常フラグ等の情報が格納される。サービス異常判定部123は、異常判定した結果を、異常フラグの項目に、「FALSE」(異常)または「TRUE」(正常)として格納する。
具体的には、図7(c)および図20で示すような、比較例である非特許文献1に記載の故障箇所推定手法においては、事業者内のネットワークトポロジについて、一般的な3階梯(全国、県単位、市町村単位)の簡易モデルを適用している。本実施形態における故障解析装置1の構成情報更新部124は、ネットワーク事業者の契約時(申込時)の拠点の住所情報や性能情報取得時に一緒に取得できる位置情報を用いて、事業者内の構成におけるノードの割り当てを、より実際のトポロジに近い配置に設定する。なお、性能情報取得時においては、例えば、GeoLocation API等(以下、「位置情報取得機能」と称する。)を用いて、対象となるノードの位置情報(緯度・経度)を取得することが可能である。
具体的には、構成情報更新部124は、まず、図20において示した非特許文献1に記載の故障箇所推定手法と同様の手法により、サービス監視情報における通過ノードに、被疑ポイントを加算する処理を行い、それをサービス監視情報毎に繰り返し実行する。そして、最も被疑ポイントの多い箇所を故障被疑箇所と推定する。以下、ネットワークトポロジの更新例について説明する。
・ノードAL1,AM1,AM2の被疑ポイントのみがともに最大値となるような故障(例えば、ノードAL1,AM1,AM2の被疑ポイントが54ポイントで最大値、ノードAL2,AM3,AM4の被疑ポイントは36ポイント)が発生している。
・ノードAL2,AM3,AM4の被疑ポイントのみがともに最大値となるような故障(例えば、ノードAL2,AM3,AM4の被疑ポイントが54ポイントで最大値、ノードAL1,AM1,AM2の被疑ポイントは36ポイント)が発生している。
・ノードAL1,AL2,AM1,AM2,AM3,AM4の被疑ポイントがともに最大値となるような故障(例えば、ノードAL1,AM1,AM2,AL2,AM3,AM4の被疑ポイントが54ポイントで最大値)が発生している。
このようなケースでは、構成情報更新部124は、親ノードAK1と子ノードAL1,AL2との間に、子ノードAL1,AL2を束ねる1.5次階梯となるノードAN1があると推定する(図8(b)参照)。これにより、構成情報更新部124は、事業者内のネットワークトポロジを更新する。
・ノードAL3,AL4,AM5,AM6,AM7,AM8の被疑ポイントがともに最大値となるような故障(例えば、ノードAL3,AM5,AM6,AL4,AM7,AM8の被疑ポイントが54ポイントで最大値)が発生している。
・ノードAL3,AM5,AM6の被疑ポイントのみがともに最大値となるような故障(例えば、ノードAL3,AM5,AM6の被疑ポイントが54ポイントで最大値、ノードAL4,AM7,AM8の被疑ポイントは36ポイント)は発生していない。
・ノードAL4,AM7,AM8の被疑ポイントのみがともに最大値となるような故障(例えば、ノードAL4,AM7,AM8の被疑ポイントが54ポイントで最大値、ノードAL3,AM5,AM6の被疑ポイントは36ポイント)は発生していない。
このようなケースでは、構成情報更新部124は、子ノードAL3,AL4が一つの子ノードAL5であると推定する(図8(c)参照)。構成情報更新部124は、子ノードAL3,AL4に代えて孫ノードAM5,AM6,AM7,AM8を束ねる子ノードAL5を有するネットワークトポロジに更新する。
本実施形態に係る情報解析部125が行う被疑箇所推定は、非特許文献1に記載の故障箇所推定手法において、事業者間を跨った監視情報(サービス監視情報)のみを用いて故障箇所を推定していたのと異なり、サービス監視情報に加えて、各ネットワーク事業者から送信される1事業者内(一部区間)の監視情報(部分監視情報)も組み合わせて被疑箇所推定を行うことにより、より精度の高い故障箇所の推定を行うことを特徴とする。以下、具体的に説明する。
情報解析部125は、以下に示すステップに沿って処理を実行する。なお、ここで想定するサービスとしては、図9に示すように、エンドユーザが、ネットワーク事業者「1」、ネットワーク事業者「2」、クラウド事業者「1」を介して、クラウド上のアプリケーション(APL)であるWebサーバにアクセスするというモデルとする。また、このサービスにおいて、クラウド上のサーバ内の何れかで異常が発生し、サービスに影響がでているものとする。
ここでは、サービス1が、区間e1,e2,…,e9で構成されるものとする。区間e1,e2,…,e9は、図9で示すように、それぞれユーザ端末内、ネットワーク事業者「1」区間、ネットワーク事業者「2」区間、クラウド事業者「1」区間、サーバ内に対応する。なお、図9および後記する図10において、分割された区間(分割区間)を「e」で表わし、ノードを「v」で表わす。また、図9の説明では、ユーザ端末から送信される、クラウド事業者内のサーバ側のAPLに対するリクエストに基づき、APLからユーザ端末にレスポンスが返信されるモデルであるため、各区間には上りと下りの2つの向きがある。さらに、図9においては、以下の説明を平易にするため、ネットワーク事業者やクラウド事業者の区間を1つとしているが、情報解析部125による実際の処理においては、構成情報更新部124により更新された最新のネットワークトポロジ(ノード構成)を用いて、図10のネットワーク事業者「2」内において例示するように、さらに細かい区間に分割して処理を行う。これにより、故障被疑箇所をより正確に特定することが可能となる。
なお、ここでは、Webサーバにアクセス(Webページ閲覧)を例として説明するが、例えば、IP電話サービス、動画配信サービス等のそれぞれのサービスに応じて、区間の設定に関するテンプレートを用意しておき、「区間」の分割処理を効率化するようにしてもよい。このテンプレートは、故障解析装置1の記憶部13に記憶される。
情報解析部125は、複数の事業者を跨ったサービス監視情報と1事業者内(一部区間)の監視情報(部分監視情報)を統一的に表現するために、異常を示す情報n(以下、「異常監視情報n」と称する。)を表わすベクトルAnを定義する。Anの要素数は区間の数であり、その1つの要素である要素mは、区間emが被疑であれば「1」、そうでなければ「0」とする。例えば、異常監視情報1として、Webページの読み込み時間の異常がある場合、被疑区間は区間e1,…,e9とのなる(図9の異常監視情報「1」参照)。異常監視情報「2」として、クラウド内の応答遅延がある場合には、被疑区間は、区間e4,e5,e6となる。また、異常監視情報「3」として、クラウド上のサーバの流出トラフィック量に異常がある場合には、その上流である、区間e1,…,e5が被疑区間となる。これらをベクトルで表現すると、式(1)〜式(3)となる。
A2 = [0 0 0 1 1 1 0 0 0] … 式(2)
A3 = [1 1 1 1 1 0 0 0 0] … 式(3)
情報解析部125は、STEP2で算出した被疑ポイントを区間ごとに合計することにより、区間ごとの被疑度合を示す異常ポイントAを算出する。
A = ΣAi = [2 2 2 3 3 2 1 1 1] … 式(4)
具体的には、情報解析部125は、STEP4−1として、STEP2およびSTEP3と同様に、正常であることを示す情報(例えば、性能正常情報であり、ここでは、正常を示す情報を「正常監視情報」と称する。)についても、区間ごとに正常度合を示す正常ポイントを算出する。例えば、図9の正常監視情報「1」として、クラウド上のサーバへの流入トラフィック量が正常値である場合には、正常ポイントNは、以下の式(5)で表わされる。
N = ΣNi = [1 1 1 1 0 0 0 0 0] … 式(5)
異常ポイントAのうち、正常ポイントNが「0」である要素(すなわち、正常を示す情報がない区間)について、降順にソートする。なお、値が同一の場合は、上流側の優先度を高くする。
(ルール2)
異常ポイントAのうち、正常ポイントNが「0」でない要素(すなわち、正常を示す情報がある区間)について、降順にソートする。なお、値が同一の場合は、正常ポイントNの値が低い方の優先度を高くする。正常ポイントNの値も同一の場合は、上流側の優先度を高くする。
E = [e5 e6 e7 e8 e9 e4 e1 e2 e3] … 式(6)
このように、情報解析部125は、被疑ポイントの合計と正常ポイントの合計とに基づき、各区間(分割区間)について被疑度合に応じた順位付けを行う。この各区間を被疑度合の高い順に並べた情報を「被疑箇所リスト」として、以下において説明する。情報解析部125は、被疑箇所推定の結果として、この被疑箇所リストを生成し、記憶部13に記憶する。
そして、情報解析部125は、被疑度合が最も高い区間(ここでは、区間e5、すなわちサーバ内区間)を被疑箇所(以下、「被疑エリア」とも称する。)と推定する。また、情報解析部125は、被疑エリアのネットワーク事業者20等に、後記するサービス状態管理部126が、推定した被疑箇所(被疑エリア)についての故障を問い合わせた結果、当該推定した被疑箇所(被疑エリア)に故障がないことがわかった場合には、被疑度合の順位が次に高い区間(ここでは、区間e6、すなわちクラウド事業者「1」内)を被疑箇所(被疑エリア)と推定して処理することができる。このように情報解析部125は、被疑度合の高い順に、被疑箇所(被疑エリア)を順次推定することにより、正確な故障箇所を効率良く(短時間で)特定することが可能となる。なお、情報解析部125は、この被疑箇所リストにおいて、最上位から所定の順位までを、被疑箇所(被疑エリア)として推定し、処理するものとして予め設定しておく。
被疑箇所推定情報300には、図11に示すように、情報解析部125が被疑箇所推定した結果として、被疑箇所推定ID、被疑箇所ID、サービスID、被疑エリア等の情報が格納される。
被疑箇所推定IDは、情報解析部125が被疑箇所推定を行う度に付される、1つの被疑箇所推定毎の固有の識別子である。被疑箇所IDは、被疑区間(被疑エリア)に対応した固有の識別子である。サービスIDは、被疑箇所推定したサービスの識別子である。被疑エリアは、被疑箇所推定の結果として得られた最も被疑度合の高い区間を示す情報である。
また、サービス状態管理部126は、被疑エリア若しくは故障エリアのネットワーク事業者20等から、当該故障が回復したエリア(回復エリア)が付された異常回復情報を受信した場合には、当該故障について発行したトラブルチケットをclosed状態にするとともに、その異常回復情報をサービス提供事業者10に通知する。
トラブルチケットIDは、サービス状態管理部126が発行した各トラブルチケットに固有の識別子である。ステータスは、対象となるサービスについての故障の進行状況が格納される。例えば、「In Progress」(調査進行中)、「Acknowledged」(承認)、「Closed」(終了)等がある。サービスIDには、故障の対象となるサービスのサービスIDが格納される。
この異常情報500には、図13に示すように、異常情報ID、タイプ、サービスID、故障エリア、内容等の情報が格納される。
異常情報IDは、各装置等において障害が発生するごとに付される固有の識別子である。タイプは、当該異常情報の種別を示し、例えば、「SLA Violation」は、サービス品質保証に関する違反を通知する情報であることを示す。また、「PM」は、個々のネットワーク機器の性能異常(パフォーマンス情報)を示す。サービスIDは、当該故障の対象となるサービスの識別子である。故障エリアは、当該故障の故障箇所(故障区間)を示す。また、内容は、当該故障の故障内容(故障原因)が格納される。
次に、故障解析装置1の処理の流れについて説明する。
なお、故障解析装置1は、各ネットワーク事業者20のOpS等から、障害の発生等を検知したことを示す異常情報500(図13参照)を随時受信し、記憶部13内に格納しているものとする。また、故障解析装置1の構成情報更新部124は、各ネットワーク事業者やクラウド事業者との間の契約時の情報や、GeoLocation API等を用いた位置情報取得機能に基づき、各ネットワークのノード構成(ネットワークトポロジ)の初期状態を設定しておくものとする。
図14に示すように、まず、故障解析装置1の情報取得設定部121は、サービス提供事業者10やネットワーク事業者20等から、性能情報や異常情報等の異常関連情報を取得する際の、情報取得元(情報取得内容)、取得契機、取得間隔などを、情報取得設定情報100(図3参照)として設定する(ステップS10)。そして、情報取得設定部121は、その情報取得設定情報100を記憶部13に記憶しておく。
この各情報を取得する際に、情報取得部122は、上記したように、各情報の通知パターンに応じて、その警報情報を正規化して取得するようにしてもよい。
なお、情報解析部125は、被疑度合の高い区間順に、被疑エリアを推定する際に、情報取得部122を介して、その被疑エリアが存在する事業者内(一部区間)の管理情報(部分監視情報)を再要求(随時取得)してもよい。情報解析部125は、例えば、CloudWatch APIや、PM/SQM API等を用いて各性能情報を再要求(随時取得)し、再度ステップS60の被疑箇所推定を行うことにより、被疑エリアを絞り込むことができる。
この異常確認処理(ステップS70)については、後記する図15および図16を参照して詳細に説明する。また、異常回復確認処理(ステップS80)については、後記する図17を参照して詳細に説明する。なお、この異常確認処理(ステップS70)と異常回復確認処理(ステップS80)は、図14に示すように、ステップS70,S80の順で逐次処理してもよいし、並行処理してもよい。
図15および図16は、本実施形態に係る故障解析装置1が実行する異常確認処理の流れを示すフローチャートである。
そして、サービス状態管理部126は、異常情報500で示される故障エリアに対応する被疑箇所推定情報300がある場合には(ステップS702→Yes)、その異常情報500と、被疑箇所推定情報300との関連付けを行う(ステップS703)。そして、ステップS704に進む。
続いて、サービス状態管理部126は、故障による影響箇所を算出し、サービス提供事業者10や関係するネットワーク事業者20に通知する(ステップS708)。そして、すべての故障箇所について処理を行い(ステップS704〜S709)、異常確認処理を終了する。
ここで、サービス状態管理部126は、最下位であれば(ステップS710→Yes)、被疑箇所(被疑エリア)についての処理がすべて終わったものとして処理を終了する。一方、サービス状態管理部126は、最下位でなければ(ステップS710→No)、被疑箇所リストにおいて、現時点で設定されている被疑箇所の1つ下位の被疑箇所(被疑エリア)を選択する(ステップS711)。そして、サービス状態管理部126は、選択した被疑箇所の被疑箇所推定情報300について、ステップS702に戻り処理を続ける。
続いて、サービス状態管理部126は、被疑箇所推定情報300の被疑箇所(被疑エリア)に基づき影響箇所を算出し、サービス提供事業者10や関係するネットワーク事業者20に通知する(ステップS725)。そして、すべての被疑箇所(被疑エリア)について処理を行い(ステップS721〜S726)、異常確認処理を終了する。
次に、図14のステップS80において実行される異常回復確認処理について説明する。
図17は、本実施形態に係る故障解析装置1が実行する異常回復確認処理の流れを示すフローチャートである。
続いて、サービス状態管理部126は、故障回復に伴う影響箇所を算出し、サービス提供事業者10や関係するネットワーク事業者20に通知する(ステップS807)。そして、すべての被疑箇所について処理が終わったかを確認し(ステップS812)、終わっていない場合に、ステップS802戻る。
ステップS808において、サービス状態管理部126は、図14のステップS60における被疑箇所推定において推定結果が正常とされた被疑箇所(対象エリア)があるか否かを判定する。ここで、推定結果が正常とされた被疑箇所(対象エリア)がない場合は(ステップS808→No)、ステップS812に進む。一方、推定結果が正常とされた被疑箇所(対象エリア)がある場合は(ステップS808→Yes)、次のステップS809へ進む。
続いて、サービス状態管理部126は、故障回復に伴う影響箇所を算出し、サービス提供事業者10や関係するネットワーク事業者20に通知する(ステップS811)。そして、すべての被疑箇所について処理が終わったかを確認し(ステップS812)、異常回復確認処理を終了する。
図18に示すように、性能情報200と被疑箇所推定情報300とが、性能情報−被疑箇所対応情報250により対応付けられる。性能情報−被疑箇所対応情報250は、性能情報IDに被疑箇所推定IDが紐付けられる情報である。
また、被疑箇所推定情報300と、トラブルチケット情報400とが、トラチケ−被疑箇所推定対応情報350により対応付けられる。トラチケ−被疑箇所推定対応情報350は、トラブルチケットIDに、被疑箇所推定IDおよび被疑箇所IDが紐付けられる情報である。
さらに、トラブルチケット情報400と異常情報500とは、トラチケ−異常情報対応情報450により対応付けられる。トラチケ−異常情報対応情報450は、トラブルチケットIDに、異常情報IDが紐付けられる情報である。
このように、性能情報200に基づき生成した被疑箇所推定情報300と、トラブルチケット情報400と、異常情報500とが関連付けられることにより、障害の発生に伴い影響を受けるサービスやその影響範囲の把握が容易となる。
10 サービス提供事業者
11 入出力部
12 制御部
13 記憶部
20 ネットワーク事業者
30 ログ収集サーバ
100 情報取得設定情報
121 情報取得設定部
122 情報取得部
123 サービス異常判定部
124 構成情報更新部
125 情報解析部
126 サービス状態管理部
200 性能情報
250 性能情報−被疑箇所対応情報
300 被疑箇所推定情報
350 トラチケ−被疑箇所推定対応情報
400 トラブルチケット情報
450 トラチケ−異常情報対応情報
500 異常情報
1000 故障解析システム
Claims (6)
- 1つ以上の事業者ネットワークを利用してサービス提供事業者がサービスを提供する通信ネットワークにおいて、前記サービスの故障を解析する故障解析装置であって、
前記サービスのエンドツーエンドの性能に関する情報を示すサービス監視情報、および、前記サービスが利用する前記1つ以上の事業者ネットワークの一部区間の監視情報を示す部分監視情報を取得する情報取得部と、
前記サービス監視情報および前記部分監視情報を記憶する記憶部と、
前記サービス監視情報、前記部分監視情報のそれぞれが異常情報であるか正常情報であるかを所定のロジックを用いて判定するサービス異常判定部と、
前記サービス監視情報、前記部分監視情報のそれぞれが監視対象とする前記通信ネットワーク内の区間において、前記サービス監視情報、前記部分監視情報のそれぞれが異常情報であると判定された場合に、当該区間における仮定のノード構成に基づき設定された前記サービスが利用する区間を分割した分割区間に被疑ポイントを加算し、前記サービス監視情報、前記部分監視情報のそれぞれが正常情報であると判定された場合に、当該分割区間に正常ポイントを加算し、前記被疑ポイントの合計と前記正常ポイントの合計とに基づき、前記分割区間について被疑度合に応じた順位付けを行い、故障被疑箇所を推定する情報解析部と、
を備えることを特徴とする故障解析装置。 - 前記推定された故障被疑箇所および当該故障被疑箇所を利用するサービスの情報を含むトラブルチケット情報を発行し、前記発行したトラブルチケット情報と、前記故障被疑箇所を示す被疑箇所推定情報と、前記サービス監視情報および前記部分監視情報と、を関連付けるサービス状態管理部を、
さらに備えることを特徴とする請求項1に記載の故障解析装置。 - 前記情報取得部は、前記事業者ネットワークから故障エリアを含む異常情報を取得し、前記記憶部に記憶し、
前記サービス状態管理部は、前記故障被疑箇所と前記異常情報の前記故障エリアが一部でも重なる場合に、前記異常情報と、前記被疑箇所推定情報と、前記トラブルチケット情報と、前記サービス監視情報および前記部分監視情報と、を関連付けること
を特徴とする請求項2に記載の故障解析装置。 - 前記仮定のノード構成を、前記事業者ネットワークのノードそれぞれの位置情報を用いて更新する構成情報更新部を、
さらに備えることを特徴とする請求項1ないし請求項3のいずれか1項に記載の故障解析装置。 - コンピュータを、請求項1乃至請求項4のいずれか一項に記載の故障解析装置として機能させるための故障解析プログラム。
- 1つ以上の事業者ネットワークを利用してサービス提供事業者がサービスを提供する通信ネットワークにおいて、前記サービスの故障を解析する故障解析装置の故障解析方法であって、
前記故障解析装置は、
前記サービスのエンドツーエンドの性能に関する情報を示すサービス監視情報、および、前記サービスが利用する前記1つ以上の事業者ネットワークの一部区間の監視情報を示す部分監視情報を取得し、記憶手段に記憶するステップと、
前記サービス監視情報、前記部分監視情報のそれぞれが異常情報であるか正常情報であるかを所定のロジックを用いて判定するステップと、
前記サービス監視情報、前記部分監視情報のそれぞれが監視対象とする前記通信ネットワーク内の区間において、前記サービス監視情報、前記部分監視情報のそれぞれが異常情報であると判定された場合に、当該区間における仮定のノード構成に基づき設定された前記サービスが利用する区間を分割した分割区間に被疑ポイントを加算し、前記サービス監視情報、前記部分監視情報のそれぞれが正常情報であると判定された場合に、当該分割区間に正常ポイントを加算し、前記被疑ポイントの合計と前記正常ポイントの合計とに基づき、前記分割区間について被疑度合に応じた順位付けを行い、故障被疑箇所を推定するステップと、
を実行することを特徴とする故障解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016035398A JP6467365B2 (ja) | 2016-02-26 | 2016-02-26 | 故障解析装置、故障解析プログラムおよび故障解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016035398A JP6467365B2 (ja) | 2016-02-26 | 2016-02-26 | 故障解析装置、故障解析プログラムおよび故障解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017153015A true JP2017153015A (ja) | 2017-08-31 |
JP6467365B2 JP6467365B2 (ja) | 2019-02-13 |
Family
ID=59739256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016035398A Active JP6467365B2 (ja) | 2016-02-26 | 2016-02-26 | 故障解析装置、故障解析プログラムおよび故障解析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6467365B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019175169A (ja) * | 2018-03-28 | 2019-10-10 | 株式会社リコー | 障害管理システム、障害管理装置、障害管理方法及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279505A (ja) * | 2005-03-29 | 2006-10-12 | Fujitsu Ltd | ネットワーク障害箇所特定支援装置 |
JP2011211358A (ja) * | 2010-03-29 | 2011-10-20 | Kddi Corp | ネットワークの品質劣化箇所推定装置 |
JP2012182739A (ja) * | 2011-03-02 | 2012-09-20 | Oki Electric Ind Co Ltd | 異常リンク推定装置、異常リンク推定方法、プログラムおよび異常リンク推定システム |
-
2016
- 2016-02-26 JP JP2016035398A patent/JP6467365B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279505A (ja) * | 2005-03-29 | 2006-10-12 | Fujitsu Ltd | ネットワーク障害箇所特定支援装置 |
JP2011211358A (ja) * | 2010-03-29 | 2011-10-20 | Kddi Corp | ネットワークの品質劣化箇所推定装置 |
JP2012182739A (ja) * | 2011-03-02 | 2012-09-20 | Oki Electric Ind Co Ltd | 異常リンク推定装置、異常リンク推定方法、プログラムおよび異常リンク推定システム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019175169A (ja) * | 2018-03-28 | 2019-10-10 | 株式会社リコー | 障害管理システム、障害管理装置、障害管理方法及びプログラム |
JP7069956B2 (ja) | 2018-03-28 | 2022-05-18 | 株式会社リコー | 障害管理システム、障害管理装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6467365B2 (ja) | 2019-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3379419B1 (en) | Situation analysis | |
Bahl et al. | Towards highly reliable enterprise network services via inference of multi-level dependencies | |
JP6307453B2 (ja) | リスク評価システムおよびリスク評価方法 | |
US20190052551A1 (en) | Cloud verification and test automation | |
US8015139B2 (en) | Inferring candidates that are potentially responsible for user-perceptible network problems | |
US8635498B2 (en) | Performance analysis of applications | |
US9246777B2 (en) | Computer program and monitoring apparatus | |
US10909018B2 (en) | System and method for end-to-end application root cause recommendation | |
Silic et al. | Scalable and accurate prediction of availability of atomic web services | |
JP6097889B2 (ja) | 監視システム、監視装置、および検査装置 | |
JP2019061565A (ja) | 異常診断方法および異常診断装置 | |
WO2013186870A1 (ja) | サービス監視システム、及び、サービス監視方法 | |
JP2011521380A (ja) | 大規模装置内での問題の決定のための警報の重要性のランク付け | |
JP2016091402A (ja) | リスク評価システムおよびリスク評価方法 | |
JPWO2012086824A1 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
WO2022142013A1 (zh) | 基于人工智能的ab测试方法、装置、计算机设备及介质 | |
CN109739527A (zh) | 一种客户端灰度发布的方法、装置、服务器和存储介质 | |
Yu et al. | TraceRank: Abnormal service localization with dis‐aggregated end‐to‐end tracing data in cloud native systems | |
EP3493063A1 (en) | A monitoring system and method | |
JP3791921B2 (ja) | ネットワーク・トレースを解析する方法、ネットワーク・トレースを解析するための処理装置、および該処理装置としてコンピュータを制御させるためのコンピュータ実行可能なプログラム、並びにネットワークにおけるノード間の時間差補正方法 | |
JP6467365B2 (ja) | 故障解析装置、故障解析プログラムおよび故障解析方法 | |
US10656988B1 (en) | Active monitoring of packet loss in networks using multiple statistical models | |
US20230106935A1 (en) | Network probe placement optimization | |
JP2017199250A (ja) | 計算機システム、データの分析方法、及び計算機 | |
Zhang et al. | Lossy links diagnosis for wireless sensor networks by utilising the existing traffic information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6467365 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |