JP7298343B2 - 故障影響推定装置、故障影響推定方法、及びプログラム - Google Patents

故障影響推定装置、故障影響推定方法、及びプログラム Download PDF

Info

Publication number
JP7298343B2
JP7298343B2 JP2019122896A JP2019122896A JP7298343B2 JP 7298343 B2 JP7298343 B2 JP 7298343B2 JP 2019122896 A JP2019122896 A JP 2019122896A JP 2019122896 A JP2019122896 A JP 2019122896A JP 7298343 B2 JP7298343 B2 JP 7298343B2
Authority
JP
Japan
Prior art keywords
failure
estimation
traffic
amount
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019122896A
Other languages
English (en)
Other versions
JP2021010105A (ja
Inventor
洋一 松尾
丈浩 川田
研 西松
達明 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019122896A priority Critical patent/JP7298343B2/ja
Priority to US17/621,605 priority patent/US11736343B2/en
Priority to PCT/JP2020/025331 priority patent/WO2021002298A1/ja
Publication of JP2021010105A publication Critical patent/JP2021010105A/ja
Application granted granted Critical
Publication of JP7298343B2 publication Critical patent/JP7298343B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/149Network analysis or design for prediction of maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • H04L43/0864Round trip delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、通信システム運用におけるオペレータの業務内容を分析する技術に関わり、特に通信システム内で発生した故障等の異常による通信システムへの影響の把握に関連する技術である。
通信事業者にとって、通信システム内に発生する異常に対して、異常の状態の把握や迅速な対応は重要である。こうした中で、通信システム内の異常を早期に検知するための研究(非特許文献1)や、原因箇所・要因の推定を行う研究(非特許文献2)が行われている。
しかし、これらの技術では、異常の対処のために必要な情報のみがわかり、異常時にネットワーク内にどの程度影響が発生しているのか(サービスを利用するユーザに影響が有るか否か等)、発生しているとすればそれがどの程度か、復旧にかかる時間がどの程度か(復旧対処時間)、ネットワークの状態の変化(ユーザにおけるRTTやスループットの値)等の情報はわからない。これらのように、通信システム内で発生した機器の異常により生じるユーザに対する影響を故障影響と呼び、故障影響の量を故障影響量と呼ぶことにする。
一方、これら情報は、Service Level Agreement(SLA)等の観点でサービスを利用しているユーザに報告する必要があるとともに、故障影響の度合いにより対処の優先度を決めることもできる(例えば、故障影響がない場合は日中に復旧を行い、夜勤の常駐勤務者の数を減らすといったこと)ため、稼働の平準化によるOPEX削減等を行うためにもオペレータが把握する必要がある情報である。
通信システムにおいて故障影響を推定することに関連する研究は、いくつかなされている。例えば、非特許文献3、非特許文献4では、Webサービス系において対象サービスとそれらを構成するサブサービス、サブサービスとその機能を実行するリソース(スイッチやサーバ等)の依存関係を定義し、模擬ユーザ端末を用いてサービスを外部から計測することでサービス状態とあるサブサービスやリソースが異常状態になった際の影響の大きさを推定している。非特許文献5は、モバイル通信において、ある基地局に異常が発生した際、基地局の範囲内に何台の端末があるかを予測し、影響がある端末数を推定する技術を開示している。
池田,石橋,中野,渡辺,川原,"オートエンコーダを用いた異常検知におけるスパース最適化を用いた要因推定手法," 信学技報, vol. 117, no. 89, IN2017-18, pp. 61-66, 2017年6月. Yoichi Matsuo ; Yuusuke Nakano ; Akio Watanabe ; Keishiro Watanabe ; Keisuke Ishibashi, Ryoichi Kawahara, Root-Cause Diagnosis for Rare Failures Using Bayesian Network with Dynamic Modification, ICC 2018, 2018 A. Hanemann ; D. Schmitz ; M. Sailer, A framework for failure impact analysis and recovery with respect to service level agreements, SCC05, 2005 Shuying Wang ; Miriam A.M. Capretz, A Dependency Impact Analysis Model for Web Services Evolution, International Conference on Web Services, 2009 Sen Yang;Yan He;Zihui Ge;Dongmei Wang, Jun XuPredictive Impact Analysis for Designing a Resilient Cellular Backhaul Network, SIGMETRICS, Vol.1, No.30, 2017
非特許文献1,2等の従来の異常検知等により異常発生は検知できる。しかし、異常が起こったとしても必ずしもサービスを利用するユーザへの影響が出るとは限らない。また異常の種類毎にトラヒック量の変化量は異なるため、従来手法では故障影響はわからない。また同じ異常でもNWの利用状況(例えば日中時間帯と夜間時間帯では利用状況が大きく異なる)や、発生箇所によっても、影響度合いは大きく異なるが、それらは考慮できない。
従来の故障影響分析は、主に異常時にどの機器や機能に影響がでるかを分析するものであり、どのくらいのユーザに影響が出ているか、どのくらい継続して影響がでるか、等はわからない。更に、非特許文献3、非特許文献4では、機器/機能間の依存関係を事前に定義する必要があるが、これらの構築には専門知識を持ったオペレータのノウハウと多大な時間がかかり、効率的に故障影響を推定することができない。
本発明は上記の点に鑑みてなされたものであり、通信システム内で発生した異常によるユーザへの影響を効率的に推定することを可能とする技術を提供することを目的とする。
開示の技術によれば、異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
前記推定部により推定された前記故障影響量を出力する出力部とを備える故障影響推定装置であって、
前記推定部は、
前記ログと前記トラヒック量とに基づいて、故障影響時間と、前記故障影響時間におけるトラヒック損失量とを推定する第1推定部と、
前記ログと前記トラヒック損失量とに基づいて、前記故障影響量として影響ユーザ数を推定する第2推定部と
を備える故障影響推定装置が提供される。

開示の技術によれば、通信システム内で発生した異常によるユーザへの影響を効率的に推定することを可能とする技術が提供される。
本発明の実施の形態における故障影響推定装置の構成図である。 装置のハードウェア構成の例を示す図である。 推定対象のネットワーク構成例を示す図である。 学習時の処理を示すフローチャートである。 推定時の処理を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
本実施の形態では、通信システム内で発生した機器(例えば、ルータ又はサーバ)の異常に対して、トラヒック量の変化量(トラヒック変化量と呼んでもよい)と故障影響時間を予測し、そのトラヒック変化量(具体的には減少幅)から故障影響量を推定する。
本実施の形態において、故障影響量には、影響ユーザ数、RTT、スループット、故障影響時間(故障によりユーザに影響が生じている時間の長さ)等がある。以下では、まず、故障影響量として影響ユーザ数、故障影響時間を推定する場合を説明する。
(装置構成例)
図1に、故障影響量の推定を行う故障影響推定装置100の機能構成を示す。図1に示すように、故障影響推定装置100は、過去トラヒック・ログ蓄積DB(データベース)110、過去トラヒック変化量・影響ユーザ数蓄積DB120、故障影響時間・トラヒック変化量推定部130、影響ユーザ数推定部140、ユーザインタフェース150、学習部160、前処理部170、入力部180を備える。
ユーザインタフェース150を出力部と呼んでもよい。また、故障影響時間・トラヒック変化量推定部130と影響ユーザ数推定部140をまとめて推定部と呼んでもよい。また、故障影響時間・トラヒック変化量推定部130を第1推定部と呼び、影響ユーザ数推定部140を第2推定部と呼んでもよい。また、故障影響推定装置100を故障影響推定システムと呼んでもよい。
図1に示されるように、利用者端末200はネットワークにより故障影響推定装置100に接続される。利用者端末200は、ユーザインタフェース150を介して故障影響推定装置100を利用する。
過去トラヒック・ログ蓄積DB110は、過去のログxと過去のトラヒック量Xを蓄積する。過去トラヒック変化量・影響ユーザ数蓄積DB120は、過去の故障影響時間、過去の故障影響時間におけるトラヒック変化量、過去の故障影響時間における影響ユーザ数を蓄積する。過去トラヒック・ログ蓄積DB110と過去トラヒック変化量・影響ユーザ数蓄積DB120には、実際に観測された値が蓄積されている。
故障影響時間・トラヒック変化量推定部130は、故障影響時間とトラヒック量の変化量を推定するモデルである。本実施の形態では、当該モデルとして回帰手法によるモデルを使用しており、故障影響時間・トラヒック変化量推定部130は、後述するモデル1に相当する。なお、本実施の形態におけるいずれのモデルも機械学習の手法で学習されるが、どのような機械学習の手法を用いてもよい。本実施の形態では例として回帰手法を用いている。
影響ユーザ数推定部140は、トラヒック変化量とログから影響ユーザ数を推定するモデルである。本実施の形態では、当該モデルとして回帰手法によるモデルを使用しており、影響ユーザ数推定部140は、後述するモデル2に相当する。
学習部160は、推定部(図1の例では故障影響時間・トラヒック変化量推定部130と影響ユーザ数推定部140)の学習を行う。
前処理部170はログのテンプレート化を実行する。入力部180は、故障発生時(異常発生時)に通信システムから得られたトラヒック量とログを入力する。
図1に示す故障影響推定装置100の動作概要を次に説明する。学習部160は、過去トラヒック・ログ蓄積DB110に蓄積された過去のログxと過去のトラヒック量Xを用いて、deepsense等の時系列回帰手法により故障影響時間・トラヒック変化量推定部130(モデル1)を学習させる。学習により、モデル1のパラメータが最適化される。
続いて、過去トラヒック変化量・影響ユーザ数蓄積DB120に蓄積された過去のトラヒック変化量と過去の影響ユーザ数をもとに、サポートベクター回帰等の一般的な回帰手法を用いて影響ユーザ数推定部140(モデル2)を学習させる。学習により、モデル2のパラメータが最適化される。
学習の後、故障影響推定装置100は、故障発生時のトラヒック量、ログに基づき、故障影響時間と、影響ユーザ数を推定する。
図1に示す構成において、学習部160、過去トラヒック・ログ蓄積DB110、及び過去トラヒック変化量・影響ユーザ数蓄積DB120は、故障影響推定装置100の外部に備えられていてもよい。その場合、外部で学習された推定部(図1の例では故障影響時間・トラヒック変化量推定部130、及び影響ユーザ数推定部140)が、故障影響推定装置100に入力され、当該故障影響時間・トラヒック変化量推定部130、及び影響ユーザ数推定部140が推定に使用される。
(ハードウェア構成例)
本実施の形態における上述した故障影響推定装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、クラウドサービスにより提供される仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」とは仮想的なハードウェアである。
本実施の形態(変形例を含む)の故障影響推定装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、故障影響推定装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
図2は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図2のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、及び入力装置1007等を有する。
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、故障影響推定装置100に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。
(詳細動作例)
次に、故障影響推定装置100の動作例を詳細に説明する。
図3は、故障影響推定装置100が推定の対象とする故障影響が生じる通信システム(ICT(Information and Communication Technology)システムと呼んでもよい)の一例を示す。
当該通信システムにおけるネットワーク300にはルータ、サーバ等の多数の機器が備えられている。図3には、多数の機器のうちのある機器(機器310)を示している。また、ネットワーク300には、サービス(例:Webサービス、映像サービス、音声サービス等)を利用する多数のユーザ端末400-1~400-nが接続されている。
機器310は、例えば、ユーザ端末400-1~400-nにサービスを提供するサーバである。また、機器310は、ユーザ端末400-1~400-nにサービスを提供するサーバからのトラヒックをユーザ端末400-1~400-nに転送するルータであってもよい。また、機器310がこれら以外の任意の機器であってもよい。また、「ユーザ端末」を「ユーザ」と呼んでもよい。
過去トラヒック・ログ蓄積DB110に蓄積された過去のログは、例えば、ある機器から得られた過去のsyslog、show techログ等である。ある機器とは例えば上述した機器310である。
過去トラヒック・ログ蓄積DB110に蓄積された過去のトラヒック量は、当該機器のトラヒック量である。当該機器のトラヒック量とは、当該機器からユーザ端末側に送信されるトラヒックの量であってもよいし、ユーザ端末側から当該機器が受信するトラヒックの量であってもよいし、当該機器からユーザ端末側に送信されるトラヒックの量とユーザ端末側から当該機器が受信するトラヒックの量の合計であってもよいし、トラヒックの方向に関わらず、当該機器が送受信する全てのトラヒックの量であってもよい。また、トラヒックの量が、当該機器が生成するPPPoE等のセッションの数であってもよい。
syslog、show techログには、機器内の冗長構成の情報、光レベル等のテレメトリー情報、機器の状態に関する情報、発生した障害に関する情報等が含まれる。また、過去トラヒック・ログ蓄積DB110に蓄積されたデータには、正常時のデータと異常発生時のデータが含まれる。
過去トラヒック・ログ蓄積DB110には、多数の機器から収集されたデータが蓄積される。
過去トラヒック変化量・影響ユーザ数蓄積DB120には、故障影響時間、故障影響時間におけるトラヒック変化量と、当該故障影響時間における影響ユーザ数が蓄積されている。過去トラヒック変化量・影響ユーザ数蓄積DB120に蓄積されているデータは、例えば、過去トラヒック・ログ蓄積DB110に蓄積されたデータの収集時刻に対応した時刻に収集されたデータである。
故障影響時間とは、例えば、通信システムの異常発生により、影響を受けるユーザ端末(例えば、サービスを受ける際のスループットが低下したユーザ端末)が存在した時間である。
影響ユーザ数とは、例えば、通信システムの異常発生により、ユーザ端末においてユーザが体感するサービスの品質が低下したユーザ端末の数であってもよいし、ユーザ端末でのサービスに係るスループットが所定閾値以上低下したユーザ端末の数であってもよいし、その他の数であってもよい。
機器のトラヒック量やその変化量には、疎通の有無やサービス利用状況が反映されているため、機器状態の情報(ログ)とそのときのトラヒック量を用いることで、異常の種別とNWの利用状況を加味して、故障影響を推定をすることが可能になる。
また、正常時のデータと異常発生時時のデータを用いることで、異常がなくなる時間と異常によるトラヒックの変化量を予測することができる。そして影響ユーザ数を推定することでサービスインパクトを推定する。また、過去の正常、異常時のデータを用いて学習することで専門知識に頼らずに推定することが可能になる。
次に、図4のフローチャートを参照して学習時の動作を説明する。
<S101:学習用データ取得>
学習部160は、過去トラヒック・ログ蓄積DB110からトラヒック量、及びログ(show techログ、syslog等)を取得する。更に、学習部160は、過去トラヒック変化量・影響ユーザ数蓄積DB120からトラヒック変化量、故障影響時間、影響ユーザ数のセットを取得する。
<S102:前処理>
前処理部170は、テキスト情報であるログ(show techログ、syslog等)を数値として扱えるようにするために、ログのテンプレート化を行う。テンプレート化自体は既存技術である。テンプレート化とは、ログ1行毎に自然の番号を自動で付与する技術のことであり、時刻情報やIPアドレス等の数値部分以外が同一のログには同一の番号が付与される。つまり、前処理部170により、ログ1行毎に番号が付される。これにより、以降、ログを数値として扱うことができる。
<S103:故障影響時間とトラヒック量の変化量の推定>
学習部160は、学習用のトラヒック量、及びログを故障影響時間・トラヒック変化量推定部130(モデル1)に入力し、故障影響時間・トラヒック変化量推定部130から出力された故障影響時間とトラヒック量の変化量(損失量)の推定値を取得する。
以下、故障影響時間・トラヒック変化量推定部130(モデル1)の詳細例を説明する。
ある機器(例えば図3の機器310)において、時刻tにおける機器のログの発生状況を表すM次元ベクトルをxとする。ただし、M(0以上の整数)はテンプレート種類数であり、xt,mを時刻tのm要素とし、テンプレートm番目のログの出現回数、又は、テンプレートm番目のログの値とする。xt,mが時刻tにおけるテンプレートm番目のログの出現回数である場合における「出現回数」とは、時刻t-1からtまでの出現回数である。また、Xをスカラー値とし、当該機器の時刻tのトラヒック量を表す。
故障影響時間をuとし、Vt→t+uは時刻tからt+uまでの故障影響によるトラヒックの損失分とする。トラヒックの損失分とは、例えば、当該機器(ログ取得対象となった機器)が確立しているセッション数の減少量や送信(受信)パケットの減少量である。セッション数の減少量の場合、例えば、時刻tのセッション数が100、時刻t+uのセッション数が10でれば減少数は90である。
トラヒック量Xは過去のトラヒック量Xt-1,Xt-2,…,Xt-kに依存する。xt-1,xt-2,…,xt-kに機器の状態に関する情報が含まれていると考えられるので、これらのデータを下記の式に入力することにより、u,Vt→t+uを推定する。なお、tからの過去の時間長を示すkは、予め決めておいてもよいし、学習により最適なkが求められてもよい。
下記の式で表されるモデルが故障影響時間・トラヒック変化量推定部130(モデル1)に相当する。
u,Vt→t+u=L(Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-k
上記のLは推定器であり、例えばdeepsense[]等の時系列データの回帰手法で得られたモデルである。
<S104:アップデート>
学習部160は、故障影響時間・トラヒック変化量推定部130から出力された故障影響時間とトラヒック変化量(損失量)を、実際の値と比較することでモデル1をアップデートする。
十分な数の学習データセットu,Vt→t+u,Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-kを用意し、上記のアップデートを繰り返すことで、最適化されたパラメータが適用されたモデル1を得ることができる。
<S105:影響ユーザ数の推定>
学習部160は、学習用のトラヒック変化量と学習用のログを影響ユーザ数推定部140(モデル2)に入力し、影響ユーザ数推定部140から出力された影響ユーザ数の推定値を取得する。以下、影響ユーザ数推定部140(モデル2)の詳細例を説明する。
時刻t→t+uの影響ユーザ数(時刻tから時刻t+uまでの期間で影響を受けたユーザの数)をUt→t+uとする。Vt→t+u,xt-1,xt-2,…,xt-kを下記の式に入力することによりUt→t+uを推定する。下記の式で表されるモデルが影響ユーザ数推定部140(モデル2)に相当する。
t→t+u=H(Vt→t+u,xt-1,xt-2,…,xt-k
ここで、Hは推定器であり、トラヒック変化量と影響ユーザ数のデータセットを取得できるような環境で使用される一般的な回帰モデルを使用することができる。なお、トラヒック変化量は、例えば、PPPoEのようなセッション数の変化量である。
<S106:アップデート>
学習部160は、影響ユーザ数推定部140から出力された影響ユーザ数を、実際の値と比較することでモデル2をアップデートする。
十分な数の学習データセットUt→t+u,Vt→t+u,xt-1,xt-2,…,xt-kを用意し、上記のアップデートを繰り返すことで、最適化されたパラメータが適用された回帰モデル2を得ることができる。
<S107:出力>
学習部160は、2つの回帰手法の学習済みモデル(モデル1とモデル2)を出力する。なお、本実施の形態では、モデル自体(具体的にはモデルを表す式に対応するプログラム)は、故障影響推定装置100に備えられているので、上記学習部160が出力する学習済みモデルは、モデルにセットされる最適化されたパラメータである。
次に、図5のフローチャートを参照して推定時の動作を説明する。ここでは、図1に示す故障影響時間・トラヒック変化量推定部130と影響ユーザ数推定部140は学習済みである。
<S201:トラヒック量、ログの取得>
入力部180が、通信システムにおける故障発生時(異常発生時)のトラヒック量とログを通信システムから受信し、入力する。当該トラヒック量と当該ログは、故障の発生した通信システムにおけるある機器から取得されるものである。当該機器は予め定められていてもよいし、任意の機器でもよいし、故障が発生した機器でもよい。
入力されるトラヒック量とログは、前述したXt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-kに相当する。
<S202:前処理>
前処理部170は、学習時と同様にして、S201で取得したログのテンプレート化を行う。
<S203:故障影響時間とトラヒック変化量の推定>
入力部180は、トラヒック量と、前処理がされたログを故障影響時間・トラヒック変化量推定部130(モデル1)に入力する。故障影響時間・トラヒック変化量推定部130(モデル1)は、故障影響時間とトラヒック変化量を出力する。故障影響時間とトラヒック変化量は、前述したu,Vt→t+uに相当する。
<S204:影響ユーザ数の推定>
トラヒック変化量とログが影響ユーザ数推定部140(モデル2)に入力され、影響ユーザ数推定部140は影響ユーザ数を推定し、ユーザインタフェース150に対して出力する。トラヒック変化量とログは前述したVt→t+u,xt-1,xt-2,…,xt-kに相当し、影響ユーザ数は前述したUt→t+uに相当する。
<S205:出力>
ユーザインタフェース150は、影響ユーザ数を利用者端末200に出力する。また、ユーザインタフェース150は、影響ユーザ数とトラヒック変化量を利用者端末200に出力してもよい。また、ユーザインタフェース150は、更に故障影響時間を利用者端末200に出力してもよい。
(変形例)
上記の例では、LとHのように別々のモデルを立てて学習及び推定をしているが、トラヒック量の変化量を予測せずに、1つのモデルで、トラヒック量とログから影響ユーザ数、故障影響時間を推定することとしてもよい。具体的には、次式で推定する。
u,Ut→t+u=L'(Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-k
これにより、トラヒック量の変化量を推定せずに、影響ユーザ数、故障影響時間を推定できる。学習については、これまでの例と同様に、学習用のデータセットを用いてパラメータをアプデートすることで実施できる。また、推定についてもこれまでの例と同様である。
このように1つのモデルを用いて学習及び推定を実行する場合、図1に示した構成における推定部(故障影響時間・トラヒック変化量推定部130及び影響ユーザ数推定部140)が、上記のモデルに置き換えられる。また、過去トラヒック変化量・影響ユーザ数蓄積DB120は、影響ユーザ数を蓄積する影響ユーザ数蓄積DB125に置き換えられる。
一方で、ブラックボックス化を防ぎ、どの程度トラヒック量が変化するのかをオペレーターが確認したい場合は、既に説明したように2段階にモデルを立てることで実現する。
(RTT、スループットの推定)
これまでに説明した「影響ユーザ数」を、別の量に置き換えることで、当該別の量を推定することができる。当該別の量は、例えば、サービスを受けるユーザ端末において観測されるRTT(Round Trip Time、往復遅延時間)、あるいは、スループットである。RTT、スループットを総称して「ネットワーク指標値」と呼ぶことにする。
故障影響時間におけるネットワーク指標値をCt→t+uで表すとすると、Ct→t+uは下記の2つの式(モデル)で推定できる。
u,Vt→t+u=L(Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-k
t→t+u=H´(Vt→t+u,xt-1,xt-2,…,xt-k
また、変形例のように、1つのモデルを使用する場合、Ct→t+uは下記の1つの式(モデル)で推定できる。
u,Ct→t+u=L''(Xt-1,Xt-2,…,Xt-k,xt-1,xt-2,…,xt-k
(実施の形態の効果)
本実施の形態に係る技術により、通信事業者が故障影響を解析することが可能になる、また、それにより、SLA等の観点でサービスを利用しているユーザに即時的に報告することが可能になり、故障影響の度合いにより対処の優先度を決めることもできる(例えば、故障影響がない場合は修理は日中に行い、夜勤の常駐勤務者の数を減らすといったこと)ため、稼働の平準化によるOPEX削減等を行うためにも必要な情報となる。
(実施の形態のまとめ)
本実施の形態において、少なくとも、下記の故障影響推定装置、故障影響推定方法、及びプログラムが提供される。
(第1項)
異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
前記推定部により推定された前記故障影響量を出力する出力部と
を備える故障影響推定装置。
(第2項)
前記推定部は、
前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第1推定部と、
前記ログと前記トラヒック変化量とに基づいて、前記故障影響量として影響ユーザ数を推定する第2推定部と
を備える第1項に記載の故障影響推定装置。
(第3項)
前記推定部は、
前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第1推定部と、
前記ログと前記トラヒック変化量とに基づいて、前記故障影響量としてネットワーク指標値を推定する第2推定部と
を備える第1項に記載の故障影響推定装置。
(第4項)
前記推定部は、過去のログ、過去のトラヒック量、及び過去の故障影響量に基づいて、機械学習により学習されたモデルである
第1項ないし第3項のうちいずれか1項に記載の故障影響推定装置。
(第5項)
故障影響推定装置が実行する故障影響推定方法であって、
異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力ステップと、
前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定ステップと、
前記推定ステップにより推定された前記故障影響量を出力する出力ステップと
を備える故障影響推定方法。
(第6項)
コンピュータを、第1項ないし第4項のうちいずれか1項に記載の故障影響推定装置における各部として機能させるためのプログラム。
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 故障影響推定装置
110 過去トラヒック・ログ蓄積DB
120 過去トラヒック変化量・影響ユーザ数蓄積DB
130 故障影響時間・トラヒック変化量推定部
140 影響ユーザ数推定部
150 ユーザインタフェース
160 学習部
170 前処理部
180 入力部
300 ネットワーク
310 機器
400-1~400-n ユーザ端末
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インターフェース装置
1006 表示装置
1007 入力装置

Claims (6)

  1. 異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
    前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
    前記推定部により推定された前記故障影響量を出力する出力部とを備える故障影響推定装置であって、
    前記推定部は、
    前記ログと前記トラヒック量とに基づいて、故障影響時間と、前記故障影響時間におけるトラヒック損失量とを推定する第1推定部と、
    前記ログと前記トラヒック損失量とに基づいて、前記故障影響量として影響ユーザ数を推定する第2推定部と
    を備える故障影響推定装置。
  2. 異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
    前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
    前記推定部により推定された前記故障影響量を出力する出力部とを備える故障影響推定装置であって、
    前記推定部は、
    前記ログと前記トラヒック量とに基づいて、故障影響時間と、前記故障影響時間におけるトラヒック損失量とを推定する第1推定部と、
    前記ログと前記トラヒック損失量とに基づいて、前記故障影響量としてネットワーク指標値を推定する第2推定部と
    を備える故障影響推定装置。
  3. 前記推定部は、過去のログ、過去のトラヒック量、及び過去の故障影響量に基づいて、機械学習により学習されたモデルである
    請求項1又は2に記載の故障影響推定装置。
  4. 故障影響推定装置が実行する故障影響推定方法であって、
    異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力ステップと、
    前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定ステップと、
    前記推定ステップにより推定された前記故障影響量を出力する出力ステップとを備え、
    前記推定ステップは、
    前記ログと前記トラヒック量とに基づいて、故障影響時間と、前記故障影響時間におけるトラヒック損失量とを推定する第1推定ステップと、
    前記ログと前記トラヒック損失量とに基づいて、前記故障影響量として影響ユーザ数を推定する第2推定ステップと
    を備える故障影響推定方法。
  5. 故障影響推定装置が実行する故障影響推定方法であって、
    異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力ステップと、
    前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定ステップと、
    前記推定ステップにより推定された前記故障影響量を出力する出力ステップとを備え、
    前記推定ステップは、
    前記ログと前記トラヒック量とに基づいて、故障影響時間と、前記故障影響時間におけるトラヒック損失量とを推定する第1推定ステップと、
    前記ログと前記トラヒック損失量とに基づいて、前記故障影響量としてネットワーク指標値を推定する第2推定ステップと
    を備える故障影響推定方法。
  6. コンピュータを、請求項1ないし3のうちいずれか1項に記載の故障影響推定装置における各部として機能させるためのプログラム。
JP2019122896A 2019-07-01 2019-07-01 故障影響推定装置、故障影響推定方法、及びプログラム Active JP7298343B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019122896A JP7298343B2 (ja) 2019-07-01 2019-07-01 故障影響推定装置、故障影響推定方法、及びプログラム
US17/621,605 US11736343B2 (en) 2019-07-01 2020-06-26 Failure influence estimation apparatus, failure influence estimation method and program
PCT/JP2020/025331 WO2021002298A1 (ja) 2019-07-01 2020-06-26 故障影響推定装置、故障影響推定方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019122896A JP7298343B2 (ja) 2019-07-01 2019-07-01 故障影響推定装置、故障影響推定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021010105A JP2021010105A (ja) 2021-01-28
JP7298343B2 true JP7298343B2 (ja) 2023-06-27

Family

ID=74101071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019122896A Active JP7298343B2 (ja) 2019-07-01 2019-07-01 故障影響推定装置、故障影響推定方法、及びプログラム

Country Status (3)

Country Link
US (1) US11736343B2 (ja)
JP (1) JP7298343B2 (ja)
WO (1) WO2021002298A1 (ja)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010199886A (ja) 2009-02-24 2010-09-09 Nippon Telegr & Teleph Corp <Ntt> 故障影響度評価装置、故障影響度評価方法およびそのプログラム
JP2010258994A (ja) 2009-04-28 2010-11-11 Nec Corp 移動通信システム、移動通信方法、および移動通信制御プログラム
JP2010258894A (ja) 2009-04-27 2010-11-11 Canon Inc 映像受信装置、映像受信方法及びプログラム
JP2010268068A (ja) 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 輻輳影響度評価装置、リンクトラヒック計算方法およびそのプログラム
JP2011040954A (ja) 2009-08-10 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> ネットワーク評価システムおよびネットワーク評価方法、ならびにそのためのプログラム
JP2014160992A (ja) 2013-02-20 2014-09-04 Ntt Docomo Inc ネットワーク監視装置、ネットワーク監視プログラム及びネットワーク監視方法
JP2016122337A (ja) 2014-12-25 2016-07-07 クラリオン株式会社 障害情報提供サーバ、障害情報提供方法
WO2017064766A1 (ja) 2015-10-14 2017-04-20 株式会社日立製作所 管理装置、管理方法、および、管理プログラム
JP2017123048A (ja) 2016-01-07 2017-07-13 富士通株式会社 並列処理装置、ジョブ監視方法及びジョブ監視プログラム
JP2017135563A (ja) 2016-01-27 2017-08-03 富士通株式会社 試験装置、ネットワークシステム、及び試験方法
WO2018070211A1 (ja) 2016-10-12 2018-04-19 株式会社日立製作所 管理サーバ、管理方法及びそのプログラム
JP2018205811A (ja) 2017-05-30 2018-12-27 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4626852B2 (ja) * 2005-07-11 2011-02-09 日本電気株式会社 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム
JP2008078815A (ja) * 2006-09-19 2008-04-03 Ricoh Co Ltd 画像形成装置、機器管理装置、機器管理システム、状態取得方法、機器管理方法およびプログラム
US8949668B2 (en) * 2011-05-23 2015-02-03 The Boeing Company Methods and systems for use in identifying abnormal behavior in a control system including independent comparisons to user policies and an event correlation model
EP2578997B1 (en) * 2011-10-07 2020-01-08 Hitachi, Ltd. System for supporting a user of an electrically driven vehicle
CN110505837B (zh) * 2017-04-14 2023-01-17 索尼公司 信息处理设备、信息处理方法和记录介质
JP6863091B2 (ja) * 2017-05-31 2021-04-21 富士通株式会社 管理装置、管理方法及び管理プログラム
JP7043755B2 (ja) * 2017-08-29 2022-03-30 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム、及び、移動体
CN111226094A (zh) * 2017-10-24 2020-06-02 索尼公司 信息处理装置、信息处理方法、程序和移动体

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010199886A (ja) 2009-02-24 2010-09-09 Nippon Telegr & Teleph Corp <Ntt> 故障影響度評価装置、故障影響度評価方法およびそのプログラム
JP2010258894A (ja) 2009-04-27 2010-11-11 Canon Inc 映像受信装置、映像受信方法及びプログラム
JP2010258994A (ja) 2009-04-28 2010-11-11 Nec Corp 移動通信システム、移動通信方法、および移動通信制御プログラム
JP2010268068A (ja) 2009-05-12 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 輻輳影響度評価装置、リンクトラヒック計算方法およびそのプログラム
JP2011040954A (ja) 2009-08-10 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> ネットワーク評価システムおよびネットワーク評価方法、ならびにそのためのプログラム
JP2014160992A (ja) 2013-02-20 2014-09-04 Ntt Docomo Inc ネットワーク監視装置、ネットワーク監視プログラム及びネットワーク監視方法
JP2016122337A (ja) 2014-12-25 2016-07-07 クラリオン株式会社 障害情報提供サーバ、障害情報提供方法
WO2017064766A1 (ja) 2015-10-14 2017-04-20 株式会社日立製作所 管理装置、管理方法、および、管理プログラム
JP2017123048A (ja) 2016-01-07 2017-07-13 富士通株式会社 並列処理装置、ジョブ監視方法及びジョブ監視プログラム
JP2017135563A (ja) 2016-01-27 2017-08-03 富士通株式会社 試験装置、ネットワークシステム、及び試験方法
WO2018070211A1 (ja) 2016-10-12 2018-04-19 株式会社日立製作所 管理サーバ、管理方法及びそのプログラム
JP2018205811A (ja) 2017-05-30 2018-12-27 富士通株式会社 影響範囲特定プログラム、影響範囲特定方法、および影響範囲特定装置

Also Published As

Publication number Publication date
US20220417078A1 (en) 2022-12-29
US11736343B2 (en) 2023-08-22
WO2021002298A1 (ja) 2021-01-07
JP2021010105A (ja) 2021-01-28

Similar Documents

Publication Publication Date Title
KR101098744B1 (ko) 장애의 탐지 및 진단
US7606165B2 (en) What-if analysis for network diagnostics
US11405280B2 (en) AI-driven capacity forecasting and planning for microservices apps
US7613105B2 (en) Methods and systems for removing data inconsistencies for a network simulation
US9037896B2 (en) Root cause analysis in a sensor-actuator fabric of a connected environment
US11283856B2 (en) Dynamic socket QoS settings for web service connections
JP6823501B2 (ja) 異常検知装置、異常検知方法及びプログラム
US20160283307A1 (en) Monitoring system, monitoring device, and test device
WO2001076143A1 (en) Apparatus for adapting distribution of network events
US20190123981A1 (en) Network health monitoring and associated user interface
US10650079B2 (en) Resource cache classification using machine learning
US10931513B2 (en) Event-triggered distributed data collection in a distributed transaction monitoring system
WO2018142703A1 (ja) 異常要因推定装置、異常要因推定方法及びプログラム
Kihl et al. Control-theoretic analysis of admission control mechanisms for web server systems
WO2020180578A1 (en) Breaking down the load time of a web page into coherent components
US20200394329A1 (en) Automatic application data collection for potentially insightful business values
US7844443B2 (en) Network subscriber experience modeling
US10659338B1 (en) Isolation of network segments affecting application performance
JP7298343B2 (ja) 故障影響推定装置、故障影響推定方法、及びプログラム
US11516234B1 (en) In-process correlation through class field injection
US20230031004A1 (en) Byte code monitoring to avoid certificate-based outages
Steinert Probabilistic Fault Management in Networked Systems
WO2023009482A1 (en) Opentelemetry-based circuit breaker automation
Calu Dragon-Lab, Network States Detection and Identification Framework: Performance Investigation
Saxena et al. Performance Estimation of Static Grid Octagonal Topology under Distributed Environment through Simulation Tool

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230529

R150 Certificate of patent or registration of utility model

Ref document number: 7298343

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150