JP7234942B2 - ネットワーク監視システム、方法及びプログラム - Google Patents

ネットワーク監視システム、方法及びプログラム Download PDF

Info

Publication number
JP7234942B2
JP7234942B2 JP2019565709A JP2019565709A JP7234942B2 JP 7234942 B2 JP7234942 B2 JP 7234942B2 JP 2019565709 A JP2019565709 A JP 2019565709A JP 2019565709 A JP2019565709 A JP 2019565709A JP 7234942 B2 JP7234942 B2 JP 7234942B2
Authority
JP
Japan
Prior art keywords
monitoring
network
data
frequency
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019565709A
Other languages
English (en)
Other versions
JPWO2019142414A1 (ja
Inventor
理一郎 海老澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019142414A1 publication Critical patent/JPWO2019142414A1/ja
Application granted granted Critical
Publication of JP7234942B2 publication Critical patent/JP7234942B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、ネットワーク監視システム、方法及びプログラムを格納した非一時的なコンピュータ可読媒体に関する。
近年、ネットワークには、種々の目的で、多数のルータやスイッチ等のネットワーク機器やサーバマシン、クライアントマシン等の端末装置が接続され、ネットワークシステムが構築されている。このようなネットワークシステムを安全に保守するために、ネットワークシステムを周期的に継続して監視するネットワーク監視装置が用いられる。
特許文献1には、監視対象、監視項目、監視する所定のインターバルなどが定められた監視ポリシーに従って監視を実行するネットワーク監視装置が開示されている。ネットワーク監視装置において、可能な限りの監視対象及び監視項目をもれなく監視するとネットワークシステム全体に多大な負荷がかかるため、特許文献1ではネットワークシステムの状態に応じて動的に監視ポリシーを変更する技術が提案されている。
このネットワーク監視装置は、当該監視ポリシーによって得られた過去及び/又は現在の監視データに基づいて将来の状態を示す予測監視データを算出し、該予測監視データに基づいて監視ポリシーを動的に変更している。例えば、過去の測定日毎のレスポンスタイムに基づいて、近似を用いた予測モデルによる予測監視データを算出し、該予測監視データに基づき監視項目を追加する。また、監視対象等に与える負荷を最小限に抑えるために、障害がないと判断されると、新たに追加した監視項目を削除している。
特開2010-141655号公報
引用文献1では、統計的に障害発生が相対的に高い監視対象、監視項目に対して、監視の頻度を増大させている。しかし、ネットワークシステムを構成する機器、装置等が高機能化して障害発生の頻度が相対的に少なくなると、統計的な障害発生予測をするために取得する監視データが少なくなる。このため、監視データを効率的に取得しないと、取得した監視データによりネットワーク帯域を逼迫する恐れがある。また、ネットワークシステムが複雑化してくるとネットワーク機器同士が影響しあい、障害発生予測が困難になる。本開示の目的は、上述した課題を解決するネットワーク監視システム、方法及びプログラムを格納した非一時的なコンピュータ可読媒体を提供することにある。
本発明の一態様に係るネットワークシステム監視システムは、ネットワークを介して接続された監視対象機器を監視するネットワーク監視システムであって、前記ネットワーク監視システムは、前記監視対象機器の状態に関する複数の監視データをそれぞれ所定の監視頻度で取得するネットワーク監視装置と、前記監視対象機器に障害が発生する毎に、前記監視対象機器に障害が発生するまでの複数の前記監視データを分析して、障害発生の予兆情報を生成する分析装置と、生成された前記予兆情報を蓄積する記憶装置とを備え、前記分析装置は、蓄積された前記予兆情報に基づいて、複数の前記監視データのそれぞれの前記監視頻度を変更する。
本発明によれば、複数の監視データの取得によるネットワーク負荷の増大を防止するとともに、障害検出の遅延を抑制することができる。
実施の形態に係るネットワーク監視システムの構成を示す図である。 実施の形態に係るネットワーク監視方法を説明する図である。 実施の形態に係るネットワーク監視方法を説明する図である。 実施の形態に係るネットワーク監視方法を説明する図である。 実施の形態に係るネットワーク監視方法を説明する図である。
本発明は、ネットワークを介して接続された監視対象機器に発生する障害を検出するネットワーク監視システム、方法及びプログラムを格納した非一時的なコンピュータ可読媒体に関し、特に障害発生の可能性がある監視ポイント毎に複数の監視データの取得頻度をそれぞれ制御する技術に関する。ネットワークシステムにおいて障害が発生する監視ポイントは多岐に亘り、全監視ポイントの状態を最大頻度で監視することは、監視対象装置、監視ネットワーク、監視サーバにとって負荷が重く、ネットワーク監視システムのコスト増大要因となっている。本発明に係るネットワーク監視システムでは、複数の監視データの取得によるネットワーク負荷の増大を防止するとともに、障害に関連する監視データ間の相関関係を把握して障害検出の遅延を抑制する。
以下、図面を参照して本発明の実施の形態について説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、様々な処理を行う機能ブロックとして図面に記載される各要素は、ハードウェア的には、CPU、メモリ、その他の回路で構成することができる。また、本発明は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。従って、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-Transitory computer Readable Medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage Medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(Transitory computer Readable Medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
図1は、実施の形態に係るネットワーク監視システム10の構成を示す図である。図1に示すように、ネットワーク監視システム10は、ネットワーク監視装置11、データベース(記憶装置)12、分析エンジン(分析装置)13を備える。ネットワーク監視装置11には、インターネット網(ネットワーク)20を介して、スイッチやルータ等のネットワーク機器(監視対象機器)21、22、23が接続されている。ネットワーク監視装置11は、ネットワークシステムを安全に保守するために、ネットワークシステムにおいて障害が発生する可能性のある複数の監視ポイント(監視対象)を周期的に継続して監視する。
ネットワーク監視装置11は、ネットワーク機器21、22、23の状態に関する複数の監視データ(監視項目)をそれぞれ所定の監視頻度で取得する。監視データとしては、性能に関するデータとしてトラヒック量、パケットロス量、パケット処理時間等、リソースに関するデータとしてCPU使用率、メモリ使用率、キャッシュ使用率等が挙げられる。各ネットワーク機器21、22、23内では、これら複数の監視データが常時測定され、各監視データの挙動を記録したログファイルが保持される。ネットワーク監視装置11は、ネットワーク機器21、22、23内に保持された複数の監視データそれぞれのログファイルを所定の監視頻度で取得し、データベース12に格納する。
ネットワーク監視装置11には、ネットワーク機器21、22、23への監視頻度を適正に調整するため、分析エンジン13が接続されている。分析エンジン13は、ネットワーク機器21、22、23に障害が発生する毎に、ネットワーク機器21、22、23に障害が発生するまでの複数の監視データの挙動(時間的推移)を分析して、定期的な分析結果を生成する。この分析結果は、ネットワーク機器21、22、23における障害発生の予兆を検知するための予兆情報である。生成された予兆情報は、データベース12に蓄積される。
分析エンジン13は、例えば、インバリアント分析を行う。インバリアント分析は、複数の監視データ間の不変関係をモデル化した正常パターンを学習し、正常パターンと分析にかける監視データとを比較することで「違い」を検知する分析である。分析エンジン13は、分析にかける監視データが正常パターンと異なる場合に、異常が発生したと判定する。また、分析エンジン13は、蓄積された予兆情報を用いて、複数の監視データのそれぞれの監視頻度を変更する。すなわち、分析エンジン13は、インバリアント分析を行うために各監視データの挙動を学習していく中で、分析結果を自システムにフィードバックして、各監視データの監視頻度をより適正なものとする。
実施の形態では、分析エンジン13は、障害が発生していない安定時、障害が発生する直前の予兆時、障害が発生した後の異常時における、複数の監視データのそれぞれの挙動を学習して、安定時、予兆時、異常時のいずれであるかを判断する。ネットワーク監視システム10におけるネットワーク機器の監視には、2つのモードがある。一方のモードは、安定時においてネットワークシステムが通常運用中に、各監視ポイントの複数の監視データすべてを取得する安定監視モードである。他方のモードは、予兆時において、障害に関連する関連監視データのみを取得する予兆監視モードである。ネットワーク監視システム10は、これら2つの監視モードを切り替えて運用される。
いずれの監視モードにおいても、単位時間当たりの監視トラヒックが略一定となるように、各監視データの監視頻度の適正化が行われる。すなわち、監視頻度が変更される前の各監視データの単位時間当たりのデータサイズの合計と、変更された後の各監視データの単位時間当たりのデータサイズの合計とは略等しい。安定監視モードから予兆監視モードへの移行は、分析エンジン13による監視データの分析結果に基づいて行われる。予兆監視モードから安定監視モードへの移行は、機器交換等による障害が発生したネットワーク機器の復旧をネットワーク監視装置11が検知したことを契機に行われる。
ここで、図2~5を参照して、実施の形態に係るネットワーク監視方法について説明する図2~5は、実施の形態に係るネットワーク監視方法を説明する図である。図2~5において、上部の表には安定監視モード、予兆監視モードにおける各監視データの監視頻度(周期(s))、障害が発生したときに取得した監視データの解析が必要か否か、予兆情報が記載されている。また、下部には、ネットワーク監視システム10によるネットワーク機器21、22、23の監視動作、ネットワーク機器21、22、23に障害が発生した後の復旧動作が左から右に向かって時系列で示されている。
また、図2~5に示す各動作の推移は、時間的に連続しているものとする。すなわち、図2に示す障害Aが発生して復旧した後に、図3に示す障害Bが発生して復旧する。その後、図4に示す障害Cが発生して復旧した後に、図5に示す監視動作が行われる。図2~5に示す例では、ネットワーク監視装置11は、監視データとして、(a)トラヒック量、(b)パケットロス量、(c)処理時間、(d)CPU使用率、(e)メモリ使用率、(f)キャッシュ使用率を取得する。これら監視データのデータサイズは、(a)トラヒック量が5バイト、(b)パケットロス量が5バイト、(c)処理時間が5バイト、(d)CPU使用率が10バイト、(e)メモリ使用率が10バイト、(f)キャッシュ使用率が20バイトである。
図2に示す例では、ネットワーク監視システム10が通常運用中にネットワーク機器21、22、23を監視している間に、ネットワーク機器21に障害Aが発生したものとする。また、図2に示す例では監視頻度の適性化がなされていない状態であるものとする。
まず、ネットワーク監視装置11は、初期監視モードとして、安定監視モードで各監視ポイントにおけるすべての監視データを同一の監視頻度(180s周期)で監視する。なお、この時点では、監視による障害の予兆情報が存在しない。このため、障害の予兆は検出されず、予兆監視モードでの動作は実行されない。
分析エンジン13が取得された監視データを分析した結果、(a)トラヒック量と(b)パケットロス量に、データの動きが連動している時間的推移に対する関連性が見られ、かつ(c)処理時間について障害が検知される前に通常運用中には見られないデータの動きが見られるという分析結果Aが得られたとする。この分析結果Aは予兆情報Aとして、データベース12に格納される。
この予兆情報Aに基づいて、分析エンジン13からネットワーク監視装置11に対して、監視頻度の変更が指示される。初期監視モードにおける各監視データの単位時間あたり(例えば、1h=3600s)のデータサイズの合計が、次の予兆監視モードにおける各監視データの単位時間当たりのデータサイズの合計と略等しくなるように、次の予兆監視モードの監視頻度が決定される。予兆監視モードでは、障害予兆の検知が可能な監視データ(すなわち、障害に関連のある関連監視データ)が他のデータよりも優先される。
従って、図2に示す例では、(a)トラヒック量、(b)パケットロス量、(c)処理時間が次の予兆監視モードにおいて取得されるべき、関連監視データとなる。分析エンジン13は、次の予兆時において、複数の監視データのうち障害に関連する関連監視データのみを取得し、関連監視データ以外の監視データを取得しないように、複数の監視データの監視頻度を変更する。また、それぞれの監視データの予兆監視モードにおける監視頻度は、安定監視モードにおける監視頻度よりも高くなる。すなわち、予兆監視モードにおける監視データの取得周期は、安定監視モードにおける監視データの取得周期よりも短い。
初期監視モードにおける監視トラヒックのデータサイズD1は、次の式(1)で求められる。
D1=5×3600/180)+(5×3600/180)+(5×3600/180)+(10×3600/180)+(10×3600/180)+(20×3600/180)=1100 ・・・(1)
このデータサイズと略等しくなるように、次の予兆監視モードにおける監視頻度を、例えば、(a)トラヒック量の監視頻度が40s周期、(b)パケットロス量が40s周期、(c)処理時間が90s周期と決定することができる。なお、次の予兆監視モードでは、障害発生の予兆の分析に用いられない、関連監視データ以外の監視データ((d)CPU使用率、(e)メモリ使用率、(f)キャッシュ使用率)は取得されない。
次の予兆監視モードにおける監視トラヒックのデータサイズD2は、次の式(2)で求められる。
D2=(5×3600/40)+(5×3600/40)+(5×3600/90)=1100 ・・・(2)
式(1)、(2)の通り、次の予兆監視モードにおける監視トラヒックのデータサイズD2は初期監視モードにおける監視トラヒックのデータサイズD1と等しい。このように、単位時間当たりの監視トラヒックが一定となるように監視頻度の適正化を行うことで、ネットワーク負荷の増大を抑制することが可能となる。
ネットワーク機器21の障害Aの原因が判明した後、機器交換等の復旧動作を経て、ネットワーク監視システム10は通常運用へと戻る。図3は、予兆監視モードにおいて、ネットワーク機器21に発生した障害Aによる分析結果を学習させた監視状態を示している。図3に示す例では、ネットワーク監視システム10が通常運用中にネットワーク機器21、22、23を監視している間に、障害発生の予兆を検知して予兆監視モードへ移行し、その後、ネットワーク機器22に新たな障害Bが発生したものとする。
ネットワーク監視装置11は、安定監視モードで各監視ポイントにおけるすべての監視データを同一周期(180s周期)の監視頻度で監視する。そして、分析エンジン13が取得された監視データを分析した結果、(a)トラヒック量と(b)パケットロス量に時間的推移に対する関連性が見られるとともに、(c)処理時間、(d)CPU使用率、(e)メモリ使用率に時間的推移に対する関連性が見られるという分析結果Bが得られたとする。この分析結果Bは予兆情報Bとして、分析結果Aとともにデータベース12に蓄積される。
これらの予兆情報A及びBに基づいて、分析エンジン13からネットワーク監視装置11に対して、監視頻度の変更が指示される。監視頻度は、変更前後の各監視データの単位時間当たりのデータサイズの合計(監視トラヒックのデータサイズ)が略等しくなるように変更される。すなわち、各監視データの単位時間当たりのデータサイズの合計は、初期監視モードから変更されない。
図3に示す例では、図2に示す例と同様に(a)トラヒック量、(b)パケットロス量に関連性が見られるとともに、(c)処理時間、(d)CPU使用率、(e)メモリ使用率にも関連性が見られる。従って、これらの監視データ((a)トラヒック量、(b)パケットロス量、(c)処理時間、(d)CPU使用率、(e)メモリ使用率)が関連監視データとなる。
上述のように、(a)トラヒック量、(b)パケットロス量の関連性は、障害Aと同様に障害Bにも存在する。従って、分析エンジン13は、次の安定監視モードにおいて複数の監視データの監視頻度のうち、(a)トラヒック量、(b)パケットロス量の監視頻度を高めるようネットワーク監視装置11に指示する。一方、障害A、Bのいずれに関しても、(f)キャッシュ使用率には予兆情報がないことから、監視頻度を低くする。また、この例では、(c)処理時間、(d)CPU使用率、(e)メモリ使用率の安定監視モードにおける監視頻度を変更しない。
初期監視モードにおけるデータサイズと略等しくなるように、次の安定監視モードにおける監視頻度を、例えば、(a)トラヒック量が140s周期、(b)パケットロス量が140s周期、(c)処理時間が180s周期、(d)CPU使用率が180s周期、(e)メモリ使用率が180s周期、(f)キャッシュ使用率が210s周期と決定することができる。
次の安定監視モードにおける監視トラヒックのデータサイズD3は、次の式(3)で求められる
D3=(5×3600/140)+(5×3600/140)+(5×3600/180)+(10×3600/180)+(10×3600/180)+(20×3600/210)=1100 ・・・(3)
式(1)、(3)の通り、次の安定監視モードにおける監視トラヒックのデータサイズD3は初期監視モードにおける監視トラヒックのデータサイズD1と等しい。
また、分析エンジン13は、次の予兆監視モードにおいて、複数の監視データのうち障害に関連する関連監視データ((a)トラヒック量、(b)パケットロス量、(c)処理時間、(d)CPU使用率、(e)メモリ使用率)のみを取得し、関連監視データ以外の監視データ(f)キャッシュ使用率)を取得しないように、複数の監視データの監視頻度を変更する。
(c)処理時間、(d)CPU使用率、(e)メモリ使用率に関連性が見られることから、これらの監視頻度を次の安定監視モードの監視頻度(180s周期)よりも高くする。また、(a)トラヒック量、(b)パケットロス量に関しては、障害A、Bのいずれにおいても関連性が見られることから、次の安定監視モードの監視頻度(140s周期)を超えない範囲内で、(c)処理時間、(d)CPU使用率、(e)メモリ使用率の監視頻度よりも高くする。なお、関連監視データ以外の(f)キャッシュ使用率は、次の予兆監視モードでは取得されない。
初期監視モードにおけるデータサイズと略等しくなるように、次の予兆監視モードにおける監視頻度を、例えば、(a)トラヒック量が90s周期、(b)パケットロス量が90s周期、(c)処理時間が128s周期、(d)CPU使用率が128s周期、(e)メモリ使用率が128s周期、と決定することができる。
次の予兆監視モードにおける監視トラヒックのデータサイズD4は、次の式(4)で求められる。
D4=(5×3600/90)+(5×3600/90)+(5×3600/128)+(10×3600/12)+(10×3600/128)≒1100 ・・・(4)
式(1)、(4)の通り、次の予兆監視モードにおける監視トラヒックのデータサイズD4は初期監視モードにおける監視トラヒックのデータサイズD1と略等しい。
このように、安定時から予兆時を経て異常時に移行したとき、次の安定時(安定監視モード)における複数の監視データの監視頻度と、次の予兆時(予兆監視モード)における関連監視データの監視頻度とがそれぞれ変更される。このように、実施の形態に係るネットワーク監視システムでは、安定監視モードでは監視している複数の監視データ(監視項目)を削除することなく、単位時間あたりの監視トラヒックを略一定としてネットワーク負荷の増大を防止している。また、予兆監視モードでは、障害の予兆を検出することが可能な監視データのみを取得することで、障害の予兆検出精度を高くすることができる。
ネットワーク機器22の障害Bの原因が判明した後、機器交換等の復旧動作を経て、ネットワーク監視システム10は通常運用へと戻る。図4は、安定監視モード、予兆監視モードにおいて、障害Aによる分析結果に加え、障害Bによる分析結果を学習させた監視状態を示している。図4に示す例では、ネットワーク監視システム10が通常運用中にネットワーク機器21、22、23を監視している間に、障害発生の予兆を検知して予兆監視モードへ移行し、その後、ネットワーク機器23に新たな障害Cが発生したものとする。
ネットワーク監視装置11は、安定監視モードにおいて、各監視ポイントにおけるすべての監視データを図4に示す所定の監視頻度で監視する。そして、分析エンジン13が取得された監視データを分析した結果、(a)トラヒック量と(b)パケットロス量に時間的推移に対する関連性が見られるという分析結果Cが得られたとする。この分析結果Cは予兆情報Cとして、分析結果A、Bとともにデータベース12に蓄積される。
これらの予兆情報A、B及びCに基づいて、分析エンジン13からネットワーク監視装置11に対して、監視頻度の変更が指示される。上述の通り、監視頻度は、該監視頻度の変更前後の各監視データの単位時間当たりのデータサイズの合計(監視トラヒックのデータサイズ)が略等しくなるように変更される。
図4に示す例では、図2、3に示す例と同様に(a)トラヒック量、(b)パケットロス量に関連性が見られる。分析エンジン13は、次の安定監視モードにおいて複数の監視データの監視頻度のうち、(a)トラヒック量、(b)パケットロス量の監視頻度をさらに高めるようネットワーク監視装置11に指示する。
一方、障害A、B、Cのいずれに関しても、(f)キャッシュ使用率には予兆情報がないことから、監視頻度をより低くする。また、この例では、(c)処理時間、(d)CPU使用率、(e)メモリ使用率の安定監視モードにおける監視頻度を変更しない。
初期監視モードにおけるデータサイズと略等しくなるように、次の安定監視モードにおける監視頻度を、例えば、(a)トラヒック量が100s周期、(b)パケットロス量が100s周期、(c)処理時間が180s周期、(d)CPU使用率が180s周期、(e)メモリ使用率が180s周期、(f)キャッシュ使用率が300s周期と決定することができる。
次の安定監視モードにおける監視トラヒックのデータサイズD5は、次の式(5)で求められる。
D5=(5×3600/100)+(5×3600/100)+(5×3600/180)+(10×3600/180)+(10×3600/180)+(20×3600/300)=1100 ・・・(5)
式(1)、(5)の通り、次の安定監視モードにおける監視トラヒックのデータサイズD5は初期監視モードにおける監視トラヒックのデータサイズD1と等しい。
また、分析エンジン13は、次の予兆監視モードにおいて、過去に発生した障害A、B又はCのいずれかに関連する関連監視データ((a)トラヒック量、(b)パケットロス量、(c)処理時間、(d)CPU使用率、(e)メモリ使用率)のみを取得し、関連監視データ以外の監視データ(f)キャッシュ使用率)を取得しないように、複数の監視データの監視頻度を変更する。
(a)トラヒック量、(b)パケットロス量に関しては、障害A、B、Cのいずれにおいても関連性が見られることから、次の予兆監視モードにおける監視頻度を高くする。また、障害Bのみで関連性が見られた(c)処理時間、(d)CPU使用率、(e)メモリ使用率については、次の安定監視モードの監視頻度(180s周期)を超えない範囲内で監視頻度が調整される。なお、関連監視データ以外の(f)キャッシュ使用率は、次の予兆監視モードでは取得されない。
初期監視モードにおけるデータサイズと略等しくなるように、次の予兆監視モードにおける監視頻度を、例えば、(a)トラヒック量が80s周期、(b)パケットロス量が80s周期、(c)処理時間が138s周期、(d)CPU使用率が138s周期、(e)メモリ使用率が138s周期、と決定することができる。
次の予兆監視モードにおける監視トラヒックのデータサイズD6は、次の式(6)で求められる。
D6=(5×3600/80)+(5×3600/80)+(5×3600/138)+(10×3600/138)+(10×3600/138)≒1100 ・・・(6)
式(1)、(6)の通り、次の予兆監視モードにおける監視トラヒックのデータサイズD6は初期監視モードにおける監視トラヒックのデータサイズD1と略等しい。
ネットワーク機器23の障害Cの原因が判明した後、機器交換等の復旧動作を経て、ネットワーク監視システム10は通常運用へ移行する。
以上説明したように、障害が発生する毎に監視データを分析し、分析結果の学習を繰り返すことで、初期監視モードにおける各監視データの監視頻度から、図5のように各監視データの監視頻度を適正化することが可能となる。上述の例では、特に、(a)トラヒック量、(b)パケットロス量に関連する障害発生の頻度が高いことから、安定監視モード及び予兆監視モードのいずれにおいても監視頻度が高くなり、異常検出精度が高くなる。また、過去に発生した障害A、B、Cに関しては、予兆検出時点で障害の発生前に障害の原因を特定することが可能となる。
実施の形態に係るネットワーク監視システム10では、障害が発生する毎に監視データの分析を繰り返し、障害発生の可能性がある各監視ポイントの複数の監視データのそれぞれの取得頻度を変更している。すなわち、ネットワーク監視システム10では、過去に発生した障害実績を考慮して、障害の予兆の検出時期を徐々に早めることができる。このため、ネットワーク監視装置が高い頻度(例えば数秒オーダー)で監視状態を取得することなく、システムの異常をできるだけ早く検出することができる。これにより、全監視ポイントのうち予兆状態又は異常状態に陥る監視ポイントの数が相対的に少ない範囲内では、ネットワーク機器の監視データの取得によるトータルでのネットワーク負荷の増大を防止することができ、エンドユーザーのデータ通信に与える影響を低減することができる。
また、予兆監視モードでは、障害に関連する監視ポイントの監視データの取得頻度を高めることができる。これにより、ネットワークシステムが複雑化してネットワーク機器同士が影響しあう場合にも、障害に関連する監視データ間の相関関係を把握して障害検出の遅延を抑制することが可能となる。
さらに、従来はネットワーク監視装置側で監視・収集する監視項目は予め設計時に決定されており、想定外の障害が発生した場合には、都度新たな監視項目を収集するように変更する必要があった。これに対し、実施の形態に係るネットワーク監視システム10では、システムの異常を検出するために必要となるか不明なログを含む、各監視ポイントにおけるすべての監視データのログをネットワーク機器から収集する対象としている。これにより、未知の障害が発生した場合にも対応することが可能となる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。監視対象機器からの監視データだけでなく、外的要因によるネットワーク負荷を検知して、各監視データの監視頻度を変更することも可能である。例えば、インターネットを利用しているイベント状況を把握することで、ある特定の日時に該当サーバへのアクセス集中によりネットワーク負荷が高まるという情報が得られた場合、分析エンジン13からネットワーク監視装置11に対して、そのエリアのネットワーク機器の監視頻度を高める指示を出すことで、障害が発生した場合でも影響を少なくすることが可能である。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2018年1月19日に出願された日本出願特願2018-007568を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10 ネットワーク監視システム
11 ネットワーク監視装置
12 データベース
13 分析エンジン
20 インターネット網
21 ネットワーク機器
22 ネットワーク機器
23 ネットワーク機器

Claims (8)

  1. ネットワークを介して接続された監視対象機器を監視するネットワーク監視システムであって、
    前記ネットワーク監視システムは、
    前記監視対象機器の状態に関する複数の監視データをそれぞれ所定の監視頻度で取得するネットワーク監視装置と、
    前記監視対象機器に障害が発生する毎に、前記監視対象機器に障害が発生するまでの複数の前記監視データを分析して、障害発生の予兆情報を生成する分析装置と、
    生成された前記予兆情報を蓄積する記憶装置と、
    を備え、
    前記分析装置は、蓄積された前記予兆情報に基づいて、複数の前記監視データのうち、データの動きが連動している、時間的推移に対する関連性がみられる少なくとも一対の監視データの前記監視頻度を変更する、
    ネットワーク監視システム。
  2. 前記分析装置は、障害が発生していない安定時、障害が発生する直前の予兆時、障害が発生した後の異常時における、複数の前記監視データのそれぞれの挙動を学習して、安定時、予兆時、異常時のいずれであるかを判断し、
    安定時において複数の前記監視データを取得する安定監視モードと、予兆時において発生した障害に関連する関連監視データを取得する予兆監視モードとを切り替える、
    請求項1に記載のネットワーク監視システム。
  3. それぞれの前記監視データの前記予兆監視モードにおける前記監視頻度は、前記安定監視モードにおける前記監視頻度よりも高い、
    請求項2に記載のネットワーク監視システム。
  4. 前記安定時から前記予兆時を経て前記異常時に移行したときに、次の前記安定時における複数の前記監視データの前記監視頻度と、次の前記予兆時における複数の前記監視データの前記監視頻度とをそれぞれ変更する、
    請求項2又は3に記載のネットワーク監視システム。
  5. 前記分析装置は、次の前記予兆時において、複数の前記監視データのうち障害に関連する関連監視データのみを取得し、前記関連監視データ以外の前記監視データを取得しないように、複数の前記監視データの前記監視頻度を変更する、
    請求項4に記載のネットワーク監視システム。
  6. 前記分析装置は、前記監視頻度の変更前後の複数の前記監視データの単位時間当たりのデータサイズの合計が略等しくなるように前記監視頻度を変更する、
    請求項1~5のいずれか1項に記載のネットワーク監視システム。
  7. ネットワークを介して接続された監視対象機器を監視するネットワーク監視方法であって、
    前記監視対象機器の状態に関する複数の監視データをそれぞれ所定の監視頻度で取得するステップと、
    前記監視対象機器に障害が発生する毎に、前記監視対象機器に障害が発生するまでの複数の前記監視データを分析して、障害発生の予兆情報を生成して蓄積するステップと、
    蓄積された前記予兆情報に基づいて、複数の前記監視データのうち、データの動きが連動している、時間的推移に対する関連性がみられる少なくとも一対の監視データの前記監視頻度を変更するステップと、
    を備える、ネットワーク監視方法。
  8. ネットワークを介して接続された監視対象機器を監視するネットワーク監視プログラムであって、
    前記監視対象機器の状態に関する複数の監視データをそれぞれ所定の監視頻度で取得する処理と、
    前記監視対象機器に障害が発生する毎に、前記監視対象機器に障害が発生するまでの複数の前記監視データを分析して、障害発生の予兆情報を生成して蓄積させる処理と、
    蓄積された前記予兆情報に基づいて、複数の前記監視データのうち、データの動きが連動している、時間的推移に対する関連性がみられる少なくとも一対の監視データの前記監視頻度を変更する処理と、
    をコンピュータに実行させる、ネットワーク監視プログラム。
JP2019565709A 2018-01-19 2018-10-12 ネットワーク監視システム、方法及びプログラム Active JP7234942B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018007568 2018-01-19
JP2018007568 2018-01-19
PCT/JP2018/038030 WO2019142414A1 (ja) 2018-01-19 2018-10-12 ネットワーク監視システム、方法及びプログラムを格納した非一時的なコンピュータ可読媒体

Publications (2)

Publication Number Publication Date
JPWO2019142414A1 JPWO2019142414A1 (ja) 2021-01-07
JP7234942B2 true JP7234942B2 (ja) 2023-03-08

Family

ID=67301370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019565709A Active JP7234942B2 (ja) 2018-01-19 2018-10-12 ネットワーク監視システム、方法及びプログラム

Country Status (3)

Country Link
US (1) US20210135924A1 (ja)
JP (1) JP7234942B2 (ja)
WO (1) WO2019142414A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12032683B2 (en) * 2021-07-29 2024-07-09 Micro Focus Llc Abnormality detection in log entry collection
CN117076253B (zh) * 2023-08-30 2024-05-28 广州逸芸信息科技有限公司 一种数据中心业务及设施多维度智能运维系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015182629A1 (ja) 2014-05-30 2015-12-03 株式会社日立製作所 監視システム、監視装置及び監視プログラム
JP2016163242A (ja) 2015-03-04 2016-09-05 株式会社日立製作所 データ収集システム、データ収集方法、サーバ及びゲートウェイ

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6512575B2 (ja) * 2015-03-03 2019-05-15 芳隆 大吉 三次元形状情報の配信または放送の方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015182629A1 (ja) 2014-05-30 2015-12-03 株式会社日立製作所 監視システム、監視装置及び監視プログラム
JP2016163242A (ja) 2015-03-04 2016-09-05 株式会社日立製作所 データ収集システム、データ収集方法、サーバ及びゲートウェイ

Also Published As

Publication number Publication date
US20210135924A1 (en) 2021-05-06
JPWO2019142414A1 (ja) 2021-01-07
WO2019142414A1 (ja) 2019-07-25

Similar Documents

Publication Publication Date Title
US10860939B2 (en) Application performance analyzer and corresponding method
US11151014B2 (en) System operational analytics using additional features for health score computation
US9952921B2 (en) System and method for detecting and predicting anomalies based on analysis of time-series data
US10901832B2 (en) System for maintenance recommendation based on failure prediction
US10275301B2 (en) Detecting and analyzing performance anomalies of client-server based applications
Soualhia et al. Infrastructure fault detection and prediction in edge cloud environments
US7412448B2 (en) Performance degradation root cause prediction in a distributed computing system
EP2685380B1 (en) Operations management unit, operations management method, and program
US10438124B2 (en) Machine discovery of aberrant operating states
Tan et al. Adaptive system anomaly prediction for large-scale hosting infrastructures
US20160170818A1 (en) Adaptive fault diagnosis
CN103392176B (zh) 用于预测网络事件泛滥的装置和方法
US8543689B2 (en) Apparatus and method for analysing a computer infrastructure
JP7234942B2 (ja) ネットワーク監視システム、方法及びプログラム
Xu et al. Lightweight and adaptive service api performance monitoring in highly dynamic cloud environment
KR20190096706A (ko) 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템
US20210366268A1 (en) Automatic tuning of incident noise
WO2021157299A1 (ja) 通信装置、監視サーバ及びログ収集方法
Di Sanzo et al. Machine learning for achieving self-* properties and seamless execution of applications in the cloud
JP5711675B2 (ja) ネットワーク異常検出装置およびネットワーク異常検出方法
CN102761432B (zh) Cgi监控方法及其装置和系统
JP4936072B2 (ja) システム負荷監視方法
US20140198654A1 (en) Communication monitor, prediction method, and recording medium
CN106686082B (zh) 存储资源调整方法及管理节点
JP2020038525A (ja) 異常検知装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200709

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R151 Written notification of patent or utility model registration

Ref document number: 7234942

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151