JP6903960B2 - 監視方法,監視装置,及びプログラム - Google Patents

監視方法,監視装置,及びプログラム Download PDF

Info

Publication number
JP6903960B2
JP6903960B2 JP2017046387A JP2017046387A JP6903960B2 JP 6903960 B2 JP6903960 B2 JP 6903960B2 JP 2017046387 A JP2017046387 A JP 2017046387A JP 2017046387 A JP2017046387 A JP 2017046387A JP 6903960 B2 JP6903960 B2 JP 6903960B2
Authority
JP
Japan
Prior art keywords
node
monitoring
nodes
parent
hops
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017046387A
Other languages
English (en)
Other versions
JP2018152672A (ja
Inventor
康晃 森
康晃 森
外浩 小林
外浩 小林
昌人 市橋
昌人 市橋
祐一 波岡
祐一 波岡
松村 陽一
陽一 松村
友和 西塔
友和 西塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017046387A priority Critical patent/JP6903960B2/ja
Publication of JP2018152672A publication Critical patent/JP2018152672A/ja
Application granted granted Critical
Publication of JP6903960B2 publication Critical patent/JP6903960B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、監視方法,監視装置,及びプログラムに関する。
複数のネットワーク機器(以下、「ノード」とも表記)と、各ネットワーク機器を監視・制御するネットワークコントローラ(以下、「監視サーバ」とも表記)とを含むネットワークシステムがある。 監視サーバは、例えば、いわゆるサーバ・クライアント方式によって、監視対象のノードの全てと直接に通信を行うことで監視を行う。
特開2011−130144号公報 特開2013−47922号公報
近年のネットワークの大規模化によって、監視サーバの監視対象のノードの数が増加し、監視サーバの負荷が増大している。負荷の増大に対し、監視サーバの増設や高スペックの(高性能の)監視サーバの採用にて対応を図ると、設備に係るコストが増大する問題がある。
本発明は、監視の負荷を分散させることが可能な技術を提供することを目的とする。
一つの態様は、複数のノードを含むネットワークに通信可能に接続され前記ネットワークの監視を行う監視装置に含まれるコンピュータに、前記監視装置との間の最小ホップ数の通信経路における前記監視装置との間のホップ数に応じて前記複数のノードを分類する処理と、ホップ数が小さい側のノードが、ホップ数が大きい側のノードを監視するようにノード間で監視関係の設定を行う際に、ホップ数が同じノード間で監視負荷がバランスされるように監視可能な監視先ノードの割り振りを実施する処理と、を実行させるプログラムである。
一側面では、監視の負荷を分散させることができる。
図1は、実施形態に係るネットワークシステムの一例を示す。 図2はツリーの一例を示す。 図3は監視サーバ及びノードに適用可能な情報処理装置(コンピュータ)のハードウェア構成例を示す図である。 図4は、監視コスト情報の説明図である。 図5は、図1に示したネットワークシステムにおける複数のノードについてのレイヤ及び監視コストを決定した例を示す。 図6は、図5の例における子ノードの割り振りの一例を示す。 図7は、親ノード間の子ノードの割り振り方法の一例を示す図である。 図8は、親ノード間の子ノードの割り振り方法の一例を示す図である。 図9は、監視サーバ(監視サーバとして動作する情報処理装置)のCPUによって実行される監視処理の一例を示すフローチャートである。 図10は、ノードの親ノードとしての処理例を示すフローチャートである。 図11は、通信断の検出時における監視サーバのCPUの処理例を示すフローチャートである。
以下、図面を参照して、実施形態に係る監視方法,監視装置,及びプログラムについて説明する。実施形態の構成は例示であり、本発明は実施形態の構成に限定されない。
<ネットワーク構成>
図1は、実施形態に係るネットワークシステムの一例を示す。ネットワークシステムは、ネットワークを監視する監視サーバ1と、ネットワークに含まれる複数のノード2とを含む。監視サーバ1は「監視装置」の一例である。
複数のノード2は、監視サーバ1によって監視及び制御されるネットワーク機器である。ノード2(ネットワーク機器)は、端末装置及び中継装置を含む。端末装置は、例えば、パーソナルコンピュータ,ワークステーション,サーバマシン,タブレット端末,スマートフォン,センサノードなどと呼ばれる通信機能を有するセンサ端末などを含む。中継装置は、ルータ,レイヤ2/レイヤ3スイッチ,HUBなどを含む。但し、ネットワーク機器は上記例示以外のネットワーク機器を含み得る。ノード2間のトポロジは、各ノード2が直接に又は間接に(他のノード2を介して)監視サーバ1に接続されている限り適宜設定し得る。ノード2の数は適宜設定可能である。
監視サーバ1は、複数のノード2の監視及び制御を行う。監視に用いるプロトコルとして、Simple Network Management Protocol(SNMP),ping,テルネット(telnet)などを適用することができる。但し、上記以外のプロトコルが監視に適用されても良い。
実施形態における監視サーバ1は、監視サーバ1を頂点(ルート)とするツリーを形成する。図2はツリーの一例を示す。ツリーは、ツリーの末端から頂点へ向かって監視用の情報(監視情報)を転送するルートとして使用される。
監視サーバ1から1ホップ目に位置するノード2は「代表ノード」に設定される。代表ノード以外のノードは「一般ノード」に設定される。一般ノードは代表ノード又は他のノードに接続される。
図2に示すツリーの例では、2つの代表ノード#1及び代表ノード#2が設定されている。代表ノードが属する1ホップ目は「レイヤ1」と呼ばれる。監視サーバ1から2ホップ目以降はレイヤ2,3,・・・と呼ばれる。図2の例では、一般ノードa〜eが例示されており、一般ノードa及び一般ノードdはレイヤ2に属する。一般ノードb,一般ノードc及び一般ノードeはレイヤ3に属する。図2に図示された各矢印は子ノードから親ノードに向いている。
代表ノードは監視サーバ1との間で親子関係を形成し、一般ノードは代表ノード又は他の一般ノードとの間で親子関係を形成する。図2に示す例では、一般ノードa〜eとなるノード2がある。一般ノードaは代表ノード#1を親ノードとする子ノードとなり、一般ノードdは代表ノード#2を親ノードとする子ノードとなっている。一般ノードaは一般ノードb及び一般ノードcの親ノードとなっており、一般ノードdは一般ノードeの親ノードとなっている。
監視サーバ1はツリーの生成(ノードの親子関係)を行い、各ノード2に監視制御用データを送信する。監視制御用データは各ノード2向けの親子関係を示すデータを含む。例えば、監視制御用データは、以下の情報を含む。
・1又は複数の監視対象の子ノードを示す情報(監視対象のノードを示す情報)
・監視結果を通知する上位レイヤのノード2又は監視サーバ1(監視結果を送信するノードを示す情報)
・監視対象項目を示す情報、例えば、監視対象の警報(アラーム)や状態などを示す情報。
各ノード2は、監視制御用データに従って子ノードを監視する。監視は、子ノードから監視結果の情報を収集する「状態収集」と、子ノードが自発的に送信した情報を受け取る「イベント通知」の2つを含む。各ノード2は、子ノードからの監視結果に自ノードの監視結果を追加して親ノードに送信する。
<ハードウェア構成>
図3は監視サーバ1及びノード2に適用可能な情報処理装置(コンピュータ)のハードウェア構成例を示す図である。情報処理装置10は、一例として、バスB1を介して相互に接続されたCentral Processing Unit(CPU)11と、主記憶装置12と、補助記憶
装置13と、通信インタフェース(通信IF)14と、入力装置15と、出力装置16と、センサ17とを含む。
主記憶装置12はプログラムの展開領域、CPU11の作業領域、データやプログラムの記憶領域、通信データのバッファ領域などとして使用される。主記憶装置12は、例えばRandom Access Memory(RAM)、RAMとRead Only Memory(ROM)との組み合わせで形成される。
補助記憶装置13はデータやプログラムの記憶領域として使用される。補助記憶装置13は、例えば、ハードディスクドライブ(HDD)、Solid State Drive(SSD)、フ
ラッシュメモリ、Electrically Erasable Programmable Read-Only Memory(EEPRO
M)などの不揮発性記憶媒体で形成される。主記憶装置12及び補助記憶装置13のそれぞれは、「記憶装置」、「記憶媒体」、「メモリ」、「記憶部」の一例である。
通信IF14は通信処理を司る。通信IF14には例えばNetwork Interface Card(NIC)が使用される。入力装置15は、例えば、キー、ボタン、ポインティングデバイス(マウスなど)、タッチパネル、音声入力装置(マイクロフォン)などである。出力装置16は、例えばディスプレイ、プリンタ、スピーカ、ランプなどである。
CPU11は、補助記憶装置13に記憶されたプログラムを主記憶装置12にロードして実行する。プログラムの実行によって、情報処理装置10は監視サーバ1としての動作を行う。CPU11は上述したツリーを生成し、ツリーに基づく監視制御データを各ノード2に送信する処理を行う。また、各ノード2での監視結果を受信し、監視結果の解析(監視)を通じてノード2やネットワークの制御を行う。CPU11は、プログラムの実行によって、「分類部」及び「割振部」として動作することができる。
CPU11は、「制御装置」、「制御部」、「コントローラ」、「プロセッサ」の一例である。CPU11は、MPU(Microprocessor)、プロセッサとも呼ばれる。CPU11は、単一のプロセッサに限定される訳ではなく、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のCPUがマルチコア構成を有していても良い。CPU11で行われる処理の少なくとも一部は、マルチコア又は複数のCPUで実行されても良い。CPUで行われる処理の少なくとも一部は、CPU以外のプロセッサ、例え
ば、Digital Signal Processor(DSP)、Graphics Processing Unit(GPU)、数値演算プロセッサ、ベクトルプロセッサ、画像処理プロセッサ等の専用プロセッサで行われても良い。
また、CPU11によって行われる処理の少なくとも一部は、集積回路(IC)、その他のディジタル回路で行われても良い。また、集積回路やディジタル回路はアナログ回路を含んでいても良い。集積回路は、LSI、Application Specific Integrated Circuit
(ASIC)、プログラマブルロジックデバイス(PLD)を含む。PLDは、例えば、Field-Programmable Gate Array(FPGA)を含む。CPU11で行われる処理の少なく
とも一部は、プロセッサと集積回路との組み合わせにより実行されても良い。組み合わせは、例えば、マイクロコントローラ(MCU)、SoC(System-on-a-chip)、システムLSI、チップセットなどと呼ばれる。
<監視サーバの処理>
次に、監視サーバ1におけるツリー及び監視制御データの生成及び送信処理について説明する。例えば、監視サーバ1として動作する情報処理装置10の補助記憶装置13は、図2に示す様に、トポロジ情報,ノード情報,監視コスト情報,ツリー情報などを記憶する。
トポロジ情報は、各ノード2の接続状態を示す。ノード情報は、各ノード2のネットワークアドレス(Internet Protocol(IP)アドレス,Media Access Control(MAC)
アドレス),装置種別,装置構成を示す情報などを含む。監視コスト情報は、各ノード2を監視する場合に生じるコストの算出に用いる情報を含む。ツリー情報はレイヤと、各レイヤに属するノードと、ノードの親子関係を示す情報を含む。これらの情報は、CPU11がプログラムの実行によりツリー及び監視制御データを生成する場合に使用される。
<<各ノードの監視コストの決定>>
監視サーバ1は、監視対象のそれぞれのノード2に対して、監視に使用するリソース(CPU11やメモリ(主記憶装置12など)の使用量)の重み付けを行う。重みは、監視に使用されるCPU11やメモリ(主記憶装置12など)の使用時間や使用量、データの収集時間などの監視サーバ1にかかる負荷を示す。重みを「監視コスト」と呼ぶ。
図4は、監視コスト情報の説明図である。監視コストは、一例として、図4の表に示すような監視コスト要素の組み合わせにより決定される。図4の例では、監視コスト要素として、「警報/状態の収集数」,「収集インタフェース」,「収集複雑度」,及び「収集時間」が例示されている。なお、監視コスト要素は、上記から選択される少なくとも一つであっても良く、上記以外の要素が採用されても良い。
「警報/状態の収集数」は、監視対象のアラームや状態の数(監視対象の情報項目の数の一例)を示す。収集数の増加に比例して監視コストは大きくなる。例えば、収集数がそのままコスト値に設定される。収集数が例えば15であれば、コスト値が15となる。
「収集インタフェース」は、監視情報の収集方法を示す。例えば、SNMPのTRAPコマンドを用いて監視情報を収集する場合と、SNMPのGETコマンドを用いて監視情報を収集する場合とがある。GETでは、SNMPマネージャからのリクエストに応じてSNMPエージェントが応答(監視情報)を返信する。TRAPはSNMPエージェントが自発的に情報(監視情報)をSNMPマネージャに送信する。GETの手順はTRAPよりも複雑であるので監視コストも高くなる。例えば、GETに対するコスト値は10、TRAPに対するコスト値は2、pingに対するコスト値は1、telnetに対するコスト値は20に設定される。
「収集複雑度」は、収集開始から完了までのロジック(手順数:例えばコマンド実行数)を示す。手順数が多くなる程、コスト値は高くなる。例えば、コマンド実行の回数をそのままコスト値に設定可能である。
「収集時間」は、例えば、監視情報のリクエスト送信から応答受信までの時間を示す。収集時間が長くなる程、監視コストは上昇する。例えば、収集時間が0.1秒の場合のコスト値が1に設定され、1秒の場合のコスト値が5に設定される。但し、各監視コスト要素に対するコスト値は適宜設定可能であり、監視の負荷が大きい程コスト値が高くなるように設定されていれば良い。
監視サーバ1は、監視対象の各ノード2のノード情報を用いて、各ノードから監視情報を収集する場合の監視コストの値を計算する。計算式は、例えば以下を適用し得る。
監視コスト = Σ(i+j+k)× (h)
但し、iは収集インタフェースのコスト値であり、jは収集複雑度のコスト値であり、kは収集時間のコスト値である。hは、i,j及びkの組み合わせに対する警報/状態の
収集数である。但し、監視コストは上記計算式以外の式を用いて計算されても良い。
<<各ノードの監視レイヤの決定>>
監視サーバ1は、トポロジ情報を用いて、監視サーバ1から各ノード2までの最短経路のホップ数を各ノード2が属する「監視レイヤ」とする。監視サーバ1から1ホップ目の経路にあたるノードはレイヤ1となる。
上記したように、レイヤ1のノードを「代表ノード」と呼ぶ。2ホップ目はレイヤ2、3ホップ以降はレイヤ3…とする。レイヤ2以降のノードを「一般ノード」と呼ぶ。図5は、図1に示したネットワークシステムにおける複数のノード2についてのレイヤ及び監視コストを決定した例を示す。
各レイヤのノード2(監視元)は、直下のレイヤのノード2(監視先)を監視する。例えば、レイヤ1のノード2は、レイヤ2のノードを監視する。監視元のレイヤを親レイヤ、親レイヤのノード2を親ノードと呼び、監視先となったレイヤを子レイヤ、子レイヤのノード2を子ノードと呼ぶ。1つのノード2が監視する子ノードの数は2以上であっても良い。
<<各ノードの監視先を決定>>
親レイヤでは、親ノード間で監視コストが分散するように子レイヤのノードを決定する。例えば、図5に示す例を用いて説明する。レイヤ2の親ノード(一般ノードa及び一般ノードb)に対し、レイヤ3の子ノード(一般ノードc,一般ノードd及び一般ノードe)を割り振ることを考える。この場合、一般ノードaの監視先の子ノードの監視コストの合計と一般ノードbの監視先の子ノードの監視コストの合計とが近くなる(バランスする)ように割り振りが行われる(図6参照)。
結果の一例として、監視サーバ1は、一般ノードaの監視先(子ノード)として、一般ノードc及び一般ノードd(監視コストの合計値:1500)を決定する。また、監視サーバ1は、一般ノードaの監視先(子ノード)として、一般ノードc及び一般ノードd(監視コストの合計値:1500)を決定する。
図7及び図8は、親ノード間の子ノードの割り振り方法の一例を示す図である。最初に、監視サーバ1は、(i)親レイヤに属するノード(親ノード群)と、子レイヤに属するノード(子ノード群)を取り出す。なお、図7及び図8は一例であって、図5に示したト
ポロジと異なる。
例えば、図7に示すように、監視サーバ1は、親レイヤ(レイヤ2)の親ノード群と子レイヤ(レイヤ3)の子ノード群のデータを取り出す。親ノード群は、親ノードA,親ノードB及び親ノードCを含み、子ノード群は、子ノードH,子ノードI,子ノードJ及び子ノードKを含む。子ノードH,子ノードI,子ノードJ及び子ノードKの監視コストのそれぞれは、1000,2000,3000,4000であると仮定する。
監視サーバ1は、(ii)各子ノードに対応する親候補テーブルを生成する。図8に示すように、親候補テーブルT1は、親ノードの候補(監視サーバ1からの最短経路上にある直上レイヤのノード)の一覧を含む。換言すれば、親候補テーブルT1は、子ノードの識別情報に対応する単数又は複数の親ノード候補の識別情報を記憶する。図8には、子ノードH,子ノードI,子ノードJ及び子ノードKに対応する親候補テーブルT11,T12,T13及びT14が図示されている。図8に示すように、親候補テーブルT1は、子ノードの監視コストを記憶していても良い。
監視サーバ1は、(iii)以下の条件に従って、各親ノードがどの子ノードを監視する
かを示す「親ノード監視テーブル」を生成する。
(ルール1)親ノードの候補(親候補とも表記)が一つしか存在しない子ノード(第1の子ノード)は、無条件にその親ノードの監視下に入る。
(ルール2)親候補が複数存在する子ノード(第2の子ノード)は、親候補となる親ノード監視テーブルをチェックし、合計コストが一番小さい親を選択する。
図8に示す例では、監視サーバ1は、若い番号順で親ノードを決定している。但し、割り振りの結果がバランスする限りにおいて、親ノードの決定順は適宜変更可能である。子ノードHに対する親ノードの候補は親ノードAの一つである。よって、監視サーバ1はルール1に従い、子ノードHを親ノード監視テーブルT2に登録する。
親ノード監視テーブルT2は、例えば、図8に示すように、親ノードの識別子に対応づけて、各子ノードの識別情報と、子ノードの監視コストの合計値(合計コスト)とが記憶される。図8には、親ノードA,親ノードB,親ノードCに対応する親ノード監視テーブルT21,T22,T23が図示されている。なお、親候補テーブルT1及び親ノード監視テーブルT2のそれぞれにおいて、親ノードの候補及び親ノードのそれぞれの監視コストが記憶されてもよい。
子ノードIについては、親ノードの候補として、親ノードA,親ノードB,及び親ノードCがある。監視サーバ1は、親ノード候補の合計コストを参照し、合計コストの値が小さい親ノード候補の親ノード監視テーブルT2に子ノードIを登録する(ルール2)。このとき、合計コストの値が同じである複数の親ノード監視テーブルT2が存在する場合には、所定の優先順位に従って一つの親ノード監視テーブルT2に子ノードIを登録する。この例では、親ノードの候補である親ノードBと親ノードCとのうち、ノード番号が若い親ノードBの親ノード監視テーブルT22に子ノードIが登録されている。但し、優先順位は適宜設定可能である。
子ノードJに対する親ノードの候補は親ノードAの一つである。このため、監視サーバ1はルール1にしたがって、親ノード監視テーブルT21に子ノードJを登録する。監視サーバ1は親ノード監視テーブルT21の合計コスト値を4000(1000+3000)に更新する。
子ノードKについては、監視サーバ1は、ルール2に従って、親ノードCに対応する親
ノード監視テーブルT23に登録する。これにより、親ノードA,B,C間で、子ノードH,I,J,Kについての監視コストがバランスした状態で割り振られた状態となる。すなわち、親ノードA,B,C間で子ノードH,I,J,Kの監視に対する負荷が分散される。なお、親候補テーブルT1及び親ノード監視テーブルT2は主記憶装置12及び補助記憶装置13の少なくとも一方で生成され、記憶される。
<CPUによる処理>
図9は、監視サーバ1(監視サーバ1として動作する情報処理装置10)のCPU11によって実行される監視処理の一例を示すフローチャートである。図9に示す処理は、監視サーバ1の起動など、所定の初期トリガの入力を契機に開始される。但し、図9の処理の開始条件は上記以外であっても良い。
001では、監視サーバ1のCPU11は各ノード2の監視コストを決定する(図4等参照)。002では、監視サーバ1のCPU11は各ノード監視レイヤを決定する(図5参照)。003では、監視サーバ1のCPU11は親レイヤに属するノード2と子レイヤに属するノードとを取り出す(図7参照)。
004では、監視サーバ1のCPU11は003で取り出した子ノードに関する親候補テーブルT1を生成する。005及び006の処理は、取り出した子ノード数分ループする。005では、監視サーバ1のCPU11は親ノードの候補が一つか否かを判定する。006では、親ノードの候補が一つであると005で判定する場合に、CPU11は親ノードの候補を親ノードに決定し、対応する親ノード監視テーブルT2に登録する。
007及び008の処理は親ノードの候補が複数である子ノード数分ループする。また、007は親候補テーブルT1中の各親ノードの候補分ループする。007において、監視サーバ1のCPU11は合計コストが小さい親ノードの候補を選択する。008において、監視サーバ1のCPU11は007で選択した親ノードの候補を親ノードとして決定し、親ノード監視テーブルT2に登録する。
003〜008の処理は、残りのレイヤについても実行される。すなわち、003の処理における取り出しは、最下位のレイヤを起点に行われる。例えば、図5の例であれば、レイヤ2とレイヤ3とをそれぞれ親レイヤ及び子レイヤとするノードが取り出される。これについての割り振りが終了すると、一つ上位のレイヤについての処理が行われる。
図5の例であれば、レイヤ1とレイヤ2とをそれぞれ親レイヤ及び子レイヤとするノードが取り出され(003)、004〜008の処理が行われる。このとき、子ノードの監視コストとして、各子ノードにぶら下がる子ノードの監視コストと自ノードの監視コストとの合計値が用いられる。003〜008の処理は、レイヤ1が親レイヤとして取り出されるまで繰り返し行われる。
このようにして、最終的に監視サーバ1を頂点とするツリーの情報(図2)が監視サーバ1で生成され、主記憶装置12及び補助記憶装置13の少なくとも一方(以下、「メモリ」という)に記憶される。009では、監視サーバ1のCPU11は各ノード2(代表及び一般ノード)に監視制御用データを送信する。監視制御用データは通信IF14から各ノード2へ送信される。
各ノード2として動作する情報処理装置10では、監視制御用データが通信IF14で受信され、メモリ(主記憶装置12及び補助記憶装置13の少なくとも一方)に記憶される。各ノード2のCPU11は、監視制御用データを用いて監視対象の情報(アラームや状態など)を監視し、監視結果(監視情報ともいう)をメモリに記憶する。
図10は、ノード2の親ノードとしての処理例を示すフローチャートである。図10の処理1はノード2のCPU11が定期ポーリングのトリガを受けて開始する。101では、CPU11は、監視対象の各子ノードから監視情報(子ノードにおける監視対象の監視結果を示す情報)を収集する。収集は、各子ノードに監視結果の送信の要求を送信し、応答を受信することで行われる。
102では、ノード2のCPU11は自身(自ノード)の監視情報を各子ノードから収集された監視情報に追加し、親ノード(通知先)への通知情報を生成する。103では、ノード2のCPU11は通知先(親ノード)との通信が正常か否かを判定する。通信が正常と判定される場合にはCPU11は親ノードへ通知情報を送信する(104)。通信が正常でないと判定される場合にはCPU11は通知情報を退避(メモリに記憶)する(105)。退避されたデータは、親ノードとの通信が復旧した場合に親ノードへ送信される。
図10に示す処理2は、イベントとして、子ノードから監視情報が受信されたことを契機に開始される。111では、ノード2のCPU11は自身(自ノード)の監視情報を各子ノードから収集された監視情報に追加し、親ノード(通知先)への通知情報を生成する。111の処理は102の処理と同様の処理である。その後、処理が103に進む。
図10に示す処理1及び処理2が各ノード2で実行されることによって、監視サーバ1は、各代表サーバから代表サーバ及びその下位にある一般ノードからの監視情報を含む通知情報を受信することができる。監視サーバ1は受信された監視情報を用いてネットワーク及び各ノード2の制御を行う。
図11は、通信断の検出時における監視サーバ1のCPU11の処理例を示すフローチャートである。201では、監視サーバ1のCPU11は、各代表ノードから監視サーバ1への通知情報を受信する。
202では、監視サーバ1のCPU11は、通信断となっているノードXを特定する。例えば、図6を例に説明すると、代表ノード#1は、ライフチェックなどの既存の方法で一般ノードaと通信できなくなったとき、「一般ノードaとの通信断」の通知を監視サーバ1へ送信する。202において、監視サーバ1のCPU11は、通信断の通知が受信されているかを判定する。ここでは、CPU11はノードXとして一般ノードaを特定する。
203では、監視サーバ1のCPU11は、ノードXが監視していたノードYを特定する。ノードYの特定は、ツリーの情報(ノードXへの監視制御用データ)を用いて行うことができる。CPU11は、ノードYとして、ノードX(一般ノードa)の子ノードであった一般ノードc及び一般ノードdを特定する。このようにして、CPU11はツリー上でノードXの下流にある全てのノード2をノードYとして検出する。
204では、監視サーバ1のCPU11は、ノードX及びノードYと通信できなくなったノード2(代表ノード#1)を省いたツリーの情報(経路情報)を用いて、ノードX及びノードYの親ノードを新たに決定する。親ノードの決定方法には、図7及び図8を用いて説明した方法を用いる。
205では、監視サーバ1のCPU11は、ノードX,ノードY及び親ノードになったノードに監視制御用データを送信する。これによって、ノード間の通信断が発生しても、監視サーバ1への監視情報の転送経路を示すツリー情報に基づき、ツリーを修復して、監
視を継続することができる。
<実施形態の作用効果>
実施形態では、複数のノード2を含むネットワークの監視サーバ1(監視装置の一例)に含まれるCPU11(コンピュータの一例)が以下の処理を行う。
ネットワークに通信可能に接続されネットワークの監視を行う監視サーバ1との間の最小ホップ数の通信経路における監視サーバ1との間のホップ数に応じて前記複数のノードを分類する。
ホップ数が小さい側のノードがホップ数が大きい側のノードを監視するようにノード間で監視関係の設定を行う(親子関係を設定する)際に、ホップ数が同じノード間で監視負荷がバランスされるように監視可能な監視先ノード(子ノード)の割り振りを行う。
実施形態によれば、監視サーバ1が監視情報の転送経路となるツリーを生成し、親ノードとなる各ノード2にツリーに基づく監視制御用データを送信する。これによって、ノード2の監視負荷を親ノードに分散させることができる。よって、監視サーバ1の負荷が軽減乃至低減される。換言すれば、監視対象の増加に伴う監視サーバ1の負荷上昇を抑えることができる。したがって、監視サーバの数を増やしたり、高性能の監視サーバを採用したりしなくとも、監視サーバ1が監視対象の各ノードから監視情報を収集することができる。すなわち、設備コストの上昇を抑えて監視対象のノード数の増加に対応することができる。
また、各レイヤにおいて、親ノードにぶら下がる子ノードの合計コストが親ノード間でバランスする(偏りがないようにする)ことで、同レイヤの親ノード間で負荷の偏りが発生しないようにされ、円滑な監視情報の収集が行われるようにすることができる。
さらに、ツリーの経路で通信断が発生した場合には、通信断を示す情報がノード2から監視サーバ1に送信され、監視サーバ1がツリーを再構築する。これによって、通信断が起きても、再構築されたツリーを用いて監視(監視情報の収集)を継続することができる。実施形態にて説明した構成は例示であり、適宜組み合わせることができる。
1・・・監視サーバ
2・・・ノード
10・・・情報処理装置
11・・・CPU
12・・・主記憶装置
13・・・補助記憶装置

Claims (6)

  1. 複数のノードを含むネットワークに通信可能に接続され前記ネットワークの監視を行う監視装置に含まれるコンピュータに、
    前記監視装置との間の最小ホップ数の通信経路における前記監視装置との間のホップ数に応じて前記複数のノードを分類する処理と、
    ホップ数が小さい側のノードが、ホップ数が大きい側のノードを監視するようにノード間で監視関係の設定を行う際に、前記通信経路において親ノードとなり得るノードを複数有するノードのすべてに関して、ホップ数が同じノード間で監視負荷がバランスされるように監視可能な監視先ノードの割り振りを実施する処理と、
    を実行させるプログラム。
  2. 前記割り振りを実施する処理において、
    前記ホップ数が小さい側の複数のノードを親ノードの候補とし、
    前記ホップ数が大きい側の複数のノードを親ノードによって監視される子ノードとし、
    前記子ノードのうち前記通信経路において一つの親ノードの候補と接続されている第1の子ノードについては前記一つの親ノードの候補を親ノードに決定し、
    前記子ノードのうち前記通信経路において複数の親ノードの候補と接続されている第2の子ノードについては前記複数の親ノードの候補のそれぞれが監視する子ノードの監視コストの合計値が少ない前記複数の親ノードの候補の一つを親ノードに決定する
    処理を前記コンピュータに実行させる請求項1に記載のプログラム。
  3. 前記複数のノードのそれぞれの監視コストを収集する情報項目の数、収集方法、収集の複雑度、収集時間の少なくとも一つに基づいて決定する処理
    をさらに前記コンピュータに実行させる請求項に記載のプログラム。
  4. 前記割り振りの結果に基づいて、前記複数のノードのうち監視を行うノードに対し、監視対象のノードを示す情報と、監視結果を送信するノードを示す情報と、監視対象項目を示す情報を送信する処理と、
    前記通信経路における1ホップ目に位置するノードから前記通信経路において前記1ホップ目に位置するノード及び前記1ホップ目に位置するノードの下流にある各ノードの監
    視結果を受信する処理と
    を前記コンピュータに実行させる請求項1又は2に記載のプログラム。
  5. 複数のノードを含むネットワークの監視方法において、
    前記ネットワークに通信可能に接続され前記ネットワークの監視を行う監視装置との間の最小ホップ数の通信経路における前記監視装置との間のホップ数に応じて前記複数のノードを分類し、
    ホップ数が小さい側のノードが、ホップ数が大きい側のノードを監視するようにノード間で監視関係の設定を行う際に、前記通信経路において親ノードとなり得るノードを複数有するノードのすべてに関して、ホップ数が同じノード間で監視負荷がバランスされるように監視可能な監視先ノードの割り振りを実施する、
    ことを特徴とする監視方法。
  6. 複数のノードを含むネットワークに通信可能に接続され前記複数のノードの監視を行う監視装置において、
    前記監視装置との間の最小ホップ数の通信経路における前記監視装置との間のホップ数に応じて前記複数のノードを分類する分類部と、
    ホップ数が小さい側のノードが、ホップ数が大きい側のノードを監視するようにノード間で監視関係の設定を行う際に、前記通信経路において親ノードとなり得るノードを複数有するノードのすべてに関して、ホップ数が同じノード間で監視負荷がバランスされるように監視可能な監視先ノードの割り振りを行う割振部と、
    を含む監視装置。
JP2017046387A 2017-03-10 2017-03-10 監視方法,監視装置,及びプログラム Active JP6903960B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017046387A JP6903960B2 (ja) 2017-03-10 2017-03-10 監視方法,監視装置,及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017046387A JP6903960B2 (ja) 2017-03-10 2017-03-10 監視方法,監視装置,及びプログラム

Publications (2)

Publication Number Publication Date
JP2018152672A JP2018152672A (ja) 2018-09-27
JP6903960B2 true JP6903960B2 (ja) 2021-07-14

Family

ID=63680680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017046387A Active JP6903960B2 (ja) 2017-03-10 2017-03-10 監視方法,監視装置,及びプログラム

Country Status (1)

Country Link
JP (1) JP6903960B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4997950B2 (ja) * 2006-12-11 2012-08-15 富士通株式会社 ネットワーク管理システム、ネットワーク管理プログラムおよびネットワーク管理方法
WO2008129597A1 (ja) * 2007-04-04 2008-10-30 Fujitsu Limited 負荷分散システム、ノード装置、負荷分散装置、負荷分散制御プログラム、負荷分散プログラム及び負荷分散方法
JP4874361B2 (ja) * 2009-03-16 2012-02-15 三菱電機株式会社 通信システム、ノード管理方法、ノードおよびノードによるデータ収集装置への登録方法
JP2011049794A (ja) * 2009-08-27 2011-03-10 Alaxala Networks Corp パケットフロー統計値取得システム及びパケットフロー統計値取得方法
JP5687394B2 (ja) * 2012-06-26 2015-03-18 東芝三菱電機産業システム株式会社 データ収集システム、及びデータ収集プログラム
JP6213167B2 (ja) * 2013-11-07 2017-10-18 富士通株式会社 分散配備装置、分散配備方法、および分散配備プログラム

Also Published As

Publication number Publication date
JP2018152672A (ja) 2018-09-27

Similar Documents

Publication Publication Date Title
US11175974B2 (en) Management of a fault condition in a computing system
US8732699B1 (en) Migrating virtual machines between physical machines in a define group
EP2672668B1 (en) Facilitating the operation of a virtual network by predicting a failure
JP5937221B2 (ja) 通信ネットワークのためのクラウドコンピューティングエンハンストゲートウェイ
US9246777B2 (en) Computer program and monitoring apparatus
US10956832B2 (en) Training a data center hardware instance network
US9602406B2 (en) Data transfer control device and data transfer control method
US20200073656A1 (en) Method and Apparatus for Drift Management in Clustered Environments
KR102145795B1 (ko) 복수의 워커 노드가 분산된 환경에서 데이터 스트림을 분석하고 처리하는 방법 및 장치, 그리고 태스크를 관리하는 방법 및 장치
CN110740072B (zh) 一种故障检测方法、装置和相关设备
JP2012079242A (ja) 複合イベント分散装置、複合イベント分散方法および複合イベント分散プログラム
US11411799B2 (en) Scalable statistics and analytics mechanisms in cloud networking
US20170078222A1 (en) Control device and method of controlling a plurality of network switches
Janßen et al. Scheduling stream processing tasks on geo-distributed heterogeneous resources
JP6253956B2 (ja) ネットワーク管理サーバおよび復旧方法
Ali et al. Probabilistic normed load monitoring in large scale distributed systems using mobile agents
JP6903960B2 (ja) 監視方法,監視装置,及びプログラム
US8036105B2 (en) Monitoring a problem condition in a communications system
JPWO2012160641A1 (ja) 管理装置、情報処理装置、情報処理システム及びデータ転送方法
US20150180779A1 (en) System and method for power reduction in network equipment
JP6515597B2 (ja) 管理プログラム、管理方法、管理装置
JP6364203B2 (ja) システムの稼働状態を監視する監視サーバ及び監視サーバの制御方法
US10740214B2 (en) Management computer, data processing system, and data processing program
WO2022176021A1 (ja) テレメトリ情報通知装置、テレメトリ情報通知方法及びテレメトリ情報通知プログラム
CN115002114B (zh) 节点处理方法、装置、电子设备、存储介质及服务器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210607

R150 Certificate of patent or registration of utility model

Ref document number: 6903960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150