JP2014199974A - ネットワークエレメント監視システム及びサーバ - Google Patents

ネットワークエレメント監視システム及びサーバ Download PDF

Info

Publication number
JP2014199974A
JP2014199974A JP2013073785A JP2013073785A JP2014199974A JP 2014199974 A JP2014199974 A JP 2014199974A JP 2013073785 A JP2013073785 A JP 2013073785A JP 2013073785 A JP2013073785 A JP 2013073785A JP 2014199974 A JP2014199974 A JP 2014199974A
Authority
JP
Japan
Prior art keywords
server
health check
burst
management unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013073785A
Other languages
English (en)
Inventor
晃典 松野
Akinori Matsuno
晃典 松野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013073785A priority Critical patent/JP2014199974A/ja
Priority to US14/152,013 priority patent/US20140297724A1/en
Publication of JP2014199974A publication Critical patent/JP2014199974A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/042Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】ネットワークエレメント(NE)を監視するサーバの処理負荷を軽減する。
【解決手段】ACT系のサーバ20は、一部のNE30が故障する等して、一定時間内に規定数以上の大量のTrapであるバースト警報情報が通知された場合、STBY系サーバ20に対し、ACT系サーバ20に切り替わってバースト警報情報を通知しているNE30以外のNE30を監視対象とするよう要求し、自身はSTBY系に切り替え、バースト警報情報を通知しているNE30を監視(ヘルスチェック)対象とする。
【選択図】図2

Description

本発明の一態様は、ネットワークエレメント監視システム及びサーバに関する。
図26に例示するように、伝送装置運用システムの一態様は、1又は複数のクライアント装置を含むクライアントシステムと、システムの信頼性/堅牢性向上のために冗長構成化したサーバシステムとを含むクライアント−サーバ型のシステムである。
サーバシステムは、ネットワーク(以下「監視ネットワーク」という。)により1又は複数の伝送装置(ネットワークエレメント:NE)と通信可能に接続されており、NEの運用状態等を監視する。また、サーバシステムは、クライアントシステムとも通信可能に接続されており、NEの監視結果をクライアントシステムに提供できる。
監視性能の向上を目的に、アクティブ/スタンバイ(ACT/STBY)の両系サーバから伝送装置を監視(以下、デュアル監視)するため、サーバシステムには、ホットスタンバイ型冗長構成を採用することがある。
デュアル監視を実現するため、ACT/STBY両系のサーバは、独立して監視対象のNEに対し稼働状況(疎通状態)のチェック(ヘルスチェック)を実施する。また、NEの故障発生時や状態変化時に当該NEから送信されるトラップ(Trap)をそれぞれのサーバで受信し、管理することができる。
通信網及びNEの構成(コンフィギュレーション)情報(例えば、エリア情報、ノード情報、ファシリティ情報、パス情報等)の管理については、マルチマスター型レプリケーションを用い、両系サーバで同期した情報を管理することができる。
なお、伝送装置の監視技術として、下記の特許文献1に記載された技術が知られている。
特開2008−219279号公報
昨今の通信量の増大、通信サービスの多種多様化に伴い、1システムで管理するNEの数は増大する傾向にある。そのため、通常運転時においても、ヘルスチェック実施やNEから通知されるTrapによってサーバの負荷が増大したり、サーバとNEとの間の監視ネットワークの通信負荷が増大したりする。
こうした状況で、図27に例示するように、監視対象であるNEにおいて故障等に伴う大量のトラップが発生した場合、監視ネットワークの通信負荷が更に増大する。これに伴い、通常運転中のNEが送信したTrapの欠落や遅達等が発生し、NEの監視に影響する。例えば、クライアントシステムにおいて、Trapが確認できなかったり、実際にTrapが発生した時点から遅れてTrapが表示されたりする。
また、大量のTrapを処理するためにサーバの処理負荷も増大し、NE運用システム全体にも影響を及ぼしてしまう。
本発明の目的の1つは、NEを監視するサーバの処理負荷を軽減することにある。
ネットワークエレメント監視システムの一態様は、複数のネットワークエレメント(NE)に対しヘルスチェックを実施することにより前記NEの稼動状況を監視する第1のサーバ及び第2のサーバを備え、前記第1のサーバは、監視対象のNEからのイベント情報の受信状況に応じて、前記ヘルスチェックの実施元を前記第2のサーバに変更する。
NEを監視するサーバの処理負荷を軽減することができる。
一実施形態に係る伝送装置(NE)運用システム(NE監視システム)の一例を模式的に示す図である。 図1に例示するシステムの模式的な動作例を説明する図である。 図1及び図2に例示するクライアント装置のハードウェア構成例を示すブロック図である。 図1及び図2に例示するクライアント装置の機能ブロック図である。 図1及び図2に例示するNEのハードウェア構成例を示すブロック図である。 図1及び図2に例示するNEの機能ブロック図である。 図1及び図2に例示するサーバシステムのハードウェア構成例を示すブロック図である。 図1及び図2に例示するサーバの機能ブロック図である。 図8に例示する構成情報データベースの一例を示す図である。 図8に例示する通知情報データベースの一例を示す図である。 図8に例示するヘルスチェック管理部の動作例を示すフローチャートである。 図8に例示する通知情報管理部の動作例を示すフローチャートである。 図8に例示する通知情報管理部の動作例を示すフローチャートである。 図8に例示する通知情報管理部の動作例を示すフローチャートである。 図8に例示するヘルスチェック管理部の動作例を示すフローチャートである。 図8に例示する通知情報管理部の動作例を示すフローチャートである。 図8に例示する管理部の動作例を示すフローチャートである。 図8に例示する通知情報管理部の動作例を示すフローチャートである。 図8に例示する通知情報管理部の動作例を示すフローチャートである。 図8に例示するヘルスチェック管理部の動作例を示すフローチャートである。 図1に例示するシステムの模式的な動作例を説明する図である。 他の実施形態に係る伝送装置(NE)運用システム(NE監視システム)の一例を模式的に示す図である。 他の実施形態に係る管理部の動作例を示すフローチャートである。 他の実施形態に係る通知情報管理部の動作例を示すフローチャートである。 他の実施形態に係る通知情報管理部の動作例を示すフローチャートである。 伝送装置(NE)運用システム(NE監視システム)の一例を模式的に示す図である。 図26に例示するシステムの課題を説明するための模式図である。
以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。なお、以下の実施形態で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。
図1は、一実施形態に係る伝送装置(NE)運用システム(NE監視システム)の一例を模式的に示す図である。図1に示す伝送装置運用システムは、例示的に、1又は複数のクライアント装置10を含むクライアントシステムと、ACT/STBY系の複数のサーバ20を含む冗長構成化されたサーバシステムと、監視対象の複数のNE30と、を備える。
サーバシステムは、1又は複数の監視ネットワークによりいずれかのNE30と通信可能に接続されており、NE30の運用状態の監視を行なう。図1の例では、NE30が1つの監視ネットワークに接続されており、別のNEが別の監視ネットワークに接続されている。サーバシステムは、NE30の故障時や状態変化の発生時等にNEから送信されるTrap(以下「警報」と表記することもある。)を受信、管理する。
サーバシステムを成すACT/STBY系の両サーバ(第1及び第2のサーバ)20は、互いに通信可能に接続されており、互いが保持する情報(Trap情報等)を互いに通知し合うことにより同期させることが可能である。したがって、クライアントシステムは、ACT/STBY系のいずれのサーバ20にアクセスしても同じ情報を得ることができ、クライアントシステムにおいて監視状態に差分が生じない。
クライアントシステムは、サーバシステムと通信可能に接続されており、サーバシステムによる監視結果をイベント情報等としてオペレータ等に提示する。当該提示は、クライアント装置のディスプレイ(表示装置)にイベント情報を表示することで実施してもよいし、プリンタ(印刷装置)にイベント情報を印刷することで実施してもよい。
サーバシステムは、図2に模式的に例示するように、一部のNE30が故障する等してACT系のサーバ20に一定時間内に規定数(閾値)以上の大量のTrap(以下「バースト警報」という。)情報が通知された場合、当該サーバをSTBY系に切り替える。その際、サーバシステムは、STBY系のサーバ20をACT系のサーバ20に切り替える。
当該切り替えは、サーバ20どうしの相互通信により実施される。切り替え後のSTBY系のサーバ20は、バースト警報を通知しているNE(以下「バーストNE」という。)30を監視(ヘルスチェック)対象とし、その他の通常運用中のNE(以下「通常NE」という。)30は切り替え後のACT系のサーバによる監視(ヘルスチェック)対象とする。バーストNE30は第1のNEの一例であり、通常NE30は第2のNEの一例である。
具体的に、ACT系サーバ20は、バースト警報を受信すると、STBY系サーバ20に対し、ACT系サーバ20に切り替わってバーストNE30以外のNE30を監視対象とするよう要求し、自身はSTBY系サーバ20に切り替わってバーストNE30を監視対象とする。
当該サーバ切り替えに伴って、通常NEのTrap情報の通知先は、切り替え後のACT系サーバ20とする。切り替え後のACT系サーバ20は、通常NE30から通知されるTrap情報をSTBY系サーバ20に通知してよい。これにより、両サーバ20が管理する情報を同期させることができる。
以下、クライアント装置10、NE30、及び、サーバシステムの構成例について、図3〜図8を参照して説明する。
(クライアント装置)
図3は、クライアント装置10のハードウェア構成例を示すブロック図である。図3に示すクライアント装置10は、例示的に、パーソナルコンピュータ(PC)101と、その周辺機器の一例としてのディスプレイ102、キーボード103及びマウス104等を備える。ディスプレイ102は、オペレータに情報を提示する出力装置の一例であり、キーボード103及びマウス104は、PC101に情報を入力する入力装置の一例である。
PC101は、例示的に、CPU、メモリ、ハードディスクドライブ(HDD)、ネットワークインタフェースカード(NIC)、及び、冷却用のファン(FAN)等を備える。CPUが、メモリやHDDから必要に応じてプログラムやデータを読み取って動作することで、クライアント装置10としての機能が具現される。
図4に、クライアントシステムを成すクライアント装置10の機能ブロック図を例示する。図4に示すクライアント装置10は、例示的に、グラフィカルユーザインタフェース(GUI)表示/データ入出力部111と、サーバシステム向け通信部112と、を備える。
GUI表示/データ入出力部111は、サーバシステム向け通信部112から受信した情報をディスプレイ102に表示する。また、GUI表示/データ入出力部111は、オペレータ等のユーザから受け付けた情報をサーバシステム向け通信部112に送信する。当該情報には、例示的に、サーバシステムを制御する要求等が含まれてよい。
サーバシステム向け通信部112は、サーバシステムから受信した情報をGUI/データ入出力部111に送信する。また、サーバシステム向け通信部112は、入力装置を通じてGUI表示/データ入出力部111から受信した情報をサーバシステムに送信する。
(NE)
次に、図5に、NE30のハードウェア構成例を示す。図5に示すNE30は、例示的に、メモリを有する1又は複数のラインインタフェースユニット(LIU)301と、LIU301を通じた通信やNE30の動作を制御する制御部(COM)302と、冷却用のファン(FAN)303と、を備える。
LIU301は、その用途に応じて光ファイバケーブルやイーサネット(登録商標)ケーブル等の通信ケーブルが接続される。
制御部302は、例示的に、CPU、メモリ、HDD、及び、NICを備える。CPUが、メモリやHDDから必要に応じてプログラムやデータを読み取って動作することで、NE30としての機能が具現される。
図6に、NE30の機能ブロック図を例示する。図6に示すNE30は、例示的に、サーバシステム向け通信部311、ハードウェア設定/制御部312、Trap情報生成処理部313、及び、ハードウェアシグナル受信部314を備える。
ハードウェア設定/制御部312は、サーバシステムから受信した制御情報をハードウェア設定/制御部312に送信する。また、ハードウェア設定/制御部312は、Trap情報生成処理部313から受信した情報をサーバシステムに送信する。
ハードウェア設定/制御部312は、LIU301等に対してハードウェア設定やハードウェア制御を行なう。
Trap情報生成処理部313は、ハードウェアシグナル受信部314から受信した状態変化(イベント)通知を基にサーバシステムに通知するためのTrap情報を生成し、生成したTrap情報をサーバシステム向け通信部311に送信する。Trap情報は、Eの故障発生時や状態変化時に当該NE30から送信されるイベント情報の一例である。
(サーバシステム)
次に、図7に、サーバシステムのハードウェア構成例を示す。図7に示すサーバシステムは、例示的に、ACT系(0系)サーバ20−1及びSTBY系(1系)サーバ20−2の2つのサーバを備える。各サーバ20−1及び20−2は、それぞれ、出力装置の一例としてのディスプレイ(表示装置)201、入力装置の一例としてのキーボード202及びマウス203を備える。
また、各サーバ20−1及び20−2(以下、両者を区別しない場合には「サーバ20」と表記する。)は、それぞれ、CPU、メモリ、HDD、クライアント向けNIC、他系サーバ向けNIC、NE向けNIC、及び、冷却用のファンを備える。CPUが、メモリやHDDから必要に応じてプログラムやデータを読み取って動作することで、サーバ20としての機能が具現される。
クライアント向けNICは、クライアントシステムとの通信インタフェースである。
他系サーバ向けNICは、他系のサーバとの通信インタフェースである。
NE向けNICは、NE30との通信インタフェースである。
図8に、サーバ20の機能ブロック図を例示する。図8に示すサーバ20は、例示的に、管理部211、クライアントシステム向け通信部212、NE向け通信部213、他系サーバ通信部214、通知情報管理部215、NE制御部216、ヘルスチェック管理部217、サーバ運用系管理部218、構成情報データベース219、及び、通知情報データベース220を備える。
管理部211は、クライアントシステム向け通信部212から受信した要求の処理及び起動/停止を含め、サーバ20全体を制御する。また、管理部211は、クライアントシステムに通知する情報をクライアントシステム向け通信部212に送信する。
クライアントシステム向け通信部212は、クライアントシステムから受信した情報を管理部211に送信する。また、クライアントシステム向け通信部212は、管理部211から受信した情報をクライアントシステムに送信する。
NE向け通信部213は、NE制御部216及びヘルスチェック管理部217から受信した制御要求に応じたコマンド送信及び情報取得をNE30に対して実施する。また、NE向け通信部213は、NE30から受信したTrap通知(Trap情報)を通知情報管理部215に送信する。
他系サーバ通信部214は、他系サーバ20から受信した情報を処理する。また、他系サーバ通信部214は、他系サーバ20に情報を送信する。
通知情報管理部215は、NE向け通信部213から受信したTrap通知を通知情報データベース220に格納するとともに、条件によっては他系サーバ通信部214にTrap通知を送信する。
NE制御部216は、NE30を制御する要求を受信し、要求に応じたコマンドを生成し、生成したコマンドをNE向け通信部213に送信する。
ヘルスチェック管理部217は、管理部211から受信したヘルスチェック要求に応じて、NE向け通信部213に対し、ヘルスチェック要求を送信する。また、ヘルスチェック管理部217は、NE向け通信部213から受信したヘルスチェックの実施結果を、通知情報データベース220に格納する。
サーバ運用系管理部218は、サーバ20の運用/非運用の状態を管理する。
構成情報データベース219は、管理するNE30の情報やNE30で構成されるネットワークの情報を保持する。構成情報データベース219の一例を図9に示す。図9に示す構成情報データベースは、例示的に、システムテーブル2191及びNE管理テーブル2192を0系/1系の別に保持する。
システムテーブル2191には、例示的に、系情報、運用系情報、バースト警報受信情報等が設定可能である。系情報は、0系か1系かを示す情報であり、運用系情報は、ACT/STBYを示す情報であり、バースト警報受信情報は、バースト警報の受信状態を示す情報である。
NE管理テーブル2192には、例示的に、NE番号、NE名、IPアドレス、監視状態等の情報が設定可能である。
通知情報データベース220は、NE30から受信したTrap情報を格納する。通知情報データベース220の一例を図10に示す。図10に示す通知情報データベース220は、例示的に、アラーム管理テーブル2201を保持する。アラーム管理テーブル2201には、アラーム名、アラームの発生日時、アラームの発生したNE番号、発生したアラームの重要度等の情報が設定可能である。
構成情報データベース219及び通知情報データベース220は、例えば図7に例示したHDDに記憶される。
(動作説明)
以下、上述したNE運用システムの動作について、図11〜図20を参照して説明する。
図11は、ヘルスチェック管理部217の動作例を示すフローチャートである。
監視対象のNE30を新規に追加した場合やサーバ20を起動した場合、管理部211が、NE30の疎通状態確認のため、ヘルスチェック管理部217に対し、ヘルスチェック開始要求を送信する。
ヘルスチェック管理部217は、対象NE30をスケジュール登録後、ヘルスチェック実施シーケンスに移行する。ヘルスチェック実施シーケンスでは、構成情報データベース219(NE管理テーブル2192)における対象NEの「監視状態」カラムを参照する(処理P11及びP12)。
対象NEの「監視状態」カラムが「初期状態」もしくは「自系監視」を示す場合、ヘルスチェック管理部217は、NE向け通信部213に対し、ヘルスチェック実施要求を送信する(処理P13)。対象NE30の「監視状態」カラムが「他系監視」を示す場合、ヘルスチェック管理部217は、次のNE30の処理に移行する。
NE向け通信部213は、ヘルスチェック管理部217からヘルスチェック実施要求を受信すると、対象NE30に対してヘルスチェックを実施し、実施結果をヘルスチェック管理部217に送信する(処理P14)。
ヘルスチェック管理部217は、ヘルスチェックの実施結果が「異常」を示す場合、他系サーバ通信部214に対し、ヘルスチェック結果を通知する(処理P15)。他系サーバ通信部214は、他系サーバ20に対しヘルスチェック結果を送信する。
ヘルスチェックの実施結果が「正常」または「異常からの復旧」を示す場合、ヘルスチェック管理部217は、構成情報データベース219(NE管理テーブル2192)における対象NE30の「監視状態」カラムをチェックする(処理P16)。
「監視状態」カラムのチェック結果が「初期状態」を示す場合、ヘルスチェック管理部217は、当該「監視状態」カラムを「自系監視」に更新する(処理P17)。また、ヘルスチェック管理部217は、他系サーバ通信部214に対し、ヘルスチェック結果を通知する(処理P18)。
他系サーバ通信部214は、他系サーバ20に対しヘルスチェック結果を送信する。また、ヘルスチェック管理部217は、Trap通知先に自系サーバ20を設定する(処理P19)。
監視状態カラムのチェック結果が「初期状態」でない場合、ヘルスチェック管理部217は、次のNE30の処理に移行する。
ヘルスチェック管理部217は、他系サーバ20から「正常」を示すヘルスチェック結果を受信した際には、構成情報データベース219のシステムテーブル2191を参照し(処理P21)、「運用状態(運用系情報)」カラムが「ACT」及び「STBY」のいずれとなっているかをチェックする(処理P22)。
「運用状態(運用系情報)」カラムが「STBY」の場合、ヘルスチェック管理部217は、構成情報データベース219のNE管理テーブル2192を参照し、「監視状態」カラムが「自系監視」を示しているか否かをチェックする(処理P23)。
「監視状態」カラムが「自系監視」の場合、ヘルスチェック管理部217は、Trap通知先の情報から自系サーバの情報を削除し(処理P24)、対象NEの「監視状態」カラムを「他系監視」に更新する(処理P25)。
なお、処理P22において、「運用状態(運用系情報)」カラムが「ACT」の場合、ヘルスチェック管理部217は、処理を終了する。また、処理P23において「監視状態」カラムが「他系監視」の場合、ヘルスチェック管理部217は、対象NE30の「監視状態」カラムを「他系監視」に維持する。
ヘルスチェック管理部217は、他系サーバ20から「異常」を示すヘルスチェック結果を受信した際には、構成情報データベース219のシステムテーブル2191を参照し、「運用状態(運用系情報)」カラムが「ACT」及び「STBY」のいずれとなっているかをチェックする(処理P31)。
「運用状態(運用系情報)」カラムが「STBY」の場合、ヘルスチェック管理部217は、構成情報データベース219(NE管理テーブル2192)における対象NE30の「監視状態」カラムを「他系監視」に更新する(処理P32)。一方、「運用状態(運用系情報)」カラムが「ACT」の場合、ヘルスチェック管理部217は、処理を終了する。
対象NE30の「監視状態」カラムを「他系監視」に更新した場合、ヘルスチェック管理部217は、NE向け通信部213に対し、ヘルスチェック実施要求を送信する(処理P33)。
NE向け通信部213は、ヘルスチェック管理部217からヘルスチェック実施要求を受信すると、対象NE30に対してヘルスチェックを実施し、実施結果をヘルスチェック管理部217に送信する。
ヘルスチェック管理部217は、ヘルスチェックの実施結果をチェックし(処理P34)、実施結果が「異常」を示す場合、処理を終了する。一方、ヘルスチェックの実施結果が「正常」を示す場合、ヘルスチェック管理部217は、Trap通知先の情報に自系サーバの情報を設定して(処理P35)処理を終了する。
以上のようにして、サーバ間で連動したヘルスチェックを実施することが可能となる。
なお、ヘルスチェック管理部217は、構成情報データベース219(NE管理テーブル2192)における対象NE30の「監視状態」カラムを「自系監視」(もしくは「両系監視」)に更新した際には、NE制御部216に対し、対象NE30のTrap通知先設定要求を送信する。
また、ヘルスチェック管理部217は、対象NE30の「監視状態」カラムを「他系監視」に更新した場合は、NE制御部216に対し、対象NE30のTrap通知先解除要求を送信する。
NE向け通信部213は、Trap通知先変更コマンド(Trap通知先設定/解除要求)を受信すると、対象NE30に対しコマンドを送信する。
これにより、各系のサーバ20のうち、ヘルスチェックを実施している系のサーバ20でのみ、NEからのTrap通知を受信することが可能となる。
図12は、通知情報管理部215の動作例を示すフローチャートである。
NE30からTrap通知を受信したNE向け通信部213は、通知情報管理部2125にTrap情報を送信する。通知情報管理部215は、通知情報データベースにTrap情報を格納し(処理P41)、他系サーバ通信部214に対し、Trap情報を送信する(処理P42)。
また、通知情報管理部215は、他系サーバ通信部214からTrap情報を受信した場合、構成情報データベース219(NE管理テーブル2192)における対象NE30の「監視状態」カラムを参照する(処理P51及びP52)。
「監視状態」カラムが「自系監視」の場合、通知情報管理部215は、処理を終了する。一方、「監視状態」カラムが「他系監視」を示している場合、通知情報管理部215は、通知情報データベース220にTrap情報を格納する(処理P53)。
通知情報データベース220に格納されたTrap情報は、管理部211が取得し、クライアントシステム向け通信部212に対し情報通知を行なうことで、クライアントシステムにTrap情報を通知する。
以上のようにして、一方の系で受信したTrap情報を他方の系に通知することで、両系が同一Trap情報を受信することが可能となる。
図13及び図14は、通知情報管理部215の動作例を示すフローチャートである。
図13に例示するように、通知情報管理部215は、NE向け通信部213からTrap情報を受信すると、内部メモリにTrap情報を格納する。なお、規定時間を超えたTrap情報は削除してよい(処理P61)。通知情報管理部215は、同一NE30から規定時間内に受信したTrap数をチェックし(処理P62)、受信Trap数が規定数を超えたか否かをチェックする(処理P63)。なお、規定時間及び規定数は、コンフィギュレーションファイルにて設定可能である。
規定時間内に受信したTrap情報数が規定数以下の場合、通知情報管理部215は、処理を終了する。規定時間内に規定数を超えるTrap情報を受信した場合、通知情報管理部215は、対象NE30から大量警報(バースト警報)が発生したと判断する。バースト警報が発生したと判断すると、通知情報管理部215は、構成情報データベース219のNE管理テーブル2192における対象NEの「バースト状態」カラムを「発生」に更新するとともに、システムテーブル2191の「バースト警報受信」カラムを「自系」に更新する(処理P64)。そして、通知情報管理部215は、他系サーバ通信部214に対し、対象NE30のバースト状態を通知する(処理P65)。
一方、図14に例示するように、他系サーバ20の他系サーバ通信部214にバースト状態が通知されると、通知情報管理部215は、構成情報データベース219(NE管理テーブル2192)における対象NEの「バースト状態」カラムを「発生」に更新する。また、通知情報管理部215は、システムテーブル2191の「バースト警報受信」カラムを「他系」に更新する(処理P71)。
また、通知情報管理部215は、バースト警報発生Trapを生成し(処理P72)、生成したバースト警報発生Trapを通知情報データベース220に格納する(処理P73)。これにより、バースト警報が発生していることをクライアントシステムに通知することが可能となる。
なお、図15に例示するように、ヘルスチェック管理部217によるヘルスチェック実施シーケンスでは、構成情報データベース219を参照し(処理P81)、「バースト受信警報」カラム、「バースト状態」カラム、及び、「監視状態」カラムのチェックを実施する(処理P82〜P84)。
構成情報データベース219の「バースト受信警報」カラムが「他系」の場合で、対象NE30の「バースト状態」カラムが「発生」以外であり、かつ、「監視状態」カラムが「他系監視」の場合に、ヘルスチェック管理部217は、NE向け通信部213に対し、ヘルスチェック実施要求を送信する(処理P85)。
NE向け通信部213は、対象NE30に対してヘルスチェックを実施し、実施結果をヘルスチェック管理部217に送信する。ヘルスチェック管理部217は、ヘルスチェック結果が「正常」であるか「異常」であるかをチェックする(処理P86)。
「正常」であれば、ヘルスチェック管理部217は、構成情報データベース219における対象NE30の「監視状態」カラムを「バースト対応自系」に更新する(処理P87)とともに、他系サーバ通信部214に対し、ヘルスチェック結果を送信する(処理P88)。また、ヘルスチェック管理部217は、Trap通知先の情報に自系サーバの情報を設定する(処理P89)。
なお、「バースト受信警報」カラムが「他系」以外の場合、対象NEの「バースト状態」カラムが「発生」の場合、あるいは、「監視状態」カラムが「自系監視」の場合、ヘルスチェック管理部217は、次のNE30の処理に移行する。
自系サーバ20のヘルスチェック管理部217は、他系サーバ20からのヘルスチェック結果を受信した際には、Trap通知先の情報から自系サーバの情報を削除し(処理P91)、構成情報データベース219の対象NE30の「監視状態」カラムを「他系監視」に更新する(処理P92)。
ヘルスチェック管理部217は、構成情報データベース219における対象NE30の「監視状態」カラムが「初期状態」、「自系監視」、及び、「バースト対応自系」の場合にヘルスチェックを実施する。
以上により、同一NE30からバースト警報を受信した場合、該当NE30以外のヘルスチェックを実施するサーバ20をSTBY系に切り替えることが可能となる。
なお、ヘルスチェック管理部217は、構成情報データベース219における対象NE30の「監視状態カラム」を「バースト対応自系」もしくは「バースト対応他系」に更新した際には、NE制御部216に対し、対象NE30のTrap通知先設定要求を送信する。
また、対象NE30の「監視状態」カラムを「他系監視」に更新した場合、ヘルスチェック管理部217は、NE制御部216に対し、対象NE30のTrap通知先解除要求を送信する。
NE向け通信部213は、Trap通知先変更コマンド(Trap通知先設定/解除要求)をNE制御部216から受信すると、対象NE30に対しコマンドを送信する。
以上により、ヘルスチェックを実施するサーバ20を切り替えた際の、対象NE30のTrap通知先を変更することが可能となる。
図16は、通知情報管理部215の動作例を示すフローチャートである。
通知情報管理部215は、通知情報データベース220及び構成情報データベース219を参照し(処理P93及びP94)、「バースト警報受信」カラム及び「バースト状態」カラムをチェックする(処理P95及びP96)。
通知情報管理部215は、「バースト警報受信」カラムが「自系」以外の場合で、「バースト状態」カラムが「発生」以外のNEからTrap情報を受信した場合、他系サーバ通信部214に対し、Trap情報を送信する(処理P97)。
一方、「バースト警報受信」カラムが「自系」の場合で、「バースト状態」カラムが「発生」のNEからTrap情報を受信した場合、通知情報管理部215は、他系サーバ通信部214に対し、Trap情報を送信せずに処理を終了する。
以上により、バースト警報が発生しているNE30から受信したTrap情報については、他方の系のサーバ20に通知しないことが可能となる。
次に、図17は、管理部211の動作例を示すフローチャートである。
管理部211は、通知情報データベース220を参照し(処理P101)、警報種別のチェックを行なう(処理P102)。当該チェックの結果、管理部211は、「バースト警報発生」を示す情報を取得すると、他系サーバ通信部214に対し、運用系切替要求を送信する(処理P103)。
他系サーバ通信部214では、サーバ運用系管理部218に対して、運用系の変更要求を送信するとともに、他系サーバ20に対して、非運用系への変更要求を送信する。
以上により、バースト警報が発生しているNE30以外を監視している系をACT系に切り替えることが可能となる。
図18は、通知情報管理部215の動作例を示すフローチャートである。
通知情報管理部215は、NE向け通信部213からTrap情報を受信すると、内部メモリにTrap情報を格納する。なお、規定時間を超えたTrap情報は削除してよい(処理P111)。通知情報管理部215は、同一NE30から規定時間内に受信したTrap数をチェックし(処理P112)、受信Trap数が規定数以下になっているか否かをチェックする(処理P113)。なお、規定時間及び規定数は、コンフィギュレーションファイルにて設定可能である。
規定時間内に受信したTrap情報数が規定数を超える場合、通知情報管理部215は、処理を終了する。規定時間内に受信したTrap情報数が規定数以下の場合、通知情報管理部215は、対象NE30で発生していた大量警報(バースト警報)が回復したと判断する。バースト警報が回復したと判断すると、通知情報管理部215は、構成情報データベース219のNE管理テーブル2192における対象NE30の「バースト状態」カラムを「発生無し」に更新するとともに、システムテーブル2191の「バースト警報受信」カラムを「正常」に更新する(処理P114)。そして、通知情報管理部215は、他系サーバ通信部214に対し、対象NE30のバースト状態(回復)を通知する(処理P115)。
一方、図19に例示するように、他系サーバ20の他系サーバ通信部214にバースト状態の回復が通知されると、通知情報管理部215は、構成情報データベース(NE管理テーブル2192)における対象NE30の「バースト状態」カラムを「発生無し」に更新する。また、通知情報管理部215は、システムテーブル2191の「バースト警報受信」カラムを「正常」に更新する(処理P121)。
また、通知情報管理部215は、バースト警報回復Trapを生成し(処理P122)、生成したバースト警報回復Trapを通知情報データベース220に格納する(処理P123)。これにより、バースト警報が回復したことをクライアント装置10に通知することが可能となる。
次に、図20は、ヘルスチェック管理部217の動作例を示すフローチャートである。
ヘルスチェック管理部217によるヘルスチェック実施シーケンスでは、構成情報データベース219を参照し(処理P131)、「バースト受信警報」カラムが「正常」であるか否か、及び、対象NE30の「監視状態」カラムが「バースト対応自系」であるか否かをチェックする(処理P132及びP133)。
「バースト受信警報」が「正常」の場合で、かつ、対象NE30の「監視状態カラム」が「バースト対応自系」の場合は、「監視状態」カラムを「自系監視」に更新する(処理P134)。上記以外の場合、ヘルスチェック管理部217は、次のNE30の処理に移行する。
なお、構成情報データベース219の「バースト状態」カラムを「発生無し」に更新したNE30については、「監視状態」カラムを「自系監視」に更新し、対象NE30のTrap通知先設定要求をNE制御部216に送信する。NE向け通信部213は、NE制御部216からTrap通知先変更コマンドを受信すると、NE30に対しコマンドを送信する。
以上により、バースト警報回復時に通常の監視に自動的に戻ることが可能となる。
なお、図21に例示するように、STBY系サーバ20がバースト警報を受信した場合、バースト警報が発生しているNE30から受信したTrap情報は他系のサーバ20には通知せず、バースト警報が発生していることを通知する。その際、サーバ20のACT/STBYの運用系も変更しない。
また、図22に例示するように、STBY系サーバ20が複数存在する構成において、1つのSTBY系サーバ20がバースト警報を受信し、更にACT系サーバ20がバースト警報を受信する場合がある。この場合、残りのSTBY系サーバ20が、ACT系サーバ20に切り替わり、通常運用中のNE30を監視する。
ここで、バースト警報を受信した際の通知情報管理部215及びヘルスチェック管理部217の処理としては、ACT系サーバ20及びSTBY系サーバ20で同様となる。図23に、管理部211の動作例を示す。
図23に例示するように、管理部211は、通知情報データベース219を参照し(処理P141)、警報種別のチェックを行なう(処理P142)。当該チェックの結果、管理部211は、「バースト警報発生」を示す情報を取得すると、構成情報データベース219の「運用系情報」カラムを参照、チェックする(処理P143及びP144)。
「運用系情報」カラムが「ACT」であれば、管理部211は、他系サーバ通信部214に対し、運用系切替要求を送信する(処理P145)。一方、警報種別が「バースト発生無し」の場合や「運用系情報」カラムが「STBY」であれば、管理部211は、他系サーバ通信部214に対し、運用系切替要求を送信しない。
また、図24に例示するように、通知情報管理部215は、NE向け通信部213からTrap情報を受信すると、内部メモリにTrap情報を格納する。なお、規定時間を超えたTrap情報は削除してよい(処理P151)。通知情報管理部215は、同一NE30から規定時間内に受信したTrap数をチェックし(処理P152)、受信Trap数が規定数を超えたか否かをチェックする(処理P153)。なお、規定時間及び規定数は、コンフィギュレーションファイルにて設定可能である。
規定時間内に受信したTrap情報数が規定数以下の場合、通知情報管理部215は、処理を終了する。規定時間内に規定数を超えるTrap情報を受信した場合、通知情報管理部215は、対象NE30から大量警報(バースト警報)が発生したと判断する。バースト警報が発生したと判断すると、通知情報管理部215は、構成情報データベース219のNE管理テーブル2192における対象NE30の「バースト状態」カラムを「発生」に更新する。
その際、「バースト警報受信」カラムが「他系」であった場合、バースト警報を両系で受信することになるので、通知情報管理部215は、構成情報データベース219のシステムテーブル2191における「バースト警報受信」カラムを「両系」に更新する(処理P154)。そして、通知情報管理部215は、他系サーバ通信部214に対し、対象NE30のバースト状態を通知する(処理P155)。これにより、第3のサーバ20に対し、対象NEのバースト状態を通知することができる。
一方、図25に例示するように、他系サーバ20の他系サーバ通信部214にバースト状態が通知されると、通知情報管理部215は、構成情報データベース219(NE管理テーブル2192)における対象NE30の「バースト状態」カラムを「発生」に更新する。また、通知情報管理部215は、システムテーブル2191の「バースト警報受信」カラムを「他系」に更新する(処理P161)。
また、通知情報管理部215は、バースト警報発生Trapを生成し(処理P162)、生成したバースト警報発生Trapを通知情報データベース220に格納する(処理P163)。これにより、バースト警報が発生していることをクライアント装置10に通知することが可能となる。
10 クライアント装置
101 パーソナルコンピュータ(PC)
102 ディスプレイ
103 キーボード
104 マウス
111 GUI表示/データ入出力部
112 サーバシステム向け通信部
20 サーバ
20−1 0系サーバ
20−2 1系サーバ
201 ディスプレイ
202 キーボード
203 マウス
211 管理部
212 クライアントシステム向け通信部
213 NE向け通信部
214 他系サーバ通信部
215 通知情報管理部
216 NE制御部
217 ヘルスチェック管理部
218 サーバ運用系管理部
219 構成情報データベース
2191 システムテーブル
2192 NE管理テーブル
220 通知情報データベース
2201 アラーム管理テーブル
30 ネットワークエレメント(NE)
301 ラインインタフェースユニット(LIU)
302 制御部
303 ファン(FAN)
311 サーバシステム向け通信部
312 ハードウェア設定/制御部
313 Trap情報生成処理部
314 ハードウェアシグナル受信部

Claims (12)

  1. 複数のネットワークエレメント(NE)に対しヘルスチェックを実施することにより前記NEの稼動状況を監視する第1及び第2のサーバを備え、
    前記第1のサーバは、監視対象のNEからのイベント情報の受信状況に応じて、前記ヘルスチェックの実施元を前記第2のサーバに変更する、ネットワークエレメント監視システム。
  2. 前記第1のサーバは、前記イベント情報の受信数が一定時間に閾値を超えるバースト受信状況であると、当該イベント情報の送信元である第1のNE以外の第2のNEに対する前記ヘルスチェックの実施要求を前記第2のサーバに送信する、請求項1に記載のネットワークエレメント監視システム。
  3. 前記第1のサーバは、前記第2のNEによるイベント情報の送信先を前記第2のサーバに変更する、請求項2に記載のネットワークエレメント監視システム。
  4. 前記第2のサーバは、前記第2のNEから受信したイベント情報を前記第1のサーバに通知する、請求項3に記載のネットワークエレメント監視システム。
  5. 前記第1のサーバは、前記第1のNEから受信したイベント情報を前記第2のサーバに通知しない、請求項3に記載のネットワークエレメント監視システム。
  6. 前記第1及び第2のサーバに通信可能に接続されたクライアント装置を備え、
    前記第1及び第2のサーバのいずれかが前記バースト受信状況を前記クライアント装置に通知する、請求項2〜5のいずれか1項に記載のネットワークエレメント監視システム。
  7. 前記第1のサーバは、前記イベント情報の受信数が一定時間に閾値以下であるバースト回復状況になると、前記ヘルスチェックの実施元を前記第1のサーバに戻す、請求項2〜6のいずれか1項に記載のネットワークエレメント監視システム。
  8. 前記第1及び第2のサーバに通信可能に接続されたクライアント装置を備え、
    前記第1及び第2のサーバのいずれかが前記バースト回復状況を前記クライアント装置に通知する、請求項7に記載のネットワークエレメント監視システム。
  9. 前記第2のサーバが、監視対象のNEからのイベント情報の受信数が一定時間に閾値を超えるバースト受信状況であると、当該バースト受信状況を前記第1のサーバに送信し、前記イベント情報は前記第1のサーバに通知しない、請求項1に記載のネットワークエレメント監視システム。
  10. 前記第1及び第2のサーバの双方が、監視対象のNEからのイベント情報の受信数が一定時間に閾値を超えるバースト受信状況であると、前記イベント情報の送信元である第1のNE以外の第2のNEに対する前記ヘルスチェックの実施要求を第3のサーバに送信する、請求項1に記載のネットワークエレメント監視システム。
  11. 複数のネットワークエレメント(NE)に対しヘルスチェックを実施することにより前記NEの稼動状況を監視するサーバであって、
    監視対象のNEからのイベント情報の受信状況に応じて、前記ヘルスチェックの実施元を他のサーバに変更する、サーバ。
  12. 複数のネットワークエレメント(NE)に対しヘルスチェックを実施することにより前記NEの稼動状況を監視するサーバであって、
    他のサーバによる監視対象のNEに対するヘルスチェックの実施要求を前記他のサーバから受信すると、当該NEに対するヘルスチェックを実施し、
    前記実施要求は、前記他のサーバによる監視対象のNEが送信したイベント情報の前記他のサーバにおける受信状況に応じて送信される、サーバ。
JP2013073785A 2013-03-29 2013-03-29 ネットワークエレメント監視システム及びサーバ Pending JP2014199974A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013073785A JP2014199974A (ja) 2013-03-29 2013-03-29 ネットワークエレメント監視システム及びサーバ
US14/152,013 US20140297724A1 (en) 2013-03-29 2014-01-10 Network element monitoring system and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013073785A JP2014199974A (ja) 2013-03-29 2013-03-29 ネットワークエレメント監視システム及びサーバ

Publications (1)

Publication Number Publication Date
JP2014199974A true JP2014199974A (ja) 2014-10-23

Family

ID=51621908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013073785A Pending JP2014199974A (ja) 2013-03-29 2013-03-29 ネットワークエレメント監視システム及びサーバ

Country Status (2)

Country Link
US (1) US20140297724A1 (ja)
JP (1) JP2014199974A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110445694A (zh) * 2019-09-23 2019-11-12 成都长虹网络科技有限责任公司 一种基于Zabbix监控触发通知的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533781A (zh) * 2016-11-30 2017-03-22 安徽金曦网络科技股份有限公司 服务器分布式监控系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174207A1 (en) * 2001-02-28 2002-11-21 Abdella Battou Self-healing hierarchical network management system, and methods and apparatus therefor
US8312120B2 (en) * 2006-08-22 2012-11-13 Citrix Systems, Inc. Systems and methods for providing dynamic spillover of virtual servers based on bandwidth
US9749404B2 (en) * 2008-04-17 2017-08-29 Radware, Ltd. Method and system for load balancing over a cluster of authentication, authorization and accounting (AAA) servers
US8560695B2 (en) * 2008-11-25 2013-10-15 Citrix Systems, Inc. Systems and methods for health based spillover
WO2012158854A1 (en) * 2011-05-16 2012-11-22 F5 Networks, Inc. A method for load balancing of requests' processing of diameter servers
US9766947B2 (en) * 2011-06-24 2017-09-19 At&T Intellectual Property I, L.P. Methods and apparatus to monitor server loads
US20130198353A1 (en) * 2012-02-01 2013-08-01 Suzann Hua Overload handling through diameter protocol

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110445694A (zh) * 2019-09-23 2019-11-12 成都长虹网络科技有限责任公司 一种基于Zabbix监控触发通知的方法

Also Published As

Publication number Publication date
US20140297724A1 (en) 2014-10-02

Similar Documents

Publication Publication Date Title
US8661287B2 (en) Automatically performing failover operations with a load balancer
WO2016183967A1 (zh) 一种关键组件的故障告警方法、装置及大数据管理系统
CN107071189B (zh) 一种通讯设备物理接口的连接方法
JP5446405B2 (ja) イベント検出制御方法及びシステム
JP2014199974A (ja) ネットワークエレメント監視システム及びサーバ
JP2007233586A (ja) 二重化制御装置及び二重化制御方法
JP2010231293A (ja) 監視装置
JPWO2019049433A1 (ja) クラスタシステム、クラスタシステムの制御方法、サーバ装置、制御方法、及びプログラム
US10063437B2 (en) Network monitoring system and method
JP4856949B2 (ja) フェイルオーバ方法、フェイルオーバプログラム、および、クラスタシステム
JP2015114952A (ja) ネットワークシステム、監視制御装置およびソフトウェア検証方法
JP5631285B2 (ja) 障害監視システムおよび障害監視方法
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム
JP5653322B2 (ja) 障害検出装置、ネットワーク構成推定装置および障害検出方法
JP2008003731A (ja) 情報処理システム
JP2015114991A (ja) データ処理装置、データ処理装置監視方法およびデータ処理システム
CN111064608A (zh) 消息系统的主从切换方法、装置、电子设备及存储介质
JP2008226153A (ja) コンピュータ冗長システム
CN111064609A (zh) 消息系统的主从切换方法、装置、电子设备及存储介质
JP5464886B2 (ja) 計算機システム
WO2014010021A1 (ja) 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム
JP5378847B2 (ja) 監視装置
JP6394620B2 (ja) サーバ管理システム、サーバ、サーバ管理方法およびサービスプロセッサ
JP2013003956A (ja) 故障復旧管理装置、故障復旧管理方法及び故障復旧管理プログラム
JP2020052864A (ja) ネットワークシステム、統合監視サーバ、監視制御サーバ、および監視方法