JP4491167B2 - 通信システムにおける管理装置のバックアップシステム - Google Patents

通信システムにおける管理装置のバックアップシステム Download PDF

Info

Publication number
JP4491167B2
JP4491167B2 JP2001132510A JP2001132510A JP4491167B2 JP 4491167 B2 JP4491167 B2 JP 4491167B2 JP 2001132510 A JP2001132510 A JP 2001132510A JP 2001132510 A JP2001132510 A JP 2001132510A JP 4491167 B2 JP4491167 B2 JP 4491167B2
Authority
JP
Japan
Prior art keywords
management
ops
communication
management device
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001132510A
Other languages
English (en)
Other versions
JP2002330132A (ja
Inventor
健一 桑子
光伸 吉田
秀樹 嶽
英一 ▲高▼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001132510A priority Critical patent/JP4491167B2/ja
Priority to US09/953,693 priority patent/US6792558B2/en
Publication of JP2002330132A publication Critical patent/JP2002330132A/ja
Application granted granted Critical
Publication of JP4491167B2 publication Critical patent/JP4491167B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/22Arrangements for detecting or preventing errors in the information received using redundant apparatus to increase reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、通信装置(network element:NE)を管理する複数の管理装置(Operation System:OpS)がネットワークを通じて相互に接続された通信システムにおける管理装置のバックアップシステムに関する。
【0002】
【従来の技術】
従来、少なくとも1つの通信装置(NE)と、NEを管理する複数の管理装置(OpS)とがネットワークを通じて相互に接続された通信システムがある。この通信システムでは、OpS自体の正常性を監視するために、以下の方法が採用されている。
(1)OpSを監視する上位OpS(ホストOpS)を通信システムに設置
(2)OpS間で相互に監視
上記した方法(1)又は(2)が採用されることによって、通信システム中の或るOpSが故障した場合には、ホストOpS又は他のOpSが故障したOpSに代わってNEを管理する。これによって、通信システムが安定的に運用される。
【0003】
【発明が解決しようとする課題】
しかしながら、従来技術では以下の問題があった。方法(1)が採用される場合には、ホストOpS及び他の装置を通信システムに設置しなければならないので、通信システムの運用コストが増大する。また、方法(2)が採用される場合には、OpSの負荷が上昇することによってOpSのパフォーマンスが低下する。
【0004】
本発明の目的は、通信装置と複数の管理装置とを含む通信システムにおいて、管理装置を監視する装置をさらに設ける必要がなく、且つ管理装置の負荷上昇を抑えることができる通信システムにおける管理装置のバックアップシステムを提供することである。
【0005】
【発明を解決するための手段】
本発明は、上述した目的を達成するため以下の構成を採用する。
【0006】
即ち、本発明による通信システムにおける管理装置のバックアップシステムは、少なくとも1つの通信装置を夫々管理する複数の管理装置がネットワークを通じて相互に接続され、
前記各通信装置は、自身を管理する管理装置を監視し、この管理装置の異常を検出したときに、この管理装置が自身を含む複数の通信装置を管理している場合には、これらの複数の通信装置を代表する代表通信装置を決定し、
前記代表通信装置は、前記異常が検出された管理装置に代わって前記複数の通信装置を管理する代替管理装置を複数の他の管理装置の中から選択し、選択した代替管理装置に前記複数の通信装置の管理要求を送信し、
前記複数の通信装置は、前記管理要求が送信された後、前記代替管理装置の管理下に参入し、
前記各管理装置は、前記管理要求を受信した場合に、前記代替管理装置として、前記複数の通信装置を管理する。
【0007】
本発明は、各管理装置が、
前記複数の管理装置に夫々対応する複数のデータベースを有し、
自身の管理対象の通信装置を管理することによって得た情報を用いて自身に対応するデータベースを更新するとともにこの更新によって発生した差分情報を全ての他の管理装置に転送し、
他の管理装置から差分情報を受信した場合にこの他の管理装置に対応するデータベースを受信した差分情報を用いて更新し、
前記異常が検出された管理装置の管理対象としての前記複数の通信装置を代替管理装置として管理する場合に、これらの管理によって得た情報を用いて前記異常が検出された管理装置に対応するデータベースを更新するとともにこの更新によって生じた差分情報を全ての他の管理装置,又は前記異常が検出された管理装置を除く他の管理装置に転送するように構成するのが好ましい。
【0008】
また、本発明は、複数の通信装置が、前記代替管理装置によって管理されている間、前記異常が検出された管理装置を監視し、前記複数の通信装置の何れかがこの管理装置の回復を検出した場合に、前記代替管理装置の管理下から離脱し、前記回復が検出された管理装置の管理下に戻るように構成するのが好ましい。
【0009】
また、本発明は、複数の通信装置が、前記代替管理装置によって管理されている間、前記異常が検出された管理装置を夫々監視し、前記複数の通信装置の何れかがこの管理装置の回復を検出した場合に、これらの複数の通信装置を代表する第2代表通信装置を決定し、
前記第2代表通信装置は、前記回復が検出された管理装置が有する複数のデータベースの復旧処理を担当する復旧担当管理装置を前記複数の他の管理装置の中から選択し、選択した復旧担当管理装置に前記複数のデータベースの復旧要求を送信し、
前記復旧担当管理装置は、前記復旧要求を受信した場合に、自身が有する複数のデータベースの蓄積内容を前記回復が検出された管理装置に転送し、
前記回復が検出された管理装置は、前記復旧担当管理装置から前記蓄積内容を受信した場合に、この蓄積内容を用いて前記複数のデータベースを夫々更新するように構成するのが好ましい。
【0010】
さらに、本発明は、各通信装置が、自身を管理する管理装置に監視フレームを送信し、この管理装置から監視フレームの応答フレームを受信することによってこの管理装置を監視し、前記監視フレームを送信してから所定期間が経過する前に前記応答フレームを受信せず且つ応答フレームを送信するための準備の完了を示す通知を前記管理装置から既に受信している場合にのみ、前記管理装置の異常を検出する構成とするのが好ましい。
【0011】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。実施形態における構成は例示であり、本発明は実施形態の構成の範囲に限定されない。
【0012】
図1は、本発明の実施形態における通信システム100の構成図である。通信システム100は、複数の通信装置(NE)と、複数の管理装置(OpS)とが通信回線L(ネットワーク)を通じて物理的に接続されることによってなり、且つ複数のブロック1,2,3,4に論理的に区切られている。
【0013】
各ブロック1,2,3,4は、OpSと、このOpSの管理下に属する少なくとも1つのNEとからなる論理的なグループである。例えば、ブロック1は、複数(例えば3)のNE1−1,1−2,1−3及びOpS10を備えている。OpS10は、複数のデータベース(DB)11,21,31,41を収容している。ブロック2,3,4はブロック1と同様の構成を夫々有し、各ブロック1,2,3,4に属するOpS及びNEは、同じ構成を有している。
【0014】
各NE1−1,1−2,1−3は、通信に関する様々な処理を実行する伝送装置又は交換機である。様々な処理は、例えば、回線設定(回線制御,交換制御),装置設定,並びにNE自身及び/又は回線の障害検出である。これらの処理は、例えば、NEに搭載されたプロセッサ(CPU,MPU等)がプログラムを実行することによって実現される。
【0015】
OpS10は、NE1−1,1−2,1−3を管理(制御及び監視)する通信機能を備えた管理装置である。OpS10は、プロセッサ(CPU)及びメモリを備えており、CPUがプログラムを実行することによってNEの管理(制御及び監視)に係る機能を実現する。DB11は、NE1−1,1−2,1−3を制御するための情報(制御情報)を保持(格納)している。
【0016】
図2は、OpS10が或るNEを制御するときの動作を示すシーケンス図である。図2において、OpS10は、或るNEを制御する場合には、DB11からこのNEを制御するための制御情報を読み出し、読み出した制御情報を含むフレーム(制御フレーム)を生成し、生成したフレームを当該NEへ送信する(ステップS1)。
【0017】
当該NEは、制御フレームを受信した場合には、その制御フレームに含まれた情報に従って所定の処理を実行する(ステップS2)。所定の処理は、例えば、回線設定である。
【0018】
その後、当該NEは、処理/制御の結果を示す結果情報を含むフレーム(応答フレーム)を生成し、この応答フレームをOpS10に送信する(ステップS3)。
【0019】
OpS10は、当該NEから応答フレームを受信した場合には、応答フレームに含まれた結果情報に基づいてDB11を更新する(ステップS4)。これによって、DB11は、NE1−1,1−2,1−3の処理/制御結果に関するレコードを蓄積する。
【0020】
さらに、OpS10は、NE1−1,1−2,1−3から警報情報を収集する。図3は、或るNEが回線又はNE自身の障害を検出したときの動作を示すシーケンス図である。
【0021】
図3において、或るNEは、障害を検出すると、警報を発生させる(ステップS5)。次に、当該NEは、警報情報を含む警報フレームを生成し、警報フレームをOpS10へ送信する(ステップS6)。
【0022】
OpS10は、NEから警報フレームを受信すると、警報フレームに含まれた警報情報に従ってDB11を更新する(ステップS7)。これによって、DB11は、NE1−1,1−2,1−3で発生した警報(障害)に関するレコードを蓄積する。
【0023】
このように、DB11は、NE1−1,1−2,1−3の制御情報,及びNE1−1,1−2,1−3から送信された結果情報及び警報情報に基づく情報(「管理装置が自身の管理対象の通信装置を管理することによって得た情報」に相当)を、ブロック1の通信装置の管理に関する情報(第1ブロック情報)として蓄積する。
【0024】
また、OpS10は、OpS20から通信回線Lを通じてブロック2に属する通信装置の管理に関する情報(第2ブロック情報)を受け取り、DB21に格納する。DB21は、第2ブロック情報を蓄積する。
【0025】
第2ブロック情報は、OpS20がブロック2内のNE2−1,2−2,2−3を制御するための制御情報,及びOpS20がNE2−1,2−2,2−3から受け取った結果情報及び警報情報に基づいてDB22に格納する情報(「管理装置が自身の管理対象の通信装置を管理することによって得た情報」に相当)を含む。
【0026】
また、OpS10は、OpS30から通信回線Lを通じてブロック3に属するNEの管理に関する情報(第3ブロック情報)を受け取り、DB31に格納する。DB31は、第3ブロック情報を蓄積する。
【0027】
第3ブロック情報は、OpS30がブロック3内のNE3−1,3−2,3−3を制御するための制御情報,及びOpS30がNE3−1,3−2,3−3から受け取った結果情報及び警報情報に基づいてDB33に格納する情報(「管理装置が自身の管理対象の通信装置を管理することによって得た情報」に相当)を含む。
【0028】
また、OpS10は、OpS40から通信回線Lを通じて第4ブロック情報を受け取り、DB41に格納する。DB41は、第4ブロック情報を蓄積する。 第4ブロック情報は、OpS40がブロック4内のNE4−1,4−2,4−3を制御するための制御情報,OpS40がNE4−1,4−2,4−3から受け取った結果情報及び警報情報に基づいてDB44に格納する情報(「管理装置が自身の管理対象の通信装置を管理することによって得た情報」に相当)である。
【0029】
従って、DB11,12,13,14は、第1ブロック情報を夫々蓄積する。DB21,22,23,24は、第2ブロック情報を夫々蓄積する。DB31,32,33,34は、第3ブロック情報を夫々蓄積する。DB41,42,43,44は、第4ブロック情報を夫々蓄積する。このように、各OpS10,20,30,40は、複数のOpSの夫々に対応する複数のデータベースを有し(収容し)、複数のデータベースは、各OpS10,20,30,40に対応する第1〜第4ブロック情報を蓄積する。
【0030】
OpS10,20,30,40は、自身に対応するDBを更新した場合には、その更新によって生じた差分(差分情報)を他のOpSに転送する。例えば、OpS10は、自身に対応するDBとしてのDB11が更新された場合には、この更新によって発生したDBの蓄積内容の差分を他のOpS20,30,40に転送する。
【0031】
他のOpS20,30,40は、OpS10から受け取った差分を用いて対応するDBを更新する。これによって、各ブロック1,2,3,4の複数のDBの蓄積内容は、同期化される。
【0032】
また、各ブロック1,2,3,4において、複数のNEは、監視フレーム(監視メッセージ)を同じブロック内に設置されたOpSに定期的に送出し、監視フレームの応答フレーム(応答メッセージ)をOpSから受信する。これによって、各NEは、当該OpSが正常に動作しているか否かを監視する(図4参照)。
【0033】
例えば、図4において、ブロック1におけるNE1−1,1−2,1−3は、対応するOpSとしてのOpS10に監視フレームを送信する(ステップS01)。
【0034】
OpS10は、正常に動作している場合には、監視フレームに対応する応答フレームを、監視フレームの送信元に相当するNEに送信する(ステップS02)。
【0035】
一方、送信元のNEは、監視フレームを送信すると、応答フレームの受信を許容するためのタイマを設定する。送信元のNEは、タイマがタイムアウトになる前にOpS10から応答フレームを受信した場合には、OpS10が正常であると認識する。これに対し、送信元のNEは、タイマがタイムアウトになる前に応答フレームを受信しなかった場合には、OpS10に異常が発生していると認識する。
【0036】
次に、図1に示したシステム100における動作例について説明する。図5は、システム100の通常動作の説明図である。図5において、DB11に保存された第1ブロック情報は、OpS10からOpS20,30,40へ転送され、OpS20,30,40は、DB11,12,13,14を同期化するために、第1ブロック情報を対応するDB12,13,14に格納する。これによって、システム100は、DB11のバックアップデータを3箇所に持つ。
【0037】
同様に、DB22に保持された第2ブロック情報は、OpS20からOpS10,30,40へ転送され、OpS10,30,40は、DB21,22,23,24を同期化するために、第2ブロック情報を対応するDB21,23,24に格納する。これによって、システム100は、DB22のバックアップデータを3箇所に持つ。
【0038】
同様に、DB33に保持された第3ブロック情報は、OpS30からOpS10,20,40へ転送され、OpS10,20,40は、DB31,32,33,34を同期化するために、第3ブロック情報を対応するDB31,32,34に格納する。これによって、システム100は、DB33のバックアップデータを3箇所に持つ。
【0039】
同様に、DB44に保持された第3ブロック情報は、OpS40からOpS10,20,30へ転送され、OpS10,20,30は、DB41,42,43,44を同期化するために、第4ブロック情報を対応するDB41,42,43に格納する。これによって、システム100は、DB44のバックアップデータを3箇所に持つ。
【0040】
図6は、システム100においてDBを同期化する動作の例を示すシーケンス図である。図6は、OpS10がDB11,12,13,14を同期化する時のシステム100の動作を示している。OpS10は、制御対象のNE(ここでは、NE1−1)から結果情報を受け取った場合には、この結果情報に基づいてDB11を書き換える(ステップS1〜S4:図2参照)。
【0041】
DB11の内容が書き換えられることによって、差分がDB11に発生する。OpS10は、差分をDB11から取り出し、OpS20,30,40に転送する(ステップS4−1)。各OpS20,30,40は、差分をOpS10から受け取ると、差分を用いてDB12,13,14を書き換える(ステップS4−2)。これによって、DB11,12,13,14が同期化する。
【0042】
一方、OpS10は、障害が発生したNE(ここでは、NE1−1)から警報情報を受け取った場合には、この警報情報に基づいてDB11を書き換える(ステップS5〜S7:図3参照)。
【0043】
DB11の内容が書き換えられることによって、差分がDB11に発生する。OpS10は、差分をDB11から取り出し、OpS20,30,40に転送する(ステップS7−1)。
【0044】
各OpS20,30,40は、差分をOpS10から受け取ると、差分を用いてDB12,13,14を書き換える(ステップS7−2)。これによって、DB11,12,13,14が同期化する。他のブロック2〜4のOpS20,30,40も、図6に示した動作と同様の動作を行う。
【0045】
図7は、異常がシステム100の或るOpSに異常が発生した場合の例を示す説明図であり、図8は、異常がOpSに発生した場合のシステム100の動作例を示すシーケンス図である。図7及び図8は、異常がブロック1のOpS10に発生した場合の動作例を示している。
【0046】
図8において、ブロック1の各NE1−1,1−2,1−3は、監視フレームをOpS10に定期的に送信し、この監視フレームに対応する応答メッセージを受信することによって、OpS10の動作を監視(OpS10の生存状態を確認)している(図4のステップS01,S02参照)。
【0047】
異常(例えば、故障)がOpS10に発生すると(図7参照)、OpS10は、NEからの監視フレームに対する応答メッセージを、監視フレームの送信元に相当するNEに送信することができなくなる。従って、送信元のNEは、図8に示すように、タイマがタイムアウトになる前に応答メッセージを受信することができない。これによって、送信元のNEは、OpS10が異常であると判定する。
【0048】
NEは、OpS10の異常を検出すると、同じブロック1内の他のNEとの間で第1代表NEを決定するための処理(第1代表NE決定処理)を同じブロック1内の他のNEとの間で実行する(ステップS03)。
【0049】
即ち、OpS10の異常を検出したNE(例えば、NE1−2)が、第1代表NE決定処理として、第1調停フレームを当該NEが属するブロック内の他のNEへ通知する。
【0050】
図9は、図8に示した第1代表NE決定処理(ステップS03:ステップS03−1及びS03−2)の例を示すシーケンス図である。図9において、NE1−1,1−2,1−3は、監視フレームをOpS10へ定期的に送信することによって、OpS10を監視する(ステップS01,S02)。NE間の監視フレームの送出タイミングは、所定の間隔を有している。
【0051】
監視フレームの送信元のNE(例えば、NE1−2)は、OpS10の異常を検出すると(ステップS03−0)、第1調停フレーム(第1調停メッセージ)を生成し、ブロック1内の他のNE(ここでは、NE1−1,1−3)に送信する(ステップS03−1)。第1調停フレームは、何れのNEが第1代表NEとなるかをNE間でネゴシエーションするための情報(ネゴシエーション情報)を含む。
【0052】
第1調停フレームを受信したNE1−1,1−3は、第1調停フレームに対応する第1調停応答フレームを生成し、第1調停フレームの送信元のNEとしてのNE1−2に第1調停応答フレームを送信する(ステップS03−2)。
【0053】
この例では、第1調停フレームは、ネゴシエーション情報として、第1調停フレームの送信元のNE1−2が第1代表NEとしてブロードキャストフレームBF1(図10(A)参照)の送信を開始することを示す情報を含み、第1調停応答フレームは、第1調停フレームを受信したNE1−1,1−3がNE1−2がブロードキャストフレームBF1の送信を許可することを示す情報を含んでいる。
【0054】
従って、NE1−2は、第1調停応答フレームを受信すると、第1代表NEとして、代替OpSを検索するためのブロードキャストを実行する(ステップS04)。代替OpSは、他のブロック2,3,4に属し、異常が発生したOpS10に代わってブロック1内のNE1−1,1−2,1−3を管理(制御及び監視)するOpSである。
【0055】
なお、各NEは、第1調停フレームを他のNEから受信した後にOpSの異常を検出しても、他のNEに第1調停フレームを送信しない。従って、この例では、ブロック内で最初にOpSの異常を検出したNEが第1代表NEとなる。 これに対し、他のNE(第1調停フレームの送信元のNEを除くNE)がネゴシエーションによって第1代表NEになるようにしても良い。例えば、その時点で最も負荷が少ないNEが第1代表NEになるようにしても良い。
【0056】
或いは、各NEが、第1代表NEの情報が予め登録されたテーブルを有し、OpSの異常を検出したときに、テーブルが参照され、登録された第1代表NEの情報に対応するNEが第1代表NEとなるようにしても良い。
【0057】
図8に戻って、第1代表NE(ここでは、NE1−2)は、代替OpSを検索するためのブロードキャストフレーム(又はマルチキャストフレーム)BF1を生成し、他のブロック2,3,4にブロードキャスト(マルチキャスト)する。
【0058】
図10(A)は、ブロードキャストフレームBF1の説明図である。ブロードキャストフレームBF1は、異常発生OpS番号を含んでいる。異常発生OpS番号は、異常が発生したOpS(異常発生OpS:ここではOpS10)の特定情報である。OpSの特定情報は、OpSのアドレスであっても良い。
【0059】
各OpS20,30,40は、ブロードキャストフレームBF1を受信すると、このブロードキャストフレームBF1の応答フレームBRF1を生成し、ブロードキャストフレームBF1の送信元アドレスを用いて、生成した応答フレームBF1を第1代表NE(NE1−2)に送信する(ステップS05)。
【0060】
図10(B)は、応答フレームBRF1の説明図である。応答フレームBRF1は、パラメータとして、応答OpS番号,代替可/不可情報,CPU負荷情報,CPU能力情報,自ブロック接続NE数,自ブロック収容回線数,異常発生ブロック接続NE数,異常発生ブロック回線収容数を含んでいる。これらのパラメータの内容は以下の通りである。
(a)応答OpS番号:ブロードキャストフレームBF1に応答するOpS(応答OpS)の番号(応答フレームの送信元のOpSの特定情報)
(b)代替可/不可情報:代替OpSになることが可能か否かを示すフラグ
(c)CPU負荷情報:CPU稼働率(負荷情報)
(d)CPU能力:CPUの性能(パフォーマンス情報)
(e)自ブロック接続NE数:応答OpSに接続されているNEの数
(f)自ブロック収容回線数:応答OpSに接続されている複数のNEに収容されている回線の数
(g)異常発生ブロック接続NE数:異常発生OpSに接続されているNEの数
(h)異常発生ブロック収容回線数:異常発生OpSに接続されている複数のNEに収容されている回線数
図8に戻って、第1代表NE(NE1−2)は、各OpS20,30,40から応答フレームBRF1を受信すると、この応答フレームBRF1に含まれたパラメータを用いて代替OpS選択処理を実行する(ステップS06)。
【0061】
図11は、代替OpS選択処理(ステップS06)を示すフローチャートである。第1代表NEは、各OpS20,30,40から応答フレームBRF1を通じて得たパラメータを比較・照合することによって、代替可/不可情報による絞り込み(ステップS06−1),CPU負荷情報による絞り込み(ステップS06−2),応答時間による絞り込み(ステップS06−3),CPU能力/自ブロック接続NE数/自ブロック収容回線数/異常発生ブロック接続NE数/異常発生ブロック回線収容数による絞り込み(ステップS06−4)を実行し、最適な条件を備えるOpSを代替OpSとして選択する。ステップS06−1〜S06−4の順序は任意に設定することができる。
【0062】
ここで、応答時間は、第1代表NEがブロードキャストフレームBF1を送信してから各OpS20,30,40からの応答フレームBRF1を受信するまでの夫々の時間(ブロードキャストフレームBF1に対する応答時間)である。このため、代表NEは、ブロードキャストフレームBF1を送信すると、自身に搭載された時計を用いて、各OpS20,30,40に対応する応答時間を計時及び記録する。
【0063】
また、最適な条件を備えるOpSは、例えば、最も又は比較的負荷が少ないOpSである。なお、本実施形態は、第1代表NEが各OpS20,30,40との通信路の輻輳情報を取得し、この輻輳情報に基づいてOpSが選択されるようにしても良い。
【0064】
なお、第1代表NEが上記したパラメータ(a)〜(h)の少なくとも1つを用いて代替OpSを選択するようにしても良い。例えば、第1代表NEが応答フレームBRF1が最も早く代替OpSに到着したOpS(応答時間が最も短いOpS)を代替OpSとして選択するようにしても良い。この場合には、通信状態が最も良い代替OpSが選択される。
【0065】
さらに、各ブロックの少なくとも1つのNEが代替OpSの情報が予め登録されたテーブルを有し、第1代表NEが決定されたときに、第1代表NEが代替OpSの情報をテーブルから取得し、この情報に対応するOpSを代替OpSとして選択するようにしても良い。
【0066】
図8に戻って、第1代表NEは、代替OpSを選択すると、代替要求フレームを生成し、代替OpSに相当するOpSに送信する(ステップS07)。この例では、OpS30が代替OpSとして選択され、代替要求フレームがOpS30に送信される。
【0067】
OpS30は、代替要求フレームを受信すると、代替OpSとしての処理を開始し(ステップS08)、代替要求フレームに対応する代替要求応答フレームを返送する(ステップS09)。代替要求応答フレームは、代替要求フレームを受信したOpS(OpS30)が代替要求を承認し代替OpSとして機能することを示す情報を含む。
【0068】
第1代表NE(NE1−2)が代替要求応答フレームを受信すると、第1代表NEが属するブロック1において、各NE1−1,1−2,1−3がOpS接続変更処理を実行する(ステップS010)。
【0069】
図12は、OpS接続変更処理(ステップS010)を示すシーケンス図である。第1代表NEとしてのNE1−2は、代替OpSとしてのOpS30から代替要求応答フレームを受信すると、ブロック1の他のNE1−1,1−3に対し、接続変更要求を送信する(ステップS010−1)。接続変更要求は、各NE1−1,1−3とOpSとの論理接続を異常発生OpS(OpS10)から代替OpS(OpS30)に変更することを要求するための通知であり、代替OpSの特定情報(OpS番号,又はOpSのアドレス)を含んでいる。
【0070】
第1代表NE(NE1−2)は、接続変更要求を送信した後、NE1−2とOpS10との論理接続の切断処理を実行する(ステップS010−2)。また、各NE1−1,1−3は、接続変更要求を受信すると、各NE1−1,1−3とOpS10との論理接続を夫々切断する(ステップS010−2)。
【0071】
論理接続が切断されることによって、OpS10が各NE1−1,1−2,1−3を管理(制御及び監視)するという関係(管理関係)が抹消される。但し、各NE1−1,1−2,1−3は、上記した切断処理後も、OpS10の回復を監視するため、監視フレームをOpS10へ定期的に送信する。
【0072】
その後、図8及び図12に示すように、各NE1−1,1−2,1−3は、応答フレームBRF1又は接続変更要求に含まれた代替OpSの特定情報を用い、自身と代替OpSとしてのOpS30との接続処理を実行する(ステップS011)。これによって、新たな論理接続(管理関係)が各NE1−1,1−2,1−3とOpS30との間に形成され、複数のNE1−1,1−2,1−3が代替OpSの管理下に参入する。
【0073】
代替OpSとしてのOpS30は、代替処理として、OpS10による複数のNE1−1,1−2,1−3の管理を引き継ぐ。即ち、OpS30は、OpS10と同様に、各NE1−1,1−2,1−3に対する管理を行い、自身に対応するDB31,33を更新する。
【0074】
これによって、OpS30がOpS10の代わりに第1ブロック情報をDB31に蓄積する。また、OpS30は、DB31を更新する毎に、この更新によって生じた差分を他のOpS20,40に転送する。これによって、第1ブロック情報を蓄積するDB21,31,41が同期化される。
【0075】
次に、異常発生OpSが復旧したときのシステム100の動作例を説明する。図13は、図7及び図8に示した動作例において、OpS10が復旧した場合におけるシステム100の動作を示すシーケンス図である。図14は、第2代表NE決定処理(ステップS022)を示すシーケンス図である。
【0076】
ブロック1の各NE1−1,1−2,1−3は、切断処理(ステップS010−2)後も、監視フレームをOpS10に定期的に送信し、この監視フレームに対応する応答メッセージを受け付ける(ステップS01)。これによって、各NE1−1,1−2,1−3は、OpS10の回復を監視する。一方、OpS10は、異常な状態から回復した場合には(ステップS021)、監視フレームに対応する応答フレームを送信することができる。
【0077】
各NE1−1,1−2,1−3は、OpS10から応答フレームを受信すると、OpS10が異常状態から回復したと認識し、第2代表NE決定処理を実行する(ステップS022)。即ち、各NE1−1,1−2,1−3は、OpS10の回復を検出すると(ステップS022−0)、第2調停フレーム(第2調停メッセージ)をブロック1内の他のNEへ送信する(ステップS022−1)。
【0078】
図14の例では、NE1−2がOpS10の回復を検出し、他のNE1−1,1−3に第2調停フレームを送信している。第2調停フレームは、何れのNEが第2代表NEとなるかをNE間でネゴシエーションするための情報(ネゴシエーション情報)を含む。
【0079】
第2調停フレームを受信したNE1−1,1−3は、第2調停フレームに対応する第2調停応答フレームを生成し、NE1−2に送信する(ステップS022−2)。この例では、第2調停フレームは、ネゴシエーション情報として、第2調停フレームの送信元としてのNE1−2が第2代表NEになることを示す情報を含み、第2調停応答フレームは、第2調停フレームを受信したNE1−1,1−3がNE1−2が第1代表NEになることを確認したことを示す情報を含んでいる。
【0080】
従って、NE1−2は、第2調停応答フレームを受信すると、第2代表NEとして、復旧担当OpSを検索するためのブロードキャストを実行する(ステップS023)。復旧担当OpSは、他のブロック2,3,4に属し、ブロック1のDB11,21,31,41(OpS10)の復旧処理を担当するOpSである。
【0081】
なお、各NEは、第2調停フレームを他のNEから受信した場合には、その受信後にOpSの回復を検出しても、他のNEに第2調停フレームを送信しない。従って、この例では、ブロック内で最初にOpSの回復を検出したNEが第2代表NEとなる。
【0082】
これに対し、他のNE(第2調停フレームの送信元のNEを除くNE)がネゴシエーションによって第2代表NEになるようにしても良い。或いは、各ブロックにおいて、第2代表NEの情報が予め各NEに登録され、OpSの回復が検出されたときに、登録された第2代表NEの情報に対応するNEが第2代表NEとなるようにしても良い。
【0083】
第2代表NE(ここでは、NE1−2)は、復旧対象OpSを検索するためのブロードキャストフレーム(又はマルチキャストフレーム)BF2を生成し、他のブロック2,3,4にブロードキャスト(マルチキャスト)する(ステップS023)。
【0084】
図15(A)は、ブロードキャストフレームBF2の説明図である。ブロードキャストフレームBFは、復旧対象OpS番号を含んでいる。復旧対象OpS番号は、異常状態から回復したOpS(復旧対象OpS:ここではOpS10)の特定情報である。OpSの特定情報は、OpSのアドレスであっても良い。
【0085】
図13に戻って、各OpS20,30,40は、ブロードキャストフレームBF2を受信すると、このブロードキャストフレームBF2の応答フレームBRF2を生成し、ブロードキャストフレームBF2の送信元アドレスを用いて、生成した応答フレームBF2を第2代表NE(NE1−2)に送信する(ステップS024)。
【0086】
図15(B)は、応答フレームBRF2の説明図である。応答フレームBRF2は、代替可/不可情報が復旧担当可/不可情報に代わっている点を除き、応答フレームBRF1と同じパラメータを有している。復旧担当可/不可情報は、復旧担当OpSになることが可能か否かを示すフラグである。
【0087】
図13に戻って、第2代表NE(NE1−2)は、各OpS20,30,40から応答フレームBRF2を受信すると、応答フレームBRF2に含まれたパラメータを用いて復旧担当OpS選択処理を実行する(ステップS025)。
【0088】
図16は、復旧担当OpS選択処理(ステップS025)を示すフローチャートである。第2代表NEは、各OpS20,30,40から応答フレームBRF2を通じて得たパラメータを用い、代替OpS選択処理(ステップS06)とほぼ同様の処理を行うことによって、復旧担当OpSを選択又は決定する。
【0089】
即ち、第2代表NEは、復旧担当可/不可情報による絞り込み(ステップS025−1),CPU負荷情報による絞り込み(ステップS025−2),応答時間による絞り込み(S025−3),CPU能力/自ブロック接続NE数/自ブロック収容回線数/異常発生ブロック接続NE数/異常発生ブロック回線収容数による絞り込み(S025−4)を実行し、最適な条件を備えるOpSを復旧担当OpSとして選択又は決定する。なお、代替OpSの選択方法として説明した様々な方法は、復旧担当OpSの選択方法に適用することができる。また、第2代表NEは、代替OpSと異なるOpSを復旧担当OpSとして選択する構成とするのが好ましい。これによって、1つのOpSに負荷が集中ことを防止でき、OpSの性能が低下することを防ぐことができる。
【0090】
図13に戻って、第2代表NEは、復旧担当OpSを選択すると、DB復旧要求フレームを生成し、復旧担当OpSに相当するOpSに送信する(ステップS026)。この例では、OpS20が復旧担当OpSとして選択され、DB復旧要求フレームがOpS20に送信される。
【0091】
OpS20は、DB復旧要求フレームを受信すると、復旧担当OpSとして、DB復旧処理を実行する(ステップS028)。即ち、OpS20は、DB21,22,23,24に蓄積された第1〜第4ブロック情報を読み出し、OpS10に転送する。OpS10は、OpS20から受信した第1〜第4ブロック情報を各DB11,21,31,41に格納する。これによって、ブロック1のDB11,12,13,14の蓄積内容が、他のブロック2,3,4における複数のDBと同期化される。このようにして、ブロック1のDB11,12,13,14が復旧する。
【0092】
OpS20は、DB復旧処理が終了すると、DB復旧処理終了通知を第2代表NEとしてのNE1−2に送信する(ステップS029)。第2代表NEは、DB復旧処理終了通知を受信すると、代替OpSとしてのOpS30に対し、代替終了通知を送信する(ステップS030)。
【0093】
OpS30は、代替終了通知を受信すると、代替終了処理を実行する(ステップS031)。即ち、OpS30は、各NE1−1,1−2,1−3を管理するための処理を終了する。その後、OpS30は、代替終了通知に対する応答通知を代表NEとしてのNE1−2に送信する(ステップS032)。
【0094】
第2代表NEとしてのNE1−2は、応答通知を受信すると、OpS接続変更処理を実行する(ステップS033)。図17は、OpS接続変更処理(ステップS033)を示すシーケンス図である。NE1−2は、OpS30から応答通知を受信すると、接続変更要求をNE1−1,1−3に送信することによって、NE1−1,1−3とOpSとの接続関係を代替OpS(OpS30)から元のOpS(OpS10)に変更することをNE1−1,1−3に要求する(ステップS033−1)。
【0095】
NE1−2は、接続変更要求を送信した後、NE1−2とOpS30との接続関係の切断処理を実行する(ステップS033−2)。また、各NE1−1,1−3は、接続変更要求を受信すると、各NE1−1,1−3とOpS30との接続関係を夫々切断する(ステップS033−2)。このようにして、各NE1−1,1−2,1−3は、代替OpSの管理下から離脱する。
【0096】
その後、各NE1−1,1−2,1−3は、自身とOpS10との接続処理を実行する(ステップS034)。これによって、ブロック1の状態が、OpS10の異常が発生する前の状態に戻る。
【0097】
本発明の実施形態によるシステム100によると、各ブロック(OpSと、このOpSによって管理されるNEとからなるグループ)において、各NEがOpSを監視してOpSの異常を検出した場合には、このブロック中の複数のNEの中から第1代表NEが決定される。第1代表NEは、代替OpSを選択し、選択された代替OpSに代替要求(「管理要求」に相当)を送信する。そして、異常が検出されたOpSの管理下に属する複数のNE(OpSの異常が検出されたブロック中の全てのNE)が、代替OpSの管理下に参入する。
【0098】
このように、通信システム100は、あるOpS(管理装置)が異常によって動作できなくなった場合には、他のOpSが代替OpSとしてNEの管理を引き継ぐことによって、OpSのバックアップを図る。
【0099】
このバックアップに係る処理は、NEがOpSを監視し、NEが第1代表NE決定処理,代替OpS選択処理,代替要求送信,代替OpSへの接続処理を実行することによって実現される。このように、バックアップに係る処理がNEの主導によって実現される。
【0100】
従って、従来のように、ホストOpSを通信システム100に設ける必要がないので、通信システム100の運用コストの上昇を抑えることができる。また、OpS間の相互監視によって、OpSの負荷が上昇し、OpSのパフォーマンスが低下することもない。
【0101】
また、第1代表NEが、応答フレームBRF1及びこれに含まれた情報(パラメータ(a)〜(h))を用いて代替OpSを動的に選択する。例えば、CPU負荷情報を基準として代替OpSが選択されることによって、その時点で最も負荷が少ないOpSが選択される。或いは、応答時間を基準として代替OpSが選択されることによって、通信状態(トラフィック状態)が最良の(スループットが最も高い)OpSが選択される。このように、最適なOpSが代替OpSとして選択され、代替OpSが代替処理を実行する。これによって、通信システム100の運用が良好に図られる。
【0102】
また、代替OpSは、代替処理において、自身の管理下に新たに参入した各NEについての管理情報(図示した例では、第1ブロック情報)を、自身が有するデータベースに蓄積し、他のOpSに転送することで、異常が検出されたOpSに対応するデータベースを除くデータベース間で、第1ブロック情報の同期化が実現される。
【0103】
このように、代替OpSが決定された後、OpS故障発生ブロック内の通信装置の論理接続が代替OpSへ変更されるため、各OpSの管理ブロックのデータベースを他のブロックのOpSでも保持しておき、変更差分を他のブロックのOpSへ転送することで常にいくつかのOpSでデータベースを保持し、お互いにバックアップとしての機能を実現することができる。
【0104】
その後、異常が検出されたOpSが回復した場合には、第2代表NEが決定され、第2代表NEが復旧担当OpSを選択し、復旧担当OpSと回復が検出されたOpSとの間で復旧処理が実行され、回復が検出されたOpSが収容する複数のデータベースの復旧が図られる。そして、代替処理が終了し、代替処理によって管理されていた複数のNEが代替OpSの管理下から離脱し、回復が検出されたOpSの管理下に参入する(戻る)。これによって、通信システム100の状態が、異常がOpSに発生する前の状態(最適な状態と想定されている状態)に戻る。
【0105】
これによって、以下の効果を発揮することができる。
1.OpSの異常が発生したときに、各OpSの負荷や監視制御ネットワーク状態に応じて最適な代替OpSが動的に選択され、異常が発生したOpSの配下の通信装置の論理接続が代替OpSへ変更される。これによって、的確な監視制御ネットワーク(通信システム)の修復が、最小限の監視制御システム(通信システム)への影響のもとで実現される。
2.代替OpS決定処理が被監視制御側である通信装置(NE)で実現されるので、各OpSの負荷削減が実現される。
3.各OpS装置の正常性確認のために別途上位OpSを設置・運用する必要がなく、運用コストの低減化が実現される。
4.OpSの異常が回復したときに、各OpSの負荷や監視制御ネットワーク状態に応じて最適なDBの復旧を担当するOpSが動的に選択され、異常から回復したOpSのDBの復旧処理が、最小限の監視制御システム(通信システム)への影響のもとで実現される。
【0106】
さらに、本実施形態では、以下の構成を付加することできる。即ち、実施形態における通信システム100の構築時等において、OpSとNEとを同時に起動する場合、NEの立ち上がり時間に比べてOpSの立ち上がり時間が長くなる可能性がある。
【0107】
このとき、NEがOpSに監視フレームを送信しても、OpSは、応答フレームを送信する準備が完了していないので、応答フレームをNEに送信することができない。この場合には、NEがOpSの異常を誤って検出してしまう。この問題を解決するため、OpSからの立ち上げ通知を受信するまではOpS異常を検出しても、第1調停フレーム(調停メッセージ)を他のNEに送信したり、ブロードキャストフレームBF1を他のOpSへ送信したりしない機能(フレーム送信抑止機能)をNEに実装する。この機能は、NEに搭載されたプロセッサが所定のプログラムを実行することによって実現することができる。
【0108】
図18は、フレーム送信抑止機能を説明するシーケンス図である。例えば、通信システム100の構築時において、NEとOpSとを同時に立ち上げた(起動した)とする(S101,S201)。NEは、起動によって監視フレームをOpSに送信するための準備を行い、OpSは、起動によって応答フレームをNEに返信するための準備を行う。
【0109】
このとき、NEがOpSよりも早く準備を完了すると、NEはOpSに対する監視フレームの定期的な送信を開始する。但し、NEの準備が完了した時点では、NEに設定されたOpSの異常の検出を抑止(禁止)するための異常検出禁止フラグ(調停メッセージ抑止フラグ)がオンの状態(異常の検出(第1調停フレームの送信)を禁止する状態)となっている。
【0110】
このため、NEは、監視フレームをOpSに送信し(S01)、所定期間内に応答フレームを受信できなくても、OpSの異常を検出しない。その後、OpSの準備が完了すると(S202)、OpSは、準備完了通知(立ち上げ完了通知)をNEに送信する(S203)。
【0111】
NEは、準備完了通知をOpSから受信すると、これに対する応答通知をOpSに送信し(S103)、異常検出禁止フラグをオフ(異常の検出を許可する状態)に設定する(S104)。これによって、NEは、監視フレームを送信してから所定期間内に応答フレームを受信できなかった場合には、OpSの異常を検出し、第1調停フレームを送信する。一方、OpSは、準備完了通知を送信した後は、NEからの監視フレームに対し、応答フレームを返信する。これによって、NEがOpSの異常を誤って検出することが防止される。
【0112】
〔その他〕
本発明は、以下のように特定することができる。
(付記1)少なくとも1つの通信装置を夫々管理する複数の管理装置がネットワークを通じて相互に接続され、前記各通信装置は、自身を管理する管理装置を監視し、この管理装置の異常を検出したときに、この管理装置が自身を含む複数の通信装置を管理している場合には、これらの複数の通信装置を代表する代表通信装置を決定し、前記代表通信装置は、前記異常が検出された管理装置に代わって前記複数の通信装置を管理する代替管理装置を複数の他の管理装置の中から選択し、選択した代替管理装置に前記複数の通信装置の管理要求を送信し、前記複数の通信装置は、前記管理要求が送信された後、前記代替管理装置の管理下に参入し、前記各管理装置は、前記管理要求を受信した場合に、前記代替管理装置として、前記複数の通信装置を管理する通信システムにおける管理装置のバックアップシステム。
(付記2)前記代表通信装置は、前記管理要求を送信する前に、代替管理装置を選択するためのフレームを前記複数の他の管理装置へ送信し、前記複数の他の管理装置は、前記フレームを受信した場合に、このフレームに対応する応答フレームを前記代表通信装置に送信し、前記代表通信装置は、前記複数の他の管理装置から応答フレームを夫々受信し、最初に受信した応答フレームの送信元の他の管理装置を代替管理装置として選択する付記1記載の通信システムにおける管理装置のバックアップシステム。
(付記3)前記代表通信装置は、前記管理要求を送信する前に、代替管理装置を選択するためのフレームを前記複数の他の管理装置へ送信し、前記複数の他の管理装置は、前記フレームを受信した場合に、このフレームに対応する応答フレームを前記代表通信装置に送信し、前記代表通信装置は、前記他の複数の管理装置からの応答フレームを夫々受信し、これらの応答フレームに含まれた情報を用いて代替管理装置を選択する付記1記載の通信システムにおける管理装置のバックアップシステム。
(付記4)前記各管理装置は、前記複数の管理装置に夫々対応する複数のデータベースを有し、自身の管理対象の通信装置を管理することによって得た情報を用いて自身に対応するデータベースを更新するとともにこの更新によって発生した差分情報を全ての他の管理装置に転送し、他の管理装置から差分情報を受信した場合にこの他の管理装置に対応するデータベースを受信した差分情報を用いて更新し、前記異常が検出された管理装置の管理対象としての前記複数の通信装置を代替管理装置として管理する場合に、これらの管理によって得た情報を用いて前記異常が検出された管理装置に対応するデータベースを更新するとともにこの更新によって生じた差分情報を全ての他の管理装置,又は前記異常が検出された管理装置を除く他の管理装置に転送する付記1記載の通信システムにおける管理装置のバックアップシステム。
(付記5)前記複数の通信装置のうち、最初に管理装置の異常を検出した通信装置が代表通信装置になる付記1記載の通信システムにおける管理装置のバックアップシステム。
(付記6)前記各通信装置は、前記異常が検出された管理装置が自身のみを管理している場合には、前記複数の他の管理装置の中から選択した代替管理装置に前記複数の通信装置の管理要求を送信し、前記管理要求が送信された後、前記代替管理装置の管理下に参入し、前記各管理装置は、前記管理要求を受信した場合に、前記代替管理装置として、前記管理要求の送信元の通信装置を管理する付記1記載の通信システムにおける管理装置のバックアップシステム。
(付記7)前記複数の通信装置は、前記代替管理装置によって管理されている間、前記異常が検出された管理装置を監視し、前記複数の通信装置の何れかがこの管理装置の回復を検出した場合に、前記代替管理装置の管理下から離脱し、前記回復が検出された管理装置の管理下に戻る付記1記載の通信システムにおける管理装置のバックアップシステム。
(付記8)前記複数の通信装置は、前記代替管理装置によって管理されている間、前記異常が検出された管理装置を夫々監視し、前記複数の通信装置の何れかがこの管理装置の回復を検出した場合に、これらの複数の通信装置を代表する第2代表通信装置を決定し、前記第2代表通信装置は、前記回復が検出された管理装置が有する複数のデータベースの復旧処理を担当する復旧担当管理装置を前記複数の他の管理装置の中から選択し、選択した復旧担当管理装置に前記複数のデータベースの復旧要求を送信し、前記復旧担当管理装置は、前記復旧要求を受信した場合に、自身が有する複数のデータベースの蓄積内容を前記回復が検出された管理装置に転送し、前記回復が検出された管理装置は、前記復旧担当管理装置から前記蓄積内容を受信した場合に、この蓄積内容を用いて前記複数のデータベースを夫々更新する付記4記載の通信システムにおける管理装置のバックアップシステム。
(付記9)前記第2代表通信装置は、前記復旧要求を送信する前に、復旧担当管理装置を選択するためのフレームを前記複数の他の管理装置へ送信し、前記複数の他の管理装置は、前記フレームを受信した場合に、このフレームに対応する応答フレームを前記第2代表通信装置に送信し、前記第2代表通信装置は、前記他の複数の管理装置から応答フレームを夫々受信し、最初に受信した応答フレームの送信元の他の管理装置を復旧担当管理装置として選択する付記8記載の通信システムにおける管理装置のバックアップシステム。
(付記10)前記第2代表通信装置は、前記復旧要求を送信する前に、復旧担当管理装置を選択するためのフレームを前記複数の他の管理装置へ送信し、前記複数の他の管理装置は、前記フレームを受信した場合に、このフレームに対応する応答フレームを前記第2代表通信装置に送信し、前記第2代表通信装置は、前記複数の他の管理装置からの応答フレームを夫々受信し、これらの応答フレームに含まれた情報を用いて復旧担当管理装置を選択する付記8記載の通信システムにおける管理装置のバックアップシステム。
(付記11)前記第2代表通信装置は、前記複数の他の管理装置の中から、代替管理装置として選択されていない管理装置を復旧担当管理装置として選択する付記8記載の管理装置のバックアップシステム。
(付記12)前記複数の通信装置のうち、最初に管理装置の回復を検出した通信装置が第2代表通信装置になる付記8記載の通信システムにおける管理装置のバックアップシステム。
(付記13)前記各通信装置は、自身を管理する管理装置に監視フレームを送信し、この管理装置から監視フレームの応答フレームを受信することによってこの管理装置を監視し、前記監視フレームを送信してから所定期間が経過する前に前記応答フレームを受信せず且つ応答フレームを送信するための準備の完了を示す通知を前記管理装置から既に受信している場合にのみ、前記管理装置の異常を検出する付記1記載の通信システムの管理装置のバックアップシステム。
(付記14)少なくとも1つの通信装置を夫々管理する複数の管理装置がネットワークを通じて相互に接続され、前記各通信装置は、自身を管理する管理装置を監視し、この管理装置の異常を検出したときに、この管理装置が自身を含む複数の通信装置を管理している場合には、これらの複数の通信装置を代表する代表通信装置を決定し、前記代表通信装置は、前記異常が検出された管理装置に代わって前記複数の通信装置を管理する代替管理装置を複数の他の管理装置の中から選択し、選択した代替管理装置に前記複数の通信装置の管理要求を送信し、前記複数の通信装置は、前記管理要求が送信された後、前記代替管理装置の管理下に参入し、前記各管理装置は、前記管理要求を受信した場合に、前記代替管理装置として、前記複数の通信装置を管理する通信システムにおける管理装置のバックアップ方法。
(付記15)前記代表通信装置は、前記管理要求を送信する前に、代替管理装置を選択するためのフレームを前記複数の他の管理装置へ送信し、前記複数の他の管理装置は、前記フレームを受信した場合に、このフレームに対応する応答フレームを前記代表通信装置に送信し、前記代表通信装置は、前記複数の他の管理装置から応答フレームを夫々受信し、最初に受信した応答フレームの送信元の他の管理装置を代替管理装置として選択する付記14記載の通信システムにおける管理装置のバックアップ方法。
(付記16)前記代表通信装置は、前記管理要求を送信する前に、代替管理装置を選択するためのフレームを前記複数の他の管理装置へ送信し、前記複数の他の管理装置は、前記フレームを受信した場合に、このフレームに対応する応答フレームを前記代表通信装置に送信し、前記代表通信装置は、前記他の複数の管理装置からの応答フレームを夫々受信し、これらの応答フレームに含まれた情報を用いて代替管理装置を選択する付記14記載の通信システムにおける管理装置のバックアップ方法。
(付記17)前記各管理装置は、前記複数の管理装置に夫々対応する複数のデータベースを有し、自身の管理対象の通信装置を管理することによって得た情報を用いて自身に対応するデータベースを更新するとともにこの更新によって発生した差分情報を全ての他の管理装置に転送し、他の管理装置から差分情報を受信した場合にこの他の管理装置に対応するデータベースを受信した差分情報を用いて更新し、前記異常が検出された管理装置の管理対象としての前記複数の通信装置を代替管理装置として管理する場合に、これらの管理によって得た情報を用いて前記異常が検出された管理装置に対応するデータベースを更新するとともにこの更新によって生じた差分情報を全ての他の管理装置,又は前記異常が検出された管理装置を除く他の管理装置に転送する付記14記載の通信システムにおける管理装置のバックアップ方法。
(付記18)前記複数の通信装置のうち、最初に管理装置の異常を検出した通信装置が代表通信装置になる付記14記載の通信システムにおける管理装置のバックアップ方法。
(付記19)前記各通信装置は、前記異常が検出された管理装置が自身のみを管理している場合には、前記複数の他の管理装置の中から選択した代替管理装置に前記複数の通信装置の管理要求を送信し、前記管理要求が送信された後、前記代替管理装置の管理下に参入し、前記各管理装置は、前記管理要求を受信した場合に、前記代替管理装置として、前記管理要求の送信元の通信装置を管理する付記14記載の通信システムにおける管理装置のバックアップ方法。
(付記20)前記複数の通信装置は、前記代替管理装置によって管理されている間、前記異常が検出された管理装置を監視し、前記複数の通信装置の何れかがこの管理装置の回復を検出した場合に、前記代替管理装置の管理下から離脱し、前記回復が検出された管理装置の管理下に戻る付記14記載の通信システムにおける管理装置のバックアップ方法。
(付記21)前記複数の通信装置は、前記代替管理装置によって管理されている間、前記異常が検出された管理装置を夫々監視し、前記複数の通信装置の何れかがこの管理装置の回復を検出した場合に、これらの複数の通信装置を代表する第2代表通信装置を決定し、前記第2代表通信装置は、前記回復が検出された管理装置が有する複数のデータベースの復旧処理を担当する復旧担当管理装置を前記複数の他の管理装置の中から選択し、選択した復旧担当管理装置に前記複数のデータベースの復旧要求を送信し、前記復旧担当管理装置は、前記復旧要求を受信した場合に、自身が有する複数のデータベースの蓄積内容を前記回復が検出された管理装置に転送し、前記回復が検出された管理装置は、前記復旧担当管理装置から前記蓄積内容を受信した場合に、この蓄積内容を用いて前記複数のデータベースを夫々更新する付記17記載の通信システムにおける管理装置のバックアップ方法。
(付記22)前記第2代表通信装置は、前記復旧要求を送信する前に、復旧担当管理装置を選択するためのフレームを前記複数の他の管理装置へ送信し、前記複数の他の管理装置は、前記フレームを受信した場合に、このフレームに対応する応答フレームを前記第2代表通信装置に送信し、前記第2代表通信装置は、前記他の複数の管理装置から応答フレームを夫々受信し、最初に受信した応答フレームの送信元の他の管理装置を復旧担当管理装置として選択する付記21記載の通信システムにおける管理装置のバックアップ方法。
(付記23)前記第2代表通信装置は、前記復旧要求を送信する前に、復旧担当管理装置を選択するためのフレームを前記複数の他の管理装置へ送信し、前記複数の他の管理装置は、前記フレームを受信した場合に、このフレームに対応する応答フレームを前記第2代表通信装置に送信し、前記第2代表通信装置は、前記複数の他の管理装置からの応答フレームを夫々受信し、これらの応答フレームに含まれた情報を用いて復旧担当管理装置を選択する付記21記載の通信システムにおける管理装置のバックアップ方法。
(付記24)前記第2代表通信装置は、前記複数の他の管理装置の中から、代替管理装置として選択されていない管理装置を復旧担当管理装置として選択する付記21記載の管理装置のバックアップ方法。
(付記25)前記複数の通信装置のうち、最初に管理装置の回復を検出した通信装置が第2代表通信装置になる付記21記載の通信システムにおける管理装置のバックアップ方法。
(付記26)前記各通信装置は、自身を管理する管理装置に監視フレームを送信し、この管理装置から監視フレームの応答フレームを受信することによってこの管理装置を監視し、前記監視フレームを送信してから所定期間が経過する前に前記応答フレームを受信せず且つ応答フレームを送信するための準備の完了を示す通知を前記管理装置から既に受信している場合にのみ、前記管理装置の異常を検出する付記14記載の通信システムの管理装置のバックアップ方法。
【0113】
【発明の効果】
本発明によれば、通信装置と複数の管理装置とを含む通信システムにおいて、管理装置を監視する装置をさらに設ける必要がなく、且つ管理装置の負荷上昇を抑えることができる。
【図面の簡単な説明】
【図1】本発明の実施形態による通信システムの構成例を示す図
【図2】OpSによるNEの制御を示すシーケンス図
【図3】OpSによるNEの監視を示すシーケンス図
【図4】NEによるOpSの監視を示すシーケンス図
【図5】図1に示した通信システムの動作例(DBの同期化)の説明図
【図6】図1に示した通信システムにおけるDBの同期化を説明するシーケンス図
【図7】図1に示した通信システムにおけるOpSの異常の発生の説明図
【図8】図1に示した通信システムにおけるOpSに異常が発生したときの処理(バックアップ処理)の動作例を示すシーケンス図
【図9】図8に示した第1代表NE決定処理の例を示すシーケンス図
【図10】ブロードキャストフレーム及びブロードキャスト応答フレームの例を示す説明図
【図11】図8に示した代替OpS選択処理の例を示すフローチャート
【図12】図8に示したOpS接続変更処理の例を示すシーケンス図
【図13】図1に示した通信システムにおけるOpSの異常が回復したときの処理(DBの復旧)の動作例を示すシーケンス図
【図14】図13に示した第2代表NE決定処理の例を示すシーケンス図
【図15】ブロードキャストフレーム及びブロードキャスト応答フレームの例を示す説明図
【図16】図13に示した復旧担当OpS選択処理の例を示すフローチャート
【図17】図13に示したOpS接続変更処理の例を示すシーケンス図
【図18】他の実施形態を説明するシーケンス図
【符号の説明】
L 通信回線
1,2,3,4 ブロック
1−1,1−2,1−3 NE(通信装置)
10,20,30,40 OpS(管理装置)
11,12,13,14 データベース(DB)
100 通信システム

Claims (5)

  1. 少なくとも1つの通信装置を夫々管理する複数の管理装置がネットワークを通じて相互に接続され、
    前記各通信装置は、自身を管理する管理装置を監視し、この管理装置の異常を検出したときに、この管理装置が自身を含む複数の通信装置を管理している場合には、これらの複数の通信装置を代表する代表通信装置を決定し、
    前記代表通信装置は、前記異常が検出された管理装置に代わって前記複数の通信装置を管理する代替管理装置を複数の他の管理装置の中から選択し、選択した代替管理装置に前記複数の通信装置の管理要求を送信し、
    前記複数の通信装置は、前記管理要求が送信された後、前記代替管理装置の管理下に参入し、
    前記各管理装置は、前記管理要求を受信した場合に、前記代替管理装置として、前記複数の通信装置を管理する、通信システムにおける管理装置のバックアップシステム。
  2. 前記各管理装置は、
    前記複数の管理装置に夫々対応する複数のデータベースを有し、
    自身の管理対象の通信装置を管理することによって得た情報を用いて自身に対応するデータベースを更新するとともにこの更新によって発生した差分情報を全ての他の管理装置に転送し、
    他の管理装置から差分情報を受信した場合にこの他の管理装置に対応するデータベースを受信した差分情報を用いて更新し、
    前記異常が検出された管理装置の管理対象としての前記複数の通信装置を代替管理装置として管理する場合に、これらの管理によって得た情報を用いて前記異常が検出された管理装置に対応するデータベースを更新するとともにこの更新によって生じた差分情報を全ての他の管理装置,又は前記異常が検出された管理装置を除く他の管理装置に転送する請求項1記載の通信システムにおける管理装置のバックアップシステム。
  3. 前記複数の通信装置は、前記代替管理装置によって管理されている間、前記異常が検出された管理装置を監視し、前記複数の通信装置の何れかがこの管理装置の回復を検出した場合に、前記代替管理装置の管理下から離脱し、前記回復が検出された管理装置の管理下に戻る請求項1記載の通信システムにおける管理装置のバックアップシステム。
  4. 前記複数の通信装置は、前記代替管理装置によって管理されている間、前記異常が検出された管理装置を夫々監視し、前記複数の通信装置の何れかがこの管理装置の回復を検出した場合に、これらの複数の通信装置を代表する第2代表通信装置を決定し、
    前記第2代表通信装置は、前記回復が検出された管理装置が有する複数のデータベースの復旧処理を担当する復旧担当管理装置を前記複数の他の管理装置の中から選択し、選択した復旧担当管理装置に前記複数のデータベースの復旧要求を送信し、
    前記復旧担当管理装置は、前記復旧要求を受信した場合に、自身が有する複数のデータベースの蓄積内容を前記回復が検出された管理装置に転送し、
    前記回復が検出された管理装置は、前記復旧担当管理装置から前記蓄積内容を受信した場合に、この蓄積内容を用いて前記複数のデータベースを夫々更新する請求項2記載の通信システムにおける管理装置のバックアップシステム。
  5. 前記各通信装置は、自身を管理する管理装置に監視フレームを送信し、この管理装置から監視フレームの応答フレームを受信することによってこの管理装置を監視し、前記監視フレームを送信してから所定期間が経過する前に前記応答フレームを受信せず且つ応答フレームを送信するための準備の完了を示す通知を前記管理装置から既に受信している場合にのみ、前記管理装置の異常を検出する請求項1記載の通信システムの管理装置のバックアップシステム。
JP2001132510A 2001-04-27 2001-04-27 通信システムにおける管理装置のバックアップシステム Expired - Fee Related JP4491167B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001132510A JP4491167B2 (ja) 2001-04-27 2001-04-27 通信システムにおける管理装置のバックアップシステム
US09/953,693 US6792558B2 (en) 2001-04-27 2001-09-17 Backup system for operation system in communications system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001132510A JP4491167B2 (ja) 2001-04-27 2001-04-27 通信システムにおける管理装置のバックアップシステム

Publications (2)

Publication Number Publication Date
JP2002330132A JP2002330132A (ja) 2002-11-15
JP4491167B2 true JP4491167B2 (ja) 2010-06-30

Family

ID=18980513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001132510A Expired - Fee Related JP4491167B2 (ja) 2001-04-27 2001-04-27 通信システムにおける管理装置のバックアップシステム

Country Status (2)

Country Link
US (1) US6792558B2 (ja)
JP (1) JP4491167B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928584B2 (en) * 2000-11-22 2005-08-09 Tellabs Reston, Inc. Segmented protection system and method
JP5204613B2 (ja) * 2008-10-17 2013-06-05 株式会社バッファロー 端末装置
JP5682502B2 (ja) * 2011-08-11 2015-03-11 富士通株式会社 情報処理プログラムおよび情報処理装置
JP5895564B2 (ja) * 2012-02-01 2016-03-30 日本電気株式会社 ネットワーク運用管理システムおよびネットワーク運用管理方法
JP6201678B2 (ja) * 2013-11-21 2017-09-27 富士通株式会社 ネットワーク管理システムにおけるネットワークエレメント、ネットワーク管理システム、及び、ネットワークの管理方法
JP6307858B2 (ja) * 2013-11-29 2018-04-11 富士通株式会社 伝送装置、伝送システム、及び監視制御方法
JP6528528B2 (ja) 2015-04-30 2019-06-12 セイコーエプソン株式会社 ネットワークシステム、ネットワークシステムの制御方法、及び、プリンター
JP2016212491A (ja) 2015-04-30 2016-12-15 セイコーエプソン株式会社 ネットワークシステム、ネットワークシステムの制御方法、及び、制御装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4710926A (en) * 1985-12-27 1987-12-01 American Telephone And Telegraph Company, At&T Bell Laboratories Fault recovery in a distributed processing system
JPS63285053A (ja) * 1987-05-18 1988-11-22 Nec Corp 網管理装置の障害処理方式
US5260945A (en) * 1989-06-22 1993-11-09 Digital Equipment Corporation Intermittent component failure manager and method for minimizing disruption of distributed computer system
US5515501A (en) * 1994-01-21 1996-05-07 Unisys Corporation Redundant maintenance architecture
JP2998789B2 (ja) * 1995-06-19 2000-01-11 日本電気株式会社 フォールトトレラント広帯域ネットワーク管理システム
US5923840A (en) * 1997-04-08 1999-07-13 International Business Machines Corporation Method of reporting errors by a hardware element of a distributed computer system
JPH10336221A (ja) * 1997-06-02 1998-12-18 Nec Corp 分散型ネットワーク管理システム
US6370656B1 (en) * 1998-11-19 2002-04-09 Compaq Information Technologies, Group L. P. Computer system with adaptive heartbeat
US6442713B1 (en) * 1999-03-30 2002-08-27 International Business Machines Corporation Cluster node distress signal
US6535998B1 (en) * 1999-07-26 2003-03-18 Microsoft Corporation System recovery by restoring hardware state on non-identical systems

Also Published As

Publication number Publication date
US20020162044A1 (en) 2002-10-31
US6792558B2 (en) 2004-09-14
JP2002330132A (ja) 2002-11-15

Similar Documents

Publication Publication Date Title
US7468944B2 (en) Path fault recovery method, switching-back method after recovery from fault, and node using the same
US5920257A (en) System and method for isolating an outage within a communications network
EP1153346B1 (en) Server system and method for operating the same
CN110830283B (zh) 故障检测方法、装置、设备和系统
EP0471090B1 (en) Message communication processing system
US9237092B2 (en) Method, apparatus, and system for updating ring network topology information
JP5982842B2 (ja) コンピュータ障害監視プログラム、方法、及び装置
US6457050B1 (en) System and method for dynamically restoring communications within a network
US20050289553A1 (en) Storage system and storage system control method
CN107066480B (zh) 主备数据库的管理方法、系统及其设备
JP4491167B2 (ja) 通信システムにおける管理装置のバックアップシステム
WO2010116456A1 (ja) オペレーションシステムのデータ管理方法及びサーバ
US20130205162A1 (en) Redundant computer control method and device
US7774474B2 (en) Communication of control and data path state for networks
CN109189854B (zh) 提供持续业务的方法及节点设备
EP3570169A1 (en) Method and system for processing device failure
WO2002001347A2 (en) Method and system for automatic re-assignment of software components of a failed host
JP2003533128A (ja) 通信システム
KR20120104137A (ko) Wson 시스템 중 노드 리소스 상태의 자동 복구 방법 및 장치
CN114301763A (zh) 分布式集群故障的处理方法及系统、电子设备及存储介质
JP2013161266A (ja) 呼処理情報の冗長化制御システムおよびこれに利用する予備保守サーバ
KR100330544B1 (ko) 이중화된 자동호 분배 시스템에서의 과금 데이터 동기화방법 및 시스템
US20230007511A1 (en) Wireless network device and information collection method for wireless network device
CN111262717B (zh) 一种分布式网络中数据同步异常的恢复方法和装置
KR102099827B1 (ko) 지역 이원화 호 처리 시스템 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100316

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100405

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees