JP2002330132A - 通信システムにおける管理装置のバックアップシステム - Google Patents
通信システムにおける管理装置のバックアップシステムInfo
- Publication number
- JP2002330132A JP2002330132A JP2001132510A JP2001132510A JP2002330132A JP 2002330132 A JP2002330132 A JP 2002330132A JP 2001132510 A JP2001132510 A JP 2001132510A JP 2001132510 A JP2001132510 A JP 2001132510A JP 2002330132 A JP2002330132 A JP 2002330132A
- Authority
- JP
- Japan
- Prior art keywords
- management device
- management
- ops
- communication
- recovery
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 218
- 238000012544 monitoring process Methods 0.000 claims abstract description 48
- 230000004044 response Effects 0.000 claims description 105
- 238000011084 recovery Methods 0.000 claims description 104
- 230000005856 abnormality Effects 0.000 claims description 73
- 101100063259 Myxococcus xanthus ops gene Proteins 0.000 abstract description 328
- 230000002159 abnormal effect Effects 0.000 abstract description 12
- 238000000034 method Methods 0.000 description 50
- 238000010586 diagram Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 30
- 238000012545 processing Methods 0.000 description 25
- 230000005540 biological transmission Effects 0.000 description 24
- 101000714243 Homo sapiens Transcription factor IIIB 90 kDa subunit Proteins 0.000 description 10
- 101000802094 Homo sapiens mRNA decay activator protein ZFP36L1 Proteins 0.000 description 10
- 102100036535 Transcription factor IIIB 90 kDa subunit Human genes 0.000 description 10
- 238000012546 transfer Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000012508 change request Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000004308 accommodation Effects 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 101100188722 Beauveria bassiana (strain ARSEF 2860) OpS2 gene Proteins 0.000 description 3
- 101000740968 Homo sapiens Transcription factor IIIB 50 kDa subunit Proteins 0.000 description 3
- 101000802101 Homo sapiens mRNA decay activator protein ZFP36L2 Proteins 0.000 description 3
- 102100039038 Transcription factor IIIB 50 kDa subunit Human genes 0.000 description 3
- 102100036738 Guanine nucleotide-binding protein subunit alpha-11 Human genes 0.000 description 2
- 101100283445 Homo sapiens GNA11 gene Proteins 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 101100188716 Beauveria bassiana (strain ARSEF 2860) OpS1 gene Proteins 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2033—Failover techniques switching over of hardware resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2035—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/22—Arrangements for detecting or preventing errors in the information received using redundant apparatus to increase reliability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2097—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
ムにおいて、管理装置を監視する装置をさらに設ける必
要がなく、且つ管理装置の負荷上昇を抑えることができ
る通信システムにおける管理装置のバックアップシステ
ムを提供する。 【解決手段】NEが自身を管理するOpSの異常を検出
すると、このOpSによって管理されている複数のNE
間で代表NEが決定される。代表NEは、他のOpSか
ら代替OpSを選択し、代替OpSに複数のNEの管理
要求を送信する。その後、複数のNEは代替OpSの管
理下に参入する。代替OpSは管理要求に従って複数の
NEを管理する。
Description
element:NE)を管理する複数の管理装置(Operation
System:OpS)がネットワークを通じて相互に接続さ
れた通信システムにおける管理装置のバックアップシス
テムに関する。
と、NEを管理する複数の管理装置(OpS)とがネット
ワークを通じて相互に接続された通信システムがある。
この通信システムでは、OpS自体の正常性を監視する
ために、以下の方法が採用されている。 (1)OpSを監視する上位OpS(ホストOpS)を通信
システムに設置 (2)OpS間で相互に監視 上記した方法(1)又は(2)が採用されることによって、
通信システム中の或るOpSが故障した場合には、ホス
トOpS又は他のOpSが故障したOpSに代わってN
Eを管理する。これによって、通信システムが安定的に
運用される。
術では以下の問題があった。方法(1)が採用される場合
には、ホストOpS及び他の装置を通信システムに設置
しなければならないので、通信システムの運用コストが
増大する。また、方法(2)が採用される場合には、Op
Sの負荷が上昇することによってOpSのパフォーマン
スが低下する。
置とを含む通信システムにおいて、管理装置を監視する
装置をさらに設ける必要がなく、且つ管理装置の負荷上
昇を抑えることができる通信システムにおける管理装置
のバックアップシステムを提供することである。
を達成するため以下の構成を採用する。
管理装置のバックアップシステムは、少なくとも1つの
通信装置を夫々管理する複数の管理装置がネットワーク
を通じて相互に接続され、前記各通信装置は、自身を管
理する管理装置を監視し、この管理装置の異常を検出し
たときに、この管理装置が自身を含む複数の通信装置を
管理している場合には、これらの複数の通信装置を代表
する代表通信装置を決定し、前記代表通信装置は、前記
異常が検出された管理装置に代わって前記複数の通信装
置を管理する代替管理装置を複数の他の管理装置の中か
ら選択し、選択した代替管理装置に前記複数の通信装置
の管理要求を送信し、前記複数の通信装置は、前記管理
要求が送信された後、前記代替管理装置の管理下に参入
し、前記各管理装置は、前記管理要求を受信した場合
に、前記代替管理装置として、前記複数の通信装置を管
理する。
装置に夫々対応する複数のデータベースを有し、自身の
管理対象の通信装置を管理することによって得た情報を
用いて自身に対応するデータベースを更新するとともに
この更新によって発生した差分情報を全ての他の管理装
置に転送し、他の管理装置から差分情報を受信した場合
にこの他の管理装置に対応するデータベースを受信した
差分情報を用いて更新し、前記異常が検出された管理装
置の管理対象としての前記複数の通信装置を代替管理装
置として管理する場合に、これらの管理によって得た情
報を用いて前記異常が検出された管理装置に対応するデ
ータベースを更新するとともにこの更新によって生じた
差分情報を全ての他の管理装置,又は前記異常が検出さ
れた管理装置を除く他の管理装置に転送するように構成
するのが好ましい。
代替管理装置によって管理されている間、前記異常が検
出された管理装置を監視し、前記複数の通信装置の何れ
かがこの管理装置の回復を検出した場合に、前記代替管
理装置の管理下から離脱し、前記回復が検出された管理
装置の管理下に戻るように構成するのが好ましい。
代替管理装置によって管理されている間、前記異常が検
出された管理装置を夫々監視し、前記複数の通信装置の
何れかがこの管理装置の回復を検出した場合に、これら
の複数の通信装置を代表する第2代表通信装置を決定
し、前記第2代表通信装置は、前記回復が検出された管
理装置が有する複数のデータベースの復旧処理を担当す
る復旧担当管理装置を前記複数の他の管理装置の中から
選択し、選択した復旧担当管理装置に前記複数のデータ
ベースの復旧要求を送信し、前記復旧担当管理装置は、
前記復旧要求を受信した場合に、自身が有する複数のデ
ータベースの蓄積内容を前記回復が検出された管理装置
に転送し、前記回復が検出された管理装置は、前記復旧
担当管理装置から前記蓄積内容を受信した場合に、この
蓄積内容を用いて前記複数のデータベースを夫々更新す
るように構成するのが好ましい。
管理する管理装置に監視フレームを送信し、この管理装
置から監視フレームの応答フレームを受信することによ
ってこの管理装置を監視し、前記監視フレームを送信し
てから所定期間が経過する前に前記応答フレームを受信
せず且つ応答フレームを送信するための準備の完了を示
す通知を前記管理装置から既に受信している場合にの
み、前記管理装置の異常を検出する構成とするのが好ま
しい。
施形態を説明する。実施形態における構成は例示であ
り、本発明は実施形態の構成の範囲に限定されない。
ステム100の構成図である。通信システム100は、
複数の通信装置(NE)と、複数の管理装置(OpS)とが
通信回線L(ネットワーク)を通じて物理的に接続される
ことによってなり、且つ複数のブロック1,2,3,4に
論理的に区切られている。
のOpSの管理下に属する少なくとも1つのNEとから
なる論理的なグループである。例えば、ブロック1は、
複数(例えば3)のNE1−1,1−2,1−3及びOpS
10を備えている。OpS10は、複数のデータベース
(DB)11,21,31,41を収容している。ブロック
2,3,4はブロック1と同様の構成を夫々有し、各ブロ
ック1,2,3,4に属するOpS及びNEは、同じ構成
を有している。
する様々な処理を実行する伝送装置又は交換機である。
様々な処理は、例えば、回線設定(回線制御,交換制
御),装置設定,並びにNE自身及び/又は回線の障害
検出である。これらの処理は、例えば、NEに搭載され
たプロセッサ(CPU,MPU等)がプログラムを実行す
ることによって実現される。
を管理(制御及び監視)する通信機能を備えた管理装置で
ある。OpS10は、プロセッサ(CPU)及びメモリを
備えており、CPUがプログラムを実行することによっ
てNEの管理(制御及び監視)に係る機能を実現する。D
B11は、NE1−1,1−2,1−3を制御するための
情報(制御情報)を保持(格納)している。
ときの動作を示すシーケンス図である。図2において、
OpS10は、或るNEを制御する場合には、DB11
からこのNEを制御するための制御情報を読み出し、読
み出した制御情報を含むフレーム(制御フレーム)を生成
し、生成したフレームを当該NEへ送信する(ステップ
S1)。
には、その制御フレームに含まれた情報に従って所定の
処理を実行する(ステップS2)。所定の処理は、例え
ば、回線設定である。
示す結果情報を含むフレーム(応答フレーム)を生成し、
この応答フレームをOpS10に送信する(ステップS
3)。
を受信した場合には、応答フレームに含まれた結果情報
に基づいてDB11を更新する(ステップS4)。これに
よって、DB11は、NE1−1,1−2,1−3の処理
/制御結果に関するレコードを蓄積する。
2,1−3から警報情報を収集する。図3は、或るNE
が回線又はNE自身の障害を検出したときの動作を示す
シーケンス図である。
ると、警報を発生させる(ステップS5)。次に、当該N
Eは、警報情報を含む警報フレームを生成し、警報フレ
ームをOpS10へ送信する(ステップS6)。
信すると、警報フレームに含まれた警報情報に従ってD
B11を更新する(ステップS7)。これによって、DB
11は、NE1−1,1−2,1−3で発生した警報(障
害)に関するレコードを蓄積する。
−2,1−3の制御情報,及びNE1−1,1−2,1−
3から送信された結果情報及び警報情報に基づく情報
(「管理装置が自身の管理対象の通信装置を管理するこ
とによって得た情報」に相当)を、ブロック1の通信装
置の管理に関する情報(第1ブロック情報)として蓄積す
る。
回線Lを通じてブロック2に属する通信装置の管理に関
する情報(第2ブロック情報)を受け取り、DB21に格
納する。DB21は、第2ブロック情報を蓄積する。
ク2内のNE2−1,2−2,2−3を制御するための制
御情報,及びOpS20がNE2−1,2−2,2−3か
ら受け取った結果情報及び警報情報に基づいてDB22
に格納する情報(「管理装置が自身の管理対象の通信装
置を管理することによって得た情報」に相当)を含む。
回線Lを通じてブロック3に属するNEの管理に関する
情報(第3ブロック情報)を受け取り、DB31に格納す
る。DB31は、第3ブロック情報を蓄積する。
ク3内のNE3−1,3−2,3−3を制御するための制
御情報,及びOpS30がNE3−1,3−2,3−3か
ら受け取った結果情報及び警報情報に基づいてDB33
に格納する情報(「管理装置が自身の管理対象の通信装
置を管理することによって得た情報」に相当)を含む。
回線Lを通じて第4ブロック情報を受け取り、DB41
に格納する。DB41は、第4ブロック情報を蓄積す
る。第4ブロック情報は、OpS40がブロック4内の
NE4−1,4−2,4−3を制御するための制御情報,
OpS40がNE4−1,4−2,4−3から受け取った
結果情報及び警報情報に基づいてDB44に格納する情
報(「管理装置が自身の管理対象の通信装置を管理する
ことによって得た情報」に相当)である。
1ブロック情報を夫々蓄積する。DB21,22,23,
24は、第2ブロック情報を夫々蓄積する。DB31,
32,33,34は、第3ブロック情報を夫々蓄積する。
DB41,42,43,44は、第4ブロック情報を夫々
蓄積する。このように、各OpS10,20,30,40
は、複数のOpSの夫々に対応する複数のデータベース
を有し(収容し)、複数のデータベースは、各OpS1
0,20,30,40に対応する第1〜第4ブロック情報
を蓄積する。
応するDBを更新した場合には、その更新によって生じ
た差分(差分情報)を他のOpSに転送する。例えば、O
pS10は、自身に対応するDBとしてのDB11が更
新された場合には、この更新によって発生したDBの蓄
積内容の差分を他のOpS20,30,40に転送する。
から受け取った差分を用いて対応するDBを更新する。
これによって、各ブロック1,2,3,4の複数のDBの
蓄積内容は、同期化される。
複数のNEは、監視フレーム(監視メッセージ)を同じブ
ロック内に設置されたOpSに定期的に送出し、監視フ
レームの応答フレーム(応答メッセージ)をOpSから受
信する。これによって、各NEは、当該OpSが正常に
動作しているか否かを監視する(図4参照)。
るNE1−1,1−2,1−3は、対応するOpSとして
のOpS10に監視フレームを送信する(ステップS0
1)。
は、監視フレームに対応する応答フレームを、監視フレ
ームの送信元に相当するNEに送信する(ステップS0
2)。
信すると、応答フレームの受信を許容するためのタイマ
を設定する。送信元のNEは、タイマがタイムアウトに
なる前にOpS10から応答フレームを受信した場合に
は、OpS10が正常であると認識する。これに対し、
送信元のNEは、タイマがタイムアウトになる前に応答
フレームを受信しなかった場合には、OpS10に異常
が発生していると認識する。
る動作例について説明する。図5は、システム100の
通常動作の説明図である。図5において、DB11に保
存された第1ブロック情報は、OpS10からOpS2
0,30,40へ転送され、OpS20,30,40は、D
B11,12,13,14を同期化するために、第1ブロ
ック情報を対応するDB12,13,14に格納する。こ
れによって、システム100は、DB11のバックアッ
プデータを3箇所に持つ。
ク情報は、OpS20からOpS10,30,40へ転送
され、OpS10,30,40は、DB21,22,23,
24を同期化するために、第2ブロック情報を対応する
DB21,23,24に格納する。これによって、システ
ム100は、DB22のバックアップデータを3箇所に
持つ。
ク情報は、OpS30からOpS10,20,40へ転送
され、OpS10,20,40は、DB31,32,33,
34を同期化するために、第3ブロック情報を対応する
DB31,32,34に格納する。これによって、システ
ム100は、DB33のバックアップデータを3箇所に
持つ。
ク情報は、OpS40からOpS10,20,30へ転送
され、OpS10,20,30は、DB41,42,43,
44を同期化するために、第4ブロック情報を対応する
DB41,42,43に格納する。これによって、システ
ム100は、DB44のバックアップデータを3箇所に
持つ。
期化する動作の例を示すシーケンス図である。図6は、
OpS10がDB11,12,13,14を同期化する時
のシステム100の動作を示している。OpS10は、
制御対象のNE(ここでは、NE1−1)から結果情報を
受け取った場合には、この結果情報に基づいてDB11
を書き換える(ステップS1〜S4:図2参照)。
って、差分がDB11に発生する。OpS10は、差分
をDB11から取り出し、OpS20,30,40に転送
する(ステップS4−1)。各OpS20,30,40は、
差分をOpS10から受け取ると、差分を用いてDB1
2,13,14を書き換える(ステップS4−2)。これに
よって、DB11,12,13,14が同期化する。
(ここでは、NE1−1)から警報情報を受け取った場合
には、この警報情報に基づいてDB11を書き換える
(ステップS5〜S7:図3参照)。
って、差分がDB11に発生する。OpS10は、差分
をDB11から取り出し、OpS20,30,40に転送
する(ステップS7−1)。
10から受け取ると、差分を用いてDB12,13,14
を書き換える(ステップS7−2)。これによって、DB
11,12,13,14が同期化する。他のブロック2〜
4のOpS20,30,40も、図6に示した動作と同様
の動作を行う。
Sに異常が発生した場合の例を示す説明図であり、図8
は、異常がOpSに発生した場合のシステム100の動
作例を示すシーケンス図である。図7及び図8は、異常
がブロック1のOpS10に発生した場合の動作例を示
している。
1,1−2,1−3は、監視フレームをOpS10に定期
的に送信し、この監視フレームに対応する応答メッセー
ジを受信することによって、OpS10の動作を監視
(OpS10の生存状態を確認)している(図4のステッ
プS01,S02参照)。
ると(図7参照)、OpS10は、NEからの監視フレー
ムに対する応答メッセージを、監視フレームの送信元に
相当するNEに送信することができなくなる。従って、
送信元のNEは、図8に示すように、タイマがタイムア
ウトになる前に応答メッセージを受信することができな
い。これによって、送信元のNEは、OpS10が異常
であると判定する。
同じブロック1内の他のNEとの間で第1代表NEを決
定するための処理(第1代表NE決定処理)を同じブロッ
ク1内の他のNEとの間で実行する(ステップS03)。
(例えば、NE1−2)が、第1代表NE決定処理とし
て、第1調停フレームを当該NEが属するブロック内の
他のNEへ通知する。
理(ステップS03:ステップS03−1及びS03−
2)の例を示すシーケンス図である。図9において、N
E1−1,1−2,1−3は、監視フレームをOpS10
へ定期的に送信することによって、OpS10を監視す
る(ステップS01,S02)。NE間の監視フレームの
送出タイミングは、所定の間隔を有している。
E1−2)は、OpS10の異常を検出すると(ステップ
S03−0)、第1調停フレーム(第1調停メッセージ)
を生成し、ブロック1内の他のNE(ここでは、NE1
−1,1−3)に送信する(ステップS03−1)。第1調
停フレームは、何れのNEが第1代表NEとなるかをN
E間でネゴシエーションするための情報(ネゴシエーシ
ョン情報)を含む。
1−3は、第1調停フレームに対応する第1調停応答フ
レームを生成し、第1調停フレームの送信元のNEとし
てのNE1−2に第1調停応答フレームを送信する(ス
テップS03−2)。
エーション情報として、第1調停フレームの送信元のN
E1−2が第1代表NEとしてブロードキャストフレー
ムBF1(図10(A)参照)の送信を開始することを示す
情報を含み、第1調停応答フレームは、第1調停フレー
ムを受信したNE1−1,1−3がNE1−2がブロー
ドキャストフレームBF1の送信を許可することを示す
情報を含んでいる。
ームを受信すると、第1代表NEとして、代替OpSを
検索するためのブロードキャストを実行する(ステップ
S04)。代替OpSは、他のブロック2,3,4に属
し、異常が発生したOpS10に代わってブロック1内
のNE1−1,1−2,1−3を管理(制御及び監視)する
OpSである。
NEから受信した後にOpSの異常を検出しても、他の
NEに第1調停フレームを送信しない。従って、この例
では、ブロック内で最初にOpSの異常を検出したNE
が第1代表NEとなる。 これに対し、他のNE(第1
調停フレームの送信元のNEを除くNE)がネゴシエー
ションによって第1代表NEになるようにしても良い。
例えば、その時点で最も負荷が少ないNEが第1代表N
Eになるようにしても良い。
予め登録されたテーブルを有し、OpSの異常を検出し
たときに、テーブルが参照され、登録された第1代表N
Eの情報に対応するNEが第1代表NEとなるようにし
ても良い。
NE1−2)は、代替OpSを検索するためのブロード
キャストフレーム(又はマルチキャストフレーム)BF1
を生成し、他のブロック2,3,4にブロードキャスト
(マルチキャスト)する。
BF1の説明図である。ブロードキャストフレームBF
1は、異常発生OpS番号を含んでいる。異常発生Op
S番号は、異常が発生したOpS(異常発生OpS:こ
こではOpS10)の特定情報である。OpSの特定情
報は、OpSのアドレスであっても良い。
ストフレームBF1を受信すると、このブロードキャス
トフレームBF1の応答フレームBRF1を生成し、ブ
ロードキャストフレームBF1の送信元アドレスを用い
て、生成した応答フレームBF1を第1代表NE(NE
1−2)に送信する(ステップS05)。
明図である。応答フレームBRF1は、パラメータとし
て、応答OpS番号,代替可/不可情報,CPU負荷情
報,CPU能力情報,自ブロック接続NE数,自ブロッ
ク収容回線数,異常発生ブロック接続NE数,異常発生
ブロック回線収容数を含んでいる。これらのパラメータ
の内容は以下の通りである。 (a)応答OpS番号:ブロードキャストフレームBF1
に応答するOpS(応答OpS)の番号(応答フレームの
送信元のOpSの特定情報) (b)代替可/不可情報:代替OpSになることが可能か
否かを示すフラグ (c)CPU負荷情報:CPU稼働率(負荷情報) (d)CPU能力:CPUの性能(パフォーマンス情報) (e)自ブロック接続NE数:応答OpSに接続されてい
るNEの数 (f)自ブロック収容回線数:応答OpSに接続されてい
る複数のNEに収容されている回線の数 (g)異常発生ブロック接続NE数:異常発生OpSに接
続されているNEの数 (h)異常発生ブロック収容回線数:異常発生OpSに接
続されている複数のNEに収容されている回線数 図8に戻って、第1代表NE(NE1−2)は、各OpS
20,30,40から応答フレームBRF1を受信する
と、この応答フレームBRF1に含まれたパラメータを
用いて代替OpS選択処理を実行する(ステップS0
6)。
S06)を示すフローチャートである。第1代表NE
は、各OpS20,30,40から応答フレームBRF1
を通じて得たパラメータを比較・照合することによっ
て、代替可/不可情報による絞り込み(ステップS06
−1),CPU負荷情報による絞り込み(ステップS06
−2),応答時間による絞り込み(ステップS06−
3),CPU能力/自ブロック接続NE数/自ブロック
収容回線数/異常発生ブロック接続NE数/異常発生ブ
ロック回線収容数による絞り込み(ステップS06−4)
を実行し、最適な条件を備えるOpSを代替OpSとし
て選択する。ステップS06−1〜S06−4の順序は
任意に設定することができる。
ードキャストフレームBF1を送信してから各OpS2
0,30,40からの応答フレームBRF1を受信するま
での夫々の時間(ブロードキャストフレームBF1に対
する応答時間)である。このため、代表NEは、ブロー
ドキャストフレームBF1を送信すると、自身に搭載さ
れた時計を用いて、各OpS20,30,40に対応する
応答時間を計時及び記録する。
ば、最も又は比較的負荷が少ないOpSである。なお、
本実施形態は、第1代表NEが各OpS20,30,40
との通信路の輻輳情報を取得し、この輻輳情報に基づい
てOpSが選択されるようにしても良い。
(a)〜(h)の少なくとも1つを用いて代替OpSを選択
するようにしても良い。例えば、第1代表NEが応答フ
レームBRF1が最も早く代替OpSに到着したOpS
(応答時間が最も短いOpS)を代替OpSとして選択す
るようにしても良い。この場合には、通信状態が最も良
い代替OpSが選択される。
Eが代替OpSの情報が予め登録されたテーブルを有
し、第1代表NEが決定されたときに、第1代表NEが
代替OpSの情報をテーブルから取得し、この情報に対
応するOpSを代替OpSとして選択するようにしても
良い。
Sを選択すると、代替要求フレームを生成し、代替Op
Sに相当するOpSに送信する(ステップS07)。この
例では、OpS30が代替OpSとして選択され、代替
要求フレームがOpS30に送信される。
ると、代替OpSとしての処理を開始し(ステップS0
8)、代替要求フレームに対応する代替要求応答フレー
ムを返送する(ステップS09)。代替要求応答フレーム
は、代替要求フレームを受信したOpS(OpS30)が
代替要求を承認し代替OpSとして機能することを示す
情報を含む。
フレームを受信すると、第1代表NEが属するブロック
1において、各NE1−1,1−2,1−3がOpS接続
変更処理を実行する(ステップS010)。
S010)を示すシーケンス図である。第1代表NEと
してのNE1−2は、代替OpSとしてのOpS30か
ら代替要求応答フレームを受信すると、ブロック1の他
のNE1−1,1−3に対し、接続変更要求を送信する
(ステップS010−1)。接続変更要求は、各NE1−
1,1−3とOpSとの論理接続を異常発生OpS(Op
S10)から代替OpS(OpS30)に変更することを
要求するための通知であり、代替OpSの特定情報(O
pS番号,又はOpSのアドレス)を含んでいる。
求を送信した後、NE1−2とOpS10との論理接続
の切断処理を実行する(ステップS010−2)。また、
各NE1−1,1−3は、接続変更要求を受信すると、
各NE1−1,1−3とOpS10との論理接続を夫々
切断する(ステップS010−2)。
S10が各NE1−1,1−2,1−3を管理(制御及び
監視)するという関係(管理関係)が抹消される。但し、
各NE1−1,1−2,1−3は、上記した切断処理後
も、OpS10の回復を監視するため、監視フレームを
OpS10へ定期的に送信する。
NE1−1,1−2,1−3は、応答フレームBRF1又
は接続変更要求に含まれた代替OpSの特定情報を用
い、自身と代替OpSとしてのOpS30との接続処理
を実行する(ステップS011)。これによって、新たな
論理接続(管理関係)が各NE1−1,1−2,1−3とO
pS30との間に形成され、複数のNE1−1,1−2,
1−3が代替OpSの管理下に参入する。
理として、OpS10による複数のNE1−1,1−2,
1−3の管理を引き継ぐ。即ち、OpS30は、OpS
10と同様に、各NE1−1,1−2,1−3に対する管
理を行い、自身に対応するDB31,33を更新する。
代わりに第1ブロック情報をDB31に蓄積する。ま
た、OpS30は、DB31を更新する毎に、この更新
によって生じた差分を他のOpS20,40に転送す
る。これによって、第1ブロック情報を蓄積するDB2
1,31,41が同期化される。
ステム100の動作例を説明する。図13は、図7及び
図8に示した動作例において、OpS10が復旧した場
合におけるシステム100の動作を示すシーケンス図で
ある。図14は、第2代表NE決定処理(ステップS0
22)を示すシーケンス図である。
は、切断処理(ステップS010−2)後も、監視フレー
ムをOpS10に定期的に送信し、この監視フレームに
対応する応答メッセージを受け付ける(ステップS0
1)。これによって、各NE1−1,1−2,1−3は、
OpS10の回復を監視する。一方、OpS10は、異
常な状態から回復した場合には(ステップS021)、監
視フレームに対応する応答フレームを送信することがで
きる。
0から応答フレームを受信すると、OpS10が異常状
態から回復したと認識し、第2代表NE決定処理を実行
する(ステップS022)。即ち、各NE1−1,1−2,
1−3は、OpS10の回復を検出すると(ステップS
022−0)、第2調停フレーム(第2調停メッセージ)
をブロック1内の他のNEへ送信する(ステップS02
2−1)。
の回復を検出し、他のNE1−1,1−3に第2調停フ
レームを送信している。第2調停フレームは、何れのN
Eが第2代表NEとなるかをNE間でネゴシエーション
するための情報(ネゴシエーション情報)を含む。
1−3は、第2調停フレームに対応する第2調停応答フ
レームを生成し、NE1−2に送信する(ステップS0
22−2)。この例では、第2調停フレームは、ネゴシ
エーション情報として、第2調停フレームの送信元とし
てのNE1−2が第2代表NEになることを示す情報を
含み、第2調停応答フレームは、第2調停フレームを受
信したNE1−1,1−3がNE1−2が第1代表NE
になることを確認したことを示す情報を含んでいる。
ームを受信すると、第2代表NEとして、復旧担当Op
Sを検索するためのブロードキャストを実行する(ステ
ップS023)。復旧担当OpSは、他のブロック2,
3,4に属し、ブロック1のDB11,21,31,41
(OpS10)の復旧処理を担当するOpSである。
NEから受信した場合には、その受信後にOpSの回復
を検出しても、他のNEに第2調停フレームを送信しな
い。従って、この例では、ブロック内で最初にOpSの
回復を検出したNEが第2代表NEとなる。
の送信元のNEを除くNE)がネゴシエーションによっ
て第2代表NEになるようにしても良い。或いは、各ブ
ロックにおいて、第2代表NEの情報が予め各NEに登
録され、OpSの回復が検出されたときに、登録された
第2代表NEの情報に対応するNEが第2代表NEとな
るようにしても良い。
復旧対象OpSを検索するためのブロードキャストフレ
ーム(又はマルチキャストフレーム)BF2を生成し、他
のブロック2,3,4にブロードキャスト(マルチキャス
ト)する(ステップS023)。
BF2の説明図である。ブロードキャストフレームBF
は、復旧対象OpS番号を含んでいる。復旧対象OpS
番号は、異常状態から回復したOpS(復旧対象Op
S:ここではOpS10)の特定情報である。OpSの
特定情報は、OpSのアドレスであっても良い。
は、ブロードキャストフレームBF2を受信すると、こ
のブロードキャストフレームBF2の応答フレームBR
F2を生成し、ブロードキャストフレームBF2の送信
元アドレスを用いて、生成した応答フレームBF2を第
2代表NE(NE1−2)に送信する(ステップS02
4)。
明図である。応答フレームBRF2は、代替可/不可情
報が復旧担当可/不可情報に代わっている点を除き、応
答フレームBRF1と同じパラメータを有している。復
旧担当可/不可情報は、復旧担当OpSになることが可
能か否かを示すフラグである。
2)は、各OpS20,30,40から応答フレームBR
F2を受信すると、応答フレームBRF2に含まれたパ
ラメータを用いて復旧担当OpS選択処理を実行する
(ステップS025)。
ップS025)を示すフローチャートである。第2代表
NEは、各OpS20,30,40から応答フレームBR
F2を通じて得たパラメータを用い、代替OpS選択処
理(ステップS06)とほぼ同様の処理を行うことによっ
て、復旧担当OpSを選択又は決定する。
情報による絞り込み(ステップS025−1),CPU負
荷情報による絞り込み(ステップS025−2),応答時
間による絞り込み(S025−3),CPU能力/自ブロ
ック接続NE数/自ブロック収容回線数/異常発生ブロ
ック接続NE数/異常発生ブロック回線収容数による絞
り込み(S025−4)を実行し、最適な条件を備えるO
pSを復旧担当OpSとして選択又は決定する。なお、
代替OpSの選択方法として説明した様々な方法は、復
旧担当OpSの選択方法に適用することができる。ま
た、第2代表NEは、代替OpSと異なるOpSを復旧
担当OpSとして選択する構成とするのが好ましい。こ
れによって、1つのOpSに負荷が集中ことを防止で
き、OpSの性能が低下することを防ぐことができる。
当OpSを選択すると、DB復旧要求フレームを生成
し、復旧担当OpSに相当するOpSに送信する(ステ
ップS026)。この例では、OpS20が復旧担当O
pSとして選択され、DB復旧要求フレームがOpS2
0に送信される。
信すると、復旧担当OpSとして、DB復旧処理を実行
する(ステップS028)。即ち、OpS20は、DB2
1,22,23,24に蓄積された第1〜第4ブロック情
報を読み出し、OpS10に転送する。OpS10は、
OpS20から受信した第1〜第4ブロック情報を各D
B11,21,31,41に格納する。これによって、ブ
ロック1のDB11,12,13,14の蓄積内容が、他
のブロック2,3,4における複数のDBと同期化され
る。このようにして、ブロック1のDB11,12,1
3,14が復旧する。
と、DB復旧処理終了通知を第2代表NEとしてのNE
1−2に送信する(ステップS029)。第2代表NE
は、DB復旧処理終了通知を受信すると、代替OpSと
してのOpS30に対し、代替終了通知を送信する(ス
テップS030)。
と、代替終了処理を実行する(ステップS031)。即
ち、OpS30は、各NE1−1,1−2,1−3を管理
するための処理を終了する。その後、OpS30は、代
替終了通知に対する応答通知を代表NEとしてのNE1
−2に送信する(ステップS032)。
通知を受信すると、OpS接続変更処理を実行する(ス
テップS033)。図17は、OpS接続変更処理(ステ
ップS033)を示すシーケンス図である。NE1−2
は、OpS30から応答通知を受信すると、接続変更要
求をNE1−1,1−3に送信することによって、NE
1−1,1−3とOpSとの接続関係を代替OpS(Op
S30)から元のOpS(OpS10)に変更することを
NE1−1,1−3に要求する(ステップS033−
1)。
後、NE1−2とOpS30との接続関係の切断処理を
実行する(ステップS033−2)。また、各NE1−
1,1−3は、接続変更要求を受信すると、各NE1−
1,1−3とOpS30との接続関係を夫々切断する(ス
テップS033−2)。このようにして、各NE1−1,
1−2,1−3は、代替OpSの管理下から離脱する。
自身とOpS10との接続処理を実行する(ステップS
034)。これによって、ブロック1の状態が、OpS
10の異常が発生する前の状態に戻る。
よると、各ブロック(OpSと、このOpSによって管
理されるNEとからなるグループ)において、各NEが
OpSを監視してOpSの異常を検出した場合には、こ
のブロック中の複数のNEの中から第1代表NEが決定
される。第1代表NEは、代替OpSを選択し、選択さ
れた代替OpSに代替要求(「管理要求」に相当)を送信
する。そして、異常が検出されたOpSの管理下に属す
る複数のNE(OpSの異常が検出されたブロック中の
全てのNE)が、代替OpSの管理下に参入する。
OpS(管理装置)が異常によって動作できなくなった場
合には、他のOpSが代替OpSとしてNEの管理を引
き継ぐことによって、OpSのバックアップを図る。
pSを監視し、NEが第1代表NE決定処理,代替Op
S選択処理,代替要求送信,代替OpSへの接続処理を
実行することによって実現される。このように、バック
アップに係る処理がNEの主導によって実現される。
信システム100に設ける必要がないので、通信システ
ム100の運用コストの上昇を抑えることができる。ま
た、OpS間の相互監視によって、OpSの負荷が上昇
し、OpSのパフォーマンスが低下することもない。
F1及びこれに含まれた情報(パラメータ(a)〜(h))を
用いて代替OpSを動的に選択する。例えば、CPU負
荷情報を基準として代替OpSが選択されることによっ
て、その時点で最も負荷が少ないOpSが選択される。
或いは、応答時間を基準として代替OpSが選択される
ことによって、通信状態(トラフィック状態)が最良の
(スループットが最も高い)OpSが選択される。このよ
うに、最適なOpSが代替OpSとして選択され、代替
OpSが代替処理を実行する。これによって、通信シス
テム100の運用が良好に図られる。
自身の管理下に新たに参入した各NEについての管理情
報(図示した例では、第1ブロック情報)を、自身が有す
るデータベースに蓄積し、他のOpSに転送すること
で、異常が検出されたOpSに対応するデータベースを
除くデータベース間で、第1ブロック情報の同期化が実
現される。
OpS故障発生ブロック内の通信装置の論理接続が代替
OpSへ変更されるため、各OpSの管理ブロックのデ
ータベースを他のブロックのOpSでも保持しておき、
変更差分を他のブロックのOpSへ転送することで常に
いくつかのOpSでデータベースを保持し、お互いにバ
ックアップとしての機能を実現することができる。
た場合には、第2代表NEが決定され、第2代表NEが
復旧担当OpSを選択し、復旧担当OpSと回復が検出
されたOpSとの間で復旧処理が実行され、回復が検出
されたOpSが収容する複数のデータベースの復旧が図
られる。そして、代替処理が終了し、代替処理によって
管理されていた複数のNEが代替OpSの管理下から離
脱し、回復が検出されたOpSの管理下に参入する(戻
る)。これによって、通信システム100の状態が、異
常がOpSに発生する前の状態(最適な状態と想定され
ている状態)に戻る。
ができる。 1.OpSの異常が発生したときに、各OpSの負荷や
監視制御ネットワーク状態に応じて最適な代替OpSが
動的に選択され、異常が発生したOpSの配下の通信装
置の論理接続が代替OpSへ変更される。これによっ
て、的確な監視制御ネットワーク(通信システム)の修復
が、最小限の監視制御システム(通信システム)への影響
のもとで実現される。 2.代替OpS決定処理が被監視制御側である通信装置
(NE)で実現されるので、各OpSの負荷削減が実現さ
れる。 3.各OpS装置の正常性確認のために別途上位OpS
を設置・運用する必要がなく、運用コストの低減化が実
現される。 4.OpSの異常が回復したときに、各OpSの負荷や
監視制御ネットワーク状態に応じて最適なDBの復旧を
担当するOpSが動的に選択され、異常から回復したO
pSのDBの復旧処理が、最小限の監視制御システム
(通信システム)への影響のもとで実現される。
加することできる。即ち、実施形態における通信システ
ム100の構築時等において、OpSとNEとを同時に
起動する場合、NEの立ち上がり時間に比べてOpSの
立ち上がり時間が長くなる可能性がある。
送信しても、OpSは、応答フレームを送信する準備が
完了していないので、応答フレームをNEに送信するこ
とができない。この場合には、NEがOpSの異常を誤
って検出してしまう。この問題を解決するため、OpS
からの立ち上げ通知を受信するまではOpS異常を検出
しても、第1調停フレーム(調停メッセージ)を他のNE
に送信したり、ブロードキャストフレームBF1を他の
OpSへ送信したりしない機能(フレーム送信抑止機能)
をNEに実装する。この機能は、NEに搭載されたプロ
セッサが所定のプログラムを実行することによって実現
することができる。
るシーケンス図である。例えば、通信システム100の
構築時において、NEとOpSとを同時に立ち上げた
(起動した)とする(S101,S201)。NEは、起動
によって監視フレームをOpSに送信するための準備を
行い、OpSは、起動によって応答フレームをNEに返
信するための準備を行う。
完了すると、NEはOpSに対する監視フレームの定期
的な送信を開始する。但し、NEの準備が完了した時点
では、NEに設定されたOpSの異常の検出を抑止(禁
止)するための異常検出禁止フラグ(調停メッセージ抑止
フラグ)がオンの状態(異常の検出(第1調停フレームの
送信)を禁止する状態)となっている。
に送信し(S01)、所定期間内に応答フレームを受信で
きなくても、OpSの異常を検出しない。その後、Op
Sの準備が完了すると(S202)、OpSは、準備完了
通知(立ち上げ完了通知)をNEに送信する(S203)。
ると、これに対する応答通知をOpSに送信し(S10
3)、異常検出禁止フラグをオフ(異常の検出を許可する
状態)に設定する(S104)。これによって、NEは、
監視フレームを送信してから所定期間内に応答フレーム
を受信できなかった場合には、OpSの異常を検出し、
第1調停フレームを送信する。一方、OpSは、準備完
了通知を送信した後は、NEからの監視フレームに対
し、応答フレームを返信する。これによって、NEがO
pSの異常を誤って検出することが防止される。
ることができる。 (付記1)少なくとも1つの通信装置を夫々管理する複
数の管理装置がネットワークを通じて相互に接続され、
前記各通信装置は、自身を管理する管理装置を監視し、
この管理装置の異常を検出したときに、この管理装置が
自身を含む複数の通信装置を管理している場合には、こ
れらの複数の通信装置を代表する代表通信装置を決定
し、前記代表通信装置は、前記異常が検出された管理装
置に代わって前記複数の通信装置を管理する代替管理装
置を複数の他の管理装置の中から選択し、選択した代替
管理装置に前記複数の通信装置の管理要求を送信し、前
記複数の通信装置は、前記管理要求が送信された後、前
記代替管理装置の管理下に参入し、前記各管理装置は、
前記管理要求を受信した場合に、前記代替管理装置とし
て、前記複数の通信装置を管理する通信システムにおけ
る管理装置のバックアップシステム。 (付記2)前記代表通信装置は、前記管理要求を送信す
る前に、代替管理装置を選択するためのフレームを前記
複数の他の管理装置へ送信し、前記複数の他の管理装置
は、前記フレームを受信した場合に、このフレームに対
応する応答フレームを前記代表通信装置に送信し、前記
代表通信装置は、前記複数の他の管理装置から応答フレ
ームを夫々受信し、最初に受信した応答フレームの送信
元の他の管理装置を代替管理装置として選択する付記1
記載の通信システムにおける管理装置のバックアップシ
ステム。 (付記3)前記代表通信装置は、前記管理要求を送信す
る前に、代替管理装置を選択するためのフレームを前記
複数の他の管理装置へ送信し、前記複数の他の管理装置
は、前記フレームを受信した場合に、このフレームに対
応する応答フレームを前記代表通信装置に送信し、前記
代表通信装置は、前記他の複数の管理装置からの応答フ
レームを夫々受信し、これらの応答フレームに含まれた
情報を用いて代替管理装置を選択する付記1記載の通信
システムにおける管理装置のバックアップシステム。 (付記4)前記各管理装置は、前記複数の管理装置に夫
々対応する複数のデータベースを有し、自身の管理対象
の通信装置を管理することによって得た情報を用いて自
身に対応するデータベースを更新するとともにこの更新
によって発生した差分情報を全ての他の管理装置に転送
し、他の管理装置から差分情報を受信した場合にこの他
の管理装置に対応するデータベースを受信した差分情報
を用いて更新し、前記異常が検出された管理装置の管理
対象としての前記複数の通信装置を代替管理装置として
管理する場合に、これらの管理によって得た情報を用い
て前記異常が検出された管理装置に対応するデータベー
スを更新するとともにこの更新によって生じた差分情報
を全ての他の管理装置,又は前記異常が検出された管理
装置を除く他の管理装置に転送する付記1記載の通信シ
ステムにおける管理装置のバックアップシステム。 (付記5)前記複数の通信装置のうち、最初に管理装置
の異常を検出した通信装置が代表通信装置になる付記1
記載の通信システムにおける管理装置のバックアップシ
ステム。 (付記6)前記各通信装置は、前記異常が検出された管
理装置が自身のみを管理している場合には、前記複数の
他の管理装置の中から選択した代替管理装置に前記複数
の通信装置の管理要求を送信し、前記管理要求が送信さ
れた後、前記代替管理装置の管理下に参入し、前記各管
理装置は、前記管理要求を受信した場合に、前記代替管
理装置として、前記管理要求の送信元の通信装置を管理
する付記1記載の通信システムにおける管理装置のバッ
クアップシステム。 (付記7)前記複数の通信装置は、前記代替管理装置に
よって管理されている間、前記異常が検出された管理装
置を監視し、前記複数の通信装置の何れかがこの管理装
置の回復を検出した場合に、前記代替管理装置の管理下
から離脱し、前記回復が検出された管理装置の管理下に
戻る付記1記載の通信システムにおける管理装置のバッ
クアップシステム。 (付記8)前記複数の通信装置は、前記代替管理装置に
よって管理されている間、前記異常が検出された管理装
置を夫々監視し、前記複数の通信装置の何れかがこの管
理装置の回復を検出した場合に、これらの複数の通信装
置を代表する第2代表通信装置を決定し、前記第2代表
通信装置は、前記回復が検出された管理装置が有する複
数のデータベースの復旧処理を担当する復旧担当管理装
置を前記複数の他の管理装置の中から選択し、選択した
復旧担当管理装置に前記複数のデータベースの復旧要求
を送信し、前記復旧担当管理装置は、前記復旧要求を受
信した場合に、自身が有する複数のデータベースの蓄積
内容を前記回復が検出された管理装置に転送し、前記回
復が検出された管理装置は、前記復旧担当管理装置から
前記蓄積内容を受信した場合に、この蓄積内容を用いて
前記複数のデータベースを夫々更新する付記4記載の通
信システムにおける管理装置のバックアップシステム。 (付記9)前記第2代表通信装置は、前記復旧要求を送
信する前に、復旧担当管理装置を選択するためのフレー
ムを前記複数の他の管理装置へ送信し、前記複数の他の
管理装置は、前記フレームを受信した場合に、このフレ
ームに対応する応答フレームを前記第2代表通信装置に
送信し、前記第2代表通信装置は、前記他の複数の管理
装置から応答フレームを夫々受信し、最初に受信した応
答フレームの送信元の他の管理装置を復旧担当管理装置
として選択する付記8記載の通信システムにおける管理
装置のバックアップシステム。 (付記10)前記第2代表通信装置は、前記復旧要求を
送信する前に、復旧担当管理装置を選択するためのフレ
ームを前記複数の他の管理装置へ送信し、前記複数の他
の管理装置は、前記フレームを受信した場合に、このフ
レームに対応する応答フレームを前記第2代表通信装置
に送信し、前記第2代表通信装置は、前記複数の他の管
理装置からの応答フレームを夫々受信し、これらの応答
フレームに含まれた情報を用いて復旧担当管理装置を選
択する付記8記載の通信システムにおける管理装置のバ
ックアップシステム。 (付記11)前記第2代表通信装置は、前記複数の他の
管理装置の中から、代替管理装置として選択されていな
い管理装置を復旧担当管理装置として選択する付記8記
載の管理装置のバックアップシステム。 (付記12)前記複数の通信装置のうち、最初に管理装
置の回復を検出した通信装置が第2代表通信装置になる
付記8記載の通信システムにおける管理装置のバックア
ップシステム。 (付記13)前記各通信装置は、自身を管理する管理装
置に監視フレームを送信し、この管理装置から監視フレ
ームの応答フレームを受信することによってこの管理装
置を監視し、前記監視フレームを送信してから所定期間
が経過する前に前記応答フレームを受信せず且つ応答フ
レームを送信するための準備の完了を示す通知を前記管
理装置から既に受信している場合にのみ、前記管理装置
の異常を検出する付記1記載の通信システムの管理装置
のバックアップシステム。 (付記14)少なくとも1つの通信装置を夫々管理する
複数の管理装置がネットワークを通じて相互に接続さ
れ、前記各通信装置は、自身を管理する管理装置を監視
し、この管理装置の異常を検出したときに、この管理装
置が自身を含む複数の通信装置を管理している場合に
は、これらの複数の通信装置を代表する代表通信装置を
決定し、前記代表通信装置は、前記異常が検出された管
理装置に代わって前記複数の通信装置を管理する代替管
理装置を複数の他の管理装置の中から選択し、選択した
代替管理装置に前記複数の通信装置の管理要求を送信
し、前記複数の通信装置は、前記管理要求が送信された
後、前記代替管理装置の管理下に参入し、前記各管理装
置は、前記管理要求を受信した場合に、前記代替管理装
置として、前記複数の通信装置を管理する通信システム
における管理装置のバックアップ方法。 (付記15)前記代表通信装置は、前記管理要求を送信
する前に、代替管理装置を選択するためのフレームを前
記複数の他の管理装置へ送信し、前記複数の他の管理装
置は、前記フレームを受信した場合に、このフレームに
対応する応答フレームを前記代表通信装置に送信し、前
記代表通信装置は、前記複数の他の管理装置から応答フ
レームを夫々受信し、最初に受信した応答フレームの送
信元の他の管理装置を代替管理装置として選択する付記
14記載の通信システムにおける管理装置のバックアッ
プ方法。 (付記16)前記代表通信装置は、前記管理要求を送信
する前に、代替管理装置を選択するためのフレームを前
記複数の他の管理装置へ送信し、前記複数の他の管理装
置は、前記フレームを受信した場合に、このフレームに
対応する応答フレームを前記代表通信装置に送信し、前
記代表通信装置は、前記他の複数の管理装置からの応答
フレームを夫々受信し、これらの応答フレームに含まれ
た情報を用いて代替管理装置を選択する付記14記載の
通信システムにおける管理装置のバックアップ方法。 (付記17)前記各管理装置は、前記複数の管理装置に
夫々対応する複数のデータベースを有し、自身の管理対
象の通信装置を管理することによって得た情報を用いて
自身に対応するデータベースを更新するとともにこの更
新によって発生した差分情報を全ての他の管理装置に転
送し、他の管理装置から差分情報を受信した場合にこの
他の管理装置に対応するデータベースを受信した差分情
報を用いて更新し、前記異常が検出された管理装置の管
理対象としての前記複数の通信装置を代替管理装置とし
て管理する場合に、これらの管理によって得た情報を用
いて前記異常が検出された管理装置に対応するデータベ
ースを更新するとともにこの更新によって生じた差分情
報を全ての他の管理装置,又は前記異常が検出された管
理装置を除く他の管理装置に転送する付記14記載の通
信システムにおける管理装置のバックアップ方法。 (付記18)前記複数の通信装置のうち、最初に管理装
置の異常を検出した通信装置が代表通信装置になる付記
14記載の通信システムにおける管理装置のバックアッ
プ方法。 (付記19)前記各通信装置は、前記異常が検出された
管理装置が自身のみを管理している場合には、前記複数
の他の管理装置の中から選択した代替管理装置に前記複
数の通信装置の管理要求を送信し、前記管理要求が送信
された後、前記代替管理装置の管理下に参入し、前記各
管理装置は、前記管理要求を受信した場合に、前記代替
管理装置として、前記管理要求の送信元の通信装置を管
理する付記14記載の通信システムにおける管理装置の
バックアップ方法。 (付記20)前記複数の通信装置は、前記代替管理装置
によって管理されている間、前記異常が検出された管理
装置を監視し、前記複数の通信装置の何れかがこの管理
装置の回復を検出した場合に、前記代替管理装置の管理
下から離脱し、前記回復が検出された管理装置の管理下
に戻る付記14記載の通信システムにおける管理装置の
バックアップ方法。 (付記21)前記複数の通信装置は、前記代替管理装置
によって管理されている間、前記異常が検出された管理
装置を夫々監視し、前記複数の通信装置の何れかがこの
管理装置の回復を検出した場合に、これらの複数の通信
装置を代表する第2代表通信装置を決定し、前記第2代
表通信装置は、前記回復が検出された管理装置が有する
複数のデータベースの復旧処理を担当する復旧担当管理
装置を前記複数の他の管理装置の中から選択し、選択し
た復旧担当管理装置に前記複数のデータベースの復旧要
求を送信し、前記復旧担当管理装置は、前記復旧要求を
受信した場合に、自身が有する複数のデータベースの蓄
積内容を前記回復が検出された管理装置に転送し、前記
回復が検出された管理装置は、前記復旧担当管理装置か
ら前記蓄積内容を受信した場合に、この蓄積内容を用い
て前記複数のデータベースを夫々更新する付記17記載
の通信システムにおける管理装置のバックアップ方法。 (付記22)前記第2代表通信装置は、前記復旧要求を
送信する前に、復旧担当管理装置を選択するためのフレ
ームを前記複数の他の管理装置へ送信し、前記複数の他
の管理装置は、前記フレームを受信した場合に、このフ
レームに対応する応答フレームを前記第2代表通信装置
に送信し、前記第2代表通信装置は、前記他の複数の管
理装置から応答フレームを夫々受信し、最初に受信した
応答フレームの送信元の他の管理装置を復旧担当管理装
置として選択する付記21記載の通信システムにおける
管理装置のバックアップ方法。 (付記23)前記第2代表通信装置は、前記復旧要求を
送信する前に、復旧担当管理装置を選択するためのフレ
ームを前記複数の他の管理装置へ送信し、前記複数の他
の管理装置は、前記フレームを受信した場合に、このフ
レームに対応する応答フレームを前記第2代表通信装置
に送信し、前記第2代表通信装置は、前記複数の他の管
理装置からの応答フレームを夫々受信し、これらの応答
フレームに含まれた情報を用いて復旧担当管理装置を選
択する付記21記載の通信システムにおける管理装置の
バックアップ方法。 (付記24)前記第2代表通信装置は、前記複数の他の
管理装置の中から、代替管理装置として選択されていな
い管理装置を復旧担当管理装置として選択する付記21
記載の管理装置のバックアップ方法。 (付記25)前記複数の通信装置のうち、最初に管理装
置の回復を検出した通信装置が第2代表通信装置になる
付記21記載の通信システムにおける管理装置のバック
アップ方法。 (付記26)前記各通信装置は、自身を管理する管理装
置に監視フレームを送信し、この管理装置から監視フレ
ームの応答フレームを受信することによってこの管理装
置を監視し、前記監視フレームを送信してから所定期間
が経過する前に前記応答フレームを受信せず且つ応答フ
レームを送信するための準備の完了を示す通知を前記管
理装置から既に受信している場合にのみ、前記管理装置
の異常を検出する付記14記載の通信システムの管理装
置のバックアップ方法。
装置とを含む通信システムにおいて、管理装置を監視す
る装置をさらに設ける必要がなく、且つ管理装置の負荷
上昇を抑えることができる。
を示す図
期化)の説明図
化を説明するシーケンス図
常の発生の説明図
常が発生したときの処理(バックアップ処理)の動作例を
示すシーケンス図
シーケンス図
スト応答フレームの例を示す説明図
フローチャート
シーケンス図
異常が回復したときの処理(DBの復旧)の動作例を示す
シーケンス図
示すシーケンス図
スト応答フレームの例を示す説明図
を示すフローチャート
すシーケンス図
Claims (5)
- 【請求項1】少なくとも1つの通信装置を夫々管理する
複数の管理装置がネットワークを通じて相互に接続さ
れ、 前記各通信装置は、自身を管理する管理装置を監視し、
この管理装置の異常を検出したときに、この管理装置が
自身を含む複数の通信装置を管理している場合には、こ
れらの複数の通信装置を代表する代表通信装置を決定
し、 前記代表通信装置は、前記異常が検出された管理装置に
代わって前記複数の通信装置を管理する代替管理装置を
複数の他の管理装置の中から選択し、選択した代替管理
装置に前記複数の通信装置の管理要求を送信し、 前記複数の通信装置は、前記管理要求が送信された後、
前記代替管理装置の管理下に参入し、 前記各管理装置は、前記管理要求を受信した場合に、前
記代替管理装置として、前記複数の通信装置を管理す
る、通信システムにおける管理装置のバックアップシス
テム。 - 【請求項2】前記各管理装置は、 前記複数の管理装置に夫々対応する複数のデータベース
を有し、 自身の管理対象の通信装置を管理することによって得た
情報を用いて自身に対応するデータベースを更新すると
ともにこの更新によって発生した差分情報を全ての他の
管理装置に転送し、 他の管理装置から差分情報を受信した場合にこの他の管
理装置に対応するデータベースを受信した差分情報を用
いて更新し、 前記異常が検出された管理装置の管理対象としての前記
複数の通信装置を代替管理装置として管理する場合に、
これらの管理によって得た情報を用いて前記異常が検出
された管理装置に対応するデータベースを更新するとと
もにこの更新によって生じた差分情報を全ての他の管理
装置,又は前記異常が検出された管理装置を除く他の管
理装置に転送する請求項1記載の通信システムにおける
管理装置のバックアップシステム。 - 【請求項3】前記複数の通信装置は、前記代替管理装置
によって管理されている間、前記異常が検出された管理
装置を監視し、前記複数の通信装置の何れかがこの管理
装置の回復を検出した場合に、前記代替管理装置の管理
下から離脱し、前記回復が検出された管理装置の管理下
に戻る請求項1記載の通信システムにおける管理装置の
バックアップシステム。 - 【請求項4】前記複数の通信装置は、前記代替管理装置
によって管理されている間、前記異常が検出された管理
装置を夫々監視し、前記複数の通信装置の何れかがこの
管理装置の回復を検出した場合に、これらの複数の通信
装置を代表する第2代表通信装置を決定し、 前記第2代表通信装置は、前記回復が検出された管理装
置が有する複数のデータベースの復旧処理を担当する復
旧担当管理装置を前記複数の他の管理装置の中から選択
し、選択した復旧担当管理装置に前記複数のデータベー
スの復旧要求を送信し、 前記復旧担当管理装置は、前記復旧要求を受信した場合
に、自身が有する複数のデータベースの蓄積内容を前記
回復が検出された管理装置に転送し、 前記回復が検出された管理装置は、前記復旧担当管理装
置から前記蓄積内容を受信した場合に、この蓄積内容を
用いて前記複数のデータベースを夫々更新する請求項2
記載の通信システムにおける管理装置のバックアップシ
ステム。 - 【請求項5】前記各通信装置は、自身を管理する管理装
置に監視フレームを送信し、この管理装置から監視フレ
ームの応答フレームを受信することによってこの管理装
置を監視し、前記監視フレームを送信してから所定期間
が経過する前に前記応答フレームを受信せず且つ応答フ
レームを送信するための準備の完了を示す通知を前記管
理装置から既に受信している場合にのみ、前記管理装置
の異常を検出する請求項1記載の通信システムの管理装
置のバックアップシステム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001132510A JP4491167B2 (ja) | 2001-04-27 | 2001-04-27 | 通信システムにおける管理装置のバックアップシステム |
US09/953,693 US6792558B2 (en) | 2001-04-27 | 2001-09-17 | Backup system for operation system in communications system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001132510A JP4491167B2 (ja) | 2001-04-27 | 2001-04-27 | 通信システムにおける管理装置のバックアップシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002330132A true JP2002330132A (ja) | 2002-11-15 |
JP4491167B2 JP4491167B2 (ja) | 2010-06-30 |
Family
ID=18980513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001132510A Expired - Fee Related JP4491167B2 (ja) | 2001-04-27 | 2001-04-27 | 通信システムにおける管理装置のバックアップシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US6792558B2 (ja) |
JP (1) | JP4491167B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013037655A (ja) * | 2011-08-11 | 2013-02-21 | Fujitsu Ltd | 情報処理プログラムおよび情報処理装置 |
JP2013161115A (ja) * | 2012-02-01 | 2013-08-19 | Nec Corp | ネットワーク運用管理システムおよびネットワーク運用管理方法 |
JP2015103870A (ja) * | 2013-11-21 | 2015-06-04 | 富士通株式会社 | ネットワーク管理システムにおけるネットワークエレメント、ネットワーク管理システム、及び、ネットワークの管理方法 |
JP2015106852A (ja) * | 2013-11-29 | 2015-06-08 | 富士通株式会社 | 伝送装置、伝送システム、及び監視制御方法 |
JP2016212492A (ja) * | 2015-04-30 | 2016-12-15 | セイコーエプソン株式会社 | ネットワークシステム、ネットワークシステムの制御方法、及び、制御装置 |
US10356170B2 (en) | 2015-04-30 | 2019-07-16 | Seiko Epson Corporation | Network system and control method of a network system, and a control device |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6928584B2 (en) | 2000-11-22 | 2005-08-09 | Tellabs Reston, Inc. | Segmented protection system and method |
JP5204613B2 (ja) * | 2008-10-17 | 2013-06-05 | 株式会社バッファロー | 端末装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63285053A (ja) * | 1987-05-18 | 1988-11-22 | Nec Corp | 網管理装置の障害処理方式 |
JPH09116538A (ja) * | 1995-06-19 | 1997-05-02 | Nec Corp | フォールトトレラント広帯域ネットワーク管理システム |
JPH10336221A (ja) * | 1997-06-02 | 1998-12-18 | Nec Corp | 分散型ネットワーク管理システム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4710926A (en) * | 1985-12-27 | 1987-12-01 | American Telephone And Telegraph Company, At&T Bell Laboratories | Fault recovery in a distributed processing system |
US5260945A (en) * | 1989-06-22 | 1993-11-09 | Digital Equipment Corporation | Intermittent component failure manager and method for minimizing disruption of distributed computer system |
US5515501A (en) * | 1994-01-21 | 1996-05-07 | Unisys Corporation | Redundant maintenance architecture |
US5923840A (en) * | 1997-04-08 | 1999-07-13 | International Business Machines Corporation | Method of reporting errors by a hardware element of a distributed computer system |
US6370656B1 (en) * | 1998-11-19 | 2002-04-09 | Compaq Information Technologies, Group L. P. | Computer system with adaptive heartbeat |
US6442713B1 (en) * | 1999-03-30 | 2002-08-27 | International Business Machines Corporation | Cluster node distress signal |
US6535998B1 (en) * | 1999-07-26 | 2003-03-18 | Microsoft Corporation | System recovery by restoring hardware state on non-identical systems |
-
2001
- 2001-04-27 JP JP2001132510A patent/JP4491167B2/ja not_active Expired - Fee Related
- 2001-09-17 US US09/953,693 patent/US6792558B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63285053A (ja) * | 1987-05-18 | 1988-11-22 | Nec Corp | 網管理装置の障害処理方式 |
JPH09116538A (ja) * | 1995-06-19 | 1997-05-02 | Nec Corp | フォールトトレラント広帯域ネットワーク管理システム |
JPH10336221A (ja) * | 1997-06-02 | 1998-12-18 | Nec Corp | 分散型ネットワーク管理システム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013037655A (ja) * | 2011-08-11 | 2013-02-21 | Fujitsu Ltd | 情報処理プログラムおよび情報処理装置 |
JP2013161115A (ja) * | 2012-02-01 | 2013-08-19 | Nec Corp | ネットワーク運用管理システムおよびネットワーク運用管理方法 |
JP2015103870A (ja) * | 2013-11-21 | 2015-06-04 | 富士通株式会社 | ネットワーク管理システムにおけるネットワークエレメント、ネットワーク管理システム、及び、ネットワークの管理方法 |
JP2015106852A (ja) * | 2013-11-29 | 2015-06-08 | 富士通株式会社 | 伝送装置、伝送システム、及び監視制御方法 |
JP2016212492A (ja) * | 2015-04-30 | 2016-12-15 | セイコーエプソン株式会社 | ネットワークシステム、ネットワークシステムの制御方法、及び、制御装置 |
US10356170B2 (en) | 2015-04-30 | 2019-07-16 | Seiko Epson Corporation | Network system and control method of a network system, and a control device |
US10469350B2 (en) | 2015-04-30 | 2019-11-05 | Seiko Epson Corporation | Network system and control method of a network system, and a control device |
Also Published As
Publication number | Publication date |
---|---|
JP4491167B2 (ja) | 2010-06-30 |
US20020162044A1 (en) | 2002-10-31 |
US6792558B2 (en) | 2004-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7269611B2 (en) | Storage system and storage system control method | |
JP5714571B2 (ja) | キャッシュクラスタを構成可能モードで用いるキャッシュデータ処理 | |
WO2017177941A1 (zh) | 主备数据库切换方法和装置 | |
US9734199B1 (en) | Data replication framework | |
CA2611457C (en) | Method and apparatus for facilitating device redundancy in a fault-tolerant system | |
US9785691B2 (en) | Method and apparatus for sequencing transactions globally in a distributed database cluster | |
WO2016070375A1 (zh) | 一种分布式存储复制系统和方法 | |
CN110830283B (zh) | 故障检测方法、装置、设备和系统 | |
CN107153660A (zh) | 分布式数据库系统的故障检测处理方法及其系统 | |
CN102394914A (zh) | 集群脑裂处理方法和装置 | |
JP2010250813A (ja) | ストレージシステムのための方法及びシステム | |
CN112887367B (zh) | 实现分布式集群高可用的方法、系统及计算机可读介质 | |
CN108512753B (zh) | 一种集群文件系统中消息传输的方法及装置 | |
CN105302670B (zh) | 一种采用多机冗余方式对车站进行监控的方法及装置 | |
CN114138732A (zh) | 一种数据处理方法及装置 | |
JP2002330132A (ja) | 通信システムにおける管理装置のバックアップシステム | |
CN107046474B (zh) | 一种服务集群 | |
CN116962498A (zh) | 一种基于分布式架构的服务拆分方法 | |
CN113326251B (zh) | 数据管理方法、系统、设备和存储介质 | |
CN114301763B (zh) | 分布式集群故障的处理方法及系统、电子设备及存储介质 | |
JP2004280337A (ja) | プラントデータ収集装置 | |
WO2007028249A1 (en) | Method and apparatus for sequencing transactions globally in a distributed database cluster with collision monitoring | |
CN108897645B (zh) | 一种基于备用心跳磁盘的数据库集群容灾方法和系统 | |
US9449065B1 (en) | Data replication framework | |
WO2023125412A1 (en) | Method and system for synchronous data replication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100316 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100405 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |