JPH11306153A - 分散システムのネットワーク管理方式 - Google Patents

分散システムのネットワーク管理方式

Info

Publication number
JPH11306153A
JPH11306153A JP10108358A JP10835898A JPH11306153A JP H11306153 A JPH11306153 A JP H11306153A JP 10108358 A JP10108358 A JP 10108358A JP 10835898 A JP10835898 A JP 10835898A JP H11306153 A JPH11306153 A JP H11306153A
Authority
JP
Japan
Prior art keywords
network
network management
computer
management information
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10108358A
Other languages
English (en)
Inventor
Masao Ijiri
昌男 井尻
Masahiro Ueda
昌広 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP10108358A priority Critical patent/JPH11306153A/ja
Publication of JPH11306153A publication Critical patent/JPH11306153A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 多重化ネットワーク上での分散システムにお
いて、計算機の障害のみならず、ネットワーク状態を監
視し、ネットワーク障害の検出を可能にする。 【解決手段】 各計算機間1〜6のネットワーク障害検
出を行う一定の回覧順序r1を定め、各計算機は他の計
算機からのネットワーク管理情報を受信すると送信元計
算機に対して応答信号を返送すると同時に、計算機内の
記憶領域にネットワーク管理情報を保持し、さらに回覧
順序に従い、記憶領域に保持されているネットワーク管
理情報を、次の計算機に対して複数のネットワーク経路
の一つを選択して送信し、所定時間内に応答信号がない
場合には、これをネットワーク経路の障害発生として検
知し、ネットワーク管理情報を更新して別のネットワー
ク経路を選択して再送し、この送信先計算機への全ての
ネットワーク経路の障害発生を検知した場合、回覧順序
に従いさらに次の計算機に対してネットワーク管理情報
を送信する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、分散システムのネ
ットワーク管理方式、特に、多重化されたネットワーク
によって結合された計算機で構成される分散システムの
計算機間のネットワークの障害発生を自動的に検出する
分散システムのネットワーク管理方式に関するものであ
る。
【0002】
【従来の技術】従来、各計算機は他の計算機からの動作
監視信号を受信すると、送信元計算機に対して応答信号
を返送すると同時に、予め定められた回覧順序に従い次
の計算機に対して動作監視信号を送信し、送信元計算機
が所定時間内に応答信号を受信しない場合には送信先計
算機の障害発生検出を通知し、前記回覧順序に従って次
の計算機に対して動作監視信号を送信することによっ
て、各計算機の障害発生の自動検出を行っていた。例え
ば、図11は従来の分散システムの障害検出方式の一例
である特開平1−217666号公報に示された分散シ
ステムの障害検出方式を示すものである。図11におい
て、各計算機1乃至6はネットワーク7を介してリング
状に接続されており、予め定められた一定の回覧順序r
1に従い各計算機1乃至6の障害検出が行われる。
【0003】図11および図12を参照して通常時の動
作を説明する。任意の計算機1から回覧順序r1に従い
次の計算機2に対して動作監視信号S1が送信される
と、それを受信した計算機2では送信元計算機1に対し
て応答信号S2を返送すると同時に、回覧順序r1に従
い次の計算機3に対して動作監視信号S1を送信する。
以後、全ての計算機間で順次同様の手順が繰り返される
ことにより、障害検出動作が永続的に継続される。
【0004】図13は上記従来技術での障害発生時およ
び回復時の動作を示している。図11および図13を参
照して計算機障害発生時および回復時の動作を説明す
る。図13において、計算機2に障害が発生している場
合、送信元計算機1では応答信号S2待タイムアウト
(T1)として送信先計算機2の障害を検出する。この
とき、送信元計算機1は、送信先計算機2の障害発生検
出通知(100)を行うと共に、回覧順序r1に従い次
の計算機である計算機3に対して動作監視信号S1を送
信し、応答信号S2を監視する。計算機2の障害が回復
すると、計算機1からの動作監視信号S1に対して計算
機2は応答信号S2を返すため計算機1は障害回復検出
通知(110)を行う。
【0005】
【発明が解決しようとする課題】ところで、上記従来の
障害検出方式では、計算機の障害と計算機間のネットワ
ークの障害とがすべて計算機の障害として取り扱われて
しまう。多重化されたネットワークで結合された分散シ
ステムにおいては、計算機間のネットワーク経路が複数
存在し、そのうちの一つのネットワーク経路の障害が発
生しても計算機間の通信は可能であり、分散システム全
体の機能が失われるわけではないから、計算機間のネッ
トワークの状態の監視が必要となる。
【0006】また、従来の障害検出方法では、最初に動
作監視信号を発信するための特別な計算機を決める必要
があり、その計算機が立ち上がった時点からしか障害検
出が行われないという問題がある。
【0007】また、応答信号を返信し、次の計算機に動
作監視信号を送信する前に計算機が障害を発生してしま
った場合、動作監視信号は失われ、以降分散システムの
障害検出が行われなくなってしまうという問題がある。
【0008】また、前の計算機から動作監視信号を受信
すると同時に返信を行い、さらに次の計算機に動作監視
信号を送るため、常にネットワーク上には障害監視のた
めのデータが送信されることになり、常時ネットワーク
資源を消費し続けることになりネットワーク負荷の点で
問題がある。
【0009】また、従来の障害検出方式では、回覧順序
に従って常に次の計算機へ動作監視信号を送信するた
め、次の計算機が長期間障害の場合でも、毎回次の計算
機へ送信、タイムアウト、さらに次の計算機へ送信、と
いう処理を繰り返すことになり、無駄な処理と通信を行
うという問題がある。
【0010】この発明は、上記のような問題点を解消し
ようとするもので、多重化ネットワーク上での分散シス
テムにおいてネットワーク状態を監視し、ネットワーク
障害の検出を可能にするものである。
【0011】
【課題を解決するための手段】この発明に係る分散シス
テムのネットワーク管理方式は、複数の計算機を多重化
ネットワークにより結合して分散処理を実現する分散シ
ステムのネットワーク管理方式であって、各計算機間の
ネットワーク障害検出を行う一定の回覧順序を定め、各
計算機は他の計算機からのネットワーク管理情報を受信
すると送信元計算機に対して応答信号を返送すると同時
に、計算機内の記憶領域にネットワーク管理情報を保持
し、さらに各計算機は上記回覧順序に従い、計算機内の
記憶領域に保持されているネットワーク管理情報を、次
の計算機に対して複数のネットワーク経路の一つを選択
して送信し、送信元計算機が所定時間内に応答信号を受
信しない場合には、このネットワーク経路を障害発生と
して検知し、ネットワーク管理情報を更新して別のネッ
トワーク経路を選択して再送し、この送信先計算機への
全てのネットワーク経路を障害発生として検出した場
合、上記回覧順序に従いさらに次の計算機に対してネッ
トワーク管理情報を送信するようにしたものである。
【0012】また、他の計算機からのネットワーク管理
情報を受信すると送信元計算機に対して応答信号を返送
すると同時に計算機内の記憶領域にネットワーク管理情
報を保持する処理と、各計算機は回覧順序に従い次の計
算機に対して複数のネットワーク経路の一つを選択して
計算機内の記憶領域に保持されているネットワーク管理
情報を送信する処理とを分離し、後者の処理を計算機立
ち上げ後に、所定の周期間隔で行うようにしたものであ
る。
【0013】また、ネットワーク経路の障害発生や回復
を検知した場合または計算機の立ち上げ時には、ネット
ワーク管理情報の送信処理を優先して行うようにしたも
のである。
【0014】また、予め定められた一定期間中、ネット
ワーク管理情報の内容が変化しない場合は、ネットワー
ク管理情報を次の計算機へ送信する周期を長くするよう
にしたものである。
【0015】また、ネットワーク管理情報の内容が変化
した後、予め定められた一定期間は送信周期を短くする
ようにしたものである。
【0016】また、予め定められた回数以上に連続して
ネットワーク経路の障害を検知した場合、以後そのネッ
トワーク経路を使ってのネットワーク管理情報送信処理
を行わないようにしたものである。
【0017】また、ネットワーク経路の障害回復をネッ
トワーク管理情報に反映させるネットワーク管理情報更
新手段を備えたものである。
【0018】
【発明の実施の形態】実施の形態1.図1は、この発明
の実施の形態1に係る分散システムのネットワーク管理
方式の構成を示す図であり、図2は通常時の障害検出動
作を示すシーケンス図、図3は1つのネットワーク経路
障害発生時および回復時の障害検出動作を示すシーケン
ス図、図4は計算機障害発生時および回復時の障害検出
動作を示すシーケンス図である。図1において、1乃至
6は計算機、R1、R2はそれぞれが計算機1乃至6に
接続されたリング状のバスである。本実施の形態による
分散システムのネットワーク管理方式は、各計算機1乃
至6を2重化されたバスR1、R2を介してリング状に
接続したものを対象とし、予め定められた一定の回覧順
序r1に従い計算機1乃至6間のネットワークの障害検
出を行う例を示す。
【0019】次に、図1および図2を参照して、通常時
の障害検出動作を説明する。まず計算機1から回覧順序
r1に従い計算機2に対して、計算機1と計算機2間に
存在する複数あるネットワーク経路R12−1、R12
−2のうち予め定められた順序に従ってネットワーク経
路R12−1を選択し、ネットワーク管理情報S1を送
信する。これを受信した計算機2では、送信元計算機1
に対して応答信号S2を返信し、自計算機の記憶領域に
ネットワーク管理情報を保持し、ネットワーク経路R1
2−1の正常状態を上書きする。さらに、計算機2は回
覧順序r1に従い次の計算機3に対して計算機1と同様
にネットワーク経路R23−1を選択し、記憶領域に保
持しているネットワーク管理情報S1を送信する。以後
全ての計算機間で順次同様の手順が繰り返され、回覧順
序r1の最後の計算機6も初めの計算機1に対してネッ
トワーク管理情報S1を送信し、応答信号S2を監視す
る。計算機1も同様の手順を繰り返すことにより、ネッ
トワーク障害検出動作が永続的に継続される。
【0020】次に、図1および図3を参照して、ネット
ワーク経路障害発生時および回復時の動作を説明する。
計算機1が回覧順序r1に従い次の計算機2に対してネ
ットワーク経路R12−1を用いてネットワーク管理情
報S1を送信した際に、ネットワーク経路R12−1に
障害が発生していると(10)、送信元計算機1では応
答信号S2待タイムアウト(T1)としてネットワーク
経路R12−1の障害を検出する。このとき、送信元計
算機1ではネットワーク経路R12−1の障害発生通知
(20)を行い、自計算機の記憶領域に保持されている
ネットワーク管理情報のネットワーク経路R12−1を
障害状態に変更する。そして別のネットワーク経路R1
2−2を用いて再び計算機2に対して先ほど変更したネ
ットワーク管理情報S1を送信して、応答信号S2を監
視する。以後同様の手順がシステム内の全計算機間で順
次実行され、再び計算機1がネットワーク管理情報を受
信すると、回覧順序r1に従い次の計算機2に対してネ
ットワーク経路R12−1を用いてネットワーク管理情
報S1を送信する。ひとたび、ネットワーク経路R12
−1が回復する(11)と、送信先計算機2で送信元計
算機1からのネットワーク管理情報S1を受信した際に
応答信号S2を返送し、自計算機の記録領域にネットワ
ーク管理情報を保持して、ネットワーク経路R12−1
を正常状態に変更し、ネットワーク経路R12−1の障
害回復検出通知(21)を行う。さらに回覧順序r1に
従い次の計算機3に対して先ほど変更したネットワーク
管理情報S1を送信して、以後通常時の障害検出動作に
戻る。
【0021】次に、図1および図4を参照して、計算機
障害発生時および回復時の動作を説明する。計算機1が
回覧順序r1に従い次の計算機2に対してネットワーク
経路R12−1を用いてネットワーク管理情報S1を送
信した際に、計算機2に障害が発生していると(1
2)、送信元計算機1では応答信号S2待タイムアウト
(T1)としてネットワーク経路R12−1の障害を検
出する。このとき、送信元計算機1ではネットワーク経
路R12−1の障害発生通知(22)を行い、自計算機
の記憶領域に保持されているネットワーク管理情報のネ
ットワーク経路R12−1を障害状態に変更する。そし
て別のネットワーク経路R12−2を用いて再び計算機
2に対して先ほど変更したネットワーク管理情報S1を
送信して、応答信号S2を監視する。すると、送信元計
算機1では応答信号S2待タイムアウト(T1)として
ネットワーク経路R12−2の障害を検出する。このと
き、送信元計算機1ではネットワーク経路R12−2の
障害発生通知(23)を行い、自計算機の記憶領域に保
持されているネットワーク管理情報のネットワーク経路
R12−2を障害状態に変更する。そこで計算機1は、
計算機2の障害発生として、回覧順序r1に従い、もう
1つ先の計算機3に対してネットワーク経路13−1を
用いてネットワーク管理情報S1を送信し、応答信号S
2を監視する。以後同様の手順がシステム内の全計算機
間で順次実行され、再び計算機1がネットワーク管理情
報を受信すると、回覧順序r1に従い次の計算機2に対
してネットワーク経路R12−1を用いてネットワーク
管理情報S1を送信する。ひとたび、計算機2が回復す
る(13)と、送信先計算機2で送信元計算機1からの
ネットワーク管理情報S1を受信した際に応答信号S2
を返送し、自計算機の記憶領域にネットワーク管理情報
を保持し、ネットワーク経路R12−1を正常状態に変
更し、ネットワーク経路R12−1の障害回復検出通知
(24)を行う。さらに回覧順序r1に従い次の計算機
3に対して先ほど変更したネットワーク管理情報S1を
送信して、以後通常時の障害検出動作に戻る。
【0022】本実施の形態では2重化されたネットワー
クについて説明したが、一般にN重化(Nは自然数)さ
れたネットワークによって結合して分散処理を実現する
分散システムにおいても適用できることは言うまでもな
い。
【0023】また、本実施の形態ではリング型ネットワ
ークについて説明したが、バス型ネットワーク、スター
型ネットワークなど、他の型のネットワークによって結
合して分散処理を実現する分散システムにおいても適用
できることは言うまでもない。
【0024】以上説明したように、本実施の形態の分散
システムのネットワーク管理方式では、多重化されたネ
ットワークによって結合して分散処理を実現する分散シ
ステムにおいて、計算機の障害検出、障害回復検出だけ
ではなく、計算機間のネットワークの障害検出、障害回
復検出を行うことができるという効果がある。
【0025】実施の形態2.上記実施の形態1では、分
散システム上で、ある時点でネットワーク監視をしてい
る計算機は高々1つで、ネットワーク管理情報の受信処
理と送信処理は1つの連続した処理として行われてい
た。本実施の形態2では、図5に示すように、ネットワ
ーク管理情報の受信処理手段50とネットワーク管理情
報の送信処理手段60とを別の独立した処理とし、受信
処理手段50は前の計算機からネットワーク管理情報が
送信されたとき(51)のみ動作するイベント駆動型の
処理とし、送信処理手段60は予め定められた周期でタ
イマー管理手段61より起動される定周期型処理として
動作させるものである。
【0026】図6に示すシーケンス図を参照して動作を
説明する。計算機1の送信処理手段60より予め定めら
れた周期間隔(T2)でネットワーク管理情報S1を回
覧順序r1に従って計算機2に対して送信する。計算機
2の受信処理手段50は前の計算機1からのネットワー
ク管理情報を受信すると、計算機内の記憶領域にネット
ワーク管理情報を保持し、送信されてきたネットワーク
経路を正常状態に上書きし、送信元計算機1に対して応
答信号S2を返信する。計算機2の送信処理手段は計算
機2の受信処理手段とは全く独立に、予め定められた周
期間隔(T2)でネットワーク管理情報S1を回覧順序
r1に従って計算機3に対して送信する。各計算機は、
各々受信処理手段はネットワーク管理情報を受信すれば
受信処理を行い、送信処理手段は定周期に送信処理を行
う。
【0027】以上説明したように、ネットワーク管理情
報の受信処理と送信処理を分離し、送信処理を予め定め
られた周期で行うことにより、ネットワーク管理情報の
送受信処理が失われることがなくなり、また最初にネッ
トワーク管理情報を発信する特別な計算機を設定する必
要もなくなるという効果がある。さらに定周期間隔でネ
ットワーク管理情報を送信するのでネットワーク負荷の
低減にもなる。
【0028】実施の形態3.上記実施の形態2では、ネ
ットワーク管理情報は常に予め定められた周期間隔(T
2)毎に回覧順序r1に従って次の計算機に対して送信
される。本実施の形態3では、ネットワーク経路の障害
検出や回復検出やあるいは計算機の立ち上げ時には、ネ
ットワーク管理情報の送信処理を高優先で行うものであ
る。
【0029】図7に示したシーケンス図を参照して動作
を説明する。計算機1の送信処理手段60は予め定めら
れた周期間隔(T2)でネットワーク管理情報S1を回
覧順序r1に従って計算機2に対してネットワーク経路
R12−1を用いて送信し、計算機2からの応答信号S
2を待ち合わせる。今ネットワーク経路R12−1で障
害発生(14)した場合、ネットワーク経路R12−1
を用いたネットワーク管理情報の送信(30)は失敗
し、待ちタイムアウト(T1)時間後に計算機1はネッ
トワーク経路R12−1の障害発生を検出(25)す
る。計算機1はネットワーク経路R12−1の障害発生
情報を付加したネットワーク管理情報を別のネットワー
クR12−2を用いて計算機2に送信(31)する。計
算機2の受信処理手段(50)は、ネットワーク管理情
報を受信した後、計算機内の記憶領域に保持されている
前のネットワーク管理情報と比較し、システムのネット
ワーク管理情報に変更がないかチェックする。上記の場
合、ネットワーク管理情報の変更があるため(ネットワ
ーク経路R12−1の障害検出)受信処理手段(50)
は送信処理手段60に即時にネットワーク管理情報の送
信を依頼する。依頼を受けた送信処理手段60は回覧順
序r1に従って次の計算機3に対してネットワーク管理
情報を送信(32)する。以後、同様の処理を行うこと
によってネットワーク経路の障害発生検出の情報は、元
々の定周期間隔(T2)による送信処理とは異なり、即
時に分散システム全体に送信され各計算機内の記憶領域
に保持されているネットワーク管理情報に反映される
(40)。
【0030】ネットワーク経路R12−1の障害が回復
(15)した場合、計算機1から計算機2へのネットワ
ーク管理情報が正常に計算機2に送信(34)され、計
算機2の受信処理手段50ではネットワーク経路R12
−1の障害回復を検出(26)する。上記の場合、ネッ
トワーク管理情報の変更があったため、受信処理手段5
0は送信処理手段60に即時にネットワーク管理情報の
送信を依頼する。依頼を受けた送信処理手段60は回覧
順序r1に従って次の計算機3に対してネットワーク管
理情報を送信(35)する。以後、同様の処理を行うこ
とによってネットワーク経路の障害回復検出の情報は、
元々の定周期間隔(T2)による送信処理とは異なり、
即時に分散システム全体に送信され各計算機内の記憶領
域に保持されているネットワーク管理情報に反映される
(41)。
【0031】また、計算機の立ち上がり時の場合も同様
に立ち上がった計算機から次の計算機へネットワーク管
理情報が送信され、受信処理手段(50)はネットワー
ク管理情報の更新をチェックしてネットワーク管理情報
の送信を送信処理手段60に依頼し、即時に分散システ
ム全体に計算機立ち上げの情報が展開される。
【0032】以上説明したように、ネットワーク経路の
障害発生検出や障害回復検出時あるいは計算機立ち上げ
時には、ネットワーク管理情報の送信処理を定周期の送
信処理とは別に高優先で行うことによって、ネットワー
ク管理情報の更新を分散システム全体に早く展開できる
という効果がある。
【0033】実施の形態4図8はこの発明の実施の形態
4を説明するシーケンス図である。本実施の形態4で
は、ネットワーク管理情報を監視し、予め定められた期
間T3の間、ネットワーク管理情報に更新が行われなか
った場合、タイマー管理手段61から送信処理手段60
を起動する周期を長くするものである。以下、図8のシ
ーケンス図を参照して説明する。任意の計算機1の送信
処理手段60はタイマー管理手段61から周期T2で起
動され、ネットワーク管理情報S1を回覧順序r1に従
って次の計算機2に送信している。予め定められた期間
T3の間、ネットワーク管理情報に更新が行われなかっ
た場合、タイマー管理手段61から送信処理手段60を
起動する周期をT2より長いT4に変更し、長い周期で
分散システム上のネットワークを監視するようにする。
【0034】以上説明したように、ある一定期間の間、
ネットワーク管理情報の更新が行われなかった場合、分
散システムが安定したと判断し、監視の周期を長くする
ことによって、ネットワークの負荷を低減するという効
果がある。
【0035】実施の形態5.本実施の形態5では、ネッ
トワーク管理情報を監視しネットワーク管理情報に更新
処理が行われた場合、以後、予め定められた期間の間、
送信処理手段60の起動する周期を短くするものであ
る。以下、図9に示すネットワーク経路に障害が発生し
た場合のシーケンス図を参照して説明する。任意の計算
機1の送信処理手段60はタイマー管理手段61から周
期T2で起動され、ネットワーク管理情報S1を送信し
ている際に、ネットワーク経路障害を検出すると、ある
一定期間T5の間、タイマー管理手段61から送信処理
手段60を起動する周期をT6に変更し、短い周期で分
散システム上のネットワークの状態を監視する。一定期
間T5をすぎてもネットワーク管理情報に更新がない場
合、送信処理の周期をT2に戻す。ネットワーク経路の
障害を検出してからT3時間の間、ネットワーク管理情
報に更新がなければ実施の形態4のように送信処理の周
期をT4に延長する。
【0036】本実施の形態では、ネットワーク経路の障
害を検出した場合を示したが、ネットワーク経路の障害
回復を検出したときや計算機の障害検出/障害回復検出
などネットワーク管理情報が更新されるような他の事象
が発生したときも同様に送信処理機能の周期をある一定
期間短くすることは言うまでもない。
【0037】以上説明したように、ネットワーク管理情
報が更新された後、一定期間の間ネットワーク管理情報
の送信処理周期を短くすることで、分散システムのネッ
トワーク状態変化後のシステム不安定な時期でのネット
ワーク状態の監視を強化し、その期間でのネットワーク
状態変化の検出を早期に行い対処することが可能となる
という効果がある。
【0038】実施の形態6.上記実施の形態1では、ネ
ットワーク経路の障害を検出した後も毎回同じネットワ
ーク経路で送信を試みていた。ネットワークの障害では
一時的な障害と永続的な障害があり、永続的な障害の一
例であるハードウェアの障害ではそのハードウェアを交
換するまでの間、障害状態が続くため、無駄なネットワ
ーク経路に対する送信およびタイムアウトを繰り返すこ
とになる。本実施の形態6では、予め定められた回数連
続してネットワーク経路の障害を検出した場合、そのネ
ットワーク経路を使用しないでネットワーク管理情報を
次の計算機へ送信するものである。
【0039】図10のシーケンス図を用いて動作を説明
する。任意の計算機1がネットワーク経路R12−1を
用いて計算機2に対してネットワーク管理情報S1を送
信している場合に、ネットワーク経路R12−1に障害
が発生(16)したとき、計算機1はまずネットワーク
経路R12−1を用いて計算機2からの応答信号S2を
待ち合わせ、タイムアウトとなり別のネットワーク経路
R12−2を使って送信する。ネットワーク経路R12
−1の障害が回復するまでの間、同様な処理が行われる
が、予め定められた値N回連続して(図10ではN=
4)ネットワーク経路の障害発生を検出した場合、以降
ネットワーク経路R12−1を使っての送信は行わず、
別のネットワーク経路R12−2を使って送信を行う。
ネットワーク経路R12−1の障害が回復(17)した
場合、計算機1のネットワーク管理情報更新手段を使っ
て、ネットワーク管理情報内のネットワーク経由R12
−1のデータを正常状態に更新する。それによって計算
機1の送信処理手段60は再びネットワーク経路R12
−1を使ってネットワーク管理情報を送信し始め、ネッ
トワーク経路R12−1の障害回復(27)の情報が分
散システム上の各計算機に展開される。
【0040】上で説明したように、ある一定回数連続し
てネットワーク経路の障害を検出した場合、以降その障
害発生したネットワーク経路を使ってのネットワーク管
理情報の送信処理を行わないことにより、余分な処理を
省き、ネットワークや計算機の負荷を低減するという効
果がある。また、ネットワーク管理情報更新手段を付加
することにより、ネットワーク経路の障害回復した際
に、その情報をネットワーク管理情報に反映し、障害回
復したネットワーク経路を用いてネットワーク管理情報
の送信処理を行うことができる。
【0041】
【発明の効果】以上説明したように、この発明の分散シ
ステムのネットワーク管理方式では、多重化されたネッ
トワークによって計算機を結合して分散処理を実現する
分散システムとしたため、計算機の障害検出、障害回復
検出だけではなく、計算機間のネットワークの障害検
出、障害回復検出を行うことができるという効果があ
る。
【0042】また、ネットワーク管理情報の受信処理と
送信処理を分離し、送信処理を予め定められた周期で行
うようにしたため、ネットワーク管理情報の送受信処理
が失われることがなくなり、また最初にネットワーク管
理情報を発信する特別な計算機を設定する必要もなくな
るという効果がある。さらに、定周期間隔でネットワー
ク管理情報を送信するのでネットワーク負荷の低減にも
なる。
【0043】また、ネットワーク経路の障害発生検出や
障害回復検出時あるいは計算機立ち上げ時には、ネット
ワーク管理情報の送信処理を定周期の送信処理とは別に
高優先で行うようにしたため、ネットワーク管理情報の
更新を分散システム全体に早く展開するという効果があ
る。
【0044】また、ある一定期間の間、ネットワーク管
理情報の更新が行われなかった場合、分散システムが安
定したと判断し、監視の周期を長くするようにしたた
め、ネットワークの負荷を低減するという効果がある。
【0045】また、ネットワーク管理情報が更新された
後、一定期間の間ネットワーク管理情報の送信処理周期
を短くするようにしたため、分散システムのネットワー
ク状態変化後のシステム不安定な時期でのネットワーク
状態の監視を強化し、その期間でのネットワーク状態変
化の検出を早期に行い対処することが可能となるという
効果がある。
【0046】また、ある一定回数連続してネットワーク
経路の障害を検出した場合、以降その障害発生したネッ
トワーク経路を使ってのネットワーク管理情報の送信処
理を行わないようにしたため、余分な処理を省き、ネッ
トワークや計算機の負荷を低減するという効果がある。
さらに、ネットワーク管理情報更新手段を付加するよう
にしたため、ネットワーク経路の障害が回復した際に、
その情報をネットワーク管理情報に反映し、障害が回復
したネットワーク経路を用いてネットワーク管理情報の
送信処理を行うことができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る分散システム
のネットワーク管理方式を示す構成図である。
【図2】 実施の形態1による正常時の障害検出動作を
示すシーケンス図である。
【図3】 実施の形態1によるネットワーク経路障害、
回復時のシーケンス図である。
【図4】 実施の形態1による計算機障害、回復時のシ
ーケンス図である。
【図5】 この発明の実施の形態2に係る分散システム
のネットワーク管理方式のブロック構成図である。
【図6】 実施の形態2によるシーケンス図である。
【図7】 この発明の実施の形態3に係る分散システム
のネットワーク管理方式のシーケンス図である。
【図8】 この発明の実施の形態4に係る分散システム
のネットワーク管理方式のシーケンス図である。
【図9】 この発明の実施の形態5に係る分散システム
のネットワーク管理方式のシーケンス図である。
【図10】 この発明の実施の形態6に係る分散システ
ムのネットワーク管理方式のシーケンス図である。
【図11】 従来の分散システムのネットワーク管理方
式を示す構成図である。
【図12】 従来の分散システムのネットワーク管理方
式の正常時のシーケンス図である。
【図13】 従来の分散システムのネットワーク管理方
式の計算機障害および回復時のシーケンス図である。
【符号の説明】
1乃至6 計算機、R1、R2 バス、R12−1、R
12−2 計算機1と計算機2のネットワーク経路 、
R13−1 計算機1と計算機3のネットワーク経路、
R23−1 計算機2と計算機3のネットワーク経路、
r1 回覧順序、S1 ネットワーク管理情報、S2
応答信号、50 ネットワーク情報受信処理手段、51
前計算機からのネットワーク管理情報の送信イベン
ト、60 ネットワーク情報の送信処理手段、61 タ
イマー管理手段。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 複数の計算機を多重化ネットワークによ
    り結合して分散処理を実現する分散システムのネットワ
    ーク管理方式であって、各計算機間のネットワーク障害
    検出を行う一定の回覧順序を定め、各計算機は他の計算
    機からのネットワーク管理情報を受信すると送信元計算
    機に対して応答信号を返送すると同時に、計算機内の記
    憶領域にネットワーク管理情報を保持し、さらに各計算
    機は上記回覧順序に従い、計算機内の記憶領域に保持さ
    れているネットワーク管理情報を、次の計算機に対して
    複数のネットワーク経路の一つを選択して送信し、送信
    元計算機が所定時間内に応答信号を受信しない場合に
    は、このネットワーク経路を障害発生として検知し、ネ
    ットワーク管理情報を更新して別のネットワーク経路を
    選択して再送し、この送信先計算機への全てのネットワ
    ーク経路を障害発生として検出した場合、上記回覧順序
    に従いさらに次の計算機に対してネットワーク管理情報
    を送信するようにしたことを特徴とする分散システムの
    ネットワーク管理方式。
  2. 【請求項2】 他の計算機からのネットワーク管理情報
    を受信すると送信元計算機に対して応答信号を返送する
    と同時に計算機内の記憶領域にネットワーク管理情報を
    保持する処理と、各計算機は回覧順序に従い次の計算機
    に対して複数のネットワーク経路の一つを選択して計算
    機内の記憶領域に保持されているネットワーク管理情報
    を送信する処理とを分離し、後者の処理を計算機立ち上
    げ後に、所定の周期間隔で行うようにしたことを特徴と
    する請求項1記載の分散システムのネットワーク管理方
    式。
  3. 【請求項3】 ネットワーク経路の障害発生や回復を検
    知した場合または計算機の立ち上げ時には、ネットワー
    ク管理情報の送信処理を、所定の周期間隔によらず優先
    して行うようにしたことを特徴とする請求項2記載の分
    散システムのネットワーク管理方式。
  4. 【請求項4】 予め定められた一定期間中、ネットワー
    ク管理情報の内容が変化しない場合は、ネットワーク管
    理情報を次の計算機へ送信する周期を長くするようにし
    たことを特徴とする請求項2記載の分散システムのネッ
    トワーク管理方式。
  5. 【請求項5】 ネットワーク管理情報の内容が変化した
    後、予め定められた一定期間は送信周期を短くするよう
    にしたことを特徴とする請求項2または請求項3記載の
    分散システムのネットワーク管理方式。
  6. 【請求項6】 予め定められた回数以上に連続してネッ
    トワーク経路の障害を検知した場合、以後そのネットワ
    ーク経路を使ってのネットワーク管理情報送信処理を行
    わないようにしたことを特徴とする請求項1乃至請求項
    5のいずれか一項記載の分散システムのネットワーク管
    理方式。
  7. 【請求項7】 ネットワーク経路の障害回復をネットワ
    ーク管理情報に反映させるネットワーク管理情報更新手
    段を備えたことを特徴とする請求項1乃至請求項6のい
    ずれか一項記載の分散システムのネットワーク管理方
    式。
JP10108358A 1998-04-17 1998-04-17 分散システムのネットワーク管理方式 Pending JPH11306153A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10108358A JPH11306153A (ja) 1998-04-17 1998-04-17 分散システムのネットワーク管理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10108358A JPH11306153A (ja) 1998-04-17 1998-04-17 分散システムのネットワーク管理方式

Publications (1)

Publication Number Publication Date
JPH11306153A true JPH11306153A (ja) 1999-11-05

Family

ID=14482714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10108358A Pending JPH11306153A (ja) 1998-04-17 1998-04-17 分散システムのネットワーク管理方式

Country Status (1)

Country Link
JP (1) JPH11306153A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010052892A1 (ja) * 2008-11-04 2010-05-14 株式会社オートネットワーク技術研究所 通信装置、中継装置、通信システム及び通信方法
JP2016038705A (ja) * 2014-08-07 2016-03-22 富士通株式会社 システム及び異常検知方法
EP3539261A4 (en) * 2016-11-14 2020-10-21 Temple University Of The Commonwealth System Of Higher Education NETWORK-WIDE RELIABLE PARALLEL PROCESSING SYSTEM AND PROCESS

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010052892A1 (ja) * 2008-11-04 2010-05-14 株式会社オートネットワーク技術研究所 通信装置、中継装置、通信システム及び通信方法
CN102204174A (zh) * 2008-11-04 2011-09-28 株式会社自动网络技术研究所 通信装置、中继装置、通信系统及通信方法
JP5111613B2 (ja) * 2008-11-04 2013-01-09 株式会社オートネットワーク技術研究所 通信装置、通信システム及び通信方法
US8972639B2 (en) 2008-11-04 2015-03-03 Autonetworks Technologies, Ltd. Communication apparatus, relay apparatus, communication system and communication method
JP2016038705A (ja) * 2014-08-07 2016-03-22 富士通株式会社 システム及び異常検知方法
EP3539261A4 (en) * 2016-11-14 2020-10-21 Temple University Of The Commonwealth System Of Higher Education NETWORK-WIDE RELIABLE PARALLEL PROCESSING SYSTEM AND PROCESS
US11588926B2 (en) 2016-11-14 2023-02-21 Temple University—Of the Commonwealth System of Higher Education Statistic multiplexed computing system for network-scale reliable high-performance services

Similar Documents

Publication Publication Date Title
US6859889B2 (en) Backup system and method for distributed systems
US5875290A (en) Method and program product for synchronizing operator initiated commands with a failover process in a distributed processing system
US6012150A (en) Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system
JP2001043105A (ja) 高可用性計算機システム及び同システムにおけるデータバックアップ方法
CN111585835B (zh) 一种带外管理系统的控制方法、装置和存储介质
US5384783A (en) Network system and line switching method used therein
JPH11306153A (ja) 分散システムのネットワーク管理方式
JPH04299429A (ja) マルチプロセッサシステムの障害監視方式
JPH05304528A (ja) 多重化通信ノード
JP3246409B2 (ja) 障害監視方式
JPH11177550A (ja) ネットワークの監視方式
JPH01217666A (ja) マルチプロセッサシステムの障害検出方式
JP2518517B2 (ja) 通信バス監視装置
KR100940488B1 (ko) 다중화 모드를 이용한 고장 복구 시스템의 운용 방법
JP3261614B2 (ja) 信号処理システム、信号処理方法、記憶媒体
JPH0630009A (ja) リング型lanにおけるマスタのバックアップ方式
JPH0430218B2 (ja)
JP2000010949A (ja) リレー型分散ヘルスチェック制御システム及び方法
JPH1093617A (ja) 通信処理装置の予備切り替えシステム
JP3446652B2 (ja) 階層型ネットワーク管理システム
JPH11284650A (ja) ネットワーク通信方式
CN112653596A (zh) 一种路由信息下发、网关设备切换的方法及装置
JP2645134B2 (ja) 復旧信号リンクへのメッセージ送出制御方式
JP2000286881A (ja) リング型ネットワークシステム及びその伝送制御装置
JPH09311841A (ja) マルチプロセッサシステム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040106