JPH08329023A - 並列電子計算機システム - Google Patents

並列電子計算機システム

Info

Publication number
JPH08329023A
JPH08329023A JP7132228A JP13222895A JPH08329023A JP H08329023 A JPH08329023 A JP H08329023A JP 7132228 A JP7132228 A JP 7132228A JP 13222895 A JP13222895 A JP 13222895A JP H08329023 A JPH08329023 A JP H08329023A
Authority
JP
Japan
Prior art keywords
host
master
identification number
hosts
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7132228A
Other languages
English (en)
Inventor
Toshiyuki Sasaoka
利之 笹岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Software Shikoku Ltd
Original Assignee
NEC Software Shikoku Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Software Shikoku Ltd filed Critical NEC Software Shikoku Ltd
Priority to JP7132228A priority Critical patent/JPH08329023A/ja
Publication of JPH08329023A publication Critical patent/JPH08329023A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【目的】並列電子計算機システムにおいて、各ホストが
他ホストの運転状態を監視することにより、マスタホス
トの負荷を軽減する。 【構成】ホスト識別番号0,1,2,3の各ホストは、
ホスト識別番号1,2,3,0のホストの運転状態を監
視する。任意のホストで障害が発生すると、そのホスト
を監視対象としていたホストからマスタ(ホスト識別番
号0)に障害発生を通知し、マスタは各ホストに障害ホ
ストの切り離しを通知する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数台の電子計算機
(以下ホストと記す)が互いに情報の授受を行いながら
並列に動作する並列電子計算機システムに関する。
【0002】
【従来の技術】従来の並列電子計算機システムにおいて
は、特定のホスト(以下マスタと記す)が各ホストの運
転状態を監視し、一括して管理していた。マスタはシス
テム内他の全てのホスト(以下スレーブと記す)に対し
て、あらかじめ定められた時間間隔で、特定の形式の電
文(以下ヘルスチェックと記す)を送信し、ヘルスチェ
ック電文を受信したスレーブは、これに対する応答電文
をマスタに送信する。マスタはこの応答電文の受信によ
り、それぞれのスレーブが正常に動作していると認識し
ていた。
【0003】さらに、全てのスレーブの運転状態をマス
タが一元的に管理するこのような並列電子計算機システ
ムでは、マスタに障害が発生した場合のために、各ホス
トの運転状態や次にマスタとして動作すべきホストな
ど、マスタの動作に必要な情報を他のホストが知ること
が出来るように、全てのホストが共用できる外部記憶装
置上の共用ファイルに格納しておく必要があった。
【0004】
【発明が解決しようとする課題】上述した従来の並列電
子計算機システムでは、マスタの負荷は非常に大きくな
り、場合によってはシステム全体のスレープットにも影
響を与えることもあった。また、共用ファイルに障害が
発生するとシステム全体の運用に支障を来すこともある
という問題点がある。
【0005】
【課題を解決するための手段】本発明の並列電子計算機
システムは、複数台の電子計算機(ホスト)が互いに情
報の授受を行いながら並列に動作する並列電子計算機シ
ステムにおいて、当該システムの代表ホストとしてシス
テムの運転状態を監視するホスト(マスタ)と、当該シ
ステムを構成する前記マスタ以外の全てのホスト(スト
ーブ)が存在し、これらのホストが、システム内で一意
に付与されたホスト識別番号を有し、当該システム内の
任意のホストが、自分以外の任意の一台のホストの運転
状態を監視し、その監視対象ホストで障害が発生し、運
転不能状態になったことを認識した時にその旨を前記マ
スタに通知する他ホスト監視手段と、自分が監視してい
るホストが運転不能になった時に、当該システム内の任
意のホストが、運転不能になったホストが監視していた
ホストに対する監視を継続する障害処理手段とを設けた
ことを特徴とする。
【0006】
【実施例】図1は本発明の一実施例を示す。本例は、4
台のホストで構成されている並列電子計算機システムで
あり、4台のホストにはそれぞれ0から3までのホスト
識別番号が付与されている。
【0007】システムの運転開始時には、ホスト識別番
号0のホストはがマスタとして動作し、ホスト識別番号
1,2及び3のホストはスレーブとして動作する。また
ホスト識別番号3のホストはサブマスタとして動作す
る。以下に本図を用いて他ホスト監視動作について説明
する。
【0008】システムの運用中は、ホスト識別番号0の
ホストはホスト識別番号1のホストを、ホスト識別番号
1のホストはホスト識別番号2のホストを、ホスト識別
番号2のホストはホスト識別番号3のホストを、ホスト
識別番号3のホストはホスト識別番号0のホストを監視
する。
【0009】例えば、図中のホスト識別番号0のホスト
は自分の監視対象であるホスト識別番号1のホストに対
してヘルスチェック電文を送信する。ホスト識別番号0
からのヘルスチェック電文を受信したホスト識別番号1
のホストは、これに対する応答電文をホスト識別番号0
のホストに送信する。ホスト識別番号0のホストは、こ
の応答電文を、あらかじめ定められた時間以内に受信し
た場合に監視対象であるホスト識別番号1のホストが正
常に動作していると認識する。
【0010】さらに、ホスト識別番号1のホストとホス
ト識別番号2のホスト、ホスト識別番号2のホストとホ
スト識別番号3のホスト、ホスト識別番号3のホストと
ホスト識別番号0のホストとの間でも、上述のホスト識
別番号0のホストとホスト識別番号1のホストとの間に
おけるのと同様に、ヘルスチェック電文と応答電文を送
受信することで、他ホストの運転状態を監視する。
【0011】以上のような各ホストによる他ホストの運
転状態の監視は、当然ながら、各ホストが並列的に行
い、かつ1台のホストのみの監視でよいことになる。
【0012】次に障害処理動作について図2を用いて説
明する。前述のように4台のホストで構成されるシステ
ムにおいて、いまホスト識別番号1のホストが監視して
いるホスト識別番号2のホストで障害が発生した場合、
ホスト識別番号1のホストから送信したヘルスチェック
電文に対する応答電文が一定時間経過しても返却されな
い。この時、ホスト識別番号1のホストはホスト識別番
号2のホストで障害が発生したことを認識し、ホスト識
別番号2のホストに対するヘルスチェック電文の送信を
中断し、マスタであるホスト識別番号0のホストに、ホ
スト識別番号2のホストでの障害発生を通知する。
【0013】ホスト識別番号2のホストでの障害発生を
通知されたマスタであるホスト識別番号0のホストは、
ホスト識別番号2のホストを本システムから切り離し、
ホスト識別番号2のホストを除く全てのホストに対し
て、ホスト識別番号2のホストの切り離しを通知する。
【0014】一方、ホスト識別番号2のホストを監視し
ていたホスト識別番号1のホストは、ホスト識別番号2
のホストの切り離し通知をマスタから受信した直後か
ら、監視対象のホストをホスト識別番号2のホストが監
視していたホスト識別番号3のホストとし、ホスト識別
番号3のホストに対してヘルスチェック電文の送信を開
始する。
【0015】次にマスタ自動切替動作について図3を用
いて説明する。
【0016】システム内のマスタとして動作しているホ
スト識別番号0のホストで障害が発生した場合、その障
害はマスタを監視しているサブマスタであるホスト識別
番号3のホストが検出する。サブマスタはマスタでの障
害発生を認識した直後から、新たにマスタとして動作を
開始する。すなわち、新たにマスタになったホスト識別
番号3のホストは、ホスト識別番号0のホストをシステ
ムから切り離し、ホスト識別番号0のホストを除く全て
のホストに対して、マスタの切替を通知する。
【0017】一方、新マスタであるホスト識別番号3の
ホストからマスタの切替通知を受信した各ホストは、ホ
スト識別番号3のホストをマスタと認識して動作を継続
する。また、それまでホスト識別番号3のホストを監視
していたホスト識別番号2のホストはサブマスタである
ことも認識する。
【0018】
【発明の効果】本発明は、従来、マスタが一括して行っ
ていた並列電子計算機システム内の全てのホストの運転
状態監視を、各ホストに分散することにより、マスタの
負荷を軽減させシステム全体のスループットを向上させ
るとともに、マスタが一元的に管理する情報を、他のホ
ストから参照できる構成としたため、システムで共用す
る外部記憶装置上に作成していた共用ファイルが不要に
なるという優れた効果を有する。
【図面の簡単な説明】
【図1】本発明の一実施例における他ホスト監視動作を
説明するためのブロック図である。
【図2】本発明の一実施例における障害処理動作を説明
するためのブロック図である。
【図3】本発明の一実施例におけるマスタ自動切替動作
を説明するためのブロック図である。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数台の電子計算機(ホスト)が互いに
    情報の授受を行いながら並列に動作する並列電子計算機
    システムにおいて、 当該システムの代表ホストとしてシステムの運転状態を
    監視するホスト(マスタ)と、当該システムを構成する
    前記マスタ以外の全てのホスト(ストーブ)が存在し、
    これらのホストが、システム内で一意に付与されたホス
    ト識別番号を有し、 当該システム内の任意のホストが、自分以外の任意の一
    台のホストの運転状態を監視し、その監視対象ホストで
    障害が発生し、運転不能状態になったことを認識した時
    にその旨を前記マスタに通知する他ホスト監視手段と、 自分が監視しているホストが運転不能になった時に、当
    該システム内の任意のホストが、運転不能になったホス
    トが監視していたホストに対する監視を継続する障害処
    理手段とを設けたことを特徴とする並列電子計算機シス
    テム。
  2. 【請求項2】 前記マスタを監視しているホスト(サブ
    マスタ)は、該マスタに障害が発生して、運転不能にな
    ったことを検出した場合に、自分がマスタとして動作を
    始めるマスタ自動切替手段を付加したことを特徴とする
    請求項1記載の並列電子計算機システム。
JP7132228A 1995-05-30 1995-05-30 並列電子計算機システム Pending JPH08329023A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7132228A JPH08329023A (ja) 1995-05-30 1995-05-30 並列電子計算機システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7132228A JPH08329023A (ja) 1995-05-30 1995-05-30 並列電子計算機システム

Publications (1)

Publication Number Publication Date
JPH08329023A true JPH08329023A (ja) 1996-12-13

Family

ID=15076382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7132228A Pending JPH08329023A (ja) 1995-05-30 1995-05-30 並列電子計算機システム

Country Status (1)

Country Link
JP (1) JPH08329023A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010949A (ja) * 1998-06-19 2000-01-14 Nec Corp リレー型分散ヘルスチェック制御システム及び方法
JP2001155002A (ja) * 1999-11-30 2001-06-08 Ntt Comware Corp 監視対象決定装置およびその記録媒体
JP2013130977A (ja) * 2011-12-20 2013-07-04 Fujitsu Ltd 情報処理装置及び動作状態監視方法
JP2020008999A (ja) * 2018-07-04 2020-01-16 富士通株式会社 情報処理システム,情報処理装置および制御プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5627749B2 (ja) * 1976-07-21 1981-06-26
JPS5696346A (en) * 1979-12-29 1981-08-04 Fujitsu Ltd Supervisory and control system of multisystem
JPH0259955A (ja) * 1988-08-26 1990-02-28 Fuji Electric Co Ltd マルチプロセッサシステムにおける動作監視方法
JPH064354A (ja) * 1992-06-22 1994-01-14 Hokkaido Nippon Denki Software Kk マルチプロセッサ間相互監視方式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5627749B2 (ja) * 1976-07-21 1981-06-26
JPS5696346A (en) * 1979-12-29 1981-08-04 Fujitsu Ltd Supervisory and control system of multisystem
JPH0259955A (ja) * 1988-08-26 1990-02-28 Fuji Electric Co Ltd マルチプロセッサシステムにおける動作監視方法
JPH064354A (ja) * 1992-06-22 1994-01-14 Hokkaido Nippon Denki Software Kk マルチプロセッサ間相互監視方式

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010949A (ja) * 1998-06-19 2000-01-14 Nec Corp リレー型分散ヘルスチェック制御システム及び方法
JP2001155002A (ja) * 1999-11-30 2001-06-08 Ntt Comware Corp 監視対象決定装置およびその記録媒体
JP2013130977A (ja) * 2011-12-20 2013-07-04 Fujitsu Ltd 情報処理装置及び動作状態監視方法
US9164824B2 (en) 2011-12-20 2015-10-20 Fujitsu Limited Information processing apparatus and operation status monitoring method
JP2020008999A (ja) * 2018-07-04 2020-01-16 富士通株式会社 情報処理システム,情報処理装置および制御プログラム

Similar Documents

Publication Publication Date Title
US6859889B2 (en) Backup system and method for distributed systems
JP3047275B2 (ja) バックアップ切り換え制御方法
JP4695705B2 (ja) クラスタシステムおよびノード切り替え方法
US5398329A (en) System for switching between first and second control unit and broadcasting switchover to connecting hosts indicating availability of first and second communication links
JPH08329023A (ja) 並列電子計算機システム
CN116347489A (zh) 一种基于数据中心的业务处理方法
JP5050014B2 (ja) ネットワーク監視システム
JP2014532236A (ja) 接続方法
JPH10171769A (ja) 複合計算機システム
JPH08147255A (ja) 障害監視方式
JP2007026038A (ja) パス監視システム,パス監視方法,およびパス監視プログラム
JPH04239831A (ja) 相互プロセッサバックアップ方式
JPH05224964A (ja) バス異常通知方式
JP2000222233A (ja) デュプレックスシステムおよび現用系・待機系切り換え方法
JPH06152570A (ja) 二重化データ処理装置における系切替え処理方式
JPH09160875A (ja) マルチエージェント相互バックアップ方式
JPH06301658A (ja) 疎結合電子計算機システムのリカバリ方式
JPS6129966A (ja) 計算機間メツセ−ジ交換における監視方法
CN117560268A (zh) 集群管理方法及相关装置
CN114442786A (zh) 一种电源故障告警及恢复方法、装置及存储介质
JPH04160531A (ja) クロスコール制御装置
JPH02310755A (ja) ヘルスチェック方式
JPH05250195A (ja) 情報処理システムのヘルスチェック制御方式
JPH1023046A (ja) ポーリング式監視方法
JPH0463419B2 (ja)

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19980707