JPH08227407A - マルチコンピュータシステムにおけるデータ共有装置 - Google Patents

マルチコンピュータシステムにおけるデータ共有装置

Info

Publication number
JPH08227407A
JPH08227407A JP7033330A JP3333095A JPH08227407A JP H08227407 A JPH08227407 A JP H08227407A JP 7033330 A JP7033330 A JP 7033330A JP 3333095 A JP3333095 A JP 3333095A JP H08227407 A JPH08227407 A JP H08227407A
Authority
JP
Japan
Prior art keywords
computer
data
report message
memory area
transfer memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7033330A
Other languages
English (en)
Inventor
Takeshi Miyao
宮尾  健
Tomoaki Nakamura
智明 中村
Sunao Kato
加藤  直
Hiroto Tsukahara
裕人 塚原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information and Control Systems Inc
Original Assignee
Hitachi Ltd
Hitachi Process Computer Engineering Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Process Computer Engineering Inc filed Critical Hitachi Ltd
Priority to JP7033330A priority Critical patent/JPH08227407A/ja
Publication of JPH08227407A publication Critical patent/JPH08227407A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】 【目的】共有メモリ装置を有しないマルチコンピュータ
システムにおいて、計算機の相互診断とデータの共有を
単一手段で実現することにより不整合を防止する。 【構成】計算機1,2のマルチコンピュータシステムに
おいて、それぞれの計算機の主メモリに転写メモリ領域
を設け、2台の計算機を接続している監視経路を経由し
て交信する生存報告メッセージに該領域内のデータを転
写データとして付加し、計算機間でデータ転写を行う。 【効果】本発明を用いれば、共有メモリ装置を有しない
マルチコンピュータシステムにおいて、計算機の相互診
断とデータ共有について不整合を発生することなくデー
タを共有することが可能となる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は複数の計算機システムに
おけるデータ共有装置に関する。
【0002】特に、計算機間の生存監視処理に生存報告
メッセージを用いて監視する転写メモリを用いたマルチ
コンピュータシステムにおけるデータ共有装置に関す
る。
【0003】
【従来の技術】一般にマルチコンピュータシステムは、
複数の計算機と,これらの計算機に共有される共有メモ
リ装置と呼ばれる特殊なハードウェアを備えている。共
有メモリ装置にオンライン業務データを格納しておく
と、オンライン業務を処理している計算機が異常停止し
た場合でも、バックアップ用の計算機が業務切替えを行
い、オンラインサービスを停止することなく継続するこ
とができる。
【0004】一方、この種のマルチコンピュータシステ
ムにおける相互診断は、規定周期を定め、その周期ごと
に他計算機に生存報告メッセージを送信し、ある規定時
間内に生存報告メッセージが他計算機にて受信されない
場合に計算機は停止したものと判断する方式を適用して
いる。
【0005】例えば、特開平3−35346号公報では、共有
メモリ装置と通常メッセージを組み合わせることにより
マルチコンピュータシステムにおける相互診断方式を実
現している。
【0006】また、共有メモリ装置と呼ばれる特殊なハ
ードウェアを備えずにデータを共有する技術として、伝
送路を介してデータを共有する技術が、特開昭60−3166
8 号公報に記載されている。
【0007】
【発明が解決しようとする課題】近年、計算機システム
が飛躍的に発展し、ハードウェア,ソフトウェアとも高
性能化,多様化してきている。また、信頼性の点でも、
公共性の強いシステムが多くなり、計算機を複数備えた
マルチコンピュータシステムによりある計算機がダウン
しても別の計算機でバックアップすることにより高信頼
性,高稼働性を実現するに至っている。
【0008】このような状況のもと、計算機間でデータ
を共有する場合、共有されているデータを単に参照する
だけでは計算機が停止したことが検出できないため、計
算機が停止したことを検出するための監視経路とデータ
を共有するための装置という2つの別種の手段を必要と
した。
【0009】ところが2つの別種の手段をマルチコンピ
ュータシステムに適用すると、例えば監視経路が故障し
た場合には、生存報告メッセージが受信されないため、
相手計算機は停止したと判断するが、実際には計算機自
身は正常に動作しているため、共用データが更新される
といったケースのように、2つの別種の手段の間で不整
合が発生する可能性があった。
【0010】以上のことから本発明では、ある計算機が
故障した場合、あるいは計算機内のプログラムが暴走し
た場合でも共有されている一部のデータは破壊されない
ことを保証するデータ共有装置を提供することを目的と
する。
【0011】また本発明では、計算機の診断と共有デー
タの更新との不整合を発生させないデータ共有装置を提
供することを別の目的とする。
【0012】また本発明では、共有されているデータを
参照しただけで計算機が停止したことが検出可能なデー
タ共有装置を提供することを別の目的とする。
【0013】
【課題を解決するための手段】上記目的を達成するため
に、計算機ごとに主メモリ装置内に転写メモリ領域を有
し、また転写メモリ領域のデータを転写する手段を設
け、複数の計算機間には他の計算機の動作を監視するた
めの監視経路有するマルチコンピュータシステムのデー
タ共有装置において、生存報告メッセージに転写すべき
データを付加する手段を設ける。
【0014】また上記目的を達成するために、転写メモ
リ内を各計算機ごとの領域に分割し、各領域ごとに参
照,更新とも可能、あるいは参照のみ可能とするための
手段を設ける。
【0015】
【作用】転写すべきデータを生存報告メッセージに付加
する手段により、複数の計算機を接続する監視経路を経
由して共有データを転写することによって、計算機の診
断と共有データの更新との間で不整合を発生させない作
用がある。
【0016】また、転写メモリ内を各計算機ごとの領域
に分割し、各領域ごとに参照,更新とも可能、あるいは
参照のみ可能とすることにより、ある計算機が故障した
場合でも他の計算機内の転写メモリ領域のデータが破壊
されるのを防止する作用がある。
【0017】
【実施例】以下、本発明の実施例を図を用いて詳細に説
明する。
【0018】(1)第一の実施例 本発明における第一の実施例(以下、実施例1と呼ぶ)
は、1本の監視経路で接続された2台系のマルチコンピ
ュータシステムの例で、オンライン用計算機をバックア
ップ用計算機が監視するシステムの例である。
【0019】図1に実施例1の概要を示す。
【0020】計算機1(101−1)と計算機2(10
1−2)の2台系のマルチコンピュータシステムであ
り、計算機2においてオンライン業務プログラム(41
0)が動作している。一方計算機1では計算機2が異常
停止した場合に備えてバックアップ用プログラム(42
0)が動作し、計算機2の健全性を監視している。
【0021】この実施例においては、それぞれの計算機
の主メモリ装置(103−1,103−2)内には転写メ
モリ領域(110−1,110−2)を設け、現在オン
ライン業務データが格納されている場合を例に説明す
る。
【0022】2台の計算機は監視経路(102)により
接続されており、監視経路を通して生存報告メッセージ
(300)が定周期で交信されている。計算機2上で動
作している生存報告メッセージ送信プログラム(43
0)は定周期で起動され、ヘッダ情報他(301〜30
4)と転写メモリ領域内の転写データ(305−2)か
ら生存報告メッセージを作成(511,512)し、監
視経路を経由して計算機1に送信する(513)。計算
機1では、生存報告メッセージ受信プログラム(44
0)が生存報告メッセージ受信待ちになっており、生存
報告メッセージが受信されると、生存報告メッセージ受
信フラグ(120)をONにし(514)、生存報告メッ
セージ内に含まれる計算機2内の転写メモリ領域内の転
写データ(305)を計算機1内の転写メモリ領域内
(110−1)の対応するエリア(305−1)に転写
(515)する。
【0023】計算機1で動作しているバックアップ用プ
ログラム(420)は定周期で起動され、生存報告メッ
セージ受信フラグ(120)を調べ(517)、生存報
告メッセージ受信フラグがONであれば計算機2が正常
に動作中だと判断し、生存報告メッセージ受信フラグを
OFFにして初期化する。生存報告メッセージ受信フラ
グがOFFのままの場合には計算機2が停止したとして
オンライン業務のバックアップ処理を開始する。
【0024】ここで計算機2のオンライン業務プログラ
ム(410)により更新(516)されたオンライン業務
データは、生存報告メッセージを経由して計算機1の転
写メモリ領域に転写されているので、計算機1のバック
アップ用プログラム(420)が自計算機内の転写メモリ
領域を参照(518)することで読み出すことができ
る。
【0025】図2に実施例1を実現するためのハードウ
ェア構成例を示す。
【0026】計算機1(101−1)と計算機2(10
1−2)は同一のハードウェア構成であり、プロセッサ
(104−1,104−2),主メモリ装置(103−
1,103−2)および通信制御装置(105−1,1
05−2)がシステムバス(106−1,106−2)
により接続されており、計算機1の通信制御装置(10
5−1)と計算機2の通信制御装置(105−2)は監
視経路(102)により接続されている。ここでは本発
明と直接関係のない周辺入出力装置は図示していない。
【0027】図3に生存報告メッセージのフォーマット
の例を示す。
【0028】生存報告メッセージ(300)はヘッダ情
報(301),生存計算機識別子(302),転写メモ
リ先頭アドレス(303),転写サイズ(304)、お
よび転写データ(305)より構成される。
【0029】ヘッダ情報(301)は計算機間で通信を
する上で必要になる通信アドレス等の情報で一般に使用
されている周知のものである。
【0030】計算機識別子はマルチコンピュータシステ
ムを構成する個々の計算機を一意に特定するための情報
であり、実施例1の場合、計算機1は計算機識別子を1
とし、計算機2は計算機識別子を2とすることができ
る。
【0031】生存計算機識別子(302)は、生存報告
メッセージの送信元計算機の計算機識別子であり、自計
算機が正常に動作していることを受信先計算機に通知す
るために用いる。
【0032】転写先頭アドレス(303)は、生存報告
メッセージを受信した計算機内で、転写データ(30
5)を転写すべき主メモリ上の先頭アドレスである。
【0033】転写サイズ(304)は転写データ(30
5)のサイズである。
【0034】転写データ(305)は、生存報告メッセ
ージ送信元計算機から受信先計算機に転写するデータそ
のものでる。受信先計算機において生存報告メッセージ
が受信されると、転写メモリ先頭アドレス(303)か
ら転写サイズ(304)分の転写データ(305)を自
計算機内の転写メモリ領域に転写する。
【0035】転写データは転写メモリ領域の全データで
ある必要はなく、転写メモリ領域を分割して、分割され
たある1つの領域の先頭アドレスとサイズを生存報告メ
ッセージに格納し、一回のメッセージ転送では分割され
た1領域分転写し、次のメッセージでは別の分割領域を
転写することにより、複数のメッセージを用いて転写メ
モリ領域の全領域を転写することができる。
【0036】図4に、生存報告メッセージ送信プログラ
ム(430)のフローチャートを示す。
【0037】該プログラムは規定時間周期で生存報告メ
ッセージを送信するプログラムである。まず規定時間処
理待ち(431)とし、規定時間経過後に処理が再開さ
れる。処理が再開されるとまず生存報告メッセージを作
成(432)する。ここでは、ヘッダ情報を作成(43
4)し、自計算機の計算機識別子をメッセージ内の生存
計算機識別子に格納(435)し、転写メモリ先頭アド
レスと転写サイズを求めてメッセージ内に格納した後
(436)、転写メモリ領域内のデータを生存報告メッ
セージ内の転写データにデータコピーする(437)。
そして作成した生存報告メッセージを実際に送信(43
3)し、その後再び規定時間処理待ち(431)にな
る。
【0038】図5に生存報告メッセージ受信プログラム
(440)のフローチャートを示す。
【0039】該プログラムは、生存報告メッセージの受
信処理を実行するプログラムである。通常、生存報告メ
ッセージ受信待ち(441)状態にあり、該メッセージ
が受信されると、主メモリ装置内に設けられた生存報告
メッセージ受信フラグをONにし(442)、生存報告
メッセージ内の転写データを転写メモリ先頭アドレスか
ら転写サイズ分だけ自計算機の転写メモリ領域にコピー
する(443)。その後、再び生存報告メッセージ受信
待ち(441)となる。
【0040】図6にバックアップ用プログラム(42
0)のフローチャートを示す。
【0041】該プログラムは、オンライン業務を実行し
ている計算機が正常に動作しているかを監視し、異常を
検出した場合には自計算機にてオンライン業務を開始す
るためのプログラムである。
【0042】該プログラムは、まず規定時間処理待ち
(421)とし、規定時間経過すると、生存報告メッセ
ージが受信されているかどうかをチェックするため、生
存報告メッセージ受信フラグがONかどうかを判定する
(422)。該フラグがONの場合は、オンライン業務
を実行している計算機は正常に動作していると判断し、
次回、生存報告メッセージの受信をチェックするため該
フラグをOFFにした後(423)、再び規定時間処理
待ち(421)となる。該フラグがOFFのままの場合
には、オンライン業務を実行している計算機は停止した
と判断し、自計算機内の転写メモリ内に転写されていた
オンライン業務データを参照(424)し、オンライン
業務を開始する(425)。
【0043】図7に計算機2が停止した場合の処理概要
を示す。
【0044】計算機1のバックアップ用プログラムは生
存報告メッセージフラグを常時チェックし、該フラグが
ONの場合にはOFFにする処理をしている(52
1)。今、計算機2に何らかの異常が発生し停止(52
2)すると、生存報告メッセージ送信プログラム(43
0)も動作できないため、生存報告メッセージの送信は
停止してしまう(523)。計算機1で動作しているバ
ックアップ用プログラム(420)において生存報告メ
ッセージ受信フラグ(120)がOFFのままであるこ
とを検知(524)すると、計算機2は停止したと判断
し、計算機1内の転写メモリ内に転写されていたオンラ
イン業務データを参照(525)し、オンライン業務を
開始する。
【0045】(2)第二の実施例 本発明における第二の実施例(以下、実施例2と呼ぶ)
は、一本の監視経路で接続された2台の計算機からなる
マルチコンピュータシステムの例で、2台の計算機が相
互に監視しあうシステムの例である。
【0046】図8に実施例2の概要を示す。
【0047】この例では、計算機1(101−1)と計
算機2(101−2)の両方の計算機において別種のオ
ンライン業務を実施しているものとする。計算機の健全
性に関する監視も監視経路(102)を用いて相互に行
っている。
【0048】実施例2では、それぞれの計算機の主メモ
リ装置内に転写メモリ領域(110−1,110−2)
を設け、さらに該転写メモリ領域を計算機1用(111
−1,111−2)と計算機2用(112−1,112
−2)に分割し、計算機1では計算機1用の転写メモリ
領域は参照,更新とも可能(533)、計算機2用の転
写メモリ領域は参照のみ可能(534)とする。計算機
2では計算機1用の転写メモリ領域は参照のみ可能(5
31)、計算機2用の転写メモリ領域は参照,更新とも
可能(532)とする。
【0049】計算機1では、オンライン業務プログラム
(410−1),バックアップ用プログラム(420−
1),生存報告メッセージ送信プログラム(430−
1),生存報告メッセージ受信プログラム(440−
1)がそれぞれ動作している。
【0050】生存報告メッセージ送信プログラム(43
0−1)は定周期で起動され、ヘッダ情報他と転写メモ
リ領域内の転写データから生存報告メッセージ(300
−1)を作成し、監視経路を経由して計算機2に送信す
る。
【0051】生存報告メッセージ受信プログラム(44
0−1)は生存報告メッセージ受信待ちになっており、
計算機2からの生存報告メッセージ(300−2)が受
信されると、生存報告メッセージ受信フラグ(120−
1)をONにし、生存報告メッセージ内に含まれる計算
機2内の転写メモリ領域内の転写データを計算機1内の
転写メモリ領域内の計算機2用のエリア(112−1)
に転写する。
【0052】バックアップ用プログラム(420−1)
は定周期で起動され、生存報告メッセージ受信フラグ
(120−1)を調べ、生存報告メッセージ受信フラグ
がONであれば計算機2が正常に動作中であるとして生
存報告メッセージ受信フラグをOFFにし、生存報告メ
ッセージ受信フラグがOFFのままの場合には計算機2
が停止したとしてオンライン業務のバックアップ処理を
開始する。
【0053】計算機2においても計算機1と同様、オン
ライン業務プログラム(410−2),バックアップ用プ
ログラム(420−2),生存報告メッセージ送信プロ
グラム(430−2),生存報告メッセージ受信プログ
ラム(440−2)がそれぞれ動作している。説明は計
算機1の場合と同様なので省略する。
【0054】本実施例での特徴は、もし計算機2で動作
しているオンライン業務プログラムが、計算機1用の転
写メモリ領域を誤って更新しようとした場合にも更新不
可のため、計算機2内で動作しているプログラムにより
計算機1用の転写メモリ領域のデータが破壊されること
がない点である。転写メモリ領域の更新処理については
図10で説明する。
【0055】図9にバックアップ用プログラム(420
−1)のフローチャートを示す。
【0056】ここでは計算機1上で動作するバックアッ
プ用プログラム(420−1)について説明する。該プ
ログラムは、計算機2が正常に動作しているかを監視
し、異常を検出した場合に計算機2に対応する転写メモ
リ領域を特定のデータパターンで初期化するプログラム
である。
【0057】該プログラムは、まず規定時間処理待ち
(421)とし、規定時間経過すると、生存報告メッセ
ージが受信されているかどうかをチェックするため、生
存報告メッセージ受信フラグがONかどうかを判定する
(422)。該フラグがONの場合は、計算機2は正常
に動作していると判断し、次回、生存報告メッセージの
受信をチェックするため該フラグをOFFにした後(4
23)、再び規定時間処理待ち(421)となる。該フ
ラグがOFFのままの場合には、計算機2は停止したと
判断し、計算機2用の転写メモリ領域を参照(426)
しデータを取得後、ある特定データパターンで初期化す
る(427)。
【0058】これにより、以降計算機2用の転写メモリ
領域を参照したプログラムは特定データパターンである
かどうかを判定するだけで計算機2が停止していること
を検出できる。
【0059】図10に転写メモリ領域内で計算機ごとに
分割されたエリアそれぞれに対して、誤って更新しよう
とした場合のチェックアウトする手段として、サブルー
チンを使用して実現する方式を示す。
【0060】本実施例では転写メモリ領域内のデータを
更新する場合には転写メモリ更新サブルーチン(60
0)を使用する。該サブルーチンの引数は書き込みアド
レスと書き込みデータである。書き込みアドレスが転写
メモリ領域の自計算機用の領域の範囲内かどうかを判定
(601)し、範囲外であれば異常終了(602)す
る。自計算機用の領域の範囲内であれば、引数で指定さ
れたデータを書き込み(603)、正常終了(604)
する。
【0061】これにより、転写メモリ領域内で計算機ご
とに分割されたエリアそれぞれに対して、誤って更新し
ようとした場合のチェックアウトが可能となる。
【0062】(3)第三の実施例 本発明における第三の実施例(以下、実施例3と呼ぶ)
は、二本の監視経路で接続された2台の計算機からなる
マルチコンピュータシステムの例で、2台の計算機が相
互に監視しあうシステムの例である。実施例2とは監視
経路が二本である点が異なる。
【0063】図11に実施例3の概要を示す。
【0064】実施例3は、監視経路が二本(102−
1,102−2)で、二本の監視経路を経由して生存報
告メッセージが交信される点を除けば実施例2と同じで
ある。監視経路が二本になることに伴う実施例2からの
変更点は、生存報告メッセージ(300−1,300−
2)のフォーマット,生存報告メッセージ送信プログラ
ム(430−1,430−2)および生存報告メッセー
ジ受信プログラム(440−1,440−2)である。
これらについて以下説明する。
【0065】図12に監視経路が二本の場合の生存報告
メッセージ(300)のフォーマットを示す。図3に示
した生存報告メッセージのフォーマットにメッセージ番
号(306)が追加されている。その他のフィールド
(301〜305)は図3と同じである。
【0066】実施例3は、計算機1と計算機2は相互に
監視するシステムの例であるが、図13は、計算機1が
計算機2を監視し、計算機2の転写メモリ領域のデータ
を計算機1の転写メモリ領域に転写する処理を抽出した
図である。
【0067】まず計算機2の主メモリ内にメッセージ番
号格納エリア(121)を設け、計算機1の主メモリ内
に受信済メッセージ番号格納エリア(122)を設け
る。
【0068】計算機2上で動作する生存報告メッセージ
送信プログラム(430−2)は、ヘッダ情報他(30
1〜304)、メッセージ番号格納エリア(121)に
格納されているメッセージ番号(306)、および転写
メモリ領域内の転写データ(305−2)より生存報告
メッセージを作成(541)し、監視経路1(102−
1)および監視経路2(102−2)に該メッセージを
送信する(542,543)。そして、メッセージ番号
格納エリアのメッセージ番号に1加算し、再びメッセー
ジ番号格納エリアに格納する。
【0069】生存報告メッセージ受信プログラム(44
0−1)は、監視経路1および監視経路2から生存報告
メッセージを受信する(544,545)。該プログラ
ムがどちらかの経路から生存報告メッセージを受信する
と、まず該メッセージ内のメッセージ番号と受信済メッ
セージ番号格納エリア(122)に格納されているメッ
セージ番号を比較する。比較が一致しない場合は、該メ
ッセージは初めて受信されたものとして、生存報告メッ
セージ受信フラグをONにし(547)、該メッセージ
内のメッセージ番号を受信済みメッセージ番号格納エリ
アに格納し(546)、その後該メッセージ内の転写デ
ータを計算機2用の転写メモリ領域に転写する(54
8)。該メッセージ内のメッセージ番号と受信済みメッ
セージ番号格納エリアに格納されているメッセージ番号
の比較が一致した場合は、該メッセージは別監視経路を
経由して既に受信されているので、該メッセージは廃棄
する。
【0070】図14に図13における生存報告メッセー
ジ受信プログラム(440−1)のフローチャートを示
す。該プログラムはまず生存報告メッセージ受信待ち
(451)にあり、生存報告メッセージ(300−1,3
00−2)のいずれか一方が受信されると、該受信メッ
セージ内のメッセージ番号と受信済メッセージ番号格納
エリア(122)のメッセージ番号とを比較判定し、受
信生存報告メッセージ内のメッセージ番号が受信済メッ
セージ番号エリアのメッセージ番号より大きな値の場合
には、生存報告メッセージ受信フラグ(120−1)を
ONにし(453)、受信済メッセージ番号格納エリア
(122)に該メッセージ内のメッセージ番号を格納し
(454)、該メッセージ内の転写データを転写メモリ
領域にコピーする(455)。比較判定の結果、受信生
存報告メッセージ内のメッセージ番号が受信済メッセー
ジ番号エリアのメッセージ番号以下の場合には、受信し
た生存報告メッセージは廃棄する(456)。
【0071】図15に、二台の計算機(計算機1,計算
機2)とこれら計算機を結ぶ二本の監視経路(経路1,
経路2)を有する計算機システムにある故障が発生した
場合に、計算機の診断結果と共有データの更新の有無に
ついて不整合が発生するかどうか、従来技術と本発明に
ついて比較した結果を表に示す。
【0072】図15では、計算機2,経路1,経路2の
それぞれ一箇所が故障した際に、計算機1から見た計算
機2の診断を、動作/停止状態といった計算機2の診断
結果、および共有データの更新の有無について場合分け
し、これらの間に不整合が発生するかどうかを検証す
る。
【0073】ここでいう不整合とは、計算機2の診断結
果が停止であるにも関わらず計算機2から共有データの
更新があるケース、または計算機2の診断結果を動作で
あるにもかかわらず共有データの更新がないケースをい
う。
【0074】まず計算機2が故障した場合には、従来技
術,本発明とも、計算機2は停止したと診断し、共有デ
ータが更新されることはない。
【0075】経路1が故障した場合には、従来技術で
は、生存報告メッセージが計算機1では受信できないた
め、計算機2は停止と判断するが、実際に故障したのは
経路1であり計算機ではないので共有データは更新され
る場合がある。そのため計算機2の診断結果と共有デー
タ更新の有無は不整合となる場合がある。
【0076】本発明では、経路1が故障した場合でも経
路2を通して生存報告メッセージが交信されるので、計
算機は動作と診断され、転写メモリを用いた共有データ
は更新される。
【0077】経路2が故障した場合には、従来技術では
生存報告メッセージは監視経路2を用いて交信されるの
で計算機2は動作中であると認識されるが、共有データ
の更新は行えないためこのケースも不整合となる。
【0078】本発明では、経路1故障の場合と同様、経
路2が故障した状態でも経路1を通して生存報告メッセ
ージが交信されるので、計算機は動作と診断され、転写
メモリを用いた共有データは更新される。
【0079】以上のように、従来技術では経路が故障し
た場合には計算機の診断結果と共有データの更新の有無
について不整合が発生するが、本発明では不整合の発生
を排除することができる。図中太枠部分が不整合のケー
スである。
【0080】
【発明の効果】以上説明したように、本発明を用いれ
ば、共有メモリ装置を用いなくても、マルチコンピュー
タシステムにおけるデータ共有が可能となる。
【0081】また本発明を用いれば、ある計算機が故障
した場合でも他の計算機内の転写メモリ領域のデータが
破壊されるのを防止することができる。
【0082】また本発明を用いれば、計算機の診断と共
有データの更新との不整合の発生を防ぐことができる。
【0083】また本発明を用いれば、共有されているデ
ータを参照しただけで計算機が停止したことを検出する
ことができる。
【図面の簡単な説明】
【図1】本発明における第一の実施例の基本概略図であ
る。
【図2】本発明における第一の実施例のハードウェア構
成図である。
【図3】生存報告メッセージフォーマットを表した図で
ある。
【図4】生存報告メッセージ送信プログラムの処理を表
した図である。
【図5】生存報告メッセージ受信プログラムの処理を表
した図である。
【図6】バックアップ用プログラムの処理を表した図で
ある。
【図7】第一の実施例における計算機停止時の処理の流
れを表した図である。
【図8】本発明の第二の実施例の概略図である。
【図9】別のバックアップ用プログラムにおける処理の
図である。
【図10】転写メモリ領域更新サブルーチンにおける処
理の図である。
【図11】本発明の第三の実施例の概略図である。
【図12】別の生存報告メッセージフォーマットを表し
た図である。
【図13】二重化監視経路を用いたデータ転写を表した
図である。
【図14】別の生存報告メッセージ受信プログラムにお
ける処理の図である。
【図15】計算機の診断と共有データの更新の不整合を
対比した図である。
【符号の説明】
101−1,101−2…計算機、102,102−
1,102−2…監視経路、103−1,103−2…
主メモリ装置、104−1,104−2…プロセッサ、
105−1,105−2…通信制御装置、106−1、
106−2…システムバス、110−1,110−2…
転写メモリ領域、120,120−1,120−2…生
存報告メッセージ受信フラグ、121…メッセージ番号
格納エリア、122…受信済メッセージ番号格納エリ
ア、300,300−1,300−2…生存報告メッセ
ージ、301…ヘッダ情報、302…生存計算機識別
子、303…転写メモリ先頭アドレス、304…転写サ
イズ、305…転写データ、306…メッセージ番号、
410,410−1,410−2…オンライン業務プロ
グラム、420,420−1,420−2…バックアップ
用プログラム、430,430−1,430−2…生存
報告メッセージ送信プログラム、440,440−1,
440−2…生存報告メッセージ受信プログラム。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中村 智明 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 加藤 直 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 塚原 裕人 茨城県日立市大みか町五丁目2番1号 日 立プロセスコンピュータエンジニアリング 株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】主メモリ装置を有する複数の計算機からな
    るマルチコンピュータシステムであって、該各計算機の
    主メモリ装置には転写メモリ領域を有するデータ共有装
    置において、他の計算機の動作状態を監視する監視経路
    を有し、計算機が正常に動作していることを示す生存報
    告メッセージを該監視経路を経由して複数計算機間で交
    信し、該生存報告メッセージ内に転写メモリ領域のデー
    タを付加することにより、ある計算機内の転写メモリ領
    域のデータを他の計算機の転写メモリ領域に転写し、他
    の計算機から該データを参照可能とすることを特徴とす
    るデータ共有装置。
  2. 【請求項2】請求項1のデータ共有装置において、前記
    監視経路は複数の監視経路からなり、前記生存報告メッ
    セージが少なくとも一つの該監視経路で受信された場合
    に、該生存報告メッセージの送信元の計算機は正常に動
    作していると判断して、前記転写メモリ領域のデータを
    転写し、該生存報告メッセージがすべての監視経路で受
    信されない場合には、該生存報告メッセージの送信元の
    計算機は停止していると判断して、該転写メモリ領域の
    データはそのまま保持することを特徴とするデータ共有
    装置。
  3. 【請求項3】請求項1のデータ共有装置において、前記
    転写メモリ領域は各計算機に対応した領域に分割され、
    該分割された転写メモリ領域のうち、自計算機用の転写
    メモリ領域は参照/更新とも可能とし、自計算機以外の
    計算機用の転写メモリ領域は参照可能かつ更新不可とす
    ることを特徴とするデータ共有方式。
  4. 【請求項4】請求項1のデータ共有装置において、前記
    監視経路は複数の監視経路からなり、前記転写メモリ領
    域は各計算機に対応した領域に分割され、前記生存報告
    メッセージが少なくとも一つの該監視経路で受信された
    場合に、該生存報告メッセージの送信元の計算機は正常
    に動作していると判断して、該分割された転写メモリ領
    域のデータを転写し、該生存報告メッセージがすべての
    監視経路で受信されない場合には、該生存報告メッセー
    ジの送信元の計算機は停止していると判断して、該計算
    機用の転写メモリ領域のデータをある特定データパター
    ンで初期化することを特徴とするデータ共有装置。
  5. 【請求項5】請求項1のデータ共有装置において、前記
    監視経路は複数の監視経路からなり、前記生存報告メッ
    セージ内に転写メモリ領域のデータおよびメッセージ番
    号を付加し、主メモリ上に受信された生存報告メッセー
    ジ内のメッセージ番号を記憶する領域を設け、該複数の
    監視経路を経由して受信された生存報告メッセージのう
    ち、既に受信されたメッセージ番号を持つ生存報告メッ
    セージは処理済みとして廃棄し、初めて受信されたメッ
    セージ番号を持つ生存報告メッセージの場合には転写メ
    モリ領域のデータを転写することを特徴とするデータ共
    有装置。
JP7033330A 1995-02-22 1995-02-22 マルチコンピュータシステムにおけるデータ共有装置 Pending JPH08227407A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7033330A JPH08227407A (ja) 1995-02-22 1995-02-22 マルチコンピュータシステムにおけるデータ共有装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7033330A JPH08227407A (ja) 1995-02-22 1995-02-22 マルチコンピュータシステムにおけるデータ共有装置

Publications (1)

Publication Number Publication Date
JPH08227407A true JPH08227407A (ja) 1996-09-03

Family

ID=12383555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7033330A Pending JPH08227407A (ja) 1995-02-22 1995-02-22 マルチコンピュータシステムにおけるデータ共有装置

Country Status (1)

Country Link
JP (1) JPH08227407A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101146A (ja) * 1999-09-29 2001-04-13 Omron Corp エージェントシステム及び通信方法並びに機器及び記録媒体
JP2008060713A (ja) * 2006-08-29 2008-03-13 Fuji Xerox Co Ltd 情報処理装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101146A (ja) * 1999-09-29 2001-04-13 Omron Corp エージェントシステム及び通信方法並びに機器及び記録媒体
JP2008060713A (ja) * 2006-08-29 2008-03-13 Fuji Xerox Co Ltd 情報処理装置およびプログラム

Similar Documents

Publication Publication Date Title
US6728746B1 (en) Computer system comprising a plurality of machines connected to a shared memory, and control method for a computer system comprising a plurality of machines connected to a shared memory
US6148415A (en) Backup switching control system and method
US5884018A (en) Method and apparatus for distributed agreement on processor membership in a multi-processor system
US5696895A (en) Fault tolerant multiple network servers
CN101582787B (zh) 一种双机备份系统及备份方法
US4979108A (en) Task synchronization arrangement and method for remote duplex processors
EP0993633B1 (en) Active failure detection
US7389332B1 (en) Method and apparatus for supporting communications between nodes operating in a master-slave configuration
KR20030067712A (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
JPH0844579A (ja) 障害処理方法および情報処理システム
US6629260B1 (en) Automatic reconnection of partner software processes in a fault-tolerant computer system
US20040255186A1 (en) Methods and apparatus for failure detection and recovery in redundant systems
JPH10154085A (ja) 二重化された監視/制御プロセッサによるシステム監視・制御方法および二重化監視/制御プロセッサ・システム
KR20030048503A (ko) 이중화 서버 구조의 데이터 동기화를 위한 통신 시스템 및방법
JPH08227407A (ja) マルチコンピュータシステムにおけるデータ共有装置
JP3420919B2 (ja) 情報処理装置
JP2000244526A (ja) 多重化したネットワーク接続装置システム
JPH0934852A (ja) クラスタシステム
JP2003330905A (ja) コンピュータシステム
JP2002373084A (ja) 二重化システムの状態交換・障害検出兼用方法
KR960003784B1 (ko) 프로세서간 단위 통신망간의 상호 연결장치 및 그 운용방법
JP2000029760A (ja) データベース二重化整合システム及びデータベース二重化整合方法
US11853175B2 (en) Cluster system and restoration method that performs failover control
JP3084383B2 (ja) リング通信路障害処理方式
JPH09160875A (ja) マルチエージェント相互バックアップ方式