JPH08227407A

JPH08227407A - マルチコンピュータシステムにおけるデータ共有装置

Info

Publication number: JPH08227407A
Application number: JP7033330A
Authority: JP
Inventors: Takeshi Miyao; 宮尾　　健; Tomoaki Nakamura; 智明中村; Sunao Kato; 加藤　　直; Hiroto Tsukahara; 裕人塚原
Original assignee: Hitachi Ltd; Hitachi Process Computer Engineering Inc
Current assignee: Hitachi Ltd; Hitachi Information and Control Systems Inc
Priority date: 1995-02-22
Filing date: 1995-02-22
Publication date: 1996-09-03

Abstract

(57)【要約】【目的】共有メモリ装置を有しないマルチコンピュータ
システムにおいて、計算機の相互診断とデータの共有を
単一手段で実現することにより不整合を防止する。【構成】計算機１，２のマルチコンピュータシステムに
おいて、それぞれの計算機の主メモリに転写メモリ領域
を設け、２台の計算機を接続している監視経路を経由し
て交信する生存報告メッセージに該領域内のデータを転
写データとして付加し、計算機間でデータ転写を行う。【効果】本発明を用いれば、共有メモリ装置を有しない
マルチコンピュータシステムにおいて、計算機の相互診
断とデータ共有について不整合を発生することなくデー
タを共有することが可能となる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は複数の計算機システムに
おけるデータ共有装置に関する。

【０００２】特に、計算機間の生存監視処理に生存報告
メッセージを用いて監視する転写メモリを用いたマルチ
コンピュータシステムにおけるデータ共有装置に関す
る。

【０００３】

【従来の技術】一般にマルチコンピュータシステムは、
複数の計算機と，これらの計算機に共有される共有メモ
リ装置と呼ばれる特殊なハードウェアを備えている。共
有メモリ装置にオンライン業務データを格納しておく
と、オンライン業務を処理している計算機が異常停止し
た場合でも、バックアップ用の計算機が業務切替えを行
い、オンラインサービスを停止することなく継続するこ
とができる。

【０００４】一方、この種のマルチコンピュータシステ
ムにおける相互診断は、規定周期を定め、その周期ごと
に他計算機に生存報告メッセージを送信し、ある規定時
間内に生存報告メッセージが他計算機にて受信されない
場合に計算機は停止したものと判断する方式を適用して
いる。

【０００５】例えば、特開平3−35346号公報では、共有
メモリ装置と通常メッセージを組み合わせることにより
マルチコンピュータシステムにおける相互診断方式を実
現している。

【０００６】また、共有メモリ装置と呼ばれる特殊なハ
ードウェアを備えずにデータを共有する技術として、伝
送路を介してデータを共有する技術が、特開昭60−3166
8 号公報に記載されている。

【０００７】

【発明が解決しようとする課題】近年、計算機システム
が飛躍的に発展し、ハードウェア，ソフトウェアとも高
性能化，多様化してきている。また、信頼性の点でも、
公共性の強いシステムが多くなり、計算機を複数備えた
マルチコンピュータシステムによりある計算機がダウン
しても別の計算機でバックアップすることにより高信頼
性，高稼働性を実現するに至っている。

【０００８】このような状況のもと、計算機間でデータ
を共有する場合、共有されているデータを単に参照する
だけでは計算機が停止したことが検出できないため、計
算機が停止したことを検出するための監視経路とデータ
を共有するための装置という２つの別種の手段を必要と
した。

【０００９】ところが２つの別種の手段をマルチコンピ
ュータシステムに適用すると、例えば監視経路が故障し
た場合には、生存報告メッセージが受信されないため、
相手計算機は停止したと判断するが、実際には計算機自
身は正常に動作しているため、共用データが更新される
といったケースのように、２つの別種の手段の間で不整
合が発生する可能性があった。

【００１０】以上のことから本発明では、ある計算機が
故障した場合、あるいは計算機内のプログラムが暴走し
た場合でも共有されている一部のデータは破壊されない
ことを保証するデータ共有装置を提供することを目的と
する。

【００１１】また本発明では、計算機の診断と共有デー
タの更新との不整合を発生させないデータ共有装置を提
供することを別の目的とする。

【００１２】また本発明では、共有されているデータを
参照しただけで計算機が停止したことが検出可能なデー
タ共有装置を提供することを別の目的とする。

【００１３】

【課題を解決するための手段】上記目的を達成するため
に、計算機ごとに主メモリ装置内に転写メモリ領域を有
し、また転写メモリ領域のデータを転写する手段を設
け、複数の計算機間には他の計算機の動作を監視するた
めの監視経路有するマルチコンピュータシステムのデー
タ共有装置において、生存報告メッセージに転写すべき
データを付加する手段を設ける。

【００１４】また上記目的を達成するために、転写メモ
リ内を各計算機ごとの領域に分割し、各領域ごとに参
照，更新とも可能、あるいは参照のみ可能とするための
手段を設ける。

【００１５】

【作用】転写すべきデータを生存報告メッセージに付加
する手段により、複数の計算機を接続する監視経路を経
由して共有データを転写することによって、計算機の診
断と共有データの更新との間で不整合を発生させない作
用がある。

【００１６】また、転写メモリ内を各計算機ごとの領域
に分割し、各領域ごとに参照，更新とも可能、あるいは
参照のみ可能とすることにより、ある計算機が故障した
場合でも他の計算機内の転写メモリ領域のデータが破壊
されるのを防止する作用がある。

【００１７】

【実施例】以下、本発明の実施例を図を用いて詳細に説
明する。

【００１８】（１）第一の実施例本発明における第一の実施例（以下、実施例１と呼ぶ）
は、１本の監視経路で接続された２台系のマルチコンピ
ュータシステムの例で、オンライン用計算機をバックア
ップ用計算機が監視するシステムの例である。

【００１９】図１に実施例１の概要を示す。

【００２０】計算機１（１０１−１）と計算機２（１０
１−２）の２台系のマルチコンピュータシステムであ
り、計算機２においてオンライン業務プログラム（４１
０）が動作している。一方計算機１では計算機２が異常
停止した場合に備えてバックアップ用プログラム（４２
０）が動作し、計算機２の健全性を監視している。

【００２１】この実施例においては、それぞれの計算機
の主メモリ装置(１０３−１,１０３−２）内には転写メ
モリ領域（１１０−１，１１０−２）を設け、現在オン
ライン業務データが格納されている場合を例に説明す
る。

【００２２】２台の計算機は監視経路（１０２）により
接続されており、監視経路を通して生存報告メッセージ
（３００）が定周期で交信されている。計算機２上で動
作している生存報告メッセージ送信プログラム（４３
０）は定周期で起動され、ヘッダ情報他（３０１〜３０
４）と転写メモリ領域内の転写データ（３０５−２）か
ら生存報告メッセージを作成（５１１，５１２）し、監
視経路を経由して計算機１に送信する（５１３）。計算
機１では、生存報告メッセージ受信プログラム（４４
０）が生存報告メッセージ受信待ちになっており、生存
報告メッセージが受信されると、生存報告メッセージ受
信フラグ(１２０）をＯＮにし(５１４）、生存報告メッ
セージ内に含まれる計算機２内の転写メモリ領域内の転
写データ（３０５）を計算機１内の転写メモリ領域内
（１１０−１）の対応するエリア（３０５−１）に転写
（５１５）する。

【００２３】計算機１で動作しているバックアップ用プ
ログラム（４２０）は定周期で起動され、生存報告メッ
セージ受信フラグ（１２０）を調べ（５１７）、生存報
告メッセージ受信フラグがＯＮであれば計算機２が正常
に動作中だと判断し、生存報告メッセージ受信フラグを
ＯＦＦにして初期化する。生存報告メッセージ受信フラ
グがＯＦＦのままの場合には計算機２が停止したとして
オンライン業務のバックアップ処理を開始する。

【００２４】ここで計算機２のオンライン業務プログラ
ム(４１０）により更新(５１６）されたオンライン業務
データは、生存報告メッセージを経由して計算機１の転
写メモリ領域に転写されているので、計算機１のバック
アップ用プログラム(４２０)が自計算機内の転写メモリ
領域を参照（５１８）することで読み出すことができ
る。

【００２５】図２に実施例１を実現するためのハードウ
ェア構成例を示す。

【００２６】計算機１（１０１−１）と計算機２（１０
１−２）は同一のハードウェア構成であり、プロセッサ
（１０４−１，１０４−２），主メモリ装置（１０３−
１，１０３−２）および通信制御装置（１０５−１，１
０５−２）がシステムバス（１０６−１，１０６−２）
により接続されており、計算機１の通信制御装置（１０
５−１）と計算機２の通信制御装置（１０５−２）は監
視経路（１０２）により接続されている。ここでは本発
明と直接関係のない周辺入出力装置は図示していない。

【００２７】図３に生存報告メッセージのフォーマット
の例を示す。

【００２８】生存報告メッセージ（３００）はヘッダ情
報（３０１），生存計算機識別子（３０２），転写メモ
リ先頭アドレス（３０３），転写サイズ（３０４）、お
よび転写データ（３０５）より構成される。

【００２９】ヘッダ情報（３０１）は計算機間で通信を
する上で必要になる通信アドレス等の情報で一般に使用
されている周知のものである。

【００３０】計算機識別子はマルチコンピュータシステ
ムを構成する個々の計算機を一意に特定するための情報
であり、実施例１の場合、計算機１は計算機識別子を１
とし、計算機２は計算機識別子を２とすることができ
る。

【００３１】生存計算機識別子（３０２）は、生存報告
メッセージの送信元計算機の計算機識別子であり、自計
算機が正常に動作していることを受信先計算機に通知す
るために用いる。

【００３２】転写先頭アドレス（３０３）は、生存報告
メッセージを受信した計算機内で、転写データ（３０
５）を転写すべき主メモリ上の先頭アドレスである。

【００３３】転写サイズ（３０４）は転写データ（３０
５）のサイズである。

【００３４】転写データ（３０５）は、生存報告メッセ
ージ送信元計算機から受信先計算機に転写するデータそ
のものでる。受信先計算機において生存報告メッセージ
が受信されると、転写メモリ先頭アドレス(３０３）か
ら転写サイズ(３０４）分の転写データ（３０５）を自
計算機内の転写メモリ領域に転写する。

【００３５】転写データは転写メモリ領域の全データで
ある必要はなく、転写メモリ領域を分割して、分割され
たある１つの領域の先頭アドレスとサイズを生存報告メ
ッセージに格納し、一回のメッセージ転送では分割され
た１領域分転写し、次のメッセージでは別の分割領域を
転写することにより、複数のメッセージを用いて転写メ
モリ領域の全領域を転写することができる。

【００３６】図４に、生存報告メッセージ送信プログラ
ム（４３０）のフローチャートを示す。

【００３７】該プログラムは規定時間周期で生存報告メ
ッセージを送信するプログラムである。まず規定時間処
理待ち（４３１）とし、規定時間経過後に処理が再開さ
れる。処理が再開されるとまず生存報告メッセージを作
成（４３２）する。ここでは、ヘッダ情報を作成（４３
４）し、自計算機の計算機識別子をメッセージ内の生存
計算機識別子に格納（４３５）し、転写メモリ先頭アド
レスと転写サイズを求めてメッセージ内に格納した後
（４３６）、転写メモリ領域内のデータを生存報告メッ
セージ内の転写データにデータコピーする（４３７）。
そして作成した生存報告メッセージを実際に送信（４３
３）し、その後再び規定時間処理待ち（４３１）にな
る。

【００３８】図５に生存報告メッセージ受信プログラム
（４４０）のフローチャートを示す。

【００３９】該プログラムは、生存報告メッセージの受
信処理を実行するプログラムである。通常、生存報告メ
ッセージ受信待ち（４４１）状態にあり、該メッセージ
が受信されると、主メモリ装置内に設けられた生存報告
メッセージ受信フラグをＯＮにし（４４２）、生存報告
メッセージ内の転写データを転写メモリ先頭アドレスか
ら転写サイズ分だけ自計算機の転写メモリ領域にコピー
する（４４３）。その後、再び生存報告メッセージ受信
待ち（４４１）となる。

【００４０】図６にバックアップ用プログラム（４２
０）のフローチャートを示す。

【００４１】該プログラムは、オンライン業務を実行し
ている計算機が正常に動作しているかを監視し、異常を
検出した場合には自計算機にてオンライン業務を開始す
るためのプログラムである。

【００４２】該プログラムは、まず規定時間処理待ち
（４２１）とし、規定時間経過すると、生存報告メッセ
ージが受信されているかどうかをチェックするため、生
存報告メッセージ受信フラグがＯＮかどうかを判定する
（４２２）。該フラグがＯＮの場合は、オンライン業務
を実行している計算機は正常に動作していると判断し、
次回、生存報告メッセージの受信をチェックするため該
フラグをＯＦＦにした後（４２３）、再び規定時間処理
待ち（４２１）となる。該フラグがＯＦＦのままの場合
には、オンライン業務を実行している計算機は停止した
と判断し、自計算機内の転写メモリ内に転写されていた
オンライン業務データを参照（４２４）し、オンライン
業務を開始する（４２５）。

【００４３】図７に計算機２が停止した場合の処理概要
を示す。

【００４４】計算機１のバックアップ用プログラムは生
存報告メッセージフラグを常時チェックし、該フラグが
ＯＮの場合にはＯＦＦにする処理をしている（５２
１）。今、計算機２に何らかの異常が発生し停止（５２
２）すると、生存報告メッセージ送信プログラム（４３
０）も動作できないため、生存報告メッセージの送信は
停止してしまう（５２３）。計算機１で動作しているバ
ックアップ用プログラム（４２０）において生存報告メ
ッセージ受信フラグ（１２０）がＯＦＦのままであるこ
とを検知（５２４）すると、計算機２は停止したと判断
し、計算機１内の転写メモリ内に転写されていたオンラ
イン業務データを参照（５２５）し、オンライン業務を
開始する。

【００４５】（２）第二の実施例本発明における第二の実施例（以下、実施例２と呼ぶ）
は、一本の監視経路で接続された２台の計算機からなる
マルチコンピュータシステムの例で、２台の計算機が相
互に監視しあうシステムの例である。

【００４６】図８に実施例２の概要を示す。

【００４７】この例では、計算機１（１０１−１）と計
算機２（１０１−２）の両方の計算機において別種のオ
ンライン業務を実施しているものとする。計算機の健全
性に関する監視も監視経路（１０２）を用いて相互に行
っている。

【００４８】実施例２では、それぞれの計算機の主メモ
リ装置内に転写メモリ領域（１１０−１，１１０−２）
を設け、さらに該転写メモリ領域を計算機１用（１１１
−１，１１１−２）と計算機２用（１１２−１，１１２
−２）に分割し、計算機１では計算機１用の転写メモリ
領域は参照，更新とも可能（５３３）、計算機２用の転
写メモリ領域は参照のみ可能（５３４）とする。計算機
２では計算機１用の転写メモリ領域は参照のみ可能(５
３１)、計算機２用の転写メモリ領域は参照，更新とも
可能（５３２）とする。

【００４９】計算機１では、オンライン業務プログラム
（４１０−１），バックアップ用プログラム（４２０−
１），生存報告メッセージ送信プログラム（４３０−
１），生存報告メッセージ受信プログラム（４４０−
１）がそれぞれ動作している。

【００５０】生存報告メッセージ送信プログラム（４３
０−１）は定周期で起動され、ヘッダ情報他と転写メモ
リ領域内の転写データから生存報告メッセージ(３００
−１)を作成し、監視経路を経由して計算機２に送信す
る。

【００５１】生存報告メッセージ受信プログラム（４４
０−１）は生存報告メッセージ受信待ちになっており、
計算機２からの生存報告メッセージ（３００−２）が受
信されると、生存報告メッセージ受信フラグ（１２０−
１）をＯＮにし、生存報告メッセージ内に含まれる計算
機２内の転写メモリ領域内の転写データを計算機１内の
転写メモリ領域内の計算機２用のエリア（１１２−１）
に転写する。

【００５２】バックアップ用プログラム（４２０−１）
は定周期で起動され、生存報告メッセージ受信フラグ
（１２０−１）を調べ、生存報告メッセージ受信フラグ
がＯＮであれば計算機２が正常に動作中であるとして生
存報告メッセージ受信フラグをＯＦＦにし、生存報告メ
ッセージ受信フラグがＯＦＦのままの場合には計算機２
が停止したとしてオンライン業務のバックアップ処理を
開始する。

【００５３】計算機２においても計算機１と同様、オン
ライン業務プログラム(４１０−２)，バックアップ用プ
ログラム（４２０−２），生存報告メッセージ送信プロ
グラム（４３０−２），生存報告メッセージ受信プログ
ラム（４４０−２）がそれぞれ動作している。説明は計
算機１の場合と同様なので省略する。

【００５４】本実施例での特徴は、もし計算機２で動作
しているオンライン業務プログラムが、計算機１用の転
写メモリ領域を誤って更新しようとした場合にも更新不
可のため、計算機２内で動作しているプログラムにより
計算機１用の転写メモリ領域のデータが破壊されること
がない点である。転写メモリ領域の更新処理については
図１０で説明する。

【００５５】図９にバックアップ用プログラム（４２０
−１）のフローチャートを示す。

【００５６】ここでは計算機１上で動作するバックアッ
プ用プログラム（４２０−１）について説明する。該プ
ログラムは、計算機２が正常に動作しているかを監視
し、異常を検出した場合に計算機２に対応する転写メモ
リ領域を特定のデータパターンで初期化するプログラム
である。

【００５７】該プログラムは、まず規定時間処理待ち
（４２１）とし、規定時間経過すると、生存報告メッセ
ージが受信されているかどうかをチェックするため、生
存報告メッセージ受信フラグがＯＮかどうかを判定する
（４２２）。該フラグがＯＮの場合は、計算機２は正常
に動作していると判断し、次回、生存報告メッセージの
受信をチェックするため該フラグをＯＦＦにした後（４
２３）、再び規定時間処理待ち（４２１）となる。該フ
ラグがＯＦＦのままの場合には、計算機２は停止したと
判断し、計算機２用の転写メモリ領域を参照（４２６）
しデータを取得後、ある特定データパターンで初期化す
る（４２７）。

【００５８】これにより、以降計算機２用の転写メモリ
領域を参照したプログラムは特定データパターンである
かどうかを判定するだけで計算機２が停止していること
を検出できる。

【００５９】図１０に転写メモリ領域内で計算機ごとに
分割されたエリアそれぞれに対して、誤って更新しよう
とした場合のチェックアウトする手段として、サブルー
チンを使用して実現する方式を示す。

【００６０】本実施例では転写メモリ領域内のデータを
更新する場合には転写メモリ更新サブルーチン（６０
０）を使用する。該サブルーチンの引数は書き込みアド
レスと書き込みデータである。書き込みアドレスが転写
メモリ領域の自計算機用の領域の範囲内かどうかを判定
（６０１）し、範囲外であれば異常終了（６０２）す
る。自計算機用の領域の範囲内であれば、引数で指定さ
れたデータを書き込み（６０３）、正常終了（６０４）
する。

【００６１】これにより、転写メモリ領域内で計算機ご
とに分割されたエリアそれぞれに対して、誤って更新し
ようとした場合のチェックアウトが可能となる。

【００６２】（３）第三の実施例本発明における第三の実施例（以下、実施例３と呼ぶ）
は、二本の監視経路で接続された２台の計算機からなる
マルチコンピュータシステムの例で、２台の計算機が相
互に監視しあうシステムの例である。実施例２とは監視
経路が二本である点が異なる。

【００６３】図１１に実施例３の概要を示す。

【００６４】実施例３は、監視経路が二本（１０２−
１，１０２−２）で、二本の監視経路を経由して生存報
告メッセージが交信される点を除けば実施例２と同じで
ある。監視経路が二本になることに伴う実施例２からの
変更点は、生存報告メッセージ（３００−１，３００−
２）のフォーマット，生存報告メッセージ送信プログラ
ム（４３０−１，４３０−２）および生存報告メッセー
ジ受信プログラム（４４０−１，４４０−２）である。
これらについて以下説明する。

【００６５】図１２に監視経路が二本の場合の生存報告
メッセージ（３００）のフォーマットを示す。図３に示
した生存報告メッセージのフォーマットにメッセージ番
号（３０６）が追加されている。その他のフィールド
（３０１〜３０５）は図３と同じである。

【００６６】実施例３は、計算機１と計算機２は相互に
監視するシステムの例であるが、図１３は、計算機１が
計算機２を監視し、計算機２の転写メモリ領域のデータ
を計算機１の転写メモリ領域に転写する処理を抽出した
図である。

【００６７】まず計算機２の主メモリ内にメッセージ番
号格納エリア（１２１）を設け、計算機１の主メモリ内
に受信済メッセージ番号格納エリア（１２２）を設け
る。

【００６８】計算機２上で動作する生存報告メッセージ
送信プログラム（４３０−２）は、ヘッダ情報他（３０
１〜３０４）、メッセージ番号格納エリア（１２１）に
格納されているメッセージ番号（３０６）、および転写
メモリ領域内の転写データ（３０５−２）より生存報告
メッセージを作成(５４１）し、監視経路１(１０２−
１）および監視経路２（１０２−２）に該メッセージを
送信する（５４２，５４３）。そして、メッセージ番号
格納エリアのメッセージ番号に１加算し、再びメッセー
ジ番号格納エリアに格納する。

【００６９】生存報告メッセージ受信プログラム（４４
０−１）は、監視経路１および監視経路２から生存報告
メッセージを受信する（５４４，５４５）。該プログラ
ムがどちらかの経路から生存報告メッセージを受信する
と、まず該メッセージ内のメッセージ番号と受信済メッ
セージ番号格納エリア（１２２）に格納されているメッ
セージ番号を比較する。比較が一致しない場合は、該メ
ッセージは初めて受信されたものとして、生存報告メッ
セージ受信フラグをＯＮにし（５４７）、該メッセージ
内のメッセージ番号を受信済みメッセージ番号格納エリ
アに格納し（５４６）、その後該メッセージ内の転写デ
ータを計算機２用の転写メモリ領域に転写する（５４
８）。該メッセージ内のメッセージ番号と受信済みメッ
セージ番号格納エリアに格納されているメッセージ番号
の比較が一致した場合は、該メッセージは別監視経路を
経由して既に受信されているので、該メッセージは廃棄
する。

【００７０】図１４に図１３における生存報告メッセー
ジ受信プログラム(４４０−１)のフローチャートを示
す。該プログラムはまず生存報告メッセージ受信待ち
(４５１)にあり、生存報告メッセージ（３００−１，３
００−２）のいずれか一方が受信されると、該受信メッ
セージ内のメッセージ番号と受信済メッセージ番号格納
エリア（１２２）のメッセージ番号とを比較判定し、受
信生存報告メッセージ内のメッセージ番号が受信済メッ
セージ番号エリアのメッセージ番号より大きな値の場合
には、生存報告メッセージ受信フラグ（１２０−１）を
ＯＮにし（４５３）、受信済メッセージ番号格納エリア
（１２２）に該メッセージ内のメッセージ番号を格納し
（４５４）、該メッセージ内の転写データを転写メモリ
領域にコピーする（４５５）。比較判定の結果、受信生
存報告メッセージ内のメッセージ番号が受信済メッセー
ジ番号エリアのメッセージ番号以下の場合には、受信し
た生存報告メッセージは廃棄する（４５６）。

【００７１】図１５に、二台の計算機（計算機１，計算
機２）とこれら計算機を結ぶ二本の監視経路（経路１，
経路２）を有する計算機システムにある故障が発生した
場合に、計算機の診断結果と共有データの更新の有無に
ついて不整合が発生するかどうか、従来技術と本発明に
ついて比較した結果を表に示す。

【００７２】図１５では、計算機２，経路１，経路２の
それぞれ一箇所が故障した際に、計算機１から見た計算
機２の診断を、動作／停止状態といった計算機２の診断
結果、および共有データの更新の有無について場合分け
し、これらの間に不整合が発生するかどうかを検証す
る。

【００７３】ここでいう不整合とは、計算機２の診断結
果が停止であるにも関わらず計算機２から共有データの
更新があるケース、または計算機２の診断結果を動作で
あるにもかかわらず共有データの更新がないケースをい
う。

【００７４】まず計算機２が故障した場合には、従来技
術，本発明とも、計算機２は停止したと診断し、共有デ
ータが更新されることはない。

【００７５】経路１が故障した場合には、従来技術で
は、生存報告メッセージが計算機１では受信できないた
め、計算機２は停止と判断するが、実際に故障したのは
経路１であり計算機ではないので共有データは更新され
る場合がある。そのため計算機２の診断結果と共有デー
タ更新の有無は不整合となる場合がある。

【００７６】本発明では、経路１が故障した場合でも経
路２を通して生存報告メッセージが交信されるので、計
算機は動作と診断され、転写メモリを用いた共有データ
は更新される。

【００７７】経路２が故障した場合には、従来技術では
生存報告メッセージは監視経路２を用いて交信されるの
で計算機２は動作中であると認識されるが、共有データ
の更新は行えないためこのケースも不整合となる。

【００７８】本発明では、経路１故障の場合と同様、経
路２が故障した状態でも経路１を通して生存報告メッセ
ージが交信されるので、計算機は動作と診断され、転写
メモリを用いた共有データは更新される。

【００７９】以上のように、従来技術では経路が故障し
た場合には計算機の診断結果と共有データの更新の有無
について不整合が発生するが、本発明では不整合の発生
を排除することができる。図中太枠部分が不整合のケー
スである。

【００８０】

【発明の効果】以上説明したように、本発明を用いれ
ば、共有メモリ装置を用いなくても、マルチコンピュー
タシステムにおけるデータ共有が可能となる。

【００８１】また本発明を用いれば、ある計算機が故障
した場合でも他の計算機内の転写メモリ領域のデータが
破壊されるのを防止することができる。

【００８２】また本発明を用いれば、計算機の診断と共
有データの更新との不整合の発生を防ぐことができる。

【００８３】また本発明を用いれば、共有されているデ
ータを参照しただけで計算機が停止したことを検出する
ことができる。

【図面の簡単な説明】

【図１】本発明における第一の実施例の基本概略図であ
る。

【図２】本発明における第一の実施例のハードウェア構
成図である。

【図３】生存報告メッセージフォーマットを表した図で
ある。

【図４】生存報告メッセージ送信プログラムの処理を表
した図である。

【図５】生存報告メッセージ受信プログラムの処理を表
した図である。

【図６】バックアップ用プログラムの処理を表した図で
ある。

【図７】第一の実施例における計算機停止時の処理の流
れを表した図である。

【図８】本発明の第二の実施例の概略図である。

【図９】別のバックアップ用プログラムにおける処理の
図である。

【図１０】転写メモリ領域更新サブルーチンにおける処
理の図である。

【図１１】本発明の第三の実施例の概略図である。

【図１２】別の生存報告メッセージフォーマットを表し
た図である。

【図１３】二重化監視経路を用いたデータ転写を表した
図である。

【図１４】別の生存報告メッセージ受信プログラムにお
ける処理の図である。

【図１５】計算機の診断と共有データの更新の不整合を
対比した図である。

【符号の説明】

１０１−１，１０１−２…計算機、１０２，１０２−
１，１０２−２…監視経路、１０３−１，１０３−２…
主メモリ装置、１０４−１，１０４−２…プロセッサ、
１０５−１，１０５−２…通信制御装置、１０６−１、
１０６−２…システムバス、１１０−１，１１０−２…
転写メモリ領域、１２０，１２０−１，１２０−２…生
存報告メッセージ受信フラグ、１２１…メッセージ番号
格納エリア、１２２…受信済メッセージ番号格納エリ
ア、３００，３００−１，３００−２…生存報告メッセ
ージ、３０１…ヘッダ情報、３０２…生存計算機識別
子、３０３…転写メモリ先頭アドレス、３０４…転写サ
イズ、３０５…転写データ、３０６…メッセージ番号、
４１０，４１０−１，４１０−２…オンライン業務プロ
グラム、４２０,４２０−１,４２０−２…バックアップ
用プログラム、４３０，４３０−１,４３０−２…生存
報告メッセージ送信プログラム、４４０,４４０−１，
４４０−２…生存報告メッセージ受信プログラム。

───────────────────────────────────────────────────── フロントページの続き (72)発明者中村智明茨城県日立市大みか町五丁目２番１号株式会社日立製作所大みか工場内 (72)発明者加藤直茨城県日立市大みか町五丁目２番１号株式会社日立製作所大みか工場内 (72)発明者塚原裕人茨城県日立市大みか町五丁目２番１号日立プロセスコンピュータエンジニアリング株式会社内

Claims

【特許請求の範囲】

【請求項１】主メモリ装置を有する複数の計算機からな
るマルチコンピュータシステムであって、該各計算機の
主メモリ装置には転写メモリ領域を有するデータ共有装
置において、他の計算機の動作状態を監視する監視経路
を有し、計算機が正常に動作していることを示す生存報
告メッセージを該監視経路を経由して複数計算機間で交
信し、該生存報告メッセージ内に転写メモリ領域のデー
タを付加することにより、ある計算機内の転写メモリ領
域のデータを他の計算機の転写メモリ領域に転写し、他
の計算機から該データを参照可能とすることを特徴とす
るデータ共有装置。
【請求項２】請求項１のデータ共有装置において、前記
監視経路は複数の監視経路からなり、前記生存報告メッ
セージが少なくとも一つの該監視経路で受信された場合
に、該生存報告メッセージの送信元の計算機は正常に動
作していると判断して、前記転写メモリ領域のデータを
転写し、該生存報告メッセージがすべての監視経路で受
信されない場合には、該生存報告メッセージの送信元の
計算機は停止していると判断して、該転写メモリ領域の
データはそのまま保持することを特徴とするデータ共有
装置。
【請求項３】請求項１のデータ共有装置において、前記
転写メモリ領域は各計算機に対応した領域に分割され、
該分割された転写メモリ領域のうち、自計算機用の転写
メモリ領域は参照／更新とも可能とし、自計算機以外の
計算機用の転写メモリ領域は参照可能かつ更新不可とす
ることを特徴とするデータ共有方式。
【請求項４】請求項１のデータ共有装置において、前記
監視経路は複数の監視経路からなり、前記転写メモリ領
域は各計算機に対応した領域に分割され、前記生存報告
メッセージが少なくとも一つの該監視経路で受信された
場合に、該生存報告メッセージの送信元の計算機は正常
に動作していると判断して、該分割された転写メモリ領
域のデータを転写し、該生存報告メッセージがすべての
監視経路で受信されない場合には、該生存報告メッセー
ジの送信元の計算機は停止していると判断して、該計算
機用の転写メモリ領域のデータをある特定データパター
ンで初期化することを特徴とするデータ共有装置。
【請求項５】請求項１のデータ共有装置において、前記
監視経路は複数の監視経路からなり、前記生存報告メッ
セージ内に転写メモリ領域のデータおよびメッセージ番
号を付加し、主メモリ上に受信された生存報告メッセー
ジ内のメッセージ番号を記憶する領域を設け、該複数の
監視経路を経由して受信された生存報告メッセージのう
ち、既に受信されたメッセージ番号を持つ生存報告メッ
セージは処理済みとして廃棄し、初めて受信されたメッ
セージ番号を持つ生存報告メッセージの場合には転写メ
モリ領域のデータを転写することを特徴とするデータ共
有装置。