JPH09319603A - マルチコンピュータシステムの系間監視方式 - Google Patents

マルチコンピュータシステムの系間監視方式

Info

Publication number
JPH09319603A
JPH09319603A JP8153084A JP15308496A JPH09319603A JP H09319603 A JPH09319603 A JP H09319603A JP 8153084 A JP8153084 A JP 8153084A JP 15308496 A JP15308496 A JP 15308496A JP H09319603 A JPH09319603 A JP H09319603A
Authority
JP
Japan
Prior art keywords
active
inter
monitoring means
read
active system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8153084A
Other languages
English (en)
Other versions
JP3008851B2 (ja
Inventor
Tsutomu Taguchi
勉 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8153084A priority Critical patent/JP3008851B2/ja
Publication of JPH09319603A publication Critical patent/JPH09319603A/ja
Application granted granted Critical
Publication of JP3008851B2 publication Critical patent/JP3008851B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】系間監視手段に障害発生時、待機系が、現用系
の障害発生と誤認識し両系で業務を実行し共有資源の破
壊等のシステムの不正動作を回避するシステムの提供。 【解決手段】現用系のコンピュータ101は系間通信手
段に対し現用系動作中通知をライトした後リードし自系
がライトした現用系動作中通知のリード可/不可を調べ
不可の場合系間監視手段107の異常発生と判定し、両
系業務を実行することがないように業務を停止する。待
機系のコンピュータ102は系間通信手段からリードを
実行し、現用系動作中通知がリード不可の場合には、現
用系の異常か系間監視手段の異常かを判別するために、
系間監視手段に対しライト/リードを実行し、正常に実
行できれば現用系の異常と判断し、業務の引き継ぎを行
い、ライト/リード不可の場合系間監視手段の異常と判
断し監視処理を停止する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、現用系と待機系
(予備系)の二重化方式の情報処理システムに関し、特
に、業務を実行している現用系のコンピュータと、現用
系のコンピュータの障害発生時に、その業務を引き継ぐ
コンピュータを備えたシステムの信頼性を向上させる情
報処理システムに関する。
【0002】
【従来の技術】この種の従来の計算機システムとして、
例えば特開平4−158449号公報には、監視経路と
してそれぞれ異なる通信手順を持つ二つ以上の通信制御
装置及び通信経路を有することにより、他の計算機シス
テムの動作異常によるものか監視経路自身の障害による
ものか即座に判別できるようにしたマルチコンピュータ
システムの構成が提案されている。すなわち、この従来
技術においては、マルチコンピュータシステムの系間監
視手段として、それぞれ異なる通信手段を持つ二つ以上
の通信制御装置及び通信経路を有することにより、系間
監視手段である通信制御装置及び通信経路に障害が発生
した場合にも、障害が発生した系間監視手段以外の系間
監視手段が正常に動作していれば、他の計算機システム
の障害ではなく系間監視手段が障害であると判断するこ
とができ、これにより、他の計算機システムの動作異常
によるものか系間監視手段の障害によるものかを即座に
判別できるようにしている。
【0003】
【発明が解決しようとする課題】上記した従来技術にお
いては、系間監視手段を複数使用するようにしても、多
重障害により全ての系間監視手段に障害が発生した場合
には、系間監視手段が障害であるとは判断することがで
きず、他の計算機システムに異常が発生したと誤って判
断してしまうという問題点を有している。この結果、現
用系と待機系の2台のコンピュータで同時に同じ業務を
実行すると共に、共有資源を同時に使用し、システムが
不正動作してしまうということがある。
【0004】従って、本発明は、上記事情に鑑みてなさ
れたものであって、その目的は、上記問題点を解消し、
システムの信頼性を著しく向上させるようにしたマルチ
コンピュータシステムの系間監視方式を提供することに
ある。
【0005】より具体的には、本発明は、系間監視手段
として両系からデータをライトできると共にライトした
データを両系からリードできる手段を使用することによ
り、監視対象のコンピュータの障害と系間監視手段の障
害を判別し現用/待機の両系で同一業務を実行してしま
うという問題を回避し、システムの信頼性を特段に向上
させるマルチコンピュータシステムの系間監視方式を提
供するものである。
【0006】
【課題を解決するための手段】前記目的を達成するた
め、本発明のマルチコンピュータシステムの系間監視方
式は、業務を実行しているコンピュータ(「現用系」と
いう)と、現用系のコンピュータの障害発生時にその業
務を引き継ぐコンピュータ(「待機系」という)と、前
記待機系が前記現用系の状態を監視するための系間監視
手段と、を備え、前記現用系は、前記現用系が動作して
いることを前記系間監視手段により前記待機系に通知
し、前記待機系は、前記現用系が動作中であるという通
知が一定時間内になされなかった場合に、前記現用系が
障害状態であると判断し、自動的に前記現用系の業務を
引き継ぐマルチコンピュータシステムにおいて、前記系
間監視手段は、前記現用系及び前記待機系の両系から同
じ領域をリード/ライトできるように構成され、前記現
用系は、前記領域に対して前記現用系動作中の通知をラ
イトし、前記待機系は、前記領域から前記現用系動作中
の通知をリードし、各々のリード及びライト毎に、確認
のためのリード/ライトを実行することにより、前記系
間監視手段に障害が発生した場合に、前記現用系の障害
と誤認識せずに動作する、ように構成されてなる、こと
を特徴とする。
【0007】
【発明の実施の形態】本発明の好ましい実施の形態を以
下に説明する。図1を参照して、本発明の実施の形態に
おいては、マルチコンピュータシステムにおいて、現用
系から待機系に動作中であることを通知する手段として
使用する、現用系及び待機系の両系からデータをライト
でき、かつ、ライトしたデータを両系からリードできる
系間監視手段(107)と、マルチコンピュータシステ
ムを構成する2台のコンピュータ(101、102)両
方のメモリ上に具備され、コンピュータが現用系となっ
た場合にそのプロセッサで動作する現用系制御プログラ
ム(108、109)と、マルチコンピュータシステム
を構成する2台のコンピュータ両方のプロセッサ上に具
備され、コンピュータが待機系となった場合にそのプロ
セッサで動作する待機系制御プログラム(110、11
1)を有する。
【0008】現用系制御プログラム(108、109)
は、一定時間間隔で現用系が動作中であることを待機系
に通知する為に、系間監視手段(107)に動作中であ
るという通知をライトする。そして、正常に通知がライ
トできたか否かを確認するために、系間監視手段(10
7)からライトしたデータをリードしてチェックする。
正常にライトできなかった場合には、現用系は業務を停
止する。
【0009】待機系制御プログラム(110、111)
は、一定時間間隔で系間監視手段(107)から、現用
系が動作中である旨の通知をリードし、現用系が動作中
であるものと判断した場合には、待機系は、系間監視手
段(107)に対して、現用系が動作中の旨の通知と
は、内容が異なる通知をライトする。そして、このライ
ト動作が正常にできたか否かを判断するために、その通
知をリードし、正常にライトできていない場合には、系
間監視手段(107)に障害が発生したものと判断し、
以後は現用系が動作であるか否かの監視を停止する。
【0010】一方、待機系が、現用系からの動作中通知
をリードし、現用系が動作中ではないと判断した場合に
は、確認のため、系間監視手段(107)に対して、現
用系が動作中である旨の通知とは異なる通知をライト
し、これをリードする。このライト/リード動作が正常
に終了すれば、待機系は、現用系に異常が発生したもの
と判断し、現用系の業務を引き継ぐ。
【0011】ライト/リード動作がエラーとなれば系間
監視手段に障害が発生したと判断し、以後は現用系が動
作であるかの監視を停止する。
【0012】以上のように、本発明の実施の形態におい
ては、系間監視手段として、現用系、待機系の両系から
データをライトでき、かつ、ライトしたデータを両系か
らリードできる手段を使用することにより、現用系/待
機系が系間監視手段に対するライト/リードの結果を検
証することができ、系間監視手段が異常となっても現用
系/待機系で同時に業務を実行してしまう問題を回避し
ている。上記した本発明の実施の形態を更に詳細に説明
すべく、本発明の実施例を図面を参照して以下に説明す
る。
【0013】
【実施例】図1は、本発明の一実施例の構成を示す図で
ある。図1を参照すると、本発明の実施例において、通
常、第1のコンピュータシステム101は現用系として
業務を実行している。第2のコンピュータシステム10
2は待機系であり、第1のコンピュータシステム101
に障害が発生した場合に、待機系から現用系に切り替え
られ、第1のコンピュータシステム101から業務を引
き継ぐ。
【0014】第1のコンピュータシステム101のメモ
リ114上には、現用系制御プログラム108と待機系
制御プログラム110とがロードされている。第1のコ
ンピュータが現用系として作動している間は、現用系制
御プログラム108がプロセッサ103上で実行され
る。そして、第1のコンピュータシステム101が現用
系から待機系に変わった場合には、待機系制御プログラ
ム110がプロセッサ103上で実行される。
【0015】第2のコンピュータシステム102のメモ
リ115上には、現用系制御プログラム109と待機系
制御プログラム111とがロードされている。第2のコ
ンピュータシステム102が待機系の間は、待機系制御
プログラム111がプロセッサ104上で実行される。
そして、第2のコンピュータシステム102が現用系と
なれば現用系制御プログラム109がプロセッサ104
上で実行される。
【0016】第1のコンピュータシステム101が現用
系、第2のコンピュータシステム102が待機系の場合
には、現用系制御プログラム108は、第1の制御部1
05にリード/ライト要求を発行することにより、系間
監視手段(系間通信手段)107に対して現用系動作中
通知のライトとその確認処理を実行する。
【0017】また、第2のコンピュータシステム102
の待機系制御プログラム111は、第2の制御部106
にリード/ライト要求を発行することにより、系間監視
手段107に対する現用系動作中通知のリードとその確
認処理を実行すると共に、現用系が異常となったものと
判断した場合には、現用系の業務を引き継ぐ。
【0018】図1ないし図3を参照して、本発明の一実
施例の動作を以下に説明する。
【0019】まず、現用系制御プログラムの処理につい
て説明する。図2は、現用系制御プログラムの処理フロ
ーを示す流れ図である。
【0020】現用系処理プログラムは、自系が正常に動
作中であることを待機系に通知するために系間監視手段
107に対し、自系が動作中であることを示す自系動作
中通知“ALIVE”をライト(書き込み)する(ステ
ップS2−1)。
【0021】この自系動作中通知“ALIVE”が正常
に系間監視手段107にライトされていない場合には、
現用系が動作中であるにもかかわらず、待機系が現用系
に障害が発生したと判断してしまうため、自系動作中通
知“ALIVE”が正しく系間監視手段107にライト
されたか否かを確認するために、現用処理プログラムは
系間監視手段107からリード(読み出し)する(ステ
ップS2−2)。
【0022】次に、ステップS2−3において、系間監
視手段107からリードした内容(データ)が、現用系
動作中通知“ALIVE”であるか否かを判定し、自系
動作中通知“ALIVE”であれば、系間監視手段10
7が正常に動作しているものと判断し、一方、リードし
た内容が“ALIVE”でなければ、系間監視手段10
7に異常が発生したものと判断する。
【0023】すなわち、系間監視手段が正常に動作して
いると判断した場合は、一定時間処理を中断し(ステッ
プS2−4)、一定時間経過後に現用系動作中通知を系
間監視手段にライトする(ステップS2−1)。
【0024】現用系は、系間監視手段107に異常が発
生しない限り、ステップS2−1〜ステップS2−4の
処理を繰り返し実行し、自系が動作中であることを待機
系に通知し続ける。
【0025】そして、系間監視手段107に異常が発生
したと判断した場合には、現用系制御プログラムは処理
していた業務を停止するように制御する(ステップS2
−5)。
【0026】これは、待機系制御プログラムが現用系動
作中通知をリードすることができず、現用系に異常が発
生したものと判断し、現用系の業務を引き継ぐように動
作すると判断し(待機系制御プログラムの処理フローは
後述する)、現用系/待機系の両系で業務を実行してし
まうことを回避するためである。
【0027】次に、待機系制御プログラムの処理動作を
以下に説明する。図3は、待機系制御プログラムの処理
フローを説明するための流れ図である。
【0028】待機系処理プログラムは、現用系が正常に
動作中であるかチェックするため、系間監視手段107
からリードする(ステップS3−1)。
【0029】系間監視手段107からリードした内容
が、現用系動作中通知“ALIVE”であれば、現用系
は動作中であると判断し、現用系動作中通知“ALIV
E”でなければ、現用系に障害が発生したかまたは系間
監視手段107に障害が発生したものと判断する(ステ
ップS3−2)。
【0030】そして、現用系が動作中であると判断した
場合には、次の現用系からの現用系動作中通知(“AL
IVE”)のライトを判断できるように、現用系動作中
通知(“ALIVE”)とは異なるデータである確認通
知(“OK”)を、系間監視手段107にライトし、系
間監視手段107にライトされている内容を更新する
(ステップS3−3)。
【0031】確認通知(“OK”)が正常にライトでき
ず、系間監視手段107にライトされている内容を更新
できない場合には、次の現用系からの現用系動作中通知
が正しくライトされたか、現在ライトされている現用系
動作中通知が更新されないまま残っているかを判断でき
ないため、系間監視手段107からリードして、確認通
知のライトが正常に行われたか否かを確認する(ステッ
プS3−4、ステップS3−5)。
【0032】リードした内容が確認通知(“OK”)で
あれば、系間監視手段107が正常に動作しているもの
と判断し、一定時間処理を中断し(ステップS3−
6)、一定時間経過後に、現用系が正常に動作している
かチェックするため、再び系間監視手段107からリー
ドする(ステップS3−1)。
【0033】待機系は、現用系が正常に動作し続け、か
つ系間監視手段に異常が発生しない限り、ステップS3
−1〜ステップS3−6の処理を繰り返し実行し、現用
系が動作中であることをチェックし続ける。
【0034】リードした内容が確認通知(“OK”)と
異なり、系間監視手段107に異常が発生したと判断し
た場合、現用系が系間監視経路に現用系動作中通知をラ
イトしても待機系からリードすることができず、現用系
に異常が発生したかどうか判断できなくなるため、処理
を終了し、監視を止める(ステップS3−11)。
【0035】また、上記ステップS3−2において、リ
ードしたデータが現用系動作中通知(“ALIVE”)
と異なる場合、すなわち現用系に障害が発生したか、ま
たは系間監視手段に障害が発生した場合には、系間監視
手段107の動作を確認するために、系間監視手段10
7に異常検出通知“BAD”をライトした後、これをリ
ードする(ステップS3−7、ステップS3−8)。
【0036】その際、系間監視手段107からリードし
た内容が異常検出通知(“BAD”)と異なる場合、系
間監視手段107に異常が発生したものと判断し、リー
ドした内容が異常検出通知(“BAD”)であれば、系
間監視手段107は正常に動作しているので、現用系に
障害が発生しているものと判断する(ステップS3−
9)。
【0037】そして、系間監視手段107に異常が発生
したものと判断した場合には、処理を終了し監視を停止
する(ステップS3−11)。これは、現用系が系間監
視手段に現用系動作中通知をライトしているにもかかわ
らず、待機系からリードすることができないと判断し、
現用/待機系の両系で同時に業務を実行することを回避
するためである。
【0038】一方、系間監視手段107が正常に動作し
ていると判断した場合には、現用系に障害が発生したと
判断し、待機系は現用系業務の引き継ぎを行う(ステッ
プS3−10)。
【0039】
【発明の効果】以上説明したように、本発明によれば、
マルチコンピュータの系間監視手段に異常が発生して
も、待機系が現用系の障害と誤って認識しないという効
果を有する。このため、本発明によれば、系間監視手段
の障害発生時に現用系/待機系の両系で同時に同じ業務
を実行し、共有資源の同時使用による破壊等の不正な動
作をしてしまうことを回避できる。
【0040】これは、本発明においては、現用系/待機
系とも系間監視手段に対してライトを実行した時には、
常にライトした系が自系からリードし直し、ライトした
データとリードしたデータとが同じものであるか否かを
チェックするように構成したことにより、系間監視手段
に異常が発生した場合には、必ずその異常を検出するこ
とができるためである。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示す図である。
【図2】本発明の一実施例における現用系制御プログラ
ム処理の処理フローを説明するための流れ図である。
【図3】本発明の一実施例における待機系制御プログラ
ム処理の処理フローを説明するための流れ図である。
【符号の説明】
101 第1のコンピュータシステム(コンピュータ
(#1)) 102 第2のコンピュータシステム(コンピュータ
(#2)) 103、104 プロセッサ 105 第1の制御部 106 第2の制御部 107 系間監視手段 108、109 現用系制御プログラム 110、111 待機系制御プログラム 114、115 メモリ

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】業務を実行しているコンピュータ(「現用
    系」という)と、 現用系のコンピュータの障害発生時にその業務を引き継
    ぐコンピュータ(「待機系」という)と、 前記待機系が前記現用系の状態を監視するための系間監
    視手段と、 を備え、 前記現用系は、前記現用系が動作していることを前記系
    間監視手段により前記待機系に通知し、 前記待機系は、前記現用系が動作中であるという通知が
    一定時間内になされなかった場合に、前記現用系が障害
    状態であると判断し、自動的に前記現用系の業務を引き
    継ぐマルチコンピュータシステムにおいて、 前記系間監視手段は、前記現用系及び前記待機系の両系
    から同じ領域をリード/ライトできるように構成され、 前記現用系は、前記領域に対して前記現用系動作中の通
    知をライトし、 前記待機系は、前記領域から前記現用系動作中の通知を
    リードし、 各々のリード及びライト毎に、確認のためのリード/ラ
    イトを実行することにより、前記系間監視手段に障害が
    発生した場合に、前記現用系の障害と誤認識せずに動作
    する、ように構成されてなる、ことを特徴とするマルチ
    コンピュータシステムの系間監視方式。
  2. 【請求項2】現用系と、現用系障害時に業務の引継を行
    う待機系と、前記待機系が前記現用系の状態を監視する
    ための系間監視手段と、を備え、 前記現用系は前記系間監視手段に対して現用系動作中の
    旨の通知をライトすると共にこれをリードし、前記系間
    監視手段の障害発生を判別し、 前記待機系は、前記系間監視手段から前記現用系動作中
    の旨の通知をリードし、該リード結果が不可の場合に
    は、前記系間監視手段に所定の通知をライト及びリード
    し、該リード結果の可/不可に応じて、前記現用系/前
    記系間監視手段の障害と判別し、 前記現用系及び/又は前記待機系が前記系間監視手段の
    障害発生を判別した際には自系の処理を停止する、こと
    を特徴とするマルチコンピュータシステムの系間監視方
    式。
  3. 【請求項3】前記現用系が、前記現用系動作中の通知を
    前記系間監視手段に対してライトした後、これをリード
    し、リードした内容が前記現用系動作中の通知であるか
    否かをチェックし、異なる場合には業務を停止する、よ
    うに構成されてなる、ことを特徴とする請求項1又は2
    記載のマルチコンピュータシステムの系間監視方式。
  4. 【請求項4】前記待機系が、前記系間監視手段の前記領
    域からリードしたデータが前記現用系動作中の通知であ
    るか否かをチェックし、異なる場合には、異常検出通知
    を前記領域にライトした後これをリードし、リードした
    データが前記異常検出通知と一致した場合には、前記現
    用系に障害が発生したものと判断し前記現用系の業務を
    引き継ぎ、異なる場合には前記系間監視手段に障害が発
    生したものとして監視業務を停止する、ように構成され
    てなる、ことを特徴とする請求項1記載のマルチコンピ
    ュータシステムの系間監視方式。
  5. 【請求項5】前記待機系が、前記系間監視手段の前記領
    域からリードしたデータが前記現用系動作中の通知であ
    るか否かをチェックし、一致した場合には、前記系間監
    視手段の前記領域に対して確認通知をライトした後これ
    をリードし、リードしたデータが前記確認通知と異なる
    場合には、前記系間監視手段に障害が発生したものと判
    断して監視業務を停止し、一致した場合には、所定時間
    後に前記系間監視手段の前記領域をリードする、ように
    構成されてなる、ことを特徴とする請求項4記載のマル
    チコンピュータシステムの系間監視方式。
JP8153084A 1996-05-24 1996-05-24 マルチコンピュータシステムの系間監視方式 Expired - Lifetime JP3008851B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8153084A JP3008851B2 (ja) 1996-05-24 1996-05-24 マルチコンピュータシステムの系間監視方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8153084A JP3008851B2 (ja) 1996-05-24 1996-05-24 マルチコンピュータシステムの系間監視方式

Publications (2)

Publication Number Publication Date
JPH09319603A true JPH09319603A (ja) 1997-12-12
JP3008851B2 JP3008851B2 (ja) 2000-02-14

Family

ID=15554633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8153084A Expired - Lifetime JP3008851B2 (ja) 1996-05-24 1996-05-24 マルチコンピュータシステムの系間監視方式

Country Status (1)

Country Link
JP (1) JP3008851B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287632A (ja) * 2007-05-21 2008-11-27 Panasonic Corp 制御装置復帰システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287632A (ja) * 2007-05-21 2008-11-27 Panasonic Corp 制御装置復帰システム

Also Published As

Publication number Publication date
JP3008851B2 (ja) 2000-02-14

Similar Documents

Publication Publication Date Title
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
JP4836732B2 (ja) 情報処理装置
JP2008015704A (ja) マルチプロセッサシステム
JP3008851B2 (ja) マルチコンピュータシステムの系間監視方式
JPH02294739A (ja) 障害検出方式
JP2002215557A (ja) Pciバスの障害解析容易化方式
JP2000112790A (ja) 障害情報収集機能付きコンピュータ
JP2006172218A (ja) コンピュータシステム及びシステム監視プログラム
JPH0424838A (ja) マルチプロセッサの障害管理方式
US20100162082A1 (en) Control device, storage apparatus and controlling method
JP4613019B2 (ja) コンピュータシステム
JP2007249343A (ja) 障害監視装置、クラスタシステム及び障害監視方法
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
JPH0534877B2 (ja)
WO2022257210A1 (zh) 一种多核处理器的内存巡检方法及系统
JP2908430B1 (ja) マルチプロセッサシステムのホストプロセッサ監視装置および監視方法
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPH08305675A (ja) マルチプロセッサシステムおよびその運転管理方 法
JPH0962534A (ja) 電子計算機の自己診断方法
JPH02183852A (ja) データ処理装置
KR100257162B1 (ko) 이중화 시스템에서 상대 시스템의 감시방법 및 장치
JPS59119451A (ja) 電子計算機システムの診断方式
JPH0391841A (ja) 異常回復処理方式
JPS62113241A (ja) 障害回復装置
JPH0797327B2 (ja) 故障検出方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991102