JPH0460750A - クラスタ停止装置 - Google Patents

クラスタ停止装置

Info

Publication number
JPH0460750A
JPH0460750A JP17106890A JP17106890A JPH0460750A JP H0460750 A JPH0460750 A JP H0460750A JP 17106890 A JP17106890 A JP 17106890A JP 17106890 A JP17106890 A JP 17106890A JP H0460750 A JPH0460750 A JP H0460750A
Authority
JP
Japan
Prior art keywords
cluster
input
output bus
shared memory
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP17106890A
Other languages
English (en)
Inventor
Hitoshi Sugiyama
仁志 杉山
Kazunori Hiraishi
平石 壽徳
Takeshi Kumano
熊野 剛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP17106890A priority Critical patent/JPH0460750A/ja
Priority to DE69124285T priority patent/DE69124285T2/de
Priority to EP91107879A priority patent/EP0457308B1/en
Publication of JPH0460750A publication Critical patent/JPH0460750A/ja
Priority to US08/249,046 priority patent/US5548743A/en
Priority to US08/430,315 priority patent/US5568609A/en
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 プロセッサを有する複数のクラスタと、入出力バスを介
して各クラスタに接続される共用メモリとを備えた複合
計算機システムにおけるクラスタ停止装置に関し ダウンと認識されたクラスタの誤動作による共用データ
の破壊を防ぎ、クラスタのダウン処理を確実かつ部品に
行う手段を提供することを目的とし 共用メモリとクラスタとを結ぶ入出力バスを物理的に切
断する入出力バス切断機構を備えるとともに、各クラス
タは、他のクラスタを停止させる場合に、入出力バス切
断機構により、共用メモリと停止させるクラスタ間の入
出力バスを切断する処理を行う入出力バス切断処理部と
、切断された入出力バスを使用することにより、アクセ
スが異常終了した場合に、自クラスタがダウンさせられ
たと認識し、自クラスタの回収処理を行うダウン認識処
理部とを備えるように構成する。
〔産業上の利用分野] 本発明は、プロセッサを有する複数のクラスタと、入出
力バスを介して各クラスタに接続される共用メモリとを
備えた複合計算機システムにおけるクラスタ停止装置に
関し、特に、あるクラスタが他のクラスタをダウンと認
識した場合に、ダウンと認識されたクラスタと共用メモ
リとの入出力バスを強制的に切断することにより、共用
メモリのデータ保全を可能としたクラスタ停止装置に関
する。
近年のコンビエータシステムでは、単一プロセッサの能
力の伸びが鈍化していることや、信幀性向上の強いニー
ズがあることなどの理由から、iJ数ツクラスタ共用メ
モリで接続した複合計算機システムを構築することが一
般的になりつつある。
共用メモリには、複数のクラスタで共用される重要なデ
ータが置かれることが多い。
このようなシステムにおいて、一つのクラスタのダウン
を他のクラスタが検出すると、検出したクラスタは、ダ
ウン時のリカバリ処理を行い、ダウンと認識されたクラ
スタの誤動作によって共用メモリのデータが破壊される
ことを防ぐ必要がある。
また、運用中のクラスタが、他のクラスタのダウンを検
出したり、または使用者から、あるクラスタをダウンさ
せる指示があった場合には、他のクラスタとの整合性を
保ちながらクラスタ停止処理を行う必要がある。
〔従来の技術〕
第5図は従来技術の例を示す。
従来、共用メモリ10に接続された複数のクラスタ12
a、12bからなる複合計算機システムでは1例えば第
5図に示すように、共用メモリ10内にクラスタ監視用
制御表50を設け、各クラスタ間で相互に他のクラスタ
の動作中を示す情報を設定し、管理するようにしていた
各クラスタ12a、12bは、共用メモリ10をアクセ
スする際に、クラスタ監視用制御表50を参照し、自ク
ラスタが動作中であることを確認した上で、必要なメモ
リへのアクセスを行う。
例えば、クラスタ12bが、クラスタ12aのダウンを
検出すると、ダウンを検出したクラスタ12bは共用メ
モリ10内のクラスタ監視用制御表50に、クラスタ1
2aがダウンした旨の情報を設定する。
これにより、ダウンと認識されたクラスタ12aは9次
回のメモリアクセス時に、自クラスタがダウンさせられ
たことを認識し、自クラスタのCPUを停止させるよう
にしていた。
〔発明が解決しようとする課題〕
第5図に示すような方式には、以下の問題がある。
(6)ダウンと認識されたクラスタ12aが、アクセス
時に自クラスタがダウンさせられたか否かを確認しなか
った場合、共用メモリ10のデータを破壊をする危険が
ある。
(ハ) クラスタ監視用制御表50のデータが破壊され
た場合、クラスタが誤動作する危険がある。
(C)  各クラスタから共用メモリ10をアクセスす
る際に、−旦、クラスタ監視用制御表50を参照し、自
クラスタがダウンしていないかを判断する処理が必要に
なり、−回のアクセスに時間がかかるとともに、制御表
50に対する複雑な排他制御などが必要になる。
(d)  クラスタのダウンを検出してから、ダウンさ
せられたクラスタが自クラスタのCPUを停止するまで
に長時間要する。
本発明は1以上のようなりラスタ誤動作による共用メモ
リのデータ破壊9適常のメモリアクセス性能の低下1通
常のメモリアクセス時の排他制御等における処理の複雑
化、CPU停止までの長期化という問題点の解決を図る
ことを目的としている。
〔課題を解決するための手段〕
第1図は本発明の原理説明図である。
第1図において、10は共用メモリ、11は入出力バス
切断機構、12a〜12cは各々プロセッサを備えたク
ラスタ、13は入出力バスの物理的な切断処理を行う入
出力バス切断処理部、14は共用メモリ10に対する一
般的なアクセスを行う共用メモリアクセス部、15は自
クラスタのダウンを認識し回収処理を行うダウン認識処
理部。
PI−P3は各クラスタと共用メモリ間のデータ転送に
用いられる入出力バスを表す。
本発明では、各クラスタ12a〜12cと、その各クラ
スタ12a〜12cが共用するデータを格納する共用メ
モリ10とを結ぶ入出力バスPI〜P3について、物理
的に切断するハードウェアによる入出力バス切断機構1
1が設けられる。
入出力バス切断機構11によって切り離された共用メモ
リ10にアクセスすると、入出力バス切断機構11を含
むハードウェアによる制御部は回復可能なエラーを発生
させ、その事象をアクセス元クラスタのソフトウェアに
、プログラムチエツク割込みなどにより通知する。
各クラスタ12a−12cは、入出力バス切断処理部1
3およびダウン認識処理部15を備える。
入出力バス切断処理部13は、他のクラスタのダウンを
検出した場合、またはオペレータコマンドなどにより、
クラスタの停止を依願された場合に、入出力バス切断機
構11により、共用メモリ10と停止させるクラスタ間
の入出力バスPI〜P3を切断する処理を行うものであ
る。
他のクラスタによりダウンと認識されたクラスタが、共
用メモリアクセス部14によって共用メモリ10にアク
セスすると、入出力バスが物理的に切断され、存在しな
いため、プログラムチエツクが発生する。
ダウン認識処理部15は、共用メモリ10のアクセス時
にプログラムチエツクが発生すると、自クラスタがダウ
ンさせられたと認識し、自クラスタの回収処理を行い、
自クラスタのCPUを停止させる。
〔作用] 例えば、クラスタ12aがクラスタ12bのダウンを検
出したとする(第1図■)、クラスタ12aの入出力バ
ス切断処理部13は、入出力バス切断機構11により、
共用メモリ10とクラスタ12bとを結ぶ入出力バスP
2を物理的に切断する(第1図■)。
ダウンさせられたクラスタ12bが、共用メモリlOに
アクセス(第1図■)すると、入出力バスP2が存在し
ないため、プログラムチエツクが発生する(第1図■)
クラスタ12bは、プログラムチエツクが発生すること
で、ダウン認識処理部15により、ダウンさせられたこ
とを認識し、ロギング処理や必要なエラー処理などの自
クラスタの回収処理を行って、自クラスタのCPUを停
止させる。
クラスタ12bが2例えば暴走により誤動作した場合で
も、共用メモリ10との間の入出力バスP2が存在しな
いため、共用メモリlOのデータを破壊することはない
また1通常の共用メモリ10へのアクセス時に自クラス
タがダウンさせられていないかどうかを常に確認する必
要がないので、共用メモリlOに対するアクセスを高速
化することができ、また制御情報に関する複雑な排他制
御等を行う必要がなくなる。
〔実施例〕
第2図は本発明の一実施例による状態遷移の例。
第3図は本発明の一実施例処理フロー、第4図は本発明
の一実施例で用いる入出力バス切断機構の説明図を示す
以下、説明を簡単にするために、クラスタが2つの場合
を例に説明するが、3以上の場合にも同様に適用できる
第2図(イ)は、クラスタ12a、12bによるシステ
ムの通常時の運用状態を示している。クラスタ12a、
12bは、随時、入出力バスPI。
P2を介して、共用メモリ10にアクセスし、必要な業
務処理を実行する。
第2図(ロ)に示すように、クラスタ12bがクラスタ
12aのダウンを検出したとする。またはコマンド等に
より、クラスタ12aのダウンを指示されたとする。
クラスタ12bは、第2図(ハ)に示すようにダウン対
象のクラスタ12aと共用メモリ10との間の入出力バ
スPIを物理的に切断する。なお共用メモリ10が複数
存在し、入出力バスも複数ある場合には、クラスタ12
aのすべての入出力バスを切断する。
その後、クラスタ12aが、何らかの処理のために、第
2図(ニ)に示すように、入出力バスP1を介して共用
メモリ10にアクセスしたとする。
そうすると入出力バスP1が切断されているため、第2
図(ホ)に示すように、プログラムチエツクの割込みが
発生する。クラスタ12aは、プログラムチエツクによ
り、自クラスタがダウンさせられたことを認識し1回収
処理を行う。
クラスタ12aは5回収処理により最終的にCPUを停
止させる。それ以後は、第2図(へ)に示すように、ク
ラスタ12aを除いたクラスタ12bだけによる運用状
態に移行することになる。
あるクラスタが他のクラスタのダウンを検出する方法と
しては5例えば相互に自クラスタが正常であることを示
すためのメツセージを送受信する方法や、共用メモリ1
0に設けた各クラスタ対応のカウンタを、所定の時間内
に更新し、各クラスタが他のクラスタのカウンタが更新
されていることを確認する方法などがある。
第3図は9本発明の一寞施例による処理の流れを示して
いる。以下、第3図に示す■〜■に従って説明する。
■ クラスタ12bは、定期的にクラスタ12aが正常
に動作しているかを監視する0例えば。
クラスタ12aからある時間内に応答があった場合に、
クラスタ12aは正常に動作していると判断する。
■〜■ クラスタ12aは、クラスタ12bに応答する
とともに、同様にクラスタ12bの監視を行う。
■ クラスタ12b側も定期的に自クラスタが正常に動
作していることを、クラスタ12aに応答する。
■〜■ クラスタ12bは、クラスタ12aを監視し、
所定の時間内に応答がなかった場合、クラスタ12aが
ダウンしたと判断し、クラスタ12aにそのダウンを認
識させるため、クラスタL2aの入出力バスを切断する
■〜■ クラスタ12aでは、共用メモリの領域をアク
セスすると、入出力バスが存在しないため、プログラム
チエツクが発生する。
[相]〜■ プログラムチエツクの要因を調べ、自クラ
スタの入出力バスが切断されたことがわかった場合、自
クラスタがダウンさせられたと認識し、必要な回収処理
を行い、自クラスタを停止させる。
第1図に示す入出力バス切断機構IIは、スイッチその
他により、各クラスタから共用メモリに対するアクセス
を物理的に不可能にすることができるものであれば、ど
のようなものでもよい。
本実施例で用いている入出力バス切断機構等は第4図に
示すような構造になっている。
共用メモリ10ば、第4図に示すように、データを格納
する記憶機構40と、共用メモリ全体の制御または各ク
ラスタ12との通信を司る制mtm構41に分かれてい
る。
各クラスタ12との通信は、制御機構41にあるボート
43を介して行われる。各クラスタ12ごとに、1つの
ボート43が固定的に割り当てられる。
ボート43には、有効と無効の2つの状態が存在し、そ
の状態制御のために5各ポート43と1対1に対応する
1ボートにつき1ビツトの制御メモリ42が、制ms構
41内に存在する。この制御メモリ42は、記憶機構4
0内のメモリとは別のものである。
この制御メモリ42のと/トが“1”のとき対応するボ
ート43の状態は有効であり、そのボ−ト43に割り当
てられているクラスタ12は。
共用メモリ10との通信が可能である。この状態では、
クラスタ12が共用メモリ10とのデータ転送を行なえ
るだけでなく、制御メモリ全体の内容の変更も可能であ
る。すなわち、有効状態のボート43につながっている
クラスタ12は、他のボート43の状態を変更すること
も可能である。
無効状態のボート43につながっているクラスタ12は
、データ転送を行えないばかりでなく。
制御メモリ42の変更も行えない。
以上の機構により、ダウン対象のクラスタ12のボート
43を無効状態とすることで、そのクラスタ12からデ
ータ転送を行うことを物理的に抑止することができる。
これにより、クラスタ12の誤動作によるデータの破壊
を防止できる。
この共用メモリ10の入出力バス切断機構は他の目的に
使用することも可能である。例えば。
共用メモリ10が二重化され、その一方が要害になった
場合、入出力バス切断機構を利用し、l[害になった共
用メモリlOと他の全クラスタとの入出力バスを切断す
る。これにより、いわゆる片肺運転の状態に移行するこ
とができる。この場合にも、切断された入出力バスを利
用したアクセスに対しては、プログラムチエツクが発生
するが、二重化された共用メモリ10の正常側はアクセ
ス可能であるので1本発明によるクラスタのダウン処理
のための入出力バスの切断と区別することが可能である
。すなわち、二重化共用メモリの場合には、二重化され
た共用メモリ10の両方に対してプログラムチエツクが
発生した場合に、自クラスタがダウンさせられたと判断
する。
〔発明の効果〕
以上説明したように3本発明によれば、以下の効果があ
る。
(a)  データを保証した状態で、ダウンしたクラス
タの切り離しを、高速かつ簡単に実現できる。
伽) 共用メモリにダウンを認識させるための制御表な
どを持たなくてよいので、その破壊によるシステムの誤
動作の危険がない。
(C)  ダウンさせられたクラスタが誤動作した場合
でも、共用メモリに物理的にアクセスできない状態にな
るので、共用メモリのデータが破壊される危険がない。
(d)  通常の共用メモリに対するアクセス時に、自
クラスタがダウンさせられていないことを事前に確認す
る必要がないので、アクセスの高速化が可能である。
(e)  ダウンさせられたクラスタの回収処理を、そ
のクラスタが自分で行うことができる。
カバス切断処理部、14は共用メモリアクセス部。
15はダウン認識処理部、PI〜P3は入出力バスを表
す。

Claims (1)

  1. 【特許請求の範囲】 プロセッサを有する複数のクラスタ(12a、12b、
    ・・・)と、入出力バス(P1、P2、・・・)を介し
    て各クラスタに接続される共用メモリ(10)とを備え
    た複合計算機システムにおいて、 共用メモリとクラスタとを結ぶ入出力バスを物理的に切
    断する入出力バス切断機構(11)を備えるとともに、 前記各クラスタは、 他のクラスタを停止させる場合に、前記入出力バス切断
    機構により、共用メモリと停止させるクラスタ間の入出
    力バスを切断する処理を行う入出力バス切断処理部(1
    3)と、 切断された入出力バスを使用することにより、アクセス
    が異常終了した場合に、自クラスタがダウンさせられた
    と認識し、自クラスタの回収処理を行うダウン認識処理
    部(15)とを備えたことを特徴とするクラスタ停止装
    置。
JP17106890A 1990-05-18 1990-06-28 クラスタ停止装置 Pending JPH0460750A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP17106890A JPH0460750A (ja) 1990-06-28 1990-06-28 クラスタ停止装置
DE69124285T DE69124285T2 (de) 1990-05-18 1991-05-15 Datenverarbeitungssystem mit einem Eingangs-/Ausgangswegetrennmechanismus und Verfahren zur Steuerung des Datenverarbeitungssystems
EP91107879A EP0457308B1 (en) 1990-05-18 1991-05-15 Data processing system having an input/output path disconnecting mechanism and method for controlling the data processing system
US08/249,046 US5548743A (en) 1990-05-18 1994-05-24 Data processing system with duplex common memory having physical and logical path disconnection upon failure
US08/430,315 US5568609A (en) 1990-05-18 1995-04-28 Data processing system with path disconnection and memory access failure recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17106890A JPH0460750A (ja) 1990-06-28 1990-06-28 クラスタ停止装置

Publications (1)

Publication Number Publication Date
JPH0460750A true JPH0460750A (ja) 1992-02-26

Family

ID=15916446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17106890A Pending JPH0460750A (ja) 1990-05-18 1990-06-28 クラスタ停止装置

Country Status (1)

Country Link
JP (1) JPH0460750A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728746B1 (en) 1995-02-14 2004-04-27 Fujitsu Limited Computer system comprising a plurality of machines connected to a shared memory, and control method for a computer system comprising a plurality of machines connected to a shared memory
WO2012053078A1 (ja) 2010-10-20 2012-04-26 富士通株式会社 情報処理システム、記憶装置、情報処理装置、及び情報処理システムの制御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5836377A (ja) * 1981-08-24 1983-03-03 Sushi Daihan:Kk 食料品の保存方法
JPH01229359A (ja) * 1988-03-09 1989-09-13 Nec Corp 疎結合マルチプロセッサシステム
JPH0231271A (ja) * 1988-07-21 1990-02-01 Toshiba Corp マルチプロセッサシステム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5836377A (ja) * 1981-08-24 1983-03-03 Sushi Daihan:Kk 食料品の保存方法
JPH01229359A (ja) * 1988-03-09 1989-09-13 Nec Corp 疎結合マルチプロセッサシステム
JPH0231271A (ja) * 1988-07-21 1990-02-01 Toshiba Corp マルチプロセッサシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728746B1 (en) 1995-02-14 2004-04-27 Fujitsu Limited Computer system comprising a plurality of machines connected to a shared memory, and control method for a computer system comprising a plurality of machines connected to a shared memory
WO2012053078A1 (ja) 2010-10-20 2012-04-26 富士通株式会社 情報処理システム、記憶装置、情報処理装置、及び情報処理システムの制御方法
JP5413520B2 (ja) * 2010-10-20 2014-02-12 富士通株式会社 情報処理システム、記憶装置、情報処理装置、及び情報処理システムの制御方法

Similar Documents

Publication Publication Date Title
US7028218B2 (en) Redundant multi-processor and logical processor configuration for a file server
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
US5548743A (en) Data processing system with duplex common memory having physical and logical path disconnection upon failure
US7908251B2 (en) Quorum-based power-down of unresponsive servers in a computer cluster
US7650467B2 (en) Coordination of multiprocessor operations with shared resources
US7853767B2 (en) Dual writing device and its control method
US20070088978A1 (en) Internal failover path for SAS disk drive enclosure
JP5392594B2 (ja) 仮想計算機冗長化システム、コンピュータシステム、仮想計算機冗長化方法、及びプログラム
JPS61502223A (ja) 再構成可能なデュアル・プロセッサ・システム
US6574753B1 (en) Peer link fault isolation
CN110985426A (zh) 一种PCIE Switch产品的风扇控制系统及方法
JPH0822424A (ja) クライアント・サーバ・システムおよびその制御方法
JPH0460750A (ja) クラスタ停止装置
JPH06325008A (ja) リセット機能を備えるコンピュータシステム
JP2004348335A (ja) 障害検出方法及び情報処理システム
JP2000020336A (ja) 二重化通信システム
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JP2937857B2 (ja) 共通記憶装置のロックフラグ解除方式および方法
JP2716571B2 (ja) 二重化データ保全装置
JP2002032239A (ja) 多重化システム
JPS62296264A (ja) デ−タ処理システムの構成制御方式
JP2815730B2 (ja) アダプタ及びコンピュータシステム
JPH06259274A (ja) 二重系システム
JPH0895841A (ja) データベース処理方式
JPH08137709A (ja) 情報処理システム