JPS59133663A - 分散マルチプロセツサ・コンピユ−タの障害許容システムにおけるタスク実行手段間のメツセ−ジ転送方法 - Google Patents

分散マルチプロセツサ・コンピユ−タの障害許容システムにおけるタスク実行手段間のメツセ−ジ転送方法

Info

Publication number
JPS59133663A
JPS59133663A JP58219671A JP21967183A JPS59133663A JP S59133663 A JPS59133663 A JP S59133663A JP 58219671 A JP58219671 A JP 58219671A JP 21967183 A JP21967183 A JP 21967183A JP S59133663 A JPS59133663 A JP S59133663A
Authority
JP
Japan
Prior art keywords
execution means
task execution
message
main task
messages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58219671A
Other languages
English (en)
Inventor
サム・デイヴツド・グレイザ−
ジエイムス・ボ−ムバツチ
アニタ・ボ−グ
エマニユエル・ウイテルス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OORAJIEN SYSTEMS CORP
Original Assignee
OORAJIEN SYSTEMS CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OORAJIEN SYSTEMS CORP filed Critical OORAJIEN SYSTEMS CORP
Publication of JPS59133663A publication Critical patent/JPS59133663A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2005Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 この発明は、分散マルチプロセッザ・コンピ−タ(並列
処理コンビーータ)の障害許容システムにおけるタスク
実行手段間のメツセージ転送方法に関する。
障害許容コンピー−タンステムは、すべてハードウェア
とノフ;・ウェアの両資源の二重化を必要としている。
これらのシステムは、二重資源を障害許容に富力するよ
うに用いる流儀において相異なり、丑だ二重化で伺加し
たハードウェアから得られる迫力11の訓算能力の量に
おいて相異なるものである。このようなシステムは、そ
れらがその各主プロカスすなわちタスク(実行プログラ
ム)が、その主タスクか障害となった場合に、実行を継
続することのできるバックアップ・プロセスあるいはタ
スクを持っていることを必要としている点で相似たもの
である。
このようなシステムの1つのアン0ローチである〔−例
えば、5TRATUSシステム〕は、]っのププロスあ
るいはタスクとそのパックアップ0を2つのCPU (
中央処理ユニット)で同時に実行すること゛により、1
方が障害を起こした場合にも中断彦しに他方が実行を継
続することを必要としている。
このCPUの1方は通例′主″と呼ばれ、他方は通例副
″あるいはパパック・アップ″と呼ばれる。
この主及びバック・アップ0(t−1本質的には区別不
可能である。このようなシステムは障害aト1容をbえ
る一方、二重ハードウェアは計算能力を増大させるもの
でないことに留意しなければならない。
2つ目のアプローチは、不活性(実行を行なわない)バ
ックアップ・プロセスの保持を含む、すなわち、主CP
Uか障害となった場合に他のバックアップ0すなわち副
CPUに引き継ぐことかできるようにするものである。
この場合、バックアップ・タスクは主タスクから何時で
も引き継きができるようなやり方で確保されなければな
らない。言いかえれば、その領域(universe 
)すなわちそのデータ・スペースにおける値の蓄積によ
って表わされるバックアップ・タスクの状態は、主タス
クのそれと等しいすなわち同一であるかあるいは同一と
なることが可能でなければならない。このようなシステ
ムにおいては、障害が発生しない限9、バックアップC
PIJ Kおける二重ハードウェアは追加の主フ0ロセ
スをランするのに用いることができる。
このようなシステムは、米国特許第4,228,496
に開示されている。このようなシステムにおいて、主タ
スクがメツセージを受けとるときにはいつでも、副タス
クも寸だそのメツセージを受けるが、主タスクは新しく
受けとっだメツセージに基づいた附勢を実行してそのデ
ータ・ス被−スにストアされる新データを発生さぜる。
次に、チェックポイント・オにレーノヨンが実行されて
、主タスクに関連したデータ・ス波−スが副すなわちバ
ックアップ・タスクのデータ・ス被−ス中にロードされ
る。かくして、主タスクに障害が発生すると、バックア
ップ・タスクは現在のデータと主タスクのチェックポイ
ント法で供給された情報についての処理を継続すること
になる。このタイプのシステムにおいてはそのバックア
ンプ・タスクが不活性であって余分のハードウェアが他
の目的のため゛に使用されるけれども、主のデータ・ス
啄−スの副のデータ・ス波−スへの頻繁なコを−ば、追
加した計算能力の大きな部分を使用する。
発明の概要 この発明の総体的な目的は、障害許容システムを提供す
ることであるが、同時にデータとチェックポイント法を
行なっている間に必要とされる情報の大規模な転送の頻
度を低減することに、よって、通常の処理中における総
合的なオ波し−ションの効率を増大せしめることである
この目的を達成するために、この発明d:、バックアッ
プすなわち副タスクを正確に更新する代わりに、そのバ
ックアップ・タスクはほぼ更新を保たれるが、それ自身
を主タスクが障害の状態になった状態にもたらすのに必
要とするすへての情報を供給されるようにすることを意
図するものである。
この発明の概念は、もしも2つのタスクが同一の状態で
スタートして同一の入力情報を与えられると、それらは
同じように実行するであろうという見解に基づいている
特に、この発明によるシステムでランするプロセスへの
すべての入力はメツセージを介して与えられる。それ故
、主タスクへ送られるすべてのメツセージは副すなわち
バックアップ・タスクにも利用可能に作られなければな
らず、それによって主タスクの障害に応じて副タスクは
そのメツセージに基づいた再計算により捕捉される。本
質的には、そのとき、各バックアップ0・タスクにその
主・ タスクのメソセージを゛聴取″させることによっ
て達成さ・れる。
この発明の他の特徴によれば、障害に基づくバックアッ
プ・タスクによる完全な再計算を回避し、主タスクとそ
のバックアップ・タスクは、主タスクのデータ・スペー
スのコピーによって周期的に゛同期化″される。この同
期化は上記したチェック2インド法を含むが、それはそ
う頻繁には生じない。バックアップ・タスクが主タスク
と同一でない介在ピリオド(intervening 
period )において、主タスクへのすべてのメツ
セージはバックア″ッゾ・タスクで利用可能に保留され
る。も゛しも、そのとき主タスクが1章害を起こすと5
、そのバックアップは、セーブした入力を用いて直前の
同期ポイントから実行を行なう。
このようなルーチンは、現に障害が起きている追加の計
算を僅かだけ犠牲にして通常の計算をより効率的にさせ
ることが明らかである。
さらに、この発明による方法は、これ丈、で知られたチ
ェックポイント法よりもずっと少ないメ。
セージの転送を行なうことでよい。壕だ、さらにこの発
明による方法は、従来のチェックポイント法に比較して
計算時間が少なく、°がっ必要とするメモリスペースも
少すくテよい。
特に、この発明は、少なくとも第1と第2の主タスク実
行手段と第1と第2の副(バックアップ)タスク実行手
段をもつ並列処耶計算機システムを企図している。その
タスク実行手段ハメッセージ・バス手段によって相互に
結合されている。このようなシステムにおいては、タス
ク実行手段間にメツセージを送る方法が考慮される。特
に、この発明は、第1の主タスク実行手段からのメツセ
ージを、この手段に関連したタスクに従うメツセージに
基づいて実行する第2の主タスク実行手段へ送ることを
意図している。この第2の主タスク実行手段は、先ず受
けとったメツセージを待ち行列にしてストアし、次いで
処理のだめにその待ち行列からメツセージを読み出すこ
とによって受信したメツセージに基づく操作を行なう。
さらに、この第2の主タスク実行手段は、待ち行列から
読み出すメツセージのカウントを累算する。同時に、あ
るいはそのすぐ後に、主タスク実行手段は、そのメツセ
ージを第2の副タスク実行手段に送り、この第2の副タ
スク実行手段は、それらのメソセージを一連のメツセー
ジ待ち行列にストアする。この第2の副タスク実行手段
の待ち行列にストアされたメツセージは、第2の主タス
ク実行手段の障害発生時にのみ処理される。
この発明の他の目的、特徴及び利点は、添付の図面を参
照した以下の詳細な記述から明らかとなろうが、これら
の記述はこの発明の1実施例であって、この発明はこれ
に制限されるもので゛ない。
実施例の詳細な説明 第1図は並列処理コンピュータシステムPPSを示し、
バックアップすなわち副タスク・プロセッサ12をl!
#iえた主タスク・プロセッサ11と、バックアップ0
・タスク・プロセッサ22を1116えた第2の主タス
ク・プロセッサ21とを含んでいる。
これらのタスク・フ0ロセ、すは、好甘しく何、見金な
冗長性を持った二重メツセージ・バスであるメツセージ
・バスM Bによって相互に結合される。
さらには、該タスク・70ロセ、す2]トソf7)パ。
クアソプ・タスク・フ0ロセ、ザ22は、共通のメモリ
CM2に結合されている。二つのフ0ロセソザ対のみが
、該対の1方か共通メモリに相互結合されているものと
して図示しであるが、共通メモリに対して無数のプロセ
ッサ対がメツセージバスMBに結合できることは理解さ
れよう。構築中にあるこの発明の実施例にあっては、3
2のこのようなタスク・フ0ロセッザ対がシステム中に
設置される。このシステムPPSにおいて、メツセージ
はバスを介していづれのタスク・プロセッサからいづれ
の他のタスク・プロセッサへも送信されることができる
。実際に、メツセージは1つのタスク・プロセッサから
他のタスク・プロセッザヘバスの二つの別チャンネルに
より並列に送信される。この発明によれば、メツセージ
は、通常において3つのタスク・プロセッサに送られる
、すなわち、源発(originating)のタスク
・70ロセッサU−tのメツセージを希望の目的タスク
・プロセッザニ送ると共に、該希望の目的タスク・プロ
セッサのバックアップ0・タスク・プロセッサにも送る
。さらに址だ、このメツセージは、該源発タスク・プロ
セッサのバックアップ・タスク・プロセッサにも送られ
る。
第2図には、−膜化したタスク・プロセッサXYが示さ
れている。この発明の説明のために、タスク・プロセ、
すXYは、読出しカウンタRC1書込みカウンタWC1
メツセージ待ち行列MQ1およびプロセッサRPの残余
の部分を含むものとすることができる。
若し、そのタスク・フ0ロセ、ザが主フ0ロセ、すであ
れば、そのときは読出しカラン、りRCが用いられて宵
込みカウンタWCは無視される。若し、そのタスク・ン
0ロセ、ザがバ、り7ツプ・プロセッサであれば、その
ときは書込みカウンタが用いられて読出しカウンタは使
用されない。
読出しカウンタRCは、メ、セーノ待チ行列MQからプ
ロセッサRPの残余の中へ読みと4られたメツセージの
数のit数を累算するのに用いられる。
オにレーションの開始において、このレソスタが初期化
され、そしてその後に各単位が前記待ち行列から70ロ
セ、すの残余の部分に読み出された各メソセージに応じ
てインクレメントされる!主プロセツサとその関連した
バックアップ・フ0ロセ、すとの間の同期がとられてい
る限り、前記読出しカウンタは初期化される。後に述べ
ることから明らかなように、主プロセ、すとバックアッ
プ・7’oセツザとが同一の状態にもたらされること、
より詳しく言えばデータ・ス波−スが一致することにお
いて、同期化はチェックポイント法と同様のものである
源発プロセ、ザにより送信されるメツセージは、受信す
る70ロセ、ザのそれぞれによって異なったやり方で使
用される。目的のプロセッサは、そのメツセージを受け
、プロセッサの残余の部分による読出しのために待ち行
列中にロードされる。そのメツセージは、寸だ、その受
信目的プロセッサのバックアップ・プロセッサの待ち行
列中にロードされるが、それは、上記目的プロセッサに
おいて障害が発生しているときに該バックアップ・フ。
ロセッサの残余の部分によって読出される体勢にあるの
みである。最後に、このメツセージは、送信プロセッサ
によって送られたメツセージの計数を累算する為にのみ
送信プロセッサのバックアップ・プロセノ、すで使用さ
れる。
このメツセージは、その後拾てられる。
次に、この発明によるシステムの基本オ被レージョンに
ついて説明する。ここで、いくつ力為の仮定を置く。そ
の先ず第1に、タスク・フ0ロセyヤー11と21を主
タスク・プロセッサとし、タスク・ゾロセ、す12と2
2をそれぞれのノ々ツク′アツフ0・タスク・70ロセ
、すとする。従って、タスク・フ0ロセッザ】1と21
は、書込みカウンタをl・要としない、すなわち利用し
ない。同様に、タスク・プロセッサ12と22は、読出
しレジスタRRを必要としない、すなわち利用しない。
下記の表Iは、オ波し−ションに先立つ2I〈システム
の関連エレメントの状態を示すものて、ある。
この表Iかられかるように・、タスク・フ0ロセ、ツー
1、2 ト22 (こレラハノ々ツクアツフ0・)0ロ
セツ−IJ−である)の書込みカラ二/りWCは、零イ
直にネ刀期イヒされている。
タスク・プロセッサ11と21(これらは主)0ロセツ
ザである)の読出しカウンタRCもまた、零値に初期化
されている。さらに、全フ0ロセノ勺−のメツセージ待
ち行列は、空である。
表  1 11   不使用    0     012    
 0     不使用    021    不使用 
   0     022    0    不使用 
   0タスク・プロセッサ11を送信すなわち源発生
タスク・プロセッサであると仮定し、それらが3つのメ
ツセージをメツセージ・パスMBへ送出スるものとする
。そのメツセージは、最初は;受信すなわち目的主タス
ク・プロセッサ21に行き先が決められている。前記し
たように、これらのメ、セージHまだ、目的タスク・プ
ロセッサ21のだめの副タスク・プロセッサであるタス
ク・プロセッサ22と、タスク・プロセッサ12(送信
タスク・プロセッサ11のだめの副タスク・70ロセツ
サ)とに送信される。この3つのメツセージが送信され
た後に、このシステムの各関連エレメントの状態は、表
■のようになる。特に、送信タスク・プロセッサ11の
だめのパックアラ70′・タスク・プロセ、す12の書
込みカウンタWCは、送信タスク・プロセッサが3つの
メツセージを送ったことを示す3つの計数をストアする
。目的タスクプロセソザ(主および副)21と22のメ
ツセージ待ち行列は、それぞれ記号Ml、M2.及びM
3で示された3つのメツセージをストアする。
タスク・プロセッサ21は、これらのメ、、虫−ジを処
理のだめに用いることになる。タスク・プロセッサ22
は、これらのメツセージをボールドして、これらを若し
タスク・プロセッサ21に故1%’−が起きたときにの
み使用するっタスク・プロセ。
ザ12は、単に、3つのメツセージがその主タスク・プ
ロセッサ11によって送信されたことを示す計数をスト
アするのみである。
表  ■ タスク・ 書込み 読出し メッセージフ0ロセソザ 
カウンタ  カウンタ 待チ行列11    不使用 
   00 12    3    不使用    021    
不使用    OMl、、M2.M322     0
     不使用  Ml、、M2.M3とのオ被し−
ションにおける次のステラフ0は、目的タスク・プロセ
ッサ21がそのメツセージ待ち行列からメツセージM1
とM2を読出して、これらのメツセージを処理すること
である。hmは、このオー<V、−ジョンの結果を示し
だものである。
この時点における各エレメントの状態の違いは、タスク
・プロセッサ21のだめのメツセージ待ち行列がメツセ
ージM3だけをストアしていると同時にその読出しカウ
ンタは2つのメツセージ(MlとM2)がメソセージ待
ち行列から読出されたことを示す2の言」数をストアし
ていることに注目すべきである。
表111 11    不使用   0      012   
 3    不I史用    021    不使用 
  2     M322    0   不使用  
Ml、M2.M3これに応じて、タスク・ゾロセ、す2
]か2つのメツセージM4とM5を発生し、それらをタ
スク・7°ロセッサ]、 ]へ送信するものとすると、
当該タスク・プロセッサ]]は今度は目的主タスク・プ
ロセッサとして動作する。次の表■に示されたように、
タスク・プロセッサ]1と12それぞれのだめのメッセ
ーノ待ち行列は、メツセージM4およびM5をストアす
る。これに加えて、タスクブロセッザ22の書込みカウ
ンタは、計数2を累積する。
表■ 11    不使用    Q    M4.M5]2
     :3    不使用  M4.M521  
  不使用    2       M322    
2    不使用  Ml、、M2.M3通常のオペレ
ーション中ハ、主ブロセツヤーとそのバックアップ・プ
ロセッサハ、ノZyクアノフ0・プロセゾザ中にセーブ
されたメツセージの待ち行列が太きすぎないときはいつ
も同期カーとられている。そのとき、・々ツクアップ・
プロセッサは、」三プロセ、ザに対して同期を要求する
% 51i+1のメツセージを送る。それに応じて、主
グロセツダーケよ、そのデータ・ス被−スのページのす
べてを)S ツクアップ・プロセ、すと共有する共通メ
モ1ノ中に書込む。さらに、主プロセツサは、その待ち
行列から読出したメツセージの数の割数値を、オペレー
ションの開始からか寸かは直前の同期後から、バックア
ップ・フ0ロセ、ザに送る。パラ久ア、7°・プロセツ
サは、この計数値を、対応す、るメツセージの数をその
待ち行列の開始から捨てるだめに使用する。
このやり方により、バックアップ・ン°ロセッザは、主
ノ°ロセ、ザのI滝害時に処理を開始し、直前の同期か
ら処理されなかったメツセージのみを処理する。読出し
/ζd゛1数値をバックアップ・ノ°ロセッサに送った
後、主ノ0ロセyザは、そのストアされた読出し計数値
を初期化する。同期化か要求されて、このような同期化
が行なわれだ後の関連エレメントの状態を次の表Vに示
されたものとする。
表  ■ 11    不使用    □     M4.M51
2    3   不使用   M4.MS21   
 不使用   Q      M322    2  
  不使用    M3ここで、タスク・プロセッサ2
]と22のメモリ待ち行列が同一であり、またタスク・
70口・セ。
ザ21の読出しカウンタが零を示していることに留意す
べきである。この表には、共通メモIJCM2が、タス
ク・プロセッサ22に対してアクセス可能であるタスク
・70ロセツサ21のデータ・、ス硬−スに最新データ
をストアしていることは示されていない。
ここで、主タスク・プロセッサ21の障害によってバッ
クアップ・タスク・プロセッサ22による処理の引き継
ぎがなされることが説明される。
直前の(@新の)同期がとられた時点において、あるい
はその:A’9レー/ヨンがその開始時から同期なしに
開始した場合に、フ0ロセッザ22はその。
処理を開始するということに留意すべきである。
徒だ、この両方の場合共同じことであることにも留意す
べきである。説明を簡単にするために、このシステムが
同期をとられておらず、表■に示した状態にあると仮定
する。障害の発生時点で、そのバックアップ・コンビー
ータは処理を引継く。
この引継き期間に、新しいバックアップ・タスク・プロ
セッサを増設(spawn)することが望ましいか、こ
の増設は本発明の主要な部分ではないので、そのオペレ
ーションについては言及しない。
とd、いえ、前記バックアップ・タスク・プロセッサは
、データの処理を開始する。重要な点は、この処理にお
いて、今や主プロセツサとして動作しテイルバックアッ
プ・70ロセツザ22が、全障害となっている主プロセ
ツサ21がその障害が発生する前に送信ずみであるメツ
セージを再度送信することはないということである。こ
のことは、゛プロセッサ22の書込みカウンタにある計
数値によって行なわれる。実施例では、上記カウンタは
、障害発生前に700セ、ザ21がそのスタート時点か
らあるいは最後の同期時点から2つのメツセージを送信
したことを示す計数値2を持っているとして理解される
である。それ故、タスク・プロセッサ22は、その処理
中に、1つのメッセー゛ジを送信する最初の時点に達す
る時、そのメツセージを送信しないがその書込みカウン
タを計数値1だけ減する。その後、次のメツセージが送
信されるべき時点で、再びそのメツセージは抑制されて
、計数値は零に減ぜられる。ここで、プロセッサ21に
よって以前に送信されたすべてのメツセージは抑制され
、今やプロセッサ22によって発生されたすべてのメツ
セージが送信されることになる。表■は、障害が発生し
たときの状態を示す。
表  ■ Jl    不使用    0  、   M 4’ 
y M 512    3    不使用  M/1.
、M521   不使用 障害 障害 22    2    不使用  Ml、M2.M3以
上でメツセージの障害許容処理に関連、した基本的オ波
し−ンヨンを説明した。この基本的オ被し−7ヨンはあ
る特定の順序でなされているが、これらのオ(レーショ
ンは、実施例において説明されたものに限らず、どの様
な順序でもまた種々のプロセッサの間ても実行されイ月
るものであることは理解されよう。
【図面の簡単な説明】
第1図は本発明による並列処理コンピュータ・システム
のブロック図、第2図は第1図のタスク・プロセッサの
1つを説明するだめのブロック図である。 11.12,21,22:タスク・プロセ′ノサ、CM
:共通メモリ、 MB:メツセージ・バス、 RC:読出しカウンタ、 WC:書込みカウンタ、 M Q ’メツセージ待ち行列、 RP:タスク・プロセッサの残余の部分。 アメリカ合衆国07632ニユーシ ヤーシー州イングルウツド・ク リフイス・ニューストリート29 469−

Claims (10)

    【特許請求の範囲】
  1. (1)少くとも1つの主タスク実行手段と、第2の主タ
    スク実行手段と、上記第2の主タスク実行、手段のバッ
    クアップとして働く副タスク実行手段と、前記各タスク
    実行手段は1つのタスク実行メモリ手段を持ち、前記タ
    スク実行手段を相互に接続するメツセージ・パス手段と
    を持つ分散マルチプロセッサ・コンピュータ・システム
    において、前記タスク実行手段間のメツセージ転送方法
    が、前記主タスク実行手段から前記第2の主タスク実行
    手段へメツセージを送信するステップ0と、前記第2の
    主タスク実行手段が、最初受信したメツセージを待ち行
    列にストアし、次いで前記第2、の主タスク実行手段に
    関連したタスクに従って処理するために前記待ち行列か
    ら前記メツセージを読出すことによって前記メツセージ
    に基づく処理を行なうステップ0と、前記第2の主タス
    ク実行手段かその待ち行列から読出したメツセージの計
    数を累算するステップと、前記第1の主タスク実行手段
    からのメツセージを前記第2のタスク実行手段に送信す
    るステップと、前記第2のタスク実行手段が前記メツセ
    ージを1つのメツセージ待ち行列でストアするステップ
    とから成るメツセージ転送方法。
  2. (2)前記第1の主タスク実行手段によって送信された
    メツセージを計数するステップをさらに備えた、特許請
    求の範囲第(1)項記載のメツセージ転送方法。
  3. (3)前記第1の主タスク実行手段が、前記第2の主タ
    スク実行手段と前記副タスク実行手段の両方がメツセー
    ジを受信できることを前記第1の主タスク実行手段に指
    示した後にのみ、メツセージを送信するステップをさら
    に備えた特許請求の範囲第(1)項記載のメツセージ転
    送方法。
  4. (4)前記第2の主タスク実行手段と前記副タスク実行
    手段の両方がメツセージを受信したことを前記主タスク
    実行手段に指示するステップをさら゛に備え/こ特許/
    「請求の範囲第(2)項言己載のメツセージ転送方法。
  5. (5)少くとも1つの第1の主タスク実行手段と、前記
    第1の主タスク実行手段のだめのバックアップとして働
    く第1の副タスク実行手段と、第2の主タスク実行手段
    と、前記第2の主タスク実行手段のだめのバックアップ
    として働く第2の副タスク実行手段と、前記タスク実行
    手段の各々か1つのタスク実行メモリ手段を持っており
    、前記タスク実行手段を相互に結合するメツセージ・パ
    ス手段ト、ヲ持つ分散マルチ70ロセ、ザ・コンピュー
    タ・システムにおいて、前記タスク実行手段間のメツセ
    ージ転送方法が、 前記第1の主タスク実行手段から前記第2の主タスク実
    行手段ヘメ、セージを送信するステップ0と、前記第2
    の主タスク実行手段が最初受信したメツセージを待ち行
    列にストアした後に前記第2の主タスク実行手段に関連
    したタスクに従う処理のために該待ち行列から該メツセ
    ージを読出すこ′とによって前記メツセージに基づいて
    処理を行なうステップ0と、前記第2の主タスク実行手
    段がその待ち行列から読出したメツセージの計数値を累
    算して、前記第1の主タスク実行手段から前記第2の副
    タスク実行手段へ前記メツセージを送・信するステップ
    と、前記第2の副タスク実行手段が前記メツセージを1
    つのメツセージ待ち行列にストアするステ、プとから成
    るメソセージ転送方法。
  6. (6)前記第1の主タスク実行手段が前記メッセージヲ
    NI記第1の主タスク実行手段から前記第1の副タスク
    実行手段にも送信し、前記第1の副タスク実行手段が前
    記第1の主タスク実行千綬から送信されたメツセージの
    数を割数するようにした特許請求の範囲第(5)記載の
    メツセージ転送方法。
  7. (7)前記第1の主タスク実行手段が全ての3つの他の
    タスク実行手段が該メツセージを受信できたことを前記
    第1の主タスク実行手段に指示した後にのみメツセージ
    を送信するステップをさらに備えた特許請求の範囲第(
    5)項記載のメツセージ転送方法。
  8. (8)全ての3つの他のタスク実行手段か該メツセージ
    待受信したことを指示するステップをさらに備えた特許
    請求の範囲第(7)項記載のメツセージ転送方法。
  9. (9)  前記第2の主タスク実行手段と前記第2の副
    タスク実行手段は共通のメモリ手段にアクセスでき、前
    記第2の副タスク実行手段の待ち行列にあるメツセージ
    か所定の量を越えるときにシ」、前記第2の主タスク実
    行手段かそのタスク実行メモリ手段の内容を前記共通の
    メモリ手段に転送し、その読出しだメツセージの累算割
    数を前記第2の副タスク実行手段に転送し、かつ前記第
    2の主タスク実行手段にストアされた前記累積計数を零
    とする特許請求の範囲第(5)項記載のメツセージ転送
    方法。
  10. (10)前記第2の主タスク実行手段が不作動となると
    き前記第2の副タスク実行手段か前記共通のメモリ手段
    にストアされたデータを用い、前記第2のタスク実行手
    段から受信した累算計数値をnとして、そのメツセージ
    待ち行列中の最初のヱメソセーノを処分した後を除いて
    そのメツセージ待ち行列中のメツセージに基く処理を開
    始する特許請求の範囲第(9)項記載のメツセージ転送
    方法。 (1])  前記第2の主タスク実行手段と前記第2の
    副タスク実行手段は共通のメモリ手段にアゲセスする手
    段を持ち、第2の副タスク実行手段の待ち行列にあるメ
    ツセージか所定の量を越えるときは前記第2の主タスク
    実行手段かそのタスク実行メモリ手段の内容を前記共通
    のメモリ手段に転送しかつその読出しだメツセー・ゾの
    累算計数値を前記第2の副タスク実行手段に転送し、前
    記第2の主タスク実行手段ばpのメツセージをもう1つ
    のタスク実行手段に送シ、前記第2の副タスク実行手段
    は前記第2の主タスク実行手段によって送られソセージ
    を送った後、前記第2の主タスク実行手段は不作動とな
    シ、前記第2の副タスク実行手段はそのメツセージ待ち
    行列にあるメツセージをその中にある最初のnのメツセ
    ージを処分した後を除いて前記共通のメモリ手段にスト
    アされたデータを用いて処理を開始し、nは前記第2の
    主タスク実行手段から受けた累算計数値であり、その引
    継ぎ処理の開始から発生された最初のpのメツセージは
    送らない、特許請求の範囲第(6)項記載のメツセージ
    転送方法。 (1つ 少くとも1つの第1の主タスク実行手段と、第
    2の主タスク実行手段と、前記タスク実行手段の各々は
    タスク実行メモリ手段を持ち、前記タスク実行手段を相
    互接続するメツセージ・バス手段と、を持つ分散マルチ
    ゾロセ、ヅ・コンビ5−タンステムにおいて、’tl’
    J記タスク実行手段間のメ。 セージ転送方法か、 前記第1の主タスク実行手段から前記第2の主タスク実
    行手段へnのメツセージを送るステップ0と、送られだ
    メツセージの計数値nをストアするステ、プと、前記第
    1の副タスク実行手段が前記第1の主タスク実行手段の
    障害に応じて処理を開始するが前記処理からの最初のn
    のメツセージの送信を行なわないステップとから成るメ
    ツセージ転送方法。
JP58219671A 1982-11-23 1983-11-24 分散マルチプロセツサ・コンピユ−タの障害許容システムにおけるタスク実行手段間のメツセ−ジ転送方法 Pending JPS59133663A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US443937 1982-11-23
US06/443,937 US4590554A (en) 1982-11-23 1982-11-23 Backup fault tolerant computer system

Publications (1)

Publication Number Publication Date
JPS59133663A true JPS59133663A (ja) 1984-08-01

Family

ID=23762790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58219671A Pending JPS59133663A (ja) 1982-11-23 1983-11-24 分散マルチプロセツサ・コンピユ−タの障害許容システムにおけるタスク実行手段間のメツセ−ジ転送方法

Country Status (6)

Country Link
US (1) US4590554A (ja)
EP (1) EP0143125A2 (ja)
JP (1) JPS59133663A (ja)
AU (1) AU2111583A (ja)
DK (1) DK536283A (ja)
SE (1) SE8306265L (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6184766A (ja) * 1984-09-20 1986-04-30 アンステイテユ・ナシオナル・ドウ・ルシエルシユ・アン・アンフオルマテイク・エ・アン・オートマテイク 1つの作業を複数の異なる地点の間で分配して実行するための方法及び電子装置

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6054052A (ja) * 1983-09-02 1985-03-28 Nec Corp 処理継続方式
JPH0618377B2 (ja) * 1983-09-08 1994-03-09 株式会社日立製作所 伝送系
US4882669A (en) * 1983-11-28 1989-11-21 Canon Kabushiki Kaisha Multi computer fail safe control apparatus
US4823256A (en) * 1984-06-22 1989-04-18 American Telephone And Telegraph Company, At&T Bell Laboratories Reconfigurable dual processor system
US4665520A (en) * 1985-02-01 1987-05-12 International Business Machines Corporation Optimistic recovery in a distributed processing system
US4979108A (en) * 1985-12-20 1990-12-18 Ag Communication Systems Corporation Task synchronization arrangement and method for remote duplex processors
EP0239827B1 (de) * 1986-04-02 1993-05-26 Siemens Aktiengesellschaft Verfahren zum Ansteuern eines gemeinsamen Speichers eines aus einzelnen Mikroprozessorsystemen bestehenden Mehrprozessorsystems
US5121488A (en) * 1986-06-12 1992-06-09 International Business Machines Corporation Sequence controller of an instruction processing unit for placing said unit in a ready, go, hold, or cancel state
US5079740A (en) * 1987-01-12 1992-01-07 Ncr Corporation System and method of providing an automatic back-up primary terminal for a cluster of secondary terminals
US4821170A (en) * 1987-04-17 1989-04-11 Tandem Computers Incorporated Input/output system for multiprocessors
US5201040A (en) * 1987-06-22 1993-04-06 Hitachi, Ltd. Multiprocessor system having subsystems which are loosely coupled through a random access storage and which each include a tightly coupled multiprocessor
JPH0831061B2 (ja) * 1987-07-24 1996-03-27 株式会社日立製作所 バツフア制御方式
CA2003338A1 (en) * 1987-11-09 1990-06-09 Richard W. Cutts, Jr. Synchronization of fault-tolerant computer system having multiple processors
US4873631A (en) * 1988-04-25 1989-10-10 Ncr Corporation Point of sale automatic back-up system and method
US4954941A (en) * 1988-08-31 1990-09-04 Bell Communications Research, Inc. Method and apparatus for program updating
US4965717A (en) * 1988-12-09 1990-10-23 Tandem Computers Incorporated Multiple processor system having shared memory with private-write capability
US5175828A (en) * 1989-02-13 1992-12-29 Hewlett-Packard Company Method and apparatus for dynamically linking subprogram to main program using tabled procedure name comparison
US5339418A (en) * 1989-06-29 1994-08-16 Digital Equipment Corporation Message passing method
FR2649224B1 (fr) * 1989-06-30 1995-09-01 Nec Corp Systeme de traitement de l'information capable de prendre facilement en charge le traitement d'un processeur defaillant
US6463529B1 (en) 1989-11-03 2002-10-08 Compaq Computer Corporation, Inc. Processor based system with system wide reset and partial system reset capabilities
US5497497A (en) * 1989-11-03 1996-03-05 Compaq Computer Corp. Method and apparatus for resetting multiple processors using a common ROM
JPH03154105A (ja) * 1989-11-10 1991-07-02 Toshiba Mach Co Ltd Ncプログラム作成装置
DE69021712T2 (de) * 1990-02-08 1996-04-18 Ibm Wiederanlaufkennzeichnungsmechanismus für fehlertolerierende Systeme.
DE69029084D1 (de) * 1990-02-27 1996-12-12 Ibm Nachrichtenführungseinrichtung durch mehrere Rechner, die mittels eines geteilten intelligenten Speichers gekoppelt sind
US5023778A (en) * 1990-03-23 1991-06-11 General Motors Corporation Interprocessor communication method
US5086429A (en) * 1990-04-10 1992-02-04 Honeywell Inc. Fault-tolerant digital computing system with reduced memory redundancy
US5271013A (en) * 1990-05-09 1993-12-14 Unisys Corporation Fault tolerant computer system
US5285203A (en) * 1990-06-05 1994-02-08 Matsuhita Electric Industrial Co., Ltd. Message transmission device, and a message transmission system and a message transmission status advising system using the message transmission device
US5060138A (en) * 1990-08-31 1991-10-22 Advanced Micro Devices, Inc. Apparatus for use with a computing device for generating a substitute acknowledgement to an input when the computing device is in an operational hiatus
US5157663A (en) * 1990-09-24 1992-10-20 Novell, Inc. Fault tolerant computer system
US5142470A (en) * 1990-09-26 1992-08-25 Honeywell Inc. Method of maintaining synchronization of a free-running secondary processor
DE69231452T2 (de) * 1991-01-25 2001-05-03 Hitachi Ltd Fehlertolerantes Rechnersystem mit Verarbeitungseinheiten die je mindestens drei Rechnereinheiten haben
US5363503A (en) * 1992-01-22 1994-11-08 Unisys Corporation Fault tolerant computer system with provision for handling external events
JPH05225159A (ja) * 1992-02-10 1993-09-03 Fujitsu Ltd 制御情報のバックアップ方式
FR2691559B1 (fr) * 1992-05-25 1997-01-03 Cegelec Systeme logiciel a objets repliques exploitant une messagerie dynamique, notamment pour installation de controle/commande a architecture redondante.
US6237108B1 (en) * 1992-10-09 2001-05-22 Fujitsu Limited Multiprocessor system having redundant shared memory configuration
US5914953A (en) * 1992-12-17 1999-06-22 Tandem Computers, Inc. Network message routing using routing table information and supplemental enable information for deadlock prevention
US5459864A (en) * 1993-02-02 1995-10-17 International Business Machines Corporation Load balancing, error recovery, and reconfiguration control in a data movement subsystem with cooperating plural queue processors
JPH0713838A (ja) * 1993-06-14 1995-01-17 Internatl Business Mach Corp <Ibm> エラーの回復方法及び装置
US5928368A (en) * 1994-06-23 1999-07-27 Tandem Computers Incorporated Method and apparatus for fault-tolerant multiprocessing system recovery from power failure or drop-outs
JP3544390B2 (ja) * 1994-06-29 2004-07-21 富士通株式会社 並列計算機で用いられるメッセージ通信方法
US5764903A (en) * 1994-09-26 1998-06-09 Acer America Corporation High availability network disk mirroring system
US5649152A (en) * 1994-10-13 1997-07-15 Vinca Corporation Method and system for providing a static snapshot of data stored on a mass storage system
US5835953A (en) * 1994-10-13 1998-11-10 Vinca Corporation Backup system that takes a snapshot of the locations in a mass storage device that has been identified for updating prior to updating
CA2167634A1 (en) * 1995-01-23 1996-07-24 Michael E. Fisher Method and apparatus for maintaining network connections across a voluntary process switchover
US5696895A (en) * 1995-05-19 1997-12-09 Compaq Computer Corporation Fault tolerant multiple network servers
US5675723A (en) * 1995-05-19 1997-10-07 Compaq Computer Corporation Multi-server fault tolerance using in-band signalling
US5822512A (en) * 1995-05-19 1998-10-13 Compaq Computer Corporartion Switching control in a fault tolerant system
US5687308A (en) * 1995-06-07 1997-11-11 Tandem Computers Incorporated Method to improve tolerance of non-homogeneous power outages
JP2878988B2 (ja) * 1995-06-19 1999-04-05 株式会社東芝 チェックポイント通信処理システム
US5864657A (en) * 1995-11-29 1999-01-26 Texas Micro, Inc. Main memory system and checkpointing protocol for fault-tolerant computer system
US5802265A (en) * 1995-12-01 1998-09-01 Stratus Computer, Inc. Transparent fault tolerant computer system
GB9601584D0 (en) * 1996-01-26 1996-03-27 Hewlett Packard Co Fault-tolerant processing method
GB9601585D0 (en) * 1996-01-26 1996-03-27 Hewlett Packard Co Fault-tolerant processing method
US6032271A (en) * 1996-06-05 2000-02-29 Compaq Computer Corporation Method and apparatus for identifying faulty devices in a computer system
US5991518A (en) * 1997-01-28 1999-11-23 Tandem Computers Incorporated Method and apparatus for split-brain avoidance in a multi-processor system
US6012150A (en) * 1997-03-27 2000-01-04 International Business Machines Corporation Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system
US6799224B1 (en) * 1998-03-10 2004-09-28 Quad Research High speed fault tolerant mass storage network information server
US6260155B1 (en) 1998-05-01 2001-07-10 Quad Research Network information server
US6223304B1 (en) * 1998-06-18 2001-04-24 Telefonaktiebolaget Lm Ericsson (Publ) Synchronization of processors in a fault tolerant multi-processor system
US6513108B1 (en) 1998-06-29 2003-01-28 Cisco Technology, Inc. Programmable processing engine for efficiently processing transient data
US6119215A (en) * 1998-06-29 2000-09-12 Cisco Technology, Inc. Synchronization and control system for an arrayed processing engine
US6195739B1 (en) 1998-06-29 2001-02-27 Cisco Technology, Inc. Method and apparatus for passing data among processor complex stages of a pipelined processing engine
US6101599A (en) * 1998-06-29 2000-08-08 Cisco Technology, Inc. System for context switching between processing elements in a pipeline of processing elements
US6836838B1 (en) 1998-06-29 2004-12-28 Cisco Technology, Inc. Architecture for a processor complex of an arrayed pipelined processing engine
DE19836347C2 (de) * 1998-08-11 2001-11-15 Ericsson Telefon Ab L M Fehlertolerantes Computersystem
US6728839B1 (en) 1998-10-28 2004-04-27 Cisco Technology, Inc. Attribute based memory pre-fetching technique
US6385747B1 (en) 1998-12-14 2002-05-07 Cisco Technology, Inc. Testing of replicated components of electronic device
US6173386B1 (en) 1998-12-14 2001-01-09 Cisco Technology, Inc. Parallel processor with debug capability
US6920562B1 (en) 1998-12-18 2005-07-19 Cisco Technology, Inc. Tightly coupled software protocol decode with hardware data encryption
US6529983B1 (en) 1999-11-03 2003-03-04 Cisco Technology, Inc. Group and virtual locking mechanism for inter processor synchronization
US6681341B1 (en) 1999-11-03 2004-01-20 Cisco Technology, Inc. Processor isolation method for integrated multi-processor systems
US6769027B1 (en) * 2000-01-31 2004-07-27 Avaya Technology Corp. System and method for using multi-headed queues for bookmarking in backup/recover scenarios
US6487464B1 (en) * 2000-02-25 2002-11-26 Intel Corporation Power-on software for robust boot
US6892237B1 (en) * 2000-03-28 2005-05-10 Cisco Technology, Inc. Method and apparatus for high-speed parsing of network messages
US6820213B1 (en) 2000-04-13 2004-11-16 Stratus Technologies Bermuda, Ltd. Fault-tolerant computer system with voter delay buffer
US6691257B1 (en) 2000-04-13 2004-02-10 Stratus Technologies Bermuda Ltd. Fault-tolerant maintenance bus protocol and method for using the same
US6633996B1 (en) 2000-04-13 2003-10-14 Stratus Technologies Bermuda Ltd. Fault-tolerant maintenance bus architecture
US6687851B1 (en) 2000-04-13 2004-02-03 Stratus Technologies Bermuda Ltd. Method and system for upgrading fault-tolerant systems
US6735715B1 (en) 2000-04-13 2004-05-11 Stratus Technologies Bermuda Ltd. System and method for operating a SCSI bus with redundant SCSI adaptors
US6708283B1 (en) 2000-04-13 2004-03-16 Stratus Technologies, Bermuda Ltd. System and method for operating a system with redundant peripheral bus controllers
US6802022B1 (en) 2000-04-14 2004-10-05 Stratus Technologies Bermuda Ltd. Maintenance of consistent, redundant mass storage images
US6862689B2 (en) 2001-04-12 2005-03-01 Stratus Technologies Bermuda Ltd. Method and apparatus for managing session information
US6505269B1 (en) 2000-05-16 2003-01-07 Cisco Technology, Inc. Dynamic addressing mapping to eliminate memory resource contention in a symmetric multiprocessor system
US7263476B1 (en) 2000-06-12 2007-08-28 Quad Research High speed information processing and mass storage system and method, particularly for information and application servers
US6948010B2 (en) * 2000-12-20 2005-09-20 Stratus Technologies Bermuda Ltd. Method and apparatus for efficiently moving portions of a memory block
US6766479B2 (en) 2001-02-28 2004-07-20 Stratus Technologies Bermuda, Ltd. Apparatus and methods for identifying bus protocol violations
US6766413B2 (en) 2001-03-01 2004-07-20 Stratus Technologies Bermuda Ltd. Systems and methods for caching with file-level granularity
US6874102B2 (en) * 2001-03-05 2005-03-29 Stratus Technologies Bermuda Ltd. Coordinated recalibration of high bandwidth memories in a multiprocessor computer
US7065672B2 (en) * 2001-03-28 2006-06-20 Stratus Technologies Bermuda Ltd. Apparatus and methods for fault-tolerant computing using a switching fabric
US6996750B2 (en) * 2001-05-31 2006-02-07 Stratus Technologies Bermuda Ltd. Methods and apparatus for computer bus error termination
WO2003010869A1 (en) * 2001-07-13 2003-02-06 Shape Of Time, Inc. System and method for providing network management
US6954877B2 (en) * 2001-11-29 2005-10-11 Agami Systems, Inc. Fault tolerance using logical checkpointing in computing systems
US20040078652A1 (en) * 2002-03-08 2004-04-22 Tapper Gunnar D. Using process quads to enable continuous services in a cluster environment
US7028218B2 (en) * 2002-12-02 2006-04-11 Emc Corporation Redundant multi-processor and logical processor configuration for a file server
US7228459B2 (en) * 2003-05-19 2007-06-05 Tellabs Petaluma, Inc. Apparatus and method that provides a primary server and a backup server that both support a RADIUS client and share an IP address
US7370248B2 (en) * 2003-11-07 2008-05-06 Hewlett-Packard Development Company, L.P. In-service raid mirror reconfiguring
US9213609B2 (en) * 2003-12-16 2015-12-15 Hewlett-Packard Development Company, L.P. Persistent memory device for backup process checkpoint states
US7168001B2 (en) * 2004-02-06 2007-01-23 Hewlett-Packard Development Company, L.P. Transaction processing apparatus and method
US20050216552A1 (en) * 2004-03-24 2005-09-29 Samuel Fineberg Communication-link-attached persistent memory system
US7368835B2 (en) * 2004-05-06 2008-05-06 Tellabs Bedford, Inc. Power distribution system and method
US20060222125A1 (en) * 2005-03-31 2006-10-05 Edwards John W Jr Systems and methods for maintaining synchronicity during signal transmission
US20060222126A1 (en) * 2005-03-31 2006-10-05 Stratus Technologies Bermuda Ltd. Systems and methods for maintaining synchronicity during signal transmission
US20070028144A1 (en) * 2005-07-29 2007-02-01 Stratus Technologies Bermuda Ltd. Systems and methods for checkpointing
US20070076228A1 (en) * 2005-10-04 2007-04-05 Jacob Apelbaum System and method for providing data services via a network
US7493512B2 (en) * 2005-10-04 2009-02-17 First Data Corporation System and method for providing data services via a network
US8041985B2 (en) 2006-08-11 2011-10-18 Chicago Mercantile Exchange, Inc. Match server for a financial exchange having fault tolerant operation
US7480827B2 (en) 2006-08-11 2009-01-20 Chicago Mercantile Exchange Fault tolerance and failover using active copy-cat
US7434096B2 (en) 2006-08-11 2008-10-07 Chicago Mercantile Exchange Match server for a financial exchange having fault tolerant operation
ES2345115T3 (es) 2006-12-19 2010-09-15 Saab Ab Un procedimiento para asegurar la funcion de salvaguardar en un sistema electrico de un vehiculo, y sistema electrico correspondiente.
US7472038B2 (en) * 2007-04-16 2008-12-30 International Business Machines Corporation Method of predicting microprocessor lifetime reliability using architecture-level structure-aware techniques
US7386851B1 (en) * 2008-01-04 2008-06-10 International Business Machines Corporation System and method for implementing dynamic lifetime reliability extension for microprocessor architectures
US8145945B2 (en) * 2010-01-04 2012-03-27 Avaya Inc. Packet mirroring between primary and secondary virtualized software images for improved system failover performance
KR101081990B1 (ko) * 2010-10-20 2011-11-09 주식회사 나라컨트롤 빌딩자동제어장치의 제어방법
US8909816B2 (en) * 2012-03-19 2014-12-09 Kaminario Technologies Ltd. Implementing a logical unit reset command in a distributed storage system
US9251002B2 (en) 2013-01-15 2016-02-02 Stratus Technologies Bermuda Ltd. System and method for writing checkpointing data
WO2015102873A2 (en) 2013-12-30 2015-07-09 Stratus Technologies Bermuda Ltd. Dynamic checkpointing systems and methods
WO2015102875A1 (en) 2013-12-30 2015-07-09 Stratus Technologies Bermuda Ltd. Checkpointing systems and methods of using data forwarding
WO2015102874A2 (en) 2013-12-30 2015-07-09 Stratus Technologies Bermuda Ltd. Method of delaying checkpoints by inspecting network packets

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3735360A (en) * 1971-08-25 1973-05-22 Ibm High speed buffer operation in a multi-processing system
US4228496A (en) * 1976-09-07 1980-10-14 Tandem Computers Incorporated Multiprocessor system
US4133027A (en) * 1977-09-13 1979-01-02 Honeywell Inc. Process control system with backup process controller
JPS5537641A (en) * 1978-09-08 1980-03-15 Fujitsu Ltd Synchronization system for doubled processor
US4347563A (en) * 1980-06-16 1982-08-31 Forney Engineering Company Industrial control system
US4321666A (en) * 1980-02-05 1982-03-23 The Bendix Corporation Fault handler for a multiple computer system
US4333144A (en) * 1980-02-05 1982-06-01 The Bendix Corporation Task communicator for multiple computer system
US4351023A (en) * 1980-04-11 1982-09-21 The Foxboro Company Process control system with improved system security features

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6184766A (ja) * 1984-09-20 1986-04-30 アンステイテユ・ナシオナル・ドウ・ルシエルシユ・アン・アンフオルマテイク・エ・アン・オートマテイク 1つの作業を複数の異なる地点の間で分配して実行するための方法及び電子装置

Also Published As

Publication number Publication date
SE8306265L (sv) 1984-05-24
EP0143125A2 (en) 1985-06-05
SE8306265D0 (sv) 1983-11-15
DK536283D0 (da) 1983-11-23
US4590554A (en) 1986-05-20
DK536283A (da) 1984-05-24
AU2111583A (en) 1984-05-31

Similar Documents

Publication Publication Date Title
JPS59133663A (ja) 分散マルチプロセツサ・コンピユ−タの障害許容システムにおけるタスク実行手段間のメツセ−ジ転送方法
KR100599912B1 (ko) 복제 서버용 프로토콜
JP2587141B2 (ja) 共用知能メモリを介して結合された複数のプロセッサ間でメッセージを伝達するための機構
EP0818001B1 (en) Fault-tolerant processing method
US8074222B2 (en) Job management device, cluster system, and computer-readable medium storing job management program
US5878205A (en) Method and system for processing complex recovery using polling signals in a shared medium
US5845061A (en) Redundant client server system
FI101432B (fi) Vikasietoinen tietokonejärjestelmä
EP2643771B1 (en) Real time database system
JPH11502658A (ja) 故障許容処理方法
KR20100099319A (ko) 노드 시스템, 서버 절환 방법, 서버 장치, 및 데이터 인수 방법
CN112052230B (zh) 多机房数据同步方法、计算设备及存储介质
Jalote Fault tolerant processes
US6848037B2 (en) Data processing arrangement and method
KR100408979B1 (ko) 무선통신시스템에서 프로세서 이중화를 위한 결함 허용장치 및 그 방법
JP3270400B2 (ja) 印刷処理クラスタシステム
JPH05265780A (ja) 複製プロセスグループ間通信方法
Rodeh et al. The Design and Implementation of Lansis/E
Mitchell et al. Sharing state information for fast recovery in ak faulty system
Liskov Replication algorithms for highly-available systems
JPH02113352A (ja) 多重化システムのファイル復旧方式
JPS60144862A (ja) ノンストツプシステム