JPH05265983A - 耐故障機構を有する情報処理装置 - Google Patents

耐故障機構を有する情報処理装置

Info

Publication number
JPH05265983A
JPH05265983A JP4064045A JP6404592A JPH05265983A JP H05265983 A JPH05265983 A JP H05265983A JP 4064045 A JP4064045 A JP 4064045A JP 6404592 A JP6404592 A JP 6404592A JP H05265983 A JPH05265983 A JP H05265983A
Authority
JP
Japan
Prior art keywords
message
sub
main
processing device
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4064045A
Other languages
English (en)
Inventor
Masataku Imada
正卓 今田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP4064045A priority Critical patent/JPH05265983A/ja
Publication of JPH05265983A publication Critical patent/JPH05265983A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Abstract

(57)【要約】 【目的】 情報処理装置においてアプリケーションプロ
セスに障害が発生したときのプロセス回復機能を簡単な
構成で実現する。 【構成】 メッセージ送信主プロセスSPからのメッセ
ージをメッセージ受信主プロセスRPの他にメッセージ
受信副プロセスRB及びメッセージ送信副プロセスSB
にも送信し、障害発生時には副プロセスで処理を継続す
ることによりプロセスの回復を行う情報処理装置におい
て、送信メッセージに一連番号を付し、受信側では受信
されたメッセージに付された一連番号の連続を確認し欠
落がある場合には再送を要求する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、障害が発生した場合で
も処理の継続を行うことができる耐故障機構を有する情
報処理装置に関する。
【0002】
【従来の技術】情報処理装置の信頼性を高めることを目
的として、種々の耐故障機構が提案されている。
【0003】耐故障機構の一つとして、「プロセスペア
バックアップ」と呼ばれる手法を採用したものがある。
これは、本来動作すべきプロセス、すなわちプライマリ
プロセス(本明細書においては主プロセスと称する)の
他に、主プロセスの複製、すなわちバックアッププロセ
ス(本明細書においては副プロセスと称する)をあらか
じめ生成しておき、主プロセスに障害が発生した際に副
プロセスを参照することにより、その影響をシステム内
部に留め、処理の継続を図るものである。この「プロセ
スペアバックアップ」と呼ばれる手法については、たと
えば、Fault−Tolerant Computi
ng Based on Mach、”Ozalp B
abaoglu, ACM/Operating Sy
stems Review(Vol.24,No.
1),Jan.1990に開示されている。
【0004】この「プロセスペアバックアップ」におい
ては、通常、主プロセスが処理を進めていき、周期的に
主プロセスの状態が副プロセスにセーブされ、この時、
主プロセスと副プロセスの状態が一致される。なお、主
プロセスの状態をセーブする時点をチェックポイントと
呼ぶ。チェックポイントとチェックポイントの間では、
主プロセスが行なった大域的資源への操作を、副プロセ
スにログとして記録しておくことにより、主プロセスに
障害が発生した際、副プロセスがログを元に処理を進め
ていくことで、障害を起こす直前の主プロセスの状態ま
で回復を図り、主プロセスの代替として処理を引き継
ぐ。この状態回復はロールバックと呼ばれる。
【0005】たとえば、メッセージ通信に基づく計算機
装置のオペレーティングシステム(たとえば、カーネギ
メロン大学のMachオペレーティングシステムなど)
においては、プロセス間のメッセージの受渡しにより処
理が進められていくので、チェックポイント間でメッセ
ージをログに残すこととなる。また、このようなシステ
ムでの、「プロセスペアバックアップ」による耐故障機
構では、メッセージを送信するプロセスにも、メッセー
ジを受信するプロセスにも、副プロセスが生成されるこ
とになる。
【0006】上述の「プロセスペアバックアップ」にお
いては、図14に示すように、通常時、メッセージ送信
主プロセスSPが、メッセージmを送信すると、メッセ
ージmは、メッセージ受信主プロセスRPに送られると
同時に、メッセージ受信副プロセスRBと、メッセージ
送信副プロセスSBへも送られる。このように三つのプ
ロセスに対してメッセージmを送信することを3ウェイ
マルチキャストと称する。
【0007】上記各プロセスについて説明する。
【0008】メッセージ受信主プロセスRPでは、当該
メッセージmは普通に処理される。メッセージ受信副プ
ロセスRBでは、当該メッセージmは、メッセージ受信
プロセスのロールバックに備え、キューに保存される。
メッセージ受信主プロセスRPが障害を起こした際は、
キューに保存されたメッセージmを順次受信メッセージ
として処理を進めることで、他のプロセスとのコミュニ
ケーションなしに、障害を起こす直前のメッセージ受信
主プロセスの状態まで回復することができる。
【0009】メッセージ送信副プロセスSBでは、当該
メッセージm自体は捨てられるが、前回のチェックポイ
ントからのメッセージ送信回数が計数される。メッセー
ジ送信主プロセスSPが障害を起こし、メッセージ送信
プロセスのロールバックが行なわれる際、このメッセー
ジ送信回数分だけメッセージの送信を抑えることで、他
のプロセスへの影響を引き起こさずに、障害を起こす直
前のメッセージ送信主プロセスの状態まで回復すること
ができる。
【0010】上述の「プロセスペアバックアップ」にお
いては、メッセージ送信主プロセスSPがメッセージを
送信する際には、メッセージ受信主プロセスRPと、メ
ッセージ受信副プロセスRBと、メッセージ送信副プロ
セスSBとが使用される。これらのプロセスRP,R
B,SBへメッセージを送信する機構においては、メッ
セージを受けとるべきこれら3つのデスティネーション
プロセスで、アトミック性(atomicity)が要
求される。このアトミック性とは、3つのプロセス全て
でメッセージが受けとられるか、どのプロセスでもメッ
セージが受けとられないかのいずれかでなければならな
いという性質を意味しており、これは状態の一貫性を維
持するための条件の一つである。
【0011】上述のアトミック3ウェイマルチキャスト
を実現するには、ビザビンチン合意(Byzantin
e agreement)問題と呼ばれる検出時間の遅
延を解決するために、高価な高速ブロードキャストネッ
トワークか、複雑なブロードキャストプロトコルを必要
とするという問題があった。なお、ビザビンチン合意問
題については、たとえば、南谷,「並列処理におけるフ
ォールトトレランス技術」,情報処理,Vol.27,
No.9,Sep.,1986,p.1039−104
8に記載がある。
【0012】また、他の耐故障機構として、「演算装置
の多重化」の手法を採用したものがある。たとえば、特
開平1−124033号公報、特開平1−124034
号公報等参照。これは、本来動作すべき演算処理装置
(主演算処理装置)の他に主演算処理装置と同一の演算
処理装置(予備演算処理装置)を予め用意しておき、主
演算処理装置に障害が発生した際は、予備演算処理装置
がその処理を引き継ぐことにより、障害の影響をシステ
ム内部に留め、処理の継続を図るものである。
【0013】この「演算装置の多重化」の手法を用い
て、予備演算処理装置のホットスタンバイ (障害発生時
に主演算処理装置から予備演算処理装置への切り換えを
リアルタイムで行うこと)を行なうためには、主演算処
理装置の動作を、予備演算処理装置においても逐次行な
う必要がある。この際、外部処理装置との相互作用に関
して、主演算処理装置と予備演算処理装置の各々が操作
を行なうと、処理の順序によって、外部処理装置から得
られる結果が変わったり、その影響で、外部処理装置に
与える内容が変化したりする。これを抑えるため、主演
算処理装置と予備演算処理装置のいずれか一方の外部処
理装置への操作のみを実際に行ない、もう一方の操作は
実際には行なわないようにする高価な同期機構を必要と
していた。すなわち、上記公報に記載の装置において
は、一定時間の遅延を行う入出力遅延装置を必要とする
ため、機構が複雑化し装置のコストが高くなっていた。
【0014】
【発明が解決しようとする課題】本発明の目的は、上述
の従来例の問題点を解決し、簡単な構成により耐故障機
構を有する情報処理装置を実現することにある。
【0015】第1の発明の目的は、プロセスペアバック
アップ手法を採用した耐故障機構を有する情報処理装置
において、メッセージのアトミック性を簡単な構成で維
持できるようにすることである。
【0016】更に、第2の発明の目的は、演算処理多重
化を行った耐故障機構を有する情報処理装置において、
主演算処理装置と副演算処理装置の間で実行の同期を容
易に行えるようにすることである。
【0017】
【課題を解決するための手段】第1の発明は、アプリケ
ーションプロセスを実行する主プロセッサと、前記アプ
リケーションプロセスを複製して、そのアプリケーショ
ンプロセスの動作する主プロセッサの障害時に、主プロ
セッサの代わりに動作する副プロセッサを有する耐故障
機構を有する情報処理装置において、前記主プロセッサ
から送信されるメッセージに一連の番号を付ける一連番
号付加手段を設けるとともに、受信されたメッセージの
一連番号の連続性を検出する手段を設けたことを特徴と
する。
【0018】また、第2の発明は、外部処理装置に対し
て接続される主演算系と副演算系とを有し、主演算系の
故障時には副演算系に演算処理を切り替えることにより
処理を継続する情報処理装置において、前記主演算系か
ら前記外部処理装置への出力と前記副演算系から前記外
部処理装置への出力とを比較することにより演算系の異
常検出を行う手段と、該異常検出を行う手段の出力によ
って制御され、通常動作時には前記主演算系から前記外
部処理装置への出力を行い、前記副演算系から前記外部
処理装置への出力を抑止し、異常検出時には前記副演算
系から前記外部処理装置への出力を行い、前記主演算系
から前記外部処理装置への出力を抑止する切り替え手段
を設けたことを特徴とする。
【0019】
【作用】第1の発明においては、主プロセッサから他の
プロセッサにメッセージが送信される際にメッセージに
一連番号が付される。メッセージを受信した側ではメッ
セージに付されている一連番号を保存してその連続性を
検出することにより、送信されたメッセージが欠落する
ことなく受信できたか否かが判る。受信した一連番号が
不連続であるときはメッセージが欠落したことを意味す
るので、欠落したメッセージの再送を主プロセッサに依
頼する。再送されたメッセージを保存することにより完
全な状態でメッセージが受信できる。したがって、複数
の箇所でメッセージを受信するような場合でも、各箇所
でのメッセージの内容の同一性が保証される。
【0020】また、第2の発明においては、主演算系か
ら外部処理装置への出力と副演算系から外部処理装置へ
の出力とが比較される。両出力が不一致であるときは、
何れかの演算系が故障ということなので、各演算系にお
いて自己診断が行われ、たとえば、主演算系が故障であ
った場合には、主演算系から外部処理装置への出力が抑
止され、今度は副演算系から外部処理装置への出力が行
われる。これにより、演算が継続して行われることにな
る。
【0021】
【実施例】以下、図面を参照しながら、実施例により本
発明の特徴を具体的に説明する。
【0022】図1は、第1の発明による情報処理装置の
実施例であり、CPU(中央処理装置)16−1、メモ
リ16−2、通信制御部16−3から成る複数のプロセ
ッサユニット16が、バス又はネットワーク17で結合
されている。
【0023】図2は、第1の発明による耐故障機構を模
式的に示すものであり、プロセスの複製(副プロセス)
を生成し、メッセージの送受信、プロセスの生成/消滅
などを実現し全体を制御する機構1と、周期的に元のプ
ロセスの状態と複製プロセスの状態を一致させるチェッ
クポイント機構2と、メッセージの送信に際し、メッセ
ージに一連の番号を付けるとともに、次のチェックポイ
ントまで、送信メッセージとその一連番号を保存すると
ともに、要求に応じて保存メッセージの再送を行なうメ
ッセージ送信主プロセス付帯機構3と、一連番号付きメ
ッセージを受信した際、受信したメッセージの一連番号
の確認を行ない、前回受信したメッセージの一連番号に
対して不連続である時、先行して受信すべきメッセージ
の再送要求を行なうメッセージ受信主プロセス付帯機構
4と、一連番号付きメッセージを受信した際、受信した
一連番号付きメッセージをキューに保持し、回復指示に
より、必要に応じて、キューから得られるメッセージを
受信メッセージとしながら、プロセスの処理を進め、キ
ュー内の一連番号付きメッセージに番号の抜けを発見す
ると、メッセージ送信プロセスに当該メッセージの再送
を要求するメッセージ受信副プロセス付帯機構5と、一
連番号付きメッセージを受信した際、受信したメッセー
ジの一連番号の確認を行ない、前回受信したメッセージ
の一連番号と連続ならば、受けたメッセージの計数を行
ない、不連続ならば、本来受信しているはずのメッセー
ジの数を受けたメッセージの計数とすると同時に、メッ
セージ自身は破棄し、また、回復指示により、プロセス
の処理を進め、メッセージ送信処理時に、当該計数回ま
で、実際のメッセージ送信を行なわずに、処理をスキッ
プするメッセージ送信副プロセス付帯機構6とから構成
されている。
【0024】以下、上述の情報処理装置におけるプロセ
ス回復動作について図2及び図3を参照して説明する。
【0025】メッセージを送信するメッセージ送信主プ
ロセスSP及び受信するメッセージ受信主プロセスRP
を、アプリケーションプロセスとして生成するように、
外部から全体制御機構1に要求が行なわれると、全体制
御機構1は、当該プロセスSP,RPを生成すると同時
に、メッセージ送信副プロセスSB、メッセージ受信副
プロセスRBも生成する。この際、メッセージ送信主プ
ロセスSP、メッセージ受信主プロセスRP、メッセー
ジ受信副プロセスRB、メッセージ送信副プロセスSB
には、全体制御機構1によって、各々、メッセージ送信
主プロセス付帯機構3、メッセージ受信主プロセス付帯
機構4、メッセージ受信副プロセス付帯機構5、メッセ
ージ送信副プロセス付帯機構6が設けられる。これらの
各付帯機構の詳細については後述する。
【0026】全体制御機構1は、メッセージ送信又は受
信主プロセスが動作するプロセッサ(図示せず)に障害
が発生すると、メッセージ送信副プロセス付帯機構6及
びメッセージ受信副プロセス付帯機構5にプロセスの回
復指示を行なう。また、メッセージ送信又は受信副プロ
セスが動作するプロセッサ(図示せず)に障害が発生す
ると、その時点のメッセージ送信主プロセスSP/メッ
セージ受信主プロセスRPの状態を用いて、メッセージ
送信副プロセスSB/メッセージ受信副プロセスRBの
再生成を行なう。
【0027】チェックポイント機構2は、全体制御機構
1によって、適当に設定された周期毎にメッセージ送信
主プロセスSPの状態と、メッセージ送信副プロセスS
Bの状態を一致させるとともに、メッセージ受信主プロ
セスRPの状態と、メッセージ受信副プロセスRBの状
態を一致させる。このプロセスの状態を一致させる時点
をチェックポイントと称する。この時、メッセージ送信
主プロセス付帯機構3、メッセージ受信主プロセス付帯
機構4、メッセージ受信副プロセス付帯機構5、メッセ
ージ送信副プロセス付帯機構6の各々も、全体制御機構
1を通じて、初期化される。
【0028】メッセージ送信主プロセス付帯機構3の動
作について図3〜図5を参照して説明する。
【0029】メッセージ送信主プロセスSPが、メッセ
ージを送信しようとすると、図4に示すメッセージ送信
主プロセス付帯機構3の一連番号付加手段3aにより、
当該メッセージに一連番号1,2,3,・・が付加され
て (図5、ステップ101)、全体制御機構1を介し
て、メッセージ送信副プロセスSB、メッセージ受信主
プロセスRP、メッセージ受信副プロセスRBの三者に
送信される (ステップ103)と同時に、一連番号付き
送信メッセージ記憶手段3bにより、一連番号付きメッ
セージm1 ,m2 ,m3 ,・・が次のチェックポイント
まで保存される (ステップ102)。
【0030】また、メッセージ送信主プロセス付帯機構
3の一連番号付き送信メッセージ送信/再送手段3c
は、全体制御機構1を介して行なわれる要求に応じて、
保存している一連番号つきメッセージの再送を行なう
(ステップ104,103)。なお、各手段3a,3
b,3cの動作は、制御部3dにより制御される。
【0031】メッセージ受信主プロセス付帯機構4の動
作について図6及び図7を参照して説明する。
【0032】全体制御機構1を介してメッセージが、メ
ッセージ受信主プロセスRPに送られると、図6に示す
メッセージ受信主プロセス付帯機構4の受信メッセージ
一連番号比較確認手段4bによって、受信メッセージの
一連番号が、既受信メッセージ一連番号保持手段4aに
保持されている (ステップ201)前回受信したメッセ
ージの一連番号と比較され (ステップ202)、連続性
が確認されなければ (ステップ203)、メッセージ再
送要求手段4cにより全体制御機構1を介して、今回受
けるべきメッセージの再送信を、メッセージ送信主プロ
セスSPに要求する (ステップ204)。もし、連続性
が確認されると (ステップ203)、受信メッセージの
一連番号を新しい既受信メッセージの一連番号とすると
ともに (ステップ205)、メッセージ受信主プロセス
RPのメッセージ処理が行なわれる (ステップ20
6)。なお、各手段4a,4b,4cの動作は、制御部
4dにより制御される。
【0033】メッセージ受信副プロセス付帯機構4の動
作について図8及び図9を参照して説明する。
【0034】全体制御機構1を介してメッセージが、メ
ッセージ受信副プロセスRBに送られると、メッセージ
受信副プロセス付帯機構5によって、同機構5内に設け
られたキュー、すなわち、図8に示す一連番号付き受信
メッセージ記憶手段5a内に、当該メッセージを保存す
る (ステップ301)。
【0035】メッセージ受信副プロセス付帯機構5は、
メッセージ受信主プロセスRPの障害に基づくメッセー
ジ受信プロセスの回復処理を、全体制御機構1に指示さ
れると (ステップ302)、メッセージ受信プロセス回
復手段5cは、メッセージ受信副プロセスRBに処理を
進めさせるとともに (ステップ303)、メッセージ受
信処理においてはキューに保存されたメッセージを受信
メッセージとして用いて、プロセスの回復処理を図る
(ステップ304)。この時、キューから取り出した、
メッセージの一連番号に不連続性が存在すると (ステッ
プ305)、不連続番号メッセージ再送要求手段5bに
より、該欠損番号のメッセージの再送要求を、全体制御
機構1を介して、メッセージ送信主プロセスSPに行な
い (ステップ306)、受信されたメッセージ (ステッ
プ307)によって処理の継続を行なう。なお、各手段
5a,5b,5cの動作は、制御部5dにより制御され
る。
【0036】プロセスの回復処理が終了すると (ステッ
プ308)、全体制御機構1により、このメッセージ受
信副プロセスRBが、メッセージ受信主プロセス付帯機
構4を設けられたメッセージ受信主プロセスとなり、障
害発生後の処理を引き継いで実行する。
【0037】メッセージ送信副プロセス付帯機構6の動
作について図10及び図11を参照して説明する。
【0038】全体制御機構1を介してメッセージが、メ
ッセージ送信副プロセスSBに送られると、図10に示
すメッセージ送信副プロセス付帯機構6の受信メッセー
ジ一連番号比較/確認手段6bによって、受信メッセー
ジの一連番号が、既受信メッセージ一連番号保持手段6
aに保持されている (ステップ401)前回受信したメ
ッセージの一連番号と比較され (ステップ402)、連
続性が確認されなければ (ステップ403)、今回受信
したメッセージの一連番号から、本来受信しているはず
の受信メッセージ計数の設定を行なう (ステップ40
4)。すなわち、現在の受信メッセージ計数に今回受信
したメッセージの一連番号を加え、前回受信したメッセ
ージの一連番号を減じる処理を行う。たとえば、一連番
号が101番,102番と2回メッセージを受信したの
ち104番を受信したとすると、2+104−102=
4となる。したがって、本来受信しているはずの受信メ
ッセージ計数を4とする。もし、連続性が確認されると
(ステップ403)、受信メッセージ計数に1を加える
(ステップ405)。そして今回受信したメッセージの
一連番号を新しい既受信メッセージの一連番号とする
(ステップ406)。
【0039】メッセージ送信副プロセス付帯機構6は、
メッセージ送信主プロセスSPの障害に基づく、メッセ
ージ送信プロセスの回復処理を、全体制御機構1に指示
されると (ステップ407)、メッセージ送信プロセス
回復手段6cは、メッセージ送信副プロセスSBに処理
を進めさせるとともに (ステップ408)、メッセージ
送信処理においては、受信メッセージ計数回、実際のメ
ッセージ送信動作をスキップすることで、プロセスの回
復処理を図る (ステップ409)。なお、各手段6a,
6b,6cの動作は、制御部6dにより制御される。
【0040】プロセスの回復処理が終了すると (ステッ
プ410)、全体制御機構1により、このメッセージ送
信副プロセスSBが、メッセージ送信主プロセス付帯機
構3を設けられたメッセージ送信主プロセスとなり、障
害発生後の処理を引き継いで実行する。
【0041】以上述べたように、図2に示す第1の発明
の実施例においては、主プロセッサから送信されるメッ
セージに一連番号を付し、受信側ではこの一連番号の連
続性を確認しながらプロセスの回復処理を行っているの
で、高速ネットワークや複雑なプロトコルを使用するこ
となく、簡単にアトミック性を維持できる。
【0042】次に、第2の発明の実施例について図12
を参照して説明する。
【0043】図12に示す情報処理装置は、通常の計算
処理すなわち主プロセスを司る主プロセッサ11と、こ
の主プロセッサ11と並列的に動作しており主プロセッ
サ11の故障時に計算処理を引き継ぐ副プロセッサ12
と、各プロセッサ11,12などからの故障信号に対応
して、計算処理を主プロセッサ11から副プロセッサ1
2に切替え制御する演算系制御装置13と、外部処理装
置14と演算処理装置11,12の間に設けられ、通常
時、外部処理装置14と主プロセッサ11の相互応答は
正確に媒介し、副プロセッサ12に関しては、実際の処
理影響を外部処理装置14には与えず、主プロセッサ1
1が外部処理装置14と行なった処理内容と等価な内容
を与え、主プロセッサ11の故障時、主プロセッサ11
の影響を外部処理装置14に媒介せず、専ら外部処理装
置14と副プロセッサ12と相互応答させうる疑似外部
処理装置15とから構成されている。
【0044】上記プロセッサ11,12は故障検知機構
11a,12a及び自己診断機構11b,12bを備え
ており、自己診断機構11b,12bは、故障検知機構
11a,12aからの故障信号或いは疑似外部処理装置
15からの故障信号により自己診断を開始し、自己診断
の結果を演算系制御装置13に与える。演算系制御装置
13は自己診断の結果に基づいて疑似外部処理装置15
において演算系の切り替えを行い、更に、必要であれば
外部に警告を発する。
【0045】上記疑似外部処理装置15は、図13に示
すように、主プロセッサ11から外部処理装置14への
出力内容が記録される出力バッファキュー15−1及び
外部処理装置14から主プロセッサ11への入力内容が
記録される入力バッファキュー15−2と、これらのバ
ッファキュー15−1,15−2の動作を制御する制御
部15−3と、副プロセッサ12からの要求内容が格納
される一時メモリ15−4と、出力バッファキュー15
−1と一時メモリ15−4との内容を比較する比較器1
5−5と、主プロセッサ11からの出力或いは副プロセ
ッサ12からの出力を選択的に外部処理装置14へ供給
する第1スイッチ15−6と、入力バッファキュー15
−2の出力或いは外部処理装置14の出力を選択的に副
プロセッサ12に供給する第2スイッチ15−7とから
構成されている。
【0046】次に、上述の情報処理装置におけるプロセ
ス回復動作について説明する。
【0047】通常の動作状態においては、制御部15−
3からの指示により、第1スイッチ15−6は主プロセ
ッサ11側に切り替えられ、第2スイッチは入力バッフ
ァキュー15−2側に切り替えられている。
【0048】この状態においては、疑似外部処理装置1
5により、外部処理装置14と主プロセッサ11の相互
応答は直接的に実行され、外部処理装置14から主プロ
セッサ11への入力内容と、主プロセッサ11から外部
処理装置14への出力内容が、疑似外部処理装置15の
内部に設けられた入力バッファキュー15−2と出力バ
ッファキュー15−1とに記録される。
【0049】主プロセッサ11が外部処理装置14への
出力を要求するのに伴い、副プロセッサ12が外部処理
装置14への出力を要求した時は、出力バッファキュー
15−1を参照して、記録内容があれば、記録されてい
る主プロセッサ11から外部処理装置14への出力内容
と、一時メモリ15−4内の要求された出力内容とを比
較器15−5で比較して比較結果を制御部15−3に送
り、一致した場合には、制御部15−3からの指示に基
づき出力バッファキュー15−1から当該内容を削除
し、不一致ならば、制御部15−3から演算系制御装置
13へ故障信号を送出する。
【0050】なお、上述の故障検出の際には、主プロセ
ッサ11と副プロセッサ12のどちらが故障しているか
の特定は、各プロセッサ11,12に内蔵されている自
己診断機構で行われる。
【0051】また、出力バッファキュー15−1を参照
して、記録内容がなければ、副プロセッサ12の要求内
容を一時メモリ15−4に置き、主プロセッサ11から
外部処理装置14への出力要求が行なわれて出力バッフ
ァキュー15−1に当該内容が取り込まれるのを待っ
て、前記比較処理以降の処理を行なう。
【0052】外部処理装置14からの入力は、入力バッ
ファキュー15−2を介して、副プロセッサ12に取り
込まれる。
【0053】上述したように主プロセッサ11において
は内蔵された故障検知機構11aにより故障の有無が検
出されており、故障が検出されたときには故障信号が演
算系制御装置13に供給され、演算系制御装置13は疑
似外部処理装置15に演算系切り替えのための制御信号
を与える。
【0054】主プロセッサ11の故障時には、疑似外部
処理装置15においては、演算系制御装置13からの制
御信号に基づいて、制御部15−3からの指示により第
1スイッチ15−6は副プロセッサ12側、第2スイッ
チ15−7は外部処理装置14側に切り替えられ、主プ
ロセッサ11から外部処理装置14への出力を抑止し、
副プロセッサ12の入出力を、外部処理装置14と直接
的に実行させる。
【0055】また、副プロセッサ12において、内蔵さ
れた故障故障検知機構12aにより故障が検出されたと
きには動作状態は変化しないが、演算系制御装置13に
より外部に警告が発せられる。
【0056】
【発明の効果】以上に述べたように、第1の発明におい
ては、主プロセッサから送信されるメッセージに一連番
号を付し、受信側ではこの一連番号の連続性を確認しな
がらプロセスの回復処理を行っているので、高速ネット
ワークや複雑なプロトコルを使用することなく、簡単に
アトミック性を維持でき、耐故障機構を有する情報処理
装置を簡単な構成で低廉に実現することができる。
【0057】また、第2の発明においては、主演算系及
び副演算系と外部処理装置との間の入出力にバッファを
設け、副演算系による外部処理装置との間の入出力を擬
似的に取り行うことで主演算演算系と副演算系の間で実
行の同期をとる必要がなくなり、簡単な構成で主演算系
と同一実行状態を保持するよう副演算系の実行が可能と
なる。
【図面の簡単な説明】
【図1】 第1の発明による情報処理装置の実施例を示
す図である。
【図2】 第1の発明の耐故障機構の実施例を示す概略
構成図である。
【図3】 図1に示す情報処理装置におけるメッセージ
の送信を示す説明図である。
【図4】 メッセージ送信主プロセス付帯機構の説明図
である。
【図5】 メッセージ送信主プロセス付帯機構の処理を
示すフローチャートである。
【図6】 メッセージ受信主プロセス付帯機構の説明図
である。
【図7】 メッセージ受信主プロセス付帯機構の処理を
示すフローチャートである。
【図8】 メッセージ受信副プロセス付帯機構の説明図
である。
【図9】 メッセージ受信副プロセス付帯機構の処理を
示すフローチャートである。
【図10】 メッセージ送信副プロセス付帯機構の説明
図である。
【図11】 メッセージ送信副プロセス付帯機構の処理
を示すフローチャートである。
【図12】 第2の発明の耐故障機構を有する情報処理
装置の実施例を示す概略構成図である。
【図13】 図11に示す情報処理装置において使用さ
れる疑似外部処理装置の内部構成を示すブロック図であ
る。
【図14】 プロセスペアバックアップ手法を示す説明
図である。
【符号の説明】
1 全体制御機構、2 チェックポイント機構、3 メ
ッセージ送信主プロセス付帯機構、4 メッセージ受信
主プロセス付帯機構、5 メッセージ受信副プロセス付
帯機構、6 メッセージ送信副プロセス付帯機構、11
主プロセッサ、12 副プロセッサ、13 演算系制
御装置、14 外部処理装置、15 疑似外部処理装
置、15−1 出力バッファキュー、15−2 入力バ
ッファキュー、15−3 制御部、15−4 一時メモ
リ、15−5 比較器、15−6第1スイッチ、15−
7 第2スイッチ、16 プロセッサユニット、16−
1CPU、16−2 メモリ、16−3 通信制御部、
17 バス又はネットワーク、SP メッセージ送信主
プロセス、SB メッセージ送信副プロセス、RP メ
ッセージ受信主プロセス、RB メッセージ受信副プロ
セス、m メッセージ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 アプリケーションプロセスを実行する主
    プロセッサと、前記アプリケーションプロセスを複製し
    て、そのアプリケーションプロセスの動作する主プロセ
    ッサの障害時に、主プロセッサの代わりに動作する副プ
    ロセッサを有する耐故障機構を有する情報処理装置にお
    いて、 前記主プロセッサから送信されるメッセージに一連の番
    号を付ける一連番号付加手段を設けるとともに、受信さ
    れたメッセージの一連番号の連続性を検出する手段を設
    けたことを特徴とする耐故障機構を有する情報処理装
    置。
  2. 【請求項2】 外部処理装置に対して接続される主演算
    系と副演算系とを有し、主演算系の故障時には副演算系
    に演算処理を切り替えることにより処理を継続する情報
    処理装置において、 前記主演算系から前記外部処理装置への出力と前記副演
    算系から前記外部処理装置への出力とを比較することに
    より演算系の異常検出を行う手段と、該異常検出を行う
    手段の出力によって制御され、通常動作時には前記主演
    算系から前記外部処理装置への出力を行い、前記副演算
    系から前記外部処理装置への出力を抑止し、異常検出時
    には前記副演算系から前記外部処理装置への出力を行
    い、前記主演算系から前記外部処理装置への出力を抑止
    する切り替え手段を設けたことを特徴とする耐故障機構
    を有する情報処理装置。
JP4064045A 1992-03-19 1992-03-19 耐故障機構を有する情報処理装置 Pending JPH05265983A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4064045A JPH05265983A (ja) 1992-03-19 1992-03-19 耐故障機構を有する情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4064045A JPH05265983A (ja) 1992-03-19 1992-03-19 耐故障機構を有する情報処理装置

Publications (1)

Publication Number Publication Date
JPH05265983A true JPH05265983A (ja) 1993-10-15

Family

ID=13246746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4064045A Pending JPH05265983A (ja) 1992-03-19 1992-03-19 耐故障機構を有する情報処理装置

Country Status (1)

Country Link
JP (1) JPH05265983A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198520A (ja) * 2009-02-27 2010-09-09 Hitachi Ltd コントローラ通信方法およびコントローラ通信装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198520A (ja) * 2009-02-27 2010-09-09 Hitachi Ltd コントローラ通信方法およびコントローラ通信装置

Similar Documents

Publication Publication Date Title
EP0818001B1 (en) Fault-tolerant processing method
US6023772A (en) Fault-tolerant processing method
JP4481498B2 (ja) 複製サーバのためのプロトコル
US5590277A (en) Progressive retry method and apparatus for software failure recovery in multi-process message-passing applications
US5440726A (en) Progressive retry method and apparatus having reusable software modules for software failure recovery in multi-process message-passing applications
Abdelzaher et al. RTCAST: Lightweight multicast for real-time process groups
CN110313138B (zh) 使用多个网元实现高可用性的相关方法和装置
JP2003500962A (ja) 信頼性のあるマルチキャスト
EP2798496B1 (en) Method and apparatus for synchronization in primary-backup replication schemes
JPH05100879A (ja) 制御情報のインテグリテイを維持するための装置及び方法
JP3655263B2 (ja) 分散システムおよび同システムの多重化制御方法
JPH05265983A (ja) 耐故障機構を有する情報処理装置
CN111880947A (zh) 一种数据传输方法及装置
KR101766446B1 (ko) 데이터를 동기화하고 복원하는 이중화 시스템 및 방법
US7394832B1 (en) Technique for synchronizing redundant network elements
Hiltunen et al. Understanding membership
JP3787200B2 (ja) 複数の発信源からそれぞれ送られてくる複数のメッセージの順序を決定する方法、及びその方法を実施するためのシステム
Richard et al. Complete process recovery: Using vector time to handle multiple failures in distributed systems
JP2002032269A (ja) 通信エラー回復方法及びその装置
JP2776274B2 (ja) 中継計算機における仮想バッファ制御システム
JPH0561798A (ja) データ転送装置
KR101567001B1 (ko) 메시지 출력 동기제어 고장감내 컴퓨터 시스템 및 운영 방법
JPH0916536A (ja) フォルト・トレラント・コンピュータ・システム
JPH01119149A (ja) パケット交換網制御方式
JPH0997237A (ja) オンライントランザクション処理システムの入力電文保証方式