JPH05108392A - データ処理システム - Google Patents

データ処理システム

Info

Publication number
JPH05108392A
JPH05108392A JP3268662A JP26866291A JPH05108392A JP H05108392 A JPH05108392 A JP H05108392A JP 3268662 A JP3268662 A JP 3268662A JP 26866291 A JP26866291 A JP 26866291A JP H05108392 A JPH05108392 A JP H05108392A
Authority
JP
Japan
Prior art keywords
functional module
processor
state
pas
sas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3268662A
Other languages
English (en)
Inventor
Donald M Smith
ドナルド・エム・スミス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH05108392A publication Critical patent/JPH05108392A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B7/00Measuring arrangements characterised by the use of electric or magnetic techniques
    • G01B7/002Constructional details of contacts for gauges actuating one or more contacts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error

Abstract

(57)【要約】 【目的】 コンピュータの分散システムで作動している
コンピュータプログラムのシステムの運用アベイラビリ
ティを増加する。 【構成】 モジュールと称される運用ユニット(OU)
10の2つの完全なコピーは、2つの別個のコンピュー
タ22、22’の独立したアドレス空間20、20’に
ロードされる。これらのモジュールの1つは、ネットワ
ークサーバ12によって1次アドレス空間(PAS)と
して識別され、他のすべてのモジュールにサービス要求
を指令する。これらのモジュールの他のものは待機アド
レス空間(SAS)と呼ばれ、PASのみによって識別
される。PASはアプリケーションに従属している状態
データをSASに送り、このSASでPASの状態を認
識する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は一般にデータ処理システ
ム、特に、データ処理システムのフォールト・トレラン
スを向上させるためのシステム及び方法に関する。
【0002】
【従来の技術】運用アベイラビリティを次のように規定
される。「システムに対する刺激がシステムによって処
理され、システムがその刺激に対して割り当てられた応
答時間内に正しい結果を生じる場合、これが全ての刺激
に対して真である場合システムのアベイラビリティは
1.0である。」
【0003】高い運用アベイラビリティに多くの誘因が
あることが認識されている。(1)ハードウェアシステ
ム及びソフトウェアシステム両方の障害は要求を満たす
ために充分に広い範囲で検出されなければならない。
(2)内部及び外部の冗長性を含むハードウェアの固有
アベイラビリティ(その冗長ネットワークの単純な数値
上のアベイラビリティに関する)がシステムに要求され
る運用アベイラビリティよりも高くなければならない。
(3)ソフトウェアの障害はシステムの運用時に明らか
であったり、あるいは運用に悪影響を及ぼしてはならな
い。本発明は設計上の誤りやハードウェアの障害による
ソフトウェアの障害が頻繁で、わずらわしいものである
との重要な想定を行って、これらの誘因のうち第3のも
のを取り上げる。
【0004】従来の技術は全ソフトウェア構成要素のコ
ピーを2つ又はそれ以上の個々のプロセッサに提供し、
かつ活動プロセッサの活動状態を待機プロセッサに伝え
る手段を提供することによって、この種の問題を解決し
ようとしていた。待機プロセッサが活動プロセッサの活
動状態を監視することによって、待機プロセッサが動作
を引き継がなければならないと判断した場合には、待機
プロセッサはその内部に記憶されている全ソフトウェア
構成要素を初期設定し、活動プロセッサはその動作を有
効に終了する。この手法の問題は全システムが各回復動
作を必要とされることである。その結果、回復時間が長
くなりがちとなり、回復処理の障害は通常システムを作
動不能としてしまう。さらに、ソフトウェアシステムの
冗長コピーが両方とも正常に作動する場合(一方が他方
の影として)、共通モードの障害の影響は最大限のもの
となり、これもシステム全体に影響を及ぼす。
【0005】
【発明が解決しようとする課題】したがって、本発明の
目的は、コンピュータの分散システムで作動しているコ
ンピュータプログラムのシステムの運用アベイラビリテ
ィを増加することにある。
【0006】本発明の他の目的は、高いアベイラビリテ
ィと高速の回復時間を有するコンピュータの分散システ
ムで作動しているコンピュータプログラムのシステムに
フォールト・トレランスを提供することにある。
【0007】本発明のさらに他の目的は、従来の技術で
必要とされていたものよりもソフトウェアの複雑度の少
ないコンピュータの分散システムで作動しているコンピ
ュータプログラムのシステムに改良された運用アベイラ
ビリティを提供することにある。
【0008】
【課題を解決するための手段】本発明のこれら及びその
他の目的、特徴及び利点は下記のように達成される。本
発明は、障害(ソフトウェア自体又はハードウェアいず
れかの)からのその回復が、この障害が運用上明確にな
らないうちに行われるようにコンピュータソフトウェア
を構成するための機構を提供する。換言すると、ソフト
ウェアは障害から回復し、刺激を再処理又は拒絶するよ
うになされるので、結果はその種の刺激に対して指定さ
れた応答時間内に、システムのユーザに利用できる。
【0009】運用ユニット(OU)と称されるソフトウ
ェア構造及び関連するアベイラビリティ管理機能(AM
F)は、本発明の主要構成要素である。OU及びAMF
の一部をここで説明する。OUの概念はできるだけ多く
のシステムのソフトウェアを、相互の対話がネットワー
クサーバを介して行われる独立した内蔵モジュールに分
割することによって実現される。刺激はシステムに入
り、そのスレッドの最初のモジュールに一定経路でおく
られ、そのモジュールから、適切な応答が発生され、シ
ステムユーザに利用できるようになるまで、全ての必要
なモジュールを通過する。
【0010】実際、各モジュールはOUのコード及びデ
ータ空間の2つのコピーである。1次アドレス空間(P
AS)と称されるコピーの一方は実際の状態データを保
持する。待機アドレス空間(SAS)と称される他方の
コピーは別々のプロセッサで作動し、後述するように、
実際の状態データを保持することもあれば、保持しない
こともある。
【0011】アベイラビリティ管理機能(AMF)はプ
ロセッサに対するPAS及びSAS構成要素の割当てを
制御する。AMFがエラーを検出すると、SASはPA
Sとなり、元のPASは終了する。ネットワークのデー
タサーバにもこの変化が通知されるので、全ての通信は
新しいPASに再送される。このようにして、システム
アベイラビリティは維持されることができる。
【0012】
【実施例】図1は応答時間の割当てを示すタイミング図
である。刺激の入力とその必要な出力間の必要な応答時
間(Tmax)が副次的に割り当てられるので、その一部
は通常の応答(Tnormal)の発生に利用でき、一部は予
測できない資源の競合(Tco ntention)に利用でき、一
部は障害からの回復(Trecovery)に利用できる。3つ
のうちの最初のもの、すなわちTnormalはシステムのソ
フトウェア要素及びハードウェア要素間で、これらの処
理要件にしたがって分割される。この割当てはシステム
のハードウェア及びソフトウェアの各要素によって必要
とされる性能を決定する。第2の部分、すなわちT
contentionは決して割り当てられることはない。最後の
部分、すなわちTrecoveryは充分な長さのものとされ、
エラー検出(欠落障害を含む)、ハードウェアの再構
成、ソフトウェアの再構成、及び必要とされる応答の再
発生のための時間を含むようにされる。経験則では、必
要な応答時間Tmaxを2つに分割し、最初の半分を副次
的に分割し、必要な応答時間の4分の1を通常の応答発
生Tnormalに利用できるようにし、後半を予測できない
資源の競合Tcontentionに利用できるようにする。この
場合、応答時間の後半Treco veryは障害検出及び応答の
再発生に利用できる。
【0013】本発明によって取り組まれる特定の問題
は、複雑なシステムのハードウェア及びソフトウェアの
再構成に必要な時間Trecoveryを、Tmaxの一部に削減
する方法である。この問題は運用ユニット(OU)と称
されるソフトウェア構造、及び関連するアベイラビリテ
ィ管理機能(AMF)とによって解決される。OU及び
AMFの一部を以下で説明する。
【0014】図2において、OUの概念はできるだけ多
くのシステムのソフトウェアを、相互の対話がネットワ
ークサーバ12を介して行われる独立した組み込みのモ
ジュールすなわちOU10に分割することによって実施
される。これらのモジュールはいずれも他のモジュール
とデータファイルを共用しておらず、又これらはいずれ
も他のモジュールがそれ自体と同一機械にある(あるい
は、ないと)形をとらない。刺激14がシステムに入
り、適切な応答が発生され、システムのユーザ16に利
用できるようになるまで、第1のモジュールへ一定のル
ートで送られる。
【0015】各モジュールはそれ自体の動作のために必
要な全ての状態データを保持している。2つ以上のモジ
ュールが同一の状態知識にアクセスする必要がある場合
には、(1)各々はこの知識を保持しなければならな
い、(2)この知識に対する更新は通常の処理トランザ
クションとしてモジュール間に伝送されなければならな
いか、又は(3)各々は状態についてのその知識と、他
の状態の知識との可能な差違に対して寛容でなければな
らない。このトレランスはアプリケーションに依存する
いくつかの形態を取ることができ、又状態の相違を検出
し、補償(又は修正)する機構を含む。2つのモジュー
ル10が性能又はその他の理由に対して共通データベー
スを絶対的に共用しなければならない場合、これらは
「独立」したものではなく、本発明のための単一のモジ
ュールに結合される。
【0016】他のモジュール10がサーバ機能の障害又
は損失に対して作動上補償できる場合、1つのモジュー
ル10’が複数の他のモジュールに対するデータサーバ
機能を実行することは許容できる(図3に示すよう
に)。補償とはこれらのモジュールがそのクライアント
に対して、その必須のサービスを提供し続けること、及
び共通状態へのアクセスができないことがサービスの待
ち行列化又は割込みをもたらさないことを意味する。明
らかにこのことはこのような共通サーバの可能な使用を
拘束しない。
【0017】最後に、モジュール10は他のモジュール
のサービスを使用するが、他のそのモジュールがいつま
でも使用できないことが知られている場合には、所定の
低下した動作モード又は他のモードを提供しなければな
らない。この規則の例外はサーバがプロセッサの一部で
あれば(プロセッサの資源の割当て又は使用を取り扱わ
なければ)、このモジュールは無条件にサーバに依存す
る。この場合、サーバの障害はプロセッサの障害とし
て、アベイラビリティ管理機能によって処理される。モ
ジュールが上記条件の全てに合致している場合には、こ
れはシステム内でのそのデータ、その論理、及びその役
割の下記の新規な構成のアプリケーションによってOU
となる。この構造を図4に示す。
【0018】モジュールの2つの完全なコピーは2つの
別個のコンピュータ22、22’の独立したアドレス空
間20、20’にロードされる。これらのモジュールの
1つはネットワークサーバによって1次アドレス空間
(PAS)として識別され、他の全てのモジュールのサ
ービス要求が指令されるモジュールである。これらのモ
ジュールの他のものは待機アドレス空間(SAS)と呼
び、PASのみによって識別される。これは他の全ての
モジュールには見えない。PASはアプリケーションに
従属している状態データをSASに送り、それでこのS
ASはPASの状態を認識する。OUのPASとSAS
の間のインターフェースが同期しているか、非同期であ
るかは、本発明によって限定されず、定常応答時間と新
たに拡張されたPASがそのサーバ及びクライアントと
同期するのに必要な時間との間のトレードオフとなる。
このトレードオフについては、以下の戦略#1で説明す
る。
【0019】このPASはモジュールによる通常のアプ
リケーション処理に必要な状態を維持する。SASは充
分な状態知識を維持するので、SASは必要に応じてP
ASとなるようにするために自分自身を遷移させること
ができる。これが必要とする知識量は、アプリケーショ
ンに依存し、本発明の範囲外である。
【0020】OUのPAS及びSASの両者はOUの全
てのサーバでオープンセッションを維持する。SASセ
ッションはSASがPASに昇位されるまで、又は昇位
されなければ、使用されない。SASがAMFによって
PASの役目を引き受けるように指令された場合、SA
Sはその現在の状態が自己矛盾のないものである(障害
は関連した一連の更新メッセージの一部のみを送るPA
Sから生じるかもしれない)ことを確認し、次いで、P
ASのクライアント及びサーバと通信して、状態をこれ
らと一致させる。この結果、SASの状態知識を進行さ
せるか、又はクライアント及びサーバの状態知識をロー
ルバックする。ロールバックは影響を受ける刺激を再処
理するか、又は刺激が無視されることをユーザに通知す
ることによって、回復されなければならない。この処理
と同時に、ネットワークサーバは更新されるので、サー
バは全ての新しいあるいは待ち行列に入れられたサービ
ス要求を、PASの代りにSASに指令する。この最後
の動作はPASの位置へのSASの昇位から構成され、
続いて、新しいPASによって占有されたプロセッサ以
外のプロセッサの新しいSASを起動する。
【0021】PASによる待機データの維持に関するい
くつかの戦略が、本発明に関連している。これらを以下
に要約する。
【0022】戦略#1。SASはPAS状態の完全なコ
ピーを保持する。PASがその刺激に応答する以前に、
コピーがSASに委ねられた場合、再起動回復はきわめ
て高速であるが、全ての刺激に対する応答時間は最も長
い。応答時間の要求がこれを許容する場合には、この手
法は優れたものである。
【0023】戦略#2。SASはPASの状態の「トレ
ーリング」コピーを保持する。この場合、PASは状態
の更新が生じた場合に、刺激の処理の終了時に、これら
を送るか、又は、いくつかの刺激に対してこれらを分岐
する。このSASは、適時PASの状態を追跡し、した
がって、そのデータ内、及びそれ自体とそのサーバ及び
クライアント間での状態の一貫性に関連していなければ
ならない。これはきわめて高速な定常応答時間をもたら
すが、障害回復中、適度の処理を必要とする。
【0024】戦略#3。SASはPASによって現在処
理されている刺激の知識を保持するので、障害時に、P
ASとそのクライアント及びサーバの間の関係の正確な
状態がSASによって識別される。これはPASとSA
Sの間のトランザクションの開始及び終了の動作を必要
とするが、障害回復中必要とされるOU内同期化を減少
する。
【0025】これらの機構はOUによって単独又は各種
の組合せで使用される。どれを使用するかの決定は、刺
激の種類、応答時間の要求、及びアプリケーションによ
って保持されている状態の性質の関数である。
【0026】アベイラビリティ管理機能(AMF)
【0027】上述の特性はOUを備えているが、それ自
体でアベイラビリティの目標を達成するものではない。
アベイラビリティの目標はこのOUのアーキテキチャ
と、システム内の全てのOUの状態を制御するAMFを
結合することによって達成される。このAMFは3つの
構成要素を有しており、その各々はシステムのOUの高
いアベイラビリティの維持にそれ自体の役割を有する。
OUとAMFの関係は図6ないし図11に示され、以下
に説明される。
【0028】もっとも重要なAMFの機能はグループマ
ネージャの機能である。グループとは1つ以上のOUの
予め指定されたセットを収容するためにネットワークに
配置された類似するように構成されたプロセッサの集合
である。システム内の各グループ(2つ以上が存在して
いる場合)は、全ての他のグループから独立して管理さ
れる。図5には3つのグループが示されている。この場
合、各グループ内にあるOU(プロセッサではなく)が
示されている。
【0029】各グループのプロセッサ数、及びこれらの
プロセッサへのOUのPAS及びSASの構成要素の割
当ては、アベイラビリティの要求事項、各プロセッサの
出力、各PAS及びSAS構成要素の処理ニーズに従っ
て大幅に変動する。本発明によって課された唯一の制約
は、プロセッサの障害から保護されるべき場合、任意の
単一のOUのPAS及びSASが2つの異なるプロセッ
サになければならないということである。
【0030】グループ管理。図6において、グループマ
ネージャはグループのプロセッサの1つに存在している
(プロセッサは本発明に含まれていないプロトコルによ
って決定される)。これはグループをコールドスタート
のために初期設定し、障害回復に必要な場合、グループ
を再構成する。グループ内で、各OUのPAS及びSA
Sは別々のプロセッサにあり、固有のアベイラビリティ
の要求を満たすために、充分な数のプロセッサが存在し
ている。グループマネージャは一単位としてグループの
性能を監視し、システムレベルでの処置を必要としない
グループ内の全ての障害の検出及び回復を調整する。こ
の調整は下記のものを含んでいる。
【0031】1.障害がPASで、又はPASの動作に
必要なプロセッサ又は関連する資源のいずれかで発生し
たと判断された場合に、SASがOUの機能上の責任を
引き継ぐように指令する。
【0032】2.以前のSASがPASに昇位された
後、新しいSASを収容するために、新しいアドレス空
間の起動を開始する。
【0033】3.個々のグループのプロセッサの障害又
は予定された遮断に応じて、各OUのPASがグループ
のプロセッサ間を移動した場合に、各OUの位置のネッ
トワークサーバのイメージを更新する。
【0034】グループマネージャによって検出されるエ
ラーは、プロセッサの障害(グループメンバー間のハー
トビートプロトコルによる)、例えばPASとSASの
間の通信又は待機/バックアップ状態データの共通処理
の設計エラーによって引き起こされたものなどの、PA
S及びSASの両方に影響を及ぼすOUの障害が含まれ
ている。エラー検出機構は本発明の範囲外である。
【0035】ローカル管理。OUアーキテキチャのグル
ープレベルのサポートはグループの各プロセッサ内のい
くつかの機能の存在による。これらの機能はAMFのロ
ーカルマネージャ32と称される。ローカルマネージャ
はプロセッサの制御プログラムの拡張として各プロセッ
サ内で実現され、高い(グループ以上の)レベルの介入
なしに処理されることができる障害の検出及び修正の責
任を負う。ローカルマネージャはそのプロセッサの各O
UのPAS及びSASとのハートビートプロトコル通信
を維持し、これらの性能の異常を監視する。又、任意の
検出された機械レベルのハードウェア及びソフトウェア
の問題に関するオペレーティングシステムからの通知も
受け取る。ローカルで処理することができない問題は、
解決するためにグループマネージャに送られる。
【0036】グローバル管理。システムレベルの問題及
びネットワークに関連した問題の隔離と修正は、AMF
のグローバルマネージャ34によって行われる。グロー
バルマネージャ34は低いレベルで障害と状態を相関さ
せ、ネットワークの挙動、グループの挙動、ならびに複
数のプロセッサを含むスレッドの応答時間のエラーを検
出し、隔離する。又、システムの人間の操作員と対話し
て、オートメーションでは処理できない障害を処理す
る。グローバルマネージャはネットワークの任意のステ
ーションで作動するように設計されており、それ自体が
OUである。必要なら、グローバルマネージャ34のO
Uの一方のグループから他方のグループへの移動は、各
プロセッサステーションのローカルマネージャに含まれ
ているケイパビリティを使用する人間の操作員によって
開始され、監視される。
【0037】ネットワーク管理。ネットワークマネージ
ャはAMFグローバルマネージャ34の一部である。そ
の機能性及び設計は構成に依存し、本発明の範囲外であ
る。
【0038】図6ないし図11はシステムの初期設定、
作動、再構成及び回復中のAMFの機能性を示してい
る。図6では、PAS及びSASがロードされ、初期設
定される。OUの位置がネットワークサーバに入力され
る。図7は状態の一貫性を確立するためのPAS及びS
ASのクライアント及びサーバとの同期化を示してい
る。図8は刺激に応答し、応答を出力するPASによる
定常状態動作を示している。SASはこのPASによっ
て更新し続けられる。
【0039】図9はPASが障害を起こした場合に何が
生じるかを示している。古いSASは新しいPASに昇
位され、新しいSASはロードされ、初期設定される。
ネットワークサーバもOUの新しい位置によって更新さ
れる。図10はクライアント及びサーバの新しいPAS
の再同期化を示している。定常状態で(図10)、新し
いPASは正常なものとして刺激に応答している。
【0040】本発明を構成するのは、OUの構成とAM
Fの回復機能の組合せである。比較してみると、ソフト
ウェアのフェイルオーバー/スイッチオーバーの現在の
戦略及び機構は、本発明のソフトウェアの小さな単位よ
りむしろ、全プロセッサの単位を取り扱っている。本発
明によって達成される障害及び回復の単位は比較的小さ
いため、回復のための時間はまた短い。さらに、プロセ
ッサレベルの障害からの回復は、いくつかのプロセッサ
に広がった小さなステップで達成することができる(障
害を起こしたプロセッサに含まれているPASに対する
SASを含むのに使用されるものが全部)。これは大規
模なリアルタイム・システムで連続的な高いアベイラビ
リティを維持するのに非常に重要である。
【図面の簡単な説明】
【図1】応答時間の割当てを示すタイミング図である。
【図2】ネットワークのいくつかの運用装置の概略図で
ある。
【図3】いくつかのアプリケーションによるデータサー
バOUの使用を示す運用装置のアーキテキチャの他の概
略図である。
【図4】運用装置のアーキテキチャを示す図である。
【図5】3つのグループにわたる汎用運用装置の割当て
の例を示す運用装置のアーキテキチャの図である。
【図6】初期設定及び動作中の、再構成及び回復の機能
の各種の段階における運用装置を示す図である。
【図7】初期設定及び動作中の、再構成及び回復の機能
の各種の段階における運用装置を示す図である。
【図8】初期設定及び動作中の、再構成及び回復の機能
の各種の段階における運用装置を示す図である。
【図9】初期設定及び動作中の、再構成及び回復の機能
の各種の段階における運用装置を示す図である。
【図10】初期設定及び動作中の、再構成及び回復の機
能の各種の段階における運用装置を示す図である。
【図11】初期設定及び動作中の、再構成及び回復の機
能の各種の段階における運用装置を示す図である。
【符号の説明】
10 OU 12 ネットワークサーバ 14 刺激 20 アドレス空間 20’ アドレス空間 22 コンピュータ 22’ コンピュータ 32 ローカルマネージャ 34 グローバルマネージャ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】コンピュータプログラムを複数の機能モジ
    ュールに分割し、 第1の機能モジュールのコピーを第1のプロセッサのア
    ドレス空間にロードし、かつ第2の前記機能モジュール
    のコピーを第2のプロセッサのアドレス空間に配置し、 前記第1のプロセッサは前記第1の機能モジュールを実
    行し、アプリケーションに依存する状態データを、前記
    第2のプロセッサで実行されている前記第2の機能モジ
    ュールによって受信される前記第2のプロセッサに送
    り、 前記第1のプロセッサは前記第1の機能モジュールを実
    行し、通常のアプリケーション処理状態を維持し、前記
    第2のプロセッサは前記第2の機能モジュールを実行
    し、2次状態知識を1次機能モジュールにすることを可
    能にするのに充分な2次状態知識を維持し、 前記第1のプロセッサはネットワークで接続されている
    複数のサーバでオープンセッションを維持している前記
    第1の機能モジュールを実行し、前記第2のプロセッサ
    は前記ネットワークの前記サーバの全てで複数のオープ
    ンセッションを維持している前記第2モジュールを実行
    し、 前記第2の機能モジュールは、前記第1の機能モジュー
    ルの役割を引き受けるのに必要な刺激に応じて、その現
    在の状態が前記第1の機能モジュールの現在の状態と一
    致していることをチェックし、続いて、前記第2の機能
    モジュールが前記ネットワークの前記サーバと通信し
    て、前記サーバの状態との同期化を確立し、 前記ネットワークに接続されている全てのクライアント
    及びサーバは、全ての新しいサービス要求又は待ち行列
    に入るサービス要求を前記第1の機能モジュールの代わ
    りに前記第2の機能モジュールに指令することによっ
    て、前記第1の機能モジュールの役割を引き受ける前記
    第2の機能モジュールに応答し、 これによって、前記第2の機能モジュールは1次アドレ
    ス空間作動を実行する際に前記第1の機能モジュールの
    役割を引き受けることを特徴とするデータ処理システ
    ム。
  2. 【請求項2】前記第1の機能モジュール及び前記第2の
    機能モジュールは同期通信を行うことを特徴とする請求
    項1記載のデータ処理システム。
  3. 【請求項3】前記第1の機能モジュール及び前記第2の
    機能モジュールは非同期通信を行うことを特徴とする請
    求項1記載のデータ処理システム。
  4. 【請求項4】前記第2の機能モジュールは前記第1の機
    能モジュールの状態の完全なコピーを保持することを特
    徴とする請求項1記載のデータ処理システム。
  5. 【請求項5】前記第2の機能モジュールは前記第1の機
    能モジュールの状態のトレーリングコピーを保持するこ
    とを特徴とする請求項1記載のデータ処理システム。
  6. 【請求項6】前記第2の機能モジュールは前記第1の機
    能モジュールによって現在処理中の刺激の知識を保持す
    ることを特徴とする請求項1記載のデータ処理システ
    ム。
JP3268662A 1990-10-17 1991-09-20 データ処理システム Pending JPH05108392A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/599,178 US5129080A (en) 1990-10-17 1990-10-17 Method and system increasing the operational availability of a system of computer programs operating in a distributed system of computers
US07/599178 1991-10-17

Publications (1)

Publication Number Publication Date
JPH05108392A true JPH05108392A (ja) 1993-04-30

Family

ID=24398562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3268662A Pending JPH05108392A (ja) 1990-10-17 1991-09-20 データ処理システム

Country Status (5)

Country Link
US (1) US5129080A (ja)
EP (1) EP0481231B1 (ja)
JP (1) JPH05108392A (ja)
CA (1) CA2053344C (ja)
DE (1) DE69128271T2 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0537903A2 (en) * 1991-10-02 1993-04-21 International Business Machines Corporation Distributed control system
US5878256A (en) * 1991-10-16 1999-03-02 International Business Machine Corp. Method and apparatus for providing updated firmware in a data processing system
DE69306389T2 (de) * 1992-06-12 1997-06-26 Dow Chemical Co Intelligentes prozesssteuerverbindungssystem und verfahren.
SE500940C2 (sv) * 1993-02-10 1994-10-03 Ellemtel Utvecklings Ab Sätt och system för att i ett distribuerat operativsystem demontera en kedja av sammanlänkade processer
USRE44685E1 (en) * 1994-04-28 2013-12-31 Opentv, Inc. Apparatus for transmitting and receiving executable applications as for a multimedia system, and method and system to order an item using a distributed computing system
US5819034A (en) * 1994-04-28 1998-10-06 Thomson Consumer Electronics, Inc. Apparatus for transmitting and receiving executable applications as for a multimedia system
US6564321B2 (en) * 1995-04-28 2003-05-13 Bobo Ii Charles R Systems and methods for storing, delivering, and managing messages
US5659682A (en) * 1994-06-16 1997-08-19 International Business Machines Corporation Scheme to determine completion of directory operations for server recovery
JPH0822424A (ja) * 1994-07-06 1996-01-23 Hitachi Ltd クライアント・サーバ・システムおよびその制御方法
JP3504763B2 (ja) * 1994-08-19 2004-03-08 富士通株式会社 分散システムに使用されるクライアント,サーバ及び記憶装置並びに分散システムにおける資源管理用サーバの復旧方法
US5564054A (en) * 1994-08-25 1996-10-08 International Business Machines Corporation Fail-safe computer boot apparatus and method
US5560033A (en) * 1994-08-29 1996-09-24 Lucent Technologies Inc. System for providing automatic power control for highly available n+k processors
US6397262B1 (en) 1994-10-14 2002-05-28 Qnx Software Systems, Ltd. Window kernel
CA2118201C (en) * 1994-10-14 2003-02-04 Patrick M. Hayden Photon windowing kernel
KR0133337B1 (ko) * 1994-12-21 1998-04-21 양승택 타켓 시스템 이중화 운용관리 장치 및 방법
KR0136501B1 (ko) * 1994-12-21 1998-07-01 양승택 신호중계교환기 운용관리시스템의 제어방법
JP3200661B2 (ja) * 1995-03-30 2001-08-20 富士通株式会社 クライアント/サーバシステム
US5673391A (en) * 1995-03-31 1997-09-30 International Business Machines Corporation Hardware retry trap for millicoded processor
US5594861A (en) * 1995-08-18 1997-01-14 Telefonaktiebolaget L M Ericsson Method and apparatus for handling processing errors in telecommunications exchanges
US6189030B1 (en) 1996-02-21 2001-02-13 Infoseek Corporation Method and apparatus for redirection of server external hyper-link references
US5727142A (en) * 1996-05-03 1998-03-10 International Business Machines Corporation Method for a non-disruptive host connection switch after detection of an error condition or during a host outage or failure
US5802258A (en) * 1996-05-03 1998-09-01 International Business Machines Corporation Loosely coupled system environment designed to handle a non-disruptive host connection switch after detection of an error condition or during a host outage or failure
US5879236A (en) * 1996-10-18 1999-03-09 Starwave Corporation System method and medium for sector windowing
JPH10187638A (ja) * 1996-10-28 1998-07-21 Mitsubishi Electric Corp クラスタ制御システム
US6212649B1 (en) * 1996-12-30 2001-04-03 Sentar, Inc. System and method for providing highly-reliable coordination of intelligent agents in a distributed computing system
US6151686A (en) * 1997-06-06 2000-11-21 Fmr Corp. Managing an information retrieval problem
US6108699A (en) * 1997-06-27 2000-08-22 Sun Microsystems, Inc. System and method for modifying membership in a clustered distributed computer system and updating system configuration
AU747099B2 (en) 1997-10-31 2002-05-09 Pharmacia Corporation Gellan gum tablet coating
US6597688B2 (en) 1998-06-12 2003-07-22 J2 Global Communications, Inc. Scalable architecture for transmission of messages over a network
US6418540B1 (en) * 1999-08-27 2002-07-09 Lucent Technologies Inc. State transfer with throw-away thread
GB2359384B (en) 2000-02-16 2004-06-16 Data Connection Ltd Automatic reconnection of partner software processes in a fault-tolerant computer system
US7140018B1 (en) 2000-06-20 2006-11-21 International Business Machines Corporation Method of using a distinct flow of computational control as a reusable abstract data object
US6832378B1 (en) 2000-06-20 2004-12-14 International Business Machines Corporation Parallel software processing system
US6507903B1 (en) 2000-06-20 2003-01-14 International Business Machines Corporation High performance non-blocking parallel storage manager for parallel software executing on coordinates
US7117239B1 (en) 2000-07-28 2006-10-03 Axeda Corporation Reporting the state of an apparatus to a remote computer
US7185014B1 (en) 2000-09-22 2007-02-27 Axeda Corporation Retrieving data from a server
US8108543B2 (en) 2000-09-22 2012-01-31 Axeda Corporation Retrieving data from a server
US7149792B1 (en) 2000-11-20 2006-12-12 Axeda Corporation Device registration mechanism
US6965929B2 (en) 2001-06-29 2005-11-15 Intel Corporation Configuring a network device
US7254601B2 (en) 2001-12-20 2007-08-07 Questra Corporation Method and apparatus for managing intelligent assets in a distributed environment
US20040153692A1 (en) * 2001-12-28 2004-08-05 O'brien Michael Method for managing faults it a computer system enviroment
US7178149B2 (en) 2002-04-17 2007-02-13 Axeda Corporation XML scripting of soap commands
US8140888B1 (en) * 2002-05-10 2012-03-20 Cisco Technology, Inc. High availability network processing system
CA2489142C (en) 2002-06-20 2013-11-26 Paul Francis Mckee Distributed computer
GB0230331D0 (en) 2002-12-31 2003-02-05 British Telecomm Method and apparatus for operating a computer network
US7966418B2 (en) 2003-02-21 2011-06-21 Axeda Corporation Establishing a virtual tunnel between two computer programs
US7281070B2 (en) * 2005-01-28 2007-10-09 International Business Machines Corporation Multiple master inter integrated circuit bus system
US7823158B2 (en) * 2005-08-18 2010-10-26 International Business Machines Corporation Adaptive scheduling and management of work processing in a target context in resource contention
JP2008061168A (ja) * 2006-09-04 2008-03-13 Ricoh Co Ltd 複合端末装置
US8370479B2 (en) 2006-10-03 2013-02-05 Axeda Acquisition Corporation System and method for dynamically grouping devices based on present device conditions
US8065397B2 (en) 2006-12-26 2011-11-22 Axeda Acquisition Corporation Managing configurations of distributed devices
US8478861B2 (en) 2007-07-06 2013-07-02 Axeda Acquisition Corp. Managing distributed devices with limited connectivity
US8055855B2 (en) * 2007-10-05 2011-11-08 International Business Machines Corporation Varying access parameters for processes to access memory addresses in response to detecting a condition related to a pattern of processes access to memory addresses
US7921272B2 (en) * 2007-10-05 2011-04-05 International Business Machines Corporation Monitoring patterns of processes accessing addresses in a storage device to determine access parameters to apply
US7856536B2 (en) * 2007-10-05 2010-12-21 International Business Machines Corporation Providing a process exclusive access to a page including a memory address to which a lock is granted to the process
US7770064B2 (en) * 2007-10-05 2010-08-03 International Business Machines Corporation Recovery of application faults in a mirrored application environment
US8897432B2 (en) 2010-07-01 2014-11-25 Etherfax, Llc System and method of remote fax interconnect technology
JP6387747B2 (ja) * 2013-09-27 2018-09-12 日本電気株式会社 情報処理装置、障害回避方法およびコンピュータプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02156339A (ja) * 1988-12-08 1990-06-15 Toshiba Corp 制御用複合計算機システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1549397B2 (de) * 1967-06-16 1972-09-14 Chemische Werke Hüls AG, 4370 Mari Verfahren zur automatischen steuerung chemischer anlagen
US4099241A (en) * 1973-10-30 1978-07-04 Telefonaktiebolaget L M Ericsson Apparatus for facilitating a cooperation between an executive computer and a reserve computer
US4356546A (en) * 1980-02-05 1982-10-26 The Bendix Corporation Fault-tolerant multi-computer system
EP0228559A1 (de) * 1985-12-17 1987-07-15 BBC Brown Boveri AG Fehlertolerante Mehrrechneranordnung
SE457391B (sv) * 1987-04-16 1988-12-19 Ericsson Telefon Ab L M Programminnesstyrt realtidssystem omfattande tre i huvudsak identiska processorer
US5008805A (en) * 1989-08-03 1991-04-16 International Business Machines Corporation Real time, fail safe process control system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02156339A (ja) * 1988-12-08 1990-06-15 Toshiba Corp 制御用複合計算機システム

Also Published As

Publication number Publication date
EP0481231A2 (en) 1992-04-22
US5129080A (en) 1992-07-07
CA2053344A1 (en) 1992-04-18
DE69128271D1 (de) 1998-01-08
DE69128271T2 (de) 1998-05-28
EP0481231B1 (en) 1997-11-26
EP0481231A3 (en) 1993-03-24
CA2053344C (en) 1994-03-29

Similar Documents

Publication Publication Date Title
JPH05108392A (ja) データ処理システム
US11360854B2 (en) Storage cluster configuration change method, storage cluster, and computer system
US7392421B1 (en) Framework for managing clustering and replication
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
US6266781B1 (en) Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network
EP1437658B1 (en) Coordinating persistent status information with multiple file servers
US4628508A (en) Computer of processor control systems
US9280428B2 (en) Method for designing a hyper-visor cluster that does not require a shared storage device
US6618805B1 (en) System and method for simplifying and managing complex transactions in a distributed high-availability computer system
US7966514B2 (en) Scalable fault tolerant system
US7085956B2 (en) System and method for concurrent logical device swapping
US20090138541A1 (en) Fault-Tolerant Networks
Kim Highly available systems for database applications
US20080215915A1 (en) Mechanism to Change Firmware in a High Availability Single Processor System
US7020800B2 (en) System and method for memory failure recovery using lockstep processes
JP2000112911A (ja) コンピュ―タネットワ―クにおけるデ―タベ―ス管理システムにおいて自動的にタスクを再分配するシステム及び方法
US7516181B1 (en) Technique for project partitioning in a cluster of servers
CN111460039A (zh) 关系型数据库处理系统、客户端、服务器及方法
JP2012014674A (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
CN113220509B (zh) 一种双组合交替倒班系统及方法
JP3394189B2 (ja) 任意プロセッサのプログラム・データ無中断更新システム
Cisco Fault Tolerance
CN114827148B (zh) 基于云容错技术的云安全计算方法和装置、存储介质
JPH08249196A (ja) タスクの冗長化実行方式
Bravo et al. Policy-based adaptation of a byzantine fault tolerant distributed graph database