JPH01224846A - プロセス空間切り換え制御方式 - Google Patents

プロセス空間切り換え制御方式

Info

Publication number
JPH01224846A
JPH01224846A JP63051249A JP5124988A JPH01224846A JP H01224846 A JPH01224846 A JP H01224846A JP 63051249 A JP63051249 A JP 63051249A JP 5124988 A JP5124988 A JP 5124988A JP H01224846 A JPH01224846 A JP H01224846A
Authority
JP
Japan
Prior art keywords
process space
information
space
standby
abnormality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63051249A
Other languages
English (en)
Inventor
Norio Kuroba
法男 黒羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63051249A priority Critical patent/JPH01224846A/ja
Publication of JPH01224846A publication Critical patent/JPH01224846A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 耐故障性をそなえた情報処理システムに関するものであ
り、特にプロセス空間を冗長化して、異常発生時にプロ
セス空間を切り換え、処理を継続するプロセス空間切り
換え制御方式に関し。
ソフトウェア故障に対して羅障範囲を限定する手段をそ
なえた耐故障性付与システムを提供することを目的とし
耐故障性を有する情報処理システムにおいて。
現用プロセス空間と、現用プロセス空間に対して代替可
能な待機プロセス空間とを設け、現用プロセス空間の動
作中に異常が発生したとき、現用プロセス空間を停止し
て待機プロセス空間を起動し。
その際、待機プロセス空間は、現用プロセス空間から、
少量で正当性が検証可能な情報を引き継ぐ構成を有する
〔産業上の利用分野〕
本発明は、耐故障性をそなえた情報処理システムに関す
るものであり、特にプロセス空間を冗長化して、異常発
生時にプロセス空間を切り換え。
処理を継続するプロセス空間切り換え制御方式に関する
〔従来の技術〕
従来の情報処理システムにおいては、耐故障性を付与す
るために種々の手段が用いられているが。
−Cにはハードウェアの故障を主な対象としており、た
とえばハードウェアを冗長構成にして障害発生時に現用
から予備に切り換える方式がある。
一方、ソフトウェアを対象とする耐故障性付与としては
、アプリケーションプログラムと一般に呼ばれるユーザ
作成のプログラムについて、トランザクション機能によ
るリカバリが可能にされている程度である。
ところで最近の傾向として、システム異常の主要な原因
が、ハードウェアからソフトウェアに変化してきている
。これは、ハードウェア自体の高信頼化技術の向上によ
るハードウェア故障の減少と、ソフトウェアによるハー
ドウェア故障からの復旧技術の確立等により、ハードウ
ェアに起因する故障が目立たなくなっていることによる
ものである。
しかし、ソフトウェアについては□個々のプログラムに
ついて見れば信頼性が向上しているものの、故障全体量
の増加が個々のプログラムの信頼性の向上分を凌駕して
いるといえる。
〔発明が解決しようとする課題〕
ハードウェアが故障することを主に考慮して耐故障性を
付与した従来の情報処理システムにおいては、現用マシ
ンのメモリの内容を丸ごと別の待機マシン上にコピーし
ておいても3現用マシンのプロセスがソフトウェア故障
により異常となった場合、コピーしたメモリの内容も羅
障していることが多いため、現用マシンのプロセスがダ
ウン後に待機マシンのプロセスを起動しても、待機プロ
セスも数瞬後にダウンする可能性があった。
つまり、従来のシステムは、ソフトウェア故障に対して
無節操に構築されているため、ソフトウェアの故障は広
範囲に伝播しやすく、直ちにシステム全体の故障となっ
てしまうという問題があった。
本発明は、ソフトウェア故障に対して羅障範囲に限定す
る手段をそなえた耐故障性付与システムを提供すること
を目的とする。
〔課題を解決するための手段〕
本発明は、ソフトウェア故障に対する耐故障性をシステ
ムに付与するための手段として、プロセス空間を部品と
して冗長化するものである。すなわち、現用部品のプロ
セス空間に故障が生じたとき、交換部品として用意した
プロセス空間で代替させるものである。そしてその際に
引き継ぐべき情報はできる限り少なくシ、かつ正当性が
検証できる情報に限定することによって、ソフトウェア
故障の伝播を防止するものである。
ここでプロセス空間とは、複数のプロセスが走行可能な
環境をいい、主要な構成物として、仮装アドレス空間と
プログラムの実行環境(プログラムのローディング環境
やファイルのアクセス環境など)とが一体となった概念
である。
第1図は本発明の原理構成図である。
図において。
lは、耐故障性を有する情報処理システムである。
2は、現用プロセス空間である。
3は、待機プロセス空間である。
4.5は1現用プロセスである。
4’、  5’は、待機プロセスである。
6は、現用プロセス空間2内の処理状態を表す状態情報
である。
7は、少量の正当性が検証可能な引き継ぎ情報である。
〔作用〕
第1図により1本発明の詳細な説明する。
情報処理システム1では、現用プロセス空間2に対する
交換部品として、1個ないし複数個の待機プロセス空間
3が用意される(第1図は、待機プロセス空間が1個の
みの場合の例である)、なお、待機プロセス空間は、現
用プロセス空間の停止後に立ち上げるようにしてもよい
現用プロセス4あるいは5が生成され(たとえばトラン
ザクションごとに生成される)、現用プロセス空間2内
にディスパッチされるとき、コピーの待機プロセス4′
あるいは5′が生成され、待機プロセス空間3内にディ
スパッチされる。
現用プロセス空間2で現用プロセス4あるいは5が走行
しているとき回復不可能な異常が発生すると、現用プロ
セス空間2は停止され、状態情報6の中から、予め指定
された範囲の少量でかつ検証可能な引き継ぎ情報7を抽
出し、待機プロセス空間3に移植する。
待機プロセス空間3では5引き継ぎ情報7に基づいて必
要な状態情報6をリカバリ (復旧)シ。
待機プロセス4′あるいは5′を起動する。
引き継ぎ情$17は、プロセス空間の空間情報と処理開
始に必要な情報とを含んでいる。
待機プロセス4′あるいは5′は、現用プロセス空間2
で異常検出された時点での処理から正常動作が可能なと
ころまでさかのぼり(ローカルバンク)、異常検出され
た現用プロセスが処理しようとしていた仕事を完遂(コ
ミット完遂)させる。
〔実施例〕
第2図は1本発明の1実施例システムの構成を示す。
図において。
10.11はそれぞれ複数のクラスタ(n個とする)中
のi番目とj番目のクラスタである。ここでクラスタは
、独立したプロセッサあるいは上記4gを共有するプロ
セッサ群を意味する。
12は、クラスタ間高速通信パスである。
13は、各クラスタによってアクセス可能な不揮発メモ
リであり、引き継ぎ情報およびリカバリ情報を格納する
ために使用される。
14は、現用プロセス空間である。
15および16は、現用プロセス空間14に対する待機
プロセス空間である。
17および18は、それぞれクラスタ(i)  10お
よび(j)11における制御プログラム格納領域の核で
ある。
19および20は、ダウンモニタであり、プロセス空間
内の異常(プロセス実行失敗や応答速度の極端な低下等
)を検出すると、そのプロセス空間を停止させ、適切な
待機プロセス空間への処理の引き継ぎの起動を行う。
21および22は、不揮発メモリアクセッサであり、複
数クラスタからアクセス可能な共用メモリの不揮発メモ
リ13ヘアクセスするための機構である。アクセスにお
けるO8とハードウェアの機能分担はハードウェアの種
類により適切に設定してよい。
現用プロセス空間14には、以下の各要素141ないし
144が含まれる。
141は、現用プロセス空間14で通常の処理を行う業
務処理プログラムである。
142は、クラス引き継ぎ情報格納部である。クラス引
き継ぎ情報の詳細は後述される。
143は、インスタンス引き継ぎ情報格納部である。イ
ンスタンス引き継ぎ情報の詳細は後述される。
144は、リカバリ情報格納部である。リカバリ情報の
詳細は後述される。
待機プロセス空間15および16には、それぞれ以下の
151ないし154および161ないし164の各要素
が含まれる。
151および161は、現用プロセス空間14内の業務
処理プログラム141と同様な待機用のプログラムであ
る。ただし、現用として走行開始するときは引き継ぎ情
報の格納処理も行う。
152および162は、クラス引き継ぎ情報にもとづき
再初期化を行う再初期化機構である。
153および163は、インスタンス情報にもとづき処
理を再開させるサービス再開機構である。
154および164は、リカバリ情報にもとづきリカバ
リ処理を行うリカバリ機構である。
次に、「少量で検証可能な引き継ぎ情報jを横成するク
ラス引き継ぎ情報、インスタンス引き継ぎ情報、リカバ
リ情報のそれぞれについて説明する。
本実施例では9例えば下記のようにして、osプログラ
ムとO8の上にのって走行するプログラムの理路整然と
した役割分担を可能にしている。
fal  クラス引き継ぎ情報:プロセス自らが走行す
るための情報 これは、O8が現用プロセス空間から待機プロセス空間
へ引き継ぐ。
プロセス空間内で使用している資源やプログラム、つま
りオブジェクト指向でいうところのクラスを表すような
情報であり1例えばDBサーバの使用しているボリュー
ム上のスペース名がこの類に相当する。
[bl  インスタンス引き継ぎ情報:自プロセスの提
供資源をスイッチ後も使用してもらうための情lli これは、プログラムとO8が適切なインターフェースを
採ることで、O8が自動的に引き継ユーザに提供した個
々の資源(+プログラム)、つまりオブジェクト指向で
いうところのインスタンスを表すような情報(インスタ
ンス引き継ぎ)であり1例えば、DBサーバに対し。
0PENをした結果のテーブル名がこの種類に工亥当す
る。
FC+  リカバリ情tllニドランザクジョンのロー
ルハックやコミット完遂のための情報 これは、O8の一部であるトランザクション機構が引き
継ぎ、  l−ランザクジョンidとリカバリ (un
do、 redo)のためのすn報である。
オブジェクト指向でいうところのアクティブなメソッド
を終結させるための情報(引き継ぎ時に活性化していた
インスタンスとその内部状態)であり1例えば、RBD
のサーバに対し、 update中のDBの状態とトラ
ンザクション名の組がこの種類に8亥当する。
簡単に第2図の実施例システムの動作を説明すると。
現用プロセス空間14の業務処理プログラム141がト
ランザクション処理のために起動(プロセスとして走行
)されている途中で、ダウンモニタ19が何らかの異常
を検出すると、クラス引き継ぎ情報格納部142および
インスタンス引き継ぎ情報格納部143が起動され、不
揮発メモリアクセッサ21を介して、それぞれの引き継
ぎ情報を不揮発メモリ13に格納する。なお、リカバリ
情報格納部144は、リカバリ情報が発生した時点でそ
の情報を不揮発メモリ13に格納する。
待機プロセス空間は一般的には1個以上作成することが
でき石。しかし、若干の遅れを伴うことが許される場合
には、0個としておき、現用プロセス空間の停止後に、
待機プロセス空間を立ち上げることも可能である。
第2図においては、待機プロセス空間は15と16の2
個であり、クラスタの負荷やクラスタ間メソセージの発
生予想量にもとづき、i!!切な待機プロセス空間を選
択する。ここでは待機プロセス空間16を選択したもの
とする。
これにより、待機プロセス空間16の業務処理プログラ
ム161は、不揮発メモリアクセッサ22を介して、不
揮発メモリ13から、クラス引き継ぎ情報、インスタン
ス引き継ぎ情報、リカバリ情報をそれぞれ取り込み1次
に、再初期化機構162を起動してクラス引き継ぎ情報
にもとづく再初期化を行わせ、さらにリカバリ機構16
4を起動してリカバリ情報にもとづくリカバリを行わせ
1そしてサービス再開機構163を起動して業務処理を
再開させる。
〔発明の効果〕
本発明により、以下の効果が得られる。
(1)  ソフトウェアの故障があっても、システムを
継続して運用でき、システムの信幀性を著しく向上でき
る。
(2)  クラスタ間での引き継ぎ情報の流量が激減す
ること。
(3)現用プロセスと待機プロセスとで、レベルの異な
るプログラムを用いてもよいこと。これは。
プログラムの活性保守の際に2重要なポイントとなるも
のである。
【図面の簡単な説明】
第1図は本発明の原理説明図、第2図は本発明の1実施
例システムの構成図である。 第1図において。 l;情報処理システム 2:現用プロセス空間 3:待機プロセス空間 4.5:現用プロセス 6:状態情報 7:引き継ぎ情報

Claims (1)

  1. 【特許請求の範囲】 耐故障性を有する情報処理システムにおいて、現用プロ
    セス空間(2)と、 現用プロセス空間(2)に対して代替可能な待機プロセ
    ス空間(3)とを設け、 現用プロセス空間(2)の動作中に異常が発生したとき
    、現用プロセス空間(2)を停止して待機プロセス空間
    (3)を起動し、その際、待機プロセス空間(3)は、
    現用プロセス空間(2)から、少量で正当性が検証可能
    な情報(7)を引き継ぐことを特徴とするプロセス空間
    切り換え制御方式。
JP63051249A 1988-03-04 1988-03-04 プロセス空間切り換え制御方式 Pending JPH01224846A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63051249A JPH01224846A (ja) 1988-03-04 1988-03-04 プロセス空間切り換え制御方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63051249A JPH01224846A (ja) 1988-03-04 1988-03-04 プロセス空間切り換え制御方式

Publications (1)

Publication Number Publication Date
JPH01224846A true JPH01224846A (ja) 1989-09-07

Family

ID=12881676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63051249A Pending JPH01224846A (ja) 1988-03-04 1988-03-04 プロセス空間切り換え制御方式

Country Status (1)

Country Link
JP (1) JPH01224846A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04172536A (ja) * 1990-11-07 1992-06-19 Fujitsu Ltd フォールトトレラントシステムにおける資源管理方法
JPH04355835A (ja) * 1991-06-03 1992-12-09 Fujitsu Ltd ケーパビリティの退避・復元機構を持つ装置
JPH06103090A (ja) * 1992-09-22 1994-04-15 Nec Corp 待機システムにおける資源管理方式
JPH06301557A (ja) * 1993-02-26 1994-10-28 Internatl Business Mach Corp <Ibm> データ処理システムにより環境を管理する方法及びシステム
JP2000057095A (ja) * 1998-08-06 2000-02-25 Shikoku Nippon Denki Software Kk 通信処理方法及び通信処理システム
JP2000066908A (ja) * 1998-08-04 2000-03-03 Alcatel プロセスならびにそれらのデ―タと資源を識別するプロセス、モジュ―ル、および交換局
JP2004030363A (ja) * 2002-06-27 2004-01-29 Hitachi Ltd 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム
JP2012018512A (ja) * 2010-07-07 2012-01-26 Fujitsu Ltd プログラム、情報処理装置、及び情報処理装置の制御方法
JP2017182115A (ja) * 2016-03-28 2017-10-05 日本電気株式会社 情報処理装置、プロセス切り替え方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59231623A (ja) * 1983-06-15 1984-12-26 Fujitsu Ltd 等価的連続運転方式
JPS60243747A (ja) * 1984-04-18 1985-12-03 Hitachi Ltd システム・プログラム再立上げ方式
JPS6318443A (ja) * 1986-07-10 1988-01-26 Nec Corp 緊急制御方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59231623A (ja) * 1983-06-15 1984-12-26 Fujitsu Ltd 等価的連続運転方式
JPS60243747A (ja) * 1984-04-18 1985-12-03 Hitachi Ltd システム・プログラム再立上げ方式
JPS6318443A (ja) * 1986-07-10 1988-01-26 Nec Corp 緊急制御方式

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04172536A (ja) * 1990-11-07 1992-06-19 Fujitsu Ltd フォールトトレラントシステムにおける資源管理方法
JPH04355835A (ja) * 1991-06-03 1992-12-09 Fujitsu Ltd ケーパビリティの退避・復元機構を持つ装置
JPH06103090A (ja) * 1992-09-22 1994-04-15 Nec Corp 待機システムにおける資源管理方式
JPH06301557A (ja) * 1993-02-26 1994-10-28 Internatl Business Mach Corp <Ibm> データ処理システムにより環境を管理する方法及びシステム
JP2000066908A (ja) * 1998-08-04 2000-03-03 Alcatel プロセスならびにそれらのデ―タと資源を識別するプロセス、モジュ―ル、および交換局
JP2000057095A (ja) * 1998-08-06 2000-02-25 Shikoku Nippon Denki Software Kk 通信処理方法及び通信処理システム
JP2004030363A (ja) * 2002-06-27 2004-01-29 Hitachi Ltd 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム
US7328367B2 (en) 2002-06-27 2008-02-05 Hitachi, Ltd. Logically partitioned computer system and method for controlling configuration of the same
JP2012018512A (ja) * 2010-07-07 2012-01-26 Fujitsu Ltd プログラム、情報処理装置、及び情報処理装置の制御方法
JP2017182115A (ja) * 2016-03-28 2017-10-05 日本電気株式会社 情報処理装置、プロセス切り替え方法及びプログラム

Similar Documents

Publication Publication Date Title
US5805790A (en) Fault recovery method and apparatus
US4823256A (en) Reconfigurable dual processor system
Borg et al. Fault tolerance under UNIX
US5437022A (en) Storage controller having additional cache memory and a means for recovering from failure and reconfiguring a control unit thereof in response thereto
JP2505928B2 (ja) フォ―ルト・トレラント・システムのためのチェックポイント機構
US5317752A (en) Fault-tolerant computer system with auto-restart after power-fall
US5802265A (en) Transparent fault tolerant computer system
US7168001B2 (en) Transaction processing apparatus and method
CA2288016C (en) Method and system for recovery in a partitioned shared nothing database system using virtual shared disks
US20090300414A1 (en) Method and computer system for making a computer have high availability
JPS61500875A (ja) 補助記憶装置へのアクセス喪失に耐える処理システム
KR950014175B1 (ko) 데이타의 타임제로 백업 복사 방법과 수단
WO1997022930A9 (en) Transparent fault tolerant computer system
JPH05108392A (ja) データ処理システム
JP4315016B2 (ja) コンピュータシステムの系切替方法
US8015432B1 (en) Method and apparatus for providing computer failover to a virtualized environment
JP3301992B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
JPH01224846A (ja) プロセス空間切り換え制御方式
EP1652117A1 (en) Event processor for job scheduling and management
JP3463696B2 (ja) オンラインガーベッジコレクション処理方法
Laranjeira NCAPS: Application high availability in UNIX computer clusters
JP3246751B2 (ja) 高信頼化コンピュータシステム及びその復旧方法並びにプロセッサボード及びその交換方法
JP3464768B2 (ja) ファイルロードを有するプロセッサ装置
JP3325836B2 (ja) 計算機盤
JP3483662B2 (ja) 計算機のバックアップ方式