JPH09212380A - 高信頼性計算機システム - Google Patents

高信頼性計算機システム

Info

Publication number
JPH09212380A
JPH09212380A JP8015667A JP1566796A JPH09212380A JP H09212380 A JPH09212380 A JP H09212380A JP 8015667 A JP8015667 A JP 8015667A JP 1566796 A JP1566796 A JP 1566796A JP H09212380 A JPH09212380 A JP H09212380A
Authority
JP
Japan
Prior art keywords
page
checkpoint
paging device
contents
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8015667A
Other languages
English (en)
Inventor
Shiyoukou Shin
承昊 申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8015667A priority Critical patent/JPH09212380A/ja
Publication of JPH09212380A publication Critical patent/JPH09212380A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)

Abstract

(57)【要約】 【課題】本発明は、従来から持つページ管理機構の一部
を変更することにより、新たなハードウェアやアプリケ
ーションプログラムの変更を必要とせずに電源が落ちた
場合にも対応できる計算機システムを構築することを特
徴とする。 【解決手段】チェックポイント処理時に主記憶11の内
容をページングデバイス12に保存しておき、通常のペ
ージアウトが行われる度に、チェックポイント時のペー
ジングデバイスの内容を保存したまま、新しくページン
グデバイス上のページを確保して、そこにページアウト
するもので、常にチェックポイント時の主記憶の内容が
ページングデバイス上に保存されるようになる。障害が
発生した場合は、チェックポイント時の主記憶の内容を
保存しているページングデバイスまたはチェックポイン
ト保存用のメモリから主記憶の内容を回復し、チェック
ポイント以降にページアウトされたページは破棄され
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば、耐信頼性
を要求される、複数のCPUを有してなるマルチプロセ
ッサシステムなどに適用して好適な高信頼性計算機シス
テムに関する。
【0002】
【従来の技術】耐障害性を確保する計算機システムの構
成法のひとつに、主記憶の更新履歴をログメモリ等に採
取し、レジスタ類およびキャッシュメモリの内容等を定
期的に主記憶に退避することにより、主記憶の内容を最
新のものにした後にログメモリに保持したそれ以前の更
新履歴を破棄する方式がある。即ち、定期的にCPUの
内部状態を復元し、主記憶の更新履歴をチェックするも
ので、これをチェックポイント方式と呼び、更に、主記
憶にCPUの内部状態を保持することをチェックポイン
トを取るという。
【0003】この種、計算機システムでは、一層高速
性,信頼性の向上をはかるために、キャッシュメモリ付
きの複数のCPUから成るマルチプロセッサシステムで
構成される。更に、チェックポイント採取時の主記憶の
内容そのものをチェックポイントイメージとし、チェッ
クポイント採取後、キャッシュから主記憶にライトバッ
クする時に、ライトバックされる前の主記憶の内容を保
存する手段が用意される。このことで、システムが異常
を示したときにメモリをチェックポイント時の内容に回
復させるものである。従ってこのための新たなハードウ
ェアを組み込む必要があり、一方、メモリ自身の故障や
電源が落ちたような場合には対応できない。
【0004】一方、冬眠機能を持つ計算機システムが存
在し、これはシステムの実行を中断させて、その時の物
理メモリの内容をディスク等の不揮発性記憶装置に保存
してシステムの電源をOFFし、それ以後、任意の時刻
に電源をONしたときに、以前中断した状態からシステ
ムの実行を再開できるようにしているものである。この
方式は、ディスクにメモリ全体の内容を書き込まなけれ
ばならないため、一度の処理に時間がかかるという欠点
をもつ。
【0005】更にまた、CAMELOTシステムにリカ
ラブルセグメントと呼ばれるものがあり、トランザクシ
ョンが途中で異常終了した時に、それまでのデータの変
更を元に戻せるように、ページアウト時にはログを採取
しながらバッキングストアを変更している。このシステ
ムはより確実な動作を保証することができるが、アプリ
ケーションプログラムをトランザクションを用いるよう
に変更しなければならない。
【0006】
【発明が解決しようとする課題】上述した従来システム
において、メモリの高信頼性を得るためには、そのため
の新たなハードウェアを用意するか、あるいは、複雑な
ソフトウェアによる時間のかかる処理を行うか、アプリ
ケーションプログラムを変更してトランザクションを用
いるものに変更する等の手間が必要であった。
【0007】本発明は上記実情に鑑みてなされたもので
あり、従来から持つページ管理機構の一部を変更するこ
とにより、新たなハードウェアやアプリケーションプロ
グラムの変更を必要とせずに電源が落ちた場合にも対応
できる高信頼性計算機システムを提供することを目的と
する。
【0008】
【課題を解決するための手段】本発明の高信頼性計算機
システムは、定期的にチェックポイントを採取し、障害
が発生した場合にシステムを直前のチェックポイントの
状態に復元し、その状態からデータ処理を再開するもの
であって、主記憶とページングデバイスとの間でページ
ングされた全ての主記憶メモリページに対してページン
グデバイスを確保する手段と、システムの状態を保存
し、故障発生後に上記保存した状態に戻すためのチェッ
クポイントを採取する際、全ての変更されたページを上
記ページングデバイス上に書き出す手段と、変更された
ページを上記ページングデバイス上に書き出す際、ペー
ジテーブル中のページが変更されていることを示す標識
を消去する手段と、通常のデータ処理中にページアウト
が発生した場合は直前のチェックポイント時のページン
グデバイス上の当該ページの内容を保存しておく手段
と、故障が発生した後に直前のチェックポイント時のメ
モリの状態に戻す際、ページングデバイスに保存された
チェックポイントをメモリにコピーする手段とを具備す
ることを特徴とする。
【0009】また、チェックポイント採取時に変更され
たページをページングデバイス上に書き出す際、先のチ
ェックポイント採取時の内容を保存したままページング
デバイス上の別の領域に全ての変更ページを書き出した
後、先のチェックポイント採取時の内容を廃棄する手段
を更に具備することも特徴とする。
【0010】
【作用】上述した構成において、チェックポイント処理
時に主記憶の内容をページングデバイスまたはメモリ上
のあらかじめ確保された領域に保存しておき、通常のペ
ージアウトが行われる度に、チェックポイント時のペー
ジングデバイスの内容を保存したまま、新しくページン
グデバイス上のページを確保して、そこにページアウト
するもので、常にチェックポイント時の主記憶の内容が
ページングデバイス上またはメモリ上に保存されるよう
になる。
【0011】障害が発生した場合は、チェックポイント
時の主記憶の内容を保存しているページングデバイスま
たはチェックポイント保存用のメモリから主記憶の内容
を回復し、チェックポイント以降にページアウトされた
ページは破棄される。このことにより、障害が発生する
以前に採取したチェックポイント時点の状態に復帰する
ことができ、そこから再実行することにより一過性の故
障を克服することが可能となり、新たなハードウェアや
アプリケーションプログラムの変更を必要とせずに電源
が落ちた場合にも対応できる高信頼性計算機システムを
構築できる。
【0012】
【発明の実施の形態】以下図面を参照して本発明の一実
施形態を説明する。図1は、本発明の一実施形態を示す
ブロック図である。図において、符号10はCPUを含
むメモリ管理ユニット(MMU)であり、仮想アドレス
から物理アドレスへのアドレス変換の他、後述する諸々
のコントロールを行う。
【0013】符号11は主記憶等の物理メモリであり、
プログラム乃至データが格納される他、アドレス変換表
であるページテーブルも割当てられ格納される。符号1
2はディスク等ページングデバイスである。
【0014】符号13は不揮発性メモリであり、チェッ
クポイント時のハードウェア状態が保存される領域14
と、チェックポイント時の物理ページを保存したページ
ングデバイス12中のページ位置が示されるテーブル1
5が割付けられ構成される。
【0015】上述した構成に於いて、メモリ管理ユニッ
ト10を用いてアドレス変更を行ない、ページングデバ
イス12と物理メモリ11の間でページングが行なわれ
る。ページングデバイス12上に物理メモリ11のチェ
ックポイントイメージが保存され、不揮発性記憶装置1
3上に、チェックポイント時の物理ページに対応するペ
ージングデバイス12上のページの位置を示す配列15
とチェックポイント時のハードウェアの状態14が保存
される。
【0016】図2は、本発明による実施形態の動作概念
を示す図である。チェックポイント採取時(a)、通常
のページアウト時(b)、ロールバック時(c)のそれ
ぞれが示されている。図中、図1に示す符号と同一符号
の付されたブロックは図1のそれと同じとする。
【0017】ここでは、全ての物理ページに対するペー
ジングデバイス12上のページを確保し、チェックポイ
ントを採取する時に、全ての物理ページの内容がページ
ングデバイス12上に載るように、前回採取したチェッ
クポイント以降、変更されてその内容がディスクに反映
されていないページはページアウトする。
【0018】通常、データは処理中にページアウトをす
る必要が生じたときには、直前のチェックポイント時の
ページングデバイス12の内容を保存したまま、新たに
ページングデバイス12上のページを確保して、そこに
ページアウトする。
【0019】このことにより、一過性のエラーが起こっ
て直前のチェックポイントから処理を再開する場合に
は、保存しておいたチェックポイント時のページングデ
バイス12の内容からメモリをチェックポイント当時の
状態に復元することができる。
【0020】図3は、上記実施形態を実現する際に使用
するデータの構造である。アドレス空間のバッキングス
トアは、プロセスの仮想アドレス空間の領域毎に、ペー
ジングデバイス12上のファイルとして用意する。バッ
キングストアの情報は、プロセス構造体301からポイ
ンタによって指定されるアドレス空間構造体302につ
なげられるアドレス領域構造体303の中に存在してい
る。
【0021】全てのメモリページに対して、各々一つず
つページ構造体304が存在し、ここにはそのページが
ストアされるべきページングデバイス12上の位置を記
憶する。
【0022】尚、305は、ページをマッピングするた
めに使われているページテーブル内の位置を示す構造
体、306は、ページテーブルエントリ、307、30
8は複数段構成のページテーブル、309は物理ページ
である。
【0023】ページングデバイス12はファイルの形で
用意され、ページングデバイス12を指定するために
は、ノード、ファイル内でのオフセットを用いる。ペー
ジ構造体には、そのページをマッピンクするために使わ
れているページテーブル内の位置を示す構造体のリスト
305をつなげる。
【0024】メモリページがページングデバイス12と
異なっているか否かは、このリスト305を辿ってペー
ジテーブル308を走査し、内蔵する変更ビットがON
しているか否かで調べることができる。
【0025】図4は通常のページアウト処理を示した図
である。ノード405にはページンクデバイス403上
にオリジナルなものがあり、それをメモリ401上にコ
ピーして、メモリ上iノード402として操作を行って
いる。
【0026】ページアウトする際には、ページングデバ
イス12上に新たなページ407を確保してそこにメモ
リ409の内容を書き出し、メモリ11上のiノード4
02のみを変更し、ページテーブルエントリ306を無
効にしてからメモリページ409を解放する。
【0027】また、チェックポイント時のページングデ
バイス12上のページ406は解放せず、そのページの
位置をメモリ11上の配列404に記録しておく。図5
はチェックポイント処理を示す動作概念図である。
【0028】ここに示す例では、図3に示すページ構造
体304を調べて、メモリページ503がページングデ
バイス12上の内容から変更があるか否かを調べ、変更
がある場合は通常のページアウトと同様に、ページング
デバイス12に書き込み、メモリ11上のiノード50
1のみを更新する。
【0029】また、図3で示すページ構造体304か
ら、ページテーブルエントリの位置306を知り、ペー
ジングデバイス12に書いたページ503に対応する変
更ビットを消去する。
【0030】全てのメモリページがページングデバイス
12に反映された後、メモリ11上のiノード501と
同じになるようにページングデバイス12上のiノード
506を更新し、システムの現在状態を示す情報がペー
ジングデバイス12に記録する。
【0031】その一例として、現在メモリ11に載って
いるページが、ページングデバイス12上のどこにある
かを示す配列508がある。そして、通常のページアウ
ト時に保存しておいた、前回のチェックポイント時のペ
ージングデバイス12上のページ509を解放する。
【0032】図6はリカバリ処理を示す動作概念図であ
る。一過性の故障が発生して、直前のチェックポイント
時のメモリに復帰して再実行する際には、ページングデ
バイス12上に置かれている、チェックポイント時の物
理ページを指す配列606の要素が指すページをメモリ
ページ607にコピーする。
【0033】メモリ11上のiノード601は、この時
に上書きされ消えるので、メモリ上のiノードもチェッ
クポイント時の状態に復元される。上述した、(a)通
常のページアウト時の処理、(b)チェックポイント時
の処理、(c)リカバリ時の処理をそれぞれまとめると
以下に示す様になる。 (a)リカバリ処理 1)ページングデバイスに新たなページを確保してペー
ジを書き出す。
【0034】2)メモリ上のiノードのみを変更し、ペ
ージングデバイスには書かない。 3)今まで使用していたページングデバイスのページは
フリーとせず、メモリ上の配列に記録する。 (b)チェックポイント処理 1)ペンディングとなっている割り込みを全て処理し、
全てのプロセスがスリープ状態またはレディ状態になる
ようにする。
【0035】2)スタック等の作業領域を保存対象とな
らないメモリに切り替える。 3)メモリ構造体の配列を走査して、メモリ上で変更さ
れているページをページングデバイスに書き出す。
【0036】4)iノードをディスクに書き込む。 5)従来のチェックポイント時に保存しておいたページ
を解放する。 6)不揮発性の記憶媒体に管理用の、メモリに載ってい
たページのページングデバイス上での位置、リカバリ用
のコードの位置、CPU、メモリ管理ユニット等の設定
情報を書き込む。 (c)リカバリ処理 1)不揮発性記憶媒体上に、メモリ上にあったページの
配列があるので、それを使ってメモリを復元する。
【0037】2)不揮発性記憶媒体上に存在する管理用
情報からCPU、メモリ管理ユニット等の設定を行う。 3)リカバリ用のコードを実行する。
【0038】尚、図4以降、符号401,501,60
1は物理メモリ上のiノード、符号404,505は解
放を延期されているページングデバイス12上のページ
を示す配列、符号405,506,603はページング
デバイス12上のiノード、符号406,407,5−
9,605はページングデバイス12上のページを示
す。
【0039】
【発明の効果】以上説明のように本発明によれば、新た
なハードウェアの追加やアプリケーションプログラムの
変更なしに、従来のページ管理機構の一部を変更するだ
けでチェックポイント時のメモリイメージを安いコスト
で保存することができる。また、電源が落ちた場合にも
対応でき、一層信頼性の向上を図った計算機システムが
提供できる。
【図面の簡単な説明】
【図1】本発明の一実施形態を示すブロック図。
【図2】本発明の実施形態に於ける動作概念を示す図。
【図3】本発明の実施形態を実現する際に使用するデー
タの構造を示す図。
【図4】本発明の実施形態に於けるページアウト処理の
動作概念を示す図。
【図5】本発明の実施形態に於けるチェックポイント処
理の動作概念を示す図。
【図6】本発明の実施形態に於けるリカバリ処理の動作
概念を示す図。
【符号の説明】
10…メモリ管理ユニット、11,401,502,6
02…物理メモリ、12,403,507,604…ペ
ージングデバイス、13…不揮発性メモリ、14…ハー
ドウェア状態保存領域、15,508,606…ページ
位置記録配列。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 定期的にチェックポイントを採取し、障
    害が発生した場合にシステムを直前のチェックポイント
    の状態に復元し、その状態からデータ処理を再開する計
    算機システムであって、主記憶とページングデバイスと
    の間でページングされた全ての主記憶メモリページに対
    してページングデバイスを確保する手段と、システムの
    状態を保存し、故障発生後に保存された状態に戻すため
    のチェックポイントを採取する際、全ての変更されたペ
    ージを上記ページングデバイス上に書き出す手段と、変
    更されたページを上記ページングデバイス上に書き出す
    際、ページテーブル中のページが変更されていることを
    示す標識を消去する手段と、通常のデータ処理中にペー
    ジアウトが発生した場合は直前のチェックポイント時の
    ページングデバイス上の当該ページの内容を保存してお
    く手段と、故障が発生した後に直前のチェックポイント
    時のメモリの状態に戻す際、ページングデバイスに保存
    されたチェックポイントをメモリにコピーする手段とを
    具備することを特徴とする高信頼性計算機システム。
  2. 【請求項2】 チェックポイント採取時に変更されたペ
    ージをページングデバイス上に書き出す際、先のチェッ
    クポイント採取時の内容を保存したままページングデバ
    イス上の別の領域に全ての変更ページを書き出した後、
    先のチェックポイント採取時の内容を廃棄する手段を具
    備することを特徴とする請求項1記載の高信頼性計算機
    システム。
  3. 【請求項3】 定期的にチェックポイントを採取し、障
    害が発生した場合にシステムを直前のチェックポイント
    の状態に復元し、その状態からデータ処理を再開する計
    算機システムにおいて、ページアウトする主記憶ページ
    内容を格納するページングデバイスを、主記憶への常駐
    ページも含め全ての論理ページ分確保するステップと、
    ページテーブル内の標識が更新されている主記憶のペー
    ジをページングデバイスに書き出し、上記ページテーブ
    ル内の当該標識をクリアすることにより、主記憶の状態
    をページングデバイスに保存するチェックポイント採取
    のためのステップと、既にページングデバイス上に保存
    されている当該ページのデータが直前のチェックポイン
    トの状態に対応するものであるとき、そのデータを保存
    する、通常のデータ処理中におけるページアウトのため
    のステップと、チェックポイント時のページテーブルの
    内容をページングデバイスから主記憶にロードし、ペー
    ジテーブルの内容に基づいて、ページングデバイスから
    主記憶に転送する、障害発生による直前のチェックポイ
    ント状態の復元を行うためのステップとを含むことを特
    徴とする高信頼性計算機システム。
  4. 【請求項4】 先のチェックポイント時における各ペー
    ジの内容をページングデバイス上に保存したまま、別の
    記憶領域を使用してページテーブル内の更新標識がセッ
    トされている主記憶上のページをページングデバイスに
    書き出し、上記ページテーブル内の当該更新標識をクリ
    アする上記処理の終了後、先のチェックポイント処理時
    における各ページの内容を廃棄するステップを具備する
    ことを特徴とする請求項3記載の高信頼性計算機システ
    ム。
JP8015667A 1996-01-31 1996-01-31 高信頼性計算機システム Pending JPH09212380A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8015667A JPH09212380A (ja) 1996-01-31 1996-01-31 高信頼性計算機システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8015667A JPH09212380A (ja) 1996-01-31 1996-01-31 高信頼性計算機システム

Publications (1)

Publication Number Publication Date
JPH09212380A true JPH09212380A (ja) 1997-08-15

Family

ID=11895101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8015667A Pending JPH09212380A (ja) 1996-01-31 1996-01-31 高信頼性計算機システム

Country Status (1)

Country Link
JP (1) JPH09212380A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010067266A (ja) * 2008-09-12 2010-03-25 Internatl Business Mach Corp <Ibm> コンピュータ実装方法、周辺装置及びコンピュータ・プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010067266A (ja) * 2008-09-12 2010-03-25 Internatl Business Mach Corp <Ibm> コンピュータ実装方法、周辺装置及びコンピュータ・プログラム
US8612381B2 (en) 2008-09-12 2013-12-17 International Business Machines Corporation Enhanced synchronization framework providing improved sync granularity

Similar Documents

Publication Publication Date Title
JP3197382B2 (ja) データの増分タイム・ゼロ・バックアップ・コピーの方法及びシステム
JP4363676B2 (ja) コンピュータシステム
US8380689B2 (en) Systems and methods for providing nonlinear journaling
US7676691B2 (en) Systems and methods for providing nonlinear journaling
US7752402B2 (en) Systems and methods for allowing incremental journaling
US8356150B2 (en) Systems and methods for providing nonlinear journaling
JP4128641B2 (ja) データ退避方法
KR100238925B1 (ko) 비휘발성 메모리를 갖는 복원 가능 디스크 제어 시스템
US10152416B2 (en) Buffer cache apparatus, journaling file system and journaling method for incorporating journaling features within non-volatile buffer cache
JPH0644010A (ja) タイムゼロ・バックアップ・コピー・プロセスにおける副ファイル状態のポーリングのための方法およびシステム
JP2003223287A (ja) 記憶装置、この記憶装置のバックアップ方法及びプログラム
JPH0823841B2 (ja) データ処理システム及びその方法
JPH11119919A (ja) 記憶システムへのデータ書き込み方法
US9003106B1 (en) Crash consistency
US9335941B1 (en) Crash consistency
CN115705152A (zh) 使用存储器内日志在非易失性存储器装置中的元数据管理
JP3135714B2 (ja) チェックポイントリスタート方式
CN115705153A (zh) 有条件更新和延迟的查找
JPH09212380A (ja) 高信頼性計算機システム
JPH0816881B2 (ja) データベース更新方法
JP2513060B2 (ja) 故障回復型計算機
KR100365891B1 (ko) 주기억장치 상주형 데이터베이스 시스템에서 로그 처리를하지 않는 백업/회복 장치 및 그 방법
JPS63132351A (ja) メモリデ−タベ−ス処理装置
JPH10340215A (ja) データバックアップ方式
JPH09212400A (ja) 耐故障性を備えたファイルシステム