JPH05134936A - 多重化メモリの障害復旧方式 - Google Patents

多重化メモリの障害復旧方式

Info

Publication number
JPH05134936A
JPH05134936A JP3325287A JP32528791A JPH05134936A JP H05134936 A JPH05134936 A JP H05134936A JP 3325287 A JP3325287 A JP 3325287A JP 32528791 A JP32528791 A JP 32528791A JP H05134936 A JPH05134936 A JP H05134936A
Authority
JP
Japan
Prior art keywords
memory
page
failure
fault
faulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3325287A
Other languages
English (en)
Inventor
Kazuo Kumagai
和男 熊谷
Yoshihiro Iwamiya
好宏 岩宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3325287A priority Critical patent/JPH05134936A/ja
Publication of JPH05134936A publication Critical patent/JPH05134936A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【目的】 多重化メモリの障害復旧を経済的且つ信頼性
を損なわずに行なう。 【構成】 多重化された系により構成される複数のペー
ジのうち、いずれの系で障害が発生したかを識別するた
め、障害情報フィールドを備えたメモリ管理テーブルを
用意する。そして、障害ページ管理手段dにより、この
メモリ管理テーブルを用いて障害ページを管理する。こ
れにより、メモリのいずれかの系の交換時に、障害ペー
ジ復旧手段eによりメモリ管理テーブルを参照し、当該
交換の対象となった系以外の系に障害が発生しているペ
ージのみを残してそれ以外のページをすべて復旧させ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、コンピュータシステム
における多重化メモリの障害復旧方式に関するものであ
る。
【0002】
【従来の技術】近年、コンピュータシステムは、高度の
信頼性を要求されるようになり、システムの形態が各コ
ンポーネントで冗長構成をとるものが増えてきている。
例えば、磁気ディスク装置、CPU、メモリ等は、いず
れも二重化されている。メモリの二重化構成をとるシス
テムは、ソフトウェアでは二重化を意識しないものが多
く、それにより、ソフトウェアの汎用性、移植性を高め
ている。メモリの二重化を意識しないということは、二
重化を構成するそれぞれのメモリ基板が同一の物理アド
レスを持つということである。
【0003】メモリは、素子の劣化が起こると、ビット
誤りのデータ障害が発生し易くなる。一般的な仮想記憶
制御を採用するシステムでは、仮想空間と物理空間(メ
モリ)をページという単位で区切って管理しており、メ
モリのデータ障害が発生すると、障害部位を含むメモリ
のページを現在未使用のメモリのページへ代替し、以降
障害ページを使用しないように管理する。非二重化のメ
モリにおいて、最新データが障害ページ上にしかない場
合には、代替不可であるが、二重化メモリでは、正常系
のデータが存在するので、ほぼ完全に代替可能である。
あるいは、代替することなく、正常系のみで運用可能で
ある。
【0004】図2は、二重化メモリの障害状況を示す概
念図である。図示のシステムは、メモリ基板A、Bの2
つの系から成る。メモリ基板A、Bは、それぞれ二重化
されたシステムを構成し、メモリ基板A及びBに共通し
た同一の物理アドレスが割り付けられている。図中のX
は障害部位を示す。図3は、従来の障害管理方式の概念
図である。この図は、図2のシステムに対応した従来の
障害管理方式の概念を示す。メモリ管理テーブルは、エ
ントリC1〜C4から成る。エントリC1〜C4は、物
理アドレス1、4、5、7に対応したエントリで、障害
ページを示すものである。これらは、管理ヘッダCによ
り管理される。
【0005】
【発明が解決しようとする課題】しかしながら、上述し
た従来の技術には、次のような問題があった。即ち、エ
ントリC1〜C4に示される障害ページを復旧させるた
めにメモリ基板を交換しようとしたとき、図2のメモリ
基板A、Bのいずれで障害が発生したかはわからなかっ
た。従って、片方のメモリ基板のみの交換を行なうこと
ができず、図3のエントリC1〜C4のすべてを復旧さ
せるには同時に両方のメモリ基板A及びBを交換する必
要がある。この結果、障害頻度の少ない基板も交換対象
となることになり、障害復旧時のコストが高くなるとい
う問題があった。
【0006】また、メモリ基板A、Bのうちの片方の交
換、例えば図2のメモリ基板Aを交換するのみで、図3
のエントリC1〜C4のすべてを復旧させると、図2の
物理アドレス番号4の障害情報がリセットされることに
なる。従って、再びその物理アドレス番号4の部位で障
害が発生し易くなり、システムの信頼性が低下するとい
う問題があった。本発明は、以上の点に着目してなされ
たもので、コストの上昇や信頼性の低下を除去し、経済
的でかつ高い信頼性を維持できる多重化メモリの障害復
旧方式を提供することを目的とするものである。
【0007】
【課題を解決するための手段】本発明の多重化メモリの
障害復旧方式は、多重化された系により構成されるメモ
リを複数のページに分割し、これらのページのうち、い
ずれの系で障害が発生したかを識別するための障害情報
フィールドを備えたメモリ管理テーブルによって障害ペ
ージを管理し、前記メモリのいずれかの系の交換時に、
前記メモリ管理テーブルを参照し、当該交換の対象とな
った系以外の系に障害が発生しているページのみを残し
てそれ以外のページをすべて復旧させることを特徴とす
るものである。
【0008】
【作用】本発明の多重化メモリの障害復旧方式において
は、多重化された系により構成される複数のページのう
ち、いずれの系で障害が発生したかを識別するため、障
害情報フィールドを備えたメモリ管理テーブルを用意す
る。そして、障害ページ管理手段により、このメモリ管
理テーブルを用いて障害ページを管理する。これによ
り、メモリのいずれかの系の交換時に、障害ページ復旧
手段によりメモリ管理テーブルを参照し、当該交換の対
象となった系以外の系に障害が発生しているページのみ
を残してそれ以外のページをすべて復旧させる。
【0009】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。図1は、本発明の多重化メモリの障害復旧
方式の実施例のブロック図である。図示のシステムは、
プロセッサ10と、メモリ20とから成る。プロセッサ
10においては、メモリ障害検出手段a、ページ代替手
段b、未使用ページ管理手段c、障害ページ管理手段
d、障害ページ復旧手段e等を構成する各種のプログラ
ムが実行される。
【0010】メモリ障害検出手段aは、メモリに発生し
た障害をページごとに検出する。この検出は、例えば、
パリティチェック等により障害が生じたビットが含まれ
ていること等により行なわれる。ページ代替手段bは、
障害の発生した部位を含むページを未使用である正常な
ページに代替する。具体的には、このページ代替手段b
は、ページを単位とした管理テーブル(図示省略)を備
えており、これを基に、代替されるページを割り当て
る。未使用ページ管理手段cは、未使用のページを管理
するためのものである。具体的には、この未使用ページ
管理手段cは、ページを単位とした管理テーブル(図示
省略)を備えており、これを基に、未使用のページを管
理する。
【0011】障害ページ管理手段dは、障害ページを管
理するためのものである。具体的には、この障害ページ
管理手段dは、ページを単位とした図4に示す管理テー
ブルを備えており、これを基に、障害の発生したページ
を管理する。障害ページ復旧手段eは、メモリ基板の交
換を契機として障害ページを復旧する手段である。具体
的には、この障害ページ復旧手段eは、後述する図5に
示す手順に従って、障害ページの復旧を行なう。
【0012】図4は、本発明の障害ページの管理方式を
示す概念図である。この図は、図2と対応した図であ
る。図示の管理テーブルには、エントリD1〜D4と、
管理ヘッドDとがある。エントリD1〜D4は、物理ア
ドレスに対応したメモリ管理テーブルのエントリであ
り、これらのエントリは、障害の発生したページを示す
ものである。例えば、図示の場合には、物理アドレス番
号1、4、5、7のページに障害が発生しており、それ
ぞれ1系、2系、1系、1系にのみ障害が発生している
ことを示す。管理ヘッダDは、各エントリD1〜D4を
管理するものである。
【0013】図3の管理テーブルとの違いは、エントリ
D1〜D4の内部に、系別の障害情報フィールドが設け
られている点である。即ち、例えば、エントリD1は、
メモリ基板1系の障害情報フィールドD11と、2系の
障害情報フィールドD12とを備えている。
【0014】次に、上述したシステムの動作を説明す
る。最初に、メモリの障害の検出からメモリ管理テーブ
ルの障害情報フィールドが設定されるまでを説明する。
図1のメモリ障害検出手段aでは、障害が発生した系
と、その物理アドレスが識別される。そして、この物理
アドレスによって、対応付けらるメモリ管理テーブルの
エントリが決定できる。そして、そのエントリの内部情
報から仮想アドレスが特定できる。それを受けて、ペー
ジ代替手段bでは、未使用ページ管理手段cから未使用
のページを確保し、障害ページの内容を確保した未使用
のページにコピーする。この場合、コピー元は障害が発
生した系とは別の正常な系とする。コピー完了後、コピ
ー先の未使用ページを仮想アドレスにマップし直し、ペ
ージ代替は完了する。
【0015】一方、障害ページについては、障害の発生
した系を示す障害情報フィールドに所定値を設定する。
例えば、障害が発生したことを示す値を“1”、正常を
“0”とする。この情報は、障害ページ管理手段dによ
って参照される。以上が障害ページが図4のように管理
ヘッダDにキューイングされるまでの処理である。次
に、メモリ基板の交換による復旧の手順を図5のフロー
チャートをもとに説明する。
【0016】図5は、本発明による障害ページ復旧手順
を示すフローチャートである。このフローチャートで
は、システム運用中にメモリ基板の抜き出し、挿入が可
能なシステムを前提とする。尚、本発明は、システム停
止時にメモリ基板の抜き出し、挿入を行なう場合にも適
用されるが、システム停止時は、メモリ基板上にデータ
が格納されておらず、メモリ基板は自由に交換でき、交
換後のシステム起動時にデータを初めから入れ直すよう
にするので、問題は生じない。ただ、障害時のメモリ内
容を磁気ディスク等にバックアップしてからシステムを
停止し、システム起動時にバックアップした障害時のデ
ータを入れるようにする場合は、本発明が有効となる。
【0017】まず、交換しようとするメモリ基板を抜き
出して新たなメモリ基板を挿入したとき、そのスロット
番号が通知される。そのスロット番号により、二重化メ
モリの系を識別する(ステップS1)。次に、障害ペー
ジの管理ヘッダ(図4のD)から、障害ページのメモリ
管理テーブルエントリ(D1〜D4)をサーチし、それ
ぞれのエントリの交換対象の系の障害情報フィールドに
障害情報が格納されているかをチェックする(ステップ
S2)。例えば、図2のメモリ基板Aが交換対象のと
き、図4のD1〜D4のうち、1系の障害情報フィール
ドが物理アドレス1のエントリを捜し出す。それが見つ
かったならば、そのエントリの他系のフィールドをチェ
ックし、1系のみの障害か1系2系両方の障害かを調べ
る(ステップS3)。
【0018】1系のみの障害ならば、その障害情報フィ
ールドをクリアして、そのエントリを未使用ページと
し、以降使用可能とする(ステップS4)。両系の障害
ならば、交換系(ここでは1系)の障害情報フィールド
をクリアするのみとする(ステップS5)。S2〜S5
を全障害ページのメモリ管理テーブルエントリに対して
行なう(ステップS6)。以上が、メモリ基板交換によ
る障害復旧の手順である。
【0019】このようにして、システム運用中において
も、図2において、1系のメモリ基板Aだけを交換した
場合に、物理アドレス番号4のページのみを使用不可能
なページとして取扱うことができ、従来と異なり、物理
アドレス番号1、5、7のページは使用可能とすること
ができる。尚、上述した実施例においては、二重化メモ
リとしてメモリ基板を二重化した場合について説明した
が、本発明はこれに限らず、磁気ディスク等のファイル
装置を二重化する場合にも応用することができる。
【0020】
【発明の効果】以上説明したように、本発明の多重化メ
モリの障害復旧方式によれば、多重化メモリの障害が発
生した方の系がいずれの系かを記憶しておき、復旧可能
なページはすべて復旧させるようにしたので、多重化メ
モリの全系を必ずしもすべて交換する必要がなく、障害
頻度の高い系のメモリ基板を交換するだけで、交換対象
となった障害ページのみの復旧を行なうことができる。
このため、システムの運用を経済的に行なうことができ
る。また、交換対象外の系における障害情報は、引き続
き保持されるが、そのページは使用されることはないの
で、信頼性を低下させることがない。
【図面の簡単な説明】
【図1】本発明の二重化メモリの障害復旧方式の実施例
を示すブロック図である。
【図2】二重化メモリの障害状況を示す概念図である。
【図3】従来の障害管理方式の概念図である。
【図4】本発明の障害管理方式の概念図である。
【図5】本発明による障害復旧手順を示すフローチャー
トチャートである。
【符号の説明】
a メモリ障害検出手段 b ページ代替手段 c 未使用ページ管理手段 d 障害ページ管理手段 e 障害ページ復旧手段

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 多重化された系により構成されるメモリ
    を複数のページに分割し、これらのページのうち、いず
    れの系で障害が発生したかを識別するための障害情報フ
    ィールドを備えたメモリ管理テーブルによって障害ペー
    ジを管理し、前記メモリのいずれかの系の交換時に、前
    記メモリ管理テーブルを参照し、当該交換の対象となっ
    た系以外の系に障害が発生しているページのみを残して
    それ以外のページをすべて復旧させることを特徴とする
    多重化メモリの障害復旧方式。
JP3325287A 1991-11-13 1991-11-13 多重化メモリの障害復旧方式 Pending JPH05134936A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3325287A JPH05134936A (ja) 1991-11-13 1991-11-13 多重化メモリの障害復旧方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3325287A JPH05134936A (ja) 1991-11-13 1991-11-13 多重化メモリの障害復旧方式

Publications (1)

Publication Number Publication Date
JPH05134936A true JPH05134936A (ja) 1993-06-01

Family

ID=18175135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3325287A Pending JPH05134936A (ja) 1991-11-13 1991-11-13 多重化メモリの障害復旧方式

Country Status (1)

Country Link
JP (1) JPH05134936A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3420345A1 (de) * 1983-05-31 1984-12-06 Nippondenso Co., Ltd., Kariya, Aichi Kraftstoffeinspritzpumpe

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3420345A1 (de) * 1983-05-31 1984-12-06 Nippondenso Co., Ltd., Kariya, Aichi Kraftstoffeinspritzpumpe
DE3420345C2 (ja) * 1983-05-31 1992-07-02 Toyota Jidosha K.K., Toyota, Aichi, Jp

Similar Documents

Publication Publication Date Title
US7685171B1 (en) Techniques for performing a restoration operation using device scanning
US7185222B2 (en) Apparatus, system, and method for maintaining data in a storage array
US7725704B1 (en) Techniques for performing a prioritized data restoration operation
US6529995B1 (en) Method and apparatus for maintaining and restoring mapping table entries and data in a raid system
US7028216B2 (en) Disk array system and a method of avoiding failure of the disk array system
US7058782B2 (en) Method and apparatus for coordinating dynamic memory deallocation with a redundant bit line steering mechanism
US7984328B1 (en) System and method for reducing unrecoverable media errors
JP3682256B2 (ja) ディスクアレイ装置及び同装置におけるパリティ処理方法
JP3058743B2 (ja) ディスクアレイ制御装置
EP3244315B1 (en) Method and apparatus for performing data recovery in redundant storage system
US7587630B1 (en) Method and system for rapidly recovering data from a “dead” disk in a RAID disk group
US20130055018A1 (en) Detection of logical corruption in persistent storage and automatic recovery therefrom
EP1535154A1 (en) Using file system information in raid data reconstruction and migration
US7793166B2 (en) Methods and systems for recovering meta-data in a cache memory after a corruption event
JPH0731582B2 (ja) パリティ保護データを回復するための方法および装置
JP2006252414A (ja) 記憶装置、その制御方法及びプログラム
JP3681766B2 (ja) ディスクアレイ装置
EP0608344A1 (en) System for backing-up data for rollback
US20050246576A1 (en) Redundant system utilizing remote disk mirroring technique, and initialization method for remote disk mirroring for in the system
JP2007149085A (ja) 接続された装置を構成するための初期設定コードの実行
US6363457B1 (en) Method and system for non-disruptive addition and deletion of logical devices
US20040019824A1 (en) Mirrored extensions to a multiple disk storage system
US7130973B1 (en) Method and apparatus to restore data redundancy and utilize spare storage spaces
US10936206B1 (en) Handling a device in a latency state in a redundant storage system
US7529776B2 (en) Multiple copy track stage recovery in a data storage system