JPH05233466A - Fault recovery system of doubled auxiliary storage device - Google Patents

Fault recovery system of doubled auxiliary storage device

Info

Publication number
JPH05233466A
JPH05233466A JP4032369A JP3236992A JPH05233466A JP H05233466 A JPH05233466 A JP H05233466A JP 4032369 A JP4032369 A JP 4032369A JP 3236992 A JP3236992 A JP 3236992A JP H05233466 A JPH05233466 A JP H05233466A
Authority
JP
Japan
Prior art keywords
storage device
failure
information
auxiliary storage
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4032369A
Other languages
Japanese (ja)
Inventor
Kazuki Sakai
千樹 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4032369A priority Critical patent/JPH05233466A/en
Publication of JPH05233466A publication Critical patent/JPH05233466A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To make a recovery from double fault trouble by preventing input/ output performance from deteriorating owing to the trouble recovery of the doubled auxiliary storage device. CONSTITUTION:If fault occurs when information 15 is read out of the auxiliary storage device 17, this information 15 is read out of the auxiliary storage device 18 and stored in a main storage device 16, and this information is held by an information control part 19 until the fault is removed. A fault acceptance part 11 registers fault information in a fault control table 13. A fault recovery part 12 inspects an input/output table 14 and performs a fault recovering process when there is no input/output request to the auxiliary storage device 17.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、情報処理システムにお
ける二重化した補助記憶装置の障害回復方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a failure recovery system for a redundant auxiliary storage device in an information processing system.

【0002】[0002]

【従来の技術】二重化した補助記憶装置を使用する情報
処理システムでは、同じ情報が二重化された1対の補助
記憶装置のそれぞれに格納される。
2. Description of the Related Art In an information processing system using a duplicated auxiliary storage device, the same information is stored in each of a pair of duplicated auxiliary storage devices.

【0003】従来、このような二重化した補助記憶装置
の一方で発生した障害の回復は、図3に示すような手順
で行なわれていた。まず、障害を発生した補助記憶装置
の媒体の回復処理、すなわち障害箇所の再フォーマット
や交代領域の割当の操作を行う(ステップ32)。続い
て、障害発生箇所に記憶されるべき情報を他方の補助記
憶装置より読み出し、これを障害発生補助記憶装置に書
き込むことによって障害箇所の情報の回復を行なう(ス
テップ33)。
Conventionally, the recovery of a failure that has occurred in one of such dual auxiliary storage devices has been performed by the procedure shown in FIG. First, the recovery processing of the medium of the auxiliary storage device in which the failure has occurred, that is, the reformation of the failed portion and the allocation of the alternate area are performed (step 32). Then, the information to be stored at the failure location is read from the other auxiliary storage device and written into the failure storage device to recover the information at the failure location (step 33).

【0004】なお、この種の障害回復方式に関する公知
例としては、例えば特公平1−244610公報に述べ
られているものがある。
As a publicly known example of this type of failure recovery system, there is, for example, the one described in Japanese Patent Publication No. 1-244610.

【0005】[0005]

【発明が解決しようとする課題】上記従来方式では、障
害発生により失われた一方の補助記憶装置の情報の回復
が完了する以前に、それまで正常に動作していた補助記
憶装置に唯一保持されている情報が2重障害により失わ
れると、処理継続と情報の回復が不能となる。そこで、
これを回避するためには、障害を発生した時点で直ちに
障害回復処理を実行しなければならない。
In the above conventional method, the information stored in the one auxiliary storage device lost due to the occurrence of the failure is stored only in the auxiliary storage device which was normally operating until the completion of the recovery. If the existing information is lost due to a double failure, it becomes impossible to continue processing and recover the information. Therefore,
In order to avoid this, the failure recovery process must be executed immediately when the failure occurs.

【0006】しかし、障害発生時に直ちに障害回復処理
を実行する方式であると、障害が発生した時に通常は発
生しない障害回復処理のための補助記憶装置への入出力
動作が発生するため、障害発生ボリュームへの入出力の
頻度が高くなっている場合に入出力性能が一時的に悪化
するという問題がある。特に、人命や商取引等を預かる
ような一時的な入出力性能の悪化が許されない情報処理
システムが増加するにつれて、上記のような障害回復に
よる一時的な入出力性能の悪化を看過できなくなってぃ
る。
However, in the method of executing the failure recovery processing immediately when a failure occurs, since the input / output operation to the auxiliary storage device for the failure recovery processing, which does not normally occur when the failure occurs, occurs. There is a problem that the input / output performance temporarily deteriorates when the input / output frequency to the volume is high. In particular, as the number of information processing systems that do not allow temporary deterioration of I / O performance such as entrusting human life or commerce, the temporary deterioration of I / O performance due to failure recovery as described above cannot be overlooked. It

【0007】よって本発明の目的は、上記問題点を解決
できる二重化補助記憶装置の障害回復方式を提供するこ
とにある。
Therefore, an object of the present invention is to provide a failure recovery system for a redundant auxiliary storage device which can solve the above problems.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するため
に、本発明は、二重化した補助記憶装置を使用する情報
処理システムにおいて、二重化した補助記憶装置の一方
の補助記憶装置に障害が発生した場合、該障害の発生箇
所に記憶されるべき情報を、該障害の回復処理が終了す
るまで別の記憶装置に保存するとともに、該障害の回復
処理を、該障害発生補助記憶装置に対する入出力要求が
ない時に実行するというものである。
In order to achieve the above object, according to the present invention, in an information processing system using a duplicated auxiliary storage device, a failure occurs in one of the duplicated auxiliary storage devices. In this case, the information to be stored at the location of occurrence of the failure is stored in another storage device until the failure recovery processing is completed, and the failure recovery processing is performed by an input / output request to the failure occurrence auxiliary storage device. It is to be executed when there is no.

【0009】[0009]

【作用】上に述べたように、障害箇所に記憶されるべき
情報が障害回復処理の終了まで他の記憶装置に保存する
ことによって情報の二重化状態を維持するため、その障
害の回復以前に、正常であった補助記憶装置に記憶され
ている情報が二重障害によって失われても障害回復は不
能とならない。その結果、障害発生時点で直ちに障害回
復処理を実行する必要がなくなる。そして、障害を発生
した補助記憶装置に対する入出力要求の処理を、障害回
復処理より優先するため、障害回復処理による入出力性
能の悪化を実質的に回避できる。
As described above, since the information to be stored at the fault location is kept in the other storage device until the end of the fault recovery processing, the information duplication state is maintained. Even if the information stored in the normal auxiliary storage device is lost due to the double failure, the failure recovery is not disabled. As a result, it becomes unnecessary to immediately execute the failure recovery processing when the failure occurs. Since the processing of the input / output request to the auxiliary storage device in which the failure has occurred has priority over the failure recovery processing, the deterioration of the input / output performance due to the failure recovery processing can be substantially avoided.

【0010】[0010]

【実施例】以下、本発明の一実施例について、図1の構
成図と図2のフローチャートとによって説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the configuration diagram of FIG. 1 and the flowchart of FIG.

【0011】本実施例に係る情報処理システムにおいて
は、図1に見られるように二重化した補助記憶装置1
7,18を使用するが、その障害回復に関連して中央処
理装置10に障害受付部11、障害回復部12、障害管
理テーブル13及び情報管理部19を備える。入出力テ
ーブル14と主記憶装置16は障害回復のために追加さ
れたものではないが、障害回復の際に利用されるので図
示されている。
In the information processing system according to this embodiment, as shown in FIG. 1, a dual auxiliary storage device 1 is used.
7 and 18 are used, the central processing unit 10 is provided with a failure reception unit 11, a failure recovery unit 12, a failure management table 13, and an information management unit 19 in connection with the failure recovery. The input / output table 14 and the main storage device 16 are not added for the purpose of failure recovery, but are shown because they are used for failure recovery.

【0012】ここで、障害回復動作の概略は次のとおり
である。例えば一方の補助記憶装置17に障害が発生し
た場合、障害受付部11が障害管理テーブル13へ、そ
の障害情報を登録する。障害回復部12は、障害回復が
必要な補助記憶装置17に対応する装置の入出力テーブ
ル14を監視し、その入出力要求があって、障害回復処
理を実行したのでは入出力性能を維持することが難しい
時には障害回復処理の実行を見送り、入出力要求がなく
なった時点で障害回復処理を実行し、これを完了すると
障害管理テーブル13から障害情報を削除する。また、
情報管理部19では、障害回復が完了するまで入出力を
行った情報15(障害箇所に記憶されるべき情報)を記
憶装置16に保持することにより、二重化状態にない情
報15が新たな障害によって失われないようにする。
The outline of the failure recovery operation is as follows. For example, when a failure occurs in one of the auxiliary storage devices 17, the failure reception unit 11 registers the failure information in the failure management table 13. The failure recovery unit 12 monitors the input / output table 14 of the device corresponding to the auxiliary storage device 17 requiring the failure recovery, and maintains the input / output performance if the failure recovery process is executed due to the input / output request. When it is difficult to do so, the execution of the failure recovery process is postponed, the failure recovery process is executed when there is no input / output request, and when this is completed, the failure information is deleted from the failure management table 13. Also,
The information management unit 19 holds the information 15 (information to be stored at the failure location) that has been input / output until the failure recovery is completed in the storage device 16, so that the information 15 that is not in the duplicated state can be replaced by a new failure. Try not to lose.

【0013】以下、構成と動作を詳細に説明する。障害
管理テーブル13は、障害装置名13aと障害位置13
bと障害部分に記憶されるべき情報15の主記憶装置1
6上の位置13cを格納できる。情報15は、主記憶装
置16の管理上の単位であるページ16aに保持されて
おり、補助記憶装置17,18上に保持されている情報
17a,18aに対応する。主記憶装置16にあるペー
ジと補助記憶装置17,18の情報保持の単位であるレ
コードは、図1においては一対一に対応しているが、シ
ステムによっては、一対多であったり、その大きさが異
なる場合がある。入出力テーブル14は、装置名14a
と各装置への入出力要求の待ち行列14bからなる。
The structure and operation will be described in detail below. The fault management table 13 includes a fault device name 13a and a fault position 13
b and the main memory 1 of the information 15 to be stored in the faulty part
Position 13c on 6 can be stored. The information 15 is held in the page 16a, which is a unit of management of the main storage device 16, and corresponds to the information 17a, 18a held in the auxiliary storage devices 17, 18. A page in the main storage device 16 and a record, which is a unit for holding information in the auxiliary storage devices 17 and 18, have a one-to-one correspondence in FIG. May be different. The input / output table 14 is the device name 14a.
And a queue 14b for input / output requests to each device.

【0014】上記システムにおいて、情報17aを補助
記憶装置17から読みだすときに障害が発生したとす
る。この場合、他方の正常な補助記憶装置18から情報
17aと同じ情報18aが読み出されて主記憶装置16
上のページ16aに情報15として格納される(ステッ
プ22)。
In the above system, it is assumed that a failure occurs when reading the information 17a from the auxiliary storage device 17. In this case, the same information 18a as the information 17a is read from the other normal auxiliary storage device 18 and the main storage device 16
It is stored as information 15 in the upper page 16a (step 22).

【0015】また障害受付部11は、この障害発生を検
知すると、障害情報すなわち障害の発生した補助記憶装
置名13a、障害位置13b、及び情報15の主記憶装
置16上の位置13cとを障害管理テーブル13に登録
し、当該入出力処理を終了する(ステップ23)。ただ
し、障害管理テーブル13に既に同一の障害情報が登録
されていれば、重複を避けるため登録は行わない。
When the failure reception unit 11 detects the occurrence of the failure, it also manages failure information, that is, the auxiliary storage device name 13a in which the failure has occurred, the failure position 13b, and the position 13c of the information 15 on the main storage device 16. The data is registered in the table 13 and the input / output processing is terminated (step 23). However, if the same failure information is already registered in the failure management table 13, registration is not performed to avoid duplication.

【0016】一方、障害回復部12は、障害管理テーブ
ル13を定期的に検査している。そして、障害が登録さ
れている場合、障害が発生した補助記憶装置名13aに
基づき、入出力テーブル14内の対応した装置名14a
に関する入出力要求の待ち行列14bを検査する(ステ
ップ24)。すなわち、この例では補助記憶装置17に
対する入出力要求があるか否かを検査する。待ち行列1
4bに入出力要求があれば、障害回復は見送る。
On the other hand, the fault recovery unit 12 regularly inspects the fault management table 13. Then, when the fault is registered, the corresponding device name 14a in the input / output table 14 is based on the faulty auxiliary storage device name 13a.
Check queue 14b for I / O requests for (step 24). That is, in this example, it is checked whether or not there is an input / output request to the auxiliary storage device 17. Queue 1
If there is an I / O request to 4b, the failure recovery is postponed.

【0017】待ち行列14bが空になっていれば、障害
回復部12は以下の障害回復処理を開始する。まず、障
害の発生した補助記憶装置17の媒体の回復処理、すな
わち障害箇所の再フォーマットや交替領域の割り当てな
どを行う(ステップ25)。次に、主記憶装置15に保
存されている障害に係わる情報15を補助記憶装置17
へ格納し、情報の回復を行う(ステップ26)。最後
に、障害回復の完了した補助記憶装置名13aとその障
害位置13bを障害管理テーブル13から削除する(ス
テップ27)。
If the queue 14b is empty, the failure recovery unit 12 starts the following failure recovery processing. First, the recovery processing of the medium of the auxiliary storage device 17 in which the failure has occurred, that is, reformatting of the failed portion and allocation of the replacement area are performed (step 25). Next, the information 15 relating to the failure stored in the main storage device 15 is stored in the auxiliary storage device 17
And the information is recovered (step 26). Finally, the auxiliary storage device name 13a whose failure recovery has been completed and its failure position 13b are deleted from the failure management table 13 (step 27).

【0018】ただし、このような障害回復処理を開始後
に情報15に対する出力要求が待ち行列14bに登録さ
れた場合には、障害回復処理を中止して、出力要求を優
先する。この場合、次に待ち行列14bが空になった時
点で障害回復処理を再度開始する。なお、情報15が存
在する場合には補助記憶装置17からの入力要求は発生
しない。
However, if an output request for the information 15 is registered in the queue 14b after starting such a failure recovery process, the failure recovery process is stopped and the output request is prioritized. In this case, the failure recovery process is restarted when the queue 14b becomes empty next time. When the information 15 exists, the input request from the auxiliary storage device 17 does not occur.

【0019】情報処理システムにおいては、主記憶装置
16のページは、複数の処理によって使用される。多数
の処理実行要求があり処理実行に必要なだけのページを
確保できない場合、使用されているページのうちあるも
のについては、他の処理がそのページを使用するため
に、補助記憶装置への出力が行われる。したがって、障
害が回復しないうちに情報15のあるページ16aが他
の処理に割り当てられてしまい、情報が補助記憶装置1
8に出力されてしまうと、障害箇所の情報の2重保持状
態が失われ、二重障害の回復を保証できなくなる。
In the information processing system, the page of the main storage device 16 is used by a plurality of processes. When there are a large number of processing execution requests and it is not possible to secure enough pages to execute the processing, some of the used pages are output to the auxiliary storage device in order to be used by other processing. Is done. Therefore, the page 16a having the information 15 is allocated to another process before the failure is recovered, and the information is stored in the auxiliary storage device 1.
If it is output to 8, the double holding state of the information at the failure point is lost, and the recovery from the double failure cannot be guaranteed.

【0020】これを回避するため、情報管理部19は、
障害管理テーブル13に登録された情報位置13cを参
照して、情報15を保持しているページ16aが他の処
理の実行のために使用されることを、障害回復が完了す
るまで抑止する。
In order to avoid this, the information management section 19
By referring to the information position 13c registered in the failure management table 13, the page 16a holding the information 15 is prevented from being used for execution of other processing until failure recovery is completed.

【0021】しかし、情報管理部19は、障害管理テー
ブル13を検査し、障害装置名13aのない情報位置1
3cがあるときには、障害回復が完了したと判断して情
報一13cを障害管理テーブル13から削除し、情報1
5の保護を打ち切る(ステップ28)。
However, the information management unit 19 inspects the failure management table 13 and finds the information position 1 without the failure device name 13a.
When there is 3c, it is judged that the failure recovery is completed, the information 1c is deleted from the failure management table 13, and the information 1
5 protection is terminated (step 28).

【0022】なお、本発明の応用例として、障害発生か
ら障害回復までの間に情報をキャッシュメモリや、障害
の発生していない任意の補助記憶装置に配置する方式が
考えられる。この場合は、主記憶装置上の情報の保護が
不要となり、情報管理部の負担は軽くて済む。ただし、
情報を退避する補助記憶装置に対する他の入出力に影響
を与えないようにするために、この補助記憶装置として
入出力頻度の低いものを確保する必要がある。
As an application example of the present invention, a method of arranging information in a cache memory or an arbitrary auxiliary storage device in which no failure has occurred can be considered between the occurrence of failure and recovery from failure. In this case, it is not necessary to protect the information on the main storage device, and the burden on the information management unit can be reduced. However,
In order not to affect other input / output to / from the auxiliary storage device for saving information, it is necessary to secure the auxiliary storage device having a low input / output frequency.

【0023】[0023]

【発明の効果】以上の説明から理解されるように、本発
明によれば、入出力頻度の高い条件で二重化した補助記
憶装置の一方で障害が発生しても、他の入出力要求がな
くなるまで障害回復処理を行わないため入出力性能の悪
化を防止でき、高負荷で高速かつ均一な性能が必要とさ
れるシステムを実現できる。また、障害発生から障害回
復までの間に生き残っていた補助記憶装置側の情報が障
害(二重障害)により失われた場合でも、障害箇所に記
憶されるべき情報が他の記憶装置に保存されているので
回復不能にならず、補助記憶装置の二重化による高信頼
性を維持できる。
As can be understood from the above description, according to the present invention, even if a failure occurs in one of the duplicated auxiliary storage devices under the condition of high input / output frequency, other input / output requests are eliminated. Since failure recovery processing is not performed up to this point, deterioration of I / O performance can be prevented, and a system with high load, high speed, and uniform performance can be realized. In addition, even if the information on the auxiliary storage device that survived from the occurrence of the failure to the failure recovery is lost due to the failure (double failure), the information to be stored at the failure location is saved in another storage device. Therefore, it is not irrecoverable, and high reliability due to the duplication of the auxiliary storage device can be maintained.

【図面の簡単な説明】[Brief description of drawings]

【図1】二重化した補助記憶装置とその障害回復処理に
関連した構成を示す。
FIG. 1 shows a configuration related to a redundant auxiliary storage device and its failure recovery processing.

【図2】障害回復の手順を示す。FIG. 2 shows a procedure for failure recovery.

【図3】従来の二重化した補助記憶装置の障害回復の手
順を示す。
FIG. 3 shows a procedure for failure recovery of a conventional duplicated auxiliary storage device.

【符号の説明】[Explanation of symbols]

11…障害受付部 12…障害回復部 13…障害管理テーブル 14…入出力テーブル 15…情報 16…記憶装置 17,18…二重化した補助記憶装置 19…情報管理部 11 ... Failure reception section 12 ... Failure recovery section 13 ... Failure management table 14 ... Input / output table 15 ... Information 16 ... Storage device 17, 18 ... Duplicated auxiliary storage device 19 ... Information management section

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 二重化した補助記憶装置を使用する情報
処理システムにおいて、二重化した補助記憶装置の一方
の補助記憶装置に障害が発生した場合に、該障害の発生
箇所に記憶されるべき情報を、該障害の回復処理が終了
するまで別の記憶装置に保存するとともに、該障害の回
復処理を、該障害発生補助記憶装置に対する入出力要求
がない時に実行することを特徴とする二重化補助記憶装
置の障害回復方式。
1. In an information processing system using a duplicated auxiliary storage device, when a failure occurs in one of the duplicated auxiliary storage devices, information to be stored at the location of the failure is provided. A redundant auxiliary storage device, characterized in that it is saved in another storage device until the failure recovery process is completed, and that the failure recovery process is executed when there is no I / O request to the failure occurrence auxiliary storage device. Disaster recovery method.
JP4032369A 1992-02-19 1992-02-19 Fault recovery system of doubled auxiliary storage device Pending JPH05233466A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4032369A JPH05233466A (en) 1992-02-19 1992-02-19 Fault recovery system of doubled auxiliary storage device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4032369A JPH05233466A (en) 1992-02-19 1992-02-19 Fault recovery system of doubled auxiliary storage device

Publications (1)

Publication Number Publication Date
JPH05233466A true JPH05233466A (en) 1993-09-10

Family

ID=12357034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4032369A Pending JPH05233466A (en) 1992-02-19 1992-02-19 Fault recovery system of doubled auxiliary storage device

Country Status (1)

Country Link
JP (1) JPH05233466A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944317A (en) * 1995-07-27 1997-02-14 Nec Software Ltd Registering system for alternate sector
WO2009008053A1 (en) * 2007-07-09 2009-01-15 Fujitsu Limited Disk array device and control program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944317A (en) * 1995-07-27 1997-02-14 Nec Software Ltd Registering system for alternate sector
WO2009008053A1 (en) * 2007-07-09 2009-01-15 Fujitsu Limited Disk array device and control program

Similar Documents

Publication Publication Date Title
US6622263B1 (en) Method and apparatus for achieving system-directed checkpointing without specialized hardware assistance
US5724501A (en) Quick recovery of write cache in a fault tolerant I/O system
US4905196A (en) Method and storage device for saving the computer status during interrupt
JPH10320135A (en) Adaptive power fault recovery system
US6237108B1 (en) Multiprocessor system having redundant shared memory configuration
EP1672506A2 (en) A fault tolerant computer system and a synchronization method for the same
JPH07234808A (en) System dump acquisition system
EP0881569A2 (en) File system and file management method which realize distributed replication in system having shared type raid
JP2003058324A (en) Disk array device
JPH05233466A (en) Fault recovery system of doubled auxiliary storage device
JP2513060B2 (en) Failure recovery type computer
JPS6143739B2 (en)
JPH10340215A (en) Data backup system
JPH0512048A (en) Processing system for taking over inter multiple sub-system processing
JP3340284B2 (en) Redundant system
JPH02118745A (en) Memory back-up device
JPH0259837A (en) Data recovery processing system
JPH0258140A (en) Volume trouble correcting system
JP3709050B2 (en) Data update system
JPH043237A (en) Main storage device protecting system
JPH0362244A (en) Data assurance control system for external semiconductor memory device
JPS6130297B2 (en)
JPH04273516A (en) Magnetic disk device
JPS6130296B2 (en)
JPH09128303A (en) Memory management device