JP3015631B2 - Disk failure automatic recovery processing method - Google Patents

Disk failure automatic recovery processing method

Info

Publication number
JP3015631B2
JP3015631B2 JP5176532A JP17653293A JP3015631B2 JP 3015631 B2 JP3015631 B2 JP 3015631B2 JP 5176532 A JP5176532 A JP 5176532A JP 17653293 A JP17653293 A JP 17653293A JP 3015631 B2 JP3015631 B2 JP 3015631B2
Authority
JP
Japan
Prior art keywords
disk
failure
disk device
multiplexed
automatic recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5176532A
Other languages
Japanese (ja)
Other versions
JPH0736629A (en
Inventor
英次 石橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5176532A priority Critical patent/JP3015631B2/en
Publication of JPH0736629A publication Critical patent/JPH0736629A/en
Application granted granted Critical
Publication of JP3015631B2 publication Critical patent/JP3015631B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は、多重化されたディス
ク装置の障害回復を行うためのディスク障害自動復旧処
理方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a disk failure automatic recovery processing method for recovering a failure of a multiplexed disk device.

【0002】[0002]

【従来の技術】ディスク装置、例えば磁気ディスク装置
の障害対策として、従来より、磁気ディスク装置を冗長
構成とし、同じデータを複数の磁気ディスク装置に書き
込み多重化することにより、信頼性を向上させる方法が
一般に採用されている。このような多重化された磁気デ
ィスク装置は、一般にはミラードディスク装置、或いは
二重化ディスク装置(2台のディスク装置で構成されて
いる場合)などと称されている。
2. Description of the Related Art As a countermeasure against a failure of a disk device, for example, a magnetic disk device, a method of improving reliability by making a magnetic disk device redundant and writing and multiplexing the same data to a plurality of magnetic disk devices. Is generally adopted. Such a multiplexed magnetic disk device is generally called a mirrored disk device, or a duplicated disk device (in the case where it is composed of two disk devices).

【0003】従来、この種の多重化ディスク装置を備え
たシステムにおいて、1つの磁気ディスク装置に障害
(故障)が発生した場合には、次のような手順で障害復
旧処理を実施していた。
Conventionally, when a failure (failure) occurs in one magnetic disk device in a system having such a multiplexed disk device, failure recovery processing has been performed in the following procedure.

【0004】まず障害が発生した磁気ディスク装置をシ
ステム(オンライン状態)から論理的に切り離す。この
切り離しは、自動的に行われる。次に、ハードウェア保
守員によって、障害発生磁気ディスク装置のディスク媒
体の全領域を再フォーマッティングするか、或いは装置
自体を交換した後、多重化ディスク装置中の正常なディ
スク(マスタディスク)から全領域のデータ(マスタデ
ィスクイメ一ジ)をコピーする。そして、全領域のコピ
ー完了時に、該当する装置をシステムに論理的に組み込
むことにより、オンライン状態(ONLINE状態)に
復旧させる。
First, a failed magnetic disk device is logically disconnected from the system (on-line state). This disconnection is performed automatically. Next, after the hardware maintenance personnel reformats the entire area of the disk medium of the failed magnetic disk apparatus or replaces the apparatus itself, the entire area from the normal disk (master disk) in the multiplexed disk apparatus is changed. Data (master disk image). Then, when the copying of the entire area is completed, the corresponding device is logically incorporated into the system to restore the online state (ONLINE state).

【0005】[0005]

【発明が解決しようとする課題】上記したように、多重
化ディスク装置の障害発生時における従来の障害復旧処
理方法では、障害が発生してからオンライン状態に復旧
させるまでに人手による介入が必要なことと、大容量デ
ィスク装置の全領域をコピーする必要があるため、非常
に時間がかかり、その間、多重化ディスク装置はシング
ル運転を余儀なくされ、信頼性が極度に低下するという
問題があった。
As described above, in the conventional failure recovery processing method when a failure occurs in a multiplexed disk device, manual intervention is required until the online state is restored after the failure occurs. In addition, since it is necessary to copy the entire area of the large-capacity disk drive, it takes a very long time. During this time, the multiplexed disk drive is forced to perform a single operation, and the reliability is extremely reduced.

【0006】また、人手による作業を必要とすることか
ら、コストアップを招くという問題もあった。この発明
は上記事情を考慮してなされたものでその目的は、多重
化されたディスク装置の障害発生時における障害復旧
が、自動的に且つ短時間で行えるディスク障害自動復旧
処理方法を提供することにある。
In addition, there is another problem that the cost is increased because manual work is required. SUMMARY OF THE INVENTION The present invention has been made in view of the above circumstances, and has as its object to provide a disk failure automatic recovery processing method that can automatically and quickly recover from a failure when a failure occurs in a multiplexed disk device. It is in.

【0007】[0007]

【課題を解決するための手段】この発明は、多重化ディ
スク装置の障害発生時に、その障害情報からディスク媒
体に起因する障害か否かを判定し、その判定結果に応じ
て障害発生ディスク装置のディスク媒体の障害部位を含
む最小単位で部分フォーマッティングし、この部分フォ
ーマッティングの正常終了後に対応部位のデータのみを
他の正常ディスク装置からコピーして、オンライン状態
に復旧させることを特徴とするものである。
SUMMARY OF THE INVENTION According to the present invention, when a failure occurs in a multiplexed disk device, it is determined whether or not the failure is caused by a disk medium based on the failure information. Partial formatting is performed in a minimum unit including a failed portion of a disk medium, and after the normal completion of the partial formatting, only data of a corresponding portion is copied from another normal disk device and restored to an online state. .

【0008】また、この発明は、上記の部分フォーマッ
ティングの期間に発生する通常のディスク書き込み要求
に対しては、障害発生ディスク装置を含む多重化ディス
ク装置への多重書き込みを行わせ、更に上記のコピーに
ついては、その間に発生する通常のディスク書き込み処
理との排他をとるようにしたことをも特徴とする。
Further, according to the present invention, in response to a normal disk write request generated during the above-mentioned partial formatting, multiplex writing to a multiplexed disk device including a failed disk device is performed, and Is characterized in that exclusive processing is performed with the normal disk writing processing that occurs during the processing.

【0009】[0009]

【作用】一般に、多重化ディスク装置において障害が発
生した場合、その障害発生の内容および障害発生部位等
を含む障害情報がチャネル装置から多重化ディスクアク
セス機構に通知される。
Generally, when a failure occurs in a multiplexed disk device, failure information including the details of the failure occurrence and the location of the failure is reported from the channel device to the multiplexed disk access mechanism.

【0010】そこで、上記の構成においては、チャネル
装置から多重化ディスクアクセス機構に通知された障害
情報をもとに、発生したディスク装置の障害がディスク
媒体に起因するものであるか否かを判定し、ディスク媒
体に起因するものである場合には、ディスク媒体の再フ
ォーマッティングで障害回復が可能であるものとして、
障害発生ディスク装置のディスク媒体の障害部位を含む
最小単位で部分フォーマッティングを行うようにしてい
る。
Therefore, in the above configuration, it is determined based on the failure information notified from the channel device to the multiplexing disk access mechanism whether or not the failure of the generated disk device is caused by the disk medium. However, if the error is caused by the disk medium, it is assumed that the failure can be recovered by reformatting the disk medium.
Partial formatting is performed in a minimum unit including a failed portion of a disk medium of a failed disk device.

【0011】この部分フォーマッティングの結果、該当
部位に書き込んだ内容がエラーなく読み込めるならば、
部分フォーマッティングは正常に終了したものとして、
部分フォーマッティングにて破壊した部位に相当するデ
ータがマスタディスクからコピーされる。
As a result of this partial formatting, if the content written in the relevant portion can be read without error,
Assuming that the partial formatting was completed successfully,
Data corresponding to the part destroyed by the partial formatting is copied from the master disk.

【0012】このコピー完了後、障害発生ディスク装置
の障害が回復されたものとして、当該装置がオンライン
に組み込まれる。以上のように、この発明は、ディスク
装置の障害がディスク媒体に起因するものである場合に
は、再フォーマッティングにより障害回復可能であるこ
とに着目し、このような場合には、障害部位を含む最小
の単位で部分フォーマッティングし、同フォーマッティ
ングが正常終了したならば、対応部位のデータのみを他
の正常ディスク装置からコピーする構成としているの
で、ディスク装置の障害を人手を要さずに回復させて、
オンライン状態に自動的に復旧させることができ、しか
も、部分フォーマッティングによる障害部位を含む最小
単位の障害回復であることから、マスタディスクからの
コピー量も少なくて済み、多重化ディスク装置でのシン
グル運転時間を極小化することが可能となる。
After the copy is completed, the disk drive is installed online assuming that the disk drive in which the failure occurred has been recovered from the failure. As described above, the present invention focuses on the fact that when a failure in a disk device is caused by a disk medium, the failure can be recovered by reformatting. Partial formatting is performed in the minimum unit, and when the formatting is completed normally, only the data of the corresponding part is copied from another normal disk device, so the failure of the disk device can be recovered without human intervention ,
It can be automatically restored to the online state, and since it is the minimum unit of failure recovery including the failed part by partial formatting, the amount of copying from the master disk is small and single operation with multiplexed disk unit Time can be minimized.

【0013】また、上記の部分フォーマッティングの期
間に発生する通常のディスク書き込み要求に対し、障害
発生ディスク装置を含む多重化ディスク装置への多重書
き込みを行わせ、更に上記のコピーについては、その間
に発生する通常のディスク書き込み処理との排他をとる
ならば、ディスク障害回復のための一連の処理の期間も
ディスク書き込み処理を継続することができる。このた
め、ディスク障害回復処理期間中であっても多重化ディ
スク装置としての運転となるので、特に部分フォーマッ
ティング対象部位以外の領域へのディスク書き込みの場
合には、信頼性が一層向上する。また、部分フォーマッ
ティング対象部位へのディスク書き込みの場合でも、コ
ピー処理との排他がとられることから、各ディスク装置
間でデータが不一致となる虞はない。
In addition, in response to a normal disk write request generated during the above-mentioned partial formatting, multiplex writing to a multiplexed disk device including a disk device in which a failure has occurred is performed. If the exclusion is made from the normal disk write processing, the disk write processing can be continued during a series of processing for disk failure recovery. For this reason, even during the disk failure recovery processing period, the operation is performed as a multiplexed disk device, so that the reliability is further improved particularly in the case of writing a disk to an area other than the part to be partially formatted. Also, even in the case of writing a disk to the part to be subjected to partial formatting, since the exclusion is performed with the copy processing, there is no possibility that data will not match between the disk devices.

【0014】[0014]

【実施例】図1はこの発明を適用する二重化磁気ディス
ク装置を備えた情報処理システムの一実施例を示すブロ
ック構成図である。図1において、10はシステムの中
心をなすCPU(中央処理装置)、20は2つの磁気デ
ィスク装置21,22を用いて二重化構成された二重化
磁気ディスク装置、31,32は磁気ディスク装置2
1,22をCPU10に接続するためのチャネル装置で
ある。チャネル装置31,32はCPU10からの要求
を受けて磁気ディスク装置21,22とCPU10との
間のデータ入出力を制御する。
FIG. 1 is a block diagram showing an embodiment of an information processing system provided with a dual magnetic disk drive to which the present invention is applied. In FIG. 1, reference numeral 10 denotes a CPU (central processing unit) which forms the center of the system, reference numeral 20 denotes a duplicated magnetic disk drive configured using two magnetic disk drives 21 and 22, and reference numerals 31 and 32 denote magnetic disk drives 2
This is a channel device for connecting the CPUs 1 and 22 to the CPU 10. The channel devices 31 and 32 receive a request from the CPU 10 and control data input / output between the magnetic disk devices 21 and 22 and the CPU 10.

【0015】CPU10は、多重化ディスクアクセス機
構11、ファイルシステム12、データ処理機構13、
磁気ディスク障害通知機構14、および磁気ディスク自
動復旧処理機構15を有する。
The CPU 10 includes a multiplexed disk access unit 11, a file system 12, a data processing unit 13,
It has a magnetic disk failure notification mechanism 14 and a magnetic disk automatic recovery processing mechanism 15.

【0016】多重化ディスクアクセス機構11は、多重
化ディスクソフトウェアに従うCPU10の処理機能に
より実現されるもので、ファイルシステム12から与え
られたディスク書き込み要求に従い、要求されたデータ
をチャネル装置31,32を通して磁気ディスク装置2
1,22に二重に書き込む処理を司る。また多重化ディ
スクアクセス機構11は、磁気ディスク障害発生時に
は、障害の自動回復の可否を判定し、自動回復が可能な
場合には、その旨を磁気ディスク障害通知機構14に通
知する。
The multiplexed disk access mechanism 11 is realized by a processing function of the CPU 10 according to multiplexed disk software, and in accordance with a disk write request given from the file system 12, transfers the requested data through the channel devices 31 and 32. Magnetic disk drive 2
It is responsible for the process of writing data twice to 1 and 22. When a magnetic disk failure occurs, the multiplexed disk access mechanism 11 determines whether or not the failure can be automatically recovered, and if the automatic recovery is possible, notifies the magnetic disk failure notification mechanism 14 of the fact.

【0017】ファイルシステム12は、データ処理機構
13に対して、ファイルアクセスインタフェースを提供
する。データ処理機構13は、一般アプリケーションプ
ログラムに従うCPU10の処理機能により実現される
もので、磁気ディスクアクセスの要求元となる。
The file system 12 provides the data processing mechanism 13 with a file access interface. The data processing mechanism 13 is realized by a processing function of the CPU 10 according to a general application program, and is a request source of a magnetic disk access.

【0018】磁気ディスク障害通知機構14は、磁気デ
ィスク装置の障害情報を多重化ディスクアクセス機構1
1から得て、磁気ディスク自動復旧処理機構15に通知
する。
The magnetic disk failure notification mechanism 14 multiplexes the failure information of the magnetic disk device with the multiplexed disk access mechanism 1.
1 to notify the magnetic disk automatic recovery processing mechanism 15.

【0019】磁気ディスク自動復旧処理機構15は、磁
気ディスク自動復旧プログラムに従うCPU10の処理
機能により実現されるもので、磁気ディスク障害通知機
構14からの障害発生通知を受けることで磁気ディスク
障害の自動復旧処理を行う。
The magnetic disk automatic recovery processing mechanism 15 is realized by a processing function of the CPU 10 according to a magnetic disk automatic recovery program, and receives a failure occurrence notification from the magnetic disk failure notification mechanism 14 to automatically recover a magnetic disk failure. Perform processing.

【0020】次に、図1のシステムにおける動作を、二
重化磁気ディスク装置20内の磁気ディスク装置21に
障害が発生した場合を例に、図2乃至図4のフローチャ
ートを参照して説明する。なお、図2は多重化ディスク
アクセス機構11での磁気ディスク障害発生時の処理手
順を示すフローチャート、図3は磁気ディスク障害通知
機構14での自動復旧処理の手順を示すフローチャー
ト、図4は多重化ディスクアクセス機構11でのディス
クアクセス処理の手順を示すフローチャートである。
Next, the operation of the system shown in FIG. 1 will be described with reference to the flow charts shown in FIGS. 2 to 4, taking a case where a failure occurs in the magnetic disk device 21 in the duplicated magnetic disk device 20 as an example. 2 is a flowchart showing a processing procedure when a magnetic disk failure occurs in the multiplex disk access mechanism 11, FIG. 3 is a flowchart showing an automatic recovery processing procedure in the magnetic disk failure notification mechanism 14, and FIG. 6 is a flowchart illustrating a procedure of a disk access process in the disk access mechanism 11.

【0021】まず、磁気ディスク装置21の障害の発生
は、チャネル装置31によって検出される。チャネル装
置31は、この磁気ディスク装置21の障害を、障害情
報により多重化ディスクアクセス機構11に通知する。
First, the occurrence of a failure in the magnetic disk device 21 is detected by the channel device 31. The channel device 31 notifies the multiplexed disk access mechanism 11 of the failure of the magnetic disk device 21 using the failure information.

【0022】多重化ディスクアクセス機構11は、この
チャネル装置31からの障害情報により、磁気ディスク
装置21の障害発生を認識する。この障害情報には、
(磁気ディスク装置21の)障害の内容、および障害の
発生部位などの情報が含まれている。
The multiplexed disk access mechanism 11 recognizes the occurrence of a failure in the magnetic disk device 21 based on the failure information from the channel device 31. This fault information includes
Information such as the content of the fault (of the magnetic disk device 21) and the location of the fault is included.

【0023】多重化ディスクアクセス機構11は、チャ
ネル装置31からの障害情報により磁気ディスク装置2
1の障害発生を認識すると、まず、同情報をもとに、デ
ィスク媒体に起因する障害(ディスク読み出し要求に対
する訂正不能なエラーであるディフェクティブエラー)
であるか否かを調べ、ディスク媒体に対する再フォーマ
ッティングで自動回復可能な障害か否かを判定する(図
2ステップS1)。
The multiplexed disk access mechanism 11 uses the failure information from the channel device 31 to
When the occurrence of the failure 1 is recognized, first, based on the information, a failure caused by the disk medium (a defective error which is an uncorrectable error with respect to the disk read request).
Is checked to determine whether or not the failure can be automatically recovered by reformatting the disk medium (step S1 in FIG. 2).

【0024】もし、磁気ディスク装置21の障害がディ
スク媒体に起因しており、したがって自動回復が可能と
判定した場合には、多重化ディスクアクセス機構11
は、データ処理機構13からのディスク読み出し要求の
み禁止状態(これをONLINE状態に復旧させるため
の途中状態であるCOPY状態と呼び、書き込み要求は
禁止されない)とする(図2ステップS2)。
If the failure of the magnetic disk device 21 is caused by the disk medium and it is determined that the automatic recovery is possible, the multiplex disk access mechanism 11
Is a state in which only a disk read request from the data processing mechanism 13 is prohibited (this state is called a COPY state, which is an intermediate state for restoring to the ONLINE state, and a write request is not prohibited) (step S2 in FIG. 2).

【0025】次に多重化ディスクアクセス機構11は、
磁気ディスク障害通知機構14に対して、チャネル装置
31から受け取った障害情報により障害発生を通知する
(図2ステップS3)。すると磁気ディスク障害通知機
構14は、この障害情報により磁気ディスク自動復旧処
理機構15に障害発生を通知し、障害が発生した磁気デ
ィスク装置21に対する自動復旧処理を依頼する。
Next, the multiplexed disk access mechanism 11
The occurrence of a failure is notified to the magnetic disk failure notification mechanism 14 based on the failure information received from the channel device 31 (step S3 in FIG. 2). Then, the magnetic disk failure notification mechanism 14 notifies the magnetic disk automatic recovery processing mechanism 15 of the occurrence of the failure based on the failure information, and requests the magnetic disk device 21 in which the failure has occurred to perform automatic recovery processing.

【0026】なお、ステップS1のチェックで、自動回
復が不可能と判定した場合には、多重化ディスクアクセ
ス機構11は、障害が発生した磁気ディスク装置21を
システムから切り離してOFFLINE状態とする(図
2ステップ4)。この場合、以降の処理は従来と同様と
なる。
If it is determined in the step S1 that automatic recovery is impossible, the multiplexed disk access mechanism 11 disconnects the failed magnetic disk device 21 from the system and sets it in the OFFLINE state (FIG. 4). 2 steps 4). In this case, the subsequent processing is the same as the conventional processing.

【0027】さて、磁気ディスク自動復旧処理機構15
は、磁気ディスク障害通知機構14から障害発生通知を
受け取ると、その障害情報をもとに、障害部位(エラー
発生箇所)を確定し、多重化ディスクアクセス機構11
を介して、障害部位を含む最小単位で障害発生磁気ディ
スク装置21の該当するディスク媒体に対する部分フォ
ーマッティングを試みる(図3ステップS11)。この
部分フォーマッティングでは、エラーセクタを他の正常
なセクタで代替するセクタ代替、欠陥セクタを含むトラ
ックを他の正常なトラックで代替するトラック代替、ま
たは欠陥トラックを含むシリンダを他の正常なシリンダ
で代替するシリンダ代替が行われる。ここでは、同一ト
ラック内のエラーセクタの数が所定数より少ないならば
セクタ代替が行われ、所定数を超えているならばトラッ
ク代替が行われる。また、トラック代替を必要とするト
ラックが所定数を超えているならば、シリンダ代替が行
われる。
Now, the magnetic disk automatic recovery processing mechanism 15
Receives the failure occurrence notification from the magnetic disk failure notification mechanism 14, determines the failure location (error occurrence location) based on the failure information, and
, An attempt is made to perform partial formatting on the corresponding disk medium of the failed magnetic disk device 21 in the minimum unit including the failed part (step S11 in FIG. 3). In this partial formatting, a sector replacement that replaces an error sector with another normal sector, a track replacement that replaces a track containing a defective sector with another normal track, or a cylinder that contains a defective track with another normal cylinder Cylinder replacement is performed. Here, if the number of error sectors in the same track is smaller than a predetermined number, sector replacement is performed, and if the number exceeds the predetermined number, track replacement is performed. If the number of tracks requiring track replacement exceeds a predetermined number, cylinder replacement is performed.

【0028】磁気ディスク自動復旧処理機構15は、上
記ステップS11により、障害部位を含む最小単位で障
害発生磁気ディスク装置21の該当するディスク媒体に
対する部分フォーマッティングを実行した後、フォーマ
ットした範囲のデータが正常に(エラーなく)読み込め
るか否かを、その範囲に対するデータ(テストデータ)
の書き込みと読み出しを行うことにより調べる(図2ス
テップS12)。このステップS12のテストでは、デ
ータ処理機構13からのディスク書き込み要求により、
上記部分フォーマッティング後に、データ(テストデー
タ)が上書きされている可能性があるため、データの内
容まではチェックされない。即ち、ステップS12で
は、単にエラーなく読み込めるか否かがチェックされ
る。
In step S11, the magnetic disk automatic recovery processing mechanism 15 performs partial formatting on the relevant disk medium of the failed magnetic disk device 21 in the minimum unit including the failed part, and then the formatted data is normal. Whether it can be read (without error) in the data for that range (test data)
This is checked by writing and reading (step S12 in FIG. 2). In the test of this step S12, in response to a disk write request from the data processing unit 13,
Since the data (test data) may be overwritten after the partial formatting, the contents of the data are not checked. That is, in step S12, it is checked whether the data can be simply read without error.

【0029】さて、磁気ディスク自動復旧処理機構15
は、ステップS12でのチェックの結果、正常に読み出
せたならば、部分フォーマッティングは成功(正常終
了)したものと判断する。
Now, the magnetic disk automatic recovery processing mechanism 15
If the result of the check in step S12 indicates that the data can be read normally, it is determined that the partial formatting has been successful (normally ended).

【0030】この場合、磁気ディスク自動復旧処理機構
15は、多重化ディスクアクセス機構11を通して、デ
ータ処理機構13からのディスク書き込み要求に対する
ディスク書き込み処理との排他をとり(図3ステップS
13)、先の部分フォーマッティングにて破壊した磁気
ディスク装置21のディスク媒体上の部位に相当するデ
ータを、その時点におけるマスタディスクである磁気デ
ィスク装置22からコピーし、そのコピー後のデータの
正当性を確認する(図3ステップS14)。ここでの排
他占有処理の単位は、例えばセクタに固定されている
が、システムパラメータにより任意に設定することも可
能である。
In this case, the magnetic disk automatic recovery processing mechanism 15 excludes the disk write processing for the disk write request from the data processing mechanism 13 through the multiplexed disk access mechanism 11 (step S in FIG. 3).
13) The data corresponding to the portion on the disk medium of the magnetic disk device 21 destroyed by the previous partial formatting is copied from the magnetic disk device 22 as the master disk at that time, and the validity of the data after the copy is copied. Is confirmed (step S14 in FIG. 3). The unit of the exclusive occupation process here is fixed to, for example, a sector, but can be set arbitrarily by a system parameter.

【0031】磁気ディスク自動復旧処理機構15は、上
記ステップS14にてコピー後のデータの正当性を確認
すると、磁気ディスク装置21の障害が回復したものと
して、同ディスク装置21をシステムに論理的に組み込
むことにより、(COPY状態から)ONLINE状態
に復旧させる。
When the validity of the copied data is confirmed in step S14, the automatic recovery processing mechanism 15 determines that the failure of the magnetic disk device 21 has been recovered and logically transfers the disk device 21 to the system. By incorporating, it is restored to the ONLINE state (from the COPY state).

【0032】次に磁気ディスク自動復旧処理機構15
は、データ処理機構13からのディスク書き込み要求に
対するディスク書き込み処理との排他を解除し(図3ス
テップS15)、処理を終える。
Next, the magnetic disk automatic recovery processing mechanism 15
Releases the exclusion of the disk write processing for the disk write request from the data processing mechanism 13 (step S15 in FIG. 3), and ends the processing.

【0033】なお、ステップS12のチェックの結果、
正常に読み出せなかった場合には、磁気ディスク自動復
旧処理機構15は、部分フォーマッティングは失敗(異
常終了)したものと判断し、障害が発生した磁気ディス
ク装置21をシステムから切り離してOFFLINE状
態とする(図3ステップ16)。この場合、以降の処理
は従来と同様となる。
As a result of the check in step S12,
If the data cannot be read normally, the magnetic disk automatic recovery processing mechanism 15 determines that the partial formatting has failed (abnormal termination), and disconnects the failed magnetic disk device 21 from the system to set it in the OFFLINE state. (Step 16 in FIG. 3). In this case, the subsequent processing is the same as the conventional processing.

【0034】さて、多重化ディスクアクセス機構11
は、ファイルシステム12を通してデータ処理機構13
からのディスクアクセス要求が与えられた場合、図4の
フローチャートに従い、以下に述べるディスクアクセス
処理を行う。
Now, the multiplexed disk access mechanism 11
Is a data processing mechanism 13 through the file system 12.
When a disk access request is given from the server, the following disk access processing is performed according to the flowchart of FIG.

【0035】まず、多重化ディスクアクセス機構11
は、データ処理機構13から与えられたディスクアクセ
ス要求がディスク書き込み要求であるか、或いはディス
ク読み出し要求であるかを判定する(図4ステップS2
1)。
First, the multiplexed disk access mechanism 11
Determines whether the disk access request given from the data processing mechanism 13 is a disk write request or a disk read request (step S2 in FIG. 4).
1).

【0036】もし、ディスク書き込み要求の場合には、
多重化ディスクアクセス機構11は、磁気ディスク自動
復旧処理機構15によるコピー処理との排他をとり(図
4ステップS22)、要求されたデータを磁気ディスク
装置21,22の両方に書き込む(図4ステップS2
3)。次に、多重化ディスクアクセス機構11は、上記
コピー処理との排他を解除し(図4ステップS24)、
要求されたディスク書き込み処理を終了する。なお、磁
気ディスク自動復旧処理機構15が動作状態にない場合
には、上記ステップS22,S24は不要となる。
In the case of a disk write request,
The multiplexed disk access mechanism 11 takes exclusion from the copy processing by the magnetic disk automatic recovery processing mechanism 15 (step S22 in FIG. 4), and writes the requested data to both the magnetic disk devices 21 and 22 (step S2 in FIG. 4).
3). Next, the multiplexed disk access module 11 releases the exclusion from the copy processing (step S24 in FIG. 4),
The requested disk writing process ends. When the magnetic disk automatic recovery processing mechanism 15 is not in the operating state, the above steps S22 and S24 become unnecessary.

【0037】一方、上記ステップS21でディスク読み
出し要求であると判定した場合には、多重化ディスクア
クセス機構11は、磁気ディスク装置21,22のうち
の正常なディスク装置(両方とも正常な場合には、先に
読み出しが可能となるディスク装置)から読み出し処理
を行う(図4ステップS25)。
On the other hand, if it is determined in step S21 that the request is a disk read request, the multiplexed disk access mechanism 11 returns to the normal disk device among the magnetic disk devices 21 and 22 (if both are normal, Then, a read process is performed from a disk device that can be read first (step S25 in FIG. 4).

【0038】以上は、二重化磁気ディスク装置を備えた
情報処理システムに実施した場合について説明したが、
本発明は、複数の光磁気ディスク装置から構成される多
重化ディスク装置、或いは複数の光ディスク装置から構
成される多重化ディスク装置を備えた情報処理システム
にも応用可能である。
The case where the present invention is applied to an information processing system having a dual magnetic disk device has been described above.
The present invention is also applicable to a multiplexed disk device including a plurality of magneto-optical disk devices or an information processing system including a multiplexed disk device including a plurality of optical disk devices.

【0039】[0039]

【発明の効果】以上詳述したようにこの発明によれば、
ディスク装置の障害がディスク媒体に起因するものであ
る場合には、再フォーマッティングにより障害回復可能
であることに着目し、ディスク装置の障害発生を示す障
害情報により、ディスク媒体に起因する障害であると判
定できた場合には、そのディスク媒体に対し、障害部位
を含む最小の単位で部分フォーマッティングを行い、同
フォーマッティングが正常終了したならば、対応部位の
データのみを他の正常ディスク装置からコピーする構成
としたので、ディスク装置の障害を無人で回復させて、
オンライン状態に自動的に復旧させることができ、保守
コストを含めてコストダウンを図ることができる。
As described in detail above, according to the present invention,
When the failure of the disk device is caused by the disk medium, paying attention to the fact that the failure can be recovered by reformatting, the failure information indicating the occurrence of the failure of the disk device indicates that the failure is caused by the disk medium. If the determination is successful, the partial formatting is performed on the disk medium in the minimum unit including the failed part, and when the formatting is completed normally, only the data of the corresponding part is copied from another normal disk device. As a result, the failure of the disk unit was recovered unattended,
The online state can be automatically restored, and costs including maintenance costs can be reduced.

【0040】また、この発明によれば、フォーマッティ
ングによる障害回復が、障害部位を含む最小の単位で行
われることから、フォーマッティングに要する時間およ
びマスタディスクからのコピー量を極力減らして、多重
化ディスク装置でのシングル運転時間を極小化すること
ができるようになり、多重化ディスク装置としての信頼
性を向上することができる。
Further, according to the present invention, since the failure recovery by formatting is performed in the minimum unit including the failed part, the time required for formatting and the amount of copying from the master disk are reduced as much as possible, and , The single operation time can be minimized, and the reliability as a multiplexed disk device can be improved.

【0041】また、この発明によれば、上記の部分フォ
ーマッティングの期間に発生する通常のディスク書き込
み要求に対し、障害発生ディスク装置を含む多重化ディ
スク装置への多重書き込みを行わせ、更に上記のコピー
について、その間に発生する通常のディスク書き込み処
理との排他をとる構成を適用することにより、ディスク
障害回復のための一連の処理の期間も、ディスク書き込
み処理を継続して多重化ディスク装置としての運転とす
ることができるため、特に部分フォーマッティング対象
部位以外の領域へのディスク書き込みの場合には、信頼
性が一層向上する。また、部分フォーマッティング対象
部位へのディスク書き込みの場合でも、コピー処理との
排他をとっていることから、各ディスク装置間でデータ
が不一致となる虞はない。
According to the present invention, in response to a normal disk write request generated during the above-mentioned partial formatting, multiplex writing to a multiplexing disk device including a failed disk device is performed. By applying a configuration that takes exclusion from the normal disk write processing that occurs during this period, the disk write processing can be continued and the operation as a multiplexed disk device can be continued during a series of processing for disk failure recovery. In particular, in the case of writing a disc to an area other than the part to be partially formatted, the reliability is further improved. In addition, even in the case of writing a disc to the target portion for partial formatting, since the exclusion is performed with the copy process, there is no possibility that data will not match between the respective disk devices.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明を適用する二重化磁気ディスク装置を
備えた情報処理システムの一実施例を示すブロック構成
図。
FIG. 1 is a block diagram showing an embodiment of an information processing system including a dual magnetic disk device to which the present invention is applied.

【図2】同実施例における多重化ディスクアクセス機構
11での磁気ディスク障害発生時の処理手順を示すフロ
ーチャート。
FIG. 2 is an exemplary flowchart showing a processing procedure when a magnetic disk failure occurs in the multiplexed disk access mechanism 11 in the embodiment.

【図3】同実施例における磁気ディスク障害通知機構1
4での自動復旧処理の手順を示すフローチャート。
FIG. 3 is a magnetic disk failure notification mechanism 1 according to the embodiment.
9 is a flowchart showing the procedure of the automatic recovery process in FIG.

【図4】同実施例における多重化ディスクアクセス機構
11でのディスクアクセス処理の手順を示すフローチャ
ート。
FIG. 4 is an exemplary flowchart showing the procedure of a disk access process in the multiplexed disk access mechanism 11 according to the embodiment.

【符号の説明】[Explanation of symbols]

10…CPU、11…多重化ディスクアクセス機構、1
2…ファイルシステム、13…データ処理機構、14…
磁気ディスク障害通知機構、15…磁気ディスク自動復
旧処理機構、20…二重化磁気ディスク装置、21,2
2…磁気ディスク装置、31,32…チャネル装置。
10 CPU, 11 multiplexed disk access mechanism, 1
2 ... file system, 13 ... data processing mechanism, 14 ...
Magnetic disk failure notification mechanism, 15: automatic magnetic disk recovery processing mechanism, 20: duplicated magnetic disk drive, 21, 22
2 ... magnetic disk device, 31, 32 ... channel device.

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 多重化されたディスク装置の障害回復を
行うためのディスク障害自動復旧処理方法であって、 ディスク装置の障害発生を示す障害情報からディスク媒
体に起因する障害か否かを判定し、その判定結果に応じ
て障害発生ディスク装置のディスク媒体の障害部位を含
む最小単位で部分フォーマッティングし、この部分フォ
ーマッティングの正常終了後に対応部位のデータのみを
他の正常ディスク装置からコピーして、オンライン状態
に復旧させることを特徴とするディスク障害自動復旧処
理方法。
1. A disk failure automatic recovery processing method for recovering a failure of a multiplexed disk device, comprising determining whether or not a failure is caused by a disk medium from failure information indicating the occurrence of a failure in the disk device. In accordance with the determination result, partial formatting is performed in a minimum unit including a failed portion of the disk medium of the failed disk device, and after the partial formatting is normally completed, only the data of the corresponding portion is copied from another normal disk device, and A disk failure automatic recovery processing method characterized by restoring to a state.
【請求項2】 多重化されたディスク装置の障害回復を
行うためのディスク障害自動復旧処理方法であって、 ディスク装置の障害発生を示す障害情報からディスク媒
体に起因する障害か否かを判定し、その判定結果に応じ
て障害発生ディスク装置のディスク媒体の障害部位を含
む最小単位で部分フォーマッティングすると共に、この
間に発生する通常のディスク書き込み要求に対しては前
記障害発生ディスク装置を含む多重化ディスク装置への
多重書き込みを行わせ、前記部分フォーマッティングの
正常終了後に、通常のディスク書き込み処理との排他を
とりながら、対応部位のデータのみを他の正常ディスク
装置からコピーして、オンライン状態に復旧させること
を特徴とするディスク障害自動復旧処理方法。
2. A disk failure automatic recovery processing method for recovering a failure of a multiplexed disk device, comprising determining whether a failure is caused by a disk medium from failure information indicating the occurrence of a failure in the disk device. In accordance with the result of the determination, the partial formatting is performed in the minimum unit including the failed portion of the disk medium of the failed disk device, and the multiplexed disk including the failed disk device is responded to a normal disk write request generated during this time. Multiple writing to the device is performed, and after the normal completion of the partial formatting, only the data of the corresponding part is copied from the other normal disk device and restored to the online state while taking exclusion from the normal disk writing process. A disk failure automatic recovery processing method characterized by the above-mentioned.
JP5176532A 1993-07-16 1993-07-16 Disk failure automatic recovery processing method Expired - Fee Related JP3015631B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5176532A JP3015631B2 (en) 1993-07-16 1993-07-16 Disk failure automatic recovery processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5176532A JP3015631B2 (en) 1993-07-16 1993-07-16 Disk failure automatic recovery processing method

Publications (2)

Publication Number Publication Date
JPH0736629A JPH0736629A (en) 1995-02-07
JP3015631B2 true JP3015631B2 (en) 2000-03-06

Family

ID=16015261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5176532A Expired - Fee Related JP3015631B2 (en) 1993-07-16 1993-07-16 Disk failure automatic recovery processing method

Country Status (1)

Country Link
JP (1) JP3015631B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007086972A (en) 2005-09-21 2007-04-05 Hitachi Ltd Storage system, duplex control method, and program
JP2017138781A (en) * 2016-02-03 2017-08-10 Necプラットフォームズ株式会社 Disk array controller, storage system, method, and program

Also Published As

Publication number Publication date
JPH0736629A (en) 1995-02-07

Similar Documents

Publication Publication Date Title
US5857208A (en) Method and apparatus for performing point in time backup operation in a computer system
US6883112B2 (en) Storage device, backup and fault tolerant redundant method and computer program code of plurality storage devices
US6092066A (en) Method and apparatus for independent operation of a remote data facility
US6397347B1 (en) Disk array apparatus capable of dealing with an abnormality occurring in one of disk units without delaying operation of the apparatus
US6052758A (en) Interface error detection and isolation in a direct access storage device DASD system
JP3348417B2 (en) Data recovery method in storage system
US6654752B2 (en) Method and apparatus for independent and simultaneous access to a common data set
JP2005322399A (en) Maintenance method of track data integrity in magnetic disk storage device
US20070036055A1 (en) Device, method and program for recovering from media error in disk array device
JPH09269871A (en) Data re-redundancy making system in disk array device
JP3015631B2 (en) Disk failure automatic recovery processing method
JP4012420B2 (en) Magnetic disk device and disk control device
US20060041789A1 (en) Storage system with journaling
JPH10222315A (en) Method and device for error recovery of doubled hard disk drives
JP3944280B2 (en) Failure recovery method and apparatus
JP3090182B2 (en) Alternative sector registration method
JPH0962461A (en) Automatic data restoring method for disk array device
JP2735183B2 (en) Storage control method of computer system
JPS6326407B2 (en)
JP2830840B2 (en) Disk array repair processing method and method
JPH1040022A (en) Magnetic disk controller
JP3139545B2 (en) Duplex recording / reproducing apparatus, method for solving the problem and medium recording the program for solving the problem
JP3412665B2 (en) Disk array device and control method therefor
JP2000330731A (en) Recording medium controller
JPH10289065A (en) Disk array controller

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071217

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081217

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091217

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees