JPH08147112A - Error recovery device for disk array device - Google Patents

Error recovery device for disk array device

Info

Publication number
JPH08147112A
JPH08147112A JP6286189A JP28618994A JPH08147112A JP H08147112 A JPH08147112 A JP H08147112A JP 6286189 A JP6286189 A JP 6286189A JP 28618994 A JP28618994 A JP 28618994A JP H08147112 A JPH08147112 A JP H08147112A
Authority
JP
Japan
Prior art keywords
data
disk
unit
error
initialization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6286189A
Other languages
Japanese (ja)
Inventor
Shigeo Konno
茂生 金野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6286189A priority Critical patent/JPH08147112A/en
Publication of JPH08147112A publication Critical patent/JPH08147112A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE: To efficiently perform the recovery work by automatically performing the recovery processing without requiring hands neither replacement of a disk device by medium initialization of the disk device where a fault occurs. CONSTITUTION: If the frequency in error occurrence of one of disk devices 50 to 57 for data storage and a disk device 58 for redundant information storage in a disk array 5 exceeds a prescribed value, data of the disk device where error occurs is restored into an auxiliary disk device 59 by a first data restoration part 46; and when the restoration operation of this part 46 is completed, a re-initializing part 47 initializes (formats) the medium of the disk device where the error occurs. After initialization of the re-initializing part 47 is completed, a medium check part 48 checks the medium of the disk device where the error occurs. A second data restoration part 49 restores data of the auxiliary disk device 59 into an error disk device when it is discriminated by the medium check part 48 that the medium is normal.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、データ記憶用又はパリ
ティ記憶用のディスク装置の障害発生時に予備ディスク
装置へデータ復元して対応するディスクアレイ装置のエ
ラー回復装置に関し、特に、予備ディスク装置に切り替
えた後にエラーディスク装置の回復動作を試みるように
したディスクアレイ装置のエラー回復装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an error recovery device for a disk array device which restores data to a spare disk device when a failure occurs in the disk device for data storage or parity storage, and more particularly to a spare disk device. The present invention relates to an error recovery device of a disk array device that attempts recovery operation of an error disk device after switching.

【0002】[0002]

【従来の技術】高速化、高性能化が進む近年のコンピュ
ータシステムにおいて、半導体テクノロジの進歩を背景
とした中央処理装置の性能向上は目覚ましいものがあ
り、このため、外部に接続される外部記憶装置に対して
も同様な高性能化が要求されている。この要求に対し
て、機械的動作を伴う磁気ディスク装置の高速化に限界
があるため、複数の磁気ディスク装置でディスクアレイ
を構成してディスクアレイ制御装置に並列接続し、複数
の磁気ディスク装置を並列アクセスしてリード、ライト
動作を行うディスクアレイ装置が提供されている。
2. Description of the Related Art In recent computer systems that are becoming faster and higher in performance, the performance of a central processing unit has been remarkably improved due to the progress of semiconductor technology. The same high performance is required for the. In response to this request, there is a limit to the speedup of the magnetic disk device that involves mechanical operation, so a disk array is configured with multiple magnetic disk devices and connected in parallel to the disk array control device, and multiple magnetic disk devices are 2. Description of the Related Art There is provided a disk array device that performs parallel access to perform read and write operations.

【0003】このようなディスクアレイ装置では、運用
されているディスク装置に対し、予備ディスク装置を設
け、運用ディスク装置の障害時に予備ディスク装置に切
り替えて運用する。図6は従来のディスクアレイ装置で
ある。ディスクアレイ制御装置2は、上位装置1と接続
される上位装置インタフェース制御部3と、ディスクア
レイ5の複数の磁気ディスク装置50〜59と接続され
るデバイス制御部4により構成される。ディスクアレイ
5は、データ記憶用ディスク装置50〜57と冗長情報
記憶用ディスク装置(以下「冗長ディスク装置」とい
う)57を有し、さらに予備ディスク装置59を設けて
いる。
In such a disk array device, a spare disk device is provided for the operating disk device, and the spare disk device is switched to the spare disk device when the operation disk device fails. FIG. 6 shows a conventional disk array device. The disk array controller 2 is composed of a host device interface controller 3 connected to the host device 1 and a device controller 4 connected to the plurality of magnetic disk devices 50 to 59 of the disk array 5. The disk array 5 has data storage disk devices 50 to 57 and a redundant information storage disk device (hereinafter referred to as “redundant disk device”) 57, and further has a spare disk device 59.

【0004】ディスクアレイ制御装置2は、上位装置1
からのデータ転送要求に対して、デバイス制御部4を経
由して磁気ディスク装置50〜58を並列にアクセス
し、リード処理またはライト処理を同時に行う。即ち、
複数のデータ記憶用ディスク装置50〜57にデータが
書き込まれる際に、冗長ディスク装置58に対してパリ
ティデータ等を生成して書込みを行う。パリティは、デ
ータの読出し時に複数のデータ記憶用ディスク内のある
一台の磁気ディスク装置において何らかの障害が発生し
た場合においても、他の正常なディスク装置のデータと
冗長ディスク装置のパリティデータからのデータ復元を
可能としている。
The disk array control device 2 is a host device 1.
In response to a data transfer request from the magnetic disk devices 50 to 58, the magnetic disk devices 50 to 58 are accessed in parallel via the device control unit 4 to simultaneously perform the read process or the write process. That is,
When data is written to the plurality of data storage disk devices 50 to 57, parity data or the like is generated and written to the redundant disk device 58. Parity is the data from the data of other normal disk units and the parity data of redundant disk units even if some failure occurs in one magnetic disk unit in multiple data storage disks when reading data. It is possible to restore.

【0005】また、ディスク装置50〜58の内のある
一台のディスク装置において連続して障害が発生した場
合、デバイス制御部4の指示により障害を起こしたエラ
ーディスク装置を論理ディスクの割当てから切り離して
予備ディスク装置に割り当て、新たに割り当てた予備デ
ィスク装置にエラーディスク装置の全データを復元させ
ている。
Further, when a failure occurs in one of the disk devices 50 to 58 in succession, the error disk device in which the error has occurred is separated from the logical disk allocation according to the instruction from the device control unit 4. All the data of the error disk device is restored to the newly allocated spare disk device.

【0006】予備ディスク装置に対するデータ復元処理
は、オペレータによる指示も可能であるが、通常はディ
スクアレイ制御装置2にてエラーの発生状況を監視し、
エラーの発生がある一定値を越えた場合に自動的にデー
タ復元を開始させている。
The data restoration process for the spare disk device can be instructed by an operator, but normally, the disk array controller 2 monitors the error occurrence status,
Data restoration is started automatically when an error exceeds a certain value.

【0007】[0007]

【発明が解決しようとする課題】ところで、ディスク装
置に発生する障害としては、ディスク装置を構成する部
品等の劣化や不良等によるところが多いが、部品を構成
する材料等の特性やトラックずれ等により訂正不可能な
データチェックが発生することがある。一般にこれらの
データチェック障害は、媒体のイニシャライズ処理(フ
ォーマット処理)により復旧することが可能である。
By the way, most of the failures that occur in the disk device are due to deterioration and defects of the parts that make up the disk device, but due to the characteristics of the materials that make up the parts and the track deviation. Uncorrectable data checks may occur. Generally, these data check failures can be recovered by the initialization process (format process) of the medium.

【0008】しかし、従来装置にあっては、障害を起こ
したディスク装置は新品と交換することを前提としてお
り、媒体のイニシャライズ処理で復旧可能な障害であっ
ても、必ずシステム筐体から障害ディスク装置を外し、
別の試験装置等にセットしてイニシャライズしてみなけ
ればならず、ディスク装置の交換や、イニシャライズの
ための人手による作業を必要としていたため、ディスク
アレイ装置の復旧作業に時間がかかるという問題があっ
た。
However, in the conventional apparatus, it is premised that the failed disk device is replaced with a new one, and even if the failure is recoverable by the initialization processing of the medium, the failed disk must always be removed from the system case. Remove the device,
Since it was necessary to set it in another test device, etc. to initialize it, it required replacement of the disk device and manual work for initialization, so it took time to restore the disk array device. there were.

【0009】本発明は、障害を起こしたディスク装置の
媒体イニシャライズによる回復処理を人手やディスク装
置の交換を必要とすることなく自動的に行って障害発生
に対する復旧作業を効率化して短時間で処理できるよう
にしたディスクアレイ装置のエラー回復装置を提供する
ことを目的とする。
According to the present invention, the recovery process by the media initialization of the failed disk device is automatically performed without the need for manual or replacement of the disk device, and the recovery work for the failure occurrence is made efficient and processed in a short time. It is an object of the present invention to provide an error recovery device for a disk array device that is made possible.

【0010】[0010]

【課題を解決するための手段】図1は本発明の原理説明
図である。まず本発明は、データ記憶用ディスク装置5
0〜57と冗長情報記憶用ディスク装置58を備えたデ
ィスクアレイ5を接続し、上位装置1からのアクセスに
対して複数の磁気ディスク装置50〜58を並列アクセ
スするディスクアレイ制御装置2を有し、更に、ディス
クアレイ5は少なくとも1台の予備ディスク装置59を
備えたディスクアレイ装置を対象とする。
FIG. 1 is a diagram illustrating the principle of the present invention. First, the present invention relates to a data storage disk device 5
0 to 57 and a disk array 5 having a redundant information storage disk device 58 are connected to each other, and a disk array control device 2 for parallelly accessing a plurality of magnetic disk devices 50 to 58 in response to an access from the host device 1 is provided. Further, the disk array 5 is intended for a disk array device having at least one spare disk device 59.

【0011】このようなディスクアレイ装置のエラー回
復装置として本発明にあっては、ディスクアレイ制御装
置2に、第1データ復元部46、再イニシャライズ部4
7、媒体検査部48及び第2データ復元部49を設け
る。第1データ復元部46は、ディスクアレイ5のデー
タ記憶用ディスク装置50〜57及び冗長情報記憶用デ
ィスク装置58のいずれかのエラー発生回数が規定値を
越えた場合に、エラー発生ディスク装置のデータを予備
ディスク装置59に復元する。再イニシャライズ部47
は、第1データ復元部46による復元動作が完了した後
に、エラーディスク装置の媒体をイニシャライズ(フォ
ーマッティング)する。媒体検査部48は、再イニシャ
ライズ部47によるイニシャライズが完了した後に、エ
ラーディスク装置の媒体の検査を行う。第2データ復元
部49は、媒体検査部48により媒体正常が判定された
場合に、予備ディスク装置59のデータをエラーディス
ク装置に復元する。
In the present invention as an error recovery device for such a disk array device, the disk array control device 2 includes a first data restoration unit 46 and a re-initialization unit 4.
7. A medium inspection unit 48 and a second data restoration unit 49 are provided. The first data restoration unit 46, when the number of error occurrences of any one of the data storage disk devices 50 to 57 and the redundant information storage disk device 58 of the disk array 5 exceeds a specified value, the data of the error occurrence disk device. Are restored to the spare disk device 59. Re-initialization part 47
Initializes (formats) the medium of the error disk device after the restoration operation by the first data restoration unit 46 is completed. The medium inspection unit 48 inspects the medium of the error disk device after the initialization by the re-initialization unit 47 is completed. The second data restoration unit 49 restores the data of the spare disk device 59 to the error disk device when the medium inspection unit 48 determines that the medium is normal.

【0012】更に、ディスクアレイ制御装置2に上位報
告部38を設け、第1データ復元部46によるデータ復
元の開始と終了、再イニシャライズ部47による再イニ
シャライズの開始、媒体検査部48による媒体正常判定
に基づく再イニシャライズの終了、第2データ復元部4
9によるデータ復元の開始と終了の各々を、上位装置1
に通知する。
Further, the disk array control device 2 is provided with an upper report section 38, start and end of data restoration by the first data restoration section 46, start of re-initialization by the re-initialization section 47, and medium normality judgment by the medium inspection section 48. Of re-initialization based on the second data restoration unit 4
Each of the start and end of the data restoration by the 9
To notify.

【0013】更に、上位報告部38は、第1データ復元
部46によるデータ復元、再イニシャライズ部47によ
る再イニシャライズ、及び第2データ復元部49による
データ復元の各々について、上位装置1への完了報告か
らの経過時間を監視し、一定時間を越えても上位装置1
又はオペレータからの指示がない場合は、強制的に次の
処理に移行させる。
Further, the upper report unit 38 reports the completion of the data restoration by the first data restoration unit 46, the re-initialization by the re-initialization unit 47, and the data restoration by the second data restoration unit 49 to the higher-level device 1. Monitors the elapsed time from the
Alternatively, if there is no instruction from the operator, the process is forced to shift to the next process.

【0014】更に、ディスクアレイ制御装置2にロギン
グ処理部39を設け、第1データ復元部46によるデー
タ復元、再イニシャライズ部47による再イニシャライ
ズ、及び第2データ復元部49によるデータ復元の各々
の報告内容を、不揮発性記憶部に記憶保持する。
Further, the disk array control device 2 is provided with a logging processing unit 39 for reporting data restoration by the first data restoration unit 46, re-initialization by the re-initialization unit 47, and data restoration by the second data restoration unit 49. The content is stored and held in the nonvolatile storage unit.

【0015】[0015]

【作用】このような本発明によるディスクアレイ装置の
エラー回復装置によれば次の作用が得られる。ディスク
アレイのデータ及び冗長記録用のディスク装置のいずれ
かでエラーが多発してエラー発生回数が規定値を越えた
ときに、自動的に予備ディスク装置へのデータ復元動作
を開始する。このとき上位装置に対してデータ復元の開
始が通知される。予備ディスク装置へのデータ復元動作
が完了すると、上位装置にその旨を報告し、完了報告に
対する指示を時間監視により待つ。
According to the error recovery device of the disk array device of the present invention, the following effects can be obtained. When an error occurs frequently in either the data of the disk array or the disk device for redundant recording and the number of error occurrences exceeds a specified value, the data restoration operation to the spare disk device is automatically started. At this time, the start of data restoration is notified to the host device. When the data restoration operation to the spare disk device is completed, the fact is reported to the upper device and the instruction for the completion report is waited by the time monitoring.

【0016】上位装置またはオペレータからの指示があ
るか、或いは監視時間がオーバフローすると、エラーデ
ィスク装置の再イニシャライズを実施する。再イニシャ
ライズが済むと、次にイニシャライズが済んだ媒体を検
査する検査処理(診断処理)を行う。媒体診断が正常で
あれば、この時点で上位装置に再イニシャライズの完了
を報告し、完了報告に対する指示を時間監視により待
つ。
When there is an instruction from the host device or the operator or when the monitoring time overflows, the error disk device is reinitialized. When the re-initialization is completed, an inspection process (diagnosis process) for inspecting the medium that has been initialized next is performed. If the medium diagnosis is normal, the completion of re-initialization is reported to the host device at this point, and the instruction for the completion report is waited by time monitoring.

【0017】上位装置またはオペレータからの指示があ
るか、或いは監視時間がオーバフローすると、予備ディ
スク装置から再イニシャライズによりエラーの回復した
ディスク装置にデータを復元し、上位装置に対してデー
タ復元完了を通知する。これにより媒体のイニシャライ
ズで回復可能なディスク装置の故障を、ディスク装置を
交換したり人手を必要とすることなく、正常なディスク
装置に回復させることができる。
When there is an instruction from the host device or an operator, or when the monitoring time overflows, data is restored from the spare disk device to the disk device in which the error has been recovered by re-initialization, and the host device is notified of the completion of data restoration. To do. As a result, the failure of the disk device that can be recovered by the initialization of the medium can be recovered to the normal disk device without replacing the disk device or requiring manpower.

【0018】また上位装置からディスクアレイ制御装置
が切り離されても、ロギング処理部によりディスクアレ
イ制御装置の不揮発性記憶部に障害発生に対する復旧状
況及び結果が格納され、ロギング情報として上位装置に
提供することができる。
Even if the disk array control device is disconnected from the host device, the logging processing unit stores the recovery status and the result of the failure occurrence in the non-volatile storage unit of the disk array control device, and provides it to the host device as logging information. be able to.

【0019】[0019]

【実施例】図2は、本発明の一実施例を示したブロック
図である。図2において、本発明のディスクアレイ装置
は、上位装置としてのホストコンピュータ1に接続され
たディスクアレイ制御装置2と、論理デバイスとして複
数のディスク装置50〜59を並列接続したディスクア
レイ5から構成される。ディスクアレイ5は、この実施
例にあっては、データを記憶するための8台の記憶用デ
ィスク装置50〜57、1台のパリティ情報を記憶する
冗長ディスク装置58、および1台の予備ディスク装置
59で構成される。
FIG. 2 is a block diagram showing an embodiment of the present invention. 2, the disk array device of the present invention comprises a disk array control device 2 connected to a host computer 1 as a host device and a disk array 5 in which a plurality of disk devices 50 to 59 are connected in parallel as logical devices. It In this embodiment, the disk array 5 includes eight storage disk devices 50 to 57 for storing data, one redundant disk device 58 for storing parity information, and one spare disk device. It is composed of 59.

【0020】ディスクアレイ装置2は、ホストコンピュ
ータ1と接続される上位インタフェース制御部3と、デ
ィスクアレイ5と接続されるデバイス制御部4で構成さ
れる。上位インタフェース制御部3には、インタフェー
ス制御部31、MPU32、データ転送制御部33、フ
ラグレジスタ35、カウンタ34、不揮発記憶部36が
設けられる。
The disk array device 2 comprises an upper interface control section 3 connected to the host computer 1 and a device control section 4 connected to the disk array 5. The upper interface control unit 3 is provided with an interface control unit 31, an MPU 32, a data transfer control unit 33, a flag register 35, a counter 34, and a non-volatile storage unit 36.

【0021】MPU32は、マイクロプログラム37に
よりホストコンピュータ1からのデータ転送要求に対す
る各種の処理を行い、その処理機能の中に、デバイス制
御部4によるディスクアレイ5の状態、特にエラー回復
処理に伴う各種の状態や結果をホストコンピュータ1に
報告するための上位報告部38と、上位報告部38で報
告するエラー回復の状況や結果を不揮発記憶部36にロ
ギング情報として記憶保持するロギング処理部39の機
能を設けている。更にMPU32には、オペレータ制御
部6が接続され、エラー回復などの各種のメンテナンス
に必要な情報をオペレータがオペレータ制御部6よりM
PU32に指示可能としている。
The MPU 32 performs various processes in response to a data transfer request from the host computer 1 by the microprogram 37, and among its processing functions, various states associated with the state of the disk array 5 by the device control unit 4, particularly error recovery processing. Function of the upper report unit 38 for reporting the status and result of the above to the host computer 1, and the logging processing unit 39 for storing and retaining the error recovery status and result reported by the upper report unit 38 in the nonvolatile storage unit 36 as logging information. Is provided. Further, an operator control unit 6 is connected to the MPU 32 so that the operator can send information necessary for various maintenance such as error recovery from the operator control unit 6 to the M unit 32.
The PU 32 can be instructed.

【0022】デバイス制御部4には、ディスクアレイ制
御部41、MPU42、データ転送制御部43、データ
チェックカウンタ44が設けられる。MPU42は、マ
イクロプログラム45を実行し、上位インタフェース制
御部3のMPU32によるホストコンピュータ1からの
データ転送要求に伴うディスクアレイ5に対するリード
動作またはライト動作、更に本発明のエラー回復のたの
処理動作を行う。
The device control section 4 is provided with a disk array control section 41, an MPU 42, a data transfer control section 43, and a data check counter 44. The MPU 42 executes the microprogram 45 to perform a read operation or a write operation with respect to the disk array 5 in response to a data transfer request from the host computer 1 by the MPU 32 of the host interface control unit 3, and further an error recovery processing operation of the present invention. To do.

【0023】このエラー回復のため、マイクロプログラ
ム45には、第1データ復元部46、再イニシャライズ
部47、媒体検査部48および第2データ復元部49の
各機能が設けられている。データチェックカウンタ44
は、ディスクアレイ5に設けたディスク装置50〜59
ごとにカウンタ領域をもっており、ホストコンピュータ
1からのデータ転送要求に伴うディスクアレイのアクセ
ス時のリード動作で得られた読出データについて、EC
Cにより訂正不可能なエラーを検出したときに障害発生
と判断して、エラーを起こしたディスク装置に対応する
データチェックカウンタ44の値を1つインクリメント
する。
For this error recovery, the microprogram 45 is provided with the respective functions of a first data restoration section 46, a reinitialization section 47, a medium inspection section 48 and a second data restoration section 49. Data check counter 44
Are disk devices 50 to 59 provided in the disk array 5.
Each has a counter area, and the read data obtained by the read operation at the time of accessing the disk array in response to the data transfer request from the host computer 1
When an uncorrectable error is detected by C, it is determined that a failure has occurred, and the value of the data check counter 44 corresponding to the disk device in which the error has occurred is incremented by one.

【0024】第1データ復元部46は、データチェック
カウンタ44の計数値を監視しており、エラー発生回数
が予め定めた規定値に達すると、エラー回数が規定値に
達したディスク装置をエラーディスク装置と判定し、エ
ラー回復処理の対象に指定し、エラーディスク装置のデ
ータを予備ディスク装置59に復元させるためのデータ
復元処理を実行する。
The first data restoring unit 46 monitors the count value of the data check counter 44, and when the number of error occurrences reaches a preset specified value, the disk device whose error count has reached the specified value is set as an error disk. It is determined that the device is a device and is designated as the target of the error recovery process, and the data restoration process for restoring the data of the error disk device to the spare disk device 59 is executed.

【0025】予備ディスク装置59に対するデータ復元
は、エラーディスク装置を除く正常な記憶用ディスク装
置と冗長ディスク装置58の各データを使用して生成す
ることができる。再イニシャライズ部47は、第1デー
タ復元部46で予備ディスク装置59に対するエラーデ
ィスク装置のデータ復元が正常終了した場合のホストコ
ンピュータ1またはオペレータ制御部6からの指示、あ
るいはいずれの指示もない場合は、上位インタフェース
制御部3に設けたカウンタ34による時間監視でオーバ
フローした際に起動し、エラーディスク装置の媒体の再
イニシャライズ、即ち初期化処理としてのフォーマッテ
ィングを実行させる。
Data restoration to the spare disk device 59 can be generated by using each data of the normal storage disk device except the error disk device and the redundant disk device 58. The re-initialization unit 47 gives an instruction from the host computer 1 or the operator control unit 6 when the data restoration of the error disk device to the spare disk device 59 is normally completed by the first data restoration unit 46, or when there is no instruction. The counter 34 provided in the host interface control unit 3 is activated when the time is monitored and overflows, and reinitialization of the medium of the error disk device, that is, formatting as an initialization process is executed.

【0026】媒体検査部48は、再イニシャライズ部4
7によるエラーディスク装置の媒体のイニシャライズが
終了した時点で起動し、イニシャライズが済んだ媒体の
データ面に所定のダミーデータを全面に書き込み、続い
て全面のリードを行って、正常にリードできたか否かの
媒体検査を行う。媒体検査部48による検査が正常に終
了すれば、これで再イニシャライズの完了となる。再イ
ニシャライズの完了は、ホストコンピュータ1およびオ
ペレータ制御部9に報告される。
The medium inspecting unit 48 includes a re-initializing unit 4
Error due to 7) Start up at the point when initialization of the medium of the disk device is completed, write predetermined dummy data on the entire data surface of the initialized medium, and then read the entire surface. Perform the medium inspection. When the inspection by the medium inspection unit 48 is normally completed, the re-initialization is completed. Completion of the re-initialization is reported to the host computer 1 and the operator control unit 9.

【0027】第2データ復元部49は、再イニシャライ
ズ完了後にホストコンピュータ1またはオペレータ制御
部6からの指示、あるいは上位インタフェース制御部3
に設けたカウンタ34による時間監視がオーバフローし
た際に起動し、再イニシャライズが済んで正常に動作可
能な、エラーを起こしたディスク装置に対し、予備のデ
ィスク装置59のデータを復元する。この場合、予備の
ディスク装置59は正常に動作していることから、予備
のディスク装置59のデータをエラー回復が済んだディ
スク装置にコピーすることになる。
The second data restoring section 49 receives an instruction from the host computer 1 or the operator control section 6 or the upper interface control section 3 after the completion of the re-initialization.
When the time monitoring by the counter 34 provided in 1 is overflowed, the data is stored in the spare disk device 59 for the disk device in which an error has occurred, which is activated when it is reinitialized and can operate normally. In this case, since the spare disk device 59 is operating normally, the data of the spare disk device 59 is copied to the disk device for which error recovery has been completed.

【0028】更に、上位インタフェース制御部3のMP
U32の機能として設けた上位報告部38は、デバイス
制御部4のMPU42による第1データ復元部46、再
イニシャライズ部47、媒体検査部48および第2デー
タ復元部49によるエラー回復処理の開始と終了および
その結果をホストコンピュータ1に報告する。なお、再
イニシャライズについては、その開始は再イニシャライ
ズ部47による動作開始を報告し、再イニシャライズの
終了は媒体検査部48による正常終了で再イニシャライ
ズ完了を報告することになる。
Furthermore, the MP of the upper interface control unit 3
The upper report unit 38 provided as a function of U32 starts and ends the error recovery process by the first data restoration unit 46, the re-initialization unit 47, the medium inspection unit 48, and the second data restoration unit 49 by the MPU 42 of the device control unit 4. And the result is reported to the host computer 1. Regarding the re-initialization, the start of the re-initialization is reported by the re-initialization unit 47, and the end of the re-initialization is normally terminated by the medium inspection unit 48, and the completion of the re-initialization is reported.

【0029】上位報告部38は、ホストコンピュータ1
に加えて、必要に応じてオペレータ制御部6にエラー回
復処理の状況および結果を報告することができる。例え
ば、保守要員がディスクアレイ制御装置2についている
場合には、オペレータ制御部6に状況を報告して操作パ
ネルなどに所定のコード番号による状態表示や結果表示
を行い、オペレータのエラー回復に対する指示を待つこ
とができる。
The upper report section 38 is provided for the host computer 1
In addition, the status and result of the error recovery processing can be reported to the operator control unit 6 as necessary. For example, when a maintenance person is attached to the disk array control device 2, the operator is notified of the situation and the operation panel or the like is used to display a status or a result with a predetermined code number to give an instruction to the operator for error recovery. Can wait

【0030】更に上位報告部38は、ホストコンピュー
タ1に対するエラー回復のための各種の動作の開始報告
を行った際に、カウンタ34を起動して時間監視を行
い、カウンタ34の計数値が一定時間後にオーバフロー
すると、ホストコンピュータ1またはオペレータ制御部
6からの指示を待つことなく、MPU42に対し次のエ
ラー回復のための処理への移行を指示する。
Further, when the upper reporting unit 38 reports the start of various operations for error recovery to the host computer 1, it activates the counter 34 and monitors the time, and the count value of the counter 34 remains constant for a certain period of time. If an overflow occurs later, the MPU 42 is instructed to shift to the next error recovery process without waiting for an instruction from the host computer 1 or the operator control unit 6.

【0031】上位報告部38によるホストコンピュータ
1への報告処理は、フラグレジスタ35の状態に応じて
行われる。フラグレジスタ35が1にセットされている
場合、上位報告部38は割込処理によりホストコンピュ
ータ1に対する報告を行う。これに対しフラグレジスタ
35が0にリセットされている場合には、ホストコンピ
ュータ1からのアクセスに対する応答ステータスとして
上位装置への報告を行うことになる。
The reporting process to the host computer 1 by the upper report unit 38 is performed according to the state of the flag register 35. When the flag register 35 is set to 1, the upper report unit 38 reports to the host computer 1 by interrupt processing. On the other hand, when the flag register 35 is reset to 0, the response to the access from the host computer 1 is reported to the host device.

【0032】即ち、ディスクアレイ制御装置2がホスト
コンピュータ1から切り離されている状態では、フラグ
レジスタ35は1にセットされており、この状態では割
込みによりホストコンピュータ1への報告が行われる。
一方、ホストコンピュータ1とディスクアレイ制御装置
2が結合されてデータ転送中にあっては、例えば転送終
了時のステータス情報に含めて上位装置への報告を行う
ようになる。
That is, when the disk array controller 2 is disconnected from the host computer 1, the flag register 35 is set to 1. In this state, the interrupt is reported to the host computer 1.
On the other hand, when the host computer 1 and the disk array control device 2 are connected and data is being transferred, for example, the status information at the end of the transfer is included in the report to the higher-level device.

【0033】図3は、図2のディスクアレイ制御装置2
によるデータ転送処理の概略である。まずステップS1
で、上位インタフェース制御部3のMPU32がホスト
コンピュータ1からのデータ転送による入出力要求の有
無をチェックしている。入出力要求があると、ステップ
S2に進み、デバイス制御部4のMPU42に対しリー
ドコマンドまたはライトコマンドを発行し、ディスクア
レイ制御部41を介して、ディスクアレイ5の記憶用デ
ィスク装置50〜57、更に冗長ディスク装置58の並
列アクセスによるステップS2のリード動作またはライ
ト動作を行う。
FIG. 3 shows the disk array controller 2 of FIG.
2 is a schematic diagram of a data transfer process by. First, step S1
Then, the MPU 32 of the host interface control unit 3 checks whether or not there is an input / output request from the host computer 1 due to data transfer. When there is an input / output request, the process proceeds to step S2, where a read command or a write command is issued to the MPU 42 of the device control unit 4, and the storage disk devices 50 to 57 of the disk array 5 are issued via the disk array control unit 41. Further, the read operation or the write operation of step S2 is performed by the parallel access of the redundant disk device 58.

【0034】例えば、ホストコンピュータ1からのライ
トデータの転送要求に対しては、チャネルインタフェー
ス制御部31、データ転送制御部33、データ転送制御
部43、ディスクアレイ制御部41を経由して、記憶用
ディスク装置50〜57に対するデータ書込みおよび冗
長ディスク装置58に対するパリティデータの書込みが
行われる。
For example, in response to a write data transfer request from the host computer 1, the data is stored via the channel interface controller 31, the data transfer controller 33, the data transfer controller 43, and the disk array controller 41. Data is written to the disk devices 50 to 57 and parity data is written to the redundant disk device 58.

【0035】また、ホストコンピュータ1からのリード
データ転送要求に対しては、ディスクアレイ5の記憶用
ディスク装置50〜57よりデータの読出しを行い、デ
ィスクアレイ制御部41、データ転送制御部43、デー
タ転送制御部33、チャネルインタフェース制御部31
を経由して、ホストコンピュータに要求データを転送す
る。
Further, in response to a read data transfer request from the host computer 1, data is read from the storage disk devices 50 to 57 of the disk array 5, and the disk array controller 41, the data transfer controller 43, and the data are transferred. Transfer control unit 33, channel interface control unit 31
The requested data is transferred to the host computer via.

【0036】次にステップS3で、ディスクアレイ5の
運用中のディスク装置において、訂正不可能なエラーが
発生したディスクがあるか否かチェックする。もし訂正
不可能なエラーを発生したディスク装置があれば、ステ
ップS4に進み、MPU42がデータチェックカウンタ
44の対応するカウンタエリアのエラー発生回数を1つ
インクリメントする。
Next, in step S3, it is checked whether or not there is a disk in which an uncorrectable error has occurred in the disk device in operation of the disk array 5. If there is a disk device that has generated an uncorrectable error, the process proceeds to step S4, and the MPU 42 increments the error occurrence count of the corresponding counter area of the data check counter 44 by one.

【0037】次にステップS5で、データチェックカウ
ンタ44の値の中に予め定めた規定値を越えるエラー発
生回数のディスク装置があるか否かチェックする。もし
規定値を越えるエラー発生回数のディスク装置があれ
ば、そのディスク装置をエラーディスクと判定し、ステ
ップS6のエラー処理に進む。図4および図5は、図3
のステップS6の本発明によるエラー処理の詳細であ
る。このエラー処理について、図2のディスクアレイ5
に設けている記憶用ディスク装置50のエラー発生回数
が規定値に達してエラーディスクと判定された場合を例
にとって説明する。
Next, in step S5, it is checked whether or not there is a disk device having the number of error occurrences exceeding the predetermined value in the value of the data check counter 44. If there is a disk device with the number of error occurrences exceeding the specified value, the disk device is determined to be an error disk and the process proceeds to the error processing of step S6. 4 and FIG.
4 is a detail of the error processing according to the present invention in step S6 of FIG. Regarding this error processing, the disk array 5 of FIG.
An example will be described in which the number of error occurrences of the storage disk device 50 provided in FIG.

【0038】MPU42において、記憶用ディスク装置
50のデータチェックカウンタ44の値が規定値に達す
ると、エラーディスクと判定して、MPU32に障害通
知報告を行う。この障害通知報告を受けたMPU32
は、MPU42に対し、図4のステップS1に示すよう
に、エラーディスク装置50のデータを予備ディスク装
置59に復元させるためのデータ復元処理の開始を指示
する。
In the MPU 42, when the value of the data check counter 44 of the storage disk device 50 reaches a specified value, it is determined that the disk is an error disk and a failure notification report is sent to the MPU 32. MPU32 that received this failure notification report
Instructs the MPU 42 to start a data restoration process for restoring the data of the error disk device 50 to the spare disk device 59, as shown in step S1 of FIG.

【0039】同時にMPU32は、上位報告部38の機
能によりホストコンピュータ1に対しデータ復元処理が
開始されたことを、ステップS2のように報告する。こ
のときMPU32は、フラグレジスタ35の状態をチェ
ックし、フラグレジスタ35が1にセットされていれ
ば、割込みによりホストコンピュータ1にデータ復元処
理の開始を報告し、一方、フラグが0にリセットされて
いれば、現在行われているホストコンピュータ1からの
アクセス終了に伴うステータス情報に含めてデータ復元
処理の開始を報告する。
At the same time, the MPU 32 reports to the host computer 1 that the data restoration process has been started by the function of the upper report unit 38, as in step S2. At this time, the MPU 32 checks the state of the flag register 35, and if the flag register 35 is set to 1, it reports the start of the data restoration process to the host computer 1 by an interrupt, while the flag is reset to 0. If this is the case, the start of the data restoration process is reported by including it in the status information that accompanies the current access from the host computer 1.

【0040】MPU32からのデータ復元開始の指示を
受けたMPU42は、第1データ復元部46の機能によ
り、ディスクアレイ制御部41を介してエラーディスク
装置50のデータを予備ディスク装置59に復元するた
めの復元処理を開始させる。このデータ復元処理は、エ
ラーディスク装置50を除いた正常な記憶用ディスク装
置51〜57の各データと冗長ディスク装置58のパリ
ティデータに基づいて生成することができる。
The MPU 42, which has received the data restoration start instruction from the MPU 32, restores the data of the error disk device 50 to the spare disk device 59 via the disk array control unit 41 by the function of the first data restoring unit 46. Start the restoration process of. This data restoration process can be generated based on each data of the normal storage disk devices 51 to 57 excluding the error disk device 50 and the parity data of the redundant disk device 58.

【0041】予備ディスク装置59に対するエラーディ
スク装置50の全てのデータが復元して正常終了がステ
ップS3で判別されると、ステップS4に進み、MPU
42はMPU32にデータ復元の完了報告を行う。これ
を受けてMPU32は、そのときのフラグレジスタ35
の状態を参照しながら、ホストコンピュータ1に対する
データ復元完了報告を行う。
When all the data in the error disk device 50 for the spare disk device 59 has been restored and normal termination is determined in step S3, the process proceeds to step S4 and the MPU
42 reports the completion of data restoration to the MPU 32. In response to this, the MPU 32 receives the flag register 35 at that time.
The data restoration completion report to the host computer 1 is issued while referring to the state of.

【0042】MPU32は、ホストコンピュータ1に対
するデータ完了報告を終わると、ステップS5で、ホス
トコンピュータ1からの確認応答を待っており、確認応
答が得られて初めて報告完了と判断し、次のステップS
6に進む。このホストコンピュータ1からの確認応答待
ちの間は、ステップS6でロギング処理部39を起動
し、不揮発記憶部36に予備ディスク装置59に対する
データ復元完了の状態を記録する内部ロギング処理を行
う。
After completing the data completion report to the host computer 1, the MPU 32 waits for the confirmation response from the host computer 1 in step S5, and judges that the report is completed only when the confirmation response is obtained, and the next step S5.
Proceed to 6. While waiting for the confirmation response from the host computer 1, the logging processing unit 39 is activated in step S6, and an internal logging process for recording the state of data restoration completion for the spare disk device 59 in the non-volatile storage unit 36 is performed.

【0043】ステップS5で、ホストコンピュータ1か
ら正常に確認応答が得られて報告完了になると、ステッ
プS6に進み、MPU32はカウンタ34を起動して時
間監視を開始する。カウンタ34は、予め定めた所定時
間を経過するとオーバフローして、監視時間が終了した
ことを表わす。カウンタ34がオーバフローする監視時
間以内に、ホストコンピュータ1またはオペレータ制御
部6より再イニシャライズの指示があれば、次のステッ
プS7の処理に進む。また再イニシャライズの指示がな
くとも、カウンタ34がオーバフローした時点でMPU
42に再イニシャライズを指示することになる。
When the confirmation response is normally obtained from the host computer 1 and the report is completed in step S5, the process proceeds to step S6, in which the MPU 32 activates the counter 34 and starts the time monitoring. The counter 34 overflows after a lapse of a predetermined time, and indicates that the monitoring time has ended. If there is a re-initialization instruction from the host computer 1 or the operator control unit 6 within the monitoring time when the counter 34 overflows, the process proceeds to the next step S7. Even if there is no instruction for re-initialization, the MPU will be released when the counter 34 overflows.
42 will be instructed to re-initialize.

【0044】MPU42は、MPU32によるホストコ
ンピュータ1またはオペレータ制御部6による指示に基
づいた再イニシャライズ、あるいは指示がないときのカ
ウンタ34のオーバフローに基づく再イニシャライズの
指示を受け、ステップS7で、エラーディスク装置50
の媒体の再イニシャライズを指示する。この指示を受け
て、ディスクアレイ制御部41を介してエラーディスク
装置50は、工場出荷時と同様に媒体のフォーマッティ
ングを再度やり直すイニシャライズ動作を開始する。
The MPU 42 receives a reinitialization instruction based on an instruction from the host computer 1 or the operator control unit 6 by the MPU 32, or a reinitialization instruction based on the overflow of the counter 34 when there is no instruction. Fifty
To re-initialize the medium. In response to this instruction, the error disk device 50 starts the initialization operation for re-forming the formatting of the medium again via the disk array control unit 41 as in the factory shipment.

【0045】エラーディスク装置50の再イニシャライ
ズの正常終了がステップS8で判別されると、MPU4
2は、続いてエラーディスク装置50に対し、ステップ
S9で、再イニシャライズが済んだ媒体のデータ領域全
面にダミーデータを書き込んだ後に全面をリードして、
リード結果をチェックする媒体検査処理の開始を指示す
る。
When it is determined in step S8 that the reinitialization of the error disk device 50 is normally completed, the MPU4
In step S9, the dummy disk 2 is written to the entire data area of the re-initialized medium, and then the entire surface of the error disk device 50 is read.
Instruct to start the medium inspection process for checking the read result.

【0046】続いてステップS10で、エラーディスク
装置50における媒体検査処理の正常終了がMPU42
で判別されると、MPU42はMPU32に再イニシャ
ライズ処理の完了を報告する。これを受けてMPU32
は、そのときのフラグレジスタ35の状態に応じてホス
トコンピュータ1に対し再イニシャライズ処理の完了報
告をステップS11のように行う。
Subsequently, in step S10, the MPU 42 indicates that the medium inspection process in the error disk device 50 is normally completed.
When the determination is made in step 3, the MPU 42 reports the completion of the re-initialization process to the MPU 32. In response to this, MPU32
Responds to the host computer 1 according to the state of the flag register 35 at that time to report the completion of the re-initialization process as in step S11.

【0047】再イニシャライズ処理の完了報告に対し、
次のステップS12で、ホストコンピュータ1より確認
応答があるか否か監視しており、その間に、ステップS
22で、再イニシャライズ処理の完了を不揮発記憶部3
6に内部ロギング処理として記憶保持させる。ホストコ
ンピュータ1より確認応答を受けてステップS12で報
告完了が判別されると、ステップS13で、MPU32
はカウンタ34をリセットして再度スタートし、ホスト
コンピュータ1またはオペレータ制御部6からの指示を
受けるための時間監視を開始する。カウンタ34がオー
バフローする前に指示があれば、図5のステップS14
に進む。指示がなくとも、ステップS23で一定時間後
にカウンタ34がオーバフローすれば、図5のステップ
S14に進む。
In response to the completion report of the re-initialization process,
In the next step S12, it is monitored whether or not there is a confirmation response from the host computer 1, and in the meantime, in step S12.
In step 22, the completion of the re-initialization process is confirmed by the nonvolatile storage unit 3
6 is stored and held as internal logging processing. When the completion of the report is determined in step S12 in response to the confirmation response from the host computer 1, the MPU 32 is determined in step S13.
Resets the counter 34 and restarts it, and starts time monitoring for receiving an instruction from the host computer 1 or the operator control unit 6. If there is an instruction before the counter 34 overflows, step S14 in FIG.
Proceed to. Even if there is no instruction, if the counter 34 overflows after a certain time in step S23, the process proceeds to step S14 in FIG.

【0048】図5のステップS14にあっては、ホスト
コンピュータ1またはオペレータ制御部6からの指示あ
るいはこの指示がなくとも、カウンタ34のオーバフロ
ーに基づき、再イニシャライズが正常終了したエラーを
起こしたディスク装置50に対する予備ディスク装置5
9からのデータ復元指示をMPU42に対し行い、デー
タ復元処理が開始される。
In step S14 of FIG. 5, even if there is no instruction from the host computer 1 or the operator control section 6 or there is no such instruction, the disk device in which the error that the re-initialization is normally completed is caused based on the overflow of the counter 34. Spare disk device 5 for 50
The data restoration instruction from the MPU 9 is given to the MPU 42, and the data restoration process is started.

【0049】続いて、予備ディスク装置59のデータの
ディスク装置50に対するエラー回復の正常終了をステ
ップS15でMPU42が判別すると、このデータ回復
処理の正常終了をMPU32に通知する。MPU32
は、そのときのフラグレジスタ35の状態に応じホスト
コンピュータ1に、エラーを起こしたディスク装置50
の復旧処理の完了報告をステップS16のように行う。
Then, when the MPU 42 determines in step S15 that the error recovery of the data of the spare disk device 59 to the disk device 50 is normally completed, the MPU 32 is notified of the normal completion of the data recovery process. MPU32
Depending on the state of the flag register 35 at that time
The completion report of the recovery process is performed as in step S16.

【0050】続いてステップS17で、ホストコンピュ
ータ1からの確認応答を待っており、その間にステップ
S25で、不揮発記憶部36に、エラーを起こしたディ
スク装置50が回復してデータ復元が完了したことを記
録する内部ロギング処理を行う。ホストコンピュータ1
より復旧処理の完了報告に対する確認応答がステップS
17で判別されると、一連のエラー発生に伴う回復処理
を終了し、図3のメインルーチンにリターンする。
Subsequently, in step S17, the confirmation response from the host computer 1 is waited, and in the meantime, in step S25, the disk device 50 in which the error has occurred is recovered in the non-volatile storage unit 36 and the data restoration is completed. Performs an internal logging process that records Host computer 1
A confirmation response to the completion report of the restoration process is sent in step S.
When the determination is made in 17, the recovery process associated with the occurrence of a series of errors is ended, and the process returns to the main routine of FIG.

【0051】一方、ステップS3で、予備ディスク装置
59に対するエラーディスク装置50のデータ復元が正
常終了できなかった場合には、予備ディスク装置59に
障害があることから、ステップS18のエラー処理に進
む。この場合には、エラーディスク装置50に加えて予
備ディスク装置59を交換し、必要なデータ復元処理を
行う。
On the other hand, in step S3, when the data restoration of the error disk device 50 to the spare disk device 59 cannot be normally completed, there is a failure in the spare disk device 59, and the process proceeds to the error processing of step S18. In this case, the spare disk device 59 is replaced in addition to the error disk device 50, and the necessary data restoration processing is performed.

【0052】またステップS8で再イニシャライズが正
常終了しなかったり、ステップS10で媒体検査処理が
正常終了しなかった場合には、ステップS21で、エラ
ーディスク装置50は再イニシャライズを行っても使用
できない障害を起こしているものと判断し、エラーディ
スク装置50の交換によるエラー処理を行う。更に、ス
テップS15において、再イニシャライズ完了後のエラ
ーを起こしたディスク装置への予備ディスク装置59か
らのデータ復元が正常終了できなかった場合には、ステ
ップS24で、ディスク装置50に再イニシャライズで
は回復できない別の障害が発生したものと判断し、ディ
スク装置50を交換するエラー処理を行うことになる。
If the re-initialization does not end normally in step S8 or the medium inspection process does not end normally in step S10, the error disk device 50 cannot be used even if re-initialization is performed in step S21. The error processing is performed by replacing the error disk device 50. Further, in step S15, if the data restoration from the spare disk device 59 to the disk device in which the error occurred after the completion of the re-initialization cannot be normally completed, the disk device 50 cannot be recovered by the re-initialization in step S24. It is determined that another failure has occurred, and error processing for replacing the disk device 50 is performed.

【0053】尚、上記の実施例は、磁気ディスク装置を
用いたディスクアレイを例にとっているが、光ディスク
装置、半導体メモリ装置など適宜の物理デバイスを用い
たアレイ装置に適用できる。また、ディスクアレイ5に
設けた記憶用ディスク装置の台数は、必要に応じて適宜
に定めることができる。また、実施例のディスクアレイ
5は1ランク構成を例にとっているが、並列構成を多段
階に設けた複数ランク構成としてもよい。
Although the above-mentioned embodiment has exemplified the disk array using the magnetic disk device, it can be applied to an array device using an appropriate physical device such as an optical disk device and a semiconductor memory device. Moreover, the number of storage disk devices provided in the disk array 5 can be appropriately determined as necessary. Although the disk array 5 of the embodiment has a one-rank configuration as an example, it may have a multi-rank configuration in which a parallel configuration is provided in multiple stages.

【0054】更に上記の実施例にあっては、ホストコン
ピュータ1に対し エラーディスク装置から予備ディスク装置へのデータ
復元の開始 エラーディスク装置から予備ディスク装置へのデータ
復元の完了 エラーディスク装置の再イニシャライズ処理の完了 エラーディスク装置に対する予備ディスク装置からの
データ復元の完了 を報告しているが、少なくとも最初ののデータ復元開
始報告と最後のの復旧処理の完了を報告できればよ
く、その間の報告は必要に応じて適宜に定めることがで
きる。
Further, in the above embodiment, the host computer 1 starts the data restoration from the error disk unit to the spare disk unit and the data restoration from the error disk unit to the spare disk unit is completed. The error disk unit is reinitialized. Completion of processing Although the completion of data restoration from the spare disk unit is reported to the error disk unit, it is sufficient if at least the first data restoration start report and the completion of the last recovery process are reported, and the report between them is necessary. It can be appropriately determined depending on the situation.

【0055】特に本発明にあっては、上位装置に報告を
行って指示を待つが、指示がなくともカウンタのオーバ
フローによる時間監視で次のエラー回復の処理に自動的
に移行できるため、基本的には上位装置への状況の報告
を行う必要はない。但し、上位装置からディスクアレイ
制御装置2側の状態が見えなくなるのを回避するため、
少なくとも不揮発記憶部36にエラー回復のロギング情
報を記憶させる必要はある。
In particular, in the present invention, a report is sent to the host device and an instruction is awaited. However, even if there is no instruction, it is possible to automatically shift to the next error recovery processing by the time monitoring due to the overflow of the counter. It is not necessary to report the status to the host device. However, in order to prevent the state of the disk array control device 2 side from becoming invisible to the host device,
At least the nonvolatile storage unit 36 needs to store the error recovery logging information.

【0056】[0056]

【発明の効果】以上説明してきたように本発明によれ
ば、訂正不可能なデータチェックの発生により、ディス
クアレイの中のディスク装置のデータ復元が開始される
と、ディスクアレイ制御装置の内部処理により上位装置
またはオペレータからの作業指示を必要とすることな
く、自動的に、エラーを起こしたディスク装置を可能な
限り使用可能状態に戻す再イニシャライズを含む復旧作
業が行われ、オペレータ不在などにより障害の復旧が遅
れることなく実施され、更に、人手による操作ミスを防
ぐことができる。
As described above, according to the present invention, when the data restoration of the disk device in the disk array is started due to the occurrence of the uncorrectable data check, the internal processing of the disk array controller is started. This automatically performs recovery work including re-initialization to return the failed disk device to the usable state as much as possible without the need for work instructions from the host device or operator. The restoration can be performed without delay, and further, it is possible to prevent an operation error by human.

【0057】またエラー発生ディスクについては、自動
的に再イニシャライズと再イニシャライズ完了後の全面
リード動作による媒体検査が行われ、正常終了でエラー
は回復したものとして予備のディスク装置のデータを復
元して、元の運用状態に自動的に戻るようになり、媒体
のイニシャライズで回復するようなデータチェックの発
生に対し効率良くエラー回復処理を行うことができる。
For the disk in which the error has occurred, a media inspection is automatically performed by the re-initialization and the full read operation after the completion of the re-initialization, and it is assumed that the error has been recovered by the normal end, and the data of the spare disk device is restored. As a result, the original operating state is automatically restored, and error recovery processing can be efficiently performed against the occurrence of a data check that is recovered by initializing the medium.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理説明図FIG. 1 is a diagram illustrating the principle of the present invention.

【図2】本発明の一実施例を示したブロック図FIG. 2 is a block diagram showing an embodiment of the present invention.

【図3】本発明のアクセス処理の概略のフローチャートFIG. 3 is a schematic flowchart of an access process of the present invention.

【図4】図3のエラー処理の詳細のフローチャートFIG. 4 is a detailed flowchart of error processing in FIG.

【図5】図3のエラー処理の詳細のフローチャート(続
き)
FIG. 5 is a detailed flowchart of error handling in FIG. 3 (continued).

【図6】従来装置のブロック図FIG. 6 is a block diagram of a conventional device.

【符号の説明】[Explanation of symbols]

1:上位装置(ホストコンピュータ) 2:ディスクアレイ制御装置 3:上位インタフェース制御部 4:デバイス制御部 5:ディスクアレイ 6:オペレータ制御部 31:インタフェース制御部 32,42:MPU 33,43:データ転送制御部 34:カウンタ 35:フラグレジスタ 36:不揮発記憶部 37,45:マイクロプログラム 38:上位報告部 39:ロギング処理部 41:ディスクアレイ制御部 44:データチェックカウンタ 46:第1データ復元部 47:再イニシャライズ部 48:媒体検査部 49:第2データ復元部 1: Host device (host computer) 2: Disk array control device 3: Host interface control unit 4: Device control unit 5: Disk array 6: Operator control unit 31: Interface control unit 32, 42: MPU 33, 43: Data transfer Control unit 34: Counter 35: Flag register 36: Non-volatile storage unit 37, 45: Micro program 38: High-order report unit 39: Logging processing unit 41: Disk array control unit 44: Data check counter 46: First data restoration unit 47: Reinitialization unit 48: Medium inspection unit 49: Second data restoration unit

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】データ記憶用と冗長情報記憶用の複数のデ
ィスク装置を備えたディスクアレイを接続し、上位装置
からのアクセスに対して前記複数の磁気ディスク装置を
並列アクセスするディスクアレイ制御装置を有し、更
に、前記ディスクアレイは少なくとも1台の予備ディス
ク装置を備えたディスクアレイ装置に於いて、 前記ディスクアレイ制御装置に、 前記ディスクアレイのデータ記憶用及び冗長情報記憶用
の複数のディスク装置のいずれかのエラー発生回数が規
定値を越えた場合に、エラー発生ディスク装置のデータ
を前記予備ディスク装置に復元する第1データ復元部
と、 前記データ復元部による復元動作が完了した後に、前記
エラーディスク装置の媒体をイニシャライズする再イニ
シャライズ部と、 前記再イニシャライズ部によるイニシャライズが完了し
た後に、前記エラーディスク装置の媒体の検査を行う媒
体検査部と、 前記媒体検査部により媒体正常が判定された場合に、前
記予備ディスク装置のデータをエラーディスク装置に復
元する第2データ復元部と、を設けたことを特徴とする
ディスクアレイ装置のエラー回復装置。
1. A disk array controller for connecting a disk array having a plurality of disk devices for storing data and storing redundant information, and for parallelly accessing the plurality of magnetic disk devices in response to an access from a host device. The disk array further comprises at least one spare disk device, wherein the disk array control device includes a plurality of disk devices for storing data of the disk array and storing redundant information. When any one of the error occurrence counts exceeds the specified value, the first data restoration unit restores the data of the error occurrence disk device to the spare disk device, and after the restoration operation by the data restoration unit is completed, A re-initialization unit that initializes the medium of the error disk device, and a re-initialization unit. A medium inspecting unit for inspecting the medium of the error disk device after the initialization is completed, and for restoring the data in the spare disk device to the error disk device when the medium inspecting unit determines that the medium is normal. An error recovery device for a disk array device, comprising: a data recovery unit.
【請求項2】請求項1記載のディスクアレイ装置のエラ
ー回復装置に於いて、更に、前記第1データ復元部によ
るデータ復元の開始と終了、前記再イニシャライズ部に
よる再イニシャライズの開始、前記媒体検査部による媒
体正常判定に基づく再イニシャライズの終了、前記第2
データ復元部によるデータ復元の開始と終了の各々を、
上位装置に通知する上位報告部を設けたことを特徴とす
るディスクアレイ装置のエラー回復装置。
2. The error recovery device for a disk array device according to claim 1, further comprising the start and end of data restoration by the first data restoration unit, the start of re-initialization by the re-initialization unit, and the medium inspection. End of re-initialization based on medium normality judgment by the section, the second
Each of the start and end of data restoration by the data restoration unit,
An error recovery device for a disk array device, which is provided with an upper report unit for notifying the upper device.
【請求項3】請求項2記載のディスクアレイ装置のエラ
ー回復装置に於いて、前記上位報告部は、前記第1デー
タ復元部によるデータ復元、前記再イニシャライズ部に
よる再イニシャライズ、及び前記第2データ復元部によ
るデータ復元の各々について、上位装置への完了報告か
らの経過時間を監視し、一定時間を越えても前記上位装
置又はオペレータからの指示がない場合は、強制的に次
の処理に移行させることを特徴とするディスクアレイ装
置のエラー回復装置。
3. The error recovery device for a disk array device according to claim 2, wherein the higher-order reporting unit is configured to restore data by the first data restoration unit, re-initialize by the re-initialization unit, and the second data. For each data restoration by the restoration unit, monitor the elapsed time from the completion report to the upper device, and if there is no instruction from the upper device or operator even after a certain period of time, forcibly move to the next process An error recovery device for a disk array device, characterized by:
【請求項4】請求項1記載のディスクアレイ装置のエラ
ー回復装置に於いて、更に、前記第1データ復元部によ
るデータ復元、前記再イニシャライズ部による再イニシ
ャライズ、及び前記第2データ復元部によるデータ復元
の各々の報告内容を、不揮発性記憶部に記憶保持するロ
ギング処理部を設けたことを特徴とするディスクアレイ
装置のエラー回復装置。
4. The error recovery device for a disk array device according to claim 1, further comprising: data restoration by the first data restoration unit, re-initialization by the re-initialization unit, and data by the second data restoration unit. An error recovery device for a disk array device, which is provided with a logging processing unit for storing and holding each report content of restoration in a non-volatile storage unit.
JP6286189A 1994-11-21 1994-11-21 Error recovery device for disk array device Pending JPH08147112A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6286189A JPH08147112A (en) 1994-11-21 1994-11-21 Error recovery device for disk array device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6286189A JPH08147112A (en) 1994-11-21 1994-11-21 Error recovery device for disk array device

Publications (1)

Publication Number Publication Date
JPH08147112A true JPH08147112A (en) 1996-06-07

Family

ID=17701109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6286189A Pending JPH08147112A (en) 1994-11-21 1994-11-21 Error recovery device for disk array device

Country Status (1)

Country Link
JP (1) JPH08147112A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7383380B2 (en) 2003-09-26 2008-06-03 Hitachi, Ltd. Array-type disk apparatus preventing lost data and providing improved failure tolerance
US7525749B2 (en) 2006-01-25 2009-04-28 Fujitsu Limited Disk array apparatus and disk-array control method
JP2009252001A (en) * 2008-04-08 2009-10-29 Nec Corp Raid system, and method for restoring error sector
CN111158589A (en) * 2019-12-16 2020-05-15 绿晶半导体科技(北京)有限公司 Dynamic management method and device for storage array

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7383380B2 (en) 2003-09-26 2008-06-03 Hitachi, Ltd. Array-type disk apparatus preventing lost data and providing improved failure tolerance
US7757042B2 (en) 2003-09-26 2010-07-13 Hitachi, Ltd. Array-type disk apparatus preventing lost data and providing improved failure tolerance
US7913039B2 (en) 2003-09-26 2011-03-22 Hitachi, Ltd. Array-type disk apparatus preventing data lost and providing improved failure tolerance
US7525749B2 (en) 2006-01-25 2009-04-28 Fujitsu Limited Disk array apparatus and disk-array control method
JP2009252001A (en) * 2008-04-08 2009-10-29 Nec Corp Raid system, and method for restoring error sector
CN111158589A (en) * 2019-12-16 2020-05-15 绿晶半导体科技(北京)有限公司 Dynamic management method and device for storage array
CN111158589B (en) * 2019-12-16 2023-10-20 绿晶半导体科技(北京)有限公司 Dynamic management method and device for storage array

Similar Documents

Publication Publication Date Title
JP2548480B2 (en) Disk device diagnostic method for array disk device
US6324655B1 (en) Input/output controller providing preventive maintenance information regarding a spare I/O unit
JP3681766B2 (en) Disk array device
JPH04205519A (en) Writing method of data under restoration
JPH07129331A (en) Disk array device
JP2002108573A (en) Disk array device and method for controlling its error and recording medium with its control program recorded thereon
JPH11338648A (en) Disk array device, its error control method, and recording medium where control program thereof is recorded
JP3284963B2 (en) Disk array control device and control method
JP2006079418A (en) Storage control apparatus, control method and program
US6434711B1 (en) Disk array apparatus that avoids premature declarations of faults
US7624300B2 (en) Managing storage stability
JPH1195933A (en) Disk array system
JPH08147112A (en) Error recovery device for disk array device
JP3063666B2 (en) Array disk controller
JP2691142B2 (en) Array type storage system
JPH05165581A (en) Data restoration quantity control method for array disk device
JPH08190461A (en) Disk array system
JP2735801B2 (en) I / O control unit
JP2000293318A (en) Disk array device and media error relieving method
JP2644205B2 (en) I / O controller
JP2000293320A (en) Disk subsystem, inspection diagnosing method for disk subsystem and data restoring method for disk subsystem
JP2000276308A (en) Disk subsystem and method for restoring data in disk subsystem
JP2830840B2 (en) Disk array repair processing method and method
JP3095061B2 (en) I / O controller
JPH0651918A (en) Semiconductor disk device

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040210