JPH10222315A - Method and device for error recovery of doubled hard disk drives - Google Patents

Method and device for error recovery of doubled hard disk drives

Info

Publication number
JPH10222315A
JPH10222315A JP9027784A JP2778497A JPH10222315A JP H10222315 A JPH10222315 A JP H10222315A JP 9027784 A JP9027784 A JP 9027784A JP 2778497 A JP2778497 A JP 2778497A JP H10222315 A JPH10222315 A JP H10222315A
Authority
JP
Japan
Prior art keywords
hard disk
data
storage area
disk drive
defective storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9027784A
Other languages
Japanese (ja)
Inventor
Tsukasa Kimura
司 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9027784A priority Critical patent/JPH10222315A/en
Publication of JPH10222315A publication Critical patent/JPH10222315A/en
Pending legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

PROBLEM TO BE SOLVED: To facilitate maintenance operation at the time of the alteration of a defective storage area by substituting a normal storage area in a 1st hard disk drive for a defective storage area on the 1st hard disk drive, copying data from a 2nd hard disk drive, and restoring the data in the defective storage area. SOLUTION: An error restoration start part 9 outputs an error restoration signal once receiving an error report signal. An substituting process indication part 10 once receiving this error restoration signal requests a DK (hard disk drive) common control part 2 to performs a substituting process for an error occurrence sector of DK#0. After the substituting process for DK#0 is completed, a copy instruction part 11 requests the DK common control part 2 to rewrite data. Namely, the copy instruction part 11 writes read data from DK#1 to DK#0 where the error has occurred through a DK#0 control part 2 and a DK#0 control part 3 to restore the data. Consequently, the maintenance operation can be made efficient.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、データリードまた
はデータライト時にエラーの発生した不良記憶領域の代
替処理とそのデータの復旧とを自動的に実施する二重化
されたハードディスク装置のエラー復旧方法および装置
に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an error recovery method and apparatus for a duplicated hard disk drive, which automatically performs a process of replacing a defective storage area in which an error has occurred during data reading or data writing and recovery of the data. It is about.

【0002】[0002]

【従来の技術】従来のハードディスク装置の二重化制御
装置について図を用いて説明する。図6は従来例を示す
ブロック図であり、その構成について詳細に説明する。
2. Description of the Related Art A conventional redundant control device for a hard disk drive will be described with reference to the drawings. FIG. 6 is a block diagram showing a conventional example, and its configuration will be described in detail.

【0003】処理装置であるCPU1は、必要に応じて
データリードアクセスやデータライトアクセスをデータ
ファイル制御部16に供給する。データファイル制御部
16は、データリードアクセスやデータライトアクセス
を受信すると、データファイル部17,18(以下、デ
ータファイル部#0,データファイル部#1という)内
に設けられたハードディスク装置5,8(以下、DK#
0,DK#1という)に対してデータの読み出しまたは
書き込みを実施する。
The CPU 1 serving as a processing device supplies data read access and data write access to the data file control unit 16 as necessary. When the data file control unit 16 receives a data read access or a data write access, the hard disk devices 5, 8 provided in the data file units 17, 18 (hereinafter referred to as data file unit # 0 and data file unit # 1). (Hereinafter, DK #
0, DK # 1).

【0004】なお、これらデータファイル部#0,#1
には、DK#0,DK#1以外にそれぞれデータ終了指
示部19,20が設けられている。これらデータ終了指
示部19,20は、ハードディスク装置のデータの書き
込み状態を示す信号を出力する。
The data file sections # 0, # 1
Are provided with data end instructing units 19 and 20 in addition to DK # 0 and DK # 1, respectively. These data end instructing units 19 and 20 output signals indicating the data write state of the hard disk device.

【0005】データ終了解析部21は、データ終了指示
部19,20から受信した信号によってデータの書き込
み状態を検出し、データの書き込みが正常に終了してい
ないと判断するとコピー指示部11を駆動させる。コピ
ー指示部11は正常にデータの書き込みが実施されたハ
ードディスク装置からデータを読み出し、異常書き込み
のあったハードディスク装置に対してそのデータを転送
させてデータの復旧を実施する。
The data end analysis unit 21 detects the data write state based on the signals received from the data end instruction units 19 and 20, and drives the copy instruction unit 11 when judging that the data write is not completed normally. . The copy instructing unit 11 reads data from the hard disk device to which the data has been normally written, and transfers the data to the hard disk device to which the data has been abnormally written to restore the data.

【0006】このように従来のハードディスク装置の二
重化制御装置は、データの書き込みが正常に終了したか
否かをチェックし、正常に書き込めなかったときはもう
一方のハードディスク装置からデータを転送させて再度
書き込みを行うものであった。
As described above, the conventional redundant control device for a hard disk device checks whether or not the data writing has been completed normally. If the data cannot be normally written, the data is transferred from the other hard disk device and re-transmitted. Writing was performed.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、記憶領
域(すなわち、セクタまたはトラック等)に物理的に異
常が発生するなどした場合、異常の発生した記憶領域を
修復しないことには再書き込みを行っても再び同じよう
なデータエラーが発生してしまう。そこで、上記のよう
な従来の二重化制御装置においては、再書き込みを行っ
てもデータエラーが発生する場合、データエラーの発生
したハードディスク装置を一旦システムから切り離し、
人手によって不良セクタを代替する処理(以下、セクタ
代替という)を行っていた。そのため、常時保守要員を
待機させなければならず保守作業が負担となり、またセ
クタ代替時には片系での運転となるためシステムの信頼
性が低下するという問題点があった。本発明は、このよ
うな課題を解決するためのものであり、不良記憶領域の
代替時における保守作業の簡単化とシステムの信頼性の
向上とを同時に実現する二重化されたハードディスク装
置のエラー復旧方法および装置を提供することを目的と
する。
However, when a physical error occurs in a storage area (that is, a sector, a track, or the like), rewriting must be performed so that the abnormal storage area is not repaired. The same data error occurs again. Therefore, in the above-described conventional redundant control device, when a data error occurs even after rewriting, the hard disk device in which the data error has occurred is once disconnected from the system,
The process of manually replacing a defective sector (hereinafter, referred to as sector replacement) has been performed. Therefore, there is a problem that the maintenance staff must be kept on standby at all times, and the maintenance work is burdensome. In addition, when the sector is replaced, the operation is performed in one system, so that the reliability of the system is reduced. An object of the present invention is to solve such a problem, and an error recovery method for a dual hard disk drive that simultaneously simplifies maintenance work when replacing a defective storage area and improves system reliability. And an apparatus.

【0008】[0008]

【課題を解決するための手段】このような目的を達成す
るために、本発明に係る二重化されたハードディスク装
置のエラー復旧方法は、第1のハードディスク装置に不
良記憶領域を検出すると、この不良記憶領域を第1のハ
ードディスク装置内の正常な記憶領域と代替し、第2の
ハードディスク装置からデータをコピーすることによっ
て上記不良記憶領域におけるデータを復旧させるもので
ある。また、本発明に係る二重化されたハードディスク
装置のエラー復旧装置は、第1のハードディスク装置の
駆動を制御するとともに、第1のハードディスク装置に
不良記憶領域を検出するとエラー通知信号を出力し、不
良記憶領域の代替処理と不良記憶領域におけるデータの
復旧処理とを実施する第1のDK制御部と、第2のハー
ドディスク装置の駆動を制御するとともに、第2のハー
ドディスク装置に不良記憶領域を検出するとエラー通知
信号を出力し、不良記憶領域の代替処理と不良記憶領域
におけるデータの復旧処理とを実施する第2のDK制御
部と、上記エラー通知信号を受信すると上記各DK制御
部による不良記憶領域の代替処理とデータの復旧処理と
を起動させるエラー復旧起動部とを備えている。したが
って、本発明はハードディスク装置をシステムから切り
離すことなく不良記憶領域の代替処理およびデータの復
旧を実施することができる。
In order to achieve the above object, an error recovery method for a duplicated hard disk drive according to the present invention comprises the steps of: detecting a defective storage area in a first hard disk drive; The area is replaced with a normal storage area in the first hard disk drive, and data in the defective storage area is restored by copying data from the second hard disk drive. Further, the error recovery apparatus for a duplicated hard disk drive according to the present invention controls the driving of the first hard disk drive, and outputs an error notification signal when a defective storage area is detected in the first hard disk drive. A first DK control unit for performing the area replacement processing and the data recovery processing in the defective storage area, controls the driving of the second hard disk drive, and generates an error when a defective storage area is detected in the second hard disk drive. A second DK control unit that outputs a notification signal and performs a process of substituting a defective storage area and a process of restoring data in the defective storage area; An error recovery start unit that starts the substitution process and the data recovery process is provided. Therefore, the present invention can perform the replacement processing of the defective storage area and the data recovery without disconnecting the hard disk device from the system.

【0009】[0009]

【発明の実施の形態】次に、本発明の一つの実施の形態
について図を用いて説明する。図1は本発明の一つの実
施の形態を示すブロック図であり、その構成について説
明する。なお、図1において図6における符号と同一の
ものは、同一または同等の部品を示す。
Next, one embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing one embodiment of the present invention, and its configuration will be described. In FIG. 1, the same components as those in FIG. 6 indicate the same or equivalent parts.

【0010】DK制御部3,6(以下、DK#0制御
部、DK#1制御部という)は、それぞれSCSIイン
ターフェース4,7(以下、SCSI#0、SCSI#
1という)等の汎用インターフェースを介してDK#0
またはDK#1に接続され、DK共通制御部2の指示を
受けてDK#0,DK#1に対してデータの読み出しや
書き込み等を実施する。また、これらDK#0制御部お
よびDK#1制御部は、データの読み出しや書き込み等
の際に各セクタの所定の記録情報を読みとり、読みとっ
たデータのパリティやCRC等をチェックすることによ
って、物理的に壊れたセクタやトラック等の不良記憶領
域の有無を判定する。そして、不良セクタ等を検出する
とエラー通知信号を出力する。
The DK control units 3 and 6 (hereinafter referred to as DK # 0 control unit and DK # 1 control unit) respectively have SCSI interfaces 4 and 7 (hereinafter referred to as SCSI # 0 and SCSI #).
DK # 0 via a general-purpose interface such as
Alternatively, it is connected to the DK # 1 and receives data from the DK # 0 and DK # 1 in response to an instruction from the DK common control unit 2, and reads and writes data. The DK # 0 control unit and the DK # 1 control unit read predetermined recording information of each sector when reading or writing data, and check the parity, CRC, and the like of the read data, thereby obtaining a physical data. It is determined whether there is a defective storage area such as a sector or a track that has been temporarily broken. Then, when a bad sector or the like is detected, an error notification signal is output.

【0011】DK共通制御部2は、上記のようにDK#
0制御部,DK#1制御部の駆動を制御するだけでな
く、DK#0,DK#1にそれぞれ設定された系の情報
を記憶保持する手段を備えている。すなわち、常時DK
#0,DK#1の何れか一方にはマスタ系が設定され、
また他方にはスレーブ系が設定されている。そして、こ
れらの系情報は、データの読み出し時等に参照されてど
ちらのハードディスク装置を利用するかの決定に使用さ
れる。
The DK common control unit 2 performs the DK #
In addition to controlling the driving of the 0 control unit and the DK # 1 control unit, a unit for storing and holding the information of the system set in each of the DK # 0 and DK # 1 is provided. That is, the DK
A master system is set in one of # 0 and DK # 1,
On the other hand, a slave system is set. The system information is referred to at the time of reading data and the like, and is used to determine which hard disk device to use.

【0012】エラー復旧起動部9は、DK#0制御部ま
たはDK#1制御部からのエラー通知信号を受信する
と、エラー復旧動作(すなわち、不良セクタの代替処
理、不良セクタにおけるデータの復旧処理など)を実施
するため、エラー復旧信号を出力する。
When receiving an error notification signal from the DK # 0 control unit or the DK # 1 control unit, the error recovery start unit 9 performs an error recovery operation (ie, a process for replacing a bad sector, a process for recovering data in a bad sector, etc.). ), An error recovery signal is output.

【0013】代替処理指示部10は、エラー復旧信号を
受信すると不良セクタの代替処理を実施するため代替処
理指示信号をDK共通制御部2に出力する。コピー指示
部11は、一方のハードディスク装置のデータを他方の
ハードディスク装置にコピーしてデータ復旧を行う。す
なわち、代替処理指示部10によって不良セクタの代替
処理が行われると、コピー指示部11は本来この不良セ
クタに書き込まれているはずのデータをもう一方のハー
ドディスク装置から読み出し、セクタ代替を行ったハー
ドディスク装置に転送して書き込み、データの復旧を実
施する。
Upon receiving the error recovery signal, the alternative processing instruction unit 10 outputs an alternative processing instruction signal to the DK common control unit 2 to execute the alternative processing of the defective sector. The copy instructing unit 11 performs data recovery by copying data from one hard disk device to another hard disk device. That is, when the replacement process instructing unit 10 performs the replacement process for the defective sector, the copy instructing unit 11 reads out the data that should have been written in the defective sector from the other hard disk device, and executes the hard disk replacement for the sector replacement. Transfers data to the device and writes it to recover data.

【0014】以上のような本発明の動作について、デー
タの読み出し時とデータの書き込み時とに分けて詳細に
説明する。
The operation of the present invention as described above will be described in detail for data reading and data writing.

【0015】なお、本実施の形態はミラーリング機能を
有する制御装置として説明する。すなわち、データの読
み出しはマスタ系である一方のハードディスク装置をセ
クタ単位で読み出すことによって実施する(以下、片系
リードという)。また、データの書き込みは、マスタ系
およびスレーブ系の両ハードディスク装置に対して同一
のデータをセクタ単位で書き込むことによって実施する
(以下、両系ライトという)。
This embodiment will be described as a control device having a mirroring function. That is, data reading is performed by reading one hard disk device of the master system in sector units (hereinafter, referred to as single-system reading). Data writing is performed by writing the same data to both the master hard disk device and the slave hard disk device in sector units (hereinafter referred to as both system write).

【0016】まず、データの読み出しにおける動作手順
について説明する。図2はCPU1がデータの読み出し
を要求した際の動作手順を示すフローチャートである。
ステップ101において、CPU1はDK共通制御部2
に対し片系リードの要求を出力する。
First, an operation procedure in reading data will be described. FIG. 2 is a flowchart showing an operation procedure when the CPU 1 requests data reading.
In step 101, the CPU 1 executes the DK common control unit 2
A request for one-system read is output to

【0017】ステップ102において、DK共通制御部
2は予めマスタ系の設定されたDK#0制御部に対して
リード要求を実行する。DK#0制御部は自系のDK#
0に対してリード動作を実行する。
In step 102, the DK common control unit 2 issues a read request to a DK # 0 control unit set in advance in the master system. The DK # 0 control unit is the DK # of its own system.
A read operation is performed on 0.

【0018】ステップ103において、現在マスタ系で
あるDK#0でリードエラーが発生すると、このリード
エラーはSCSIバスのプロトコルによってSCSl#
0を介してDK#0制御部に通知される。するとDK#
0制御部は、エラー復旧起動部9に対してエラー通知信
号を出力してエラーデータ復旧動作の起動を要求し、ス
テップは104に移行する。また、リードエラーが検出
されない場合はステップ109に移行し、DK#0から
読み出されたデータをCPU1に送出した後にリード動
作を終了する。
In step 103, when a read error occurs in the DK # 0 which is the current master system, this read error is caused by the SCSI bus protocol according to the SCSI bus #.
0 is notified to the DK # 0 control unit. Then DK #
The 0 control unit outputs an error notification signal to the error recovery activation unit 9 to request activation of the error data recovery operation. If no read error has been detected, the process proceeds to step 109, where the data read from DK # 0 is sent to the CPU 1, and the read operation ends.

【0019】ステップ104において、エラー復旧起動
部9はエラー通知信号を受信するとエラーデータの復旧
処理を実行するため、DK共通制御部2と代替処理指示
部10に対してエラー復旧信号を供給する。エラー復旧
信号を受信するとDK共通制御部2は、マスタ系をDK
#0からDK#1に切り替え、スレーブ系をDK#1か
らDK#0に切り替える。
In step 104, upon receiving the error notification signal, the error recovery start-up unit 9 supplies an error recovery signal to the DK common control unit 2 and the alternative processing instruction unit 10 to execute error data recovery processing. Upon receiving the error recovery signal, the DK common control unit 2 sets the master system to the DK.
Switch from # 0 to DK # 1, and switch the slave system from DK # 1 to DK # 0.

【0020】ステップ105において、DK共通制御部
2からの指示によりマスタ系になったDK#1制御部
は、自系DK#1に対して同一セクタのリード動作を実
行する。ステップ106において、マスタ系になったD
K#1でもリードエラーが発生した場合は、二重障害と
してCPU1へエラーを通知する。エラーが発生しなか
ったときはステップを108へ移行する。ステップ10
7において、ステップ105における動作と並行して代
替処理指示部10は代替処理指示信号を出力する。DK
共通制御部2はこの代替処理指示信号に基づき、DK#
0制御部に対してDK#0のエラー発生セクタの代替処
理の実行を要求する。
In step 105, the DK # 1 control unit which has become the master system in accordance with an instruction from the DK common control unit 2 executes a read operation of the same sector for its own system DK # 1. In step 106, D
If a read error occurs even in K # 1, the CPU 1 is notified of the error as a double failure. If no error has occurred, the process proceeds to step 108. Step 10
In step 7, the alternative processing instruction unit 10 outputs an alternative processing instruction signal in parallel with the operation in step 105. DK
The common control unit 2 receives the DK #
0 requests the DK # 0 control unit to execute the replacement process for the DK # 0 error occurring sector.

【0021】ステップ108において、DK#1でエラ
ーが検出されない場合は、コピー指示部11はDK共通
制御部2、DK#0制御部を介してDK#1からのリー
ドデータをエラーの発生したDK#0に書き込み、デー
タの復旧を実行する。ステップ109において、DK共
通制御部2は、DK#1から読み出したデータをCPU
1へ送出してリード動作を終了する。
In step 108, if no error is detected in DK # 1, the copy instructing unit 11 sends the read data from DK # 1 via the DK common control unit 2 and DK # 0 control unit to the DK in which the error has occurred. Write to # 0 and execute data recovery. In step 109, the DK common control unit 2 sends the data read from DK # 1 to the CPU
1 to end the read operation.

【0022】次に、データの書き込みの手順について説
明する。図3はCPU1がデータの書き込みを要求した
際の動作手順を示すフローチャートである。ステップ2
01において、CPU1がDK共通制御部2に対して両
系ライトの要求を実行する。
Next, the procedure for writing data will be described. FIG. 3 is a flowchart showing an operation procedure when the CPU 1 requests data writing. Step 2
At 01, the CPU 1 requests the DK common control unit 2 to write to both systems.

【0023】ステップ202において、DK共通制御部
2は両系のDK#0,DK#1に同一データを書き込む
ため、DK#0制御部とDK#1制御部とに対してライ
ト動作を要求する。
In step 202, the DK common control unit 2 requests the DK # 0 control unit and the DK # 1 control unit to perform a write operation to write the same data to the DK # 0 and DK # 1 of both systems. .

【0024】ステップ203において、DK#0制御部
とDK#1制御部とは、各々DK#0,DK#1でのラ
イトエラーを監視し、例えばマスタ系のDK#0でエラ
ーが検出された場合はエラー復旧起動部9に通知し、検
出されなかった場合はライト動作を終了する。
In step 203, the DK # 0 control unit and the DK # 1 control unit monitor write errors in DK # 0 and DK # 1, respectively, and for example, an error is detected in DK # 0 of the master system. In this case, the error recovery start unit 9 is notified, and if not detected, the write operation ends.

【0025】ステップ204において、エラー復旧起動
部9はエラー通知信号を受信するとエラー復旧処理を起
動させるためエラー復旧信号を出力する。代替処理指示
部10はこのエラー復旧信号を受信するとDK共通制御
部2に対してDK#0のエラー発生セクタの代替処理の
実行を要求する。
In step 204, upon receiving the error notification signal, the error recovery starting unit 9 outputs an error recovery signal to start the error recovery processing. Upon receiving the error recovery signal, the substitution processing instruction unit 10 requests the DK common control unit 2 to execute the substitution processing for the DK # 0 error occurring sector.

【0026】ステップ205において、DK#0の代替
処理が完了するとコピー指示部11は、DK共通制御部
2に対してデータの再書き込みを要求する。すなわち、
コピー指示部11はDK共通制御部2、DK#0制御部
を介してDK#1からのリードデータをエラーの発生し
たDK#0に書き込み、データの復旧を実行する。ステ
ップ206において、DK#0で再度ライトエラーが検
出された場合は、二重障害としてCPU1にエラーを通
知する。エラーが検出されない場合はライト動作を終了
する。
In step 205, when the substitute process for DK # 0 is completed, the copy instruction unit 11 requests the DK common control unit 2 to rewrite data. That is,
The copy instructing unit 11 writes the read data from the DK # 1 to the DK # 0 where the error has occurred via the DK common control unit 2 and the DK # 0 control unit, and executes data recovery. In step 206, if a write error is detected again in DK # 0, an error is notified to the CPU 1 as a double failure. If no error is detected, the write operation ends.

【0027】図4は本発明のその他の実施の形態を示す
ブロック図である。この実施の形態は、ディスクコント
ローラをハードディスク装置毎に設けたものであり、各
コントローラ間における制御信号およびデータは交絡バ
スを介して送受信される点が図1のものと相違する。
FIG. 4 is a block diagram showing another embodiment of the present invention. This embodiment differs from the embodiment shown in FIG. 1 in that a disk controller is provided for each hard disk device, and control signals and data between the controllers are transmitted and received via a confounding bus.

【0028】図4に係るハードディスク装置の二重化制
御装置の構成について説明する。同図において、図1と
同一または同様の符号は、同一または同等の部品を示
す。ディスクコントローラ#0は、DK#0制御部とS
CSI#0とエラー復旧起動部9と代替処理指示部10
とコピー指示部11等から構成されている。また、ディ
スクコントローラ#1はディスクコントローラ#0と同
様に構成され、ディスクコントローラ#1とは互いに交
絡バスを介して接続されている。
The configuration of the duplicated control device for the hard disk device shown in FIG. 4 will be described. In the figure, the same or similar reference numerals as those in FIG. 1 indicate the same or equivalent parts. The disk controller # 0 communicates with the DK # 0 control unit and S
CSI # 0, error recovery activation unit 9, and alternative processing instruction unit 10
And a copy instructing unit 11. The disk controller # 1 has the same configuration as the disk controller # 0, and is connected to the disk controller # 1 via a confounding bus.

【0029】上位装置14はCPU等の処理装置から構
成され、リード動作およびライト動作等の動作要求源で
ある。また、上位装置14はIO制御バス15を介して
ディスクコントローラ#0、#1と接続されてディスク
コントローラ#0,#1の駆動を制御するとともに、マ
スタ系スレーブ系等の系情報の管理も行っている。
The host device 14 is composed of a processing device such as a CPU, and is a source of operation request such as read operation and write operation. The host device 14 is connected to the disk controllers # 0 and # 1 via the IO control bus 15, controls the driving of the disk controllers # 0 and # 1, and also manages system information such as a master system and a slave system. ing.

【0030】次に図4の動作について説明する。基本的
な動作は図1の場合と同様であるが、DK共通制御部を
備えていない点が異なる。そのため、図6においてはデ
ィスクコントローラ#0,#1間に設けられた交絡バス
を介してディスクコントローラの制御が行われる。
Next, the operation of FIG. 4 will be described. The basic operation is the same as that of FIG. 1, except that the DK common control unit is not provided. Therefore, in FIG. 6, the disk controller is controlled via a confounding bus provided between the disk controllers # 0 and # 1.

【0031】図5は上位装置14が読み出し要求を出し
た際の動作手順を示すフローチャートである。ステップ
301において、上位装置14内のCPU(図示せず)
はIO制御バス15を介して、予めマスタ系の設定され
たディスクコントローラ#0に対し片系リードの要求を
出力する。
FIG. 5 is a flowchart showing an operation procedure when the host device 14 issues a read request. In step 301, a CPU (not shown) in the host device 14
Outputs a single-system read request via the IO control bus 15 to the disk controller # 0 set in advance as the master system.

【0032】ステップ302において、マスタ系ディス
クコントローラ#0は上位装置14からの要求を受けて
一連のリード動作を実行する。ステップ303におい
て、DK#0制御部は自系のDK#0に対してリード動
作を実行する。
In step 302, the master disk controller # 0 executes a series of read operations in response to a request from the host device 14. In step 303, the DK # 0 control unit performs a read operation on the DK # 0 of the own system.

【0033】ステップ304において、DK#0でリー
ドエラーが発生すると、このリードエラーはSCSIバ
スのプロトコルによってSCSl#0を介してDK#0
制御部に通知される。エラーが発生するとステップは3
05へ移行し、エラーが発生しなければステップ312
へ移行してリードデータを上位装置14に送出した後に
リード動作を終了する。
In step 304, when a read error occurs in DK # 0, this read error is transmitted via DK # 0 via SCSI # 0 according to the SCSI bus protocol.
The control unit is notified. If an error occurs, step 3
05 and if no error occurs, step 312
Then, after the read data is sent to the host device 14, the read operation ends.

【0034】ステップ305において、リードエラーが
発生するとDK#0制御部は、エラー復旧起動部9に対
してエラー通知信号を出力してエラーデータ復旧動作の
起動を要求する。エラー復旧起動部9はエラー通知信号
を受信するとエラーデータの復旧処理を実行するため、
自系の代替処理指示部10と他系のコピー指示部11a
およびDK#1制御部に対してエラー復旧信号を供給す
る。ステップ306において、上位装置14はマスタ系
をDK#0からDK#1に切り替え、スレーブ系をDK
#1からDK#0に切り替える。
In step 305, when a read error occurs, the DK # 0 control unit outputs an error notification signal to the error recovery activation unit 9 to request activation of the error data recovery operation. When receiving the error notification signal, the error recovery activation unit 9 executes the error data recovery process.
Substitution processing instruction unit 10 of own system and copy instruction unit 11a of another system
And an error recovery signal to the DK # 1 control unit. In step 306, the host device 14 switches the master system from DK # 0 to DK # 1, and sets the slave system to DK #.
Switch from # 1 to DK # 0.

【0035】ステップ307において、上位装置14か
らの指示によりマスタ系になったDK#1制御部は、自
系のDK#1に対して同一セクタのリード動作を実行す
る。ステップ308において、ステップ307と並行し
て代替処理指示部10は代替処理指示信号を出力する。
DK#0制御部はこの代替処理指示信号に基づき、DK
#0のエラー発生セクタの代替処理の実行を要求する。
ステップ309において、マスタ系になったDK#1で
もリードエラーが発生した場合は、二重障害として上位
装置14へエラーを通知する。
In step 307, the DK # 1 control unit which has become the master system in response to an instruction from the higher-level device 14 executes the same sector read operation on its own DK # 1. In step 308, the alternative processing instruction unit 10 outputs an alternative processing instruction signal in parallel with step 307.
The DK # 0 control unit performs DK #
Request the execution of the substitution process for the # 0 error occurring sector.
In step 309, if a read error occurs even in the DK # 1 which has become the master system, the error is notified to the higher-level device 14 as a double failure.

【0036】ステップ310において、コピー指示部1
1aはステップ307で読み出されたリードデータを交
絡バス22を介してディスクコントローラ#0に対して
転送する。ステップ311において、コピー指示部11
は交絡バス22を介して転送されたリードデータをDK
#0にコピーするようにDK#0制御部に対して要求す
る。DK#0はこのリードデータをDK#0に書き込ん
でデータを復旧する。ステップ312において、DK#
0制御部はDK#1から読み出したリードデータをCP
U1へ送出してリード動作を終了する。
In step 310, copy instructing section 1
1a transfers the read data read in step 307 to the disk controller # 0 via the confounding bus 22. In step 311, the copy instruction unit 11
DK reads the read data transferred via the confounding bus 22
It requests the DK # 0 control unit to copy to # 0. DK # 0 restores the data by writing the read data to DK # 0. In step 312, the DK #
0 control unit transfers the read data read from DK # 1 to CP
The read operation is sent to U1 to end the read operation.

【0037】なお、DK#1におけるエラー復旧処理に
ついても上記と同様に実施される。また、ライト動作は
図1に係るハードディスク装置と同様に行われる。すな
わち、両系ライトを実施した際に各DK制御部がライト
エラーを検出すると代替処理指示部によってセクタ代替
が要求され、セクタ代替が完了すると他方のハードディ
スク装置からのデータをコピーして実施される。
The error recovery processing in DK # 1 is performed in the same manner as described above. The write operation is performed in the same manner as in the hard disk device shown in FIG. That is, when each DK control unit detects a write error when performing both-system write, a sector replacement is requested by the replacement processing instruction unit, and when the sector replacement is completed, the data from the other hard disk device is copied and executed. .

【0038】[0038]

【発明の効果】以上説明したように本発明は、二重化さ
れたハードディスク装置に不良記憶領域を検出するとそ
の代替処理を実施するとともに、不良記憶領域における
データの復旧処理を実施することができる。したがっ
て、本発明は不良記憶領域の代替処理時に対象となるハ
ードディスク装置をシステムから切り離すことなく、す
なわち二重化された状態のままで不良記憶領域の代替処
理を実施することができ、システムの信頼性を低下させ
ることがないという効果を有する。また、人手を介する
ことなく代替処理を実施することができるため、保守作
業を効率化させることができる。
As described above, according to the present invention, when a defective storage area is detected in a duplicated hard disk drive, the replacement processing can be performed and the data recovery processing in the defective storage area can be performed. Therefore, according to the present invention, it is possible to perform the replacement process of the defective storage area without disconnecting the target hard disk device from the system at the time of the replacement processing of the defective storage area, that is, while maintaining the duplexed state, thereby improving the reliability of the system. It has the effect of not lowering. In addition, since the substitute process can be performed without manual intervention, the maintenance work can be made more efficient.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の一つの実施の形態を示すブロック図
である。
FIG. 1 is a block diagram showing one embodiment of the present invention.

【図2】 CPU1がデータの読み出しを要求した際の
動作手順を示すフローチャートである。
FIG. 2 is a flowchart showing an operation procedure when the CPU 1 requests data reading.

【図3】 CPU1がデータの書き込みを要求した際の
動作手順を示すフローチャートである。
FIG. 3 is a flowchart showing an operation procedure when the CPU 1 requests data writing.

【図4】 本発明のその他の実施の形態を示すブロック
図である。
FIG. 4 is a block diagram showing another embodiment of the present invention.

【図5】 図4における上位装置14がデータの読み出
しを要求した際の動作手順を示すフローチャートであ
る。
5 is a flowchart showing an operation procedure when the host device 14 in FIG. 4 requests data reading.

【図6】 従来例を示すブロック図である。FIG. 6 is a block diagram showing a conventional example.

【符号の説明】[Explanation of symbols]

1…CPU、2…DK共通制御部、3…DK#0制御
部、4…SCSI#0、5…DK#0、6…DK#1制
御部、7…SCSI#1、8…DK#1、9…エラー復
旧起動部、10…代替処理指示部、11…コピー指示
部。
DESCRIPTION OF SYMBOLS 1 ... CPU, 2 ... DK common control part, 3 ... DK # 0 control part, 4 ... SCSI # 0, 5 ... DK # 0, 6 ... DK # 1 control part, 7 ... SCSI # 1, 8 ... DK # 1 , 9: error recovery start unit, 10: alternative processing instruction unit, 11: copy instruction unit

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 第1のハードディスク装置と第2のハー
ドディスク装置とを備えたことを特徴とする二重化され
たハードディスク装置のエラー復旧方法において、 第1のハードディスク装置に不良記憶領域を検出する
と、この不良記憶領域を第1のハードディスク装置内の
正常な記憶領域と代替し、 第2のハードディスク装置からデータをコピーすること
によって前記不良記憶領域におけるデータを復旧させる
ことを特徴とする二重化されたハードディスク装置のエ
ラー復旧方法。
An error recovery method for a duplicated hard disk drive comprising a first hard disk drive and a second hard disk drive, wherein when a defective storage area is detected in the first hard disk drive, A duplicated hard disk drive which replaces a defective storage area with a normal storage area in a first hard disk drive, and recovers data in the defective storage area by copying data from a second hard disk drive. Error recovery method.
【請求項2】 請求項1において、 データの書き込み時にマスタ系の第1のハードディスク
装置に不良記憶領域を検出すると、第1のハードディス
ク装置をスレーブ系に切り替えるとともに第2のハード
ディスク装置をマスタ系に切り替え、 前記不良記憶領域の代替処理を実施し、 マスタ系の第2のハードディスク装置からデータを読み
出してスレーブ系の第1のハードディスク装置に書き込
み、前記不良記憶領域におけるデータを復旧させること
を特徴とする二重化されたハードディスク装置のエラー
復旧方法。
2. The system according to claim 1, wherein when a defective storage area is detected in the first hard disk device of the master system at the time of writing data, the first hard disk device is switched to the slave system and the second hard disk device is changed to the master system. Switching, performing a replacement process for the defective storage area, reading data from a second hard disk device of a master system, writing the data to a first hard disk device of a slave system, and restoring data in the defective storage region. Error recovery method for duplicated hard disk drive.
【請求項3】 請求項1において、 データの読み出し時に第1または第2のハードディスク
装置に不良記憶領域を検出すると、前記不良記憶領域の
代替処理を実施し、 正常にデータを書き込むことができたハードディスク装
置からデータを読み出して異常のあったハードディスク
装置に書き込み、前記不良記憶領域におけるデータを復
旧させることを特徴とする二重化されたハードディスク
装置のエラー復旧方法。
3. The data storage device according to claim 1, wherein when a defective storage area is detected in the first or second hard disk device at the time of reading data, the replacement processing of the defective storage area is performed, and data can be normally written. An error recovery method for a duplicated hard disk drive, comprising reading data from the hard disk drive, writing the data to the failed hard disk drive, and recovering the data in the defective storage area.
【請求項4】 第1のハードディスク装置と第2のハー
ドディスク装置とを備えたことを特徴とする二重化され
たハードディスク装置のエラー復旧装置において、 第1のハードディスク装置の駆動を制御するとともに、
第1のハードディスク装置に不良記憶領域を検出すると
エラー通知信号を出力し、不良記憶領域の代替処理と不
良記憶領域におけるデータの復旧処理とを実施する第1
のDK制御部と、 第2のハードディスク装置の駆動を制御するとともに、
第2のハードディスク装置に不良記憶領域を検出すると
エラー通知信号を出力し、不良記憶領域の代替処理と不
良記憶領域におけるデータの復旧処理とを実施する第2
のDK制御部と、 前記エラー通知信号を受信すると前記各DK制御部によ
る不良記憶領域の代替処理とデータの復旧処理とを起動
させるエラー復旧起動部とを備えたことを特徴とする二
重化されたハードディスク装置のエラー復旧装置。
4. A duplicated hard disk drive error recovery device comprising a first hard disk drive and a second hard disk drive, wherein the drive of the first hard disk drive is controlled,
When a defective storage area is detected in the first hard disk device, an error notification signal is output, and a first processing for replacing the defective storage area and restoring data in the defective storage area is performed.
DK control unit, and controls the driving of the second hard disk drive,
When a defective storage area is detected in the second hard disk device, an error notification signal is output, and the second processing for replacing the defective storage area and processing for restoring data in the defective storage area is performed.
A DK control unit, and an error recovery start unit that starts the replacement process of the defective storage area and the data recovery process by each of the DK control units upon receiving the error notification signal. Error recovery device for hard disk drive.
【請求項5】 請求項4において、 前記第1および第2のDK制御部の駆動を制御するとと
もに、前記各ハードディスク装置の系情報を管理するD
K共通制御部を備えたことを特徴とする二重化されたハ
ードディスク装置のエラー復旧装置。
5. The system according to claim 4, further comprising: a controller that controls driving of the first and second DK control units and manages system information of each of the hard disk devices.
An error recovery device for a duplicated hard disk drive, comprising a K common control unit.
【請求項6】 請求項4において、 前記第1および第2のDK制御部同士を接続する交絡バ
スを備え、正常なハードディスク装置から読みだされた
データを、不良記憶領域の代替処理の実施されたハード
ディスク装置に前記交絡バスを介して送信しデータの復
旧を実施することを特徴とする二重化されたハードディ
スク装置のエラー復旧装置。
6. The system according to claim 4, further comprising a confounding bus connecting the first and second DK control units, wherein data read from a normal hard disk device is subjected to a process of replacing a defective storage area. An error recovery device for a duplicated hard disk device, which transmits data to the hard disk device via the confounding bus and recovers data.
JP9027784A 1997-02-12 1997-02-12 Method and device for error recovery of doubled hard disk drives Pending JPH10222315A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9027784A JPH10222315A (en) 1997-02-12 1997-02-12 Method and device for error recovery of doubled hard disk drives

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9027784A JPH10222315A (en) 1997-02-12 1997-02-12 Method and device for error recovery of doubled hard disk drives

Publications (1)

Publication Number Publication Date
JPH10222315A true JPH10222315A (en) 1998-08-21

Family

ID=12230613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9027784A Pending JPH10222315A (en) 1997-02-12 1997-02-12 Method and device for error recovery of doubled hard disk drives

Country Status (1)

Country Link
JP (1) JPH10222315A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006120042A (en) * 2004-10-25 2006-05-11 Fuji Xerox Co Ltd Disk array device
JP2006276965A (en) * 2005-03-28 2006-10-12 Oki Electric Ind Co Ltd Defective block detecting method and defective block detecting device
JP2007058327A (en) * 2005-08-22 2007-03-08 Hitachi Ltd Storage device, data restoration method and data access method
JP2008140383A (en) * 2006-11-29 2008-06-19 Internatl Business Mach Corp <Ibm> Device, method, data carrier and computer program related to synchronization of controller firmware download
JP2008158768A (en) * 2006-12-22 2008-07-10 Fujitsu Ltd Control method for information storage device, information storage device, program, and computer-readable information storage medium
US7664981B2 (en) * 2004-07-22 2010-02-16 Samsung Electronics Co., Ltd. Method of restoring source data of hard disk drive and method of reading system information thereof
JP2016143409A (en) * 2015-02-02 2016-08-08 株式会社東芝 Memory system

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664981B2 (en) * 2004-07-22 2010-02-16 Samsung Electronics Co., Ltd. Method of restoring source data of hard disk drive and method of reading system information thereof
JP2006120042A (en) * 2004-10-25 2006-05-11 Fuji Xerox Co Ltd Disk array device
JP4609034B2 (en) * 2004-10-25 2011-01-12 富士ゼロックス株式会社 Disk array device
JP2006276965A (en) * 2005-03-28 2006-10-12 Oki Electric Ind Co Ltd Defective block detecting method and defective block detecting device
JP2007058327A (en) * 2005-08-22 2007-03-08 Hitachi Ltd Storage device, data restoration method and data access method
JP2008140383A (en) * 2006-11-29 2008-06-19 Internatl Business Mach Corp <Ibm> Device, method, data carrier and computer program related to synchronization of controller firmware download
US8352932B2 (en) 2006-11-29 2013-01-08 International Business Machines Corporation Synchronizing controller firmware download
JP2008158768A (en) * 2006-12-22 2008-07-10 Fujitsu Ltd Control method for information storage device, information storage device, program, and computer-readable information storage medium
JP2016143409A (en) * 2015-02-02 2016-08-08 株式会社東芝 Memory system

Similar Documents

Publication Publication Date Title
JP4884885B2 (en) Storage controller and storage controller failure recovery method
JP3618529B2 (en) Disk array device
US20020038436A1 (en) Disk array apparatus, error control method for the same apparatus, and control program for the same method
US6052758A (en) Interface error detection and isolation in a direct access storage device DASD system
JP2743606B2 (en) Array type recording device
JPH04205519A (en) Writing method of data under restoration
JPH11353129A (en) Magnetic disk drive capable of having magnetic disk replaced in operation and replacing method for magnetic disk
JP3904894B2 (en) Backup management method and storage control device used in this method
JPH10222315A (en) Method and device for error recovery of doubled hard disk drives
JPH1195933A (en) Disk array system
JP5817296B2 (en) Control device, control method, and storage device
US7779293B2 (en) Technology to control input/output device bridges
JP3937878B2 (en) Magnetic tape device, control method thereof, and program for controlling magnetic tape device
JP3399398B2 (en) Mirror Disk Recovery Method in Fault Tolerant System
JP3120753B2 (en) Disk array unit failure recovery device
JP2002373059A (en) Method for recovering error of disk array, and controller and device for disk array
JP2005107675A (en) Disk array controller and method for duplicating disk drive
JP2830840B2 (en) Disk array repair processing method and method
JP4190756B2 (en) Magnetic tape array controller and write data recovery method using the same
JP3015631B2 (en) Disk failure automatic recovery processing method
JPH05127837A (en) Disk array device
JPH11154058A (en) Disk array device and data maintaining method
JPH0962461A (en) Automatic data restoring method for disk array device
JP2000330731A (en) Recording medium controller
JP2002007220A (en) Multiple memory system