JP2005284449A - Information recording medium array system and its restoration method - Google Patents

Information recording medium array system and its restoration method Download PDF

Info

Publication number
JP2005284449A
JP2005284449A JP2004094307A JP2004094307A JP2005284449A JP 2005284449 A JP2005284449 A JP 2005284449A JP 2004094307 A JP2004094307 A JP 2004094307A JP 2004094307 A JP2004094307 A JP 2004094307A JP 2005284449 A JP2005284449 A JP 2005284449A
Authority
JP
Japan
Prior art keywords
information recording
inoperable
recording medium
array
medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004094307A
Other languages
Japanese (ja)
Inventor
Junta Tanaka
淳太 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004094307A priority Critical patent/JP2005284449A/en
Publication of JP2005284449A publication Critical patent/JP2005284449A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a disk array system for efficiently restoring a disk array when the disk array is put into an inoperable state. <P>SOLUTION: A disk array controller 13 is provided with an inoperable disk recording table 1 for recording an order in which a hard disk device is put into an inoperable state and the identification information and failure factor of the hard disk device. When the disk array is put into an inoperable state, a writing processing part 2 records the identification information of the hard disk device which is put into the inoperable state and its order and failure factor in the inoperable disk recording table 1. At the time of restarting the hard disk device after removing the factor of the inoperable state, a decision processing part 3 refers to the inoperable disk recording table 1, and tests any hard disk device other than the hard disk device which has initially been put into the inoperable state, and a reconfiguration processing part reconfigures the hard disk device which is judged to be available by the testing means as a disk array. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、コンピュータ装置に接続される複数のハードディスク装置などの情報記録媒体から構成される媒体アレイと、該媒体アレイを制御する媒体アレイ制御装置とを有する情報記録媒体アレイシステムおよびその復旧方法に関するものであり、特に、2台以上の情報記録媒体に障害が発生して媒体アレイが動作不能状態になった場合にも復旧させることのできるように構成された情報記録媒体アレイシステムとその復旧方法に関するものである。   The present invention relates to an information recording medium array system having a medium array composed of information recording media such as a plurality of hard disk devices connected to a computer apparatus, and a medium array control apparatus for controlling the medium array, and a recovery method thereof. In particular, an information recording medium array system configured to be able to recover even when a failure occurs in two or more information recording media and the medium array becomes inoperable, and a recovery method therefor It is about.

一般に、ディスクアレイは、複数台のハードディスク装置によって1つの記憶システムを構成している。そのうちの1台の装置に異常が発生しても、他のハードディスク装置の記憶内容を基に、異常が発生した装置の記憶内容を復元して動作を継続するように動作する。このようなディスクアレイシステムの典型な例としては、冗長性のあるRAID(redundant array of independent disks)構成されたディスクアレイシステムがある。冗長性のあるRAIDとしては、RAID−1、3、5などがよく用いられている。   In general, a disk array constitutes one storage system by a plurality of hard disk devices. Even if an abnormality occurs in one of the devices, the storage contents of the device in which the abnormality has occurred are restored based on the storage contents of the other hard disk devices, and the operation is continued. As a typical example of such a disk array system, there is a disk array system configured with redundant RAID (redundant array of independent disks). RAID-1, 3, 5, etc. are often used as redundant RAID.

たとえば、特許文献1に記載されている従来のディスクアレイシステムについて概要を説明すると、システムに電源が投入されると、ディスクアレイの接続状態をチェックし、補助記録装置の構成情報ファイルにそれらの情報を記録し、次に、ディスクアレイシステムの動作として複数のディスク装置を用いたデータの読出し書込みが行われる。その空き時間には、各ディスク装置に異常がないかどうかのチェックを行い、異常がなければ、処理を戻して、チェックを繰返す。   For example, an outline of a conventional disk array system described in Patent Document 1 will be described. When the system is powered on, the connection state of the disk array is checked, and the information is stored in the configuration information file of the auxiliary recording device. Next, data is read and written using a plurality of disk devices as the operation of the disk array system. During the free time, it is checked whether each disk device has an abnormality. If there is no abnormality, the process is returned and the check is repeated.

チェックの結果、異常が検出されれば、その異常ディスク装置以外の全てのディスク装置の空き容量と、異常が発生したディスク装置に格納されていたデータ容量との調査処理を行い、この調査の結果を判断し、その差が予め定められた容量に満たない場合は、ディスクアレイに異常が起こったものとしてその出力を行い、システムの停止処理を行う。   If an error is detected as a result of the check, check the free capacity of all the disk devices other than the abnormal disk device and the data capacity stored in the disk device where the error occurred. If the difference is less than a predetermined capacity, the disk array is output as being abnormal, and the system is stopped.

その容量の差が予め定められた範囲内である場合には、障害が発生したディスク装置に格納されていたデータを正常なディスク装置に格納されているデータを用いて復元し、そのデータを正常なディスク装置に分割して格納するデータ分配処理を行う。   If the difference in capacity is within a predetermined range, the data stored in the failed disk unit is restored using the data stored in the normal disk unit, and the data is restored to normal. Data distribution processing is performed by dividing and storing the data in a different disk device.

また、データ復旧を適切に行うディスクアレイシステムについては、特許文献2に記載のものが公知である。この特許文献2に記載されたディスクアレイシステムによれば、ディスクアレイを構成する複数のディスク装置のうち2台において異常が発生した場合も、フラグを用いて異常発生を管理し、ディスク装置全てに対する読み出しを許可することにより、異常が発生していないディスク装置からは記憶内容を読み出せるものとなっている。
特開平08−190461号公報 特開平11−184642号公報
Also, a disk array system that appropriately performs data recovery is known from Patent Document 2. According to the disk array system described in Patent Document 2, even when an abnormality occurs in two of the plurality of disk devices constituting the disk array, the occurrence of the abnormality is managed using a flag, and all the disk devices are managed. By permitting reading, the stored contents can be read from a disk device in which no abnormality has occurred.
Japanese Patent Laid-Open No. 08-190461 JP-A-11-184642

上記のような従来のディスクアレイシステムにおいて、第1の問題点としては、ディスクアレイ制御装置は複数台のハードディスク装置が同時に故障状態になると、冗長性を保つことが困難になることが挙げられる。すなわち、ディスクアレイ制御装置は、動作の正常性のチェックを、ディスクアレイ構成とされて分散して保存されている情報のパリティによりチェックを行い、冗長性を保っている。しかし、複数台のハードディスク装置が故障状態になるとパリティから正常な情報を算出することが困難になる。   In the conventional disk array system as described above, the first problem is that it becomes difficult for the disk array control device to maintain redundancy when a plurality of hard disk devices are in a failure state at the same time. In other words, the disk array control device checks the normality of the operation based on the parity of the information stored in a distributed manner in the disk array configuration to maintain redundancy. However, when a plurality of hard disk devices are in a failure state, it is difficult to calculate normal information from the parity.

第2の問題点としては、複数台のハードディスク装置が故障状態と認識されると復旧が不可能になることが挙げられる。これは、一台のハードディスク装置が動作不能状態となった場合は、その動作不能状態となったハードディスク装置をディスクアレイ構成(RAID構成)から切り離し、残りのハードディスク装置でディスクアレイ動作を継続するように制御されるが、その場合、切り離されたハードディスク装置と残りのハードディスク装置のデータは同期しなくなる。さらに、次の一台のハードディスク装置が動作不能状態となった場合は、そのハードディスク装置もディスクアレイ構成から切り離すため、複数台のハードディスク装置により1つのディスク装置として動作させる、いわゆるRAID動作が不能となる。   A second problem is that recovery is impossible when a plurality of hard disk devices are recognized as being in a failure state. If one hard disk device becomes inoperable, the hard disk device that has become inoperable is disconnected from the disk array configuration (RAID configuration), and the disk array operation is continued with the remaining hard disk devices. In this case, the data of the disconnected hard disk device and the remaining hard disk devices are not synchronized. Further, when the next hard disk device becomes inoperable, the hard disk device is also disconnected from the disk array configuration, so that a so-called RAID operation in which a plurality of hard disk devices are operated as one disk device is disabled. Become.

この発明は、上記のような問題点を解消するためになされたものであり、本発明の目的は、複数のハードディスク装置から構成されるディスクアレイを備えたディスクアレイシステムにおいて、複数のハードディスク装置が動作不能状態になった場合にも復旧させることのできるディスクアレイ制御装置を提供することにある。   The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a disk array system including a disk array composed of a plurality of hard disk devices. It is an object of the present invention to provide a disk array control device that can be recovered even when it becomes inoperable.

上記の目的を達成するため、本発明によれば、複数の情報記録媒体から構成される媒体アレイと、該媒体アレイを制御する媒体アレイ制御装置とを有する情報記録媒体アレイシステムにおいて、前記媒体アレイ制御装置には、前記複数の情報記録媒体が動作不能状態になった順番および情報記録媒体の識別情報を記録するための各フィールドを有する動作不能媒体記録テーブルと、媒体アレイが動作不能状態となった場合に前記動作不能媒体記録テーブルに動作不能状態になった情報記録媒体の識別情報およびその順番を書き込む書き込み手段と、動作不能状態の原因除去後の再立ち上げ時に前記動作不能媒体記録テーブルを参照して最初に動作不能状態となった情報記録媒体以外の情報記録媒体を検査する検査手段と、前記検査手段により使用可能と判断できた情報記録媒体を媒体アレイとして再構成する復旧手段と、が備えられていることを特徴とする情報記録媒体アレイシステム、が提供される。
また、上記の目的を達成するため、本発明によれば、複数の情報記録媒体から構成される媒体アレイを有する情報記録媒体アレイシステムにおいて、複数の情報記録媒体が故障状態となったことにより情報記録媒体アレイシステムが動作不能に陥った場合の復旧方法であって、最初に故障状態となった情報記録媒体を除き、2番目以降に故障状態となった情報記録媒体を検査し、再使用が可能であるか否かを検証する過程と、2番目以降に故障状態となった情報記録媒体のいずれもが再使用可能であると判断された場合には、最初に故障状態となった情報記録媒体を除いて媒体アレイを構成し新たに構成された媒体アレイを強制的にオンライン状態で立ち上げる過程と、を含むことを特徴とする情報記録媒体アレイシステムの復旧方法、が提供される。
そして、好ましくは、前記媒体アレイが、情報記憶に冗長性を有している。また、好ましくは、前記情報記録媒体は、ハードディスク装置である。
In order to achieve the above object, according to the present invention, in an information recording medium array system comprising a medium array composed of a plurality of information recording media and a medium array controller for controlling the medium array, the medium array The control device includes an inoperable medium recording table having fields for recording the order in which the plurality of information recording media have become inoperable and identification information of the information recording medium, and the medium array in an inoperable state. Writing means for writing the identification information and the order of the information recording media that have become inoperable in the inoperable medium recording table, and the inoperable medium recording table at the time of restart after removing the cause of the inoperable state. An inspection means for inspecting an information recording medium other than the information recording medium which is first inoperable with reference to the inspection means; Information recording medium array system for the recovery means for reconstructing the information recording medium can be judged that allows use as a medium array, characterized in that is provided, is provided.
In order to achieve the above object, according to the present invention, in an information recording medium array system having a medium array composed of a plurality of information recording media, information is obtained when a plurality of information recording media are in a failure state. This is a recovery method in the case where the recording medium array system becomes inoperable. Except for the information recording medium that has failed first, the information recording medium that has failed second and later is inspected and reused. In the process of verifying whether or not it is possible, and when it is determined that any of the information recording media in the second or later failure state is reusable, the information recording in the first failure state And a method of recovering an information recording medium array system, comprising the step of configuring a medium array excluding the medium and forcibly starting the newly configured medium array in an online state. It is.
Preferably, the medium array has redundancy in information storage. Preferably, the information recording medium is a hard disk device.

本発明の媒体アレイシステムにおいては、媒体アレイ制御装置に、複数の情報記録媒体が動作不能状態になった順番、情報記録媒体の識別情報および障害原因を記録するための各フィールドを有する動作不能媒体記録テーブルと、該動作不能媒体記録テーブルに書き込みを行う書き込み手段と、動作不能状態になった情報記録媒体の検査を行う検査手段と、復旧手段とが備えられている。書き込み手段は、ディスクアレイが動作不能状態となった場合に動作不能媒体記録テーブルに動作不能状態になった情報記録媒体の識別情報およびその順番を書き込むので、検査手段が、動作不能状態の原因除去後の再立ち上げ時に前記動作不能ディスク記録テーブルを参照して最初に動作不能状態となった情報記録媒体以外の媒体を検査し、復旧手段が、検査手段により使用可能と判断できた情報記録媒体を媒体アレイとして再構成する。   In the medium array system of the present invention, an inoperable medium having fields for recording the order in which a plurality of information recording media become inoperable, identification information of the information recording medium, and the cause of failure in the medium array control device. A recording table, writing means for writing to the inoperable medium recording table, inspection means for inspecting the information recording medium that has become inoperable, and recovery means are provided. The writing means writes the identification information and the order of the information recording media that have become inoperable in the inoperable medium recording table when the disk array becomes inoperable, so that the inspection means eliminates the cause of the inoperable state. An information recording medium in which a medium other than the information recording medium that was initially inoperable is inspected by referring to the inoperable disk recording table at a subsequent restart, and the recovery means can determine that the inspection means can use the medium As a media array.

これにより、媒体アレイが動作不能状態となった場合にあっても、動作不能状態に至った直接要因の発生元の最初に動作不能状態となった情報記録媒体を除いて、使用可能であると見込まれる情報記録媒体が検査されて、使用可能と判断できた残りの複数の情報記録媒体をオンライン状態で強制的に立ち上げることにより、使用可能な複数の情報記録媒体により媒体アレイを再構成でき、媒体アレイ動作を継続できる。   As a result, even if the medium array becomes inoperable, it can be used except for the information recording medium that has become inoperable at the beginning of the cause of the direct cause of the inoperable state. By checking the possible information recording media and forcibly starting up the remaining information recording media that have been determined to be usable online, the media array can be reconfigured with the available information recording media. The media array operation can be continued.

本発明の情報記録媒体アレイシステムとその復旧方法によれば、ディスクアレイシステムの冗長性をさらに高めることが可能になる。データ損失の大半が複数の情報記録媒体が同時に故障状態に陥るケースであるが、本発明によれば、複数の情報記録媒体が同時に動作不能状態となることを救済して、情報の堅牢性を高めることができる。このため、本発明の情報記録媒体アレイシステムの手法は、ハードディスクアレイシステムばかりでなく他の大容量記憶装置の復旧手段としても好適に利用できる。   According to the information recording medium array system and the restoration method of the present invention, the redundancy of the disk array system can be further increased. The majority of data loss is a case where a plurality of information recording media fall into a failure state at the same time.According to the present invention, it is remedied that a plurality of information recording media become inoperable at the same time. Can be increased. For this reason, the method of the information recording medium array system of the present invention can be suitably used not only as a hard disk array system but also as a recovery means for other large-capacity storage devices.

次に、本発明の実施の形態について図面を参照して詳細に説明する。図1は、本発明によるディスクアレイシステム100の主要部のシステム構成を示すブロック図である。図1に示されるように、ディスクアレイシステム100は、ディスクアレイ5とこれを制御するディスクアレイ制御装置13とにより構成される。ディスクアレイ制御装置13において、1は動作不能ディスク記録テーブル、2は記録手段としてのフェール順序書き込み処理部、3は検査手段としての再使用判定処理部、4は復旧手段としてのRAID構成再構成処理部である。5はディスクアレイ、6はディスクアレイの状態情報を記録している構成情報テーブルである。   Next, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing a system configuration of a main part of a disk array system 100 according to the present invention. As shown in FIG. 1, the disk array system 100 includes a disk array 5 and a disk array controller 13 that controls the disk array 5. In the disk array controller 13, 1 is an inoperable disk recording table, 2 is a fail order write processing unit as a recording unit, 3 is a reuse determination processing unit as an inspection unit, and 4 is a RAID configuration reconfiguration processing as a recovery unit. Part. Reference numeral 5 denotes a disk array, and reference numeral 6 denotes a configuration information table in which state information of the disk array is recorded.

また、7はディスクアレイを構成している複数のハードディスク装置を識別するID情報が記録されるIDフィールド、8はディスクアレイを構成している複数のハードディスク装置の状態情報が記録されるステータスフィールド、9は動作不能状態(フェール状態)となったハードディスク装置の順番の情報が記録される順番フィールド、10は動作不能状態のハードディスク装置を識別するID情報が記録されるIDフィールド、11は動作不能状態のハードディスク装置の障害原因の情報が記録される障害原因フィールド、12はフェール情報操作部である。そして、ディスクアレイ5は複数のハードディスク装置14により構成されている。   7 is an ID field in which ID information for identifying a plurality of hard disk devices constituting the disk array is recorded; 8 is a status field in which status information of the plurality of hard disk devices constituting the disk array is recorded; 9 is an order field in which information on the order of hard disk devices in an inoperable state (fail state) is recorded, 10 is an ID field in which ID information for identifying hard disk devices in an inoperable state is recorded, and 11 is an inoperable state A failure cause field 12 in which information on the cause of failure of the hard disk device is recorded, and 12 is a fail information operation unit. The disk array 5 is composed of a plurality of hard disk devices 14.

図を参照すると、複数のハードディスク装置14から構成されるディスクアレイ5を制御するディスクアレイ制御装置13は、図示されていないコンピュータ装置に接続されており、該コンピュータ装置からのデータ処理の入出力要求に従って、データのハードディスク装置への書き込みおよび読み出しを行う。   Referring to the figure, a disk array control device 13 for controlling a disk array 5 composed of a plurality of hard disk devices 14 is connected to a computer device (not shown), and an input / output request for data processing from the computer device. The data is written to and read from the hard disk device.

その場合に、ディスクアレイ制御装置13は、構成情報テーブル6に記録されているステータス情報、ID情報に従って、RAID構成されているディスクアレイ5の複数のそれぞれのハードディスク装置14を管理して、ディスクアレイ5を制御して、RAID動作させる。ディスクアレイ5のRAID動作はいろいろな動作モードがあるが、公知であり、ここでの発明の内容とは直接関係しないので詳細な説明は省略するが、冗長性のあるRAID動作では、すべてのハードディスク装置14が正常に動作している場合には、構成情報テーブル6のステータスフィールド8にはすべてのハードディスク装置14がオンラインで動作していることが登録されている。ここで、1台のハードディスク装置14が動作不能に陥った場合には、RAID動作によりそのハードディスク装置はディスクアレイ5から切り離され、残りのハードディスク装置により動作が続けられる。そして、障害発生により切り離されたハードディスク装置の構成情報テーブル6におけるステータスは「OFFLINE」書き換えられる。   In this case, the disk array control device 13 manages a plurality of hard disk devices 14 of the disk array 5 configured in RAID according to the status information and ID information recorded in the configuration information table 6, and 5 is controlled to perform RAID operation. Although the RAID operation of the disk array 5 has various operation modes, it is publicly known and is not directly related to the contents of the present invention, so a detailed description is omitted. However, in the redundant RAID operation, all hard disks are used. When the device 14 is operating normally, it is registered in the status field 8 of the configuration information table 6 that all the hard disk devices 14 are operating online. If one hard disk device 14 becomes inoperable, the hard disk device is disconnected from the disk array 5 by the RAID operation, and the operation is continued by the remaining hard disk devices. Then, the status in the configuration information table 6 of the hard disk device that has been disconnected due to the occurrence of a failure is rewritten as “OFFLINE”.

このようなディスクアレイ5を制御し、RAID動作させている場合に2台以上のハードディスク装置に障害が発生してシステムが動作不能状態(フェール状態)になった場合、フェール情報操作部12が起動して、フェール順序書き込み処理部2、再使用判定処理部3、RAID構成再構成処理部4が順次に処理を行い、ディスクアレイ5におけるRAID動作を復旧させる。この復旧動作のために、動作不能ディスク記録テーブル1が用いられる。動作不能ディスク記録テーブル1には、ディスクアレイ5を構成している複数のハードディスク装置14が動作不能状態になった順番、それぞれのハードディスク装置14の識別情報および障害原因を記録するための各フィールドが設けられている。これらの各フィールドに記録する情報により復旧動作を行う。   When such a disk array 5 is controlled and operated in RAID, when two or more hard disk devices fail and the system becomes inoperable (fail state), the fail information operation unit 12 is activated. Then, the fail order write processing unit 2, the reuse determination processing unit 3, and the RAID configuration reconfiguration processing unit 4 perform processing in sequence to restore the RAID operation in the disk array 5. The inoperable disk recording table 1 is used for this recovery operation. The inoperable disk recording table 1 includes fields for recording the order in which the plurality of hard disk devices 14 constituting the disk array 5 are in an inoperable state, identification information of each hard disk device 14 and the cause of failure. Is provided. The recovery operation is performed based on the information recorded in each of these fields.

すなわち、フェール順序書き込み処理部2は、ディスクアレイ5がフェール状態となった場合に、動作不能ディスク記録テーブル1に対して、フェール状態になったハードディスク装置の識別情報、その順番および障害原因を記録する。次に、再使用判定処理部3が、フェール状態の原因を除去した後、例えばフリーズ状態を解消した後、動作不能ディスク記録テーブル1を参照して、最初にフェール状態となったハードディスク装置以外のハードディスク装置14について、これらのハードディスク装置14が再使用可能か否かを障害原因の情報に基づいて検査する。例えば、ハードディスク装置の障害原因をハードディスク装置自体の問題かどうかを判断し、使用可能な場合はハードディスク装置に対し動作確認を行う。つまり、これは、障害発生の直接的な原因が第1番目に動作不能状態となったハードディスク装置にあり、第2番目以降に障害を起こしたハードディスク装置は間接的に障害状態になっている場合が多いためである。RAID構成再構成処理部4は、再立ち上げ時に、検査により使用可能と判断できたハードディスク装置14をオンライン状態で強制的に立ち上げ、ディスクアレイ5として再構成する。すなわち、構成情報テーブル6を書き換える。これにより、RAID動作を継続させる。   That is, when the disk array 5 is in a failed state, the fail order writing processing unit 2 records the identification information, the order, and the cause of failure of the failed hard disk device in the inoperable disk recording table 1. To do. Next, after the cause of the failure state is removed, the reuse determination processing unit 3 refers to the inoperable disk recording table 1 after eliminating the freeze state, for example, other than the hard disk device that has first failed. The hard disk devices 14 are inspected based on failure cause information to determine whether or not these hard disk devices 14 can be reused. For example, it is determined whether or not the cause of the failure of the hard disk device is a problem of the hard disk device itself. In other words, this is the case where the direct cause of the failure is in the hard disk device that has become inoperable for the first time, and the hard disk device that has failed for the second time or later is indirectly in the failed state. This is because there are many. The RAID configuration reconfiguration processing unit 4 forcibly starts up the hard disk device 14 that has been determined to be usable by inspection at the time of restart, and reconfigures it as the disk array 5. That is, the configuration information table 6 is rewritten. As a result, the RAID operation is continued.

このように、本実施の形態によるディスクアレイ制御装置においては、冗長性のあるRAID構成においてハードディスク装置の動作不能状態になった順番および原因を記録するための記録領域と動作不能状態情報をハンドルする処理手段を追加し、複数台の動作不能状態のハードディスク装置があった場合に、原因除去後の再立ち上げ時に最初に動作不能状態となったハードディスク装置以外のハードディスク装置を検査し、使用可能と判断できた場合に、例えば一過性の障害であった場合にオンライン状態で強制的に立ち上げる。   As described above, the disk array control apparatus according to the present embodiment handles the recording area and the inoperability state information for recording the order and cause of the inoperability of the hard disk devices in the redundant RAID configuration. When a processing unit is added and there are multiple hard disk devices that are inoperable, the hard disk devices other than the hard disk device that initially became inoperable when the system is restarted after removing the cause are inspected. If it can be determined, for example, if it is a transient failure, it is forcibly launched in an online state.

冗長性のあるRAID動作において、1台のハードディスク装置が動作不能状態となった場合であっても、その動作不能状態となったハードディスク装置をRAID構成から切り離して、残りのハードディスク装置でRAID動作を継続するようにできるが、そのままRAID動作を継続すると、その場合には、切り離されたハードディスク装置と残りのハードディスク装置のデータは同期しなくなる。さらにもう一台のハードディスク装置が動作不能状態となった場合、そのハードディスク装置もRAID構成から切り離すため、RAID動作が不能となる。   In a redundant RAID operation, even if one hard disk device becomes inoperable, the hard disk device that has become inoperable is disconnected from the RAID configuration, and RAID operations are performed on the remaining hard disk devices. However, if the RAID operation is continued as it is, the data of the disconnected hard disk device and the remaining hard disk devices are not synchronized. Further, when another hard disk device becomes inoperable, the hard disk device is also disconnected from the RAID configuration, and the RAID operation becomes impossible.

この場合、RAID動作へのアクセスが止まることで、後から動作不能状態となったハードディスク装置と残りのハードディスク装置のデータは同期が保たれているので、動作不能状態の原因が一過性の不良、ハードディスク装置以外の原因である場合、それらの原因を取り除けば、ハードディスク装置はそのまま使用可能であり、データの同期が保たれている2台目以降の動作不能状態したハードディスク装置をRAIDに再度組み込む(オンライン状態にする)ことにより、RAIDを再生することができる。   In this case, since the access to the RAID operation is stopped, the data of the hard disk device that has become inoperable later and the data of the remaining hard disk devices are kept in synchronization, so the cause of the inoperable state is a temporary failure. If the cause is other than the hard disk device, the hard disk device can be used as it is if the cause is removed, and the second and subsequent hard disk devices in which data synchronization is maintained are re-installed in the RAID. The RAID can be reproduced by (online state).

本発明のディスクアレイ制御装置によれば、従来のディスクアレイ装置の冗長性をさらに高めることが可能である。データ損失の大半が複数のハードディスク装置が同時に故障状態に陥るケースであるため、本発明を適用することにより、情報の堅牢性を高めることができる。ディスクアレイ制御装置の手法は、他の大容量記憶装置の復旧手段としても好適に利用される。   According to the disk array control apparatus of the present invention, it is possible to further increase the redundancy of the conventional disk array apparatus. Since most of the data loss is a case where a plurality of hard disk devices fall into a failure state at the same time, the robustness of information can be enhanced by applying the present invention. The method of the disk array control device is also preferably used as a recovery means for other mass storage devices.

本発明によるディスクアレイシステムの主要部のシステム構成を示すブロック図。1 is a block diagram showing a system configuration of a main part of a disk array system according to the present invention.

符号の説明Explanation of symbols

1 動作不能ディスク記録テーブル
2 フェール順序書き込み処理部
3 再使用判定処理部
4 RAID構成再構成処理部
5 ディスクアレイ
6 構成情報テーブル
7 IDフィールド
8 ステータスフィールド
9 順番フィールド
10 IDフィールド
11 障害原因フィールド
12 フェール情報操作部
13 ディスクアレイ制御装置
14 ハードディスク装置
100 ディスクアレイシステム

DESCRIPTION OF SYMBOLS 1 Inoperable disk recording table 2 Fail order writing processing unit 3 Reuse determination processing unit 4 RAID configuration reconfiguration processing unit 5 Disk array 6 Configuration information table 7 ID field 8 Status field 9 Order field 10 ID field 11 Failure cause field 12 Fail Information operation unit 13 Disk array controller 14 Hard disk device 100 Disk array system

Claims (6)

複数の情報記録媒体から構成される媒体アレイと、該媒体アレイを制御する媒体アレイ制御装置とを有する情報記録媒体アレイシステムにおいて、
前記媒体アレイ制御装置には、
前記複数の情報記録媒体が動作不能状態になった順番および情報記録媒体の識別情報を記録するための各フィールドを有する動作不能媒体記録テーブルと、
媒体アレイが動作不能状態となった場合に前記動作不能媒体記録テーブルに動作不能状態になった情報記録媒体の識別情報およびその順番を書き込む書き込み手段と、
動作不能状態の原因除去後の再立ち上げ時に前記動作不能媒体記録テーブルを参照して最初に動作不能状態となった情報記録媒体以外の情報記録媒体を検査する検査手段と、
前記検査手段により使用可能と判断できた情報記録媒体を媒体アレイとして再構成する復旧手段と、
が備えられていることを特徴とする情報記録媒体アレイシステム。
In an information recording medium array system having a medium array composed of a plurality of information recording media and a medium array control device for controlling the medium array,
The media array controller includes
An inoperable medium recording table having fields for recording the order in which the plurality of information recording media are inoperable and identification information of the information recording medium;
A writing means for writing identification information of an information recording medium that has become inoperable and an order thereof in the inoperable medium recording table when the medium array becomes inoperable;
An inspection means for inspecting an information recording medium other than the information recording medium first inoperable by referring to the inoperable medium recording table at the time of restart after the cause of the inoperable state is removed;
A recovery means for reconfiguring the information recording medium determined to be usable by the inspection means as a medium array;
An information recording medium array system comprising:
前記媒体アレイが、情報記憶に冗長性を有していることを特徴とする請求項1に記載の情報記録媒体アレイシステム。 2. The information recording medium array system according to claim 1, wherein the medium array has redundancy in information storage. 前記動作不能媒体記録テーブルには、動作不能状態となった前記情報記録媒体の障害原因を記録するためのフィールドも設けられており、前記書き込み手段は動作不能状態となった前記情報記録媒体の障害原因を障害原因フィールドの該当欄に書き込むことを特徴とする請求項1または2に記載の情報記録媒体アレイシステム。 The inoperable medium recording table is also provided with a field for recording the cause of failure of the information recording medium that has become inoperable, and the failure of the information recording medium in which the writing means has become inoperable. 3. The information recording medium array system according to claim 1, wherein the cause is written in a corresponding field of the failure cause field. 前記情報記録媒体が、ハードディスク装置であることを特徴とする請求項1から3のいずれかに記載の情報記録媒体アレイシステム。 4. The information recording medium array system according to claim 1, wherein the information recording medium is a hard disk device. 複数の情報記録媒体から構成される媒体アレイを有する情報記録媒体アレイシステムにおいて、複数の情報記録媒体が故障状態となったことにより情報記録媒体アレイシステムが動作不能に陥った場合の復旧方法であって、
最初に故障状態となった情報記録媒体を除き、2番目以降に故障状態となった情報記録媒体を検査し、再使用が可能であるか否かを検証する過程と、2番目以降に故障状態となった情報記録媒体のいずれもが再使用可能であると判断された場合には、最初に故障状態となった情報記録媒体を除いて媒体アレイを構成し新たに構成された媒体アレイを強制的にオンライン状態で立ち上げる過程と、を含むことを特徴とする情報記録媒体アレイシステムの復旧方法。
In an information recording medium array system having a medium array composed of a plurality of information recording media, this is a recovery method when the information recording medium array system becomes inoperable due to a plurality of information recording media having failed. And
Excluding the information recording medium that has failed first, the process of inspecting the information recording medium that has failed second and later, and verifying whether it can be reused, and the second and subsequent failures If it is determined that any of the recorded information recording media can be reused, the media array is configured except for the information recording medium that has first failed, and the newly configured media array is forced. And a method for recovering an information recording medium array system, comprising:
前記媒体アレイでは冗長性のあるRAID動作が行われることを特徴とする請求項5に記載の情報記録媒体アレイシステムの復旧方法。
6. The information recording medium array system recovery method according to claim 5, wherein a redundant RAID operation is performed in the medium array.
JP2004094307A 2004-03-29 2004-03-29 Information recording medium array system and its restoration method Pending JP2005284449A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004094307A JP2005284449A (en) 2004-03-29 2004-03-29 Information recording medium array system and its restoration method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004094307A JP2005284449A (en) 2004-03-29 2004-03-29 Information recording medium array system and its restoration method

Publications (1)

Publication Number Publication Date
JP2005284449A true JP2005284449A (en) 2005-10-13

Family

ID=35182788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004094307A Pending JP2005284449A (en) 2004-03-29 2004-03-29 Information recording medium array system and its restoration method

Country Status (1)

Country Link
JP (1) JP2005284449A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007188624A (en) * 2006-01-12 2007-07-26 Samsung Electronics Co Ltd Hybrid hard disk drive control method, recording medium, and hybrid hard disk drive
JP2014119831A (en) * 2012-12-13 2014-06-30 Fujitsu Ltd Storage device, control method and control program
US9047219B2 (en) 2011-08-17 2015-06-02 Fujitsu Limited Storage system, storage control device, and storage control method
CN113590406A (en) * 2021-08-16 2021-11-02 湖南博匠信息科技有限公司 Method and system for detecting solid state disk fault based on electrical variable

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007188624A (en) * 2006-01-12 2007-07-26 Samsung Electronics Co Ltd Hybrid hard disk drive control method, recording medium, and hybrid hard disk drive
US9047219B2 (en) 2011-08-17 2015-06-02 Fujitsu Limited Storage system, storage control device, and storage control method
JP2014119831A (en) * 2012-12-13 2014-06-30 Fujitsu Ltd Storage device, control method and control program
CN113590406A (en) * 2021-08-16 2021-11-02 湖南博匠信息科技有限公司 Method and system for detecting solid state disk fault based on electrical variable

Similar Documents

Publication Publication Date Title
US9189311B2 (en) Rebuilding a storage array
TWI479309B (en) Apparatus and method for controlling a solid state disk
JP2002108573A (en) Disk array device and method for controlling its error and recording medium with its control program recorded thereon
KR100711165B1 (en) Apparatus, method and recording medium for the control of storage
US7620786B2 (en) Storage recovery using a delta log
JP4852118B2 (en) Storage device and logical disk management method
WO2017097233A1 (en) Fault tolerance method for data storage load and iptv system
US20070234107A1 (en) Dynamic storage data protection
JP4203034B2 (en) Array controller, media error repair method and program
US7600151B2 (en) RAID capacity expansion interruption recovery handling method and system
JP2006079219A (en) Disk array controller and disk array control method
JP2005284449A (en) Information recording medium array system and its restoration method
JP2868001B1 (en) Disk array device control method and disk array device
JP2009245391A (en) Information processor, error processing method, and program
JP2006260376A (en) Storage device and media error restoring method
JP5644795B2 (en) Storage device, data recovery method and program
KR20110039416A (en) Data storage method, apparatus and system for interrupted write recovery
JP2007115162A (en) Double storage method of data
JP4947062B2 (en) Storage device, recording recovery method, recording recovery program
JP2008084168A (en) Information processor and data restoration method
JPH08190461A (en) Disk array system
JP2005149248A (en) Metadata restoration system, method thereof, storage device and program therefor
JP7513294B2 (en) STORAGE APPARATUS, STORAGE SYSTEM, FAILURE RECOVERY METHOD, AND PROGRAM
JP2004126878A (en) Data writing and data writing/reading device, and data writing and data writing/reading method
JP2003177876A (en) Disk array device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080626