JP2010134696A - Raid controller device, processing method, raid controller circuit and program - Google Patents

Raid controller device, processing method, raid controller circuit and program Download PDF

Info

Publication number
JP2010134696A
JP2010134696A JP2008309945A JP2008309945A JP2010134696A JP 2010134696 A JP2010134696 A JP 2010134696A JP 2008309945 A JP2008309945 A JP 2008309945A JP 2008309945 A JP2008309945 A JP 2008309945A JP 2010134696 A JP2010134696 A JP 2010134696A
Authority
JP
Japan
Prior art keywords
failure
hard disk
raid controller
restart
hard disks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008309945A
Other languages
Japanese (ja)
Inventor
Madoka Komatsubara
円 小松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008309945A priority Critical patent/JP2010134696A/en
Publication of JP2010134696A publication Critical patent/JP2010134696A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To perform restoration without replacement of a hard disk in the event of false detection of a hard disk failure even if there is no failure in the hard disk. <P>SOLUTION: A failure detection unit 11 detects a failure which is caused in hard disk drives 20-1 to 20-N. A restart unit 14 restarts the RAID controller device 10 when the failure detection unit 11 detects a plurality of failures of the hard disk drives 20-1 to 20-N within a predetermined time, and a reconfiguration unit 16 reconfigures, when restarting the RAID controller device 10, a logic drive based on logic drive configuration information stored by the hard disk drives 20-1 to 20-N. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、冗長性を有する複数のハードディスクの配列を1つの仮想的記憶手段として運用するRAIDコントローラ装置、処理方法、RAIDコントローラ回路及びプログラムに関する。   The present invention relates to a RAID controller device, a processing method, a RAID controller circuit, and a program that operate an array of a plurality of redundant hard disks as one virtual storage means.

従来、ハードディスク等の記憶媒体の故障によるデータの損失防止、及び入出力の処理性能の向上のために、RAID(Redundant Array of Inexpensive Disks)という技術が用いられている(例えば、特許文献1を参照)。RAIDは、冗長性を有する複数のハードディスクを仮想的に1つのハードディスクとして運用する技術であり、データを冗長化することで、あるハードディスクが故障しても全体としてのデータの損失がないようにする技術である。   Conventionally, a technique called RAID (Redundant Array of Inexpensive Disks) is used to prevent data loss due to a failure of a storage medium such as a hard disk and to improve input / output processing performance (see, for example, Patent Document 1). ). RAID is a technology for operating a plurality of redundant hard disks virtually as a single hard disk. By making data redundant, even if a hard disk fails, there is no loss of data as a whole. Technology.

通常、コンピュータにRAIDを適用する場合、RAIDコントローラという装置がハードディスクのデータ構成及び管理を行う。RAIDコントローラは、ハードディスクが故障した場合、ハードディスクの故障を検知し、故障したハードディスクを論理的に切り離し、他のハードディスクを用いてコンピュータを運用する。また、切り離したハードディスクをユーザが故障していないハードディスクに取り替えると、RAIDコントローラは、他のハードディスクの情報から元のハードディスクの情報を再生し、再生した情報を取り替えたハードディスクに書き込むことで、データの再構成を行う。
特開2002−373059号公報
Normally, when RAID is applied to a computer, a device called a RAID controller performs data configuration and management of the hard disk. When a hard disk fails, the RAID controller detects a hard disk failure, logically separates the failed hard disk, and operates the computer using another hard disk. When the user replaces the disconnected hard disk with a hard disk that has not failed, the RAID controller reproduces the information on the original hard disk from the information on the other hard disks, and writes the reproduced information on the replaced hard disk. Perform reconfiguration.
JP 2002-373059 A

しかしながら、従来のRAIDコントローラでは、ハードディスクが故障していないにも関わらず、RAIDコントローラとハードディスク間の通信経路の一時的な異常等により、一時的にハードディスクにアクセスできなくなった場合に、ハードディスクが故障していると誤った判定を行ってしまう場合があった。この場合、ユーザは、ハードディスクが故障していないにも関わらず、障害が検出された全てのハードディスクを交換し、データの再構成を行う必要があり、長時間の復旧作業を実行する必要があった。
本発明は上記の点に鑑みてなされたものであり、その目的は、ハードディスクが故障していないにも関わらず、ハードディスク障害が誤って検出された場合に、ハードディスクの交換を行わずに復旧するRAIDコントローラ装置、処理方法、RAIDコントローラ回路及びプログラムを提供することにある。
However, in the case of a conventional RAID controller, if the hard disk cannot be accessed due to a temporary abnormality in the communication path between the RAID controller and the hard disk even though the hard disk has not failed, the hard disk has failed. In some cases, incorrect judgments were made. In this case, the user needs to replace all the hard disks in which the failure is detected and perform data reconstruction even though the hard disk has not failed, and to perform a long recovery operation. It was.
The present invention has been made in view of the above points, and an object of the present invention is to recover without replacing a hard disk when a hard disk failure is detected erroneously even though the hard disk has not failed. A RAID controller device, a processing method, a RAID controller circuit, and a program are provided.

本発明は上記の課題を解決するためになされたものであり、予め仮想記憶手段の構成情報を記憶するハードディスクを複数組み合わせ、1つの論理的な仮想記憶手段として動作させるRAIDコントローラ装置であって、前記複数のハードディスクそれぞれの障害を検出する障害検出手段と、前記障害検出手段が所定の時間内に複数のハードディスクの障害を検出した場合に自装置を再起動させる再起動手段と、再起動時に、前記構成情報に基づいて前記仮想記憶手段を再構築する再構築手段と、を備えることを特徴とする。   The present invention has been made to solve the above problems, and is a RAID controller device that combines a plurality of hard disks that store configuration information of virtual storage means in advance and operates as one logical virtual storage means, A failure detecting means for detecting a failure of each of the plurality of hard disks; a restarting means for restarting the apparatus when the failure detecting means detects a failure of a plurality of hard disks within a predetermined time; and Reconstructing means for reconstructing the virtual storage means based on the configuration information.

また、本発明は、予め仮想記憶手段の構成情報を記憶するハードディスクを複数組み合わせ、1つの論理的な仮想記憶手段として動作させるRAIDコントローラ装置を用いた処理方法であって、障害検出手段は、前記複数のハードディスクそれぞれの障害を検出し、再起動手段は、前記障害検出手段が所定の時間内に複数のハードディスクの障害を検出した場合に自装置を再起動させ、再構築手段は、再起動時に、前記構成情報に基づいて前記仮想記憶手段を再構築する、ことを特徴とする。   Further, the present invention is a processing method using a RAID controller device that combines a plurality of hard disks that store configuration information of virtual storage means in advance and operates as one logical virtual storage means, wherein the failure detection means A failure detecting unit detects a failure of each of the plurality of hard disks, and the restarting unit restarts the apparatus when the failure detecting unit detects a failure of the plurality of hard disks within a predetermined time. The virtual storage means is reconstructed based on the configuration information.

また、本発明は、予め仮想記憶手段の構成情報を記憶するハードディスクを複数組み合わせ、1つの論理的な仮想記憶手段として動作させるRAIDコントローラ回路であって、前記複数のハードディスクそれぞれの障害を検出する障害検出回路と、前記障害検出手段が所定の時間内に複数のハードディスクの障害を検出した場合に自装置を再起動させる再起動回路と、再起動時に、前記構成情報に基づいて前記仮想記憶手段を再構築する再構築回路と、を備えることを特徴とする。   The present invention also provides a RAID controller circuit that combines a plurality of hard disks that store virtual storage unit configuration information in advance and operates as a single logical virtual storage unit, and detects a failure of each of the plurality of hard disks. A detection circuit, a restart circuit for restarting the apparatus when the failure detection means detects a failure of a plurality of hard disks within a predetermined time, and the virtual storage means based on the configuration information at the time of restart. And a reconstructing circuit for restructuring.

また、本発明は、予め仮想記憶手段の構成情報を記憶するハードディスクを複数組み合わせ、1つの論理的な仮想記憶手段として動作させるRAIDコントローラ装置を、前記複数のハードディスクそれぞれの障害を検出する障害検出手段、前記障害検出手段が所定の時間内に複数のハードディスクの障害を検出した場合に自装置を再起動させる再起動手段、再起動時に、前記構成情報に基づいて前記仮想記憶手段を再構築する再構築手段、として動作させるためのプログラムである。   Also, the present invention provides a RAID controller device that combines a plurality of hard disks that store virtual storage unit configuration information in advance and operates as a single logical virtual storage unit, and detects failure of each of the plurality of hard disks. A restart unit that restarts the device when the failure detection unit detects a failure of a plurality of hard disks within a predetermined time, and a reconfiguration that reconstructs the virtual storage unit based on the configuration information at the time of restart. It is a program for operating as construction means.

本発明によれば、再起動手段は、ハードディスクの障害を所定の時間内に複数検出した場合にRAIDコントローラ装置を再起動させる。複数のハードディスクが近いタイミングで故障する可能性は低いため、この場合、ノイズの混入等による障害検出手段とハードディスク間の通信経路の一時的な異常等、ハードディスクの故障以外の原因である可能性が高い。そのため、RAIDコントローラ装置を再起動させることにより、再構築手段が、構成情報に基づいて前記仮想記憶手段を再構築することで、仮想的な記憶手段の復旧を試みることができる。   According to the present invention, the restarting means restarts the RAID controller device when a plurality of hard disk failures are detected within a predetermined time. Since it is unlikely that multiple hard disks will fail at close timing, in this case, there may be a cause other than hard disk failure, such as a temporary failure in the communication path between the failure detection means and the hard disk due to noise contamination. high. Therefore, by restarting the RAID controller device, the rebuilding unit can attempt to restore the virtual storage unit by rebuilding the virtual storage unit based on the configuration information.

以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態によるRAIDコントローラ装置の構成を示す概略ブロック図である。
RAIDコントローラ装置10は、複数のハードディスク装置20−1〜20−Nに接続経路3(バス)を介して接続されている。また、RAIDコントローラ装置10は、ハードディスク装置20−1〜20−Nを組み合わせて論理ドライブ(仮想記憶手段)を構築し、当該論理ドライブをコンピュータ1に認識させて運用する。
また、RAIDコントローラ装置1は、障害検出部11と、障害検出パターン監視部12と、ハードディスク情報記憶部13と、再起動部14と、再起動回数記憶部15と、再構築部16と、を備える。
障害検出部11は、接続経路30を介して、ハードディスク装置20−1〜20−Nに発生した障害を検出する。
障害検出パターン監視部12は、ハードディスク装置20−1〜20−Nの障害を所定の時間内に複数検出しているか否かを判定する。
ハードディスク情報記憶部13は、障害を検出したハードディスク装置20−1〜20−Nの識別番号と、障害を検出した時間とを関連付けて記憶する。
再起動部14は、RAIDコントローラ装置1を再起動させる。
再起動回数記憶部15は、再起動部14がRAIDコントローラ装置1を再起動させた回数を示す再起動回数を記憶する。
再構築部16は、ハードディスク装置20−1〜20−Nが記憶する論理ドライブの構成情報に基づいて論理ドライブを再構築する。
また、ハードディスク装置20−1〜20−Nは、ハードディスク21と制御部2222とを備える。
ハードディスク21は、予めRAIDの仕様や論理ドライブが記憶するデータ等の論理ドライブの構成情報を記憶する。
制御部2222は、ハードディスク21の障害検出を行う。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a schematic block diagram showing the configuration of a RAID controller device according to an embodiment of the present invention.
The RAID controller device 10 is connected to a plurality of hard disk devices 20-1 to 20-N via a connection path 3 (bus). Further, the RAID controller device 10 constructs a logical drive (virtual storage means) by combining the hard disk devices 20-1 to 20-N, and causes the computer 1 to recognize and operate the logical drive.
The RAID controller device 1 also includes a failure detection unit 11, a failure detection pattern monitoring unit 12, a hard disk information storage unit 13, a restart unit 14, a restart count storage unit 15, and a reconstruction unit 16. Prepare.
The failure detection unit 11 detects a failure that has occurred in the hard disk devices 20-1 to 20 -N via the connection path 30.
The failure detection pattern monitoring unit 12 determines whether a plurality of failures of the hard disk devices 20-1 to 20-N are detected within a predetermined time.
The hard disk information storage unit 13 stores the identification numbers of the hard disk devices 20-1 to 20-N that have detected the failure in association with the time at which the failure was detected.
The restart unit 14 restarts the RAID controller device 1.
The restart number storage unit 15 stores a restart number indicating the number of times the restart unit 14 restarts the RAID controller device 1.
The reconstruction unit 16 reconstructs the logical drive based on the logical drive configuration information stored in the hard disk devices 20-1 to 20-N.
In addition, the hard disk devices 20-1 to 20 -N include a hard disk 21 and a control unit 2222.
The hard disk 21 stores configuration information of the logical drive such as RAID specifications and data stored in the logical drive in advance.
The control unit 2222 detects a failure of the hard disk 21.

そして、本実施形態のRAIDコントローラ装置1においては、障害検出部11がハードディスク装置20−1〜20−Nに発生した障害を検出し、障害検出部11がハードディスク装置20−1〜20−Nの障害を所定の時間内に複数検出した場合に再起動部14が自装置を再起動させ、再構築部16が再起動時にハードディスク装置20−1〜20−Nのハードディスク21が記憶する論理ドライブの構成情報に基づいて論理ドライブを再構築する。
これにより、ハードディスク装置20−1〜20−Nが故障していないにも関わらず、ハードディスク障害が誤って検出された場合に、RAIDコントローラ装置1は、ハードディスクの交換を行わずに論理ドライブの復旧を行う。
In the RAID controller device 1 of the present embodiment, the failure detection unit 11 detects a failure that has occurred in the hard disk devices 20-1 to 20-N, and the failure detection unit 11 includes the hard disk devices 20-1 to 20-N. When a plurality of failures are detected within a predetermined time, the restart unit 14 restarts the own device, and the rebuilding unit 16 stores the logical drives stored in the hard disks 21 of the hard disk devices 20-1 to 20-N at the time of restart. Rebuild the logical drive based on the configuration information.
As a result, when the hard disk failure is erroneously detected even though the hard disk devices 20-1 to 20-N have not failed, the RAID controller device 1 restores the logical drive without replacing the hard disk. I do.

次に、RAIDコントローラ装置1の動作を説明する。
図2は、RAIDコントローラ装置の動作を示すフローチャートである。
まず、障害検出部11は、ハードディスク装置20−1〜20−Nと通信を行い、ハードディスク装置20−1〜20−Nの障害の有無を判定する(ステップS1)。
障害の有無の判定は、例えば以下のように行う。
障害検出部11は、接続経路30を介して、各ハードディスク装置20−1〜20−Nの制御部22に障害検出信号を送信する。各ハードディスク装置20−1〜20−Nの制御部22は、障害検出信号を受信すると、対応するハードディスク21の障害判定を行う。
制御部22は、障害判定の結果、ハードディスク21に障害が発生していないと判定した場合、障害検出部11に障害検出信号に対する応答信号を送信する。他方、制御部22は、障害判定の結果、ハードディスク21に障害が発生していると判定した場合、障害検出部11に障害検出信号に対する応答信号を送信しない。
障害検出部11は、ハードディスク装置20−1〜20−Nの制御部22から応答信号を受信した場合、障害が発生していないと判定し、ハードディスク装置20−1〜20−Nの制御部22から応答信号を受信できない場合、障害が発生していると判定する。
このとき、ノイズの混入等によって接続経路30に一時的な異常が発生した場合にも、障害検出部11は、応答信号を受信できないため、応答信号を受信できなかったハードディスク装置20−1〜20−Nに障害が発生していると判定する。
Next, the operation of the RAID controller device 1 will be described.
FIG. 2 is a flowchart showing the operation of the RAID controller device.
First, the failure detection unit 11 communicates with the hard disk devices 20-1 to 20-N, and determines whether there is a failure in the hard disk devices 20-1 to 20-N (step S1).
The determination of the presence or absence of a failure is performed as follows, for example.
The failure detection unit 11 transmits a failure detection signal to the control unit 22 of each of the hard disk devices 20-1 to 20-N via the connection path 30. When the control unit 22 of each of the hard disk devices 20-1 to 20-N receives the failure detection signal, it determines the failure of the corresponding hard disk 21.
As a result of the failure determination, the control unit 22 transmits a response signal to the failure detection signal to the failure detection unit 11 when it is determined that no failure has occurred in the hard disk 21. On the other hand, when it is determined that a failure has occurred in the hard disk 21 as a result of the failure determination, the control unit 22 does not transmit a response signal for the failure detection signal to the failure detection unit 11.
When the failure detection unit 11 receives a response signal from the control unit 22 of the hard disk devices 20-1 to 20-N, the failure detection unit 11 determines that no failure has occurred, and the control unit 22 of the hard disk devices 20-1 to 20-N. If a response signal cannot be received from the mobile phone, it is determined that a failure has occurred.
At this time, even when a temporary abnormality occurs in the connection path 30 due to noise or the like, the failure detection unit 11 cannot receive the response signal, and thus the hard disk devices 20-1 to 20-20 that have not received the response signal. -N determines that a failure has occurred.

ステップS1により、障害検出部11が、全てのハードディスク装置20−1〜20−Nに障害が発生していないと判定した場合(ステップS1:NO)、RAIDコントローラ装置10は、ステップS1に戻り、引き続きハードディスク装置20−1〜20−Nの障害の検出を継続する。なお、障害の検出は、所定の間隔毎に行われる。
他方、障害検出部11は、少なくとも1つのハードディスク装置20−1〜20−Nに障害が発生していると判定した場合(ステップS1:YES)、障害が発生していると判定したハードディスク装置20−1〜20−NをRAIDの構成から論理的に切り離す(ステップS2)。
If the failure detection unit 11 determines in step S1 that no failure has occurred in all the hard disk devices 20-1 to 20-N (step S1: NO), the RAID controller device 10 returns to step S1, Subsequently, the failure detection of the hard disk devices 20-1 to 20-N is continued. The failure detection is performed at predetermined intervals.
On the other hand, when it is determined that a failure has occurred in at least one of the hard disk devices 20-1 to 20-N (step S1: YES), the failure detection unit 11 determines that a failure has occurred. -1 to 20-N are logically separated from the RAID configuration (step S2).

障害検出部11がハードディスク装置20−1〜20−Nの切り離しを行うと、障害検出パターン監視部12は、障害検出部11から障害を検出したハードディスク装置20−1〜20−Nの識別番号と、障害を検出した時刻とを取得する(ステップS3)。
障害検出パターン監視部12は、識別番号と時刻とを取得すると、ハードディスク情報記憶部13が記憶する他のハードディスク装置20−1〜20−Nの障害を検出した時刻と、取得した時刻とを比較し、所定の時間内に既に障害を検出されているハードディスクがあるか否かを判定する(ステップS4)。ここで、所定の時間とは、例えば10ミリ秒や1秒など、当該時間内に複数のハードディスク装置20−1〜20−Nに障害が発生することが稀となる短い時間であり、障害検出部11とハードディスク装置20−1〜20−Nとの間の接続経路30に異常によって、各ハードディスク装置20−1〜20−Nの障害が誤検出されるまでの時間差よりも長い時間であるものとする。
When the failure detection unit 11 disconnects the hard disk devices 20-1 to 20-N, the failure detection pattern monitoring unit 12 and the identification numbers of the hard disk devices 20-1 to 20-N that detected the failure from the failure detection unit 11 The time when the failure is detected is acquired (step S3).
When the failure detection pattern monitoring unit 12 acquires the identification number and the time, the failure detection pattern monitoring unit 12 compares the time when the failure of the other hard disk devices 20-1 to 20-N stored in the hard disk information storage unit 13 is detected with the acquired time. Then, it is determined whether or not there is a hard disk whose failure has already been detected within a predetermined time (step S4). Here, the predetermined time is, for example, a short time such as 10 milliseconds or 1 second, in which a failure occurs in a plurality of hard disk devices 20-1 to 20-N within the time, and failure detection is performed. That is longer than the time difference until a failure of each of the hard disk devices 20-1 to 20-N is erroneously detected due to an abnormality in the connection path 30 between the unit 11 and the hard disk devices 20-1 to 20-N And

障害検出パターン監視部12は、所定の時間内に障害を検出されたハードディスク装置20−1〜20−Nがないと判定した場合(ステップS4:NO)、ステップS3で障害を検出したハードディスク装置20−1〜20−Nの識別番号と、障害を検出した時刻とを関連付けてハードディスク情報記憶部13に登録する(ステップS5)。ここでハードディスク装置20−1〜20−Nの識別番号と時刻とを登録する理由は、次回に障害検出部11がステップS1でハードディスク20−1〜20−Nの障害を検出した際に、障害検出パターン監視部12がステップS4で、障害を検出したハードディスク装置20−1〜20−Nの障害を検出した時刻と、今回障害を検出したハードディスク装置20−1〜20−Nの障害を検出した時刻とを比較するためである。
障害検出パターン監視部12がハードディスク装置20−1〜20−Nの識別番号と障害を検出した時刻とを登録すると、RAIDコントローラ装置10は、ステップS1に戻り、引き続きハードディスク装置20−1〜20−Nの障害の検出を継続する。
なお、障害検出パターン監視部12が所定の時間内に障害を検出されたハードディスク装置20−1〜20−Nがあると判定した場合(ステップS4:YES)は、後述する処理により、RAIDコントローラ装置10の再起動を実行するが、障害検出パターン監視部12が所定の時間内に障害を検出されたハードディスク装置20−1〜20−Nがないと判定した場合(ステップS4:NO)は、再起動を実行しない。この理由を以下に説明する。所定の時間内に他のハードディスク装置20−1〜20−Nの障害が検出されない場合、ステップS1で障害を検出されたハードディスク装置20−1〜20−Nは、単独で障害を検出されている。そのため、ノイズの混入等による接続経路30の一時的な異常によって障害が誤検出された可能性は低く、障害を検出されたハードディスク装置20−1〜20−Nに実際に障害がある可能性が高い。再起動の実行は、接続経路30の一時的な異常によって切り離しが行われたハードディスク装置20−1〜20−Nとの再接続を行うためであるため、ハードディスク装置20−1〜20−Nに実際に障害がある場合は、再起動を実行する必要が無い。以上が再起動を実行しない理由である。
If the failure detection pattern monitoring unit 12 determines that there is no hard disk device 20-1 to 20-N in which a failure is detected within a predetermined time (step S4: NO), the hard disk device 20 that has detected the failure in step S3. The identification numbers of −1 to 20-N and the time when the failure is detected are associated and registered in the hard disk information storage unit 13 (step S5). Here, the reason why the identification numbers and times of the hard disk devices 20-1 to 20-N are registered is that when the failure detection unit 11 detects the failure of the hard disks 20-1 to 20-N next time in step S1, the failure is detected. In step S4, the detection pattern monitoring unit 12 detects the failure of the hard disk devices 20-1 to 20-N that detected the failure and the failure of the hard disk devices 20-1 to 20-N that detected the failure this time. This is to compare the time.
When the failure detection pattern monitoring unit 12 registers the identification numbers of the hard disk devices 20-1 to 20-N and the time when the failure is detected, the RAID controller device 10 returns to step S1 and continues to the hard disk devices 20-1 to 20-. Continue detecting N failures.
When the failure detection pattern monitoring unit 12 determines that there is a hard disk device 20-1 to 20-N in which a failure is detected within a predetermined time (step S4: YES), the RAID controller device is processed by a process described later. 10. When the failure detection pattern monitoring unit 12 determines that there is no hard disk device 20-1 to 20-N in which a failure is detected within a predetermined time (step S4: NO), the restart is performed. Do not perform startup. The reason for this will be described below. If no failure of the other hard disk devices 20-1 to 20-N is detected within a predetermined time, the hard disk devices 20-1 to 20-N that have detected the failure in step S1 have been detected independently. . For this reason, there is a low possibility that a failure is erroneously detected due to a temporary abnormality in the connection path 30 due to noise or the like, and there is a possibility that the hard disk devices 20-1 to 20-N where the failure is detected actually have a failure. high. Since the restart is performed to reconnect to the hard disk devices 20-1 to 20-N that have been disconnected due to a temporary abnormality in the connection path 30, the hard disk devices 20-1 to 20-N are connected. If there is an actual failure, there is no need to perform a restart. This is the reason why the restart is not executed.

障害検出パターン監視部12が所定の時間内に障害を検出されたハードディスク装置20−1〜20−Nがあると判定した場合(ステップS4:YES)、再起動部14は、再起動回数記憶部15に記憶されている再起動回数が予め決定した最大繰返し回数(所定の回数)未満であるか否かを判定する(ステップS6)。なお、上述したように、再起動回数は、再起動部14がRAIDコントローラ装置1を再起動させた回数を示す。
再起動部14が、再起動回数が最大繰返し回数以上であると判定した場合(ステップS6:NO)、RAIDコントローラ装置10は、ステップS1に戻り、引き続きハードディスク装置20−1〜20−Nの障害の検出を継続する。再起動回数が最大繰返し回数以上であると判定した場合に再起動を実行しない理由は、後述する。
再起動部14は、再起動回数が最大繰返し回数未満であると判定した場合(ステップS6:YES)、RAIDコントローラ装置10の再起動を実行する(ステップS7)。ここで、障害検出部11が、ノイズの混入等による接続経路30の一時的な異常によって、誤って障害の発生を検出した場合、RAIDコントローラ装置10の再起動時にその一時的な異常が解消されていると、障害が発生していると判定されていたハードディスク装置20−1〜20−Nとの通信を正常に行うことができるようになり、障害が検出されなくなる。従って、ステップS7で再起動をおこなっている。
再起動部14は、再起動を実行すると、再起動回数記憶部15が記憶する再起動回数を、当該再起動回数に1を加えた値に書き換える(ステップS8)。但し、再起動部14が実行した再起動が1回目である場合、再起動回数記憶部15は再起動回数を記憶していない場合であれば、再起動部14は、再起動回数記憶部15に再起動回数として「1」を登録するものとする。
When the failure detection pattern monitoring unit 12 determines that there is a hard disk device 20-1 to 20-N in which a failure is detected within a predetermined time (step S4: YES), the restarting unit 14 is a restart count storage unit. It is determined whether or not the number of restarts stored in 15 is less than a predetermined maximum number of repetitions (predetermined number) (step S6). As described above, the number of restarts indicates the number of times that the restart unit 14 restarts the RAID controller device 1.
If the restarting unit 14 determines that the restart count is equal to or greater than the maximum number of repeats (step S6: NO), the RAID controller device 10 returns to step S1 and continues to fail the hard disk devices 20-1 to 20-N. Continue detection. The reason why the restart is not executed when it is determined that the number of restarts is equal to or greater than the maximum number of repetitions will be described later.
If the restarting unit 14 determines that the restart count is less than the maximum repeat count (step S6: YES), the restart unit 14 restarts the RAID controller device 10 (step S7). Here, when the failure detection unit 11 erroneously detects the occurrence of a failure due to a temporary abnormality in the connection path 30 due to noise mixing or the like, the temporary abnormality is resolved when the RAID controller device 10 is restarted. If this occurs, communication with the hard disk devices 20-1 to 20-N that have been determined to have failed can be performed normally, and the failure is not detected. Therefore, the restart is performed in step S7.
When the restart unit 14 executes the restart, the restart unit 14 rewrites the restart number stored in the restart number storage unit 15 to a value obtained by adding 1 to the restart number (step S8). However, if the restart performed by the restart unit 14 is the first time, and the restart count storage unit 15 does not store the restart count, the restart unit 14 stores the restart count storage unit 15. It is assumed that “1” is registered as the number of restarts.

再起動部14が再起動回数を書き換えると、障害検出部11は、ステップS4で所定時間内に障害を検出したと判定されたハードディスク装置20−1〜20−Nと通信を行い、障害の有無を判定する(ステップS9)。このとき、ステップS4で所定時間内に障害を検出したと判定されたハードディスク装置20−1〜20−Nに障害がなく、ステップS1の判定がノイズの混入等による接続経路30の一時的な異常による誤判定であった場合、通常、RAIDコントローラ装置10の再起動によって正常に通信が行われる可能性が高い。そのため、ステップS9では、障害検出部11がステップS4で所定時間内に障害を検出したと判定されたハードディスク装置20−1〜20−Nと通信を行い、障害の有無を判定することで、正常に通信が行われるようになったか否かを判定している。
例えば、ステップS4で、障害検出パターン監視部12が、所定時間内にハードディスク装置20−1とハードディスク装置20−2の障害が検出されていると判定した場合、ステップS9で障害検出部11は、ハードディスク装置20−1とハードディスク装置20−2の障害の有無を判定する。当該障害の有無の判定は、ステップS1で実行した判定と同様の処理によって行う。
When the restart unit 14 rewrites the number of restarts, the failure detection unit 11 communicates with the hard disk devices 20-1 to 20-N determined to have detected the failure within a predetermined time in step S4, and whether or not there is a failure. Is determined (step S9). At this time, there is no failure in the hard disk devices 20-1 to 20-N determined to have detected the failure within the predetermined time in step S4, and the determination in step S1 is a temporary abnormality in the connection path 30 due to noise mixing or the like. In the case of an erroneous determination due to the above, there is normally a high possibility that communication is normally performed by restarting the RAID controller device 10. Therefore, in step S9, the failure detection unit 11 communicates with the hard disk devices 20-1 to 20-N that are determined to have detected the failure within the predetermined time in step S4, and determines whether or not there is a failure. It is determined whether or not communication has been started.
For example, when the failure detection pattern monitoring unit 12 determines in step S4 that a failure has occurred in the hard disk device 20-1 and the hard disk device 20-2 within a predetermined time, the failure detection unit 11 in step S9 It is determined whether there is a failure in the hard disk device 20-1 and the hard disk device 20-2. The determination of the presence or absence of the failure is performed by the same process as the determination executed in step S1.

ステップS9で、障害検出部11が、ステップS4で所定時間内に障害を検出されたと判定された全てのハードディスク装置20−1〜20−Nに障害があると判定した場合(ステップS9:YES)、ステップS6に戻り、再起動を実行する。ステップS6に戻る理由は以下の通りである。
ステップS4で所定時間内に障害を検出したと判定されたハードディスク装置20−1〜20−Nに実際に障害があった場合や、接続経路30の切断などの障害が発生している場合等は、ステップS7、S8が繰り返されるので、再起動が実行され続けることになってしまう。そのため、ステップS6で再起動回数が最大繰返し回数以上となった場合は、障害検出部11による障害発生の判定が、接続経路30の一時的な異常による誤判定ではなく、ハードディスク装置20−1〜20−Nに実際に障害が発生していたり、接続経路30の切断などの障害が発生していたりする可能性が高いため、それ以上再起動を実行せずに、ステップS1に戻り、ハードディスク装置20−1〜20−Nの障害検出を継続する。
In step S9, when the failure detection unit 11 determines that all the hard disk devices 20-1 to 20-N determined to have detected the failure within the predetermined time in step S4 have a failure (step S9: YES) Returning to step S6, restart is executed. The reason for returning to step S6 is as follows.
When there is an actual failure in the hard disk devices 20-1 to 20-N determined to have detected the failure within the predetermined time in step S4, or when a failure such as disconnection of the connection path 30 has occurred. Since steps S7 and S8 are repeated, the restart will continue to be executed. Therefore, when the number of restarts exceeds the maximum number of repetitions in step S6, the determination of the failure occurrence by the failure detection unit 11 is not an erroneous determination due to a temporary abnormality in the connection path 30, but the hard disk device 20-1 to -1. Since there is a high possibility that a failure has actually occurred in 20-N or a failure such as disconnection of the connection path 30, the hard disk device returns to step S1 without further restarting. The failure detection of 20-1 to 20-N is continued.

ステップS9で、障害検出部11が、ステップS4で所定時間内に障害を検出されたと判定されたハードディスク装置20−1〜20−Nの少なくとも1つに障害がないと判定された場合(ステップS9:NO)、再構築部15は、ハードディスク装置20−1〜20−Nから論理ドライブの構成情報を取得する(ステップS10)。再構築部15は、論理ドライブの構成情報を取得すると、取得した論理ドライブの構成情報に基づいて、ハードディスク装置20−1〜20−Nを組み合わせて論理ドライブを再構築する(ステップS11)。   When it is determined in step S9 that the failure detection unit 11 has no failure in at least one of the hard disk devices 20-1 to 20-N determined to have detected the failure within the predetermined time in step S4 (step S9). : NO), the rebuilding unit 15 acquires the configuration information of the logical drive from the hard disk devices 20-1 to 20-N (step S10). When acquiring the logical drive configuration information, the rebuilding unit 15 reconstructs the logical drive by combining the hard disk devices 20-1 to 20-N based on the acquired logical drive configuration information (step S11).

このように、本実施形態によれば、障害検出部11がハードディスク装置20−1〜20−Nに発生した障害を検出し、再起動部14がハードディスク装置20−1〜20−Nの障害を所定の時間内に複数検出した場合に自装置を再起動させ、再構築部16が再起動時にハードディスク装置20−1〜20−Nが記憶する論理ドライブの構成情報に基づいて論理ドライブを再構築する。
これにより、障害検出部11が、複数のハードディスク装置20−1〜20−Nが近いタイミングで故障していると判定した場合に、論理ドライブの復旧を試みることができる。このとき、通信経路30の一時的な異常等によってハードディスク装置20−1〜20−Nが故障していると判定した場合に、論理ドライブを復旧させることができる。
Thus, according to the present embodiment, the failure detection unit 11 detects a failure that has occurred in the hard disk devices 20-1 to 20-N, and the restart unit 14 detects a failure in the hard disk devices 20-1 to 20-N. When multiple devices are detected within a predetermined time, the device itself is restarted, and the rebuilding unit 16 rebuilds the logical drive based on the logical drive configuration information stored in the hard disk devices 20-1 to 20-N at the time of restarting. To do.
As a result, when the failure detection unit 11 determines that the plurality of hard disk devices 20-1 to 20-N have failed at close timings, recovery of the logical drive can be attempted. At this time, when it is determined that the hard disk devices 20-1 to 20-N are out of order due to a temporary abnormality in the communication path 30, the logical drive can be restored.

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。   As described above, the embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to the above, and various design changes and the like can be made without departing from the scope of the present invention. It is possible to

上述のRAIDコントローラ装置10は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。   The RAID controller device 10 described above has a computer system therein. The operation of each processing unit described above is stored in a computer-readable recording medium in the form of a program, and the above processing is performed by the computer reading and executing this program. Here, the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

本発明の一実施形態によるRAIDコントローラ装置の構成を示す概略ブロック図である。It is a schematic block diagram which shows the structure of the RAID controller apparatus by one Embodiment of this invention. RAIDコントローラ装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a RAID controller apparatus.

符号の説明Explanation of symbols

1…コンピュータ 10…RAIDコントローラ装置 11…障害検出部 12…障害検出パターン監視部 13…ハードディスク情報記憶部 14…再起動部 15…再起動回数記憶部 16…再構築部 20−1〜20−N…ハードディスク装置 21…ハードディスク 22…制御部 30…接続経路   DESCRIPTION OF SYMBOLS 1 ... Computer 10 ... RAID controller apparatus 11 ... Failure detection part 12 ... Failure detection pattern monitoring part 13 ... Hard disk information storage part 14 ... Reboot part 15 ... Reboot number memory | storage part 16 ... Reconstruction part 20-1-20-N ... Hard disk device 21 ... Hard disk 22 ... Control unit 30 ... Connection path

Claims (5)

予め仮想記憶手段の構成情報を記憶するハードディスクを複数組み合わせ、1つの論理的な仮想記憶手段として動作させるRAIDコントローラ装置であって、
前記複数のハードディスクそれぞれの障害を検出する障害検出手段と、
前記障害検出手段が所定の時間内に複数のハードディスクの障害を検出した場合に自装置を再起動させる再起動手段と、
再起動時に、前記構成情報に基づいて前記仮想記憶手段を再構築する再構築手段と、
を備えることを特徴とするRAIDコントローラ装置。
A RAID controller device that combines a plurality of hard disks that store configuration information of virtual storage means in advance and operates as one logical virtual storage means,
A failure detection means for detecting a failure of each of the plurality of hard disks;
Restarting means for restarting the apparatus when the failure detecting means detects a failure of a plurality of hard disks within a predetermined time;
Rebuilding means for rebuilding the virtual storage means based on the configuration information upon restart;
A RAID controller device comprising:
前記障害検出手段は、前記再起動手段による再起動後に、前記所定の時間内に障害を検出した複数のハードディスクの障害を検出し、
前記再起動手段は、前記所定の時間内に障害を検出した複数のハードディスクの障害を検出した場合に、再度再起動を実行し、
前記再起動手段が再起動を実行する回数は、所定の回数未満である、
ことを特徴とする請求項1に記載のRAIDコントローラ装置。
The failure detection means detects a failure of a plurality of hard disks that have detected a failure within the predetermined time after restart by the restart means,
When the restarting unit detects a failure of a plurality of hard disks that have detected a failure within the predetermined time, the restarting unit performs restarting again,
The number of times that the restarting unit executes the restart is less than a predetermined number of times,
The RAID controller device according to claim 1.
予め仮想記憶手段の構成情報を記憶するハードディスクを複数組み合わせ、1つの論理的な仮想記憶手段として動作させるRAIDコントローラ装置を用いた処理方法であって、
障害検出手段は、前記複数のハードディスクそれぞれの障害を検出し、
再起動手段は、前記障害検出手段が所定の時間内に複数のハードディスクの障害を検出した場合に自装置を再起動させ、
再構築手段は、再起動時に、前記構成情報に基づいて前記仮想記憶手段を再構築する、
ことを特徴とする処理方法。
A processing method using a RAID controller device that combines a plurality of hard disks that store configuration information of virtual storage means in advance and operates as one logical virtual storage means,
The failure detection means detects a failure of each of the plurality of hard disks,
The restarting means restarts the apparatus when the failure detecting means detects a failure of a plurality of hard disks within a predetermined time,
The rebuilding means rebuilds the virtual storage means based on the configuration information at the time of restarting.
A processing method characterized by the above.
予め仮想記憶手段の構成情報を記憶するハードディスクを複数組み合わせ、1つの論理的な仮想記憶手段として動作させるRAIDコントローラ回路であって、
前記複数のハードディスクそれぞれの障害を検出する障害検出回路と、
前記障害検出手段が所定の時間内に複数のハードディスクの障害を検出した場合に自装置を再起動させる再起動回路と、
再起動時に、前記構成情報に基づいて前記仮想記憶手段を再構築する再構築回路と、
を備えることを特徴とするRAIDコントローラ回路。
A RAID controller circuit that combines a plurality of hard disks that store configuration information of virtual storage means in advance and operates as one logical virtual storage means,
A failure detection circuit for detecting a failure of each of the plurality of hard disks;
A restart circuit for restarting the apparatus when the failure detection means detects a failure of a plurality of hard disks within a predetermined time;
A reconfiguration circuit that reconstructs the virtual storage means based on the configuration information upon restart;
A RAID controller circuit comprising:
予め仮想記憶手段の構成情報を記憶するハードディスクを複数組み合わせ、1つの論理的な仮想記憶手段として動作させるRAIDコントローラ装置を、
前記複数のハードディスクそれぞれの障害を検出する障害検出手段、
前記障害検出手段が所定の時間内に複数のハードディスクの障害を検出した場合に自装置を再起動させる再起動手段、
再起動時に、前記構成情報に基づいて前記仮想記憶手段を再構築する再構築手段、
として動作させるためのプログラム。
A RAID controller device that combines a plurality of hard disks that store the configuration information of the virtual storage means in advance and operates as one logical virtual storage means,
Failure detection means for detecting a failure of each of the plurality of hard disks;
Restarting means for restarting the apparatus when the failure detecting means detects failures of a plurality of hard disks within a predetermined time;
Rebuilding means for rebuilding the virtual storage means based on the configuration information at the time of restart;
Program to operate as.
JP2008309945A 2008-12-04 2008-12-04 Raid controller device, processing method, raid controller circuit and program Pending JP2010134696A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008309945A JP2010134696A (en) 2008-12-04 2008-12-04 Raid controller device, processing method, raid controller circuit and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008309945A JP2010134696A (en) 2008-12-04 2008-12-04 Raid controller device, processing method, raid controller circuit and program

Publications (1)

Publication Number Publication Date
JP2010134696A true JP2010134696A (en) 2010-06-17

Family

ID=42345934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008309945A Pending JP2010134696A (en) 2008-12-04 2008-12-04 Raid controller device, processing method, raid controller circuit and program

Country Status (1)

Country Link
JP (1) JP2010134696A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015005157A (en) * 2013-06-21 2015-01-08 京セラドキュメントソリューションズ株式会社 Information processing apparatus, and restarting method for input/output controller

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015005157A (en) * 2013-06-21 2015-01-08 京セラドキュメントソリューションズ株式会社 Information processing apparatus, and restarting method for input/output controller
US9400709B2 (en) 2013-06-21 2016-07-26 Kyocera Document Solutions Inc. Information processing apparatus, and method for restarting input/output control portion

Similar Documents

Publication Publication Date Title
US7565567B2 (en) Highly available computing platform
CN106776130B (en) Log recovery method, storage device and storage node
US9170888B2 (en) Methods and apparatus for virtual machine recovery
CN105700901B (en) Starting method, device and computer system
US7661018B2 (en) Method, apparatus and program storage device for providing automatic recovery from premature reboot of a system during a concurrent upgrade
CN104834575A (en) Firmware recovery method and device
US9337838B2 (en) Programmable circuit device and configuration information restoration method
US9092398B2 (en) Restoring expander operations in a data storage switch
US20140140135A1 (en) Storage device, recovery method, and recording medium for recovery program
US20130227333A1 (en) Fault monitoring device, fault monitoring method, and non-transitory computer-readable recording medium
JPH0950424A (en) Dump sampling device and dump sampling method
JP6083480B1 (en) Monitoring device, fault tolerant system and method
CN103049407B (en) Date storage method, Apparatus and system
CN108170375B (en) Overrun protection method and device in distributed storage system
US7996707B2 (en) Method to recover from ungrouped logical path failures
JP4640071B2 (en) Information processing apparatus, information processing restoration method, and information processing restoration program
JP5849491B2 (en) Disk control device, disk device abnormality detection method, and program
JP2001101032A (en) Os monitoring system under inter-different kind of os control
JP2010134696A (en) Raid controller device, processing method, raid controller circuit and program
WO2010011217A1 (en) Data storage method, apparatus and system for interrupted write recovery
CN104407806A (en) Method and device for revising hard disk information of redundant array group of independent disk (RAID)
JP2009169469A (en) Computer system
CN113868000B (en) Link fault repairing method, system and related components
CN111104256A (en) Data reading method, device, equipment and storage medium
JP4294568B2 (en) Disk array device and control method thereof

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100709