JP2009169469A - Computer system - Google Patents
Computer system Download PDFInfo
- Publication number
- JP2009169469A JP2009169469A JP2008003563A JP2008003563A JP2009169469A JP 2009169469 A JP2009169469 A JP 2009169469A JP 2008003563 A JP2008003563 A JP 2008003563A JP 2008003563 A JP2008003563 A JP 2008003563A JP 2009169469 A JP2009169469 A JP 2009169469A
- Authority
- JP
- Japan
- Prior art keywords
- hard disk
- failure
- controller
- raid controller
- computer system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、RAID(Redundant Array of Inexpensive Disks)と呼ばれるデータを複数のハードディスクに分散する記憶装置における二重化機能を実現する計算機システムに関し、特に、性能の向上と耐障害性を同時に確保するための計算機システムに関する。 The present invention relates to a computer system that realizes a duplex function in a storage device that distributes data called Redundant Array of Inexpensive Disks (RAID) to a plurality of hard disks, and in particular, a computer for ensuring performance improvement and fault tolerance at the same time. About the system.
現在、計算機システムには外部記憶装置としてハードディスクが多く使用されている。しかし、ハードディスクはその構造上エラーが発生する可能性がある。近年、ハードディスクの容量が増加し、故障発生の可能性はより高くなってきている。 Currently, computer systems often use hard disks as external storage devices. However, an error may occur due to the structure of the hard disk. In recent years, the capacity of hard disks has increased, and the possibility of failure has increased.
そこで、重要なデータを保存する必要がある場合は、従来よりハードディスクの信頼性向上のために複数のハードディスクを用いるRAIDシステムが使用されている。 Therefore, when it is necessary to store important data, a RAID system using a plurality of hard disks is conventionally used to improve the reliability of the hard disks.
その1つとして、2台のハードディスクに同じデータを保存するRAID1システムがある。RAID1システムでは、データ書込み時は両方のハードディスクにデータを書き込み、読み出し時は片方よりデータを読み出す。データ読み出し時にエラーが発生した場合は、もう一方のハードディスクからデータを読み出す。
One of these is a
また、もう一方の正常なハードディスクのデータにより、エラーが発生したハードディスクのデータを修復する。このように2台のハードディスクを使用することにより、使用できる記憶容量は減るものの、システム全体としての信頼性を向上させている。 Further, the hard disk data in which an error has occurred is repaired with the data of the other normal hard disk. By using two hard disks in this way, the usable storage capacity is reduced, but the reliability of the entire system is improved.
しかし、RAID1システムにおいてライトエラーが発生した場合、そのハードディスクは計算機システムから物理的/論理的に切り離される。ここで、故障発生のハードディスクを交換し、RAID1システムの再構築を行う必要がある。そうなると、計算機システムはこの間、1台のハードディスクのみで動作することになり、冗長性はなくなってしまう。
However, when a write error occurs in the
このような冗長性がなくなる時間を削減するための手法として、従来からホットスペアという機能が利用されている。まず、ハードディスクの故障に備えて予備のハードディスクを待機させておく。そして、ハードディスクの故障が発生した場合に切り離されたハードディスクの代わりとして、待機させておいた予備のハードディスクを稼動させる。これにより、RAID1システムの再構築を自動的に実施するのである。このようにRAID1システムの再構築を自動的に実施する機能をホットスペアといい、RAID装置の耐障害性を向上させる目的で従来から用いられている。
Conventionally, a function called hot spare has been used as a method for reducing the time when such redundancy is lost. First, a spare hard disk is kept waiting in preparation for a hard disk failure. Then, a spare hard disk that has been put on standby is operated in place of the hard disk that was disconnected when a hard disk failure occurred. As a result, the RAID1 system is automatically reconstructed. The function of automatically reconstructing the
このホットスペアは、ホット・スタンバイあるいはオンライン・スタンバイとも呼ばれる。ホットスペア用ハードディスクを用意しておけば、あるハードディスクが故障したとき、代わりに予備のハードディスクを稼働させるので、RAID1システムを故障発生前の状態に修復する作業を自動化することができる。なお、既にRAID4システムにおいては、ホットスペア機能を実現する技術が提案されている(特許文献1参照)。 This hot spare is also called hot standby or online standby. If a hot spare hard disk is prepared, when a hard disk fails, the spare hard disk is operated instead, so that the work of restoring the RAID1 system to the state before the failure can be automated. In the RAID4 system, a technique for realizing a hot spare function has already been proposed (see Patent Document 1).
このように、RAID装置の耐障害性を高めるために、このホットスペアがよく実装される。ホットスペア用として設定されたハードディスクは、通電された待機状態にある。もし、1台のハードディスクが故障した場合、RAIDコントローラは、故障したハードディスクを物理的/論理的に切り離し、ホットスペア用ハードディスクを起動する。 Thus, this hot spare is often mounted in order to increase the fault tolerance of the RAID device. A hard disk set as a hot spare is in an energized standby state. If one hard disk fails, the RAID controller physically / logically disconnects the failed hard disk and activates the hot spare hard disk.
そして、残っているデータとパリティ情報などからホットスペア用のハードディスクに必要なデータを書き込み、RAIDシステムを元の正常な状態に復旧させる。以上の処理がすべて自動的に実行されるのが、ホットスペアのメリットである。
しかし、ホットスペア用ハードディスクを用意していないローエンド仕様のRAIDコントローラの場合には、ハードディスクの故障時に、手動で正常なハードディスクに交換するまで、そのシステムは耐障害性が低下した状態で運用せざるを得なくなる。 However, in the case of a low-end RAID controller that does not have a hot spare hard disk, the system must be operated with reduced fault tolerance until a hard disk is manually replaced with a normal hard disk. You won't get.
また、上述した特許文献1に記載の技術のようなホットスペア機能を使用するには当該機能が内蔵された専用RAIDコントローラを使用する必要がある。当該専用RAIDコントローラは内部にその処理回路を内蔵しているためにハイエンド仕様で高価である。これと共に、当該専用RAIDコントローラは一般的ではないために種類が限定されてしまい、装置全体の選択性が乏しくなってしまう。
Further, in order to use the hot spare function like the technique described in
そこで、本発明の目的は、専用RAIDコントローラを用いないでホットスペア機能を実現することができ、かつ汎用RAIDコントローラを用いて低価で構成することにより装置全体の選択性を広げることができる計算機システムを提供することにある。 Accordingly, an object of the present invention is to provide a computer system that can realize a hot spare function without using a dedicated RAID controller and can expand the selectivity of the entire apparatus by configuring it at a low price using a general-purpose RAID controller. Is to provide.
上記目的を達成するために、本発明は、コントローラと二重化を行うための複数のハードディスクを有する記憶装置における二重化機能を実現する計算機システムにおいて、コントローラとハードディスクとの接続を記憶装置の外部から切り替え可能な切替器を有している。 In order to achieve the above object, the present invention can switch the connection between a controller and a hard disk from the outside of the storage device in a computer system that realizes a dual function in a storage device having a plurality of hard disks for duplication with the controller. Switch.
ここで、コントローラがハードディスクの障害を検出してこのハードディスクを切り離した際にコントローラの報告する障害発生情報を、コントローラの上位の中央処理装置が収集するように構成している。 Here, the controller is configured such that the central processing unit above the controller collects failure occurrence information reported by the controller when the controller detects a failure of the hard disk and disconnects the hard disk.
このとき、障害発生情報に基づいて中央処理装置が切替器の接続状態を切替え、計算機システムを再起動するように構成している。
これにより、再起動によりコントローラが切替器の切替後の新しいハードディスクを認識し、二重化機能によるシステムの再構築を実施するように構成している。
At this time, the central processing unit is configured to switch the connection state of the switch based on the failure occurrence information and restart the computer system.
As a result, the controller recognizes the new hard disk after switching of the switch by restarting, and the system is reconstructed by the duplex function.
このように本発明では、ホットスペア機能を実現するため、コントローラとハードディスクとの間のバス部に切替器を有している。そして、コントローラの上位の中央処理装置が、障害が発生したハードディスクと障害が発生した場合に備えて待機させてある予備ハードディスクとのバスを切替えることにより、ホットスペア機能を実現することができる。 Thus, in the present invention, in order to realize the hot spare function, a switch is provided in the bus portion between the controller and the hard disk. Then, the central processing unit above the controller switches the bus between the failed hard disk and the standby hard disk that is waiting in case a failure occurs, thereby realizing a hot spare function.
本発明によれば、ホットスペア機能を有しない一般的なRAIDコントローラにおいてもホットスペア機能を実現することができるので、低価格なRAID装置を構成しながらも高い耐障害性を確保することができるという効果を奏する。 According to the present invention, since a hot spare function can be realized even in a general RAID controller that does not have a hot spare function, it is possible to ensure high fault tolerance while configuring a low-cost RAID device. Play.
以下、本発明の一実施の形態を、図1〜9を参照して説明する。
図1は、本発明の一実施の形態による計算機システム構成例を示す説明図である。
図1に示すように、計算機システム11は、CPU処理装置6とRAID装置12から構成されている。
Hereinafter, an embodiment of the present invention will be described with reference to FIGS.
FIG. 1 is an explanatory diagram showing a configuration example of a computer system according to an embodiment of the present invention.
As shown in FIG. 1, the
RAID装置12は、ハードディスクHDD#1(マスタ)、ハードディスクHDD#2(ミラー)、ハードディスクHDD#3(予備)の3つのハードディスクと、RAIDコントローラ4、及び切替器5から構成されている。
The
RAIDコントローラ4とハードディスクHDD#1(マスタ)の接続、及びRAIDコントローラ4とハードディスクHDD#2(ミラー)との接続の切替えは、切替器5によって行われる。この切替えは、RAID装置12の外部に設けられたCPU処理装置6によって制御可能になっている。
The
なお、本発明の実施形態においては、便宜上、ハードディスクHDD#1をマスタのハードディスクとし、ハードディスクHDD#2をミラーのハードディスとしているが、両者は同じ機能を実現するハードディスクである。したがって、どちらのハードディスクをマスタ用、あるいはミラー用として利用してもよいことは言うまでもない。
In the embodiment of the present invention, for convenience, the hard
RAIDコントローラ4は、ハードディスクHDD#1(マスタ)と、ハードディスクHDD#2(ミラー)の2台にてRAID1(二重化)システム構成を構築する機能を有している。
The
また、RAIDコントローラ4は、後述するハードディスクHDD#1(マスタ)又はハードディスクHDD#2(ミラー)の障害によりハードディスクが切り離された状態で動作する場合がある。その際、RAIDコントローラ4が新しいハードディスクの接続を認識すると、自動的にRAID1システムの再構築が行われる。RAIDコントローラ4は、このようなRAID1システムの再構築を実現する機能を有しているのである。
The
また、RAIDコントローラ4は、後述する再起動後の新しいハードディスクの接続認識時にRAID1の再構築を実行する。また、RAIDコントローラ4は、ハードディスクHDD#1(マスタ)又はハードディスクHDD#2(ミラー)の障害を検出する機能を有している。
Further, the
ここで、RAIDコントローラ4は、上位のCPU処理装置6に接続されており、CPU処理装置6はRAIDコントローラ4の報告する障害発生情報を収集する機能を有している。
Here, the
また、RAIDコントローラ4は、障害のあるハードディスクHDD#1(マスタ)又はハードディスクHDD#2(ミラー)を切り離すためのスイッチSW1、スイッチSW2を備えている。
The
スイッチSW1、スイッチSW2により、障害のあるハードディスクは計算機システム11から物理的に切り離される。このとき、図示しない論理/物理変換テーブが消去されることにより、障害のあるハードディスクは計算機システム11から論理的に切り離される。
The faulty hard disk is physically disconnected from the
スイッチSW1、スイッチSW2の固定接点bは、それぞれRAIDコントローラ4のポートP1、ポートP2を介して、ハードディスクHDD#1(マスタ)又はハードディスクHDD#2(ミラー)と接続されている。
The fixed contacts b of the switch SW1 and the switch SW2 are connected to the hard disk HDD # 1 (master) or the hard disk HDD # 2 (mirror) via the port P1 and the port P2 of the
RAIDコントローラ4は、スイッチSW1、スイッチSW2の可動接点aを、それぞれ固定接点bから固定接点cに切替えて接続する。これにより、RAIDコントローラ4は、障害のあるハードディスクHDD#1(マスタ)又はハードディスクHDD#2(ミラー)を切り離す。
The
また、RAIDコントローラ4は、障害のあるハードディスクHDD#1(マスタ)又はハードディスクHDD#2(ミラー)の情報を記憶するためのメモリ14を備えている。
The
また、RAIDコントローラ4は、障害のあるハードディスクHDD#1(マスタ)又はハードディスクHDD#2(ミラー)の情報を、障害のあるハードディスク自体のヘッダ部分に記録しても良い。
Further, the
また、RAIDコントローラ4は、ポートP1、ポートP2に対応するハードディスクHDD#1(マスタ)、ハードディスクHDD#2(ミラー)の接続又は切り離し情報を認識することができる。
Further, the
切替器5は、CPU処理装置6からの切替指示信号13により、入力と出力の接続を任意に変更できる機能を有している。すなわち、CPU処理装置6からの切替指示信号13により、切替器5の接続状態を制御する機能を持っている。
The
また、切替器5は、スイッチSW11、スイッチSW12を備えており、CPU処理装置6からの切替指示信号13により、これらのスイッチの切替制御が行われる。そして、これらスイッチSW11、スイッチSW12の切替えによって、障害のあるハードディスクHDD#1(マスタ)又はハードディスクHDD#2(ミラー)と、RAIDコントローラ4との接続を切り離すようにしている。その際、切替器5は、ハードディスクHDD#3(予備)をRAIDコントローラ4に接続するようにする。
The
つまり、CPU処理装置6は、切替指示信号13により、スイッチSW11又はスイッチSW12の可動接点aを、それぞれ固定接点bから固定接点cに切替えて接続する。これにより、障害のあるハードディスクHDD#1(マスタ)又はハードディスクHDD#2(ミラー)の代わりに、ハードディスクHDD#3(予備)がRAIDコントローラ4に接続される。
That is, the
このとき、RAIDコントローラ4は、切替器5におけるスイッチSW11、スイッチSW12の切替え状態は、認識していない。
ここで、CPU処理装置6は、計算機システム11を再起動する機能を有するものとする。
At this time, the
Here, it is assumed that the
図2は、計算機システム11の動作を示すタイミングチャートである。図2は、RAIDコントローラ4の動作とCPU処理装置6の動作とを時系列的に並べたものである。以下、ハードディスクHDD#2(ミラー)が障害のあるハードディスクである場合の動作を説明する。
FIG. 2 is a timing chart showing the operation of the
図2において、T1時点で、RAIDコントローラ4は、ハードディスクの障害発生を検出して、障害のあるハードディスクを切り離す。具体的には、図1に示したRAIDコントローラ4は、スイッチSW2を用いて障害のあるハードディスクHDD#2(ミラー)を切り離す。
In FIG. 2, at time T1, the
T12時点で、RAIDコントローラ4は、T1時点で検出した障害情報をCPU処理装置6に供給する。具体的には、図1に示したRAIDコントローラ4は、ポートP2に対応するハードディスクHDD#2(ミラー)に関する障害情報をCPU処理装置6に供給する。
At time T12, the
T2時点で、CPU処理装置6は、T12時点の障害情報により、ハードディスクの障害発生を検知して、障害のあるハードディスクが切り離されたことを認識する。すなわち、CPU処理装置6は、T12時点の障害情報により、障害のあるハードディスクHDD#2(ミラー)がRAIDコントローラ4から切り離されたことを認識する。
At time T2, the
T3時点で、CPU処理装置6は、計算機システムの再起動を実施する。この再起動は、CPU処理装置6がアプリケーションプログラムを実行して、計算機システムをシャットダウンすることにより行われる。
At time T3, the
T5時点で、CPU処理装置6は、切替器5の接続を変更する。この接続変更は、CPU処理装置6からの切替指示信号13により、切替器5のスイッチSW11、スイッチSW12を切り替えることによって行われる。具体的には、RAIDコントローラ4を障害のあるハードディスクHDD#2(ミラー)から、ハードディスクHDD#3(予備)に接続するように切替える。そして、T6時点で、CPU処理装置6は、T3時点から実行していた再起動の動作を完了する。
At time T5, the
一方、RAIDコントローラ4側から見た場合、T34時点で、CPU処理装置6からT3時点で実施した再起動に対応する再起動指示がRAIDコントローラ4に供給される。
そして、T4時点で、RAIDコントローラ4は、T34時点の再起動指示により、RAID装置12の再起動を開始し、T7時点で再起動の動作を完了する。
On the other hand, when viewed from the
Then, at time T4, the
T8時点で、RAIDコントローラ4は、T4時点から実行していた再起動の実行により、新たなハードディスクHDD#3(予備)の接続を認識する。
At time T8, the
このようにして、RAIDコントローラ4は、ハードディスクHDD#1(マスタ)と新たなハードディスクHDD#3(予備)を用いてRAID1(二重化)システム構成を再構築する。
In this way, the
図3は、CPU処理装置6の動作を示すフローチャートである。図3は、CPU処理装置のアプリケーションプログラムを実行することにより、実現する動作を示すものである。
FIG. 3 is a flowchart showing the operation of the
図3に示すように、まず、CPU処理装置6は、オペレーティングシステム(OS)上のアプリケーションプログラムを起動する(ステップS1)。すなわち、このアプリケーションプログラムを実行することにより、CPU処理装置6は、図2で前述した、RAIDコントローラ4の動作とCPU処理装置6の動作を実現させている。
As shown in FIG. 3, first, the
次に、CPU処理装置6は、RAIDコントローラ4からハードディスクの障害情報を収集する(ステップS2)。具体的には、CPU処理装置6は、RAIDコントローラ4がハードディスクHDD#2(ミラー)の障害を検出して当該ハードディスクHDD#2(ミラー)を切り離した際にRAIDコントローラ4の報告する障害情報を収集する。
そして、CPU処理装置6は、計算機システム11の電源をシャットダウンして(ステップS3)、全ての処理を終了する。
Next, the
Then, the
次に、CPU処理装置6は、切替器5の接続を変更する(ステップS4)。このとき、CPU処理装置6は、ステップS2で収集した障害情報に基づいて計算機システム11の設定を確認して再起動を実行する(ステップS5)。具体的には、CPU処理装置6は、ステップS3のシャットダウンの最後の段階のアプリケーションの動作に基づいて発生される切替指示信号13により、切替器5のスイッチSW11、スイッチSW12を切り替え、RAIDコントローラ4を障害のあるハードディスクHDD#2(ミラー)から、ハードディスクHDD#3(予備)に接続する。
Next, the
このようにCPU処理装置6は、計算機システム11の再起動を行い、RAIDコントローラ4が動作する前に、切替器5の接続を障害が発生したハードディスクHDD#2(ミラー)から予備のハードディスクHDD#3の経路に切替えるようにしている。
In this way, the
図4は、RAIDコントローラのHDD障害検出の動作を示すフローチャートである。
図4は、図2のT1時点のRAIDコントローラ4によるハードディスクの障害検出、図3のステップS2で収集するRAIDコントローラ4からのハードディスクの障害検出の詳細な動作を示すものである。
FIG. 4 is a flowchart showing the operation of HDD failure detection of the RAID controller.
FIG. 4 shows detailed operations of hard disk failure detection by the
図4に示すように、まず、RAIDコントローラ4は、ハードディスクの障害が発生しているか否かを判断する(ステップS11)。このステップS11で、RAIDコントローラ4は、ハードディスクHDD#2(ミラー)の障害発生を検出する。
この判断ステップS11で、ハードディスクの障害が発生していると判断されると、RAIDコントローラ4は、障害のあるハードディスクHDD#2(ミラー)の接続ポートP2を検出する(ステップS12)。
As shown in FIG. 4, first, the
If it is determined in this determination step S11 that a hard disk failure has occurred, the
そして、RAIDコントローラ4は、ハードディスクHDD#2(ミラー)の接続ポートP2及び対応するハードディスクHDD#2(ミラー)の識別番号2をメモリ14に記憶する(ステップS13)。
Then, the
続いて、RAIDコントローラ4は、障害のあるハードディスクの接続ポートをスイッチSW2で切断する(ステップS14)。すなわち、RAIDコントローラ4は、ハードディスクHDD#2(ミラー)の接続ポートP2をスイッチSW2で切断し、スイッチSW2の可動接点aを、固定接点bから固定接点cに切替えて接続する。これにより、RAIDコントローラ4は、障害のあるハードディスクHDD#2(ミラー)を切り離す。
Subsequently, the
このように、RAIDコントローラ4がハードディスクの障害を検出し、当該ハードディスクを切り離す。
In this way, the
図5は、RAIDコントローラのリトライによるHDD障害検出の動作を示すフローチャートである。
図5は、図4に示すRAIDコントローラのHDD障害検出のステップS11のHDD障害判断の具体的な動作の一例を示すものである。
FIG. 5 is a flowchart showing the operation of detecting an HDD failure by retrying the RAID controller.
FIG. 5 shows an example of a specific operation of the HDD failure determination in step S11 of the HDD failure detection of the RAID controller shown in FIG.
図5に示すように、RAIDコントローラ4は、ハードディスクのライト動作が正常に実行されているか否かを判断する(ステップS21)。この判断ステップS21で、例えば、RAIDコントローラ4は、ハードディスクHDD#2(ミラー)のライト動作が正常に実行されていないことを検出する。
As shown in FIG. 5, the
そして、判断ステップS21で、ハードディスクのライト動作が正常に実行されていないと判断されたとき、RAIDコントローラ4は、異常なハードディスクのライト動作のリトライを実行する(ステップS22)。つまり、RAIDコントローラ4は、ハードディスクHDD#2(ミラー)のライト動作を繰り返して実行する。
続いて、RAIDコントローラ4は、ハードディスクHDD#2(ミラー)のライト動作のリトライ回数をメモリ14(図1参照)に記憶する(ステップS23)。
When it is determined in the determination step S21 that the hard disk write operation is not normally executed, the
Subsequently, the
続いて、RAIDコントローラ4は、ステップS22のリトライが成功したか否かを判断する(ステップS24)。つまり、RAIDコントローラ4は、ハードディスクHDD#2(ミラー)のライト動作のリトライが正常に実行されたか否かを検出する。
Subsequently, the
次に、判断ステップS24で、リトライが成功しないと判断されると、RAIDコントローラ4は、ハードディスクHDD#2(ミラー)のライト動作のリトライ回数が予め定められた規定回数に達したか否かを判断する(ステップS25)。
判断ステップS25で、リトライ回数が規定回数に達していないと判断されたときは、ステップS22へ戻って、ステップS22〜ステップS25までの処理及び判断を繰り返す。
Next, if it is determined in the determination step S24 that the retry is not successful, the
When it is determined in the determination step S25 that the number of retries has not reached the specified number, the process returns to step S22 and the processes and determinations from step S22 to step S25 are repeated.
判断ステップS25で、リトライ回数が規定回数に達したと判断された場合は、RAIDコントローラ4は、ステップS22でリトライしたハードディスクに障害があると判断する(ステップS26)。つまり、ライト動作のリトライが正常に実行されていないハードディスクHDD#2(ミラー)を、障害のあるハードディスクであると判断する。
When it is determined in the determination step S25 that the number of retries has reached the specified number, the
判断ステップS24で、リトライが成功していると判断されたときは、RAIDコントローラ4は、ステップS22のリトライしたハードディスクに障害がないと判断する(ステップS27)。つまり、RAIDコントローラ4は、ライト動作が正常に行われたハードディスクHDD#2(ミラー)を障害のないハードディスクであると判断する。
When it is determined in the determination step S24 that the retry is successful, the
なお、図2に示すT12時点の障害情報は、障害を検出した当該ハードディスクHDD#2(ミラー)の接続されるポート番号P2の他に、上述したメモリ14に記憶された書込み動作のリトライ回数を含んでいる。
The failure information at time T12 shown in FIG. 2 includes the retry count of the write operation stored in the
図6は、RAIDコントローラの書き戻しによるHDD障害検出の動作を示すフローチャートである。
図6は、図4に示すRAIDコントローラのHDD障害検出のステップS11のHDD障害判断の具体的な動作の他の例を示すものである。
FIG. 6 is a flowchart showing the operation of HDD failure detection by write back of the RAID controller.
FIG. 6 shows another example of the specific operation of the HDD failure determination in step S11 of the HDD failure detection of the RAID controller shown in FIG.
図6に示すように、まず、RAIDコントローラ4は、ハードディスクのライト動作が正常に実行されているか否か判断する(ステップS31)。この判断ステップS31で、例えば、ハードディスクHDD#2(ミラー)のライト動作が正常に実行されていないことを検出する。
As shown in FIG. 6, first, the
判断ステップS31で、ハードディスクのライト動作が正常に実行されていないと判断された場合は、RAIDコントローラ4は、他の正常なハードディスクから異常なハードディスクへ書き戻し動作を実行する(ステップS32)。つまり、RAIDコントローラ4は、正常なハードディスクHDD#1(マスタ)から異常なハードディスクHDD#2(ミラー)へ書き戻し動作を実行する。
If it is determined in the determination step S31 that the hard disk write operation is not normally executed, the
そして、RAIDコントローラ4は、正常なハードディスクHDD#1(マスタ)から異常なハードディスクHDD#2(ミラー)への書き戻し動作回数をメモリ14に記憶する(ステップS33)。
RAIDコントローラ4は、正常なハードディスクHDD#1(マスタ)から異常なハードディスクHDD#2(ミラー)への書き戻し動作が正常に実行されたか否かを判断する(ステップS34)。
Then, the
The
次に、判断ステップS34で、書き戻し動作が成功していないと判断されると、RAIDコントローラ4は、正常なハードディスクHDD#1(マスタ)から異常なハードディスクHDD#2(ミラー)への書き戻し動作回数が予め定められた規定回数に達したか否かを判断する(ステップS35)。
判断ステップS35で、書き戻し回数が規定回数に達していないと判断された場合は、ステップS32へ戻って、ステップS32〜ステップS35までの処理及び判断を繰り返す。
Next, when it is determined in the determination step S34 that the write back operation is not successful, the
If it is determined in the determination step S35 that the number of write-back times has not reached the specified number, the process returns to step S32 and the processes and determinations from step S32 to step S35 are repeated.
判断ステップS35で書き戻し回数が規定回数に達したと判断された場合には、RAIDコントローラ4は、ステップS32の書き戻し先のハードディスクに障害のあると判断する(ステップS36)。つまり、RAIDコントローラ4は、書き戻し先のハードディスクHDD#2(ミラー)の書き戻し動作が正常に実行されていないため、ハードディスクHDD#2(ミラー)を障害のあるハードディスクであると判断する。
If it is determined in the determination step S35 that the number of write-backs has reached the specified number, the
判断ステップS34で、書き戻し動作が成功したと判断された場合は、RAIDコントローラ4は、ステップS32の書き戻し先のハードディスクに障害がないと判断する(ステップS37)。つまり、RAIDコントローラ4は、書き戻し動作が正常に実行されたハードディスクHDD#2(ミラー)を障害のないハードディスクであると判断する。
If it is determined in the determination step S34 that the write-back operation has been successful, the
なお、図2に示すT12時点の障害情報には、障害を検出した当該ハードディスクHDD#2(ミラー)の接続されるポート番号P2の他に、上述したメモリ14に記憶された書込み動作のリトライ回数が含まれる点は、図5の例と変わらない。
The failure information at the time T12 shown in FIG. 2 includes the retry count of the write operation stored in the
図7は、CPU処理装置のポーリングによるHDD障害検出の動作を示すフローチャートである。
図7は、図3のステップS2でCPU処理装置6がRAIDコントローラ4からハードディスクの障害情報を収集する詳細な動作を示すものである。
FIG. 7 is a flowchart showing the operation of HDD failure detection by polling of the CPU processing device.
FIG. 7 shows a detailed operation in which the
まず、CPU処理装置6は、障害情報の収集を行うために定期的に実行されるポーリング動作を実行する時間であるか否かを判断する(ステップS41)。この判断ステップS41で、定期的なポーリングを実行する時間であると判断されると、CPU処理装置6は、RAIDコントローラ4からハードディスクの障害情報の受け取りを開始する(ステップS42)。つまり、CPU処理装置6は、ポーリングを実行してRAIDコントローラ4からハードディスクHDD#2(ミラー)の障害情報の受け取りを開始する。
First, the
次に、CPU処理装置6は、障害情報項目として、ハードディスクHDD#2(ミラー)の識別番号に対応するRAIDコントローラ4のポート番号を受け取る(ステップS43)。判断ステップS41で定期的なポーリングを実行する時間ではないと判断されたとき、あるいは、ステップS43で障害情報項目を受け取ったときは、処理を終了する。このようにして、CPU処理装置6は、RAIDコントローラ4から障害が発生したハードディスクを切り離したことによる障害情報を検知する。
Next, the
図8は、RAIDコントローラの障害報告の動作を示すフローチャートである。
図8は、図2のT12時点のRAIDコントローラ4からCPU処理装置6へ供給されるハードディスクの障害情報、図3のステップS2でCPU処理装置6が収集するRAIDコントローラ4からハードディスクの障害情報の報告の詳細な動作を示すものである。
FIG. 8 is a flowchart showing an operation for reporting a failure of the RAID controller.
FIG. 8 shows hard disk failure information supplied from the
図8に示すように、まず、RAIDコントローラ4は、障害のあるハードディスクを検出したか否かを判断する(ステップS51)。この判断ステップS51で、RAIDコントローラ4は、図4のステップS11と同様に、ハードディスクHDD#2(ミラー)の障害発生を検出する。
As shown in FIG. 8, the
判断ステップS51で、障害のあるハードディスクを検出したと判断された場合は、RAIDコントローラ4は、障害報告の割込みを実行するか否か、つまり、ステップS51で検出した障害情報をCPU処理装置6へ報告するための割込みを実行するか否かを判断する。
If it is determined in step S51 that a faulty hard disk has been detected, the
判断ステップS52で、障害報告の割込みを実行すると判断された場合は、RAIDコントローラ4は、障害情報項目として、ハードディスクHDD#2(ミラー)の識別番号に対応するRAIDコントローラ4のポート番号P2をCPU処理装置6へ報告する(ステップS53)。
When it is determined in the determination step S52 that the failure report interrupt is executed, the
図9は、RAIDコントローラの接続認識による再構築の動作を示すフローチャートである。
図9は、図2に示したT8時点で、ハードディスクHDD#1(マスタ)と新たなハードディスクHDD#3(予備)を用いてRAID1(二重化)システム構成を再構築する詳細な動作を示すものである。この再構築は、RAIDコントローラ4が再起動の実行により、新たなハードディスクHDD#3(予備)の接続を認識することにより、行われる。
FIG. 9 is a flowchart showing the rebuilding operation based on the connection recognition of the RAID controller.
FIG. 9 shows a detailed operation for reconstructing the RAID 1 (redundant) system configuration using the hard disk HDD # 1 (master) and the new hard disk HDD # 3 (standby) at the time T8 shown in FIG. is there. This reconstruction is performed when the
図9に示すように、RAIDコントローラ4は、再起動が実行されたか否かを判断する(ステップS61)。この再起動の指示は、CPU処理装置6から供給される。ここでは、CPU処理装置6とRAIDコントローラ4のリセット動作が共有されている計算機システム構成を前提としている。
As shown in FIG. 9, the
判断ステップS61で、再起動が実行されたと判断されると、RAIDコントローラ4は、新たに接続されたハードディスクHDD#3(予備)があるか否かを判断する(ステップS62)。つまり、RAIDコントローラ4は、再起動を実行することにより、自動的に障害のあるハードディスクHDD#2(ミラー)の代わりに、ハードディスクHDD#3(予備)が接続されたことを認識する。
If it is determined in the determination step S61 that the restart has been executed, the
判断ステップS62で、新たに接続されたハードディスクHDD#3(予備)があると判断された場合、RAIDコントローラ4は、ハードディスクHDD#1(マスタ)上のデータを読み出す(ステップS63)。そして、RAIDコントローラ4は、新たに接続されたハードディスクHDD#3(予備)上にハードディスクHDD#1(マスタ)から読み出したデータを書き込む(ステップS64)。
If it is determined in the determination step S62 that there is a newly connected hard disk HDD # 3 (standby), the
このように、RAIDコントローラ4は、新しいハードディスクの接続を認識し、RAID1の再構築を実施する。
In this way, the
高い信頼性が要求されるFA(Factory Automation)用途のコンピュータや重要なデータを保存する必要のある用途に使用されるコンピュータ等に適用できる。 The present invention can be applied to a computer for FA (Factory Automation) that requires high reliability, a computer used for a purpose that needs to store important data, and the like.
なお、本発明は、上述した実施の形態例に限らず、特許請求の範囲に記載された本発明の要旨を逸脱しない限りにおいて、適宜変更しうることは言うまでもない。 Needless to say, the present invention is not limited to the above-described embodiments, and can be appropriately changed without departing from the gist of the present invention described in the claims.
1…ハードディスク(マスタ)、2…ハードディスク(ミラー)、3…ハードディスク(予備)、4…RAIDコントローラ、5…切替器、6…CPU処理装置、11…計算機システム、12…RAID装置、13…切替指示信号、14…メモリ、P1…ポート、P2…ポート
DESCRIPTION OF
Claims (9)
コントローラと、
前記コントローラと前記ハードディスクとの接続を前記記憶装置の外部から切替え可能とした切替器を備え、
前記コントローラが前記ハードディスクの障害を検出して当該ハードディスクを切り離した際に、前記コントローラからの障害発生情報を、前記コントローラの上位の中央処理装置が収集し、
前記障害発生情報に基づいて前記中央処理装置が前記切替器の接続状態を切替えるとともに、前記計算機システムを再起動し、
前記コントローラは、前記再起動により、前記切替器の切替後の新しいハードディスクを認識し、前記二重化機能によるシステムの再構築を実現する
ことを特徴とする計算機システム。 In a computer system that realizes a duplication function in a storage device having a plurality of hard disks for duplicating data,
A controller,
A switch that enables the connection between the controller and the hard disk to be switched from the outside of the storage device,
When the controller detects a failure of the hard disk and disconnects the hard disk, failure information from the controller is collected by a central processing unit above the controller,
The central processing unit switches the connection state of the switch based on the failure occurrence information, restarts the computer system,
The computer system recognizes a new hard disk after switching of the switch by the restart and realizes the system reconfiguration by the duplex function.
ことを特徴とする請求項1に記載の計算機システム。 The computer system according to claim 1, wherein the operation of the central processing unit and the controller is executed by starting an application program on an operating system of the central processing unit.
ことを特徴とする請求項1に記載の計算機システム。 The computer system according to claim 1, wherein the controller stores, in an internal memory, a port number to which the hard disk in which the failure is detected is connected.
ことを特徴とする請求項1に記載の計算機システム。 The computer system according to claim 1, wherein the detection of a failure of the hard disk by the controller includes a case where the retry of the write operation exceeds a specified number of times.
ことを特徴とする請求項1に記載の計算機システム。 The computer system according to claim 1, wherein the detection of a failure of the hard disk by the controller includes a case where a write-back operation from a hard disk that does not detect a failure to a hard disk that has detected a failure exceeds a specified number of times.
ことを特徴とする請求項1に記載の計算機システム。 The computer system according to claim 1, wherein the collection of the failure occurrence information of the central processing unit is performed by a polling operation that is periodically executed.
ことを特徴とする請求項1に記載の計算機システム。 The computer system according to claim 1, wherein the failure occurrence information includes a port number to which the hard disk in which the failure is detected is connected.
ことを特徴とする請求項1に記載の計算機システム。 The computer system according to claim 1, wherein the collection of the failure occurrence information of the central processing unit is performed based on an interrupt operation for reporting failure information of the hard disk in which the controller has detected a failure.
ことを特徴とする請求項1に記載の計算機システム。 2. The system according to claim 1, wherein the controller recognizes a new hard disk after switching of the switch based on a connection recognition command of the central processing unit, and performs system reconstruction by the duplex function. Computer system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008003563A JP2009169469A (en) | 2008-01-10 | 2008-01-10 | Computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008003563A JP2009169469A (en) | 2008-01-10 | 2008-01-10 | Computer system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009169469A true JP2009169469A (en) | 2009-07-30 |
Family
ID=40970603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008003563A Pending JP2009169469A (en) | 2008-01-10 | 2008-01-10 | Computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009169469A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015005157A (en) * | 2013-06-21 | 2015-01-08 | 京セラドキュメントソリューションズ株式会社 | Information processing apparatus, and restarting method for input/output controller |
JP2016200995A (en) * | 2015-04-10 | 2016-12-01 | 東芝テック株式会社 | Control circuit and electronic apparatus |
CN114020561A (en) * | 2021-10-22 | 2022-02-08 | 苏州浪潮智能科技有限公司 | Fault reporting method, system, device, computer equipment and storage medium |
CN114020561B (en) * | 2021-10-22 | 2024-05-24 | 苏州浪潮智能科技有限公司 | Fault reporting method, system, device, computer equipment and storage medium |
-
2008
- 2008-01-10 JP JP2008003563A patent/JP2009169469A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015005157A (en) * | 2013-06-21 | 2015-01-08 | 京セラドキュメントソリューションズ株式会社 | Information processing apparatus, and restarting method for input/output controller |
JP2016200995A (en) * | 2015-04-10 | 2016-12-01 | 東芝テック株式会社 | Control circuit and electronic apparatus |
CN114020561A (en) * | 2021-10-22 | 2022-02-08 | 苏州浪潮智能科技有限公司 | Fault reporting method, system, device, computer equipment and storage medium |
CN114020561B (en) * | 2021-10-22 | 2024-05-24 | 苏州浪潮智能科技有限公司 | Fault reporting method, system, device, computer equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8943358B2 (en) | Storage system, apparatus, and method for failure recovery during unsuccessful rebuild process | |
JP4723290B2 (en) | Disk array device and control method thereof | |
JP4884885B2 (en) | Storage controller and storage controller failure recovery method | |
JP4821448B2 (en) | RAID controller and RAID device | |
US20040078663A1 (en) | Information processing system and disk control method used in the same | |
US7661018B2 (en) | Method, apparatus and program storage device for providing automatic recovery from premature reboot of a system during a concurrent upgrade | |
JPH08335144A (en) | External storage device | |
JP2011170589A (en) | Storage control device, storage device, and storage control method | |
US20100115310A1 (en) | Disk array apparatus | |
US7076686B2 (en) | Hot swapping memory method and system | |
JP2006031332A (en) | Disk array control program, method and device | |
JP2016212506A (en) | Information processing system, control apparatus, and control program | |
US7457990B2 (en) | Information processing apparatus and information processing recovery method | |
US20110187404A1 (en) | Method of detecting failure and monitoring apparatus | |
JP2009169469A (en) | Computer system | |
JPH1195933A (en) | Disk array system | |
JP3776438B2 (en) | Storage device | |
CN107111459B (en) | Storage system and control method thereof | |
US8453007B2 (en) | Storage device and recovery method | |
JP2000293389A (en) | Mirror disk restoration system in fault tolerant system | |
JP4456060B2 (en) | RAID control apparatus, RAID control program, and RAID control method | |
JP5913078B2 (en) | Disk array system, data recovery method, and data recovery program | |
JP4176908B2 (en) | Disk array device | |
CN113868000B (en) | Link fault repairing method, system and related components | |
US8909983B2 (en) | Method of operating a storage device |