JP2010267037A - ディスクアレイ装置 - Google Patents
ディスクアレイ装置 Download PDFInfo
- Publication number
- JP2010267037A JP2010267037A JP2009117104A JP2009117104A JP2010267037A JP 2010267037 A JP2010267037 A JP 2010267037A JP 2009117104 A JP2009117104 A JP 2009117104A JP 2009117104 A JP2009117104 A JP 2009117104A JP 2010267037 A JP2010267037 A JP 2010267037A
- Authority
- JP
- Japan
- Prior art keywords
- disk
- data
- error
- area
- occurred
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】エラーが発生したディスク装置に関係なく、ホスト等からディスク装置へアクセスすることができ、再構築の時間を短縮できるようにすること。
【解決手段】情報を格納する複数のディスク装置D1〜D6と、前記複数のディスク装置D1〜D6へのアクセスを制御するコントローラ3とを備えたディスクアレイ装置1であって、前記コントローラ3は、前記ディスク装置D2にエラーが発生したことを検出した場合、該エラーを起こした領域のデータをディスクアレイ装置1内の未使用領域4に格納し、以降の該エラーを起こした領域へのアクセスは、前記未使用領域4にアクセスすることで、前記エラーを起こしたディスク装置D2の運用を継続する。
【選択図】図1
【解決手段】情報を格納する複数のディスク装置D1〜D6と、前記複数のディスク装置D1〜D6へのアクセスを制御するコントローラ3とを備えたディスクアレイ装置1であって、前記コントローラ3は、前記ディスク装置D2にエラーが発生したことを検出した場合、該エラーを起こした領域のデータをディスクアレイ装置1内の未使用領域4に格納し、以降の該エラーを起こした領域へのアクセスは、前記未使用領域4にアクセスすることで、前記エラーを起こしたディスク装置D2の運用を継続する。
【選択図】図1
Description
本発明は、ディスクアレイ装置に関する。特に、ディスク装置にエラーが発生した場合に継続運用を可能とするディスクアレイ装置に関する。
ディスクアレイ (装置)は、複数のディスク装置(以下、単にディスクという)を搭載し、大容量ディスクとして扱う装置である。ディスクアレイは、装置の信頼性や処理能力を向上させるRAID(Redundant Arrays of Inexpensive Disks )技術が採用されているため、RAID(レイド)装置とも呼ばれる。
RAID装置は、ディスクへのデータ配置や、データの冗長化(多重化)方法により、RAID0〜RAID5の6つのレベルに分類定義されている。RAID0は、データをブロック単位に分割し、複数のディスクにわたって分散してデータが記録される。このためディスクをまたがってデータが帯状に配置されることからストライピングとも呼ばれる。RAID1は、データを2台のディスクに同時に書き込むもので、ミラーリングとも呼ばれる。RAID2は、データの誤りを検出・訂正するために、主記憶装置などで使用されるECC(Error Correction Code )を使用する。RAID3は、データがブロック単位やビットまたはバイト単位に分割され、データ専用の複数のディスクへ同時に書き込まれる。そして、パリティを分割されたデータから生成し、パリティ専用のディスクに書き込まれる。RAID4は、RAID0のストライピングに、パリティ専用ディスクを追加してデータを再構築(再生成)する機能を持たせたものである。RAID5は、RAID4におけるパリティディスクへのI/O(入出力)集中を回避するための手法であり、パリティデータをすべてのディスクに分散して配置するものである。
RAID3〜RAID5では、パリティデータを格納することにより、万一、1台のディスクが故障しても、他のディスクから故障したディスクのデータを再構築(再現)することができる。
(1):再構築(Reconstruction)の説明
RAID5にてボリューム(記憶媒体の領域)を作成しているディスクにてライトエラー(Write Error ;ディスクへのデータの書き込みの失敗) が発生し、ディスクフェイル(Fail)が発生すると、RAID装置はホットスペアディスク(Hot Spare Disk;未使用のデータ退避用ディスク) 又は正常ディスクの空き領域にフェイル(Fail)したディスク以外のディスク(正常ディスク)よりフェイルしたディスクのデータを再構築(Reconstruction)する(特許文献1、2参照)。
RAID5にてボリューム(記憶媒体の領域)を作成しているディスクにてライトエラー(Write Error ;ディスクへのデータの書き込みの失敗) が発生し、ディスクフェイル(Fail)が発生すると、RAID装置はホットスペアディスク(Hot Spare Disk;未使用のデータ退避用ディスク) 又は正常ディスクの空き領域にフェイル(Fail)したディスク以外のディスク(正常ディスク)よりフェイルしたディスクのデータを再構築(Reconstruction)する(特許文献1、2参照)。
この再構築(Reconstruction)を行っている間、フェイルド(failed)状態のディスクを含む、RAID5(又はRAID5内の各ボリューム(Volume))へのアクセス性能の低下が起こり、また、扱うデータ量の増大により再構築(Reconstruction)にかかる時間も増大の傾向にある。
図6は従来例の説明図である。図6において、RAID装置1がホスト(HOST)2と接続されている。RAID装置1には、RAIDグループ(Group )”A”を構成するディスクD1、D2、D3、D4とホットスペアディスクD6が設けてある。ホスト(HOST)2には、カード21が設けてある。なお、カード21は、ファイバチャネル(Fibre Channel )、アイスカジー(iSCSI )、サス(SAS )等のホストとストレージ間を接続するためのホストバスアダプタ(Host Bus Adapter)である。
・再構築(Reconstruction)動作の説明
(1) RAID装置1のRAIDグループ”A”内のディスクD2にライトエラーが発生する。なお、ライトエラーとなるのは、通常ディスクに備わっている交代領域がなくなった場合である。
(1) RAID装置1のRAIDグループ”A”内のディスクD2にライトエラーが発生する。なお、ライトエラーとなるのは、通常ディスクに備わっている交代領域がなくなった場合である。
(2) RAID装置1は、ホットスペアディスクD6にフェイルしたディスクD2以外のディスクD1、D3、D4よりフェイルしたディスクD2のデータを再構築する。
(3) ホスト2は、RAIDグループ(Volume Group)”A”内のボリュームに対してのアクセス性能の低下が発生する(RAID装置1が再構築中であるため)。
(2):他のもう 1本のディスクで読み取り不可の領域がある場合の説明
RAID5を組んでいるうちの1本のディスクのライトエラー(Write Error )にてフェイル状態になった上に、他のもう1 本のディスクで媒体エラー等が間欠発生し、データが読みとり不可の領域がある場合、現状のデータ復旧方法では、フェイルしたディスク以外のディスクより再構築を行うため、上記の場合、データのリード(read)に失敗し、再構築不可となる。
RAID5を組んでいるうちの1本のディスクのライトエラー(Write Error )にてフェイル状態になった上に、他のもう1 本のディスクで媒体エラー等が間欠発生し、データが読みとり不可の領域がある場合、現状のデータ復旧方法では、フェイルしたディスク以外のディスクより再構築を行うため、上記の場合、データのリード(read)に失敗し、再構築不可となる。
図7は従来のライトエラーと他のディスクで読み取り不可の領域がある場合の説明図である。図6と同じものは同じ符号で示してある。
・再構築(Reconstruction)動作の説明
(1) RAID装置1のRAIDグループ(Group )”A”を構成するディスクD2にライトエラーが発生する。
(1) RAID装置1のRAIDグループ(Group )”A”を構成するディスクD2にライトエラーが発生する。
(2) RAID装置1は、ホットスペアディスクD6に、フェイルしたディスクD2以外のディスクD1、D3、D4よりフェイルしたディスクD2のデータの再構築を開始する。
(3) ディスクD3の媒体エラーにて、ディスク内に読み取り不可の領域が間欠発生する。
(4) RAID装置1は、ディスクD3の媒体エラーにてディスク内の間欠障害により、データの再構築に失敗する。
また、従来、ディスクのセクタ障害が発生した際、一時的に不揮発記憶手段に交代処理を実施し、高速な交代処理の実現と応答時間の短縮をするディスクアレイ装置があった(特許文献3参照)。これはセクタ障害が発生時の交代処理であり、ディスクのライトエラー発生時のデータの再生成を行うものではなかった。
上記従来のものは、次のような課題があった。
(1)ライトエラーが発生し、ホットスペアディスク又は正常ディスクの空き領域に再構築を行うと、再構築を行なっているRAIDグループ内のボリュームに対してのアクセス性能の低下が発生するものであった。
(2)RAIDを組んでいるうちの1本のディスクがライトエラーにてフェイル状態になった上に、他のもう1 本のディスクでデータが読みとり不可の領域がある場合、データの再構築に失敗するものであった。
ここで説明するディスクアレイ装置では、ディスクのエラーが発生した場合、未使用領域を用意して、エラーが発生したディスクの対象データを用意した未使用領域にライトしてシステムを継続運用できるようにすることを目的とする。
情報を格納する複数のディスク装置と、前記複数のディスク装置へのアクセスを制御するコントローラとを備えたディスクアレイ装置であって、前記コントローラは、前記ディスク装置にエラーが発生したことを検出した場合、該エラーを起こした領域のデータをディスクアレイ装置内の未使用領域に格納し、以降の該エラーを起こした領域へのアクセスは、前記未使用領域にアクセスすることで、前記エラーを起こしたディスク装置の運用を継続する。
ここで開示のディスクアレイ装置は、次のような効果がある。
ホスト等からエラーが発生したディスク装置に関係なく、ディスク装置へアクセスすることができ、また、エラーを起こしたディスク装置と未使用領域からのコピーでホットスペアディスク等へ再構築を行えるため、再構築の時間を短縮することができる。
ここで説明するディスクアレイ装置は、ディスクにエラーが発生した場合、未使用のディスク又は空き領域等に未使用領域を用意して、エラーが発生した領域のディスクのデータを用意した未使用領域にライトしてシステムを継続運用できるようにするものである。ここでディスクとして、ハードディスクドライブ(HDD )、ソリッドステートドライブ(SSD )等を使用することができる。
先ず、ディスクアレイ装置に未使用領域を用意する。この未使用領域としては、コントローラのメモリ、未使用のディスク、ホットスペア(Hot Spare )ディスク或いは、既にRAIDを組んでいるディスクの空き領域でもよい。
以下のエラー条件(a)〜(c)が起こった際、コントローラは、始めにディスク内の他の領域がリード(Read)可能か判断するために診断用リード(Read)を行う。コントローラが診断用リードでリード可能と判断したときのみ、ライトエラー等が発生したデータを上記未使用領域に書き込む。どこにデータを書き込んだかの情報(図2参照)は、ディスクアレイ装置のコントローラのメモリ上に持つこととする。
(エラー条件(a)〜(c))
(a)ディスク媒体エラーによるライトエラー(Write Error )が発生した場合(ディスクの交代領域がなくなった場合であり、交代領域がある場合はエラーとはならない。)。
(a)ディスク媒体エラーによるライトエラー(Write Error )が発生した場合(ディスクの交代領域がなくなった場合であり、交代領域がある場合はエラーとはならない。)。
(b)データのリード(Read)(バックグラウンドで実施するディスク監視機能(Media Scan)も含む)に失敗し、リードデータを他のディスクから再構成し、ディスクにリライト(Rewrite )したが再度リードに失敗した場合 (通常はそのまま同じディスクの交代領域に配置(allocate)してリライトしたデータをリードする) 。
(c)媒体エラー等のリカバードエラー(Recovered Error )にてリードに失敗する障害が発生し、該リードに失敗したデータを他のディスクから再構築して交代領域に書く回数がある一定値(規定値を設けておく) を超えた場合。
上記エラー条件(a)〜(c)が発生した際、従来は該エラーが発生したディスクをアクセス不可とし、そのディスクのステータスを“フェイルド(Failed)”として使用不可としていた。しかし、このディスクアレイ装置では、そのままリード/ライト可能(エラーを起こしたディスクはステータス“リードオンリ(Read only )”) とする。ここでリードオンリとする理由は、エラーを起こしている領域以外ではリード可能であり、そのリード可能なデータを有効に利用するためである。
上記エラー条件(a)〜(c)によりライト又はリードエラーした領域のデータを用意した未使用領域に保存する。その後通常運用を継続する。もし、エラー条件(a)〜(c)のエラーが発生したディスクの領域にライト処理が発生した場合に、コントローラはメモリ上の情報(どこにデータを書き込んだか)を参照して未使用領域にライトを実行する。そして、負荷の低い時間帯などにホットスペアディスクにエラーをしたディスク内のデータの再構築(Reconstruction)を実施すれば、装置の効率的な運用が可能となる。
負荷の低い時間帯は、例えば、次の(1)(2)のようにして判断する。(1) 管理者がアクセスの少ない時間帯を判断(設定)するもので、プログラム等で設定された開始時間に再構築を行う。(2) コントローラがアクセスするデータ量を監視するもので、例えば30分ぐらいアクセスがないと判断すると自動で再構築を開始する。
(1):再構築の説明
再構築(Reconstruction)の実施方法は、エラーが発生したディスクのリード可能な領域のデータをそのまま(エラー条件(a)〜(c)の発生したディスクから)ホットスペアディスクにコピー(Copy)し、未使用領域に保存したデータに関しても、そのままホットスペアディスクにコピーする。
再構築(Reconstruction)の実施方法は、エラーが発生したディスクのリード可能な領域のデータをそのまま(エラー条件(a)〜(c)の発生したディスクから)ホットスペアディスクにコピー(Copy)し、未使用領域に保存したデータに関しても、そのままホットスペアディスクにコピーする。
ディスクのエラーが発生している領域のデータは、未使用領域に格納し、以降のエラーが発生している領域へのアクセスはこの格納した未使用領域のデータにアクセスすることで、エラーが発生しているディスクの運用を継続する。このため、他のディスクからデータを再構築する必要はなく、ホスト等からエラーが発生しているディスクへのアクセスを可能としているため、データを単にコピーするだけの運用であり、通常のホットスペアディスクへの再構築(他のディスクからデータを再構築)より大幅に時間を短縮することが可能となる。
図1は未使用領域に未使用ディスクを使用する場合の説明図である。図1において、 ディスクアレイ装置1がホスト(HOST)2と接続されている。ディスクアレイ装置1には、コントローラ3、RAID5を構成するディスク (ディスク装置)D1、D2、D3、D4、未使用ディスク (ディスク装置)D5、ホットスペアディスク (ディスク装置)D6が設けてある。ホスト(HOST)2には、カード21が設けてある。
なお、4は未使用領域である。この未使用領域4は、コントローラのメモリ、未使用ディスクD5、ホットスペアディスクD6或いは、既にRAIDを組んでいるディスクD1、D2、D3、D4の空き領域であってもよい。
ディスクアレイ装置1は、複数のディスク装置で構成されたRAIDを用いることで、単体のディスクに比べ高い信頼性を実現するストレージシステムである。ホスト2は、ディスクアレイ装置1にアクセスする上位装置となるホストコンピュータである。コントローラ3は、ディスクD1、D2、D3、D4、未使用ディスクD5、ホットスペアディスクD6等へのリード/ライトの制御等を行うディスクアレイ装置の制御手段である。
未使用領域4は、使用予定はないがデータを書き込むことができる領域であり、ホストから認識されている格納領域である。未使用領域の把握は、まず、コントローラはディスクのSCSI(Small Computer System Interface )コマンド等を使用して、使用しているRAIDボリュームに割り当てられていない未使用のボリュームを把握し、コントローラのメモリ内にその情報を保持する。それと同時に未使用領域に割り当てる際の優先順位についても、設定する。例として、(1) ディスクD1、D2、D3、D4の空き領域→(2) コントローラのメモリの未割り当て領域→(3) ホットスペアディスクD6というように優先付けをする。
カード21は、ファイバチャネル(Fibre Channel )、アイスカジー(iSCSI )、サス(SAS )等のホストとストレージ間を接続するためのホストバスアダプタ(Host Bus Adapter)である。
ディスクD1、D2、D3、D4は、RAID5のRAIDグループを構成するディスクである。未使用ディスクD5は、RAIDを組んでない未使用のディスクである。ホットスペアディスクD6は、未使用のディスクであり、データ退避用である。
図2はエラーデータを書き込んだ場所の説明図である。ディスクアレイ装置において、媒体エラーが発生した際、コントローラは、SCSIコマンド等を使用してディスクのエラーが発生しているデータを特定し、そのデータを先に把握した未使用のデータ領域に割り当て、書き込む。また、この際どこに書き込んだのかという情報(エラーデータを書き込んだ場所の情報)をコントローラのメモリ内に保持する。このメモリ内に保持する情報の例(記述例)を図2に示してある。
図2において、上段にはエラー(障害)が発生したデータ(Defect data )の情報が、下段には上段の障害データを再割り当てしたデータ(Reassign data )の情報が示されている。上段のエラー(障害)が発生したデータ(Defect data )の情報には、エラーが発生しているディスク名(Device Name )、エラー発生の場所(Logical Block Address )、データ長(Transfer Length )が設けてある。下段の再割り当てしたデータ(Reassign data )の情報には、再割り当てした未使用領域のディスク名(Device Name )、再割り当てした場所(Logical Block Address )、データ長(Transfer Length )が設けてある。
・フローチャートによる説明
図3はライトエラーが発生した場合の処理の説明図である。以下、図3の未使用ディスクD5に再構築を行う動作を処理S1〜S3に従って説明する。
図3はライトエラーが発生した場合の処理の説明図である。以下、図3の未使用ディスクD5に再構築を行う動作を処理S1〜S3に従って説明する。
S1:コントローラ3は、RAID5を組んでいるディスクD2にライトエラーが発生したことを検出する。ライトエラーとなるのは、通常ディスクに備わっている交代領域がなくなった場合である。
S2:コントローラ3は、エラーを起こした領域に書き込もうとしていたデータ(ライトエラーのデータ)を未使用領域4にライトする。以降のエラーを起こしている領域へのアクセスはこの未使用領域のデータにアクセスすることで、ライトエラーを起こしているディスクD2の運用は継続する。ここで未使用領域4とは、未使用ディスクD5、ホットスペアディスクD6、コントローラ3のメモリ、既にRAIDを組んでいるディスクの空き領域等の未使用の領域である。図1の例では、未使用ディスクD5の領域を未使用領域4として使用する。なお、未使用領域4として交代領域は含めない。
S3:コントローラ3は、ディスクアレイ装置の負荷の低い時間帯などに、ライトエラーを起こしているディスクD2からリード可能な領域のデータを未使用ディスクD5にコピーして再構築(Reconstruction)を行う。なお、未使用領域4として、未使用ディスクD5以外を使用している場合は、未使用領域4にエラーが発生しなければディスクD2に格納すべきであったデータが存在するため、未使用領域4からもデータを未使用ディスクD5にコピーして、ディスクD2のデータの再構築を行う。
このように、ホスト(HOST)2からは、ディスクのライトエラーに関係なくディスクアレイ装置1へアクセスすることができる。そして、アクセス頻度の低い時間帯に未使用ディスクD5、ホットスペアディスクD6等への再構築を行う。
(2):複数のディスクにライトエラーが発生した場合の説明
同じRAID5の複数のディスクにおいて、前記エラー条件(a)〜(c)のエラーが発生した場合にも以下の説明のように有効である。
同じRAID5の複数のディスクにおいて、前記エラー条件(a)〜(c)のエラーが発生した場合にも以下の説明のように有効である。
同一RAID5内の複数ディスクにて前記エラー条件(a)〜(c)のエラーが発生した場合、前記エラー条件(a)〜(c)のエラーが発生しライトに失敗したデータを未使用領域にライトする。それぞれのディスクについてどの領域にデータを保存したかの情報(図2参照)をコントローラのメモリ上にて管理する。もし、ホットスペアディスクを1本設定している場合には、ホットスペアディスクに前記エラー条件(a)〜(c)のエラーが発生した1本目のディスクからホットスペアディスクにリード可能な領域をコピー+未使用領域からコピーし(ホットスペアディスクに再構築)、障害ディスク交換、データのコピーバック(copy back )を終了してから前記1本目のディスクと同様に、次の2本目のディスクのリード可能な領域をコピー+未使用領域からのコピーを行う。このホットスペアディスクへのデータの退避(再構築)の順番はどのディスクが先でもかまわない。
この場合に、1本目のディスクの再構築中に、再構築を行っていない片方(2本目)のディスクについて未使用領域へのライトに失敗する場合がある。このライトに失敗したデータは、RAIDを組んでいる1本目のディスクのエラー領域と同じデータの領域でなければ、RAIDを組んでいる他のディスクからデータ再構築を行うことが可能でありデータは保護される(通常の再構築の方法が適用される。)。
また、前記エラー条件(a)〜(c)以外の媒体エラー(Unrecovered Read Error)を含んだ場合の複数のディスクのエラーにも有効である。
前記エラー条件(a)〜(c)の条件でリードオンリ(Read Only )状態になったディスクを従来の手順、つまり、エラーディスク以外のディスクからのデータ再構築する手法にてホットスペアディスクに再構築を行っている最中に、他のディスク(2本目のディスク)でリード不可の領域が検出された場合、再構築に失敗してしまう。なお、他のディスクでリード不可の領域が検出された場合の例として、データ領域のリードエラーがリトライで救えなかった場合、ECCで修正できなかったなどの媒体エラー(Unrecovered Read Error)がある。前記エラー条件(a)〜(c)の条件とは異なる。
しかし、このディスクアレイ装置では2 本目のディスクのリード不可領域の情報を取得し、前記エラー条件(a)〜(c)のディスク(1本目のディスク)より2本目のディスクのリード不可領域に該当するデータをリードすることが可能なので、再構築を継続できる。
逆に1本目で媒体エラーが発生し、他のディスクからの通常の再構築を実施している間に、2本目として前記エラー条件(a)〜(c)のエラーが発生する場合がある。このような場合にも、このディスクアレイ装置では、1本目のディスクをリード可能とすることにより、再構築を継続することが可能である。この1本目のディスクがリード可能であるのは、1本目のディスクの媒体エラー領域のデータを未使用領域に格納し、以降この媒体エラー領域へのアクセスは未使用領域にアクセスすることで1本目のディスクをアクセス可能、すなわち、1本目のディスクをリード可能とするものである。
2本以上で媒体エラーが起こった場合においても、RAIDを組んでいるデータ領域において、2本以上のディスクでリード不可領域のデータが重ならなければ、このディスクアレイ装置によりデータの再構築は継続でき、貴重なデータを失う確率を削減することができる。再構築の継続は、未使用領域のデータと媒体エラーが発生してリードオンリ(ステータス)となったディスクからのデータを読み込むことにより行われる。
図4は複数のディスクにライトエラーが発生した場合の説明図である。図4において、ディスクアレイ装置1であるRAID装置には、RAIDグループ”A”のディスクD1、D2、D3、及び、ホットスペアディスクD6が設けてある。なお、図4ではホスト、コントローラ等は省略してある。
このRAID装置において、(1) ディスクD2にライトエラーが発生すると、(2) ディスクD1の未使用領域にデータをライトし、(3) ディスクD2の運用を継続する。さらに、(4) ディスクD3の媒体エラーにてディスクD3内に読み取り不可が間欠発生(ディスクD3内の交代領域の使用等でリカバリは出来ている状態)があり、(5) ディスクD3内の読み取り不可となった回数が、ある一定の閾値を超えたらディスクD1の未使用領域にデータをライトし、(6) ディスクD3の運用を継続する。(7) 負荷の低い時間帯などに、ホットスペアディスクD6に再構築を開始する。この再構築は、ディスクD2、D3のどちらか一方ずつ次の手順で実施する。
イ)ディスク(D2又はD3)のリード可能な領域からディスク(D2又はD3)のデータをホットスペアディスクD6にコピーする。
ロ)ディスクD1の未使用領域に書き込んだデータをホットスペアディスクD6にコピーする。
・フローチャートによる説明
図5は複数のディスクにライトエラーが発生した場合の処理の説明図である。以下、図5に従ってホットスペアディスクD6に再構築を行う動作を処理S11〜S17により説明する。
図5は複数のディスクにライトエラーが発生した場合の処理の説明図である。以下、図5に従ってホットスペアディスクD6に再構築を行う動作を処理S11〜S17により説明する。
S11:コントローラ3は、RAIDグループ”A”を組んでいるディスクD2にライトエラーが発生したことを検出する。
S12:コントローラ3は、エラーを起こした領域に書き込もうとしていたデータ(ライトエラーを起こしている領域のデータ)をディスクD1の未使用領域にライトする。
S13:コントローラ3は、ライトエラーを起こしているディスクD2の運用を継続する。
S14:コントローラ3は、ディスクD3の媒体エラーにてディスクD3内に読み取り不可の間欠発生(ディスクD3内の交代領域の使用等でリカバリは出来ている状態)を検出する。
S15:コントローラ3は、ディスクD3内で間欠発生した読み取り不可が、ある一定の閾値(予め決めておく)を超えたらディスクD1の未使用領域にその読み取り不可のデータをライト(他のディスクから再構築してライト)する。
S16:コントローラ3は、ディスクD3の運用を継続する。
S17:コントローラ3は、負荷の低い時間帯などに、ホットスペアディスクD6に再構築を開始する。この再構築は、ディスクD2、D3のどちらか一方ずつ実施する。
例えば、ディスクD2の再構築は、ディスクD2のリード可能な領域からディスクD2のデータをホットスペアディスクD6にコピーし、さらに、ディスクD1の未使用領域からディスクD2の書き込んだデータをホットスペアディスクD6にコピーする。この後、障害ディスクD2交換、データのコピーバックを終了する。
次いで、ディスクD3のリード可能な領域からディスクD3のデータをホットスペアディスクD6にコピーし、さらに、ディスクD1の未使用領域からディスクD3の書き込んだデータをホットスペアディスクD6にコピーする。この後、障害ディスクD3を交換し、交換したディスクに対しデータのコピーバックを終了する。
なお、未使用領域としてホットスペアディスクD6の未使用領域を使用し、ホットスペアディスクD6にディスクD2の再構築を行う場合において、未使用領域に障害ディスクD2、D3のデータが書き込まれていることがある。このときのディスクD2の再構築においては、障害ディスクD3のデータを他の未使用領域に退避させる必要がある。
このように、このディスクアレイ装置では、上記エラー条件(a)〜(c)の条件を設定したこと、今までフェイルド(failed)としてアクセス不可と判断していたが、ハード的には問題なく、媒体エラー、リカバード(Recovered )エラーに関して、ディスクが問題ない領域についてはそのままアクセス可能とする。そして、負荷が低い時間帯を選択してホットスペアディスク等に再構築を実施し、障害ディスクを交換して再構築したホットスペアディスク等から交換したディスクにコピー(コピーバック;Copy Back )を実行することができる。このため、ディスクアレイ装置を効率的に運用することが可能となると共に、コピーによる処理であるため再構築の時間を短縮できる。
また、複数のディスクでの媒体エラー、リカバードエラーの多発していた環境での、ディスクフェイルドにより再構築不可に陥る(ディスクマルチデッド) 確率の削減に有効である。
1 ディスクアレイ装置
2 ホスト(HOST)
3 コントローラ
4 未使用領域
D1、D2、D3、D4 ディスク (ディスク装置)
D5 未使用ディスク (ディスク装置)
D6 ホットスペアディスク (ディスク装置)
2 ホスト(HOST)
3 コントローラ
4 未使用領域
D1、D2、D3、D4 ディスク (ディスク装置)
D5 未使用ディスク (ディスク装置)
D6 ホットスペアディスク (ディスク装置)
Claims (6)
- 情報を格納する複数のディスク装置と、
前記複数のディスク装置へのアクセスを制御するコントローラとを備えたディスクアレイ装置であって、
前記コントローラは、前記ディスク装置のいずれかにエラーが発生したことを検出した場合、該エラーを起こした領域のデータをディスクアレイ装置内の未使用領域に格納し、以降の該エラーを起こした領域へのアクセスは、前記未使用領域にアクセスすることで、前記エラーを起こしたディスク装置の運用を継続することを特徴としたディスクアレイ装置。 - 前記コントローラは、前記エラーを起こした領域のデータが、ライト処理であった場合、該ライト処理で書き込まれるべきデータを前記未使用領域に格納することを特徴とした請求項1記載のディスクアレイ装置。
- 前記コントローラは、前記エラーを起こした領域のデータが、リード処理であった場合、該リード処理のデータを他のディスクから復元して前記未使用領域に格納することを特徴とした請求項1記載のディスクアレイ装置。
- 前記コントローラは、負荷の低い時間帯に、前記エラーを起こしたディスク装置のデータ及び前記未使用領域のデータから、前記エラーを起こしたディスク装置のデータの再構築を行うことを特徴とした請求項1〜3のいずれかに記載のディスクアレイ装置。
- 前記コントローラは、前記未使用領域に、複数のディスク装置のエラー領域のデータが格納されている場合、一つのディスク装置毎に再構築を行うことを特徴とした請求項4記載のディスクアレイ装置。
- 前記コントローラは、前記ディスク装置において、リードに失敗する障害が発生して該ディスク装置の交代領域に前記リードに失敗したデータを書き込む回数が、規定値を超えた場合、該ディスク装置にエラーが発生していると判断することを特徴とした請求項3〜5のいずれかに記載のディスクアレイ装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117104A JP2010267037A (ja) | 2009-05-14 | 2009-05-14 | ディスクアレイ装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117104A JP2010267037A (ja) | 2009-05-14 | 2009-05-14 | ディスクアレイ装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010267037A true JP2010267037A (ja) | 2010-11-25 |
Family
ID=43363964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009117104A Withdrawn JP2010267037A (ja) | 2009-05-14 | 2009-05-14 | ディスクアレイ装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010267037A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013210959A (ja) * | 2012-03-30 | 2013-10-10 | Fujitsu Ltd | ストレージ管理方法、システム、およびプログラム |
JP2015005248A (ja) * | 2013-06-24 | 2015-01-08 | 富士通株式会社 | ストレージ制御装置、ストレージ制御方法、及びストレージ制御プログラム |
JP2015525377A (ja) * | 2012-07-23 | 2015-09-03 | 株式会社日立製作所 | ストレージシステム及びデータ管理方法 |
US9841900B2 (en) | 2014-09-02 | 2017-12-12 | Fujitsu Limited | Storage control apparatus, method, and medium for scheduling volume recovery |
-
2009
- 2009-05-14 JP JP2009117104A patent/JP2010267037A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013210959A (ja) * | 2012-03-30 | 2013-10-10 | Fujitsu Ltd | ストレージ管理方法、システム、およびプログラム |
JP2015525377A (ja) * | 2012-07-23 | 2015-09-03 | 株式会社日立製作所 | ストレージシステム及びデータ管理方法 |
US9411527B2 (en) | 2012-07-23 | 2016-08-09 | Hitachi, Ltd. | Storage system and data management method |
JP2015005248A (ja) * | 2013-06-24 | 2015-01-08 | 富士通株式会社 | ストレージ制御装置、ストレージ制御方法、及びストレージ制御プログラム |
US9841900B2 (en) | 2014-09-02 | 2017-12-12 | Fujitsu Limited | Storage control apparatus, method, and medium for scheduling volume recovery |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8392752B2 (en) | Selective recovery and aggregation technique for two storage apparatuses of a raid | |
US5566316A (en) | Method and apparatus for hierarchical management of data storage elements in an array storage device | |
JP4821448B2 (ja) | Raidコントローラおよびraid装置 | |
US9378093B2 (en) | Controlling data storage in an array of storage devices | |
US8065558B2 (en) | Data volume rebuilder and methods for arranging data volumes for improved RAID reconstruction performance | |
JP3177242B2 (ja) | データ記憶装置における書込みオペレーション識別子の不揮発性メモリ記憶 | |
US7721143B2 (en) | Method for reducing rebuild time on a RAID device | |
US8839028B1 (en) | Managing data availability in storage systems | |
US7774643B2 (en) | Method and apparatus for preventing permanent data loss due to single failure of a fault tolerant array | |
US20140215147A1 (en) | Raid storage rebuild processing | |
US20070088990A1 (en) | System and method for reduction of rebuild time in raid systems through implementation of striped hot spare drives | |
US7188212B2 (en) | Method and system for storing data in an array of storage devices with additional and autonomic protection | |
US20140208155A1 (en) | Rebuilding drive data | |
US20050229033A1 (en) | Disk array controller and information processing apparatus | |
US9990263B1 (en) | Efficient use of spare device(s) associated with a group of devices | |
JP2008204041A (ja) | ストレージ装置及びデータ配置制御方法 | |
KR20090073099A (ko) | 전역 핫 스패어 디스크를 이용한 고장난 드라이브의 재구성및 카피백 방법 | |
JP2016530637A (ja) | Raidパリティストライプ再構成 | |
US20040250017A1 (en) | Method and apparatus for selecting among multiple data reconstruction techniques | |
JPWO2006123416A1 (ja) | ディスク故障復旧方法及びディスクアレイ装置 | |
US8386837B2 (en) | Storage control device, storage control method and storage control program | |
US20050240804A1 (en) | Efficient media scan operations for storage systems | |
US20140245062A1 (en) | Preventing unrecoverable errors during a disk regeneration in a disk array | |
US20050091452A1 (en) | System and method for reducing data loss in disk arrays by establishing data redundancy on demand | |
US8433949B2 (en) | Disk array apparatus and physical disk restoration method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20120807 |