JPH09258913A

JPH09258913A - 記憶装置アレイシステム

Info

Publication number: JPH09258913A
Application number: JP8068748A
Authority: JP
Inventors: Yuji Kiyohara; 裕二清原
Original assignee: EKUSHINGU KK; Brother Industries Ltd; Xing Inc
Current assignee: EKUSHINGU KK; Brother Industries Ltd; Xing Inc
Priority date: 1996-03-25
Filing date: 1996-03-25
Publication date: 1997-10-03

Abstract

(57)【要約】【課題】リビルドを早く済ませられる記憶装置アレイ
システムを提供する。【解決手段】ＣＰＵ１００は、リビルドモードでデー
タリード要求があると、磁気ディスク１０９〜１１３の
中の４つの正常な磁気ディスクから読み出させたデータ
から、パリティ演算でリビルドディスクのデータの復元
を行い、これをホストに送出すると共に、このデータを
リビルドセクタにも書き、各セクタが復旧を済ませたか
どうかを記録するための復旧済記録テーブルにリビルド
済みであることを記録する。そして、通常のセクタ順に
行われるリビルドのときには、復旧済記録テーブルにリ
ビルド済みであることが記録されているセクタに対して
はリビルドを実行しない（スキップする）ことで、リビ
ルドの総時間を短くすることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、記憶装置アレイシ
ステムに関する。

【０００２】

【従来技術】従来、複数台の記憶装置を有する記憶装置
アレイシステムがあり、代表的なものとしてディスクア
レイシステムが知られている。ディスクアレイシステム
では、磁気ディスクを複数台パラレルに同時動作させ
て、データ入出力性能の高速化を計っている。また、デ
ータの信頼性を向上させるために、冗長データを付加し
て記憶しており、ディスク上のデータの一部が失われて
も、元のデータを復元することが出来る。

【０００３】図１０〜図１２は、ディスクアレイシステ
ムの原理図である。以下の説明では、ディスクを何台並
列に並べるかという数を、パラレル数と呼び、ｐという
変数で表すこととする。但し、パラレル数ｐには、冗長
データを格納するためのディスクは含めない。冗長デー
タを持ったディスクアレイシステムは一般にＲＡＩＤと
いう略称で呼ばれることが多い。ＲＡＩＤは、ｒｅｄｕ
ｎｄａｎｔａｒｒａｙｓｏｆｉｎｅｘｐｅｎｓｉ
ｖｅｄｉｓｋｓの略である。ＲＡＩＤの種別は「レベ
ル」という言葉で区分けされている。

【０００４】ＲＡＩＤレベル０は、単にディスクをパラ
レル動作させ、データを分散記憶させるものである。信
頼性向上の効果はなく、高速化の効果しかない。分散の
単位は、ビット単位でもバイト単位でもセクタ単位でも
良く、特に限定されない。ＲＡＩＤレベル０は正確には
ＲＡＩＤではないが、対比のためによく例に挙げられ
る。

【０００５】ＲＡＩＤレベル１は、ミラーリングとも呼
ばれ、２つのディスクに同一のデータを書き込み、読み
出すときはどちらか一方のディスクから読み出す。片方
のディスクが壊れても、データは失われない。ＲＡＩＤ
レベル１は高速化の効果はないが信頼性が増大する。

【０００６】ＲＡＩＤレベル２は、ハミングコードなど
の冗長符号（誤り訂正符号）を用いるもので、レベル１
が通常のディスクと比べて２倍のディスクを必要とする
のに対し、レベル２は２倍までは要らない。データはビ
ット単位あるいはバイト単位で分散させ、冗長符号と合
わせて記録する。冗長符号の選び方で色々な方法が考え
られるが特に冗長符号として単純なパリティを用いたも
のが次のレベル３である。他の冗長符号を用いたものは
あまり実用価値がないので、レベル２が使用されること
は希である。

【０００７】ＲＡＩＤレベル３は、バイト単位でデータ
を分散させ、パリティを付加してディスクに格納するも
ので、高速化、信頼性向上の両方の効果がある。反面、
ディスクのセクタサイズ×ｐ個のデータが集まらないと
読み書きができないので、ディスクを単体で使う場合に
比べて、アクセス単位が大きくなる。データを小さな単
位でアクセスするような用途には不向きである。

【０００８】ＲＡＩＤレベル４は、この点を改善したも
ので、ディスクのセクタ単位でデータを分散させるもの
である。データはセクタサイズ単位に分割して、各ディ
スクに順に格納するのだが、ｐ個のセクタごとにパリテ
ィデータを計算して冗長データディスクに格納する。Ｒ
ＡＩＤレベル３ではセクタ単位×ｐのデータが最小アク
セス単位だったが、ＲＡＩＤレベル４ではセクタ単位で
読み書きが可能である。しかしセクタを書き換えるとき
は元のパリティデータと元のディスクデータを読み出し
て、新パリティを計算し直し、これをパリティとして書
き戻す必要があるため、通常より余分な動作が必要とな
る。またパリティを格納しているディスクにアクセスが
集中するため、ここがボトルネックになるという欠点も
ある。

【０００９】ＲＡＩＤレベル５はこの点を改善したもの
で、パリティを格納するディスクを、ブロックごとに回
転させることで、特定のディスクにアクセスが集中する
のを防止している。次に、図９を参照してさらに具体的
に従来例を説明する。

【００１０】ＣＰＵ８００は、ディスクアレイシステム
全体を制御するためのものである。ホストインターフェ
ース８０１は、図示しないホストとのデータのやりとり
をするためのインターフェースである。バッファ８０２
は、ディスク上のデータを一時格納しておくためのバッ
ファメモリであり、ホスト、ＣＰＵ８００のいずれから
もアクセスが出来る。ディスクコントローラ８０３〜８
０６は、ディスクの読み書きを制御する回路で、同じも
のが４個、ＣＰＵバスに接続されている。ディスク８０
７〜８１０は、磁気ディスクであり、同じものが４個、
それぞれのディスクコントローラ８０３〜８０６につな
がっている。ＣＰＵ８００が、ディスクコントローラ８
０３〜８０６を制御することにより、バッファ８０２上
のデータをディスク８０７〜８１０に書いたり、ディス
ク８０７〜８１０のデータをバッファ８０２上に読み出
したりできる。

【００１１】パリティは、ＣＰＵ８００が計算して求め
ている。ＣＰＵでパリティを計算するこの方式では、Ｒ
ＡＩＤレベル０、１、２、３、４、５のどれでもソフト
次第で実現可能であるが、ここでは、レベル３を例に取
る。ディスク８０７〜８０９がデータディスク、ディス
ク８１０がパリティディスクとなる。

【００１２】ライト時、ホストから送られたデータは、
ホストインターフェース８０１を介して、一旦バッファ
８０２に格納される。ＣＰＵ８００は、データを１バイ
トごとに区切って、３つのディスク８０７〜８０９に格
納するためのブロックに切り分ける。また、ＣＰＵ８０
０は、３つのブロックの各データからＥＸＣＬＵＳＩＶ
Ｅ−ＯＲの演算を行い、パリティを計算する。

【００１３】ここでいうパリティの意味は、３つのデー
タ間で各ｂｉｔごとに１の立っているｂｉｔが奇数個あ
るか偶数個あるかを示すものである。パリティには奇数
パリティと偶数パリティの２種類がある。奇数パリティ
は、１の立っているｂｉｔが奇数個のときパリティを０
として、パリティを含めた全体の１の立っているｂｉｔ
の数を奇数にするものである。偶数パリティは、１の立
っているｂｉｔが偶数個のときパリティを０として、パ
リティを含めた全体の１の立っているｂｉｔの数を偶数
にするものである。ＲＡＩＤに用いるのは、偶数パリテ
ィでも奇数パリティでもどちらでも良い。

【００１４】例えば、００１０１１１１、０１１１１０
００、１１１００１００、という３つのデータの偶数パ
リティを求めてみると、ｂｉｔ７（ＭＳＢ）には１がひ
とつなのでパリティ１、ｂｉｔ６は２個でパリティ０と
いう具合で、８ｂｉｔ全部のパリティは、１０１１００
１１となる。偶数パリティはＥＸＣＬＵＳＩＶＥ−ＯＲ
演算で求めることが出来る。例えば上の例で、ｂｉｔ６
は、０＋１＋１＝０となる（ここではＥＸＣＬＵＳＩＶ
Ｅ−ＯＲを＋で表わした）。奇数パリティはＥＸＣＬＵ
ＳＩＶＥ−ＯＲ演算で求められた結果を反転すれば求め
られる。

【００１５】このようにして求めたパリティデータと３
つのデータブロックとの計４つのブロックをディスク８
０７〜８１０に一斉に書き込む。単一のディスクに書く
場合と比べると、一つのディスクに対する書き込むデー
タ量が１／３になっているので高速に書き込める。

【００１６】リード時は、３つのデータディスク８０７
〜８０９からデータを読み出して、バイト毎に組み立て
ると元のデータが再生される。単一のディスクを読む場
合と比べると、一つのディスクから読み出すデータ量が
１／３になっているので高速に読み出せる。

【００１７】３つのデータディスク８０７〜８０９のう
ちどれかひとつが読めないときは、パリティディスク８
１０のデータを読み出し、これと読めた２つのデータと
でＥＸＣＬＵＳＩＶＥ−ＯＲ演算を行うと、読めなかっ
たデータが復元できる。パリティ計算をしてデータを復
元してからホストに返す場合は、通常のリードよりも時
間がかかるが、高速なＣＰＵを用いれば実用上問題な
い。

【００１８】この従来例では、４つのディスク８０７〜
８１０のうち１つまでのリードエラーはデータ復元が可
能だが、２つ以上のディスクでリードエラーが起きる
と、データの復元は不可能である。したがって、１つの
ディスクでリードエラーが起きたら、もう一つのディス
クでエラー起きる前に、出来るだけ早く先のディスクの
エラーを復旧する必要がある。

【００１９】あるディスクがリードエラーを起こしたり
ディスク全体が故障した場合は、そのディスクを抜いて
新品のディスクと交換し、データ再構築モードに入る。
新品のディスクに、抜き去ったディスクにあったデータ
と同じものを再構築するのである。データの再構築は一
般に「リビルド」と呼ばれ、以下このモードを「リビル
ドモード」と呼ぶ。オペレータが指示して、このモード
に入ってもいいし、あるいは新品のディスクをシステム
が自動的に判断して、このモードに入っても良い。

【００２０】リビルドモードでは、エラーの起きていな
いディスク＝いわゆる「生き残っている」ディスクか
ら、エラーの起きたディスク＝「死んだ」ディスクのデ
ータを復元して、これを新品のディスクに書くという動
作をする。データの復元は、前述のようにＥＸＣＬＵＳ
ＩＶＥ−ＯＲ演算で行う。

【００２１】例えばディスク８０８が故障した場合を考
えると、ディスク８０８を抜いて新品のディスク８０
８’を挿し、リビルドモードに入る。すると、ＣＰＵ８
００は、ディスク８０７、８０９、８１０の第ｎセクタ
を読んでＥＸＣＬＵＳＩＶＥ−ＯＲ演算を行い、ディス
ク８０８に元あったデータを復元し、これをディスク８
０８’に書き戻すという動作を、セクタ番号ｎをスキャ
ンして全てのセクタに対し順に行う。データ復元をセク
タ順に行うためにＣＰＵ８００は、どのセクタまで復元
したかというポインタを持っている。

【００２２】ＣＰＵ８００は、リビルド中にホストから
のデータリード要求があった場合には、リビルド動作を
一時中断してポインタを保存しておいて、要求データを
読み出してホストに返す。読み出しが終わったら、リビ
ルドポインタを見て、続きからリビルドを再開する。ラ
イト要求時も同様である。

【００２３】

【発明が解決しようとする課題】上述のように、従来技
術では、リビルドモードにおいてデータリード要求があ
った場合には、リビルドを中断してデータリードを行っ
ており、データの復旧はしていなかった。このリード要
求に応じて障害のあるデータブロックを出力するために
復元されるデータは、ディスクの復旧に際して復元され
るデータと同じであるが、このデータはディスクの復旧
には利用されていなかった。

【００２４】つまり、リード要求に応じてのデータ復元
とディスク復旧のためのデータ復元とが別々に実行さ
れ、いわば二度手間をかけていたわけで、結果として、
リビルドに要する時間が長くかかっていた。本発明は、
上述した問題点を解決するためになされたものであり、
リビルドを早く済ませられる記憶装置アレイシステムを
提供するものである。

【００２５】

【課題を解決するための手段】上記課題を解決するため
の手段として、請求項１記載の構成を採用できる。この
記憶アレイシステムでは、冗長データ生成手段が、外部
入力データから冗長データを生成すると、データ書き込
み手段は、外部入力データと冗長データを記憶装置に書
込む。そして、データ読出し手段は、外部からの要求に
応じて記録装置からデータを読出す。このデータ読出し
手段が記憶装置のいずれかに記録されたデータを読出せ
ないときに、データ復元手段は他の記憶装置に記録され
ているデータから読出せないデータを復元する。

【００２６】また、記憶装置のいずれかに記録されたデ
ータが消失した際には、データ復旧手段が他の前記記憶
装置に記録されているデータから消失したデータを復旧
し、復旧データ書き込み手段が復旧された復旧データを
新たな記憶装置に書き込む。なお、新たな記憶装置とい
っても新品を意味する訳ではなく、正常に機能してデー
タが消失した記憶装置に代わることができるという意味
である。

【００２７】このように、この記憶装置アレイは、デー
タが失われた場合には、そのデータを復元して外部の要
求に応じることができ、また失われたデータを新たな記
憶装置に復旧することができる。さらに、この記憶装置
アレイでは、復旧記録手段は、新たな記憶装置の記録単
位例えばセクタ毎に復旧データの書き込み、未書き込み
を記録する。また、復旧データ書き込み手段は、データ
復元手段により復元されたデータを復旧データとして新
たな記憶装置に書き込み、復旧手段は、復旧データが未
書き込みの記録単位に書き込むべきデータだけを復旧す
る。

【００２８】外部からの要求に応じてデータ復元手段に
より復元されたデータは、データ復旧手段により復元さ
れるものと同じであるから、これを復旧データとして使
用することに問題はない。このデータが復旧データとし
て新たな記憶装置に書き込まれると、復旧記録手段がこ
れを記録し、復旧手段は、書き込みが記録されている記
録単位に書き込むべきデータは復旧しない。つまり、デ
ータ復元手段によって復元されたデータについては、デ
ータ復旧手段が改めて復元することはない。よって、デ
ータが消失した場合に、すべてのデータについて復旧処
理する場合と比べて、復旧に要する時間は格段に短くな
る。また、データ復旧手段の稼働量自体も節減できる。

【００２９】請求項２記載の記憶装置アレイシステムで
は、記憶装置としてハードディスク記憶装置を採用して
いるので、大容量かつ高速な記憶装置アレイを安価に得
ることができる。

【００３０】

【発明の実施の形態】次に、本発明の好適な一具体例を
図面を参照して説明し、発明の実施の形態の説明とす
る。なお、この具体例ではＲＡＩＤレベル３を採用して
いるが、ＲＡＩＤの他のレベルやＲＡＩＤ以外のシステ
ムであっても本発明を具現できることは言うまでもな
い。

【００３１】

【具体例】図１に示すように、本具体例のディスクアレ
イシステム１０は、ディスクアレイシステム１０全体を
制御するためのＣＰＵ１００、３２ｂｉｔ幅のデータバ
スで図示しないホストとのデータのやりとりをするため
のホストインターフェース１０１、データを一時格納し
ておくためのバッファメモリであって、ホスト並びにＣ
ＰＵ１００のいずれからもアクセスが可能なバッファ１
０２、リビルド中のディスクの各セクタがリビルドを済
ませたかどうかを記録しておくためのフラグ（リビルド
フラグ）を集めたテーブルであって、ＣＰＵ１００のメ
モリ上に形成されるリビルド管理テーブル１０３、ＣＰ
Ｕバスにパラレルに接続されている同型のディスクコン
トローラ１０４〜１０８、各ディスクコントローラ１０
４〜１０８に１台ずつ接続され、ディスクコントローラ
１０４〜１０８によって読み書きを制御される同型の磁
気ディスク１０９〜１１３を備えている。

【００３２】なお、詳細は後述するが、ＣＰＵ１００
は、冗長データ生成手段、データ復元手段およびデータ
復旧手段として機能し、リビルド管理テーブル１０３は
復旧記録手段に相当する。また、ディスクコントローラ
１０４〜１０８は、データ書き込み手段、データ読出し
手段および復旧データ書き込み手段として機能し、磁気
ディスク１０９〜１１３は記憶装置に相当している。

【００３３】このディスクアレイシステム１０において
は、ＣＰＵ１００は、ディスクコントローラ１０４〜１
０８を制御することにより、バッファ１０２上のデータ
をディスク１０９〜１１３に書いたり、磁気ディスク１
０９〜１１３のデータをバッファ１０２上に読み出した
りできる。

【００３４】磁気ディスク１０９〜１１３が５台用意さ
れているのは、データディスク用に４台（磁気ディスク
１０９〜１１２、以下これらをデータディスク１０９〜
１１２とも呼ぶ）とパリティディスク用に１台（磁気デ
ィスク１１３、以下これをパリティディスク１１３とも
呼ぶ）を使用するためである。

【００３５】ホストからの３２ｂｉｔデータは、ＣＰＵ
１００によって８ｂｉｔずつに分解されて、データディ
スク１０９〜１１２に格納される。また、ＣＰＵ１００
は、４バイトのデータからパリティデータを計算し、こ
れをパリティディスク１１３に格納させる。

【００３６】一般に１つのディスクへのアクセス単位は
セクタと呼ばれるが、この具体例では、ディスクのセク
タ長の４倍がホストからのアクセス単位になっている。
以下の説明では、これら４つのセクタのデータとパリテ
ィデータをまとめた単位をブロックと呼ぶ。

【００３７】この具体例のディスクアレイシステム１０
では、ＲＡＩＤレベル３を採用していることから、読み
出し不能セクタが１ディスクのみの場合には、パリティ
演算により元のデータが復元可能である。パリティ計算
によって求めたデータは、正常に読み出せたデータと共
に、ホストへ送り出される。

【００３８】ここで、本具体例のディスクアレイシステ
ム１０において、磁気ディスク１０９〜１１３に障害が
発生した場合の処理について、その概要を説明する。普
通、磁気ディスク１０９〜１１３の障害には２段階の程
度が考えられる。第１段階は、とあるセクタが読み出し
不能になったが代替セクタがまだあり、代替処理が可能
な段階であり、第２段階は、読み出し不能なセクタが多
くなり代替セクタが不足してしまった段階、あるいはデ
ィスク全体に係わる故障によりすべてのセクタが読めな
くなる段階である。代替セクタというのは、セクタが読
めなくなるのに備えて予め磁気ディスク１０９〜１１３
に用意されているセクタのことである。

【００３９】このディスクアレイシステム１０では、第
１段階の障害では磁気ディスク１０９〜１１３の交換は
行われず、代替セクタによりデータを再生する。つま
り、読めなくなったセクタは、代替セクタに置き換え
て、パリティ演算によって再生したデータをそこに書き
込むのである。

【００４０】磁気ディスク１０９〜１１３のうちの一つ
が第２段階の障害になったところで、ディスクアレイシ
ステム１０は縮退モードに入る。データディスク１０９
〜１１２のうちのどれかが第２段階になった場合は、残
りの読み出し可能なセクタとパリティディスク１１３の
セクタを読み出して、パリティ演算を行い、読み出し不
能のセクタのデータを逆算する。このように、１台のデ
ータディスク１０９〜１１２に障害が起きても、残りの
磁気ディスク１０９〜１１３のデータから元のデータが
読みだせる。

【００４１】縮退モードは、データ冗長性がない状態で
動いている。このモードで、もう１台の磁気ディスク１
０９〜１１３に障害が発生すると、データ復元が出来な
くなるので、早晩、その磁気ディスク１０９〜１１３を
交換する必要がある。縮退モードに入ったことは、ホス
トへホストインターフェース１０１を通して伝えられる
ので、例えばオペレータはこれを知って、障害のある磁
気ディスク１０９〜１１３の交換を行う。即ち、障害デ
ィスクを引き抜いて、代わりに新品の磁気ディスクを差
し込むのである。ＣＰＵ１００は、ホストからの指令に
より、あるいは、ディスク交換を自動的に認識して、リ
ビルドモードに入る。

【００４２】ＣＰＵ１００は、リビルドモードで、ホス
トからの要求がない暇なときには、データの復元を行っ
ている。つまり、セクタを順に読んで、パリティ演算に
よりデータを再生して、これを新しい磁気ディスクに書
き込む。全てのセクタに対して、これを繰り返す。この
動作をリビルドと呼んでいる。以下、交換した新しい磁
気ディスクをリビルドディスクと呼ぶ。

【００４３】ＣＰＵ１００は、ホストからのデータ要求
があった場合には、再生データの書き込みが終わったと
ころでリビルド動作を一時中断して、要求データを読み
出す。このとき、読み出し不能セクタが要求されていた
場合は、再生したデータがリビルドデータそのものであ
るから、これをリビルドディスクに書き込む。リビルド
が完了したセクタには、リビルド管理テーブル１０３の
該当位置にフラグを立てる。図２に示すように、リビル
ド管理テーブル１０３では、１ビットが１セクタに対応
し、ビットが立っているところはリビルドが済んでいる
ことを示している。したがって、リビルド管理テーブル
１０３は総セクタ数分のｂｉｔのテーブルである。

【００４４】以上が、磁気ディスク１０９〜１１３に障
害が発生した場合の処理の概要であるが、次に、図３〜
図７を参照してさらに詳細に説明する。なお、以下の説
明で使用され図中に示される変数として、モード変数
Ｍ、リビルドポインタｒｐ、リビルドディスク番号Ｒ、
ターゲットセクタ番号Ｔがある。

【００４５】モード変数Ｍは、現在のモードが通常モー
ド、縮退モードまたはリビルドモードのいずれであるか
を示す変数である。リビルドポインタｒｐは、リビルド
をどのセクタまで進めたかを記憶するための変数で、本
具体例では次にリビルドを行うセクタのセクタ番号が使
用されている。リビルドディスク番号Ｒは、何番目のデ
ィスクをリビルドするかを示す変数である。ターゲット
セクタ番号Ｔは、ホストからのリード／ライト要求のあ
ったセクタ番号である。

【００４６】図３は、ＣＰＵ１００が実行するメインル
ーチンのフローチャートである。このメインルーチンの
処理では、ＣＰＵ１００は、まず必要な初期化を行う
（ステップ３００）。次に、ＣＰＵ１００は、ディスク
交換の有無を判断する（ステップ３０１）。

【００４７】ここで交換があった（ステップ３０１：Ｙ
ＥＳ）場合は、ＣＰＵ１００は、ステップ３０２へ進
み、図４に示されるサブルーチンＡを実行する。このサ
ブルーチンＡはディスク交換の確認処理であるが、詳細
は後述する。また、ディスク交換がなければ（ステップ
３０１：ＮＯ）、ＣＰＵ１００は、ステップ３０３に進
んでホストからの要求の有無を判断する。

【００４８】ホストからの要求があれば（ステップ３０
３：ＹＥＳ）、ＣＰＵ１００は、ステップ３０４へ進ん
で、ホストからの要求がリードかライトかを判断する。
そして、ホストからの要求がリードならばステップ３０
５へ進みサブルーチンＢを実行し、ライトならばステッ
プ３０６へ進んでサブルーチンＣを実行する。サブルー
チンＢはリード要求の処理であり、サブルーチンＣはラ
イト要求の処理であるが、それぞれの詳細は後述する。

【００４９】続くステップ３０７では、ＣＰＵ１００は
リビルドモードに入っているかどうかを調べる。そし
て、リビルドモードになっている場合は（ステップ３０
７：ＹＥＳ）、ＣＰＵ１００は、ステップ３０８へ進
み、サブルーチンＤを実行する。このサブルーチンＤは
リビルドの処理であるが、詳細は後述する。なお、リビ
ルドモードになるのは、サブルーチンＡの中で条件が成
立したときであるが、この条件についても後述する。

【００５０】このメインルーチンのフローチャートから
分かるように、一旦リビルドモードになると、ホストか
らの要求がないときにはサブルーチンＤが必ず実行され
ることになり、ここでセクタ順のリビルドが行われる。
次に、サブルーチンＡ〜Ｄについて、順に説明する。

【００５１】まず図４を参照してサブルーチンＡについ
て説明する。このサブルーチンの処理は、ディスク交換
の確認作業に相当する。図４に示すように、サブルーチ
ンＡでは、ＣＰＵ１００は、交換された磁気ディスク１
０９〜１１３のファイル管理テーブルを読み出し（ステ
ップ４０１）、ファイル管理テーブルが初期化されてい
るか否かを判断する（ステップ４０２）。新品の磁気デ
ィスクはファイル管理テーブルが初期化されているか
ら、このテーブルが初期化されてるか否かにより、新し
い磁気ディスクか否かを判断できる。

【００５２】ファイル管理テーブルが初期化されていな
ければ（ステップ４０２：ＮＯ）、ＣＰＵ１００は、ス
テップ４０３に進んで、図示しないディスプレイに例え
ば「新品ディスクではありませんが、リビルドしますか
？リビルドするとディスク上のデータはすべて消えて
しまいます。」といった内容にメッセージを表示させ、
応答入力を待つ。これは、ディスク交換がされたのに、
その磁気ディスクに使った形跡があるという場合である
から、オペレータに本当にこのディスクを使っていいの
かを問い合わせる作業である。ＣＰＵ１００は、応答入
力がＹであれば（ステップ４０４：ＹＥＳ）ステップ４
０５に進み、応答入力がＹでなければ（ステップ４０
４：ＮＯ）ステップ４０８に進んでエラー処理を実行す
る。

【００５３】ファイル管理テーブルが初期化されていれ
ば（ステップ４０２：ＮＯ）、ＣＰＵ１００は、ステッ
プ４０５に進み、モード変数Ｍを”リビルド”に設定し
てリビルドモードに入る。以下、この新しいディスクを
リビルドディスクと呼ぶ。次に、ＣＰＵ１００は、リビ
ルド管理テーブルのすべてのｂｉｔを０にし（ステップ
４０６）、リビルドポインタｒｐを０にして（ステップ
４０７）、このサブルーチンを終えメインルーチンに戻
る。ステップ４０６〜４０７の処理は、これからリビル
ドを行うための初期化処理である。

【００５４】次に、図５および図６を参照して、ホスト
からの要求に応じて読み出しを行うサブルーチンＢにつ
いて説明する。図５に示すように、ＣＰＵ１００は、サ
ブルーチンＢを開始すると、現在のモードが縮退モード
か否かを判断する（ステップ５００）。ここで縮退モー
ドであったならば（ステップ５００：ＹＥＳ）、ＣＰＵ
１００は図７に示されるステップ５２１へ進み、そうで
なければステップ５０１へ進む。

【００５５】ステップ５０１では、ＣＰＵ１００は、現
在のモードがリビルドモードかどうかを判断する。リビ
ルドモードであったならば（ステップ５１０：ＹＥ
Ｓ）、ＣＰＵ１００は図６に示されるステップ５１１へ
進み、そうでなければステップ５０２へ進む。

【００５６】ステップ５０２では、ＣＰＵ１００は、各
ディスクコントローラ１０４〜１０８に指示して、デー
タディスク１０９〜１１２と１つのパリティディスク１
１３のターゲットセクタを読み出させ、それをバッファ
１０２に転送して一時記憶させる。

【００５７】続いてＣＰＵ１００は、ステップ５０２の
処理で読み出しエラーが起きたディスクの数を調べる
（ステップ５０３）。ここでエラーが起きていなければ
（＝すべて正常）ステップ５１０へ進み、ひとつのディ
スクで読み出しエラーが起きた場合はステップ５０４へ
進み、２つ以上のディスクでエラーが起きた場合は、図
示しないエラー処理ルーチンへ飛ぶ。

【００５８】ステップ５０４では、ＣＰＵ１００は、先
程のエラーが代替セクタ処理が可能なエラーかどうかを
判断する。代替セクタ処理が可能とは、ディスク全体の
エラーではなく、そのセクタだけに関するエラーが発生
した場合を言う。ＣＰＵ１００は、これが可能ならばス
テップ５０５へ進み、代替セクタ処理を行う。具体的に
は、ディスクコントローラ１０４〜１０８を介して磁気
ディスク１０９〜１１３に代替セクタ登録処理コマンド
を送り、読めなくなったセクタを物理的には別のセクタ
に置き換えて、そこを以前と同じセクタ番号指定でアク
セスが出来るようにするのである。

【００５９】また、この処理中に、例えば代替セクタが
もう残っていないので代替セクタ処理ができないといっ
たエラーが発生する場合がある。このようなエラーが起
きた場合には（ステップ５０６：ＹＥＳ）、ＣＰＵ１０
０はステップ５０７へ進む。一方、正常に処理が出来た
ら（ステップ５０６：ＮＯ）、ＣＰＵ１００はステップ
５０７に進み、ディスクコントローラ１０４〜１０８に
指示して磁気ディスク１０９〜１１３の代替処理の済ん
だセクタに復元データを書き込ませる。

【００６０】５つの磁気ディスク１０９〜１１３のデー
タの内４つは正しく読めているので、パリティ演算によ
り読めなかった磁気ディスクのデータを復元でき、これ
を代替セクタに書き込むのである。代替セクタへの書き
込みが済んだら、ＣＰＵ１００はステップ５１０へ進
み、ホストへデータを出力する。

【００６１】また、読み出しエラーの代替セクタ処理が
不可能な場合（ステップ５０４：ＮＯ）、あるいは代替
セクタ処理ができなかった場合（ステップ５０６：ＹＥ
Ｓ）、ＣＰＵ１００は、エラーの起きた磁気ディスク１
０９〜１１３をリビルドディスクとしてリビルドディス
ク番号Ｒに記憶し（ステップ５０８）、モードを縮退モ
ードにしてから（ステップ５０９）、ホストへデータを
出力し（ステップ５１０）、このサブルーチンを終えメ
インルーチンに戻る。

【００６２】他方、現在のモードが縮退モードで（ステ
ップ５００：ＹＥＳ）、ステップ５２１へ進んだ場合に
は、ＣＰＵ１００は、磁気ディスク１０９〜１１３のう
ちの正常なもののディスクコントローラ１０４〜１０８
に指示して、４つの正常ディスクのターゲットセクタを
読む。次に、ＣＰＵ１００は、障害ディスクがパリティ
ディスク１１３かどうかを判断する（ステップ５２
２）。ＣＰＵ１００は、パリティディスク１１３であっ
たなら（ステップ５２２：ＹＥＳ）そのままステップ５
１０に進み、パリティディスク１１３でなければ（ステ
ップ５２２：ＮＯ）エラーディスクのデータをパリティ
演算で復元してから（ステップ５２３）、ステップ５１
０に進む。

【００６３】次に、ステップ５０１で、現在のモードが
リビルドモードであると判断された場合（ステップ５１
０：ＹＥＳ）について説明する。この場合、ＣＰＵ１０
０は図６に示されるステップ５１１へ進む。ＣＰＵ１０
０は、ステップ５１１では、磁気ディスク１０９〜１１
３のうちの正常なもののディスクコントローラ１０４〜
１０８に指示して、４つの正常ディスクのターゲットセ
クタを読み出し、そのデータをバッファ１０２に送って
一時記憶させる。次に、ＣＰＵ１００は、リビルドディ
スクはパリティディスク１１３かどうかを判断し（ステ
ップ５１２）。パリティディスク１１３ならステップ５
１６へ進み、そうでなければステップ５１３へ進む。

【００６４】ステップ５１３では、ＣＰＵ１００は、読
み出せないデータディスク１０９〜１１２のいずれかの
データをバッファ１０２内のデータからパリティ演算で
復元する。このデータはリビルドディスクに書き込むデ
ータでもある。続いて、ＣＰＵ１００は、ホストへデー
タを出力する（ステップ５１４）。

【００６５】次に、ＣＰＵ１００は、ターゲットセクタ
のリビルドフラグを検査し、これがリビルド済みか否か
を判断する（ステップ５１５）。ここでリビルド済なら
（ステップ５１５：ＹＥＳ）、ＣＰＵ１００はこのサブ
ルーチンを抜ける。まだリビルドされていなければ（ス
テップ５１５：ＮＯ）、ＣＰＵ１００はステップ５１９
へ進む。

【００６６】また、リビルドディスクがパリティディス
ク１１３であったので（ステップ５１２：ＹＥＳ）、ス
テップ５１６へ進んだ場合には、ＣＰＵ１００は、バッ
ファ１０２に保存させていたデータをホストへ出力す
る。続いて、ＣＰＵ１００は、ターゲットセクタのリビ
ルドフラグを検査し、これがリビルド済みか否かを判断
する（ステップ５１７）。ここでリビルド済なら（ステ
ップ５１７：ＹＥＳ）、ＣＰＵ１００はこのサブルーチ
ンを抜ける。まだリビルドされていなければ（ステップ
５１７：ＮＯ）、ＣＰＵ１００はパリティデータを計算
してから（ステップ５１８）ステップ５１９へ進む。

【００６７】ステップ５１９では、ＣＰＵ１００は、リ
ビルドディスクのターゲットセクタにステップ５１３で
復元した復元データまたはステップ５１８で算出したパ
リティデータを書き込む。続いて、ＣＰＵ１００は、リ
ビルド管理テーブル１０３のステップ５１９で書き込ん
だセクタに対応する位置にフラグを立て（ステップ５２
０）、このサブルーチンを抜ける。

【００６８】次に、ホストからの要求に応じてディスク
への書き込みを行うサブルーチンＣについて図７を参照
して説明する。図７に示すように、ＣＰＵ１００は、ま
ずバッファ１０２に指示してホストからのデータを受け
取らせる（ステップ６００）。次に、ＣＰＵ１００は、
現在のモードが縮退モードかどうかを判断する（ステッ
プ６０１）。ここで縮退モードなら（ステップ６０１：
ＹＥＳ）、ＣＰＵ１００はステップ６０２へ進み、リビ
ルドディスクがパリティディスクかどうかを判断する。
障害ディスクがパリティディスクなら（ステップ６０
２：ＹＥＳ）、ＣＰＵ１００はステップ６０３へ進み、
バッファ１０２からのデータをディスクコントローラ１
０４〜１０７に転送してデータディスク１０９〜１１２
に書き込ませる。

【００６９】障害ディスクがパリティディスクでなけれ
ば（ステップ６０２：ＮＯ）、ＣＰＵ１００はステップ
６０４へ進み、パリティデータを計算する。次いで、Ｃ
ＰＵ１００は、このパリティデータをディスクコントロ
ーラ１０８に送ってパリティディスク１１３に書き込ま
せ、バッファ１０２からのデータを障害のない３つのデ
ータディスク１０９〜１１２のディスクコントローラ１
０４〜１０７に転送して書き込ませる（ステップ６０
５）。

【００７０】一方、現在のモードが縮退モードではなけ
れば（ステップ６０１：ＮＯ）、ＣＰＵ１００はステッ
プ６０６へ進み、パリティデータを計算する。次いで、
ＣＰＵ１００は、このパリティデータをディスクコント
ローラ１０８に送ってパリティディスク１１３に書き込
ませ、バッファ１０２からのデータをディスクコントロ
ーラ１０４〜１０８に転送してデータディスク１０９〜
１１２に書き込ませる（ステップ６０７）。

【００７１】次に、ＣＰＵ１００は、現在のモードがリ
ビルドモードであるか否かを判断する（ステップ６０
８）。ここで、リビルドモードなら（ステップ６０８：
ＹＥＳ）ステップ６０９へ進んで、リビルド管理テーブ
ル１０３のターゲットセクタのリビルドフラグを立て
る。

【００７２】なお、ＣＰＵ１００は、上述のステップ６
０３、６０４、６０９のいずれかの処理の後、このサブ
ルーチンを抜けてメインルーチンに戻る。次に、リビル
ドのバックグラウンド処理を行うサブルーチンＤについ
て図８を参照して説明する。

【００７３】図８に示すように、ＣＰＵ１００は、リビ
ルド管理テーブル１０３の中の、リビルドポインタｒｐ
の指すセクタに対応するフラグを検査し、そのセクタが
リビルド済みかどうかを判断する（ステップ７０１）。
既にリビルド済の場合は（ステップ７０１：ＹＥＳ）ス
テップ７０６へ進み、そうでなければステップ７０２へ
進む。

【００７４】ステップ７０２では、ＣＰＵ１００は、磁
気ディスク１０９〜１１３中の４つの正常な磁気ディス
クのディスクコントローラ１０４〜１０８に指示して、
リビルドポインタｒｐの指すセクタのデータを読み出さ
せ、これをバッファ１０２に記憶させる。続くステップ
７０３では、ＣＰＵ１００は、バッファ１０２内のデー
タから、パリティ演算でリビルドデータを求める。次
に、ＣＰＵ１００は、リビルドディスクのリビルドセク
タにステップ７０３で求めたリビルドデータを書き込む
（ステップ７０４）。続いて、ＣＰＵ１００は、リビル
ド管理テーブル１０３のリビルドセクタの位置にフラグ
を立てる（ステップ７０５）。

【００７５】ステップ７０６では、ＣＰＵ１００は、リ
ビルドポインタｒｐを１セクタ進め、続くステップ７０
７では、リビルドポインタｒｐが最大セクタ数を越えた
かどうかを判断する。ここで、リビルドポインタｒｐが
最大セクタ数を越えていれば（ステップ７０７：ＹＥ
Ｓ）、ＣＰＵ１００はステップ７０８へ進み、モードを
通常モードに戻す。また、リビルドポインタｒｐが最大
セクタ数を越えていなければ（ステップ７０７：Ｎ
Ｏ）、ＣＰＵ１００はこのサブルーチンを抜けてメイン
ルーチンに戻る。

【００７６】以上の説明から分かるように、本具体例の
ディスクアレイシステム１０では、リビルドモードにお
いてデータリード要求があった場合に、障害のあるデー
タブロックを出力するときは、ホストに出力するための
データの復元を行い、これをホストに返すと同時にこの
データをリビルドセクタにも書いている（サブルーチン
Ｂのステップ５１９参照）。このとき磁気ディスクの各
セクタが復旧を済ませたかどうかを記録するための復旧
済記録テーブルにリビルド済みであることを記録する
（同ステップ５２０参照）ので、通常のセクタ順に行わ
れるリビルドのときに、このセクタに対するリビルドを
スキップする（サブルーチンＤステップ７０１から７０
６へのジャンプ参照）ことで、リビルドの総時間を短く
することができる。

【００７７】以上、具体例に従って、本発明の実施の形
態について説明したが、本発明はこのような具体例に限
定されるものではなく、本発明の要旨を逸脱しない範囲
でさまざまに実施できることは言うまでもない。この具
体例では磁気ディスクを使用したが、例えば光磁気ディ
スク、ＣＤ−Ｒ、フロッピーディスクなどを用いても同
様の構成が可能であり、同様の効果を得ることができ
る。

【００７８】

【発明の効果】以上説明したように、請求項１記載の記
憶装置アレイシステムによれば、データが消失した場合
に、すべてのデータについて復旧処理する場合と比べ
て、復旧に要する時間は格段に短くなる。また、データ
復旧手段の稼働量自体も節減できる。

【００７９】請求項２記載の記憶装置アレイシステムで
は、記憶装置としてハードディスク記憶装置を採用して
いるので、大容量かつ高速な記憶装置アレイを安価に得
ることができる。

【図面の簡単な説明】

【図１】具体例のディスクアレイシステムの構成を説
明するブロック図である。

【図２】具体例のリビルド管理テーブルの説明図であ
る。

【図３】具体例のディスクアレイシステムのＣＰＵが
実行するメインルーチンのフローチャートである。

【図４】具体例のディスクアレイシステムのＣＰＵが
実行するサブルーチンＡのフローチャートである。

【図５】具体例のディスクアレイシステムのＣＰＵが
実行するサブルーチンＢの一部のフローチャートであ
る。

【図６】具体例のディスクアレイシステムのＣＰＵが
実行するサブルーチンＢの一部のフローチャートであ
る。

【図７】具体例のディスクアレイシステムのＣＰＵが
実行するサブルーチンＣのフローチャートである。

【図８】具体例のディスクアレイシステムのＣＰＵが
実行するサブルーチンＤのフローチャートである。

【図９】従来例のディスクアレイシステムの構成を説
明するブロック図である。

【図１０】ＲＡＩＤレベル０およびＲＡＩＤレベル１
の説明図である。

【図１１】ＲＡＩＤレベル２およびＲＡＩＤレベル３
の説明図である。

【図１２】ＲＡＩＤレベル４およびＲＡＩＤレベル５
の説明図である。

【符号の説明】

１０・・・ディスクアレイシステム、１００・・・ＣＰ
Ｕ（冗長データ生成手段、データ復元手段、データ復旧
手段）、１０１・・・ホストインターフェース、１０２
・・・バッファ、１０３・・・リビルド管理テーブル
（復旧記録手段）、１０４〜１０８・・・ディスクコン
トローラ（データ書き込み手段、データ読出し手段、復
旧データ書き込み手段）、１０９〜１１３・・・磁気デ
ィスク（記憶装置）。

Claims

【特許請求の範囲】

【請求項１】複数台の記憶装置と、外部入力データか
ら冗長データを生成する冗長データ生成手段と、前記記
憶装置に前記外部入力データと前記冗長データを書込む
データ書き込み手段と、外部からの要求に応じて前記記
録装置からデータを読出すデータ読出し手段と、該デー
タ読出し手段が前記記憶装置のいずれかに記録されたデ
ータを読出せないときに他の前記記憶装置に記録されて
いるデータから該読出せないデータを復元するデータ復
元手段と、前記記憶装置のいずれかに記録されたデータ
が消失した際に他の前記記憶装置に記録されているデー
タから前記消失したデータを復旧するデータ復旧手段
と、該復旧された復旧データを新たな記憶装置に書き込
む復旧データ書き込み手段とを有する記憶装置アレイシ
ステムにおいて、前記新たな記憶装置の記録単位毎に前記復旧データの書
き込み、未書き込みを記録する復旧記録手段を設け、前記復旧データ書き込み手段は、前記データ復元手段に
より復元されたデータを前記復旧データとして前記新た
な記憶装置に書き込む構成とし、前記復旧手段は、前記復旧データが未書き込みの記録単
位に書き込むべきデータだけを復旧する構成としたこと
を特徴とする記憶装置アレイシステム。
【請求項２】請求項１記載の記憶装置アレイシステム
において、前記記憶装置はハードディスク記憶装置であることを特
徴とする記憶装置アレイシステム。