JP2888401B2

JP2888401B2 - 冗長ディスクドライブアレイに対する同期方法

Info

Publication number: JP2888401B2
Application number: JP5159626A
Authority: JP
Inventors: ノア、メンデルソーン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-08-03
Filing date: 1993-06-29
Publication date: 1999-05-10
Anticipated expiration: 2014-05-10
Also published as: US5488731A; JPH06202813A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はアレイの冗長（redundan
t ）ディスクドライブ上へのデータの格納、より詳細に
は、停電の後の冗長ディスクドライブ間のデータ同期を
確保するための方法に関する。

【０００２】

【従来の技術】用語“ディスクアレイ（disk array）”
は、ここでは複数の磁気ディスクがデータの格納の性能
及び信頼性を向上させるためにパラレルにて使用される
クラスのコンピュータシステムに関して用いられる。従
来技術は安価なディスクの冗長アレイ（redundant arra
ys of inexpensive disks 、ＲＡＩＤ）が大きなコスト
の高いディスクドライブに対する魅力的な代替となり
得、１桁のオーダの性能の向上を約束することを示唆す
る。１９８８年６月１日から３日にイリノイ州シカゴ市
において開催されたACM Sigmod Conference （ＡＣＭシ
グモッド会議）においてパターソン（Patterson ）らに
よって発表の論文『安価なディスクの冗長アレイ（ＲＡ
ＩＤ）のケース（A Case for Redundant Arrays of Ine
xpensive Disks（ＲＡＩＤ）』はデータ冗長を可能に
し、ディスクアレイシステムの信頼性を向上させるため
の複数レベルのＲＡＩＤシステムについて説明する。パ
ターソンらによって“ストライピング（striping）”の
概念が説明されるが、これはデータを複数のディスクド
ライブの間でインタリービング（interleaving）するこ
とに関する。このインタリービングはビット、バイト、
語或はブロック単位で行なわれ、次に来る一連のデータ
要素が次に来るディスクドライブに“ストライプ（stri
pe）”構成にて置かれる。ブロックストライピング（bl
ock striping）システムにおいては、各ブロックは単一
のディスク内に書き込まれるが、但し、その後のブロッ
クは、他のディスクに分散される。ストライピング技法
は性能を向上させるが、信頼性は向上させない。向上さ
れた信頼性はディスクアレイの複数のドライブ上に冗長
のエラー修正コードを格納することによって得ることが
できる。個々のディスクが故障したような場合、これら
のコードが失われたデータを再構成するために使用さ
れ、このデータは次に交換されたディスクにこれが用意
された段階で書き込まれる。パターソンらによって説明
されるＲＡＩＤシステム構成はデータ回復を可能にする
冗長の複数の例を説明する。一つのこのようなＲＡＩＤ
システムは“ミラーリング（mirroring ）”を採用し、
もう一つのシステムは“パリティ（parity）”を採用す
る。ミラーリングシステム（Mirroring system）はデー
タの各ブロックを少なくとも二つの別個のディスクドラ
イブ上に書き込むことによって信頼性を向上させる。一
つのドライブが故障した場合でも、同一データを含む少
なくとも一つの他のドライブが存在し、システムは残り
のドライブにて実行を継続でき、或は複製データを交換
ドライブにコピーすることによって再構成することがで
きる。

【０００３】パリティディクス（parity disk ）システ
ムは複数のディスクを“パリティグループ（parity gro
up）”にグループ化することによって冗長を提供する。
ディスクドライブの一つを除く全ては通常のディスクブ
ロックを含み、一方、一つの残りのディスクドライブ上
のブロックはその他のドライブ上の対応するブロック内
のデータのビットワイズ（bitwise ）の排他的ＯＲ総和
（モジュロ２）を含むように書き込まれる。そして、任
意の一つのドライブが故障した場合、そのデータは残り
のドライブ上のデータの排他的ＯＲ動作によって再構成
される。更新は新たなデータをデータディスクドライブ
上の適当な位置内に書き込み、排他的ＯＲ機能を使用し
て古いデータと新しいデータの差をパリティディスクド
ライブ上の対応するブロックに加えることによって達成
される。

【０００４】このようなミラー及びパリティシステムに
おいては、停電（あるいは電源故障）及びその後のパワ
ーアップ（電源投入）が起こったとき、同期の問題が発
生する。データは同一データが冗長ディスク上に存在す
る場合に冗長ディスクを横断して“同期されている（sy
nchronized）”といわれる。データは、同一であるべき
データが同一でない場合“同期されてない（unsynchron
ized）”といわれる。パワーアップにおける問題は、冗
長ディスクを横断してどのデータが同期されており、ど
のデータが同期されてないかを決定することである。

【０００５】ミラーリング及びパリティシステムを採用
するエラー修正技法は、従って、データ及びエラー修正
コードが矛盾なく一貫して書き込まれているときにのみ
正しく機能する。特に、システムの停電の後に、データ
及びデータを保護するエラー修正コードに不一致があっ
てはならない。最低でも、システムが効率的に不一致を
発見し、修正できる能力が要求される。

【０００６】全てのデータが中央の共有コントローラに
よって書き込まれ、かつ、このコントローラがパワーが
失われる警告を十分に早く得る場合は、同期は停電の前
にこのコントローラによって確保できる。但し、このタ
イプの共有コントローラは単一ポイントの故障を起こす
傾向を持ち、これによって、システムの全体としての信
頼性が制約される。これらはまた大きなグループの作動
ディスク間に置かれる共有待機交換ドライブの柔軟性に
制約を与える。

【０００７】これら問題は、複数のディスクが、典型的
には、通信ネットワークによって接続された個別の処理
ノード上に駐在する個別のコントローラによって非同期
的に書き込まれるようなアーキテクチュアにおいては一
層複雑になる。このようなディスクがトランザクション
処理システムのために使用されるような場合、従来技術
においては、システムの停電に続いて様々なディスクの
再同期ができるように高レベルのソフトウエアトランザ
クションログが使用できるようになっている。

【０００８】高速ランダムアクセスメモリ（High speed
random access memories 、ＲＡＭｓ）がディスクシス
テムの性能を向上させるために使用されている。これら
バッファ或はキャッシュは、通常、ディスクドライブを
制御する中央プロセッサの主メモリから割り当てられる
か、或はディクスコントローラ回路内に含まれこれに属
する。いずれのケースにおいても、これらバッファはデ
ィスクから頻繁にアクセスされるデータを繰り返して再
読み出しする必要性を排除する。データは最初にアクセ
スされたときこの高速バッファ内に置かれ、ここに可能
な限り長く保持される。データが代替されると、高速バ
ッファが変更され、システムが全体として停電したとき
データが失われる可能性を回避するために変更されたデ
ータが直ちにディスク内に書き込まれる。これらのタイ
プのデータキャッシュは“ライトスルー（write throug
h ）”キャッシュとして知られている。

【０００９】それらの内容がシステムが停電した場合で
も保持されるようなランダムアクセスメモリが現在存在
する。ある半導体メモリはバッテリバックアップ或は他
の信頼できる電源を使用することにより不揮発性メモリ
として使用することができる。別の半導体メモリはパワ
ーが除去された時でも本質的に安定であり、停電が起き
てもバッテリによるバックアップなしに格納されたデー
タを保持する。用語“不揮発性（non-volatile）ＲＡ
Ｍ”（ＮＶＲＡＭ）は、ここでは全てのこのようなメモ
リデバイスを指すために使用される。例えば、ＩＢＭ３
９９０ディスクコントローラはデータをディスクに書き
込む前に長期間キャッシュ（高速格納）するためにＮＶ
ＲＡＭを使用する。システムが停電した後再開された場
合、ＮＶＲＡＭキャッシュ内の情報はディスク自体の上
の対応するデータよりも一層新しいものであると見なさ
れる。

【００１０】従来技術の特許にはパリティ保護ディスク
アレイ及び他の冗長ディスク構成に関する複数の開示が
含まれる。クラーケ（Clarke）らに付与された合衆国特
許第４，７６１，７８５号はパリティ保護ディスクアレ
イの概念及び関連する最適化について開示する。クラー
ケらはまたディスク上のデータ“見出し（headers ）”
内に格納されたバージョン情報がデータと関連するパリ
ティブロックとの間のバージョンの不一致の検出をサポ
ートする技法について説明する。但し、停電及びそれに
続くパワーアップがあった場合のこれらの不一致の修正
については考慮されてない。スティフラ（Stiffler）ら
に交付された合衆国特許第４，６５４，８１９号におい
ては、フォールトトレラント（fault tolerant）コンピ
ュータシステムの実現のために冗長ＲＡＭが使用され
る。主メモリに対する更新データが緩衝され、変更デー
タが専用のキャッシュユニット内にプログラム内容がス
イッチされるまで或はキャッシュが一杯になるまで格納
される。いずれかが発生した時点で、二つのフェーズか
ら成る更新プロトコルを使用して、最初に第一の主メモ
リが、そして次に第二の主メモリが更新されるが、こう
して、いずれかのメモリが故障した場合に動作を再開或
は破棄するための十分な情報が常に残される。

【００１１】グッドランダ（Goodlander）らに付与され
た合衆国特許第４，９４２，５７９号は複数のディスク
ドライブを横断してのストライピング（striping）の様
々なＲＡＩＤ構成及び一つのこのようなドライブが故障
した場合のデータ再構成のための技法について開示す
る。グッドランダらによって説明されるアーキテクチュ
アはキャッシング及び高速書き込みのために単一のバッ
テリにてバックアップされた“キャッシュメモリ（cach
e memory）”を使用する。但し、“キャッシュ”メモリ
が故障したときこれをバックアップするための準備は示
されない。

【００１２】ベーガ（Berger）らに交付された合衆国特
許第５，０５１，８８７号においては、ミラーリング
（mirroring ）機能を含むメインフレームディスクコン
トローラが開示される。ＮＶＲＡＭがここでは高速書き
込み及び同期機構として使用される。ベーガらのシステ
ムは高速書き込みバッファとしての単一ＮＶＲＡＭを第
二の揮発性キャッシュと共に使用する。このシステムは
高速書き込みが完了したことを通知する前にデータがＮ
ＶＲＡＭ及びキャッシュ或はＮＶＲＡＭ及び一つのディ
スク内に存在することを保証する。これはパワーが失わ
れた場合にキャッシュ或はＮＶＲＡＭが損失することに
対して保護し、一方で、システムが動作して回復を提供
できるようにする。但し、ベーガらのシステムは停電の
際にＮＶＲＡＭ或はドライブが失われた場合に、回復が
いかにして可能であるかについては説明しない。さら
に、ベーガらは様々なＲＡＩＤ装置が停電した場合にデ
ータの同期をいかに提供するかについては説明しない。

【００１３】ミヤザキ（Miyazaki）らに交付された合衆
国特許第４，６０３，４０６号は各々が個別のバッテリ
バックアップを持ち、通常、同一のデータを格納する二
つのメモリの再同期について開示する。停電の際の任意
の時点でバッテリバックアップが失われた場合は、対応
するメモリの内容は信頼できるものではない。このた
め、システムが後にメモリを再獲得した場合、どちらの
メモリがそれらの内容を失ったかを知らせるための手段
が提供される。

【００１４】ハムストラ（Hamstra ）らに交付された合
衆国特許第４，５３０，０５４号においては中央キャッ
シュを持つディスクコントローラが開示される。ここで
は、更新はストアイン（store-in）方法にて達成される
（つまり、更新データは永久補助記憶装置に書き込まれ
る前にある期間キャッシュ内に保持される）。ハムスト
ラらのシステムは、停電があった場合、キャッシュ内の
およそどれ位のデータが危険状態にあるかをホストプロ
セッサに示す。

【００１５】冗長データメモリの性能に関する他の教示
が以下の資料：つまり、Ｖ．Ｊ．Kruskal （クルスカ
ル）の防衛刊行物（Defensive publication ）Ｔ９３
２，００５；Kinoshita （キノシタ）らに付与された合
衆国特許第４，４９３，０８３号、Ｉmezaki（イメザ
キ）らに付与された第４，３９３，５００号、Nishigak
i （ニシガキ）らに付与された第５，０４３，８７１
号、George（ジョージ）らに付与された第４，４１９，
７２５号、Finley（フィンレイ）らに付与された第４，
６９７，２６６号、Milligan（ミリガン）らに付与され
た第４，４１０，９４２号；Hotle （ホテル）らに付与
されたＰＣＴ国際特許ＷＯ９０／０６５５０；及び日本
国特許第６２−１９４５５７号において見られる。

【００１６】

【発明が解決しようとする課題】従って、本発明の一つ
の目的は、停電した場合の改良されたデータ同期の方法
を持つディスクドライブの冗長構成を提供することにあ
る。

【００１７】本発明のもう一つの目的は停電の際のドラ
イブ或はキャッシュメモリの損失が検出されそれから回
復できるディスクドライブの冗長アレイに対するデータ
同期のための改良された方法を提供することにある。

【００１８】

【課題を解決するための手段及び作用】マルチプロセッ
サシステムは交換ネットワークを通じて相互接続された
複数の実質的に同一のノードを含み、各ノードはディス
クドライブ、ＮＶＲＡＭ、及びプロセッサを含む。この
システムは異なるノード内の複数のディスクドライブを
横断してデータをパリティ保護ＲＡＩＤ（parity prote
cted RAID ）或はミラード（mirrored）方式にて格納す
る。ＲＡＩＤ構成内にデータが格納されると、パリティ
ノード内の一つのＮＶＲＡＭに新たなデータ、新たなパ
リティのコピー、及び同期状態インジケータを含む一つ
のエントリが提供される。パリティノードは新たなパリ
ティを決定し、新たなデータをデータノードに格納され
るように送る。受取り通知を受信すると、パリティノー
ドは同期インジケータをリセットする。停電の後にパワ
ーアップが起こると、パリティノードはそのＮＶＲＡＭ
をエントリが存在しないか走査し、リセットされてない
状態のエントリを見つけると、新たなデータをそのエン
トリに対する宛先データノードに送る。ミラード（mirr
oed ）システムにおいては、唯一のノード内のＮＶＲＡ
ＭがそのＮＶＲＡＭ内に入れられたデータ識別子を持っ
ており、従って停電しその後パワーアップされたとき、
そのエントリによってどのディクスドライブが非同期状
態であるかをシステムが知ることができるようになる。

【００１９】

【実施例】図１に示されるように、マルチプロセッサシ
ステム１０は複数のノード１２を含み、これらの各々は
実質的に同一であり、これらノードの全ては交換ネット
ワーク１４を介して相互接続される。各ノード１２はデ
ィスクドライブ１６、プロセッサ１８、ＲＡＭ２０及び
ＮＶＲＡＭ２２を含む。プロセッサ１８は、周知の方法
によって、ディスクドライブ１６、ＲＡＭ２０、及びＮ
ＶＲＡＭ２２の動作を制御する。システム１０の動作は
一つ或は複数のプロセッサ１８によって制御される。プ
ロセッサは中央制御ノード（例えば、ノード２４）の所
に位置することも、或はノード構造を通じて分散させる
こともできる。

【００２０】各ノード１２は交換ネットワーク１４を介
して制御ノードにアクセスが可能でなければならない。
こうして、ディスクブロックの読み出し或は書き込みを
試みる全ての制御ノードはそのブロックを格納するパリ
ティグループ内の全てのノードと直接コンタクトを持た
なければならない。別の方法としては、ディスクブロッ
クの読み出し或は書き込みを試みる制御ノードはそのパ
リティグループ内のディスクノードの一つとコンタクト
を持つようにされ、このパリティグループ内のノードが
完全に相互接続される。

【００２１】以下において明らかになるように、本発明
は特定のノードが故障した場合、或は電源を投入した
後、不意の停電の場合のノード間でのデータ同期の確保
を目的とする。ディスク、その制御プロセッサ、或はそ
の関連するＮＶＲＡＭの故障はノード全体の故障である
と見なされ、この考えに従って回復が行なわれる。さら
に一時的な停電（transient power failure ）は全ての
システム動作のほぼ同期的な停止を起こすものと想定さ
れる。殆どのノードはこのような停電から生き延び、パ
ワーが回復されたとき、再起動されるものと想定され
る。また、ディスクドライブ、プロセッサ、及びＮＶＲ
ＡＭＳは、それら自体の動作のエラーを確実に報告し、
或はフェイルストップ（fail-stop ）特性を示すものと
想定され、さらにディスク及びＮＶＲＡＭは典型的には
パワーが失われている期間を通じて格納されたデータを
保持し、或はパワーが回復したときエラー或はフェイル
ストップを報告するものと想定される。

【００２２】図２には、（ミラーディクスドライブシス
テムの場合の）システム１０の動作が説明される。制御
ノード（例えば、図１のノード２４）上の制御ソフトウ
エアはデータブロックを格納することとなる二つのノー
ド１２の一つにブロックを送ることによって論理ブロッ
クの書き込み（logical block write ）を開始する。こ
のケースにおいては、ノードＡが書き込み要求を受信す
るものと想定する（図２のボックス３０を参照）。各ノ
ードは更新されているブロックの識別子（但し、必ずし
も内容ではない）のリストをそのＮＶＲＡＭ２２内に保
持する。こうして、ノードＡが書き込み要求を受信する
と、これはブロック識別子をそのＮＶＲＡＭリストに加
える（ブロック３２）。ノードＡは次にデータブロック
のコピーをミラーノード（mirror node ）に送り、同時
に、更新データのそのディスクドライブへの書き込みを
開始する（ボックス３４及び３６）。ノードＢは、更新
データを受信すると、データをディスクに書き込み（ボ
ックス３８）、次に受取りの確認をノードＡに送る（ボ
ックス４０）。ノードＡはまたディスクへのその書き込
みをパラレルにて終了し（ボックス４２）、次に、ノー
ドＢから書き込みが成功した知らせが受信されたか決定
する（ボックス４４）。受信されない場合は、確認のテ
ストを継続し、或は、別の方法として、データ伝送を再
度試みる。

【００２３】確認を受信すると、ノードＡはそのディス
クドライブとノードＢの所のディスクドライブの両方が
更新されたデータを含むことを知る。このような状況下
においては、ノードＡはそのＮＶＲＡＭ２２からブロッ
クＩＤエントリを除去し（ボックス４６）、次に書き込
み要求の開始者に書き込み動作が完結したことを通知す
る（ボックス４８）。任意の継続中の書き込みに対して
これら２つのノードの一つのみがブロック識別子を格納
することを要求されることに注意する。全てのドライブ
がディスクの変更をコミット（commit）するまで、各更
新データがＮＶＲＡＭの少なくとも一つ内にログされる
限り、これらの識別子の幾つかが片方のノード内に、そ
して別の幾つかの識別子がもう一方のノード内にログさ
れる。

【００２４】図２の手続きは全ての同期外れデータブロ
ックが少なくとも一つのＮＶＲＡＭ２２内にリストされ
ることを保証する。停電に続いて（図３に示されるよう
に）、パワーが回復され（ボックス５０）、全てのＮＶ
ＲＡＭがチェックされ、（ボックス５２において）発見
されたリストされたブロックの全てが全てリストされた
更新の完成によって再同期される（ボックス５４）。Ｎ
ＶＲＡＭ２２内にリストされない全てのブロックは同期
されていることが知られており、チェックする必要はな
い。

【００２５】上記説明は２ウェイミラーリング（two wa
y mirroring ）を示すが、Ｎ−ウエイミラーリング（つ
まり、各ブロックが二つ以上のノ−ド内に格納される）
も可能である。但し、この場合は、ブロック識別子がＮ
−１個のＮＶＲＡＭ２２内に格納されなければならな
い。このような状況下においては、一つ或は複数のミラ
ーリングノード（mirroring node）或はその関連するＮ
ＶＲＡＭが停電の最中に失われる幾らかのわずかな可能
性がある。Ｎ−１個より少ない損失が発生した場合に
は、全ての疑問の持たれるブロックが少なくとも一つの
生き残ったＮＶＲＡＭ２２内に記録されることが保証さ
れ、回復は通常の方法にて行なうことができる。Ｎ−１
個のディスクドライブ或はＮＶＲＡＭが同時に損失した
場合は、データの一つのコピーのみが生き残り、解決さ
れるべき同期問題は存在しない。

【００２６】ＮＶＲＡＭ２２のサイズは任意の時間にお
いてアレイ内で進行可能な更新の数を決定する。ＮＶＲ
ＡＭが一つのエントリのみしか持つことができない場合
は、一つの更新のみが継続中となることができ、そのブ
ロックの全てのコピーは任意の他の書き込みが開始され
る前に安全にコミット（収容）されなければならない。
典型的には、ＮＶＲＡＭは複数のブロック識別子のため
の余地を持ち、識別子の数は同時に処理することができ
る書き込みの数を示す。

【００２７】図２及び３に示されるシステム動作はブロ
ック識別子をＮＶＲＡＭ内のブロックキャッシュと結合
することによって最適化できる。各ノードは、従って、
更新されたデータをブロック識別子と共にＮＶＲＡＭ内
に書き込むオプションを持つ。任意の数の或は全てのノ
ードがデータをＮＶＲＡＭ内に格納することができ、少
なくともＮ−１個はブロック識別子を格納しなければな
らない。更新ブロックがＮＶＲＡＭ内に或は各ノード上
のディスクに格納されるやいなや書き込みが完了したも
のとして制御ノードに報告される。読み出しはＮＶＲＡ
Ｍからデータが入手できるときにはＮＶＲＡＭから得、
またそうでなければディスクから得ることによって達成
される。

【００２８】図４及び５には、本発明の動作がＲＡＩＤ
構造に配列されたパリティ保護ディスクアレイ（parity
protected disk arrays）と共に図解される。上に説明
したように、このシステムはＮ個のディスクを含み、Ｎ
−１個のディスクドライブがデータを格納するために使
用され、そして１つのディスクドライブが他のＮ−１個
のディスクドライブ上のデータの排他的ＯＲ和であるパ
リティコードを格納するために使用される。読み出し動
作の際に、データがＮ−１個のデータノードの幾らか或
は全てから直接に読み出される。

【００２９】データ更新は、結果として、Ｎ−１個のデ
ータディスクドライブの適当な一つ上のデータブロック
を変更させ、またパリティディスクドライブ上のパリテ
ィブロックを更新する。このような事態が発生した場
合、パリティディスク上の新たなパリティ値（ＮＰ）は
パリティデータの古い値（old value 、ＯＰ）に新たな
データ（new data、ＮＤ）と古いデータ（old data、Ｏ
Ｄ）との間の差を加えた値にセットされなければならな
いが、全てはビット単位（bitwise ）にて、モジュロ２
（排他的ＯＲ）にて計算される。

【００３０】図４に示されるように、書き込まれるべき
データ（ＮＤ）は最初に制御プロセッサによってパリテ
ィノードに送られる（ボックス６０）。パリティノード
は、すると、対応するブロック内のデータの古い値（Ｏ
Ｄ）を要求するためにデータノードとコンタクトする
（ボックス６２）。同時に、パリティノード（ボックス
６４）はそのＮＶＲＡＭ２２或はそのディスクドライブ
のどちらかＯＰが発見されるほうからパリティブロック
の古い値（ＯＰ）にアクセスする。パリティノードは次
にそのパリティブロックに対する新しい値（ＮＰ）を式
ＮＰ＝（ＯＰ＋ＮＤ−ＯＤ）に従ってビットワイズに計
算し、モジュロ２を総和する（ボックス６６）。

【００３１】パリティノードは次にそのＮＶＲＡＭを
“タプル（組 tuple ）”にて更新するが、全てのタプ
ルは生成の時間順に並べられる。このケースにおいて
は、タプルは以下のデータ、つまり、BLOCK ID、ＮＤ、
ＮＰ、及びUNSYNCHED 及びNP NOTWRITTENと呼ばれる２
つのブーリアン（真／偽）フラグを含む。このタプル
は、データブロック識別子、データの新しい値（Ｎ
Ｄ）、パリティの新しい値（ＮＰ）、データノードとパ
リティノードの所において参照されたブロックが同期し
てないことを示すインジケータ、及びＮＰ値がパリティ
ノードの所においてディスクドライブにまだ書き込まれ
てないことを示すインジケータを説明する。

【００３２】パリティノードはＮＶＲＡＭ内にそのタプ
ルを保持するために以下の規則に従う。１．BLOCK IDはタプルが生成された時点においてセット
され、タプルがＮＶＲＡＭから削除されるまでそのまま
にされなければならない。２．UNSYNCHEDフラグはタプルが生成された時点におい
てセットされ、新たなデータ（ＮＤ）がデータノードの
ディスクドライブ或はＮＶＲＡＭにコミットされたこと
をデータノードからの応答が示すまでセットされた状態
に保たれなければならない。３．NEW PARITY（NP）値は対応するタプルをタプルリス
トに挿入した後の任意の時点でパリティノードの所のデ
ィスクに書き込まれるか、或は新たなパリティ（ＮＰ）
のディスクへの書き込みは無期限に遅らされて、タプル
がそのＮＰ値がセットされた状態でリストに残るように
することもできる。NP NOT WRITT ENフラグはＮＰ値が
ディスクに書き込まれるまでセットされた状態にとどま
るべきであり、このフラグはディクス書き込みが完了す
ると直ちにリセットされる。４．NP NOT WRITTENフラグがいったんリセットされる
と、タプル内のＮＰデータによって占拠された空間が再
利用される。５．ＮＤ値はパリティ位置側のＮＶＲＡＭ内にUNSYNCHE
D フラグがリセットされるまで、或はタプルがＮＶＲＡ
Ｍから除去されるまで維持されなければならない。UNSY
NCHED マーカがいったんリセットされると、ＮＤのため
に使用されたスペースが再利用される。６．タプル自体はいったん以下の条件が満たされると、
つまり、UNSYNCHED マーカがリセットされ、NP NOT WRI
TTENがリセットされると完全に除去される。

【００３３】上からわかるように、UNSYNCHED インジケ
ータ及びＮＤは、新たなデータがデータノードの所に安
全にコミットされるまでパリティノードの所に保持され
なければならない。これとの関連で、ボックス７０内に
示されるように、パリティノードはＮＤをデータノード
に書き込みコマンドにて送り、データノードはＮＤを格
納する（ボックス７１）。次に、パリティノードはＮＰ
をそのディスクドライブに書き込み、書き込みが成功す
ると、NP NOT WRITTENをゼロにリセットする（ボックス
７２）。

【００３４】データノードがＮＤをそのディスクドライ
ブ或はＮＶＲＡＭに書き込みを終えたという応答をパリ
ティノードがデータノードから受信すると（図５のボッ
クス７４）、パリティノードはそのUNSYNCHED フラグを
リセットすることができる（ボックス７４及び７８）。
データノードの所での書き込みが成功したという応答が
受信されない場合は、パリティノードはＮＤの伝送を再
度試みる（ボックス７６）。タプル内のUNSYNCHED エン
トリが偽にいったんリセットされると、ボックス８０に
示されるようにタプル全体をリセットすることができ
る。

【００３５】オプションとして、ＮＰ及びブロックＩＤ
を将来の読み出し及び更新のためのキャッシュとして機
能するようにパリティノードのＮＶＲＡＭ内に無期限に
保持することもできるが、この場合、その後の読み出し
はディスクにアクセスすることを必要とすることなくＮ
ＶＲＡＭから満たすことができる。データはこの目的の
ためにＮＶＲＡＭ内に十分な空間が得られる限り保持さ
れる。同様に、ＮＤもデータノードの所のＮＶＲＡＭ内
にスペースが空いている限り保持することができる。

【００３６】実際に使用する場合は、パリティに基づく
ディスクアレイの多くはパリティと通常のデータを全て
のディスクドライブ（ＲＡＩＤ−５）上に混合する。こ
のようなシステムにおいては、ある与えられたドライブ
はデータをあるブロックに対して格納し、パリティを他
のブロックに対して格納する。本発明によって提供され
るＮＶＲＡＭシステムはブロックバイブロックベース
（block by block basis）にて更新を行なうが、各ノー
ドは更新されるべき特定のブロックに従ってデータノー
ドの機能を果たしたり、或はパリティノードの機能を果
たしたりする。各ノードの所のＮＶＲＡＭはパリティブ
ロックに対する同期ログ（つまり、タプルリストの維
持）、及び通常のデータブロックに対する通常のライト
ビハインドキャッシュ（write-behind cache）の二重の
機能を果たす。

【００３７】図６の説明に移り、ここには、停電の後の
手順が記述される。電源投入（ボックス８１）に続い
て、各ノードのＮＶＲＡＭがその中にタプルが存在しな
いか決定するために走査される（ボックス８２）。ある
ノード内にタプルが発見されない場合は、次のノードが
アクセスされ、そのＮＶＲＡＭが走査される（ボックス
８４）。幾つかの実施例では複数のパリティノードの所
のＮＶＲＡＭが並行に走査される。

【００３８】あるＮＶＲＡＭ内にタプルが発見される
と、対応するＮＶＲＡＭが特定のデータブロックに対す
る最も最近の更新されたタプルを見つけるために走査さ
れる（ボックス８６）。このタプルが次にUNSYNCHED ビ
ットがセットされているか決定するために調べられ（ボ
ックス８８）、セットされてない場合は、次のブロック
のＩＤタプルがアクセスされ、手順はボックス８６へと
再循環する（ボックス９０）。UNSYNCHED ビットがセッ
トされている場合は、データノードがそのＮＶＲＡＭ或
はディスクを更新することができるように、新たなデー
タ（ＮＤ）を含むメッセージがそのブロックを含むデー
タノードに送られる（ボックス９２）。伝送に対する受
取り通知が受信されない場合は（ボックス９４）、受取
り通知が受信されるまで再伝送が試みられる（ボックス
９６）。確認が受信された時点で、対応する非同期のビ
ットがオフにされ（ボックス９８）、全てのブロックが
現在処理を終え、同期されているか決定される（ボック
ス１００）。同期されてない場合は、手順はボックス９
０へと再循環し、判定ボックス１００が肯定の指示を発
するまでこれが反復される。肯定の指示が発行された時
点で、パリティノードは通常の動作を開始し、上に説明
の規則に従ってそのタプルリストを維持する。より詳細
には、パリティノードはここでその自身のディスクにそ
のＮＶＲＡＭからのまだコミットされてない新たなパリ
ティ値の最終バージョンを書き込み、そのリストから対
応するタプルを除去し、或はこれらタプルの幾らか或は
全てをキャッシュとして限定のない期間だけ保持する。

【００３９】一般に、システムはパワーが回復された時
点で全ての未決の更新（つまり、パワー損失の前にそれ
に対する受取り確認が制御ノードに送られてない更新）
が完了することを保証する必要はなく、一貫性が維持さ
れることのみを要求される。生き残ったＮＶＲＡＭ内に
ログされた更新がパワーの回復の後に完了されることが
保証される。但し、パリティノード、そのＮＶＲＡＭ、
或はそのディスクドライブが停電に対して生き残ること
を失敗するような幾らかの可能性がある。このようなノ
ードへの更新データの配置（disposition ）は対応する
データノードの進行度合にのみ依存する。データノード
がその更新データを既にキャッシュ或はコミットしてい
る場合は、更新は完了したものと見なされる。そうでな
い場合は、その更新データは失われる。いずれの場合
も、不一致の問題は発生しない。パリティノードが失わ
れるために、データノードは、定義上、それ自体の一貫
性を持つ。新たな或は代用のパリティディスクがそのブ
ロックの各々をそれが保護する全てのデータブロックの
排他的ＯＲ総和であると初期化することによって構成さ
れる。失われたデータディスクは従来の“ＲＡＩＤ”方
法によって、つまり、生き残ったＮ−２個のデータブロ
ックの値を生き残ったパリティブロックと、ディスク或
はＮＶＲＡＭのいずれか適当な方からの値を使用して互
いに排他的ＯＲ処理することによって再構成される。

【００４０】上記手続きの特徴は、停電の際にディスク
ドライブが崩壊或は損失した場合、パリティノード内の
崩壊したディスクドライブからの失われたデータを再構
成するために必要とされる十分なデータが存在するとい
うことである。同様に、パリティノードが失敗した場合
でも、パリティを生き残ったディスクドライブから再構
成することができる。

【００４１】上記説明は単に本発明を解説することが目
的であることに注意すべきである。当業者においては、
本発明から逸脱することなく様々な代替及び修正が可能
である。従って、本発明は特許請求の範囲に入るこれら
全ての代替、修正及びバリエーションを包含するもので
ある。

【００４２】

【発明の効果】以上説明したように、第一及び第二の発
明の構成によれば、停電（あるいは電源故障）等によっ
てディスクドライブやキャッシュメモリから一部のデー
タが失われた場合であっても、生き残ったディスクドラ
イブから失われたデータを再構成し、故障から回復する
ことが可能となる。

【図面の簡単な説明】

【図１】本発明を組み込むシステムの高レベルブロック
図である。

【図２】ミラー冗長データ分散のケースの場合に図１の
システムが従う手続きを示す流れ図である。

【図３】ミラーデータ冗長構成においてパワーアップの
後に図１のシステムが従う手続きの流れ図である。

【図４】冗長データのＲＡＩＤ分散が使用されたときに
図１のシステムが従う手続きを図解する。

【図５】冗長データのＲＡＩＤ分散が使用されたときに
図１のシステムが従う手続きを図解する。

【図６】ＲＡＩＤ配列されたシステムがパワーアップの
後に従う手順を図解する流れ図である。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平１−118921（ＪＰ，Ａ) 特開平５−197499（ＪＰ，Ａ) 国際公開91／13394（ＷＯ，Ａ１) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 3/06

Claims

(57)【特許請求の範囲】

【請求項１】複数の実質的に同一の構成のノードが交換
ネットワークを通じて相互接続され、各ノードがディス
クドライブ手段、不揮発性ランダムアクセスメモリ（Ｎ
ＶＲＡＭ）及びプロセッサを有し、更新データを前記複
数のノードの少なくとも２つにあるディスクドライブ手
段に重複して格納するように動作するマルチプロセッサ
システムにおける、冗長ディスクドライブアレイに対す
る同期方法において、データセグメントに更新データを書き込むことを要求す
るコマンドに応答して前記更新データにより更新される
べき前記データセグメントの識別子のリストを第一のノ
ードのＮＶＲＡＭ内に作る（第一の）ステップと、前記データセグメントのコピーを有するミラーノードで
ある第二のノードに前記第一のノードから前記更新デー
タを送る（第二の）ステップと、前記更新データが前記第一のノード内のディスクドライ
ブ手段に書き込まれ、かつ前記第二のノードが前記更新
データを記録したという信号を前記第一ノードが受信し
た後に初めて前記第一のノードのＮＶＲＡＭ内の前記デ
ータセグメントの識別子のリストを除去する（第三の）
ステップと、パワーアップの際に、各ノードのＮＶＲＡＭ中にリスト
されたデータセグメントの識別子が含まれるかどうかを
決定するために各ノードにＮＶＲＡＭを走査させる（第
四の）ステップと、前記第一のノードのＮＶＲＡＭ内にリストされたデータ
セグメントの識別子によって示されるデータセグメント
について、前記第二のノード内の対応するデータセグメ
ントを、前記更新データにより更新する（第五の）ステ
ップを含むことを特徴とする方法。
【請求項２】前記データセグメントがブロック識別子を
持つデータブロックであり、前記ブロック識別子が前記
ＮＶＲＡＭ内に前記データセグメントが更新のプロセス
の最中である場合にリストされることを特徴とする請求
項１の方法。
【請求項３】前記応答する（第一の）ステップが、前記
データセグメントを前記第一のノードのＮＶＲＡＭ内に
リストするのに加えて、前記ＮＶＲＡＭ内に前記更新デ
ータをリストするステップを含むことを特徴とする請求
項１の方法。
【請求項４】前記削除する（第三の）ステップが前記第
二のノードが前記更新データをそのディスクドライブ手
段に書き込んだ後に初めて起こることを特徴とする請求
項１の方法。
【請求項５】複数の実質的に同一の構成のノードが交換
ネットワークを通じて相互接続され、各ノードがディス
クドライブ手段、不揮発性ランダムアクセスメモリ（Ｎ
ＶＲＡＭ）及びプロセッサを有し、少なくとも１つのノ
ードにあるディスクドライブ手段に更新データを格納
し、少なくとも他の１つのパリティノードにあるディス
クドライブ手段に更新データのパリティデータを格納す
るように動作するマルチプロセッサシステムにおける、
冗長ディスクドライブアレイに対する同期方法におい
て、第一のノード内に格納されたデータセグメント内の古い
データと置換するために新しいデータを書き込むという
コマンドに応答して、前記新しいデータと、書き込み状
態指標と、前記第一のノードからの古いデータ、前記パ
リティノードからの古いパリティ及び前記新しいデータ
に基づいて計算された新しいパリティのコピーとから成
るエントリを対応するパリティノード内のＮＶＲＡＭ内
に格納するステップと、前記新しいデータを前記第一のノードにそのノード内に
格納されるように伝送し、正常に格納されたことを確認
する信号の受信に応答して、前記パリティノードにおい
て前記状態指標をリセットするステップと、前記パリティノードが、パワーアップの際に、そのＮＶ
ＲＡＭを前記エントリが存在しないかどうか走査し、リ
セットされていない状態指標を持つ前記エントリが発見
された場合、前記新しいデータを前記第一のノードに伝
送するステップを含むことを特徴とする方法。
【請求項６】前記の状態指標がセットされた状態を示
し、前記エントリがセットされた場合新たなパリティが
前記パリティノードのディスクドライブ手段内のディス
クにまだ書き込まれてないことを示すもう一つの状態指
標を含むことを特徴とする請求項５の方法。
【請求項７】前記のデータセグメントがデータのブロッ
クであり、前記のエントリが前記データのブロックの識
別子を含むことを特徴とする請求項６の方法。
【請求項８】前記パリティノードが、パワーアップに当
ってそのＮＶＲＡＭを走査するとき、最初に前記第一の
ノード内の前記データのブロックに対する最も古い受信
された新たなデータを持つエントリにアクセスし、次に
時間の順番に次のエントリを処理するように進行するこ
とを特徴とする請求項７の方法。
【請求項９】パリティノードが、前記第一のノードによ
って新しいデータが正常に格納されたという通知を受信
したとき前記状態指標をリセットすることを特徴とする
請求項８の方法。