JPH06500186A

JPH06500186A - ディスク・アレイ・システム

Info

Publication number: JPH06500186A
Application number: JP3506558A
Authority: JP
Inventors: アイドルマン　トーマス　イー; クーンツ　ロバート　エス; パワーズ　ディヴィッド　ティー; ジャフィー　ディヴィッド　エイチ; ヘンソン　ラリー　ピー; グリダー　ジョセフ　エス; ガジャー　クマー
Original assignee: イーエムシー　コーポレーション
Priority date: 1990-03-02
Filing date: 1991-02-28
Publication date: 1994-01-06
Also published as: CA2081365C; CA2081365A1; AU7584691A; EP0517857B1; EP0517857A1; US5140592A; EP0517857A4; US5274645A; DE69130669T2; DE69130669D1; WO1991013399A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 −ス　・アレイ・シスーム゛　につい　のこの出願は、１９９０年４月６日、１９９０年４月６日、及び１９９０年３月２日にそれぞれ出願された第０７１５０５，６２２号、第０７１５０６，７０３号、及び第０７７４８８，７４９号の一部継続出願である。

発」Ｌ曵］Ｌ量本発明は記憶装置に関する。特に、本発明は、外部コンピューターを、典型的にはディスク駆動機構である記憶装置の組にインターフェースする方法及び装置である。

デジタル・コンピューター・システムに用いる磁気ディスク駆動機構メモリーが知られている。多様なディスク駆動機構が知られているけれども、本発明は、ハード・ディスク駆動機構を使うものとして説明される。しかし、本書の記載内容は、その特定の実施例に本発明を限定するものと解されてはならない。

多くのコンピューター・システムはデータを記憶させるのに複数のディスク駆動機構メモリーを使う、この様なシステムについての一般的な公知のアーキテクチャが図１に示されている。ここで、コンピューター１０はバス１５によりディスク・アレイ２０に接続されている。ディスク・アレイ２０は、大型のバッファー２２、バス２４、及び複数のディスク駆動機構３０から成る。ディスク駆動機構３０は、種々の論理構成で操作されることが出来る。駆動機構のグループが集合的に論理装置として操作されるとき、書込み操作時に記憶されるデータはアレイの中の１個以上の構成要素に分散されることが出来る。ディスク・コントローラ３５はバス２４によりバッファー２２に接続されている。各コントローラ３５に特定のディスク駆動機構３０が割り当てられている。

ディスク駆動機構アレイ２０の中の各ディスク駆動機構は個別にアクセスされ、その上のデータは個別に検索される。各ディスク駆動機構３０に付随するディスク・コントローラ３５は、それと接続されている特定のディスク駆動機構のための入出力動作を制御する。バッファー２２に置かれたデータは、バス１５を介してコンピューター１０へ送られるべく利用可能である。コンピューターがディスクに書かれるべきデータを送るとき、コントローラ３５はバス２４から個々のディスク駆動機構宛のデータを受け取る。この種のシステムでは、ディスク動作は、相互の関係において非同期である。

コントローラのうちの一つが故障した場合には、コンピューターは、その故障したコントローラを孤立させて、以前はその故障したコントローラの制御下にあった記憶装置を、適切に機能する他のコントローラに切り換えるために作動しなければならない、この切替えのために、コンピューターは幾つかの動作を行わなければならない、第１に、コンピューターは、故障はたコントローラを孤立させなければならない、これは、故障したコントローラに向けられる全てのデータの流れを、作動しているコントローラへ向は直さなければならないことを意味する。

上記したシステムでは、コンピューターは、故障したコントローラから遠ざける様にデータを経路指定し直す作業に関与しなければならない、経路再指定を完了するためにコンピューターにより実行される所要の動作は、コンピューターの注意を必要とする。このために、コンピューターが行っている他の機能を遅延させる可能性のある付加機能がコンピューターに加えられることになる。その結果として、システム全体の速度が低下する。

ディスク動作、特に書き込み及び読み出し、に伴う他の問題は、エラーの確率が伴うことである。ディスクの読み出し及び書き込みの際に発生するエラーを検出し、成る場合にはそれを訂正することも出来る手順と装置とが開発されている。

一般的ディスク駆動機構との関係では、ディスクは複数のセクターに分割されており、各セクターは同じ所定のサイズを有する。各セクターは特定のヘッダ・フィールドを有し、これは、該セクターに、独特のアドレスと、該ヘッダ・フィールドにおけるエラーの検出に対処するヘッダ・フィールド・コードと、可変長のデータ・フィールドとＥＣＣコード（ｒエラー訂正コード１）とを与え、これはデータ中のエラーの検出と訂正とに対処するものである。

データ書き込みが行われるとき、ディスク・コントローラはヘッダ・フィールドとヘッダ・フィールド・コードとを読み出す、若し該セクターが所望のセクターであって、ヘッダ・フィールド・エラーが検出されなければ、新しいデータが該データ・フィールドに書き込まれ、新しいデータＥＣＣがＥＣＣフィールドに書き込まれる。

読み出し動作は、ｒ聞にヘッダ・フィールド及びへンダ・フィールド・エラー・コードの両方が読み出さくＬＺという点で、同様である。若しヘッダ・フィールド・エラーが存在しなければ、データとデータ訂正コードとが読み出される。エラーが検出されなければ、該データはコンビエータ−に送られる。若しエラーが検出されたならば、該ディスク・コントローラ内にあるエラー訂正回路は、そのエラーを訂正しようと試みる。若しそれが可能であれば、訂正されたデータが送られる。そうでなければ、該ディスク駆動機構のコントローラは、訂正不可能のエラーが検出されたことをコンピューター又は主ディスク・コントローラに信号する。

図２において、個々のディスク・コントローラの外に位置する付随のエラー訂正回路を有する公知のディスク駆動機構システムが示されている。このシステムは、エラーを検出し且つ訂正するためにリード・ソロモンのエラー検出コードを使用する。リード・ソロモン・コードは公知であり、それを発生させるのに要する情報は多くの文献に記載されている。その樟な文献の一つは、コロラド州ブルームフィールドのデータ・システムズ・テクノロジー社（Ｄａｔａ　ＳｙＢｔｅｍｓ　Ｔｅｃｈ−ｎｏｌｇｙ　Ｃｏｒｐ、）が刊行したｒ技術者のための実用エラー訂正デザインＪ　（Ｐｒｃｔｉｃａｌ−敗工五」≧」透−１ｙｔＤｔ場道Ｖ免工五」釦ｌ桓空圧幻、である。この出１１の目的のタメに、リード・ソロモン・コードは冗長項（ここではＰ及びＱ冗長項と称する）を発生させ、これらの項はデータ・エラーを検出し訂正するのに使われるという事を知る必要がある。

図２に示されているシステムでは、ＥＣＣ４２ユニツトはバス４５に接続されている。このバスは、小型コンピューター標準インターフェース（ＳＣ３Ｉ）５４〜５Ｂを通して、複数のデータ・ディスク駆動機構４７．４８、及び４９とＰ及びＱ項ディスク駆動機構５１及び５３とに個別に接続されている。情報処理のためのアメリカ国内標準（ＡＮＳＩ）は、ＡＮＳ１文書第Ｘ　３．１３０−１９８６に記載されているＳＣ３Ｉについての標準を普及させている。

バス４５は更に大型出力バッファ−２２に接続されている。バッファー２２はコンビエータ−１０に接続されている。このシステムでは、データのブロックが個々のデータ・ディスク駆動機構から読み出されるとき、それらは個々に且つ逐次に該バス上に置かれて、同時に該大型バッファー及びＥＣＣユニットの両方に送られる。ディスク駆動機構５１及び５３からのＰ及びＱ項はＥＣＣ４２だけに送られる。バス４５を介してのデータ及びＰ及びＱ項の送信は逐次に行われる。

正確なバス幅は随意のサイズでよいけれども、８ビツト、１６ビツト及び３２ビツト幅のバスが一般的である。

該バッファー中でデータの大きなブロックが組み立てられた後、Ｐ及びＱディスク駆動機構から受信された項を使用する、データ・エラーを検出して訂正するのに必要な計算はＥＣＣユニット４２の中で行われる。若しエラーが検出されれば、コンピューターへのデータの転送は中断され、若し可能ならば誤ったデータが訂正される。

書き込み動作時には、データのブロックがバッファー２２において組み立てられた後、新しいＰ及びＱ項がＥＣＣユニット４２内で作られて、バッファー２２内のデータがデータ・ディスク駆動機構に書き込まれるのと同時にＰ及びＱディスク駆動機構に書き込まれる。

公知のエラー訂正技術を利用するディスク駆動機構システムには幾つかの欠点がある。図１及び２に示されているシステムでは、データ送信は単一のバスを介して割合に低いデータ転送速度で逐次に行われる。また、エラー訂正回路は、所定のサイズのデータのブロックの中のエラーを検出して訂正出来るようになる前に、それが該バッファー内で組み立てられるまで待機しなければならないので、その様な検出及び訂正が行われる間は、不回避の遅延がある。

前述した様に、これらのシステムにおけるデータ送信の最も一般的な形は逐次データ送信である。バスが一定の幅を有するとすれば、ディスク又はコンピューターに送信するために該バッファー内でデータを組み立てるために一定の比較的に長い時間を要する。その大きな、単一のバッファーが故障すれば、それに接続された全てのディスク駆動機構は使用不能となる。従って、コンピューターとディスク駆動機構との間のデータ転送速度を向上させると共にデータ転送速度をコンピューターの最大実効動作速度に一層有効に一致させることの出来る複数のディスク駆動機構を有するシステムが望ましい、そのシステムは、全ての所要のエラー検出訂正の機能を実行しながらこの高速度でのデータ転送を行うことが出来ると同時に、個々のディスク駆動機構が故障したときでも許容出来るレベルの動作を行うことも出来るべきである。

従来技術のシステムの他の短所は、ディスク駆動機構・アレイのグループを使うシステムにおいて可能なデータ機構の全範囲を利用していないということである。換言すると、複数の記憶装置から構成された大量記憶装置を、異なるデータ記憶を必要とする二つの同時に走るアプリケーションのための論理記憶装置として動作させることが出来る０例えば、大データ転送（即ち大きなバンドりを必要とする一つのアプリケージクンと、高周波転送（即ち大動作速度）を必要とする他のアプリケーションと、等々、第３のアプリケーションは、該装置に大バンド幅と大動作速度との両方を要求出来る。物理的装置の組についての公知の操作技術は、その様な多様な必要に応じて最適のサービスを提供するために物理的記憶装置の単一の組を動的に構成する能力を提供するものではない。

従って、高い信転性と共に、大バンド幅と大動作速度との両方を必要に応じて柔軟に提供することが出来る、複数の物理的記憶装置から成る大量記憶装置を提供出来ることが望ましい。

発１と押ヨ！本発明は、外部のコンピューターには１個以上の論理ディスク駆動機構として見える小型で安価なディスク駆動機構の組を提供する。ディスク駆動機構は組をなして構成される。データは、分解されて組を成すディスク駆動機構にわたって書き込まれ、その過程でエラー検出及び訂正冗長データが生成され、冗長領域に書き込まれる。その組のうちの一つ以上に接続されることの出来るバックアップ・ディスク駆動機構が設けられる。その組のために複数の制御システムが使用され、そのいずれか一つの組は主制御システムを存し、そのバックアップとして作用する他の一つの制御システムは別の組を制御する。エラー訂正又は冗長データ及びエラー検出データは、データがディスク駆動機構に転送されるときにｒオン・ザ・フライ１式に生成される。データがディスク駆動機構から読み出されるとき、データの完全性を確かめるためにエラー検出データが確認される。冗長データを用いて、特定のディスク駆動機構から失われたデータを生成し直すことが出来、故障したディスク駆動機構の代わりにバックアップ駆動機構を用いることが出来る。

本発明は、ディスク駆動機構コントローラ、データ・ディスク駆動機構及びエラー検出コード・ディスク駆動機構の装置を提供するものであり、これらの駆動機構は、小型バッファー・メモリーと、エラー検出及び訂正のための回路とに各々個別に接続される０本発明の第１の特徴は、該ディスク駆動機構との間でのデータ転送とほぼ同時に行われるエラー検出及び訂正である。データ・バスによるシステム・コンピューターへの転送のために複数のバッファー・メモリーを順に読み出したり書き込んだりすることが出来る。また、エラー訂正回路を、クロスバ −（Ｘバー）スイッチと呼ばれる一連のマルチプレクサ回路を通してバッファー・メモリー／ディスク駆動機構データ経路の全てに接続することが出来る。これらのＸバー・スイッチを使って、故障したバッファー・メモリー又はディスク駆動機構をシステムから切り離すことが出来る。

数個のディスク駆動機構を作用的に相互に接続して、第１論理レベルで１個以上の論理冗長グループとして機能させることが出来る。論理冗長グループは、冗長データを共有するディスク駆動機構の集合である。各論理冗長グループの幅、深さ及び冗長性の種Ｉｆ（例えば、ミラード・データ又はチェック・データ）、並びに、その中の冗長情報の場所とは、所望の容量と信鎖性の要件を満たすために独立に構成可能である。第２論理レベルにおいて、大量記憶データのブロックが１個以上の論理データ・グループに分類される。論理冗長グループは、２個以上のその様なデータ・グループに分けられることが出来る。各論理データ・グループ中のデータ・ブロックの幅、深さ、アドレス指定順序、及び配列は、大量データ記憶装置を、潜在的に異なるバンド幅及び動作速度特性を各々有する複数の論理大量記憶領域に背側するべく独立に構成可能である。

上位コンピューターのオペレーティング・システムのアプリケーション・ソフトウェアと対話するための、第３の論理レベルも設けられる。アプリケーション・レベルは、論理アプリケーション・ユニットをデータ・グループに重ね合わせて、単独又は１個以上の冗長グループからのデータ・グループがアプリケーション・ソフトウェアに単一の論理記憶ユニットと見えるようにする。

データが駆動機構に書き込まれるとき、エラー訂正回路（ここではアレイ訂正回路（ｒＡｃｃｊ）と称する）はＰ及びＱ冗長項を計算し、それらをＸバー・スイッチを通して２個の指定されたＰ及びＱディスク駆動機構に記憶させる。説明した従来技術とは対照的に、本発明のＡＣＣは、ディスク駆動機構の集合全体にわたってエラーを検出し訂正することが出来る（従って、ｒアレイ訂正回路ｊという用語が使われる）、以下の記述において、ＡＣＣという用語は、所要のエラー訂正機能を行う回路だけを指す、コード自体はエラー訂正コード又はｒＥｃｃＪと呼ばれる。後の読み出し動作で、ＡＣＣは、読み出されたデータを、記憶されているＰ及びＱの値と比較して、該データにエラーがあるが無いがを判定することが出来る。

Ｘバー・スイッチは、数個の内部レジスターを有する。データがデータ・ディスク駆動機構との間で送信されるとき、データはＸバー・スイッチを通らなければならない、Ｘバー・スイッチの中で、データは、パンファー又はディスク駆動機構に行く前に一つのレジスターから次のへとクロックされることが出来る。Ｘバー内部レジスターを通してデータをクロックするのに要する時間は、ＡＣＣがそのエラー訂正タスクを計算して実行出来るようにするのに充分である。書き込み動作時には、この構成は、データがそのディスク駆動機構に書き込まれるのと同時にＰ及びＱの値が生成されてその指定のディスク駆動機構に書き込まれるのを可能にし、その動作は並行して行われる。実際上、Ｘバー・スイッチは数段階のデータ・パイプラインを確立し、その複数の段階は実際上、時間遅延回路を提供する。

一つの好適な実施例においては、二つのＡＣＣユニットが設けられる。異なるディスク駆動機構にアクセスする二つの動作に同時に両方のＡＣＣを使うことが出来、或いは、一方が故障したら他方を使うことが出来る。

Ｘバー・スイッチ構成はデータ経路に柔軟性も提供する。システム・コントローラの制御下で、適当なＸバー・スイッチを再構成することによって故障のあるディスク駆動機構をシステムから切り離すことが出来、その故障のあるディスクに記憶されるべきであったデータを他のデータ・ディスク駆動機構に経路指定し直すことが出来る。システム・コンピューターは、データ・エラーの検出や訂正には関与せず、また、駆動機構やバッファーに故障のある場合にシステムの再構成に関与しないので、これらのプロセスはシステム・コンピューターに対して透明であると言われる。

本発明の第１の実施例では、複数のＸバー・スイッチが複数のディスク駆動機構及びバッファーに接続され、各Ｘバー・スイッチは各バッファー及び各ディスク駆動機構への少なくとも一つのデータ経路を有する。動作中、いずれがのバッファー又はディスク駆動機構の故障は、いずれかの動作する駆動機構又はバッファーへＸバー・スイッチを通してデータの流れを経路指定し直すことによって補われることが出来る。この実施例では、ディスク駆動機構が故障したときに完全な性能を維持することが出来る。

本発明の他の実施例では、二つのＡＣＣ回路が設けられる例えば、全てのディスク駆動機構に同時に書き込み又は読み出しが行われるときなど、成る主の動作モードでは、その二つのＡＣＣ回路は冗長であり、各ＡＣＣは他方に対してバックアップ・ユニットして作用する０例えば、データが一つのディスク駆動機構に書き込まれるときなど、他のモードにおいては、その二つのＡＣＣは平行に動作し、第１のＡＣＣは駆動機構の集合全体の一部のために与えられた動作を行い、第２のＡＣＣは、その集合の残りの部分のために必ずしも同一ではない与えられた動作を行う。

更に他の実施例では、ＡＣＣは、Ｐ及びＱ冗長項を使って成る自己監視チェック動作を行って、ＡＣＣ自体が適切に機能しているか否が判定する。若しそのチェック動作が失敗すれば、ＡＣＣはその故障を制御システムに表示し、他の如何なる動作にも使われなくなる。

更に他の実施例では、ＡＣＣユニットは、集合中の全てのディスク駆動機構に接続され、該ディスク駆動機構との間で送信されるデータはＡＣＣによって同時に回復される。ＡＣＣは、バッファー及びディスク駆動機構から送信されるデータと並列に、送信されるデータにエラー検出又はエラー訂正を行う。

本発明は、ディスク駆動機構への並列経路の使用を最大にすることによって、従来技術に比べて速度の利点をもたらす、Ｘバー・スイッチ及びＡＣＣユニットの記述した構成によって冗長性が、従って故障耐性も、得られる。

本発明の他の特徴は、特定のコントローラが故障したときにディスク駆動機構の集合の制御を切り換えることである。切替えは、コンピューターに対して明白な方法で行われる。

コントローラは、コンビエータ−に各々接続された複数の第ルベルのコントローラから成る。第ルベルのコントローラの他方の側には、第２レベルのコントローラの集合が接続される。第ルベルの各コントローラは、データを第２レベルのコントローラのいずれか一つへ経路指定することが出来る０通信バスが第２レベルのコントローラ同士を結合させ、第ルベルのコントローラも、そレラの間で通信することが出来る。好適な実施例では、第２レベルのコントローラが対をなすようにグループ化されるとことなるようにシステムが構成される。この構成は、第２レベルのコントローラの各々に、単一の付随するバックアップ・コントローラを与える。この構成は、ディスク駆動機構へのデータの流れのための効率的な経路再指定手続きに備えるものである。理解を容易にするために、本明細書は、第２レベルのコントローラの対を持つように構成されたシステムを説明する。勿論、第２レベルのコントローラは、３個のグループ又はその他の分類で構成されることが出来ることが理解されるべきである。

第２レベルのコントローラの各々をディスク駆動機構のグループに接続するためのスイッチング機能のための具体的手段が設けられる。第２レベルのコントローラが故障した場合、コンピューターは、ディスク駆動機構へのデータの経路再指定に関与する必要はない、むしろ、第ルベルのコントローラ及び適切に働いている第２レベルのコントローラは、コンピューターの関与無しに、その故障を処理することが出来る。これにより、物理的構成に変化があるにもかかわらず、コンピューターの視点からディスク駆動機構の論理構成が一定のままに維持されることが出来る。

第２レベルのコントローラに生じる可能性のある故障の重大さには２レベルがある。完全な故障の場合には、第２レベルのコントローラは、第ルベルのコントローラ及び他の第２レベルのコントローラとの通信を停止する。第ルベルのコントローラは、適切に働いている第２レベルのコントローラから、その故障について通知を受けるか、又は、故障した第２レベルのコントローラにデータを経路指定しようとするときにこの故障を認識することが出来る。いずれの場合にも、第ルベルのコントローラは、データ経路を、故障した第２レベルのコントローラから適切に機能する第２レベルのコントローラへ切り換える。この経路再指定された経路が確立された後は、適切に機能する第２レベルのコントローラは、故障している第２レベルのコントローラへコマンドを出して、そのディスク駆動機溝の制御を放棄させる。適切に機能する第２レベルのコントローラは、そのとき、これらのディスク駆動機構の集合の制御を引き受ける。

第２の種類の故障は制御される故障であって、故障したコントローラは、システムの残りの部分と通信を続けることが出来る。パートナ−である第２レベルのコントローラは、その故障について通知される。適切に機能する第２レベルのコントローラは、このとき、データ経路を、機能する第２レベルのコントローラへ切す換える様に第２レベルのコントローラに通知する０次に、故障している第２レベルのコントローラは、ディスク駆動機構を制御する役割を放棄し、機能する第２レベルのコントローラがその制御を引き受ける。最後に、適切に機能する第２レベルのコントローラは、故障している第２レベルのコントローラにより駆動機構に書かれたデータをチェックすると共に、若し必要ならば、そのデータを訂正する。

本発明の他の特徴は、第２レベルのコントローラがディスク駆動機構の制御を放棄したり引き受けたりすることを許すｓｃｓ　ｒバス・スイッチング機能である。

本発明の性質及び利点をより完全に理解するために、以下の詳細な説明を添付図面と関連させて参照するべきである。

図面の簡単な説明本発明の好適な実施例は大容量データ記憶装置用システムを構成するものである。そのような好適な実施例において、データを記憶するための望ましい装置としてここで取り上げているのはハードディスクドライブであり、以後ディスクドライブと記述することにする。ただし、本発明は単にディスクドライブのみに限定されるものではなく、データを記憶するための装置、例えばフロッピーディスク、磁気テープドライブ、光ディスクなどを含めて広く他の装置が使用可能であり、また、これらの例だけに限定されるものではない。

鉱含之五土ム環境本発明による好適な一つの実施例は図３に示したような環境下において動作を行う０図３において、コンピュータｌＯはディスクドライブ装置のグループ１８とコントローラ１１を介して通信を行う、好適な実施態様においては、コントローラ１１は多くの構成部分を有しており、コントローラ１１の構成部分のどれかが故障を起こした場合でも、コンピュータ１０がディスクドライブのＨＩＢのどれにでもアクセスできるようになっている０図３に示したように、コントローラ１１は二段構成装置の対１３を有している。この二段構成袋！の対１３のいずれも、第２レベルコントローラ１２と第２レベルコントローラ１４とを有している。

多数のスイッチから構成されているスイッチ１６によって、コンピュータ１０は一つ以上の経路を経てディスクドライブ装置１８にアクセスすることができる。

このようにして、もし二段構成装置Ｉ３がその構成部分のいずれかに故障を起こしたような場合であっても、コンピュータ１０を中断させることなく、別の経路を経るように変更される。

図３．５は第２レベルコントローラの対１４Ａ、１４Ｂに接続されたディスクドライブ装置の組の対１８Ａ、１８Ｂを示す図である。コントローラ１４Ａおよび１４Ｂはそれぞれ二つのインタフェースモジュール２７を有し、第２レベルコントローラが第２レベルコントローラの対１２（図３）とインタフェースがとれるようになっている。インタフェースモジュール２７はバッファ３３０−３３５に接続されており、これらのバッファはディスクドライブに対して送受されるデータのバッファとして働く、第２レベルコントローラ１４はディスクドライブの第 −のグループに対して主たる制′４ＴＪを行い、第二のグループに対しては副次的な制御を行うように構成されている０図に示されているように、第２レベルコントローラ１４Ａはディスクドライブ２０Ａｌ、２０Ｂ１．２０Ｃ１，２０Ｄ１および２０Ｅ１に対して主たる制御を行い、またディスクドライブ２０Ａ２．２０Ｂ２．２０Ｃ２，２０Ｄ２、および２０Ｅ２に対して副次的な制御を行う、予備のＦｙイブ２０Ｘは第２レベルコントローラの二つともによって共有され、ディスクドライブのどれかが故障した時、そのディスクドライブを引き継いで動作する。

ディスクドライブはデータインタフェースの組３１を介して第２レベルコントローラ１４に接続されている。これらのインタフェースをコントローラ１４が適当にセットし、ディスクドライブをある特定の配置に割当てる０例えば、ディスクドライブ２０Ａ１．２０Ｂ１．２０Ｃ１，２０Ｄ１および、２０Ａ２．２０Ｂ２．２０Ｃ２，２０Ｄ２をシステムがデータを記憶するために割当て、一方ディスクドライブ２０Ｅ１と２０Ｅは誤り訂正符号を記憶するように割当設定をする。

もしも、いずれかのドライブが故障を起こした時には、ドライブ２０Ｘがその代わりをするように設定される。もちろん、システムのドライブ割当は再設定ができるし、いろいろな割当構成のやり方がある。

図４はディスクドライブ装置の組１８をコンピュータ１０がアクセスすための入出カシステムの構成部品の結線についてより詳細に示したものである。コンピュータｌＯは第ルベルコントローラ１２Ａおよび１２Ｂに接続された入出力ボートを有している。第２レベルコントローラ１４Ａおよび１４Ｂは図示されているように、第ルベルコントローラ１２Ａおよび１２Ｂに接続されている。第２レベルコントローラ１４と第ルベルコントローラ１２との間の実線は、制御信号や状態信号とともにデータを伝送するためのデータバスを表している。第２レベルコントローラ１４Ａと第２レベルコントローラ１４Ｂとの間の破線は第２レベルコントローラ同志が互いに通信を行うための通信ラインを表している。

第２レベルコントローラ１４はそれぞれスイッチ１６Ａ−１６Ｆを介してディスクドライブのグループ１８Ａ−１８Ｆに接続されている。

ディスクドライブ２０は各第２レベルコントローラ１４がディスクドライブ装置の一つのグループに対して主たる制御を行うように配置されている。図４に示されているように、第２レベルコントローラ１４Ａはディスクドライブの組１８Ａ −１８Ｆの中の三つのディスクドライブに対して主たる制御を行う、同様にして、第２レベルコントローラ１４Ｂはディスクドライブの＆１１８Ａ−１８Ｆの中の残りの三つのディスクドライブに対して主たる制御を行う、二つの第２レベルコントローラ１４は、それぞれのパートナ−が主たる制御を行っているディスクドライブに対してそれぞれ副次的な制御を行う０図４に示したような配置割当がされた場合には、第２レベルコントローラ１４Ａは左側の三つのディスクドライブ１８Ａ、１８Ｂ、１８Ｃに対して主たる制御を行い、右側の三つのディスクドライブ１８０，１８巳、１８Ｆに対して副次的な制御を行う、第２レベルコントローラ１４Ｂは右側の三つのディスクドライブ１８Ｄ、１８Ｅ、１８Ｆに対して主たる制御を行い、左側の三つのディスクドライブ１８Ａ、、１８Ｂ、１８Ｃに対しては副次的な制御を行う。

第２レベルコントローラ１４はそれぞれ第２レベルコントローラ修復システム（ＣＲ３）２２を有している。ＣＲ３２２は第２レベルコントローラ１４と第ルベルコントローラ１２との間の通信の管理を行うソフトウェアコードの一部である。ＣＲ３２２は、典型的には、第２レベルコントローラ１４の状態をある状態から別の状態へと変えるためのマイクロコード、すなわち連続した論理の形態のステートマシーンとして実現される（以下に記述）、状態変化は、いろいろな事象が生じてメツセージがシステムの色々な構成要素との間で伝送されるのを機にして起こる。

各々の第２レベルコントローラ１４はまたＥＣＣブロック１５を有している。

ＥＣＣブロック１５はシステムのいろいろな構成要素の間をデータが行き来するときに生じる誤りのチェックと訂正を行うための回路を含んでいる。この回路については以下にさらに詳細に説明する。

図５は第２レベルコントローラ１４Ａ、１４Ｂおよびディスクドライブとの間の結線についてより詳細に示したブロック図である。簡単のために、単一のディスクドライブボートのみを示しである。システムには図３および４に示したようにもフと多数のドライブボートが実際には存在する。

第２レベルコントローラ１４Ａは主たるディスクドライブの組を制御するための主コントローラ／センスライン５０Ａを持っている。また副コントロール／センスライン５２Ａは副次的なディスクの組を制御する。もちろん、第２レベルコントローラ１４Ｂもこれに対応するコントロール／センスラインを有している。

データバス５４Ａ（第２レベルコントローラ１４Ａ）および５４Ｂ（第２レベルコントローラ１４Ｂ）はディスクドライブ２０に対してデータの送受を行う、これらのデータバスは典型的には５Ｃ３Ｉバスの形態をしている。

スイッチの組、１６Ａ−１６Ｆはディスクドライブの制御をある特定の第２レベルコントローラに委ねるのに使用される。例えば図４において、第２レベルコントローラ１４Ａはディスクドライブ２ＯＡ−２０Ｃに対して主たる制御を行い、ディスクドライブ２０　Ｄ−２０Ｆに対して副次的制御を行う、第２レベルコントローラ１４Ｂはディスクドライブ２０　Ｄ−２０Ｆに対して主たる制御を行い、ディスクドライブ２ＯＡ−２０Ｃに対しては副次的な制御を行う。コントロール／センスライン５０および５２上への信号を変えることによって、主たる制御と副次的制御とを入れ換えることが可能である。

図６はスイッチ１６Ａ−１６Ｆの一つについて、より詳細に示したものである。

パルス整形回路の対６０Ａと６０Ｂは、図５に示した対応するコントロール／センスライン５０Ａおよび５２Ｂとから信号を受ける。パルス整形回路６０はラインを伝送する間に失われてしまった信号の明瞭さを取り戻し、波形をきれいにする。この種のパルス整形回路は当該技術としてよく知られているものである。明瞭化されたパルス整形回路からの出力信号はラッチ６２のセットおよびリセットピンＲ／Ｓに加えられる。ラッチ６２のＱおよびＱ出力はドライバー／レシーバの対６４Ａおよび６４Ｂのイネーブルラインに送られる。ドライバー／レシーバの対６４Ａおよび６４Ｂは、ディスクドライブと第２レベルコントローラ１４Ａ。

１４Ｂとの間に結かれている。主コントロール／センスライン５２Ｂがアクティブになっているのか、あるいは副コントロール／センスラインの方がアクティブになっているのかによって、適当な方の第２レベルコントローラがその時々の制御にあずかることになる。

図７はある特定の第２レベルコントローラ１４のＣＲ３２２（図３）のいろいろな状態の間の関係を示す状態遷移図である。それぞれの第２レベルコントローラ１４はどのような時刻においてもある一つの状態しかとれない、最初は、もしシステムが正しく機能しており、それぞれの第２レベルコントローラ１４がディスクドライブの組１８の半分に対して主たる制御を行っており、残りの半分に対しては副次的な制御を行っているものと仮定すると、第２レベルコントローラ１４は主ドライブ群制御状１１２６になっている。主ドライブ群制御状１１２６になっている間に、主に二つの事象によって、第２レベルコントローラ１４は主ドライブ群制御状１！２６から他の状態へと変わる可能性がある。その第一の事象は第２レベルコントローラのどれかの故障である。もしも故障が生じていると、第２レベルコントローラ１４は主ドライブ群制御状Ｈ２６から制御担当ドライブ無し状態２８へと遷移する。この遷移の途中において、第２レベルコントローラは、主ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状態３ｏを経る。

第２レベルコントローラ１４が起こし得る故障には二つのタイプがある。第一のタイプは制御故障である。この制御故障の中にはさらに二つのタイプの故障がある。

制御故障の第一のタイプは強制制御故障である。これは実際には故障ではな（、外部ソースから特定の第２レベルコントローラを停止するようにとの命令が入力されたことによるものである。第２レベルコントローラがこの命令を受ける可能性があるのは以下のようなソースからである。すなわち、コンピュータ１ｏを介してオペレータから；ボート２４（例えばＲ３−２３２）を介してコンソールから；第２レベルコントローラから；ボート２３（例えばＲ３−２３２）を介して第２レベルコントローラの診断コンソール２１から；あるいは予防的保守の最中におけるソフトウェアからである。典型的には、第２レベルコントローラの診断テストが行われる場合にそのような命令が発せられる０強制制御故障が生じると、第２レベルコントローラはその時点で行っていた命令を終了させ、その後の命令をいっさい受け付けなくなる。第２レベルコントローラは、パートナの第２レベルコントローラに停止することをメツセージで伝えて「優雅に」停止する。

第二の制御故障は中度の故障と呼ばれるものである。この場合には、第２レベルコントローラは問題が生じて、もはやシステムに対して正しくサービスを供給できないことを認識する０例えば、その第２レベルコントローラと関係するメモリあるいはドライブが誤動作を起こしたような場合である。このような場合、第２レベルコントローラ自身は正しく機能していたとしても、システムに対して正しいサービスを供与することができない、第２レベルコントローラはその時点での命令を全て打切りその後には新たな命令を受け付けない、そして、パートナの第２レベルコントローラに対して停止することを知らせるメツセージを送付する。

どちらの制御故障においても、故障した第２レベルコントローラはそれまで制御してきたドライブの組を切り離す、これらのドライブはパートナの第２レベルコントローラによって引き継がれる。

第二のタイプの故障は完全な故障である。完全な故障においては、第２レベルコントローラは動作不能となってしまい、メツセージを送ることも、また実行の途中の命令をうまく打ち切って終了することができない、つまり、言い換えれば、第２レベルコントローラはそのシステムに対して機能する能力を失ってしまったことになる。このような場合に問題が生じたことを認識するのは、第２レヘルコントローラのいずれか、または、パートナの第２レベルコントローラの役Ｆｌである。パートナの第２レベルコントローラが、故障した第２レベルコントローラが制御していたドライブの制御を代わりに行う、故障した第２レベルコントローラへの接続ルートはパートナの第２レベルコントローラへとスイッチで切り換えられる。

上記のすべての故障において、スイッチ切り換えはコンピュータの動作を中断することなく行われる。第２レベルコントローラ１４および第２レヘルコントローラ１２はそれぞれが独立に、自分自身の中で生じている故障の内容を判断して再接続ルート切り換えをそれぞれで行う。

もし、第２レベルコントローラ１４Ａに故障が生じたと仮定すると、第２レベルコントローラ１４Ａは主ドライブ群制御状態２６から主ドライブ群制御停止・制御担当ドライブ無しへの過渡状態３０を経て制御担当ドライブ無し状態２８に変化する。同時に正しく機能している第２レベルコントローラ１４Ｂが主ドライブ群制御状態から主・副両ドライブ群制御状態３２へと変化する。第２レベルコントローラ１４Ａ、および１４Ｂのいずれの状態変化も、その変化の基になっているのは第２レベルコントローラ１４Ａの故障である。第２レベルコントローラが故障している時に、ディスクドライブの制御をその故障している第２レヘルコントローラからスイッチで切り離すことは重要なことである。そうすることによって、故障を起こしてしまった第２レベルコントローラがそれまで制御していたディスクドライブに対してコンピュータ１０が引き続きアクセスすることが可能となるからである。この今の例（図４）においては、ディスクドライブの＆１１８Ａ−１８Ｃが第２レベルコントローラ１４Ｂによって制御されるように、スイッチ機能１６Ａ−１６Ｃによって切り換えが行われる。従って、第２レベルコントローラ１４Ｂは主・副両ドライブ群制御状態３２となって、本来両方の第２レベルコントローラによって制御されるべきディスクドライブの組１８を制御する。

第２レベルコントローラ１４Ａは今やどのディスクドライブの制御も行っておらず、制御担当ドライブ無し状１１２８になっている。過渡状１１３０では、可能ないくつかの遷移パスのどれを使うかが決定される。

仮に、第２レベルコントローラ１４Ａが制御担当ドライブ無し状Ｂ２８になっていて、第２レベルコントローラ１４Ｂが主・副両ドライブ群制御状態３２になっているとき、第２レベルコントローラ１４Ａの修理が終わったとすると、その後のディスクドライブの制御担当をどのように変えるかには、多（のやり方があり得る。まず、第一は、第２レベルコントローラ１４Ａおよび第２レベルコントローラ１４Ｂのいずれもが主ドライブ群制御状１１２６に戻ることである。これはドライブの組１８Ａ−１８Ｃに対して第２レベルコントローラ１４Ａが図の主・割込みラインに沿って制御担当ドライブ無し状Ｊ１１２８から主ドライブ群制御状態２６へと直接に変化することによって達せられる。主・割込ラインとは主ドライブ群への割込みのことであり、これは第２レベルコントローラ１４Ａが主ドライブ群を優先占有すること、つまり、第２レベルコントローラ１４Ｂに代わって主ドライブ群を制御することを意味する。同時に第２レベルコントローラ１４Ｂは主・副両ドライブ群制御状１１３２から副ドライブ群の制御停止・主ドライブ群の制御開始への遷移過渡状ｌｌ３４を過渡的に経て、主ドライブ群制御状Ｊ１１２６に変化する。

以上に代わり得る第二の方法は、第２レベルコントローラ１４Ａが制御担当ドライブ無し状１１２日から副ドライブ群制御状Ｊ！１３６へと変わることである。

いったん、副ドライブ群制御状態３６になると、第２レヘルコントローラ１４Ａはその副デイスクドライブｊｌ１８Ｄ−１８Ｆの制御に携わることになる。これに伴って、第２レベルコントローラ１４Ｂは主ドライブ群の制御停止・副ドライブ群の制御開始への遷移過渡状態３８を経て、主・副両ドライブ群制御状！１３２から副ドライブ群制御状Ｊ！１３６へと変わる。第２レベルコントローラの両方ともが副ドライブ群制御状態３６にあるときには、それぞれの第２レベルコントローラはそれぞれにとっての副デイスクドライブ群であるディスクドライブの制御を行うことになる。つまり、第２レベルコントローラＩ４Ａはディスクドライブ群１８０−１８Ｆの制御を、また第２レベルコントローラ１４Ｂはディスクドライブ群１８Ａ−１８Ｃの制御を行う。

副ドライブ群制御状１１３６から、第２レベルコントローラ１４が故障を起こして、副ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１４０を経て、制御担当ドライブ無し状Ｊ！ｌ＋２８へと変わることもあり得る。もし、このような状況が生じた際には、正しく機能しているパートナの第２レベルコントローラ１４が副ドライブ群制御状ｍ３６から、主・副両ドライブ群制御状１１３２へと変わり、コンピュータ１０がディスクドライブの組１８のどのディスクドライブに対してもアクセスが可能であるようにする。前の例におけるように、もし第２レベルコントローラ１４Ａが故障したと仮定した場合、副ドライブ群制御状ｎ３６から、副ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状ｌＩ４０を経て、制御担当ドライブ無し状１１２８へと変わる。同時に、正しく機能している第２レベルコントローラ１４Ｂは副ドライブ群制御状態３６から、図中の、両ドライブ群／主ドライブ群割り込みラインに沿って主・副両ドライブ群制御状１１３２へと変わる。すなわち、全てのディスクドライブは正しく機能している第２レベルコントローラによって優先占有使用される。

第２レベルコントローラ１４Ａが制御担当ドライブ無し状１１２８にあって、第２レベルコントローラ１４Ｂが主・副両ドライブ群制御状態３２となっているときには、ディスクドライブの組１８の全てのディスクドライブの制御を第２レベルコントローラ１４Ａに移すことが可能である。このことは第２レベルコントローラ１４Ａが修復を終了しているときに、第２レベルコントローラ１４Ｂが故障を起こした場合において望ましいことである。このとき、第２レヘルコントローラ１４Ａは制御担当ドライブ無し状１１２８から、割込（両ドライブ群）ラインを経て、主・副両ドライブ群制御状Ｍ３２へと変わる。同時に、第２レベルコントローラ１４Ｂは主・副両ドライブ群制御状１１３２から両ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１４２を経て、制御担当ドライブ無し状Ｂ２８へと変わる。この時点で、第２レベルコントローラ１４Ａが全てのディスクドライブを制御し、第２レベルコントローラ１４Ｂはどのディスクドライブの制御も行わないようになる。

いろいろな種類の故障が第２レベルコントローラ１４がある状態から別の状態へと変わるきっかけ（トリガー）となり得る。そして、いろいろな状態の間を遷移する間において、多くの事象が発注する。これらの事象のそれぞれを図８Ａ−８Ｉに示す０図８Ａにおいて、第２レベルコントローラ１４は主ドライブ群制御状態２６になっている。第２レベルコントローラ１４が主ドライブ群制御状態２６になっているときに、三つの異なった事象が起こり得る。第１の事象は、割り込みメツセージ１００をパートナ−の第２レベルコントローラから受け取ることである。その時点で、そのようなメツセージを受けた第２レベルコントローラはブロック１０２で表された副ドライブ群パスを取って、最終的に土・副両ドライブ群制御状１１３２に至る。取り得る第２のパスは他の第２レベルコントローラのＣＲ３２２からメツセージ１０４を受けたのをきっかけ（トリガー）として生じる。このメツセージは、結局は第２レベルコントローラがそのまま主ドライブ群制御状態２６にとどまったままでいることになるような種類のものである。第２レベルコントローラはメツセージ１０６を他の第２レベルコントローラに返す。

最後の取り得るパスは、第２レベルコントローラを、主ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状態３０に至らしめるようなものである。このようなパスを取るのは、両ディスクドライブ群あるいは主デイスクドライブ群を切り離すようにとのメツセージ１０８を受け取ったのをきっかけにして起こる。このときには、ブロック１１０においてタイマーが設定され、この設定した時間が来ると、他の第２レベルコントローラに対して、主デイスクドライブ群の制御を行うようにとのメツセージが出される。いったん、主ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１３０になると、第２レベルコントローラ１４は結局は制御担当ドライブ無し状態２８に至ることになる。

図８Ｂは主ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１３ｏから制御担当ドライブ無し状１１２８へ至るいろいろなパスを示したものである。

ここでは、三つの事象が起こる可能性がある。第１は、メツセージ１１４を、通信伝達情報を発している他の第２レベルコントローラがら受け取ることである。

この場合には、第２レベルコントローラ１４はメツセージ１１６を返して、引き続き主ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状態３ｏのままにとどまる。起こり得る第２の事象は、主ドライブ群制御状１！２６から主ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１３０へ至る遷移に際してセットされたタイマーの設定時間到来１１８である。もし、これが起こったときには、第２レベルコントローラ１４はメンセージ１１２（図８Ａ）が正しく送れなかったこと、および完全な故障が起こっていることを認識する。第２レベルコントローラ１４は主デイスクドライブ群および副デイスクドライブ群の両方制御を切り離す（１２２）、その後、制御担当ドライブ無し状１１２８に至る。主ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１３０になっているときに起こり得る第３の事象は、主ドライブ群制御状態２６がら主ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１３０へ変わるのに際して発したメツセージ１１２（図８Ａ）に対する返答１２４を受けることである。この返答を受けたということは、メツセージが正しく伝わったことを意味する。第２レベルコントローラ１４は主デイスクドライブ群の切り離し１２６を行い制御担当ドライブ無し状態２８に至る。

図８０は制御担当ドライブ無し状１！２日から、主・副両ドライブ群制御状態３２、主ドライブ群制御状態２６または副ドライブ群制御状態３６のうちのいずれかに至る状態変化を示したものである。制御担当ドライブ無し状Ｊ１２日にあるときに第２レベルコントローラ１４ができることは、単にメツセージを受けることだけである。まず、第１として、主および副の両方のディスクドライブ群に対して割込むようにとの命令メツセージ１２日を受ける可能性がある。第２レベルコントローラ１４はこの命令の実行１３０を行い、主・副両ドライブ群制御状態特表千６−５００１８６　（１０）３２に至る。第２の可能性は、主デイスクドライブ群に対して割込むようにとの割込み命令メツセージ１３２を受け取ることである。第２レベルコントローラ１４はこの命令を実行し、主ドライブ群制御状ｌＩ２６に至る。第３の可能性は、第２レベルコントローラ１４に対して、その副デイスクドライブ群に対して割込むようにとの命令メツセージ１３６を受け取ることである。この命令の実行１３８を行った後に副ドライブ群制御杖１１３６に至る。最後の可能性は、制御担当ドライブ無し状１１２８になっているときに第２レベルコントローラ１４がそのパートナの第２レベルコントローラから通信メツセージ１４０を受け取ることである。

このときには返答１４２をその第２レベルコントローラに対して返し、そのまま制御担当ドライブ無し状態２８にとどまる。

図８Ｄは第２レベルコントローラ１４の副ドライブ群制御状６３６から主・副両ドライブ群制御状態３２または副ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１４０への変化について示したものである。副ドライブ群制御状態３６にあるとき、次の三つのメツセージのうちのどれかを第２レベルコントローラ１４から受ける可能性がある。最初の可能性は、主・副両ディスクドライブ群または主デイスクドライブ群を割込むようにとのメツセージ１４４である。この場合には、第２レベルコントローラ１４は主デイスクドライブ群の制御１４６を開始し、主・副両ドライブ群制御状ｊｌｉ３２に至る。第２の可能性は、パートナのコントローラからの通信メツセージ１４８を受けることである。この場合には、第２レベルコントローラ１４は返答１５０を返して現在の副ドライブ群制御状態３６のままにとどまり続ける。最後の可能性は、主・副両ドライブ群または副ドライブ群を切り離すようにとのメツセージ１５２の受けとりである。第２レベルコントローラ１４はこのメツセージを受けるとすぐにタイマーのセット１５４を行って、その後、副ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状態４０にあることを示すメツセージ１５６を送る。

図８Ｅは第２レベルコントローラ１４の、副ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状態４０から制御担当ドライブ無し状１１２８への変化を示している。副ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状Ｂ４０になっているときには、次の三つの異なったメツセージを受ける可能性がある。第１は、パートナの第２レヘルコントローラからのメツセージ１５８である。第２レベルコントローラ１４は返答１６０をパートナに返し、引き続き、副ドライブ群を停止・制？Ｉｌ担当ドライブ無しへの遷移過渡状１１４０のままにとどまる。第２の可能性は、副ドライブ群制御状態３６から現在の状態へと至る間にセットされたタイマーの設定時間到来１６２である。このことはメツセージ１５６を正しく送ることができず、パートナの第２レベルコントローラがこのメツセージを受け取っていないこと、また、第２レベルコントローラに完全な故障が発生していることを意味する。その後、第２レヘルコントローラ１４はディスクドライブの両方の群をともに切り離す旨の報告１６４を行う、そして、制御担当ドライブ無し状ｊ１１２８へ至る。最後の可能性は、第２レベルコントローラ１４が、副ドライブ群制御状１１３６から副ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状Ｂ４０へと変化する際にタイマーをセットした後で、その第２レベルコントローラ自身が発したメツセージ１５６（図８Ｄ）に対して返答１６８を受け取ることである。この返答を受けるとすぐに、第２レベルコントローラは副ドライブ群を切り離して制御担当ドライブ無し状１！２８へと至る。

図８Ｆは、主・副両ドライブ群制御状態３２から、主ドライブ群の制御停止・副ドライブ群の制御開始への遷移過渡状態３８、副ドライブ群の制御停止・主ドライブ群の制御開始への遷移過渡状態３４、または、両ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状Ｊ１１４２のうちのいずれかに至るパスを示したものである。主・副両ドライブ群制御状態３２にあるときに、受は取る可能性のある第１のメツセージは、主ドライブ群切り離し指示メツセージ１７２である。

このメツセージを受けると、第２レベルコントローラ１４はタイマーのセット１７４を行い、主ドライブ群を停止中であることを示すメツセージ１７６を送る。

そして、主ドライブ群の制御停止・副ドライブ群の制御開始への遷移過渡状１１３日になって待機する。受は取る可能性のある第２のメツセージは、副ドライブ群の切り離し指示メツセージ１８０である。この副ドライブ群解放指示メツセージ１８０を受けると直ちに第２レベルコントローラ１４はタイマーのセット１８２を行い、副ドライブ群の制御停止・主ドライブ群の制御開始への遷移過渡状態３４へと変化したことを示すメツセージ１８４を送る。第３の可能性は第２レヘルコントローラ１４がそのパートナである第２レヘルコントローラがらメツセージ１８６を受け取ることである。このときには、返答１８日を返して、主・副両ドライブ群制御状８３２のままにとどまる。最後の可能性として、第２レヘルコントローラ１４は主・副両ドライブ群の両方を切り離すようにとの命令１９０を受けるがもしれない、このときには、第２レベルコントローラはタイマーのセット１９２を行い、主・副両ドライブ群を切り離したことを示すメツセージ１９４を送る。そして、他の第２レベルコントローラからさらに命令を受け取るまで、両ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１４２にて待機を続ける。

図８Ｇは第２レベルコントローラ１４が主ドライブ群の制御停止・副ドライブ群の制御開始への遷移過渡状１１３８から、制御担当ドライブ無し状１１２Ｂ、あるいは副ドライブ群制御状Ｂ３６へと至るときのいろいろなパスを示したものである。第１の可能性は、第２レベルコントローラ１４が他の第２レベルコントローラからメツセージ１９６を受け取ることである。このときには、返答１９８を返して、主ドライブ群の制御停止・副ドライブ群の制御開始への遷移過渡状ＪＥＩ３８のままにとどまる。第２の可能性は、主・副両ドライブ群制御状ＪＩ３２から主ドライブ群の制御停止・副ドライブ群の制御開始への遷移過渡状１１３８へと変わる際にセットされたタイマー１７４の設定時間到来２００である。この場合には、第２レベルコントローラ１４はメツセージ１７６（図８Ｆ）が正しく送られなかったことを理解する。完全な故障が発生している。第２レベルコントローラは主・副両ドライブ群の切り離しを行ったことを示す報告２０２を行い、主・副両ドライブ群を切り離す（２０４）、その後で、第２レベルコントローラ１４は制御担当ドライブ無し状１１２日に入る。最後の可能性は、主・副両ドライブ群制御状態３２から、主ドライブ群の制御停止・副ドライブ群の制御開始への遷移過渡状態３日へと変わるに際して発したメツセージ１７６（図Ｆ）の受領を通知してくる、停止パス応答メツセージ２０６を受け取ることである。このときには、第２レベルコントローラ１４はその主ドライブ群を切り離して、副ドライブ群制御杖態３６に入る。

図８Ｈは第２レベルコントローラ１４が副ドライブ群の制御停止・主ドライブ群の制御開始への遷移過渡状１１３４から、制御担当ドライブ無し状１１２８または主ドライブ群制御状１１２６へのいずれかに変わるときの取り得るバスを示している。最初の可能性は第２レベルコントローラ１４が他の第２レベルコントローラからメツセージ２１０を受け取ることである。この場合は、第２レベルコントローラ１４は返答２１２を返し、副ドライブ群の制御停止・主ドライブ群の制御開始への遷移過渡状１１３４のままにとどまる。第２の可能性は、主・副両ドライブ群制御状１１３２から副ドライブ群の制御停止・主ドライブ群の制御開始への遷移過渡状態３４へと変わるに際してセットされたタイマー１８２の設定時間の到来２１４である。この場合には、第２レベルコントローラ１４はメツセージ１８４（図８Ｆ）が正しく送れなかったことを理解する。この場合、完全な故障が発生している。第２レベルコントローラは続けて、そのディスクドライブ群を切り離すことを示すメツセージ２１６を送って、それまで制御していた土・副両ディスクドライブ群の切り離し２１８を行う、その後で、第２レベルコントローラは制御担当ドライブ無し状１１２８に変わる。最後に第３の可能性は、第２レベルコントローラ１４が、主・副両ドライブ群制御杖１１３２から副ドライブ群の制御停止・主ドライブ群の制御開始への遷移過渡状１１３４へと変わるのに際して発したメツセージ１８４（図８Ｆ）に対する返答２２０を受け取ることである。このときには、第２レベルコントローラは副ドライブ群の切り離し２２２を行い、主ドライブ群制御状ｌＩ２６へ入る。

図８Ｉは第２レベルコントローラが両ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１！４２から、制御担当ドライブ無し状Ｊ１２８へと変わるときに取る得るバスを示したものである。ここでは、三つの事象が起こり得る。その第１は、他の第２レベルコントローラから通信伝達情報メツセージ２３０を受け取ることである。この場合には、第２レベルコントローラ１４は返答２３２を返し、両ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状態４２のままにとどまる。第２の起こり得る事象は、主・副両ドライブ群制御状１１３２から両ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状態４２へと変わるのに際してセットされたタイマー１９２の設定時間の到来２３４である。もし、これが起こったときには、第２レベルコントローラ１４は主・副両ドライブ群制御状態３２にあるときに発したメツセージ１９４（ｌｆｆ１８Ｆ）が正しく送られなかったことと、完全な故障が発生していることとを理解する。第２レヘルコント口−ラは主・副両ドライブ群をその制御から切り離す（２３８）、そして、制御担当ドライブ無し状１１２８に至る０両ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状態４２にあるときに起こり得る第３の事象は、第２レベルコントローラが主・副両ドライブ群制御状１１３２から両ドライブ群を停止・制御担当ドライブ無しへの遷移過渡状１１４２へと変わるに際して発したメツセージ１９４（図８Ｆ）に対する応答を受けること（２４０）である、この応答があった場合にはメツセージが正しく相手に伝わったことを意味する。そして、第２レベルコントローラ１４は主・副両ドライブ群を切り離して（２４２）制御担当ドライブ無し状態２８に至る。

パンツ　と−イスクドーイフ゛目−゛−の　−図９はバッファとディスクドライブ２０との間のデータバスの経路再設定を行うための回路についての第１の好適な実施例をしめしたものである０図９において、クロスバ−スイッチ３１０−３１５は、第２レベルコントローラエンジン（図３および図４を参照）と通信を行うためのバス３０９に結合している。さらに、それぞれのクロスバ−スイッチはバスによってディスクドライブ２０Ａ１−２０Ａ６、およびバッファ３３０−３３６のそれぞれに接続されている。バス３５０は各々のバッファを、コンピュータ、例えばコンピュータ１０、に接続されている第ルベルコンピュータに接続する。この実施例においては、６個のディスクドライブのみを示したが、同様のやり方でクロスバ−スイッチと出力バッファの数を増やし、図９に示されているようなバスの結線構造を維持し、図示されたアーキテクチャ−を保持している限り、他のどのような任意の数のディスクドライブをも用いることが可能である。

動作を行う際には、第２レベルコントローラはいろいろなレジスター（図示していない）を負荷として持ち、そのレジスターによって、ある特定のバッファと特定のディスクドライブとの交信を可能とするようなりロスバースイッチの接続が構成される。システムが動作している間、任意のどのような時にもある特定の接続構成へと変更することが可能である。データの流れは全てのバスにおいて双方向である。クロスバ−スイッチの接続構成を行うことによって、与えられた任意のバッファから流れてくるデータを与えられたどの任意のディスクドライブに対しても接続できる。また、この逆の接続も可能である。好適な動作モードにおいては、あるディスクドライブへのデータの送受は、他の全てのディスクドライブへ対して行われているデータの送受と並列して行われる。この動作モードは大きなスルーブツトとともに、非常に高速度のデータ送受信を可能とする。

この動作モードの実施例を説明するために、以下に例を示す０図９を参照して説明する。ここで、すべてのデータの流れは最初は直接的であるものと仮定する。

この直接的ということは、クロスバ−スイッチ１１０を介して例えば、バッファ３３０のデータがディスクドライブ２０Ａ１に直接に流れることを意味する。もしも、バッファ３３０が故障を起こしたときには、クロスバ−スイッチ３１０のレジスターがこの故障発生を認識し、クロスバ−スイッチ３１０はバッファ３３５からのデータを読んで、そのデータをディスクドライブ２０Ａ１に導くことができるようにする。その他のバッファあるいは、ディスクドライブが同様な故障を起こしたときにも、同様な方法で補償が行われる。

１１−一に番る−　−の図１０に本発明の第２の好適な実施例を示す、この第２の実施例は、アレイ訂正回路（ＡＣＣ）を含んでいる。このＡＣＣは、図９に示した第１の好適な実施例におけるのと同じ一般的アーキテクチャの範囲内で、誤りの検出・訂正を可能とするものである。この実施例の理解を容易にするために、クロスバ−スイッチ（３１０−３１５）およびアレイ訂正回路３６０．３７０についてはその内部構造の完全な詳細にまでは図１０においては立ち入らないこととし、ここには示していない、これらのデバイスの内部構造は図１１および１２において別途示してあり、説明のために引用、あるいは議論を順に行っていくものである。また、バスＬＢＨは、実際には、第２レベルコントローラをクロスバ−スイッチ、ＡＣＣ。

およびＤＳＩユニットに、図１０に示したようなやり方で直接に結合しているわけではない（図３および４）、そうではなく、実際には第２レベルコントローラはクロスバ−スイッチ、ＡＣＣおよびＤＳＩユニットに割り当てられた、いろいろなレジスターの組と交信を行う、これらのレジスターは、組み合わせ構成データに従って第２レベルコントローラの負荷となり、これによって上記の構成要素の動作モードが制定される。そのようなレジスターについては既知であり、また本発明においては本質的なことではないので、図示しないこととし、またこれ以上の議論はここでは行わない。

図１０に、実施例におけるデータディスクドライブ２０Ａ１−２０Ａ４、ＰおよびＱ冗長項ドライブ２０Ａ５．２０Ａ６とが示されている０本発明による好適なｌｌ樟では１３台のディスクドライブを用いる。すなわち、１０台をデータに、２台をＰおよびＱ冗長項に、そして１台を予備あるいはバックアップ用にである。

本発明の要旨を全く変えることなく、ドライブの具体的な台数および具体的な使用方法をいろいろに変えることができることは理解できよう、それぞれのディスクドライブは双方向性バス（小型コンピュータ標準インターフェース）によってＤＳＩと表示された二ニア）３４０　３４５に接続されている。ＤＳ！ユニットはディスクドライブへのデータの入出力の際のバッファの役割を果たすと同時に、ある種の誤り検出を行う。

さらに、それぞれのＤＳＩユニットは双方向バス手段によってクロスバ−スイッチに接続されている。クロスバ−スイッチはここでは３１０−３１５の番号付けがされている。クロスバ−スイッチは、さらにワードアセンブラ−３５０−３５５に双方向バスによって接続されている。この実施例におけるこのバスの幅は９ビツトで、８ビツトがデータ、１ビツトはパリティピットである。ワードアセンブラーは３６ビント（３２ビツトがデータ、４ビツトがパリティ）のワードをアセンブルして、３６ビツト幅を有する双方向バスを通してバッファ３３０−３３５に送信する。出力バッファからクロスバ−スイッチへとデータが流れてきたときには、ワードアセンブラは３６ビツトのワードを９ビツトのデータ・パリティへと分解する。

クロスバ−スイッチは、またＡＣＣユニット３４８および３４９にも接続されている。クロスバ−スイッチとＡＣＣとの結線については図１１にさらに詳細に示しである。それぞれのクロスバ−スイッチはＤＳＩユニットあるいはワードアセンブラから受け取った８ビフトデータ・１ビツトパリテイを、両方のＡＣＣに対して、あるいは、そのうちのいずれかに対して送ることができる。さらには、クロスバ−スイッチはＡＣＣが算出した９ビツトのＰおよびＱ冗長項をラインＥ、およびＥ８を通して受け取ることができる０図示されているように、ＡＣＣはＰおよびＱ冗長項を任意のどのクロスバ−スイッチに対しても導くことができ、ＰおよびＱと表示されたディスクドライブだけに限定して接続されているわけではない、第２レベルコントローラは、ＡＣＣ３４８および３４９が互いに冗長となるような接続構成をとらせることもでき、この場合においてはＡＣＣのいずれかが故障した場合であっても、システムの誤りを検出・訂正する能力は失われない、あるいは、それぞれのＡＣＣが全ディスクドライブのうちの一部をそれぞれが分担して誤りの検出・訂正をさせるような接続構成とすることもできる。後者のようなやり方で動作しているときには、それぞれのＡＣＣが別々のディスクドライブに対して書き込みを行うことができるので、個々のディスクドライブに対して書き込みを行うようにある種の特定のタイプの動作は促進される０個々のどのＡＣＣがどの特定のディスクドライブをモニターするのかは、第２レベルコントローラによって、いつでも再設定をすることができる。

図示したこのようなＡＣＣとクロスバ−スイッチとの接続方法を用いると、第２レベルコントローラが関連するレジスターの接続構成を行うことによって、どのクロスバ−スイッチからでも、任意のＡＣＣへとデータをスイッチすることができる。このような柔軟性があることによって、データは、どの故障したディスクドライブあるいはバッファからも回避することができる。

図１１はＡＣＣとクロスバ−スイッチの重要な内部詳細について示したものである。クロスバ−スイッチ３１０は鏡影な二つの部分から成っている。これらの部分はそれぞれが、さらに９ビツト・トライステート・レジスター３７０　／３８０、マルチプレクサ−３７２／３８２、第１の９ビツトレジスター３７４／３８４、第２の９ビツトレジスター３７６／３８６、および入出力インターフェース３７９／３８９とで構成されている。ワードアセンブラ−からＤＳ■ユニットへとデータが流れる動作も、あるいは逆方向に流れる動作も可能である。

図１１に示したように、クロスバ−スイッチの中を通るいろいろなバスが可能ではあるが、これらの中の二つのものが特別に重要である。第１は、ＡＣＣがＰおよびＱ冗長項の計算を行うのに必要な、あるいは誤りの検出・訂正を行うのに必要な充分な時間を与えるために、数個のレジスターからなるデータバスを用いることである。このとき、データは、あるレジスターから次のレジスターへ移動するのに、１クロツクサイクル必要である。クロックをかけて、データを数個のレジスターを通過させるようにすることによって、必要となる充分な長さの遅延を達成できる１例えば、ワードアセンブラ−ユニットからディスクドライブにデータが流れているものと仮定すると、最初のクロックパルスによって、９ビツトデータが９ビツトレジスター３７４およびトライステートレジスター３７０に加えられる０次のクロックパルスによって、このデータは９ビツトレジスター３８６へ、また、ＡＣＣ３４Ｂの冗長回路３０２を通ってＰ／Ｑレジスター３０４および３０６へと移動する。さらに次のクロックパルスによって、データはＤＳＩユニットへ移る。

重要な内部データバスの第２のものは、トライステートレジスターと関係している。トライステートレジスターは互いに同時にはアクティブな状態にはならない、言い換えれば、トライステートレジスター３７０または３８０のどちらかが使用可能状態にあるとき、相対するレジスターは使用不能状態になっている。これによって、クロスバ−スイッチからＡＣＣへのデータの伝送が制御される。データはＤＳＩユニットからＡＣＣへと向かって流れるか、あるいはワードアセンブラからＡＣＣへと流れるかのどちらかであって、両方から同時にＡＣＣへと流れるようなことは決しておこらない、逆方向の場合には、データはＡＣＣからワードアセンブラおよびＤＳＩへ同時に流れる。

ＡＣＣユニット３４８は、ＰおよびＱ冗長項を生成する冗長回路３０２、ＰおよびＱ冗長項を一時的に記憶するためのＰおよびＱレジスター３０４と３０６、故障したディスクドライブまたはバッファからの、あるいは、それらへのデータを再生または訂正するための再生・訂正回路３０８、および出力インターフェース３９０．３９１．３９２．３９３とから成っている。

−　おび　チェ・り第２の実施例において重要な働きをする構成要素とそれらを物理的に互いにどのように接続するかについては、上に既に述べた０次に、好適ないろいろな動作モードについて説明する。これらの機能モードについて理解するためには、本発明で用いられている誤り検出・訂正のある部分についての理解が必須である。

コンピュータ座業においては、いろいろな誤り検出・訂正符号が知られており、また使われている。ミトリイー社（Ｔｈｅ　ＭＩＴＲＥ　Ｃ０ＲＰ、）のり、ライガート（Ｗｉｇｇｅｒｔ）はその著書誤−ｍ符号上応用において、そのようないろいろな符号とその計算について述べている０本発明の第２の実施例はリード・ソロモン誤り検出・訂正符号を用いて実現されている。ただし、本発明がリード・ソロモン符号だけに限定されなければならないような理由は何もない、もし、他の符号を使うのであれば、ＡＣＣに対しているいろな変更が必要になるが、本発明の本質的な特徴を何も変えることなくそのような変更は可能である。

リード・ソロモン符号はフィールド生成多項式によって生成されるが、Ｘ４＋Ｘ＋１の形のものをこの実施例では用いている。このリード・ソロモン符号に必要となる符号生成多項式は（Ｘ＋ａ’　）　・（Ｘ＋ａ’　）＝Ｘ”　＋ａ’　Ｘ＋ａ’である。誤りを検出し、訂正するためにこれらの符号を生成し、使用することは既知である。

本発明にリード・ソロモン符号を実際に実現するには、いろいろな項とシンドロームの生成が必要となる。明確にするため、これらの項をここではＰおよびＱ冗長項と呼ぶことにしよう、ＰおよびＱ冗長項を生成する方程式はＰ＝ｄ、、＋ｄｌｌ−、＋・・・＋ａ＋＋ｃｔｅおよびＱ”ｄａ−＋　’　ａｍ−＋＋ｄｓ−ｖ’　ａｍ−ｘ＋・・・＋ｄ＋　・ａ１＋ｄ＋＋・ａ６である。Ｐ冗長項は本質的に、与えられた計算においてデータバイト全体におけるイネーブルなものの単純なパリティである。Ｑ論理はイネーブルなすべてのデータバイトに対してＱ冗長性の算出を行う、Ｑ冗長性の算出においては、和をとる前に、まず最初に入カデターに対して定数ａが掛けられる。ＰおよびＱ冗長項を生成するために必要となる論理演算を図１２ａおよび１２ｂに示した。０で表した演算はすべて、排他的論理和（ＸＯＲ）を意味している０本質的に、最終的なＰ項はすべての２１項の和をとったものである。Ｑ項はすべての９８項に対して定数をかけた後にそれらの排他的論理和をとることによって導出される。これらの計算はＡＣＣ２６０（図１１）の冗長回路３０２によってなされる。第２の好適な実施例においては、リード・ソロモン符号を用いることによって故障した二つまでのディスクドライブに対してデータの訂正を行うことが可能である。

データの訂正を行うためには、ＡＣＣ内にてさらに項Ｓ、およびＳ、の生成を行うことが必要である。あるデータのグループに対して、ＰおよびＱ冗長項がすでに計算されているものと仮定すると、シンドローム方程式としてＳｏｇｄい一１＋ｄ＊−ｔ÷・・・＋ｄ、＋ｄａ＋ＰＳ＋＝（ｄａ−１ａｎ−＋）＋（ｄａ−ｚ　Ｈａｍ−ｇ）＋　ＨＨＨ＋（ｄｒ　Ｈａｔ）＋（ｄａ　・ａｏ）＋ＱがＳ、およびＳｌを算出するために用いられる。Ｓｏに対しては、ＡＣＣレジスターが計算に必要なデータバイトおよびＰ冗長性を準備する。Ｓ、に対しては、必要な入力データは、Ｑ冗長性情報との和をとる前に、まずａ３をそれぞれかけねばならない。

上述したように、この実施例では、２台までの故障したディスクドライブに対してＡＣＣはデータの訂正を行うことが可能である。故障したディスクドライブと関連するＡＣＣ中のレジスター（図示せず）は第２レベルコントローラに対する、故障したディスクのアドレスにおける、その負荷とされる。ＡＣＣ中の定数回路はドライブの所在情報を用いて二つの定数に、およびに１を下記の表工に示したように行う。

Ｑｉ　ＯＯＩ　Ｊ　ａＪ／ａｔ＋ａｊ１／ａｔ＋ａＪＰＱ　ＯＯこの表において、ｉは故障した第１のディスクドライブのアドレスを表し、ｊは第２の故障したディスクドライブのアドレスである。また、ａは定数である。

ＵΣ旦歪プと表示した列はどのドライブが故障した場合であるのかを表す、に・およびに、の列は故鷹上立工ｊの列に表記されたドライブの与えられた故障に対してこれらの定数がどのように計算されるのかを示している。

誤り訂正回路は、二つの定数に０およびに、とともに、シンドローム情報Ｓ。

およびＳｌを用いて、故障したディスクドライブが有していたデータの生成を行う、誤り訂正方程式は以下のとおりである。

Ｆ＋”Ｓｓ・ｋ＠＋Ｓｌ・ｋ。

ＦＭ　＝ＳＯ＋Ｅｌここで、Ｆ−よ第１の故障したディスクドライブに対する訂正後の正しい置き換えデータであり、Ｆ２は第２の故障ディスクドライブに対する置き換えデータである。ＰおよびＱ冗長項を生成する方程式の計算は図１２ａおよび１２ｂにその一部を示したように、論理回路の組み合わせによって実現される。このやり方は、データがドライブに書き込まれるのと同時に冗長項も生成してディスクに書き込まれるという長所がある。この動作モードについてはさらに議論を行う。

動作ｉ二上本発明の理解に必要となるリード・ソロモン符号の実現の様子については上に説明したので、本発明の動作モードについて次に議論を行う。

本発明の好適な第２実施例では基本的には二つの動作分類のうちのいずれかの動作が行われる。すなわち、データ記憶動作か、あるいはトランザクション処理動作かである。これらの二つの動作について、囚、特に図］０１１３、および１４と表２−７を参照しながら以下にＭ論をする０図１０では４つのデータドライブとＰおよびＱ冗長項ドライブのみを示しであるが、望ましくは１０台のデータドライブと２台のＰ、Ｑ冗長項ドライブおよび１台の予備ドライブの合計１３台のディスクドライブが使われる。これらの動作環境と関連して、並列処理動作について以下に述べるが、議論をそのような特定の実施例にのみ限定しなければならない理由は決してない。

並列処理動作並列処理動作においては、すべてのドライブは単一の大型装置から成っているものとみなす、各ディスクドライブは９ビツトのデータを同時に受信するが、あるいは送信する。その結果、すべてのドライブのＤＳＩユニットに同時に現れる９ビツトのデータは一つの大きな符号ワードとして取り扱われる。符号ワード４００はディスクドライブｄａ−１が送受する９ビツトデータ、ディスクドライブｄｌｌ−１が送受する９ビツトデータ、・・・などと、ＰおよびＱディスクドライブが送受するＰおよびＱ冗長項とから成っている。並列書き込み動作においては、予備ディスクドライブを除いて、組になっているすべてのディスクドライブが同時に１バイトのデータ（またはデータバイトの長さに等しい長さを有する冗長項）を受け取る０図示されているように、すべてのドライブの同じセクターに符号ワード４００の一部が書き込まれる０例えば、図において、ディスクドライブｎ−１のセクターｌは符号ワード４００の中のｄａ−１と表記された１バイトのデータを受け取り、ディスクドライブｎ−２のセクター１は符号ワード４００中のｄ、−２と記された１バイトデータを受け取る・・・等々である。

この好適な実施例を実際に実施する際には、符号ワードはいろいろなディスクドライブにまたがって、いわばｒ筋をつける」ことになる、このことは、連続したそれぞれの符号ワードに対して、異なったディスクドライブがＰおよびＱ冗長項を受け取ることを意味している。言い換えれば、ドライブｄａ−１は次の符号ワードにおいてはドライブｄ、−２のように取り扱われ、以下、同様のことが、元のドライブｄａ−１がＱ冗長項を受け取るまで繰り返される。このようにして、冗長項の「筋」がディスクドライブの中にできる。

ニブルに・　るＰおよび　−のペア８ビット記号を用いてＰおよびＱ冗長項の計算を行うと多くのハードウェアが必要となってしまう、このハードウェアのオーバーヘッドを減らすためには、４ビツトバイトすなわちニブルを用いて計算を実施する。このためのハードウェアの実現には本発明の基本概念の変更は必要としないが、二つの４ビツトデータニブルを受け取ったディスクドライブはこの二つのデータを組み合わせて一つの８ピントバイトを形成するようにしなければならない０図１３ｂにおいて、符号ワード４５０および、ディスクドライブのセクターＡは、符号ワードがどのように分割されて、ディスクドライブが上位４ビツトニブルおよび下位４ビツトニブルをどのように受け取るのかが示されている０表２は、符号ワード１からＮまでに対して、符号ワードのどの部分がドライブのどの部分にどのように配置されるのかを示したものである。各ディスクドライブは、ある符号ワードが与えられたとき、その符号ワードのＵおよびＬと表記された上位および下位４ビツトニブルを受け取る。さらに、符号ワードの記憶に使われたディスクドライブ上の同し部分がニブルの記憶のために使われる。言い換えれば、符号ワード１に対しては、ディスクドライブｎ−１から０までの最初のセクターがニブルを受取る。

符号ワードー−−データ・Ｐ−Ｑ符号７−Ｆｌ　符号７−Ｆｌ　符号フード１　符号フート１　符号ツーＦ１　符号’）−Ｆｌ（ｄ、ｌ−＋Ｊ（ｄ、−＋ｔ＋）　（ｄａ−ｚｔ）（ｄ、−ｚｕ）　（ｄｏＪ（ｄｏ、＋＋）　ＣＰ＋ｔ）（Ｐ＋ｕ）　（ＱＩＬ）（ＱＩＬ{）符号ツーＦ２　符号ワード２　符号ツーＦ２　符号ツーＦ２　符号ツーＦ２　符号ツーＦ２（ｄｆｉ−＋＋）（ｄ−＋ｕ）　（ｄ−Ｊ（ｄ−ｔｏ）　（ｄａＪ（ｄ＋＋ｕ）　（ＰＪ（Ｐｚｕ）　（Ｑｚｔ　）（Ｑ！＋１）参照を図１０に戻す、ディスクに対して並列にデータを書き込むために、３６ビツトデータがワードアセンブラ３５０−３５３にて９ビツトワードに逆アセンブルされた後、バッファをクロスバ−スイッチ３１０，３１１．３１２、および３１３へと接続しているバスを通して、データがバンク７３３０，３３１．３３２、および３３３から並列に供給される。これらのクロスバ−スイッチは、またＡＣＣ３４８およびＡＣＣ３４９の入力端子Ｄ３、Ｄ２、Ｄｌ、Ｄｏにも接続されている。並列処理モードにおいては二つのＡＣＣは互いに互いのバックアップとしての役割を担う、もし一つが故障を起こしても、他の一つが必要とされる誤り訂正機能の実行を引き続けて行う、純然たる「バックアップ」条件にての動作に加えて、第２レベルコントローラエンジンは、一方のＡＣＣに対して、ディスクドライブの組の一部分に対しての誤りの検出・訂正を担わせ、他のＡＣＣに対しては、その組の残りのディスクドライブに対して同様の機能を担わせるようにさせることもできる。

このとき、ＡＣＣユニットは依然として全てのディスクドライブに接続されたままになっているので、どちらがのユニットに故障が起こったとしてもＡＣＣの動作モードを再設定し、特定ディスクドライブ専用となっていたＡＣＣを、ディスクドライブ全体に対しての機能をさせるよう変更が可能であるので、このようなときでも、システムにインパクトを与えることがない、ここでの議論としては、ＡＣＣ３４Ｂが動作しているものと仮定しよう、ＡＣＣ３４Ｂはクロスバ−スイッチからのデータに対してＰおよびＱ冗長項の計算を行い、その結果をＡＣＣ３４ＢのＥｌおよびＦ２出力端子に供給する。このＥ、　、Ｅ、出方端子はすべてのクロスバ−スイッチと接続されている。単にここでの議論としてだけ、Ｅ！はクロスバ−スイッチ３１４とだけ、またＦ２はクロスバ−スイッチ３１５に対してだけ割り込み可能だと仮定しよう、すると、データはＡＣＣ３４８のＥ。

およびＥ！出力端子に接続されているバスを通して全てのクロスバ−スイッチに供給されているにもかかわらず、Ｑ冗長項はクロスバ−スイッチ３１４だけが、またＰ冗長項はクロスバ−スイッチ３１５だけが受け取る。そして、ＱおよびＰ冗長項は最初にＤＳＩユニット３４４および３４５に供給され、その後にディスクドライブ２０Ａ５および２０Ａ６に供給される。ここで、クロスバ−スイッチの内部レジスターは、多段パイプラインとして機能し、データがスイッチを通過する際の遅延時間を有効に発生させて、ＡＣＣ３４Ｂの冗長回路３０２がＰおよびＱ冗長項の計算を行うのに必要とする充分な時間を提供することを思い出して欲しい。

ＡＣＣ３４９も、ＡＣＣ３４８と本質的に同じやり方でクロスバ−スイッチと接続されているので、ＡＣＣ３４９が動作しているときのシステムの動作の仕方はＡＣＣ３４Ｂに対して記述されているのと全（本質的に同じである。

引き続けてのディスクからの並列読み出しは以下に述べるようにして起こる。

データは双方向バスを通してＤＳＩユニット３４０，３４１３４２．３４３に供給される。ＰおよびＱ冗長項はそれぞれＤＳＩユニット３４５および３４４から供給される。データとＰおよびＱ冗長項がクロスバ−スイッチ３１０−３１５を通して伝送される際に、ディスクドライブからのデータが正しいがどぅがを、ＡＣＣ３４８はＰおよびＱ冗長項を利用して判断する。ワードアセンブラ−３５０ −３５３は連続した９ピントワードを次の３６ビツトが得られるまでアセンブルを行う、この３６ビツトはバッファ３３０−３３３へ供給される。ここで、９ビツトワードはバッファに対して並列に伝送されることに注意のこと、もし、このデータが正しくない場合には、第２レベルコントローラにそのことが伝えられる。

並列読みだしの際に、万一ディスクドライブが故障すると、故障したディスクドライブは、どこかのあるタイミングで第２レベルコントローラに対して故障を起こしたことを伝える。もし、ディスクドライブがその自身の誤り訂正機能を用いての誤り訂正が不可能となったのであれば、第２レベルコントローラに対してそのことを伝える。すると、第２レベルコントローラは、故障を起こしたディスクドライブのアドレスに対応するＡＣＣ中のレジスタ（図示せず）を呼び出すことにより、ＡＣＣ３４８および３４９と連絡を取る。そして、接続構成レジスターからそのアドレスを消すことによって故障したディスクドライブを組の中から取り除くことが可能である。さらに、組の中の予備ドライブのアドレスを接続構成レジスタに挿入することによって、故障したドライブの代わりをさせることができる。

次に、ＡＣＣは故障したディスクドライブ中に記憶されていた全ての情報を新しく動作させた予備ディスクへ再書き込みをさせるため、必要となる置き換えデータの計算を行う０本発明においては、予備あるいはバックアップという語は、システム中の他のディスクドライブが故障を起こすまでの通常の状況ではデータの送受を行わないディスクドライブを意味する。

データ、ＰおよびＱバイトを受けると、ＡＣＣ回路は故障ドライブレジスタの故障ドライブ位置を用いて、故障ドライブに対しての置き換えデータ計算の指示を行う、計算が完了すると、修復されたデータを含むデータバイトはデータバッファに並列に送られる。ここに用いたリード・ソロモン符号では最大２台まで、ドライブの故障が許される。故障ディスクドライブとそれが記憶していたデータの置き換え動作のすべては、システムが並列モードで動作している際に行われる。

データの再生成は第２レベルコントローラの制御のもとで行われる。故障ディスクドライブを交換する必要があるときは、ＡＣＣは交換されたディスクに対してすべてのデータを再生成する。すべてのデータが置き換えられるまで読みとり／書き込み動作が続けられる。ディスクの再生成にはかなりの時間が必要とされるので、その処理はシステムのバックグランド動作として行い、通常のデータ伝送機能にインバク１−を与えないようにする。以下の表３は再生成読みだしのためにとられる動作を示している０表３において、ｉは第１の故障ドライブを、ｊは第２の故障ドライブを表す０表３の故陣上立±１と記された列はどのドライブが故障を起こしたのかを表す、最後の列はそれぞれの表記された故障に対してＡＣＣが行うべき仕事の内容を表している。

もしも、データディスクと冗長ディスクの両方がともに故障を起こした場合には、冗長ディスクの冗長項の再生成を行う前に、データディスクのデータの再生成を先に行わねばならないことに注意すべきである。再生成書き込みの間は、再生データあるいは再生冗長項がディスクに書き込まれるだけであり、ＡＣＣ論理が特にすべき動作は何もない。

再生成読み出し援り公げＰ　−ＡＣＣはＰ冗長性を計算Ｑ　−ＡＣＣはＱ冗長性を計算ｉ　−ＡＣＣはｉドライブの置き換えデータを計算ｉ　Ｐ　ＡＣＣはｉドライブの置き換えデータとＰ冗長性を計算Ｑ　ｉ　ＡＣＣはｉドライブの置き換えデータとＱ冗長性を計算ｊ　ｉ　ＡＣＣはｉおよびｊドライブの置き換えデータを計算並列読みだし動作の間も、ＡＣＣ回路は誤り検出をさらに行っていることに注意のこと。

表４は故障ドライブ読みだし動作の間に、表示のドライブが故障を起こした場合のＡＣＣ論理ユニットがとるべき動作を示している。この動作においては、故限且ｉヱプと記された列のドライブは読みだし動作を行う以前に故障を起こしていたドライブ名を表している。最後の列は与えられた故障に対してＡＣＣがとるべき応答である。

故障且ｉ工ＩＰ　ＡＣＣのとるべき動作なしＱ　ＡＣＣのとるべき動作なしｉ　ＡＣＣは置き換えデータを計算ｉ　Ｐ　ＡＣＣは置き換えデータを計算Ｑ　ｉ　ＡＣＣは置き換えデータを計算ｉ　ｊ　ＡＣＣは置き換えデータを計算Ｐ　Ｑ　ＡＣＣのとるべき動作なしトーンザクジョン几　モード：梳み人みトランザクション処理を行うには、各々のディスクに対して独立してアクセスする能力が要求される。各々のディスク自体は独立しているものの、ＰおよびＱ冗長性行きＡＣＣ符号ワードは上記のようなやり方でディスクの組にまたがって保持される。通常の読み込み動作においては、ＡＣＣ回路は一般的には必要ではない。単一のドライブのみが読み出されているようなときに限っては、ＡＣＣはその計算能力を失ってしまう、というのは、ＡＣＣは符号ワード全体をアセンブルしてＰおよびＱを再計算し、記憶しであるＰおよびＱと比較をするのに、他のドライブからのデータが必要となるからである。このような場合においては、データは妥当であるものと仮定されて、ＡＣＣ回路を用いることなく読み出される。

（図１５参照）ドライブ２０Ｃ１が選択されたドライブであるときには、データは単にＤＳＩユニット３４２、クロスバ−スイッチ３１２、ワードアセンブラ− ３５２、バッファ３３２を通って外部コンピュータへ伝送されるだけである。ディスクドライブが故障を起こした際の読みだし動作は、ＡＣＣによって再生成された置き換えデータがデータバッファに送られる点を除いては、並列動作モードにおける故障ドライブ読みだしと同しである。しかし、この場合、ディスクドライブは第２レベルコントローラに対して故障を起こしたことを知らせる必要がある。あるいは、第２レベルコントローラが故障を検知することが必要である。さもないと、第２レベルコントローラは、所望のドライブから読み込んだデータに誤りがあると仮定するまで、ドライブの全てを読み出す必要があることを知ることができない０図１６に故障ドライブ読み出しを示した。ここでは、図１５の例におけるように、ドライブ２０Ｃ１が所望のデータを持っているものとしている。

図１６において、第２レベルコントローラはドライブ２０Ｃ１が故障したことを知っており、故障ドライブ以外の他のすべてのドライブの読み出しを行い、他のドライブからのデータとＰおよびＱ冗長項を用いてドライブ２０Ｃ１のデータの再構築を行う。再構築されたデータのみがバッファ３２２に対して供給される、というのは、このデータだけを外部コンピュータが必要としているからである。

トーンザクジョン　モ一一：゛どの個々のドライブに対して書き込みがなされているにせよ、ＰおよびＱ冗長項は新たなデータを反映するように変えていかねばならない、（図１８参照）これは、書き込まれたデータというのは、複数のディスクドライブにまたがっていて、二つのディスクドライブにそのＰおよびＱ冗長項を持っている符号ワードの一部であるからである。符号ワードの一部が変わったときには、前に記憶されたＰおよびＱ冗長項は、もはや妥当ではない、従って、新たなＰおよびＱ項、Ｐ′およびＱ″、を計算し、それぞれのディスクドライブの古いＰおよびＱ項と置き換えて書き込まねばならない、そうすることによって、Ｐ′およびＱ＃は新たな符号ワードに対する適当な冗長項となる。

Ｐ′およびＱ＃の計算を行う一つの可能な方法は、すべての符号ワードを読み出し、それをバッファに記憶させることである。ＡＣＣ回路に、ドライブ２０Ｃ１に対する符号ワードの新たな部分が、符号ワードの他の残りの部分とともに供給されて、Ｐ″およびＱ″が計算され、ディスクドライブに通常の並列書き込みとして記憶される。しかしながら、この方法を採用した場合、符号ワードの一部を有している他の別のディスクドライブ（すなわち２０Ａりのトランザクジョンモードアクセスを同時に行うことは不可能である。なぜなら、そのドライブ（２０Ａｌ）と、そのバッファが最初のドライブ（２０Ｃ１）へのトランザクンゴンモード書き込みのために必要となるからである。

本発明の方法によれば、書き直しすべき古いデータと新しいＰ“、Ｑｌを計算するための古いＰ、Ｑのみを用いて、二つのトランザクシランモードアクセスを同時に達成することが可能となる。これは、古いデータと古いＰおよびＱから中間的なＰ′およびＱ′を算出し、このＰ’、Ｑ’　と新しいデータとから新しいＰ ″、Ｑ″とを計算するものである。これには、読みだし一変形一書き込み動作がＰおよびＱドライブに対して必要となる。新たなＰおよびＱ冗長項をめるための方程式は以下の通りである。

新しいＰ冗長性（Ｐ’　）＝　（古いＰ−古いデータ）十新しいデータ新しいＱ冗長性（Ｑ’　）＝　（古いＱ−古いデータ・ａｉ）十新しいデータ・Ｐ’＝古いＰ−古いデータＱ’　＝古いＱ−古いデータ・ａｌここで、ａ、はシンドローム方程式Ｓ、の係数である。またｉはドライブのインデックスである。

読みだし一変形一書き込みの読みだし部分において、書き込みをしようとしているドライブからのデータとＰおよびＱドライブのデータとがＡＣＣ論理回路によって、図１７に示したように足し合わされる。この和の計算によってＰ′およびＱ′データが作られる。このＰ’、Ｑ’データはデータバッファに送られる。

データバッファに新しいデータがあるときにサイクルの書き込み部分が図１８に示されているように開始される。サイクルのこの部分の間に新しいデータと、Ｐ ′およびＱ′との和がＡＣＣ論理回路によって計算され、新しいＰ″、Ｑ“冗長性がめられる。和の算出が完了すると、新しいデータはディスクドライブに送られる。た冗長情報はＰおよびＱドライブに送られる。

トーンザクジョン・モード：　′みの　ムのＰおよび　のこれらの読み込み一修正一書き込み動作中に、ＡＣＣ装置自体が故障することもあり得る。この場合は、単一エレメント内のデータを読み込み一修正一書き込み動作によって変更すべき場合、ＡＣＣにおけるハードウェアの故障によって誤って計算された新たなデータに冗長バイトが生ずることがある。この事態を防止するため、奇偶検出器と奇偶生成器をＡＣＣ回路の一部に組み入れる。この付加的な冗長回路は図１４ａ及び図１４ｂに示され、図１１に示すように冗長回路３０２内にある。データがＡＣＣ回路によって受け取られると、誤りが発生していないことをｆ１認するためにＰ及びＱ冗長項を用いて奇偶検査がなされる。Ｑ′を計算する際に乗算演算の積用に新たなパリティが生成され、古いＱ″項のパリティと合計される。それによって新たなＱ項用のパリティが作成される。Ｐバイトの場合には、データからの奇偶検査ビットは古いＰ項の奇偶検査ビットと合計されて、新たなＰ“項用の新たな奇偶検査ビットが作成される。新たなデータをディスク駆動機構に再び書き込む前に、（前述のように計算された）Ｑ′のパリティが検査される。Ｑ′ が正しくない場合は、第２レベルの制御エンジンにＡＣＣの故障が通知される。

このようにしてＡＣＣ内の故障を検出することができる。

データが故障した駆動機構（単数又は複数）に書き込まれないことを除いて、並列データ書き込みと同様の動作がトランザクション処理動作における故障したディスク駆動機構の書き込みの場合も実行される。

通常の読み込み動作中のトランザクション処理動作に関しては、ＡＣＣ論理からのアクシランは必要ない、トランザクシラン処理モードにおける故障した駆動機構読み込み中にＡＣＣ論理によって行われるアクシランが下記の表５にリストされており、ここにｉ及びｊは第１及び第２の故障した駆動機構を表している。

放置しＵ飲機檀と記載された段はどの駆動機構が故障したかを示している。最後の段は表示された故障に応答してＡＣＣがどのようなアクションを行うべきか、又は行わないべきかを示している。

Ｐ　−冗長駆動機構が読み込まれない；ＡＣＣアクシゴンなしＱ　−冗長駆動機構が読み込まれない１Ａｃｃアクシヨンなしｉ　−ＡＣＣ論理が置き換えデータを計算し、並列読み込みを行うｉ　Ｐ　ＡＣＣ論理が置き換えデータを計算し、並列読み込みを行うＱ　ｉ　ＡＣＣ論理が置き換えデータを計算し、並列読み込みを行うｊ　ｉ　ＡＣＣ論理が置き換えデータを計算し、並列読み込みを行うＰＱ　データ・ディスク駆動機構だけが読み込まれるのでＡＣＣＣＣアクシラン２つのデータ・ディスク駆動機構が故障した場合は、ＡＣＣ論理は双方のディスク駆動機構について必要な置き換えデータを計算しなければならない、一つの故障した駆動機構だけが読み込まれるべき場合も、双方の故障した駆動機構がＡＣＣ論理によってノートされなければならない。

書き込み一前一読み込み（ｒｅａｄ　−ｂｅｆｏｒｅ−ｗｒｉｔｅ）動作（読み込み一修正一書き込み処理の一部）の場合は、ＡＣＣ論理はＰ′及びＱ′冗長項を生成する０表６はこの処理段階で故障したディスク駆動機構の読み込みが書き込みに先行した場合にＡＣＣ論理が行うアクシコンを示している。故度長Ｕ動機構の見出しを付した段はどの駆動機構が故障したかを示し、最後の段は表示された故障に対するＡＣＣの応答を示している。

故Ｊ上ａｌｉ逍Ｐ　−ＡＣＣはＱ′だけを計算するＱ　−ＡＣＣはＰ′だけを計算するｉ　−ＡＣＣ論理はアクションを起こさず、良好なデータディスク駆動装置は全てデータ・バッファへと読み込まれるｉＰ　良好なデータディスク駆動装置は全てデータ・バッファへと読み込まれるＱｉ　良好なデータディスク駆動装置は全てデータ・バッファへと読み込まれるｉ　ｊ　良好なデータディスク駆動装置は全てデータ・バッファへと読み込まれるｉ　故障した駆動機構　並列読み込みを行う、ＡＣＣ論理は１番目の故障した駆動機構の置き換えデータ計算する０次に、残りの良好なデータ・ディスク駆動機構がデータ・バッファへと読み込まれる。

ＰＱ　書き込み一前一読み込み動作は必要ない故障したデータ・ディスク駆動機構が書き込まれる場合は、新たなＰ及びＱ冗長度を生成できるように、良好なデータ・駆動機構は全て読み込まれなければならない、良好なデータ・ディスク駆動機構からの全てのデータ及び書き込みデータは新たな冗長度を生成するために合計される。２つのデータ・ディスク駆動機構が故障した場合は、ＡＣＣ論理は故障した双方の駆動機構について置き換えデータを計算しなければならない、一つの駆動機構だけが読み込まれるべき場合も、双方がＡＣＣ論理に報告されなければならない。

書き込み動作中、ＡＣＣはＰ及びＱ冗長度の計算を継続する１表７は故障した駆動機構の書き込み中のＡＣＣのタスクを示している。ここでＰ及びＱはＰ及びＱ冗長項のディスク駆動機構を示し、■及びｊは第１と第２の故障したデータ・ディスク駆動機構を示す、故厘旦だ駆動機構の段は故障した特定の駆動機構を示し、最後の段は故障した駆動機構に対するＡＣＣの応答を示している。

Ｐ　−ＡＣＣはＱ冗長度だけを計算するＱ　−ＡＣＣはＰ冗長度だけを計算するｉ　−ＡＣＣはＰとＱの冗長度を計算するｉ　Ｐ　ＡＣＣはＱ冗長度だけを計算するＱ　ｉ　ＡＣＣはＰ冗長度だけを計算するｉ　ｊ　ＡＣＣはＰとＱの冗長度を計算するＰ　Ｑ　ＡＣＣ論理はアクシランを行わない本発明の双方の好ましい実施例に関して本明細書に記載した相互接続された機構によって、全てのディスクから語アセンブラへの同時的転送及びその逆の転送が可能になる。所定の任意のディスク駆動機構からの、及びそこへのデータは第２レベルの制御エンジンの制御の下でＸ−バー・スイッチを介して他の任意の語アセンブラへと送られることができる。更に、任意の語アセンブラ内のデータをＸ−バー・スイッチを介して任意のディスク駆動機構へと送ることができる。

ＡＣＣ装置は全てのＸ−バー・スイッチから全てのディスクを同時に受け取る。

所定の任意のディスク駆動機構が故障した場合は、これを任意の時点で回路網から除去することができる。Ｘ−バー・スイッチによって故障した部品の周囲にデータＰ及びＱを送る代替の経路が付与される。ディスク駆動機構とＸ−バー・スイッチとの並列構成によって、故障に対する許容度が著しく高いシステムが得られる。従来の技術では、単一の母線が幾つかのディスク駆動機構から単一の大容量バッファへとデータを送る０本発明では、バッファは小容量であり、各々のディスク駆動機構に一つのバッファが割当てられている。Ｘ−バー・スイッチはＡＣＣ装置の制御の下でデータを所定の任意のディスク駆動機構から所定の任意のバッファへと、又、その逆へと送ることができる。各々の第２レベルの制御装置は幾つかの予備ディスクと、制御装置に連結された一つの予備バッファとを有している。任意の２つのディスクの故障には、故障したディスクをそのＸ−バー・スイッチによって切り換え、予備ディスクの一つを回路網に切り換えることによって容易に対応することができる。このように本発明はシステムを再構成して、検出された任意のディスク又はバッファの故障を処理することによってシステムの完全な動作能力を保持することができる動作環境では、Ｒｅｅｄ−５ｏｌｏ＊ｏｎ　誤り修正コードの誤り検出及び修正能力を利用している。ＡＣＣは故障したディスク駆動機構についてデータを修正し、再生することができ、故障したディスク駆動機構と予備のディスク駆動機構のレジスタを再構成することによって、システムから故障したディスク駆動機構を効率よく除去し、且つ故障したディスクからのデータを予備ディスクへと再生もしくは再構成することができる。

−゛イスク　の　とｌ工本発明によって物理的な大容量データ記憶装置のセットを単数又は複数の論理的大容量記憶装置へと動的に構成することができる。本発明に従って、このような物理的装置のセットを単数又は複数個の冗長群として構成することができ、又、各々の冗長群を単数又は複数個のデータ群として構成することができる。

公知の装置のセントで従来から使用されている冗長群は、全てが同じ冗長装置のセットを共用している物理的装置群である。冗長装置は群内の単数又は複数の物理的装置が故障した場合に記憶されたデータを回復するために複製されたデータもしくはディスク・データを記憶する装置である。

チェック・データが含まれている場合は、冗長群全体のための冗長装置としての特定の物理的装置の行き先を指定するには、群内の他の任意の物理的装置を含む全ての書き込み動作用に冗長装置がアクセスされることが必要である。従って、群用の全ての書き込み動作は、データ記憶装置の一部しか含まない小規模なデータ・アクセスの場合でも互いに干渉する。

冗長群を通してチェック・データを配分し、それによって冗長群の幾つかの、又は全ての装置の一部から成る論理冗長装置を形成することによって、書き込み動作における上記のコンテンション問題を回避することは公知である０例えば、図１９は１３のディスク記憶装置の群を示している０列は種々のディスクＤｌ−Ｄ１３を示し、行はディスク上の異なるセクタ５Ｌ−３５を示している。チェック・データを含むセクタには陰影を付しである。ディスク０１３のセクタＳ１はディスクＤＩ−ＤＩ２のセクタ用のチェック・データを含んでいる。同様に、残りの陰影を付したセクタはそれぞれのセクタ行用のチェック・データを含んでいる。このように、データがディスクＤ７のセクタＳ４に書き込まれると、更新されたチェック・データがディスクＤＩＯのセクタＳ４に書き込まれる。これは古いチェック・データを読み込み、新たなデータを用いてこれを再符号化し、新たなディスク・データをディスクに書き込むことによって達成される。この動作は読み込み一修正一書き込みと呼ばれる。同様にして、データがディスクＤｌｌのセクタＳ１に書き込まれる場合は、チェック・データはディスク１３のセクタＳＬへと書き込まれる。書き込みに間して４つのディスクの上記の選択では重複がないので、双方の読み込み一修正一書き込み動作を並行して実行することができる。

図１９に示したように冗長群にチェック・データを配分することはストライプ状のチェック・データ構成として知られている。“ストライプ状の冗長群”という用語はここでは一般にディスク・データが図１９に示すようにストライプ状の構成で配置された冗長群を意味し、又、“冗長群のストライプの奥行き”という用語はここではこのようなストライプ状の冗長群での各チェック・データのストライプの奥行きを意味する。

従来から公知の装置のセントでは、セント全体を単一の冗長群として供給することが知られていた。冗長群を種々の“エクスチンピに分割可能であり、その各々が冗長群の奥行きの一部として定義され、各々が同じ冗長群の別々のエフテントのチェック・データとは異なるチェック・データを有することができることが発見された。更に、単一の“プレイ制御装置”の制御の下で一つ以上の冗長群を単一の装置のセットに供給することができ、且つ単数又は複数個の装置制御器を介して主処理装置に接続できることが発見された。

同様に、従来から公知の装置セットでは、単一の冗長群がアプリチージョン・データ用の単一のデータ群だけを含んでいた。すなわち装置セットは単一の論理装置として動作した。しかし、冗長群を複数のデータ群へと分解でき、その各々が別個の論理記憶装置として、又は容量がより大きい論理記憶装置の一部として動作可能であることが発見された。データ群は単一の物理的装置での利用可能な全ての大容量記憶装置（すなわち、アプリケーション・データを記憶するために利用できる装置上の全ての記憶装置）を含むことができ、又は、冗長群内の複数個の物理的装置での利用可能な全ての大容量記憶装置を含むことができる。あるいは、以下に更に詳細に説明するように、データ群は幾つかの物理的装置を含むことができるが、しかし、各装置の利用できる全ての大容量記憶装置を含むのではなく、各装置の利用できる大容量記憶装置の一部だけを含むこともできる。更に、異なる冗長群からのデータ群によって単一の論理装置を形成することもできることが発見された。これは後に詳述するように、冗長群及びデータ群に付加的な論理層を重ねることによって達成される。

更に、アプリケーション・データが装置のセットに割り込まれる（インタリーブ）従来から公知の装置セットでは、データ編成、すなわち形状は極めて簡単な形式のものである。このようなセットでは一般に、同じ論理装置内での異なるアプリケーション・データの論理編成は不可能であり、又、論理装置内でのアプリケーション・データの論理編成の動的なマンピングは不可能である。データ群内でのデータの編成は多様な方途で動的に構成できることが発見された。特に重要な点は、データ群のデータ・ストライプの奥行きを冗長群のストライプの奥行きとは独立させることができ、且つ、論理装置内の一つのデータ群と別のデータ群でストライプの奥行きを変えることによって、データ記憶の要求が異なるアプリケーション用に最適な性能特性を付与することができることが発見されたことである。

第２レベルの制御装置１４Ａ及び１４Ｂを含む大容量記憶システム５００の実施例が図２０の構成図に示されている０図２０に示すように、並列セット５０１及び５０２はそれぞれ１３個の物理的装置５０３−５１５と第２レベルの制御装置１４とを含んでいる。第２レベル制御装置１４は並列セットの駆動機構にデータが書き込まれ、妥当性の検査がなされる態様を制御するマイクロプロセッサ５１６ａを含んでいる。マイクロプロセッサ５１６ａは更に物理的装置の一つが誤動作するか、又は並列セットの別の物理的装置との同期性を喪失した場合にデータの更新又は再構成の制御を行う０本発明に従って、各第２レベルの制御装置１４内のマイクロプロセッサ５１６ａは更に並列セット５０１と５０２を冗長群と、データ群とアプリケージジン装置とに分割することを制御する。冗長群と、データ群とアプリケーション装置とは並列セットが据え付けられる際に、システムのオペレータによって最初に構成することができ、又は並列セットの実行時間中の使用前の任意の時点で構成することができる。この構成は後に詳述するように、マイクロプロセッサ５１６ａのプログラム記憶装置内の種々のアドレス・マツプを作成する際に使用される特定の構成パラメタを定めることによって、又、好ましくは並列セットの各々の物理的装置において達成可能である。第２レベルの制御装置１４Ａ及び１４Ｂはそれぞれ一対の第ルベルの制御装置１２Ａ及び１２Ｂと接続されている。一方、第ルベルの制御装置は母線又はチャネル５２２によってＣＰＵの主記憶装置に接続されている。一般に、各々の並列セントは少なくとも２セツトの制御装置に取り付けられているので、単数又は複数のＣＰＵ主記憶装置から前記並列セットには少なくとも２つの並列経路がある。このように、例えば第２レベルの制御装置１４ａ及び１４ｂはそれぞれ母線５２４及び５２６によって第ルベルの制御装置１２及び１２Ｂに接続されている。ＣＰＵから並列セットへのこのような並列データ経路は前述のように稼働中の、又は故障した第１又は第２レベルの制御装置の周囲にデータを送ることに有用である。

それぞれの並列セット内にはディスク駆動装置５０３−５１４から成る能動セット５２８と、ディスク駆動機構５１５から成るバックアップ・セットがある。

第２レベル制御装置１４はデータを第ルベル制御装置１２と適宜の単数又は複数のディスク駆動機構５０３−５１５との間に送る。第ルベル制御装置１２は並列セット５０１と５０２を単数又は複数のＣＰＵの主記憶装置へとインタフェースし、これらのＣＰＵによって実行中のアブリケーシッンからのＩ１０要求の処理のために応答する。並列セット５０１及び５０２は第ルベル制御装置１２の装置の種々の構成部品の更に詳細な説明は本明細書に全体が組み込まれている同一の出願人による係属の下記の米国特許明細書に記載されている。すなわち、Ｄａｖｉｄ　Ｔ、　Ｐｏｗｅｒｓ＋　Ｒａｎｄｙ　Ｋａｔｚ、　Ｄａｖｉｄ　Ｈ，Ｊａｆｆｅ、　Ｊｏｓｅｐｈ　ｓ、　Ｇ１１ｄｅｒ及びＴ■盾高≠■ Ｅ、　Ｉｄｌｅｍａｎの名義で出願された［データ記憶装置における書き込み動作識別子の不揮発性記憶装置の記憶域」の名称の米国特許連続出願番号第０７／４８７．６４８号、及び、Ｄａｖｉｄ　Ｔ、　Ｐｏｗｅｒｓ、　Ｊｏｓｅｐｈ　ｓ、　Ｇｌｊｄｅｒ及びＴｈｏｍａｓ　Ｅ、　Ｉｄｌｅｍａｎの名義で出願された「独立ディスクの冗長プレイに応用可能なデータ修正」の名称の米国特許連続出願番号第０７／４８８．７５０号である。

並列セント５０１又は５０２の能動セント５２８の種々の物理的装置間にデータが広がる１１様を理解するためには、単一の駆動機構の形状構成を理解することが必要である０図２１は最も簡単な種類のディスク駆動機構、すなわち単一プラッタ駆動機構の片側を示している。ディスク駆動機構の中には両側にデータを記憶できる単一のディスク状１プラツタ”を有しているものもある。より複雑な駆動機構では、ブラックが周囲を回転する中心の柱である一つの“スピンドル”上に幾つかのプラックがある場合もある。

図２１に示すように、ディスク・プラッタの各々の側面６００は幾何学的角６０１に分割され、図２１にはそのうちの８つが図示されているが、別の数でもよい、側面６００は更に幅がほぼ等しいリング状の“トラック”に分割され、図２１ではそのうちの７つが示されている。トランクと幾何学的角との交差部分はセクタと呼ばれ、一般にディスク駆動システムにおける最も基本的な記憶単位である０図２１には５６のセクタ６０３が示されている。

単一のスピンドル上のディスク・プラッタの幾つかの側面６００上の半径が等しいトラック６０２の集積が“シリンダを構成する。このように、単一プラッタ・２面駆動機構では、高さ−２のシリンダがあり、シリンダ数は側面６００上のトラック６０２の数と等しい、そこで、２プラツタの駆動機構では、シリンダの高さば４となろう１片面・単一プラッタの駆動機構ではシリンダの高さは１である。

ディスク駆動機構は側面６００の表面上を移動する“読み込み／書き込みヘッド “によって読み込まれ、且つ書き込まれる０図２２は本発明を説明するのに適するようにデータのサブユニット−セクタ、トラック及びシリンダーを８個の単一プラッタ・２面駆動機構７００−７０７に配分した状態を示している０例えば駆動機構７００−７０７は並列セット５０２又は５０２の駆動ユニット５０３−５１０に対応する。小さい水平の区分はそれぞれセクタ７０８を表している。各々の駆動機構毎に４個のシリンダ７０９−７１２を示し、各シリンダは２個のトラック７１３及び７１４を含み、各トラックは５個のセクタを含んでいる。

図２２に示した好ましい実施例では、群７１６はデータ冗長度を付与するために ”Ｐ”チェック・データと″Ｑ″チェック・データと呼ばれる２種類の冗長データが使用される単一の冗長群から成っている。Ｐ及びＱチェック・データは冗長群内に記憶された大容量記憶装置のデータに適用されるＲｅｅｄ−５ｏｌｏｓｏｎ符号化アルゴリズムの結果である。使用される冗長度の特定の方法は作成目的によって異なる０図示のとおり、冗長データは群７１６の全てのスピンドル、もしくは物理的装置に配分され、それによって群７１６から成る冗長群用に２つの論理的チェック駆動機構を形成する０例えば、駆動機構７００−７０５のシリンダ７０９のセクタ７０８内のデータ用のＰ及びＱチェック・データはそれぞれ駆動機構７０６及び７０７のシリンダ７０９内に含まれる。駆動機構７００−７０５の任意の一つのシリンダ７０９内の任意のセクタ７０８にデータが書き込まれる毎に、冗長データを更新するために、駆動機構７０６及び７０７の対応するセクタに含まれるＰ及びＱチェ７り・データで読み込み一修正一書き込み動作が実行される。

同様にして、駆動機構７００−７０７のシリンダ７１０は駆動機構７０４及び７０５のシリンダ７１０内に含まれるＰ及びＱチェック・データを共用する。駆動機構７００−７０７のシリンダ７１０は駆動機構７０４及び７０５のシリンダ７１０内に含まれるＰ及びＱチェック・データを共用し、駆動機構７００−７０７のシリンダ７１２は駆動機構７００及び７０１のシリンダ７１２内に含まれるＰ及びＱチェック・データを共用する。

３つのデータ群Ｄｉ−Ｄ３が図２２に示されている。データ群ＤＩは各スピンドル７００．７０１のシリンダ７０９を含んでいる。データ群Ｄ２は各スピンドル７０２．７０３のシリンダ７０９を含んでいる。データ群Ｄ３は、Ｐ及びＱチェック・データを含むシリンダを除いて残りの全ての各スピンドル７００−７０７のシリンダを含んでいる。データ群Ｄ１は２スピンドルの帯域幅を有し、データ群Ｄ２は４スピンドルの帯域幅を有し、データ群Ｄ３は６スピンドルの帯域幅を有している。このように図２２には本発明の原理に従って、冗長群を異なる帯域幅の幾つかのデータ群から構成することができることが示されている。更に、各々のデータ群ＤＩ−Ｄ３は単独で、又は他の任意のデータ群（単数又は複数）と組み合わせて別個の論理記憶装置を構成することができる。これは各データ群又はその組合わせを個々のアブリケーシッン・ユニットとして定義することによって達成される。

図２２ではセクタ７０８は各データ群内で論理データ・ブロックのシーケンスとして番号付けされている。このシーケンスはデータ群が構成されるときに定められ、種々の方法で構成することができる０図２２は各データ群Ｄｉ−Ｄ３内のセクタが左から右へとそれぞれのデータ群の幅と交差するストライプで番号付けされた比較的簡単な構成を示しており、各データ・ストライプは一つのセクタ分の奥行きを有している。このような構成によって所定の帯域幅の各データ群について、連続して番号付けされたセクタの最大の並列伝送速度が可能になる。

“データ群ストライプの奥行き”という用語はここでは、所定のデータ群に関して、このデータ群の単一のストライプの境界内で駆動機構に記憶された論理的に連続したデータ・セクタの数を記述するために用いられる０本発明の原理に従って、データ群のストライプの奥行きは冗長群のストライプの奥行きよりも小さくてもよく、大きくても、等しくてもよい、その−例として、図２２はデータ群ＤＩ−Ｄ３が各々一つのセクタ分のデータ群のストライプの奥行きを有しており、データ群の全てが一つのシリンダ分の冗長群のストライプの奥行きを有する冗長群内に含まれていることを示している。

スピンドルの読み込み／書き込みへノドは互いに独立して移動することができるので、冗長群７１６は６つまでのデータ読み込み要求を同時に（スピンドル７００−７０５の各々から一つずつ）処理することができる０図２２に構成されたような冗長群は更に、書き込み要求の特定の組合せを同時に処理することができる０例えば、多くの場合、スピンドル７００．７０１．７０６又は７０７上のＰ又はＱチェック・データによってバックアップされないスピンドル７０２−７０５に含まれるデータ群Ｄ３の任意のデータ・セクタと同時に、データ群ＤＩの任意のデータ・セクタを書き込むことができる。

図２２のように構成された冗長群７１６は通常はデータ群ＤＩ及びＤ２内のセクタへの同時書き込み動作を処理できないが、これらのデータ群のいずれにおいても書き込み動作を実行するために、駆動機構７０６と７０７にも同様に書き込みすることが必要である。読み込み／書き込みヘッドは一時に一箇所にしかあり得ないので、駆動機［７０６，７０７のチェック・データでは一つの書き込み動作しか実行できない、同様にして、データ群の配分に関わらず、同じ駆動機構上のチェック・データによってバックアップされた任意の２つのデータ・セクタへの書き込み動作は同時には実行できない、チェック駆動機構の読み込み／書き込みヘッドが一時に一箇所以上存在することが必要である状態は“衝突”と呼ばれることがある。

共通のチェック駆動機構を共用する異なるデータ駆動機構への同時書き込みに関する前述の制約はチェック駆動機構システムにｖＰ存のものであり、本発明の限界ではないことを理解されたい０例えば、この制約は異なるデータ駆動機構が同じ駆動機構上の冗長データを共用する特性を有していない反照（ｍｉｒｒｏｒｅｄ）冗長群を用いて本発明を実施することによって回避することができる。

図２３は本発明に従って構成された冗長群７１６の更に好ましい実施例を示している０図２３では、図２２と同様に、論理チェック“駆動機構”はシリンダ毎のベースでスピンドル７００−７０７の全ての間に広がっている。しかし、これらはトラック毎のベースにも、又、セクタ毎のベースにさえも準拠できる。

データ群Ｄｉ及びＤ２は図２２に示すように構成されている。しかし、図２２のデータ群Ｄ３のセクタは４つのデータ群Ｄ４−０７の間で分割されたものである０図２３に示すように、データ群Ｄ４−Ｄ７内のセクタの順序付けはデータ群Ｄ１及びＤ２の単一セクタ分の奥行きのストライビングとはもはや同じではない。

データ群Ｄ４は２０のセクタ分のデータ群ストライプの奥行きを有しており、これはデータ群自体の奥行きと等しい、従って、データ群Ｄ４では単一のスピンドル７００だけをアクセスすることによって論理的に番号付けされたセクタ０−９は連続的に読み込まれることができ、それによって、スピンドル７０１−７０７の読み込み／書き込みヘッドは他のトランザクションを処理することが可能になる。データ群Ｄ５、Ｄ６及びＤ７は各々５つのセクタ、２つのセクタ及び４つのセクタ分のそれぞれ異なる中間データ群ストライプの奥行きの例を示している。

種々のスピンドルへのチェック・データの配分は衝突を最小限にするように選択することができる。更に、特定の配分がなされた場合、第２レベルの制御装置１４が動作順を選択できる範囲内で、この順序を衝突を最小限にするように選択することができる。

並列セット５０１又は５０２の能動セット５２８への冗長群とデータ群の配分はパラメタ化することができる０例えば、冗長群は特定のセットのチェック・データに亘るスピンドル数を表す冗長群の幅（スピンドル単位）と、冗長群の奥行き（任意のサブユニット、すなわちセクタ、トラック又はシリンダ単位）と、冗長群ストライプの奥行き（これも任意のサブユニット、すなわちセクタ、トラック又はシリンダ単位）とによって特徴付けることができる。データ群は輻（スピンドル単位）と、奥行き（任意のサブユニット、すなわちセクタ、トラック又はシリンダ単位）と、データ群ストライブの奥行き（これも任意のサブユニット、すなわちセクタ、トラック又はシリンダ単位）とによって特徴付けることができる。データ群は能動セット５２８の始端でのみ開始するものではないので、データ群は更にスピンドルと、データ群が開始するスピンドルの始端からの偏位との２パラメタ表示である“ベース”によっても特徴付けられる。冗長群はデータ群と同様にスピンドル全体の一部しか含まないこともあり得る。更に、本明細書で前述したように、冗長群は複数のエクステントに分割することができる。冗長群のエクステントは幅が等しく、ベースと奥行きは異なる。各々のエクステントについて、そこに含まれるチェック・データの配分を別個にパラメタ化することができる。好ましい実施例では、各々の冗長群のエクステントは冗長群のエクステント内の各冗長群のストライプや、このような冗長群のストライプ毎のＰ及びＱチェック・データの駆動位置のような付加的な内部パラメタを有している。

冗長群の幅は信頼性と容量との取引きの反映である。冗長群の幅が大きければ、より大きい容量が得られるが、それはチェック・データ用には多数の駆動機構の中から２つだけが利用され、残りの駆動機構はデータ用に残されるからである。

別の極端な例として、冗長群の幅−４である場合は、駆動機構の５０％がチェック・データに利用されるミラーイングもしくはシャドウィング（−ｉｒｒｏｒｉｎｇ　ｏｒｓｈａｄｏｉｉｉｎｇ）に近い状況が生ずる。（ミラーイングの場合、４つのうちの２つの正しい駆動機構が故障した場合、それらの駆動機構のデータの全てが損失されることがあり、一方、チェック・データを用いればいずれか２つのデータをその状況で再生できるのであるが）このように冗長群の幅が小さいことは信頼性が高まるが、コスト単位の容量は小さくなることを表し、一方、冗長群の幅が大きいことはコスト単位の容量は太き（なるが、信頼性は低くなる。しかし、その場合でも信頼性は依然として比較的高い。

データ群の幅は帯域幅と要求速度との前記の取引きの反映であり、データ群の幅が大きくなれば帯域幅が大きくなり、データ群の幅が小さくなれば要求速度が高まる。

データ群の奥行きも帯域幅と要求速度との前記の取引きの反映である。その調整はＩ１０要求の平均サイズと、データ群及びデータ群内のデータ・ストライプの奥行きとの関係によって変化する。平均Ｉ１０要求サイズと、データ群ストライプの奥行きとの関係はデータ群に対するＩ１０要求がどの程度頻繁にデータ群内の一つ以上の読み込み／書き込みヘッドに亘るかを制御する。それは更に帯域幅と要求速度とを制御する。帯域幅が大きいことが望ましい場合は、データ群ストライブの奥行きを、ストライプの奥行きに対する平均Ｉ１０要求サイズの比率が大きくなるように選択することが好ましい、その比率が大きいとＩ１０要求が複数のデータ駆動機構に亘る確率が高まるので、要求されたデータは、データが全て一つの装置上に配された場合よりも大きい帯域幅でアクセスされることができる。一方、高い要求速度が望ましい場合は、データ群ストライプの奥行きを、データ群のストライプの奥行きに対する平均Ｉ１０要求サイズの比率が小さくなるように選択することが好ましい、その比率が小さくなることによって、Ｉ１０要求が一つ以上のデータ駆動機構に亘る確率が少なくなるので、データ群に対する複数のＩ１０要求を同時に処理できる確率が高まる。

■／○要求の平均サイズの変化はデータ群のストライプの奥行きを選択する際にも考慮に入れることができよう０例えば、所定の平均Ｉ１０要求サイズにおいて、所望の要求速度を達成するのに必要なデータ群ストライプの奥行きはＩ１０要求サイズの変化の増大と共に大きくなるであろう。

本発明に従って、複数個の大容量記憶装置から成る大容量記憶装置のフレキシビリティは一つの、又は異なる冗長群からのデータ群を、ここではアブリケーシッン・ユニットと呼ぶ共通の論理装置へと区分することによって更に増強することができる。かくしてこのようなアプリケーション・ユニットはオペレーティング・システムの応用ソフトウェアに種々のデータ群の異なる動作特性を結合する単一の大容量論理記憶装置として出現することができる。更に、このようなアプリケーション・ユニットを使用することによって、応用ソフトウェアにより予期されるいかなる記憶アーキテクチャからも独立して、システムのオペレータによってデータ群と冗長群とを所望のとおりに構成することが可能になる。この付加的なレベルの論理的区分は、冗長群とデータ群の論理レベルと同様に第２レベル制御装置１４によって制御される。

図２４はアブリケーシッン・ユニットと、データ群と冗長群とを並列セットの初期状態で、並列セット５０１又は５０２のような装置のセットにマツピングし得る態様を示している。

先ず論理装置アドレス空間の線形グラフ８００を参照すると、このグラフはＣＰＵオペレーティング・システムの応用ソフトウェアに出現する際の大容量記憶装置を表している０図２４の特定の実施例では、並列セントは２個のアプリケーション（論理）ユニット（ＬＵＮＯ及びＬＵＮＩ）から成る論理ユニットのアドレス空間を供給するように構成された。論理ユニットＬＵＮＯは論理ブロック番号ＬＢＮＯ−ＬＢＮ１９を有する２０個のアドレス指定可能なブロックを含むように構成されている０図２４に示すように、論理ユニットＬＵＮＯは更に動的構成用に反転されるマツピングされない論理アドレス空間８０２をも含んでいる。

動的構成とは並列セットの実行時間中にＣＰＵの応用ソフトウェアが並列セットの構成を初期の構成から変更するように要求できることを意味している０図２４の例では、マツピングされない空間８０２と８０４は論理ユニットＬＵＮＯとＬＵＮＩのそれぞれの内部で各々反転されて、いずれの論理ユニットもオフラインされる必要なく、データ群を各論理ユニットへと加えることができるようにされる。このような動的構成能力は構成の変更を要求するためのＣＰＵアプリケーション用のメツセージ・サービスを提供することによって実現することができる。

大容量記憶システム５００に代わって、メツセージ・サービスは例えば第２レベル制御装置１４によって処理されることができる。論理ユニットＬＵＮＩは複数個のアドレス指定可能なブロックＬＢＮＯ−ＬＢＮ１７９と、ＬＢＮ２００−ＬＢＮ２３９とを含んでいる。論理ブロックＬＢＮ１８０−ＬＢＮ１９９は動的構成用に反転され、並列セットの初期構成では、図２４に示すように応用ソフトウェアには利用できない。

論理ユニットＬＵＮＯの大容量記憶装置のアドレス空間はデータ群アドレス空間図８０６に示すように単一のデータ群Ｄｉから成っている。データ群Ｄ１は図２２に示すように構成され、且つ論理ブロック番号ＬＢＮＯ−ＬＢＮＩ　９と一つ一つ対応する２０の論理的に連続したデータ・ブロック０−１９を含んでいる。

論理ユニットＬＵＮＩは論理ユニッ）ＬＵＮＩの論理ブロックＬＢＮ２００−２３９に対応する０−３９の番号が付された４０のデータ・ブロックと、論理ユニッ）ＬＵＮＩの論理ブロックＬＢＮＯ−１７９に対応する０−１７９の番号が付された１８０のデータ・ブロックとから成る２つのデータ群Ｄ２及びＤ３を含んでいる０図２４の例で示すように、論理ユニットの論理ブロックは種々の方法で所望のとおりに単数又は複数のデータ群のデータ・ブロックへとマツピングすることができる、データ群のアドレス空間８０６も動的構成用に反転された付加的なデータ群（Ｄ４）と（Ｄ５）とを含んでいる。これらのデータ群は初期状態設定又は並列セットの実行時間中の任意の時点で並列セットのディスク駆動装置上で書式化することができるが、並列セットの初期の構成での応用ソフトウェアには利用できない、並列セットの冗長群の構成は並列セットの全体の記憶空間から成る二次元アドレス空間８０８によって示されている。アドレス空間８０８の水平軸は能動セット５２８の１２の駆動機構と、バックアップ・セット５３０の一つの別個の駆動機構とを含む１３個の物理的駆動機構を表している０図２４では、能動セントの駆動機構には並列セット内での論理的位置を反映するためにそれぞれ０−１１の番号が付されている。アドレス空間８０８の垂直軸は各々の物理的駆動機構のセクタを表している。冗長群のアドレス空間８０８によって示されるように、並列セットは３つのエクステントＡ、Ｂ及びＣを有する一つの冗長群ＲＧＯとして構成されている０図示のとおり、各エクステントの奥行きは冗長群ＲＧＯの奥行き、すなわち１２の論理駆動位置又は、別の観点では能動セット５２８の幅全体に等しい。

冗長群ＲＧＯのエクステントＡは駆動機構０−１１のセクタ１−５を含んでいる。このように、冗長群ＲＧＯのエクステントＡは１２のスピンドル分の幅と、５つのセクタ分のエクステントの奥行きを有している０図２４の例では、エクステントＡは大容量記憶システム５００と関連する診断プログラム用の記憶空間として供給されている。このような診断プログラムは実行される特定の診断オペレーションに応じて多くの方法でエクステントＡの記憶空間を構成することができる０診断プログラムは例えば別のエクステントの一部を、アプリケーション・データ及びチェック・データを含めてエクステントＡの境界内で再構成せしめることができる。

冗長群ＲＧＯのエクステントＢは並列セットに記憶された全てのアプリケーション・データを含んでいる。より詳細に述べると、図２４の例ではエクステントＢは図２２のように構成されたデータ群Ｄ１、Ｄ２及びＤ３並びにデータ群（Ｄ４）及び（Ｄ５）用に予約された付加的な記憶空間及びいずれの論理ユニ７）ＬＬＩＮＯ又はＬＵＮＩにもマツピングされない記憶空間の領域８０９とを含んでいる。この領域８０９は例えば別の特定業務で利用される別の論理ユニット（例えばＬＵＮ２）へとマツピングされることができる。

アドレス空間８０８は更に第２＃断フイールドを配することができる第３のエクステントＣを含んでいる。並列セットは単一の冗長群ＲＧＯだけを含んでいるものとして示されているが、代案として並列セットを一つ以上の冗長群へと分割することもできる０例えば、冗長群ＲＧＯを図２２及び図２３に示すような論理駆動位置０−７を含む８つのスピンドル分の幅に限定することができ、第２冗長群を論理駆動位置８−１１用に備えることができよう。

更に並列セットの奥行き全体が必ずしも冗長群Ｒ（１，０内に含まれる必要はない図２４は上と下の冗長群ＲＧＯが冗長群に含まれない記憶空間８０８の部分８１０及び８１１であることを示している０図２４の例では、部分８１０と８１１は並列セットの構成を反映するデータ構造を含んでいる。これらのデータ構造は図２５に関連して後に詳述する。更に、図２４の領域り及び已によって示される部分のようなエクステントＡ、Ｂ及びＣのセット間の記憶空間の任意の分を冗長群ＲＧＯから除外してもよい。

図２４は論理位置０内の駆動機構の物理的アドレス空間の直線的な表現を示すグラフ８１２をも含んでいる。グラフ８１２は線ｏ’　−ｏ“に沿ったアドレス空間表８１０の断面図を表しており、且つ図２４の並列セット構造の例で実施された本発明の種々の論理レベルの相互の関係を示している。

前述したように、並列セットは据え付けの時点及び並列セットの実行時間中の双方又は一方の時点でオペレータによって初期状態に構成されることができる。

オペレータは先ず各々のユニット毎の容量、性能及び冗長度の要求を定めることによって、オペレータが使用したいアプリケ−シロン・ユニットを様式化し、構成する。この点については本明細書で前述したとおりである。容量、性能及び冗長度の要求が定められると、各々の論理層（冗長群の層、データ群の層及びアプリケーション・ユニットの層）毎のパラメタを定義することによって、ユニットの論理構造を指定することができる。これらのパラメタは第２レベルの制御装置１４のプロセッサ５１６ａによって実行される構成ユーティリティ・プログラムに付与される。構成ユーティリティは記憶装置にある並列セット用の構成情報のデータヘースを管理する。並列セットに影響する電力の故障が生した場合に情報が損失することを防止するため、このデータベース内報のコピーを不揮発性記憶装置内に保存しておくことが好ましい、プロセッサ５１６ａによって実行される様式ユーティリティ・プログラムは、並列セットの物理的駆動機構をオペレータの命令どおりに様式化する際に、このデータベース内の情報を入力パラメタとして利用する。

構成データヘースによって定義された基本パラメタには次のものが含まれることが好ましい。

１）各冗長群用形式　：ミラード型（Ｍｉｒｒｏｒｅｄ）　；２チ工ツク駆動機構；１チ工ツク駆動機構；チェックなしの駆動機構；幅　：冗長群内のスピンドル数としての論理駆動位置の数エクステントサイズ　：冗長群の各エクステント毎の、セクタ単位のエクステントのサイズ（奥行き）エクステントベース　：冗長群の各エクステント毎の、エクステント内の第１セクタの物理層アドレスストライプの奥行き　コインタリープされたチェック駆動群毎の、チェック・データのストライプのセクタの奥行き、駆動機構　：冗長群に含まれる物理的駆動機構の識別名前　：各冗長群は大容量記憶システム５００に亘って独自の名前を有している。

２）各データ群用ベース　：冗長群内のデータ群の第１駆動位置である冗長群内の駆動位置の指標（論理駆動数）幅　：データ群内の駆動位置（論理駆動）の数これはデータ群のアドレス空間内に亘るセクタ数である。

開始　：データ群の長方形がベース・パラメタによって特定される論理駆動位置で始まる冗長群エクステント内の、セクタ単位のオフセット奥行き　：冗長群エクステント内の、データ群の縦列内のセクタ数、奥行きと幅は共に、図２２−２４に示した各データ群によって形成された長方形の側部と頂部のそれぞれの寸法である。

冗長群　：データ群が所属する冗長群の名前エクステント番号　：データ群が内部にあるエクステントを識別する名前又は番号指標　：構成ユーティリティはその冗長群内で独自の番号を各データ群に割り当てる。この番号は後に様式ユーティリティ用に、実行時間で、データ群を識別するために利用される。

奥行き　：データ群内の各ストライプ内の論理的に連続するブロックの、セクタ単位の奥行き３）各アプリケーション・ユニット用サイズ　：セクタ単位のサイズデータ群リスト：ユニット・アドレス空間内のデータ群及びそれらのサイズ及び順序、及び各データ群のベース・ユニット・アドレスのリスト。

各群はそれが位置する冗長群の名前及びその指標によって識別される。

図２５は並列セット５０１又は５０２のような装置セットの構成データベースを作成する際に利用できる前述のパラメタを含むデータ構造の例を示している。

これらのデータ構造はそれらが採用される特定の装置セットに適合するように所望どおりに変更することができる０例えば、以下に説明するデータ構造では特定の装置セットでは使用しなくてもよい多くのオプシツンが可能であり、このような場合はデータ構造を簡略にしてもよい。

構成データベースには並列セントを基準にする各アプリケーション・ユニット用の個々のユニット制御ブロック（ＵＣＢ）を含んでいる。（ユニットは一つ以上の並列セットへとマツピングできる。）これらのＵＣＢは連結されたりスト９００内で相互に結合される。各ＵＣＢはこのＵＣＢによって設定されるアプリケーション・ユニットの数を特定するＡＰＰＬＩＣＡＴＩＯＮ　ＵＮＩＴ　＃のラベルを付された欄を含んでいる。或いは、連結リスト９００内のＵＣＢは連結リスト９００又はマイクロプロセッサ５１６ａのプログラム記憶装置内の別のデータ構造内に含まれるアドレス・ポインタ表によって識別することもできよう、各ＵＣＢは更に特定のアプリケーション・ユニット内に含まれるデータ群のマツプ９０１を含んでいる。データ群マツプ９０１はアプリケーション・ユニット内のデータ群の数を定義するカウント欄９０２と、アプリケーション・ユニットのサイズをセクタ単位で定義するサイズ欄９０４と、アプリケーション・ユニットの線形アドレス空間が連続的（相対アドレス指定）であるか、不連続（絶対アドレス指定）であるかを定義する形式［９０６とを含んでいる。不連続のアドレス空間はアプリケーション・ユニットの一部を図２２のデータ群（Ｄ４）及び（Ｄ５）に関連して前述したように、動的構成用に反転できるようにするために利用される。

データ群マツプ９０１は更にアプリケーション・ユニット内の各データ群毎のデータ群マツピング・エレメント９０８を含んでいる。各々のデータ群マツピング・エレメント９０８は対応するデータ群のサイズをセクタで定義するサイズ欄９１０と、データ群リスト９１６内の記述子へのポインタ９１２と、アレイ制御ブロック７２０へのポインタ７１８と、指標欄７２１とを含んでいる。データ群マツピング・エレメント９０８は各データ群のデータ・ブロックがアプリケーション・ユニットのＬＢＨへとマツプする順序でリストされている０例えば、図２４のＬＵＮＩを参照すると、データ群Ｄ３用のマツピング・エレメントはデータ群Ｄ２用のデータ群マツピング・エレメントの前にリストされよう０図２４のＬＵＮＩの場合のように、アプリケーション・ユニットのアドレス空間が不連続である場合は、データ群マツプ９０１は利用できるＬＢＮの範囲の間のギャップに対応し、そのサイズを識別するマツピング・エレメントを含むことができる。

データ群リスト９１６は並列セット内の各データ群用の記述子ブロック９１４を含んでおり、各データ群をそれが位置する冗長群及び冗長群エクステントへとマツピングするためのパラメタを供給する。データ群リスト９１６はリスト内の記述子ブロックの数を識別するカウント欄７１７を含んでいる。ストライプ状のチェック・データ構造を有する冗長群の場合は、各データ群記述子ブロック９１４は第１のデータ・ブロックを含む冗長群ストライプ用のチェック・データの始まりからのデータ群の第１のデータ・ブロックの偏位を定義する“ｐｇｄｅ１″欄７２２を含むことができる。ｐｇｄｅｌ欄７２２の値はデータ群の第１データ・ブロックがその上に構成される駆動機構及び、その第１データ・ブロックを含む冗長群ストライブ用の対応するチェック・データ駆動機構の相対位置に応じて、正でも負でもよい、この値はＩ１０動作中にチェック・データの位置を定める際に第２レベルの制御装置を支援するのに有用である。

各データ群記述子ブロック９１４は更に指標４１７２３（指標欄７２１と同じ値）と、幅ＷＡ７２４と、ベースＷＡ７２６と、エクステント番号欄７２７と、開始種７２８と、奥行き４１１１７３０と、データ群ストライプの奥行き欄７３１と、冗長群名前８１１７３２とを含んでおり、これらの欄はそれぞれ前述の対応するパラメタの値を定義する。

アレイ制御ブロック７２０は並列セットから成る駆動機構の物理的アドレス空間に対して並列セットの冗長群のマツプを行う、プレイ制御ブロック７２０はアレイ名前欄７３４と、並列セットの目下の構成を独自に識別する単数又は複数の欄７３５を含んでいる。アレイ制御ブロック７２０は更に冗長群記述子ブロック７３６をも含んでいる。各冗長群記述子ブロック７３６は記述子ブロックに対応する冗長群を識別する冗長群名前欄７３８と、冗長群幅欄７４０と、冗長群エクステント・マツプ７４２とを含んでいる。アレイ制御ブロック７２０は更に、物理的駆動機構識別子ブロック７４５を含んでいる。

冗長群内の各エクステント毎に、冗長群エクステント・マツプ７４２はエクステントを並列セットの記憶空間内の対応する物理的アドレスへとマツプし、エクステント内の冗長情報の構成を定義するパラメタを含むエクステント記述子ブロック７４６を含んでいる。−例としてエクステント記述子ブロックが図２４の冗長群ＲＧＯの３つのエクステント用に示されており、各エクステント記述子ブロックはエクステント番号欄７４７と、対応するエクステントの物理的アドレスを定義するベース及びサイズ欄とを含んでいる。応用データのベース及びサイズ欄７４８と７５０はそれぞれ冗長群ＲＧＯのエクステントＢのベース及びサイズに対応する。＃断（低）ベース及びサイズｗ７５２及び７５４はそれぞれ冗長群ＲＧＯのエクステントＡのベース及びサイズに対応する。又、診断（高）ベース及びサイズｗ７５６及び７５８はそれぞれ冗長群ＲＧＯのエクステントＣのベース及びサイズに対応する。

各々のエクステント記述子ブロック７４６は更にエクステント内で実現される冗長度の形式を定義する形式！１１７６０を含んでいる０例えば、冗長群のエクステントはエクステント内のデータ群（単数又は複数）内に記憶された大容量記憶装置のデータをミラーイング又はシャドウィングすることによって作成することができる。（この場合は、エクステントは等しい数のデータ駆動機構と冗長駆動機構を有する。）あるいは、Ｒｅｅｄ−３ｏｌｏｓｏｎの符号化アルゴリズムを用いてエクステント内の各冗長群ストライブ用の一つの駆動機構でチェック・データを生成してもよく、又は、更に洗練された１１６６ｄ４ｏ１ｏｓｏｎの符号化アルゴリズムを用いて各冗長群ストライプ用のチェック・データの２つの駆動機構を作成することもできる。

形式ｗ７６０は更にチェック・データがエクステントを通してストライプ状に構成されるべきであるか、又、それをどのようにスタッガ（互い違いにずらして配列する）するかを指定することもできる。（例えば、形成槽はエクステント内の第１の冗長群ストライプ用のチェック・データが冗長群の２つの数値上置も高い論理駆動位置上に配されるパターンや、エクステント内の第２の冗長群ストライプ用のチェック・データが次の２つの数値上置も高い論理駆動位置に配されるパターン等の一連の標準化されたチェック・データ・パターンを指標付けすることができよう、）更に別の方法としては、形成槽７６０は冗長群のエクステントの初期の構成にチェック駆動機構が含まれていないことを表示する。これは例えば、冗長群のエクステントが診断プログラムによって利用されるために作成された場合に望ましい、この形式の冗長群エクステントは図２４に示した冗長群ＲＧＯのエクステントＡに関連して前述した通りである。

各エクステント記述子ブロック７４６は更に、適切であるならばエクステント内の冗長群ストライプの奥行きを特定するための冗長群ストライプの奥行き欄７６２を含むことができる。

物理的駆動機構識別子ブロック７４５のリストア４４は並列セット内の各物理的駆動機構用の識別子ブロック７４５を含んでいる。各識別子ブロック７４５は物理的駆動機構と、その現在の動作状態に関する情報を提供し、且つ、特に、対応する物理的駆動機構の並列セット内の論理位置を定義するための単数又は複数の［７６４を含んでいる。

図２５の種々のデータ構造の意図する機能を簡単に要約するために、連結リスト９００のユニット制御ブロックは並列セット内のデータ群に対するアプリケーション・ユニットのマツピングを定義する。冗長群へのデータ群のマツピングはデータ群リスト９１６によって定義され、並列セットの記憶装置の物理的アドレス空間への冗長群のマツピングはアレイ制御ブロック７２０によって定義される。

並列セントの各物理的ディスクが様式化ユーティリティによって様式化されるとき、アレイ制御ブロック７２０と、連結リスト９００とデータ群リスト９１６のコピーが駆動機構上に記憶される。この情報は故障した駆動機構の再構成のような種々のオペレーシッンに有用である。構成データベースのコピーは更に、例えば一つの並列セットが故障した場合、別の並列セットがそれに代わって用意されるように、別の並列セットの制御装置へと書き込むことができる。

並列セットへのそれぞれのＩ１０要求中に、ユニット・アドレスから物理的アドレス空間へのマツピングが行われなければならない、マツピングとは下記のように変換するための、構成データベースの吟味である。すなわち（１）Ｉ１０要求で指定されたユニット論理アドレスから一連のデータ群アドレス・スパンへの変換、（２）一連のデータ群アドレス・スパンから、冗長群内の論理駆動位置のアドレス・スパンのセントへの変換、及び（３）論理駆動位置のアドレス・スパンのセットから実際の物理的駆動機構のアドレス・スパンへの変換である。このマツピング・プロセスは各々のＩ１０要求に応答して構成データベースのデータ構造を通して■１０要求サーバ一段階を経ることによって行うことができる。或いは、並列セットの初期状態設定中に、構成ユーティリティは前述のような構成データベースの作成に加えて、各データ群に独自の急速マツピング機能を実行するためのＩ１０要求サーバーのためのサブルーチンを生成することができる。ｉ１０要求サーバーがマフピング動作を行う特定の態様はその作成様式によって特有であり、ここに説明する本発明に従ってＩ１０要求サーバを作成することは当業者には可能であるものと考えられる。

以下に述べるのは、アブリケーシッンＩ１０要求の論理ユニットのアドレス・スパンから並列セットの物理的アドレス空間内のスパン（単数又は複数）へとマツプするために、Ｉ１０要求サーバーが図２５のデータ構造を利用するＢ樟の例である。論理ユニットのアドレス・スパンは論理アプリケーション・ユニット番号及びこのアプリケーション・ユニット内の単数又は複数のＬＢＮによって定義されるものと想定しである。

Ｉ１０要求サーバはＩ１０要求からアドレス指定されているアプリケーション・ユニットを判定し、このアプリケージクン・ユニットが並列セントを基準にしているかどうかを判定する。後者の判定はＩ１０要求のＡＰＰＬＩＣＡＴＩＯＮ　ＵＮＩＴ　＃と対応するＡＰＰＬＩＣＡＴＩＯＮ　ＵＮＩＴ　＃を有するＵＣＢについて結合リスト９００を吟味することによって行うことができる。適宜のＵＣＢが配されている場合は、Ｉ１０要求サーバは次にＩ１０要求で指定されているＬＢＨ（単数又は複数）から、これらのＬＢＨ（単数又は複数）に対応するデータブロック（単数又は複数）が配されているデータ群（単数又は複数）を判定する。これは（アプリケーション・ユニットのアドレス空間内のギャップを含めた）アプリケーション・ユニットのアドレス空間の始まりからのサイズ欄の偏位を考慮しつつ、ＬＢＨ（単数又は複数）をデータ群マツプ９０１内のマツピング・エレメントのサイズ４１９１０と比較することによって達成可能である０例えば、マツプ９０１内の第１のデータ群マツピング・エレメントのサイズ値がＩ１０要求のＬＢＮ（単数又は複数）よりも大きい場合は、ＬＢＮ　（単数又は複数）はそのデータ群内のデータブロックに対応することが判る。そうではない場合は、その第１マツピング・エレメントのサイズ値がマツプ９０１内の次のデータ群マツピング・エレメントのサイズ値に加算され、ＬＢＮ　（単数又は複数）が加算結果に対してチェックされる。このプロセスはＩ１０要求の各ＬＢＨ毎にデータ群が特定されるまで反復される。

適宜のデータ群（単数又は複数）を特定し終わると、Ｉ１０要求サーバは１１０要求内のＬＢＮのスパンを特定されたデータ群（単数又は複数）内の対応するデータ・ブロック番号の単−又は複数のスパンへと変換する０次に構成ユーティリティは指標欄９２１の値と、特定されたデータ群に対応する各マツピング・エレメント９０８内のポインタ９１２とを利用して、データ群記述子ブロック９１４をそのデータ群用のデータ群リスト９１６へと配置することができる。■１０要求サーバはデータ・ブロック番号の各スパンを論理駆動装置のアドレスのスパンへと変換するためにデータ群記述子ブロックのパラメタを利用する。

最初に、Ｉ１０要求サーバはデータ群記述子ブロック９１４のベース［１７２６からのデータ群の始端の論理駆動基地を判定する。Ｉ１０要求サーバは更に欄７３２及び７２７から、データ群が位置している冗長群の名前とエクステント番号を判定し、更に、開始１１１７２Ｂから、その冗長群のエクステントの始端とデータ群の始端との間のベース９１２６内で特定された駆動機構上のセクタ数を判定する。このように、例えばＩ１０要求サーバが図２４に示すように構成されたデータ群Ｄ３について記述子ブロックを読み込んでいる場合は、ベース１１７２６はデータ群が論理駆動位置Ｏから始まることを示し、冗長群名前欄７３２はデータ群が冗長群ＲＧＯ内にあることを示し、エクステント欄７２７はデータ群がエクステントＢ内にあることを示し、開始種７２８はエクステントＢの始端とデータ群Ｄ３の最初のデータ・ブロックとの間に論理駆動位置０上の１０のセクタ分の偏位があることを示す。

データ群の最初のデータ・ブロックの論理駆動位置とエクステントの偏位が判明することによって、Ｉ１０要求サーバは次に、Ｉ１０要求のＬＢＨに対応するデータ群内のデータ・ブロックの各シーケンス毎の論理駆動位置とエクステントの偏位とを判定する。これを行うため、Ｉ１０要求サーバは幅ｗ７２４と、奥行き欄７３０と、データ群ストライブの奥行きｗ７３１の値を利用できる。データ群の長方形の境界内にチェック・データが含まれている場合は、データ・ブロックの論理駆動位置と、エクステントの偏位したアドレス・スパンを判定する際に、必要ならばチェック・データの位置が考慮される。これはアレイ制御ブロック７２０からの情報を用いて行うことができる。更に詳細に述べると、Ｉ１０要求サーバは適宜の冗長群エクステント記述子ブロック７４６の形式欄７６０と、冗長群ストライブ奥行き欄７６２とを吟味することによって、データ群の境界内の任意のチェック・データの論理駆動位置とエクステント偏位とを判定することができる。（Ｉ１０要求サーバはデータ群の記述子ブロック９１４内の対応するエクステント番号欄７２７と適合するエクステント番号欄７４７を有するエクステント記述子ブロック７４６を発見することによって、どのエクステント記述子ブロック７４６が適切であるかを判定する。）それぞれの論理駆動位置とエクステント偏位アドレス・スパンとを並列セットの特定の物理的駆動機構上の物理的アドレス・スパンに変換することによって、Ｉ１０要求サーバは物理的駆動機構識別子ブロック７４５を読み込んで、識別された論理駆動位置に対応する物理的駆動機構を判定する。■１０要求サーバは更にエクステントの始端の駆動機構上の物理的アドレスを供給する、アレイ制御ブロック７２０の適宜のエクステント記述子ブロック７４６のベースｆｉｌ（例えばアプリケーション・ベース４ｉ１７５２）をも読み込む、前述のエクステント偏位アドレス・スパンを利用して、Ｉ１０要求サーバは次に各々の物理的駆動機構について、識別されたエクステント偏位アドレス・スパンに対応する物理的アドレスのスパンを判定する。

並列セットの動作中に単数又は複数の物理的駆動機構が取り外されたり、故障したりして、消失又は故障した駆動機構を予備の駆動機構で再構成しなければならないことがあり得る。このような場合は、新たな駆動機構用に考慮し、且つ消失又は故障した駆動機構からのデータが再生され、予備で再構成される間の再構成期間で実行されるべきセットの暫定的な変更を考慮するようにセットの構成を変更しなければならない、構成データベースのパラメタを再定義することによってセット構成を再マツプするために構成ユーティリティを利用できることに留意されたい。

一般に、本発明に関連する当業者には、本発明の趣旨と範囲から逸脱することなく、本発明の構造上の多くの変更と、広く異なる実施例及び用途が示唆されるものである０例えば、システムではより多数の第２レベルの制御装置と第ルベルの制御装置を実施することができる。更地、第２レベル制御装置をディスク駆動機構に接続する開閉回路の構造を変更して、異なる駆動機構が異なる第２レベル制御装置の主要な責任になるようにすることもできる。従って、本発明の開示内容と説明は純然たる説明目的であり、如何なる意味でも本発明を限定するものではない０本発明の範囲は添付の特許請求の範囲に記載する通りである。

区匡旦箇車鼠瓜咀図１は、従来技術のディスク・アレイ・システを示すブロック図である。

図２は、エラー・チェック及び訂正ブロックを伴う従来技術のディスク・アレイ・システムを示すブロック図である。

図３は、本発明のシステム全体の好適な実施例を示す図である。

図４は、ディスク駆動機構の集合内のスイッチとディスク駆動機構との相互接続を含む、図３の挿絵を一層詳しく示す図である。

図５は、コントローラとスイッチとの間の配線のブロック図である。

図６は、図５に示されているスイッチング機能制御回路を略図示するブロック図である。

図７は、特定の第２レベルのコントローラの種々の可能な状態を示す回復状態移行図である。

図８Ａ〜８■は、図７に示されている状態の各々の間の移行の際に起こる事象を示す。

図９は、Ｘバー回路の一つの好適な実施例のブロック図である。

図］０は、エラー・チェック及び訂正回路の好適な実施例のブロッ、グ図である。

図１１は、Ｘバー・スイッチと図１０に示されているＡＣＣとの詳細なブロック図である。

図１２ａ及び１２ｂは、Ｐ及びＱエラー検出項を計算するのに必要な論理動作を示す。

図１３ａ及び１３ｂは、本発明の一実施例においてリード・ソロモンのコードワードがどの樟にして形成され記憶されるかを示す。

図１４ａ及び１４ｂは、ＡＣＣにおける奇遇性検出回路と奇遇性生成回路とを示す。

図１５．１６．１７、及び１８は、それぞれ、トランザクション・モード通常読み出し、トランザクション・モード故障駆動機構読み出し、トランザクション・モード読み出し一修正一書き込み・読み出し及びトランザクション・モード読み出し一修正一書き込み・書き込みの際のデータの流れを示す。

図］９はディスク駆動機構の集合の略図であり、ここでチェック・データは、公知の方法に従って該集合中の駆動機構に分配される。

図２０は、本発明に用いるのに通した大量記憶システムの略図である。

図２１は、磁気ディスクの表面上でのデータの分配の略図である。

図２２は、本発明による冗長グループの第１の好適な実施例におけるデータの分配の略図である。

図２３は、本発明による冗長グループの第２の、より特別な好適な実施例におけるデータの分配の略図である。

図２４は、本発明の原理に従って装置集合の記憶空間をどの様に構成出来るかを示す図である。

図２５は、本発明の論理レベル間でのマツピングのためのデータ構造の代表的実施例の図である。

ＦＩＧ、−１，（ＦＫＩＯＲＡＫＴ）ＦＩＧ、３゜ＦＩＧ、−４゜ビｂ牲−？ＦＩＧ、ｉＡ。

ＦＩＧ、−８Ｅｌ。

ＦＩＧ、−８Ｅ。

Ｓ　ゝ５℃−８θ Ｆ／に、、８ＧＦＩＧ、−９゜外部コンピュータへＦＩＧ、ＪＯ。

ワードアセンブラへＦＩＧ、ムＦＩＧ、−１５、％−五ｌωＯＲ６，δ ＦＩＧ　２２゜物理グループＦＩＧ、　２ｉ［Ｕ叩　論理装置配列制御ブロック手続補正書（方式）％式％２、発明の名称　ディスク・アレイ・システム３、補正をする者事件との関係　出　願　人５、補正命令の日付　平成５年４月２０日６、補正の対象（１）特許法第１８４条の５第１項の規定による書面の特許

Claims

【特許請求の範囲】

１．外部の出所から受信されたデータを記憶するシステムであって、その外部出所との間のデータの流れを制御する少なくとも二つの制御手段を備えており、少なくとも二つの制御手段に接続された複数の記憶手段を備えており、前記記憶手段はグループに分けられており、記憶手段の特定のグループに接続された第１制御手段が故障した場合には前記の特定のグループの制御が第２制御手段により引き受けられることとなる様に端グループは前記制御手段のうちの少なくとも二つによって制御され、少なくとも二つの制御手段に接続されて、データを、前記記憶手段のグループにわたって書き込まれるべきデータ・ブロックに分解する複数のデータ処理手段を備えており、前記制御手段及び前記記憶手段に接続されて、選択されたエラー・コードを使って該外部出所から受信されたデータに基づいて記憶手段の各グループについて少なくとも一つのエラー検出項を計算すると共に、エラーを検出するために前記エラー検出項をデータと比較するべく提供するエラー検出手段を備えており、前記エラー検出手段は、前記制御手段の各々に接続されて前記制御手段からデータを受信すると共に前記エラー検出項を記憶手段の前記グループの中のエラー・コード記憶手段に送信することを特徴とするシステム。
２．前記データ処理手段は、前記制御手段から受信された前記データ・ブロックを組み立てる組立手段を更に包含することを特徴とする請求の範囲第１項に記載のシステム。
３．第１バス及び前記制御手段に接続されて、該システムに送受信されるデータを緩衝記憶する複数のバッファー手段を更に備えることを特徴とする請求の範囲第１項に記載のシステム。
４．前記制御手段は、各記憶手段及び各バッファー手段の両方に接続されて、随意の前記記憶手段と随意の前記バッファー手段との間の切替え可能な制御を行う複数のスイッチング手段と、各スイッチング手段に接続されて、データが選択されたバッファー手段から選択された記憶手段に流れるのを許すと共に前記の選択された記憶手段から前記の選択されたバッファー手段へ流れるのを許すべく前記スイッチング手段を制御するスイッチ制御手段とを更に備えることを特徴とする請求の範囲第３項に記載のシステム。
５．前記エラー検出手段に接続されて、前記データがいずれかの前記バッファー手段から前記記憶手段へ前記スイッチング手段を通して送信されるときに、又は前記記憶手段から前記バッファー手段へ前記スイッチング手段を通して送信されるときに、データの中のエラーを訂正するエラー訂正手段を更に備えることを特徴とする請求の範囲第３項に記載のシステム。
６．該エラー検出手段は、前記バッファー手段及び前記記憶手段から受信された前記データ中のエラーを検出するためにリード・ソロモン・エラー・コードを使うことを特徴とする請求の範囲第３項に記載のシステム。
７．前記エラー検出手段に接続されて、前記エラー検出手段からの前記エラー検出項の受信に応じて、誤ったデータを送信する該システム記憶手段及びバッファー手段から分離するための分離手段を更に備えることを特徴とする請求の範囲第３項に記載のシステム。
８．前記エラー検出手段は、随意の選択されたバッファー手段から随意の選択された記憶手段へ、及び、随意の選択された記憶手段から随意の選択されたバッファー手段へ、データを経路指定することを特徴とする請求の範囲第３項に記載のシステム。
９．前記の複数の記憶手段は、外部出所からのデータを記憶するデータ記憶手段の第１グループと、前記エラー検出手段により生成されたＥＣＣデータを記憶するエラー・チェック及び訂正（ＥＣＣ）記憶手段の第２グループとから成ることを特徴とする請求の範囲第１項に記載のシステム。
１０．前記複数の記憶手段の各々は、データと、エラー・チェック及び訂正（ＥＣＣ）データとを所定のパターンで記憶することを特徴とする請求の範囲第１項に記載のシステム。
１１．前記複数の制御手段の各々は、該外部出所との入出力記憶通信を処理する複数の第１レベル手段と、前記複数の第１レベル手段の各々と少なくとも一つのパートナー第２レベル手段とに接続されて、前記第１レベル手段から前記記憶手段の主グループの各々へのデータ経路を提供すると共に、前記記憶手段の二次グループヘのデータ経路を提供する、複数の第２レベル手段とから成ることを特赦とする請求の範囲第１項に記載のシステム。
１２．以前は主として前記の少なくとも一つのパートナー第２レベル手段により制御されていた前記記憶手段の二次グループヘのデータ経路を提供することにより故障が前記パートナー第２レベル手段に発生した場合に前記複数の記憶手段の特定の諭理構成を該外部出所に対して明白なものに維持するべく前記複数の第２レベル手段の各々は構成されていることを特徴とする請求の範囲第１１項に記載のシステム。
１３．前記第２レベル手段の一つが故障したときに、前記一つの第２レベル手段が他の第２レベル手段に故障が発生したことを知らせて、以前は主として前記一つの第２レベル手段により制御されていた記憶手段の部分集合の主制御を前記他の第２レベル手段が引き受けることが出来る様に前記複数の第２レベル手段の各々の間に接続された第１通信ラインを更に備えることを特徴とする請求の範囲第１１項に記載のシステム。
１４．前記複数の第２レベル手段と前記複数の記憶手段との間に接続されて、故障時に第１の第２レベル手段から第２の第２レベル手段へコントロールを移すスイッチング機能を更に備えることを特徴とする請求の範囲第１１項に記載のシステム。
１５．各第２レベル手段は、前記第１レベル手段と前記少なくとも一つのパートナー第２レベル手段との間で信号を送受信する第２レベル手段回復システムを更に備えることを特徴とする請求の範囲第１１項に記載のシステム。
１６．各第２レベル手段は、前記第２レベルのコントローラを数個の状態に維持することの出来る状態マシンを更に備えており、各状態は、前記第２レベル手段が特定の記憶手段を制御するシステム構成を表すことを特徴とする請求の範囲第１１項に記載のシステム。
１７．前記複数の記憶手段は作用的に相互に接続されて第１諭理レベルでは複数の冗長グループとして機能し、前記冗長グループの各々は第２諭理レベルで少なくとも一つのデータ・グループを含み、各データ・グループは独立の諭理記憶装置として動作することが出来ることを特徴とする請求の範囲第１項に記載のシステム。
１８．各冗長グループは複数のデータ・グループから成ることを特徴とする請求の範囲第１７項に記載のシステム。
１９．第３諭理レベルを更に備えており、複数の冗長グループのうちの少なくとも二つの各々からの少なくとも一つのデータ・グループが組み合わされて単一の論理大量データ記憶装置を形成することを特徴とする請求の範囲第１７項に記載のシステム。
２０．該複数の冗長グループのうちの少なくとも一つについてエラー検出及び訂正コードによって冗長性が提供され、そのコード・ワードは、少なくとも一つの冗長グループに包含される少なくとも一つのチェック騒動機構に記憶されることを特徴とする請求の範囲第１７項に記載のシステム。
２１．その少なくとも一つのチェック駆動機構の各々は特定の記憶手段であることを特徴とする請求の範囲第２０項に記載のシステム。
２２．少なくとも一つのチェフク・駆動機構の各々は、複数の前記記憶手段の部分から成る論理大量記憶装置であることを特徴とする請求の範囲第２０項に記載のシステム。
２３．複数の冗長グループのうちの少なくとも一つについて冗長性がミラーリング（ｍｉｒｒｏｒｉｎｇ）により提供されることを特徴とする請求の範囲第１７項に記載のシステム。
２４．該冗長グループに含まれる少なくとも一つの冗長大量記憶手段に冗長性データが記憶されることを特徴とする請求の範囲第１７項に記載のシステム。
２５．外部出所との通信のための少なくとも二つの制御手段と複数の記憶手段とを含み、その制御手段のうちの少なくとも二つが該記憶手段の各々に接続されているシステムにおいて、該外部出所から受信されたデータを記憶させる方法であって、該外部出所からデータを受信するステップと、その複数の記憶手段をグループに構成するステップであって、該制御手段のうちの一つが故障した場合には各グループの該記憶手段が該制御手段の他の一つを通じてアクセス可能となる様に各グループは最初は該制御手段のうちの少なくとも二つによって制御される様になっているステップと、データを、前記複数の記憶手段に書き込まれるべきデータ・ブロックのグループに分解するステップと、選択されたエラー・コードを使って前記データから少なくとも一つのエラー検出項を計算するステップと、前記データ・ブロックを記憶手段の前記グループのうちの第１のものに記憶させるステップと、前記の少なくとも一つのエラー検出項を記憶手段の前記グループのうちの前記の第１のものに記憶させるステップとから成ることを特徴とする方法。
２６．記憶手段の前記グループのうちの前記第１のものから前記データ・ブロックを検索し、選択されたエラー・コードを使って前記データ・ブロックからチェック・エラー検出項を計算し、記憶手段の前記グループのうちの前記の第１のものから前記の少なくとも一つのエラー検出項を検索し、前記チェック・エラー検出項を前記の少なくとも一つのエラー検出項と比較して前記データが漬れていないことを判定するステップを更に備えることを特徴とする請求の範囲第２５項に記載の方法。
２７．前記データが漬れていると判定されたならば前記データを訂正するステップを更に備えることを特徴とする請求の範囲第２６項に記載の方法。
２８．前記データ・ブロックを、それが該外部出所から受信された形に組み立てるステップを更に備えることを特徴とする請求の範囲第２６項に記載の方法。
２９．前記の構成するステップは、前記データ・ブロックが該制御手段と該記憶手段との間で所定のパターンで送られるのを許すべく複数のスイッチング手段をセットするステップを更に備えることを特徴とする請求の範囲第２５項に記載の方法。
３０．前記データが漬れていると判定されたならば、前記データが記憶された特定の記憶手段を分離するステップを更に備えることを特徴とする請求の範囲第２５項に記載の方法。
３１．前記制御手段内の第１の第２レベルのコントローラの故障を検出し、以前は前記の第１の第２レベルのコントローラにより制御されていた記憶手段が該外部出所との通信を維持する様に該外部出所に対して明白にデータ経路を前記第１の第２レベルのコントローラから第２の第２レベルのコントローラへ切り換えるステップを更に備えることを特徴とする請求の範囲第２５項に記載の方法。
３２．前記記憶手段を第１諭理レベルで複数の冗長グループとして機能するように構成するステップを更に備えており、前記冗長グループの各々は第２諭理レベルで少なくとも一つのデータ・グループを含み、各データ・グループは独立の諭理記憶装置として動作することが出来ることを特徴とする請求の範囲第２５項に記載の方法。
３３．各冗長グループは複数のデータ・グループから成ることを特徴とする請求の範囲第３２項に記載の方法。
３４．該記憶手段を第３諭理レベルで構成するステップを更に備えており、該複数の冗長グループのうちの少なくとも二つの各々から少なくとも一つのデータ・グループを組み合わせて単一の論理大量記憶装置を形成することを特徴とする請求の範囲第３２項に記載の方法。
３５．該複数の冗長グループのうちの少なくとも一つについてエラー検出及び訂正コードによって冗長性が提供され、そのコード・ワードは、少なくとも一つの冗長グループに包含される少なくとも一つのチェック記憶手段に記憶されることを特徴とする請求の範囲第３２項に記載の方法。
３６．少なくとも一つのチェック記憶手段の各々は特定の記憶手段であることを特徴とする請求の範囲第３５項に記載の方法。
３７．少なくとも一つのチェック記憶手段の各々は、複数の記憶手段の部分から成る論理大量記憶装置であることを特徴とする請求の範囲第３５項に記載の方法。
３８．複数の冗長グループのうちの少なくとも一つについて、ミラーリングによって冗長性が提供されることを特徴とする請求の範囲第３５項に記載の方法。
３９．冗長性データが、該冗長グループに含まれる少なくとも一つの冗長記憶手段に記憶されることを特徴とする請求の範囲第３５項に記載の方法。
４０．外部出所から受信されたデータを記憶するシステムであって、該外部出所との間のデータの流れを制御する制御手段と、前記制御手段に接続され、グループに分けられた複数の記憶手段と、前記制御手段に接続されて、データを、前記記憶手段に書き込まれるべきデータ・ブロックで分解する複数のデータ処理手段と、前記制御手段に接続されて、前記データ・ブロックを並列形で受信し、前記データ・ブロックが前記記憶手段に書き込まれるのと実質的に同時に各データ・ブロック内のエラーを検出するエラー検出手段とから成ることを特徴とするシステム。
４１．前記エラー検出手段に接続され、前記エラー検出手段が提供するエラー検出信号に応じて、漬れたデータを訂正するデータ訂正手段を更に備えることを特徴とする請求の範囲第４０項に記載のシステム。
４２．該エラー検出手段は、前記バッファー手段及び前記記憶手段から受信された前記データ中のエラーを検出するためにリード・ソロモン・エラー・コードを使うことを特徴とする請求の範囲第４１項に記載のシステム。
４３．該エラー訂正手段は、前記バッファー手段及び前記記憶手段から受信された前記データ中のエラーを訂正するためにリード・ソロモン・エラー・コードを使うことを特徴とする請求の範囲第４１項に記載のシステム。
４４．前記エラー検出手段に接続されて、前記エラー検出手段により判定された漬れたデータを提供した特定の記憶手段を該システムから分離する分離手段を更に備えることを特徴とする請求の範囲第４０項に記載のシステム。
４５．前記データ処理手段は、前記制御手段から受信された前記データ・ブロックを組み立てる組立手段を更に含むことを特徴とする請求の範囲第４０項に記載のシステム。
４６．第１バス及び前記制御手段に接続されて、該システムに受信され又は該システムから送信されるデータを緩衝記憶する複数のバッファー手段を更に備えることを特徴とする請求の範囲第４０項に記載のシステム。
４７．前記制御手段は、各記憶手段及び各バッファー手段の両方に接続されて、随意の前記記憶手段と随意の前記バッファー手段との間で切替え可能な制御を行う複数のスイッチング手段と、各スイッチング手段に接続されて、データが選択されたバッファー手段から選択された記憶手段に流れるのを許すと共に前記の選択された記憶手段から前記の選択されたバッファー手段へ流れるのを許すべく前記スイッチング手段を制御するスイッチ制御手段とを更に備えることを特徴とする請求の範囲第４０項に記載のシステム。
４８．前記エラー検出手段は、データを随意の選択されたバッファー手段から随意の選択された記憶手段へ経路指定すると共に随意の選択された記憶手段から随意の選択されたバッファー手段へ経路指定することを特徴とする請求の範囲第４７項に記載のシステム。
４９．前記の複数の記憶手段は、外部出所からのデータを記憶するデータ記憶手段の第１グループと、前記エラー検出手段により生成されたＥＣＣデータを記憶するエラー・チェック及び訂正（ＥＣＣ）記憶手段の第２グループとから成ることを特徴とする請求の範囲第４１項に記載のシステム。
５０．前記複数の記憶手段の各々は、データと、エラー・チェック及び訂正（ＥＣＣ）データとを所定のパターンで記憶することを特徴とする請求の範囲第４０項に記載のシステム。
５１．前記制御手段は、該外部出所との入出力記憶通信を処理する複数の第１レベル手段と、前記複数の第１レベル手段の各々と少なくとも一つのパートナー第２レベル手段とに各々接続されて、前記第１レベル手段から前記記憶手段の主グループの各々へのデータ経路を提供すると共に、前記記憶手段の二次グループヘのデータ経路を提供する、複数の第２レベル手段とから成ることを特徴とする請求の範囲第４０項に記載のシステム。
５２．以前は主として前記の少なくとも一つのパートナー第２レベル手段により制御されていた前記記憶手段の二次グループヘのデータ経路を提供することにより故障が前記パートナー第２レベル手段に発生した場合に前記複数の記憶手段の特定の諭理構成を該外部出所に対して明白なものに維持するべく前記複数の第２レベル手段の各々は構成されていることを特徴とする請求の範囲第５１項に記載のシステム。
５３．前記第２レベル手段の一つが故障したときに、前記一つの第２レベル手段が他の第２レベル手段に故障が発生したことを知らせて、以前は主として前記一つの第２レベル手段により制御されていた記憶手段の部分集合の主制御を前記他の第２レベル手段が引き受けることが出来る様に前記複数の第２レベル手段の各々の間に接続された第１通信ラインを更に備えることを特徴とする請求の範囲第５１項に記載のシステム。
５４．前記複数の第２レベル手段と前記複数の記憶手段との間に接続されて、故障時に第１の第２レベル手段から第２の第２レベル手段へコントロールを移すスイッチング機能を更に備えることを特徴とする請求の範囲第５１項に記載のシステム。
５５．各第２レベル手段は、前記第１レベル手段と前記の少なくとも一つのパートナー第２レベル手段との間で信号を送受信する第２レベル信号回復システムを更に備えることを特徴とする請求の範囲第５１項に記載のシステム。
５６．各第２レベル手段は、前記第２レベルのコントローラを数個の状態に維持することの出来る状態マシンを更に備えており、各状態は、前記第２レベル手段が特定の記憶手段を制御するシステム構成を表すことを特徴とする請求の範囲第５１項に記載のシステム。
５７．前記複数の記憶手段は作用的に相互に接続されて第１諭理レベルでは複数の冗長グループとして機能し、前記冗長グループの各々は第２諭理レベルで少なくとも一つのデータ・グループを含み、各データ・グループは独立の論理記憶装置として動作することが出来ることを特徴とする請求の範囲第４０項に記載のシステム。
５８．各冗長グループは複数のデータ・グループから成ることを特徴とする請求の範囲第５７項に記載のシステム。
５９．第３諭理レベルを更に備えており、複数の冗長グループのうちの少なくとも二つの各々からの少なくとも一つのデータ・グループが組み合わされて単一の論理大量データ記憶装置を形成することを特徴とする請求の範囲第５７項に記載のシステム。
６０．該複数の冗長グループのうちの少なくとも一つについてエラー検出及び訂正コードによって冗長性が提供され、そのコード・ワードは、少なくとも一つの冗長グループに包含される少なくとも一つのチェック駆動機構に記憶されることを特徴とする請求の範囲第５７項に記載のシステム。
６１．その少なくとも一つのチェツク駆動機構の各々は特定の記憶手段であることを特徴とする請求の範囲第６０項に記載のシステム。
６２．少なくとも一つのチェック駆動機構の各々は、複数の前記記憶手段の部分から成る論理大量記憶装置であることを特徴とする請求の範囲第６０項に記載のシステム。
６３．該複数の冗長グループのうちの少なくとも一つについてミラーリングにより冗長性が提供されることを特徴とする請求の範囲第５７項に記載のシステム。
６４．冗長性データは、該冗長グループに含まれる少なくとも一つの冗長大量記憶手段に記憶されることを特徴とする請求の範囲第５７項に記載のシステム。
６５．外部出所との通信のための制御手段と複数の記憶手段とを含むシステムにおいて、該外部出所から受信されたデータを記憶させる方法であって、該外部出所からデータを受信し、該データを、前記複数の記憶手段に書き込まれるべきデータ・ブロックのグループに分解し、各データ・ブロックについて少なくとも一つのエラー検出を実質的に同時に計算し、前記データ・ブロック及び少なくとも一つのエラー検出項を、記憶手段の前記グループのうちの第１のものに実質的に同時に記憶させるステップから成ることを特徴とする方法。
６６．記憶手段の前記グループのうちの前記第１のものから前記データ・ブロックを検索し、選択されたエラー・コードを使って前記データ・ブロックからチェック・エラー検出項を計算し、記憶手段の前記グループのうちの前記の第１のものから前記の少なくとも一つのエラー検出項を検索し、前記チェック・エラー検出項を前記の少なくとも一つのエラー検出項と比較して前記データが漬れていないことを判定するステップを更に備えることを特徴とする請求の範囲第６５項に記載の方法。
６７．前記データが漬れていると判定されたならば前記データを訂正するステップを更に備えることを特徴とする請求の範囲第６６項に記載の方法。
６８．前記データ・ブロックを、それが該外部出所から受信された形に組み立てるステップを更に備えることを特徴とする請求の範囲第６６項に記載の方法。
６９．前記の構成するステップは、前記データ・ブロックが該制御手段と該記憶手段との間で所定のパターンで送られるのを許すべく複数のスイッチング手段をセットするステップを更に備えることを特徴とする請求の範囲第６５項に記載の方法。
７０．前記データが漬れていると判定されたならば、前記データが記憶された特定の記憶手段を分離するステップを更に備えることを特徴とする請求の範囲第６５項に記載の方法。
７１．前記制御手段内の第１の第２レベルのコントローラの故障を検出し、以前は前記の第１の第２レベルのコントローラにより制御されていた記憶手段が該外部出所との通信を維持する様に該外部出所に対して明白にデータ経路を前記第１の第２レベルのコントローラから第２の第２レベルのコントローラへ切り換えるステップを更に備えることを特徴とする請求の範囲第６５項に記載の方法。
７２．前記記憶手段を第１諭理レベルで複数の冗長グループとして機能するように構成するステップを更に備えており、前記冗長グループの各々は第２諭理レベルで少なくとも一つのデータ・グループを含み、各データ・グループは独立の諭理記憶装置として動作することが出来ることを特徴とする請求の範囲第６５項に記載の方法。
７３．各冗長グループは複数のデータ・グループから成ることを特赦とする請求の範囲第７２項に記載の方法。
７４．該記憶手段を第３諭理レベルで構放するステップを更に備えており、該複数の冗長グループのうちの少なくとも二つの各々から少なくとも一つのデータ・グループを組み合わせて単一の論理大量記憶装置を形成することを特徴とする請求の範囲第７２項に記載の方法。
７５．該複数の冗長グループのうちの少なくとも一つについてエラー検出及び訂正コードによって冗長性が提供され、そのコード・ワードは、少なくとも一つの冗長グループに包含される少なくとも一つのチェック記憶手段に記憶されることを特徴とする請求の範囲第７２項に記載の方法。
７６．少なくとも一つのチェック記憶手段の各々は特定の記憶手段であることを特徴とする請求の範囲第７５項に記載の方法。
７７．少なくとも一つのチェック記憶手段の各々は、複数の記憶手段の部分から成る論理大量記憶装置であることを特徴とする請求の範囲第７５項に記載の方法。
７８．複数の冗長グループのうちの少なくとも一つについて、ミラーリングによって冗長性が提供されることを特徴とする請求の範囲第７５項に記載の方法。
７９．冗長性データが、該冗長グループに含まれる少なくとも一つの冗長記憶手段に記憶されることを特徴とする請求の範囲第７５項に記載の方法。