JP2000148705A

JP2000148705A - 共用資源を動的に結合するための方法及びその装置

Info

Publication number: JP2000148705A
Application number: JP11270715A
Authority: JP
Inventors: Kit M Chow; エムチョウキット; Niels Haarh Hornekaer; ハーホーネカーニールス; Morten Skoien With; スコイエンウィズモートン
Original assignee: NCR International Inc
Current assignee: NCR International Inc
Priority date: 1998-09-25
Filing date: 1999-09-24
Publication date: 2000-05-30
Also published as: US6594698B1; EP0989490A3; EP0989490A2

Abstract

(57)【要約】【課題】Ｉ／Ｏノード間に共用資源を動的に結合する
方法、装置を提供する。【解決手段】開始ノードにより要求された資源を応答
ノードから割当解除し、開始ノードにより要求されてお
らず且つ応答ノードにより到達可能な資源を応答ノード
に割り当て、第二のノードに割り当てられた資源を第一
のノードから割当解除し、第一のノードにより到達可能
な未割当の資源を第一のノードに割り当てるステップを
備える。本製造品は、前述の方法ステップを実施すべく
コンピュータにより実行可能なプログラムステップを実
現するプログラム記憶装置を備える。本装置は、複数の
記憶資源と第一のＩ／Ｏノードと第二のノードとを有す
るデータ記憶資源を備える。第一及び第二のＩ／Ｏノー
ドは、資源所有権交渉メッセージを送受信すると共に資
源所有権交渉メッセージとして受信した情報に表示され
た資源の割当取り消しと割当とを行うＩ／Ｏプロセッサ
を有する。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明は、演算システムに関
し、特に、プロセッサ又はメモリキャビネットの境界に
関わりなく、仮想記憶割当ての単一操作ビューを提供す
る方法に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】技術の
進歩はしばしば、一見無関係に見える技術的な発達に起
因する。かかる無関係な発達は、個別に重要であるが、
組み合わされた場合には、主要な技術的な進歩の基礎を
形成することがある。歴史的に、大型で複雑なコンピュ
ータシステムにおける構成要素には、（１）ディスク入
出力パフォーマンスに関する中央処理装置パフォーマン
スの急速な進歩、（２）内部中央処理装置アーキテクチ
ャの発展および(３)相互接続機構の進歩等を含む、不ぞ
ろいな技術的発達があった。

【０００３】過去１０年以上の間、ディスク入出力パフ
ォーマンスは、ノードの発達速度に比べてかなり緩慢な
速度で発達してきた。中央処理装置パフォーマンスは、
一年当たり４０％から１００％の速度で増大したが、デ
ィスクシーク時間は、一年当たり僅か７％しか向上しな
かった。かかる傾向が予測どうり継続する場合には、典
型的なサーバノードが駆動できるディスクドライブ数
は、大部分の大型システムにおいて量と値段の双方でデ
ィスクドライブが支配的な構成要素となるまで増加する
であろう。かかる現象自体、大型システムの導入が存在
することですでに明らかになっている。

【０００４】不ぞろいなパフォーマンスの拡張もまた、
中央処理装置内部で起きている。中央処理装置パフォー
マンスを向上させるために、中央処理装置ベンダはクロ
ック速度の増加とアーキテクチャの変更を組み合わせて
いる。かかるアーキテクチャの変更の多くは、並列処理
業界から影響を受けた、実績のある技術である。かかる
変更により、偏ったパフォーマンスを作成することがあ
り、期待したパフォーマンスの向上より下回る結果にな
っている。簡単な例では、１つの中央処理装置がベクト
ル割り込みできる速度は、基本命令と同じ速度で拡張し
ない。従って、割り込みパフォーマンス（入出力等）に
基づくシステム機能は演算能力とともに拡張しない。

【０００５】相互接続機構もまた、不ぞろいな技術発達
の特徴を示している。長年の間、相互接続機構は毎秒１
０−２０ＭＢのパフォーマンスレベルを前後していた。
過去、帯域幅が毎秒１００ＭＢ（以上）のレベルまで大
きく向上した。このようにパフォーマンスが大きく向上
することにより、大規模な並列処理装置を経済的に配備
することが可能になる。

【０００６】このようにパフォーマンスが不ぞろいであ
るため、アプリケーションアーキテクチャおよびシステ
ムコンフィギュレーションのオプションに好ましくない
影響を与えている。例えば、アプリケーションパフォー
マンスに関して、中央処理装置パフォーマンスを増大さ
せる等、作業負荷を増大させてシステムのある部分での
パフォーマンスの向上を利用しようと試みると、ディス
クサブシステムに同等のパフォーマンス拡張を欠いてい
るためにしばしば妨げられる。中央処理装置は毎秒当た
り２倍のトランザクション数を作成するが、ディスクサ
ブシステムはこの増加のわずかしか処理できない。中央
処理装置は、記憶装置を長い間待ち望んでいる。不ぞろ
いなハードウェアパフォーマンスの発達による全体的な
インパクトとは、アプリケーションパフォーマンスを特
定の作業負荷特性にますます依存しなけらばならなくな
っていることである。

【０００７】プラットフォームハードウェア技術におけ
る調和のとれていない発達もまた、別の重大な問題を創
出している。マルチノードシステムをコンフィギュレー
ションするための利用可能なオプション数が減少してい
ることである。良い例としては、ＴＥＲＡＤＡＴＡ
^Æ（テラデータ）の４ノードクリークのソフトウ
ェアアーキテクチャが、記憶装置の相互接続技術の変化
により影響を受けることがあげられる。ＴＥＲＡＤＡＴ
Ａ^Æクリークモデルには、単一のクリークにおけ
るノード間の均一な記憶接続性が期待される。各ディス
クドライブは各ノードからアクセスできる。従って、ノ
ードが故障すると、そのノード専用の記憶は、残余のノ
ードに分割される。記憶とノード技術における調和のと
れない発達により、共用記憶環境での１ノード当たりの
接続可能なディスク数は制約される。入出力チャネルに
接続可能なドライブ数と４ノード共用入出力トポロジー
において接続可能なバスの物理的な数とにより、かかる
制約が生成される。ノードパフォーマンスが連続して向
上するに従って、我々は１ノード当たりに接続するディ
スクスピンドル数を増加させなければならない。

【０００８】クラスタの設計と大規模な並列処理（ＭＰ
Ｐ）の設計は、前述の問題を解決しようとするマルチノ
ードシステム設計の例である。クラスタは、拡張性が限
れているが、ＭＭＰ装置は、ある十分単純なアプリケー
ションモデル（市販のＭＭＰモデルでは、本ソフトウェ
アは通常、データベース管理システム（ＤＢＭＳ）であ
る）を提供する追加のソフトウェアを必要とする。ＭＭ
Ｐ装置もまた、非常に高い可用性を提供するための内部
クラスタ化（クリーク）の形式を必要とする。両方の問
題を解決しようとすると、電気機械的な装置であって予
測できる故障率がかなり高いディスクドライブを、場合
によりは数多くの管理するという問題をさらに生成す
る。かかる管理上の問題の１つは、入力／出力ノード間
のディスクドライブで実行される記憶資源の割当と共用
である。数多くのディスクドライブが潜在的に関連し
て、ディスクの故障がいつでも発生しうるので、入力／
出力ノード間で交渉可能な単純な割当計画が必要とされ
る。

【０００９】

【課題を解決するための手段】本発明は、かかる必要を
満足させるものである。

【００１０】第一の特徴によれば、本発明は、第一のノ
ードと第二のノードとの間で資源を割り当てる方法であ
って、第一のノードにより要求された資源を第二のノー
ドから割当解除し、第一のノードにより要求されておら
ず且つ第二のノードにより到達可能な資源を第二のノー
ドに割り当て、第二のノードに割り当てられた資源を第
一のノードから割当解除し、第一のノードにより到達可
能な未割当の資源を第一のノードに割り当てる、ステッ
プを備えることを特徴とする方法に存する。

【００１１】前記第一のノードにより要求された資源を
第二のノードから割当解除するテップは、好ましくは、
第一のノードにより要求された資源を識別し且つ第一の
ノードが所望する資源セットを含む開始メッセージを第
二のノードに送信し、第一のノードが所望する資源セッ
ト内の資源を第二のノードが所望する資源セットから除
去し、第二のノードの資源のワーキングセットを第二の
ノードが所望する資源セットに設定するステップを含
む。

【００１２】第二の特徴によれば、本発明は、第一のノ
ードと第二のノードとの間に資源を割り当てる装置であ
って、第一のノードにより要求された資源を第二のノー
ドから割当解除する手段と、第一のノードにより要求さ
れておらず且つ第二ノードにより到達可能な資源を第二
のノードに割り当てる手段と、第二のノードに割り当て
られた資源を第一のノードから割当解除する手段と、第
一のノードにより到達可能であり且つ第一のノード又は
第二のノードに未割当の資源を第一のノードに割り当て
る手段、とを備えることを特徴とする装置に存する。

【００１３】前記第一のノードにより要求された資源を
第二のノードから割当解除する手段は、好ましくは第一
のノードにより要求された資源を識別し且つ第一のノー
ドが所望する資源セットを含む開始メッセージを第二の
ノードに送信する手段と、第一のノードが所望する資源
セット内の資源を第二のノードが所望する資源セットか
ら除去する手段と、第二のノードの資源のワーキングセ
ットを第二のノードが所望する資源セットに設定する手
段とを含む。

【００１４】第三の特徴によれば、本発明は、第一のノ
ードと第二のノードとの間に資源を割り当てる方法ステ
ップを実施するためにコンピュータにより実行可能な一
以上の命令を実現するコンピュータ読取り可能なプログ
ラム記憶媒体であって、前記方法ステップが、第一のノ
ードにより要求されておらず且つ第二のノードにより到
達可能な資源を第二のノードに割り当て、第二のノード
に割り当てられた資源を第一のノードから割当解除し、
第一のノードにより到達可能な未割当の資源を第一のノ
ードに割り当てる、ステップを備えることを特徴とする
プログラム記憶媒体に存する。

【００１５】第四の特徴によれば、本発明は、データ記
憶資源であって、複数の記憶資源と、前記複数の資源の
少なくとも一つに通信自在に接続された第一の入出力ノ
ードにして、資源の所有権交渉メッセージを第二の入出
力ノードと送受信すると共に第二のノードに割り当てら
れた資源を第一のノードから割当解除し且つ第一のノー
ドに通信自在に接続された未割当の資源を第一のノード
に割り当てる第一の入出力ノードプロセッサを有する第
一の入出力ノードと、前記複数の資源の少なくとも一つ
と通信自在に接続された第二の入出力ノードにして、資
源の所有権交渉メッセージを第一の入出力ノードと送受
信すると共に第一のノードにより要求された資源を第二
のノードから割当解除し且つ第一のノードから未要求で
第二のノードと通信自在に接続された資源を第二のノー
ドに割り当てる第二の入出力ノードプロセッサを有する
第二の入出力ノードと、を備えることを特徴とするデー
タ記憶資源に存する。

【００１６】

【発明の実施の形態】以下、本発明の実施形態につい
て、添付図面を参照にして例示的に説明する。

【００１７】Ａ．概観図１は、本発明のピア・トゥ・ピア・アーキテクチャで
ある。本アーキテクチャは、１以上の演算資源１０２
と、１以上の相互接続機構１０６と通信パス１０８とを
介して演算資源１０２と通信自在に接続された、１以上
の記憶資源１０４とから成る。機構１０６は、すべての
ノードと記憶間に通信媒体を提供するので、演算資源１
０２と記憶資源１０４との間に一様なピア・アクセスを
実施できる。

【００１８】図１に図示のアーキテクチャにおいて、記
憶はもはや、現在のノード中心アーキテクチャにおける
ようなノードの単一のセットに接続しておらず、いずれ
のノードもすべての記憶と通信可能である。物理システ
ムトポロジーが記憶とノードの通信を制限する今日のマ
ルチノードシステムと比較すると、異なる作業負荷をマ
ッチさせるために異なるトポロジーが必要であった。図
１に図示のアーキテクチャは、システムの幅広いスペク
トルをサポートする単一の物理アーキテクチャを提供す
ることにより、アプリケーションソフトウェアの通信パ
ターンにシステムのトポロジーを任意の時間例で確定さ
せて、調和のとれない技術発達を受け入れる。機構１０
６による分離により、主要なシステム構成要素各々に対
するきめ細かな拡張が可能になる。

【００１９】図２は、本発明のピア・トゥ・ピア・アー
キテクチャのより詳細な説明を表している。演算資源１
０２は、１以上の演算ノード２００により限定され、各
々、オペレーティングシステム２０２の制御下で、１以
上のアプリケーション２０４を実行する１以上のプロセ
ッサ２１６を有する。演算ノード２００と制御自在に接
続されているものは、テープデバイス、プリンタ又は他
のネットワーク等の周辺装置２０８である。また、演算
ノード２００と制御自在に接続されているものは、ハー
ドディスク等のローカル記憶デバイス２１０、オペレー
ティングシステム２０２を含む命令等の記憶動作演算ノ
ード２００特定の情報、又は他の情報である。アプリケ
ーションの命令は、２つ以上の分散処理式の演算ノード
２００に渡り記憶されかつ／また実行される。１実施形
態において、プロセッサ２１６は、ＩＮＴＥＬＰ６と
対応するメモリ等の既製で市販の多目的プロセッサと、
Ｉ／Ｏエレメントとから成る。

【００２０】記憶資源１０４は、クリーク２２６により
限定され、各々システムインターコネクト２２８により
各相互接続機構１０６に制御可能に接続されている。第
一のＩＯＮ２１２と第二のＩＯＮ２１４は、１以上の記
憶ディスク２２４（“ｊｕｓｔａｂｕｎｃｈｏｆ
ｄｉｓｋｓ”又はＪＢＯＤとして知られている）と制
御自在に接続されて、ＪＢＯＤ格納装置２２２と対応す
る。

【００２１】図２は、中型の装置であって、ノード速度
を計算する典型的な２つ１組のＩＯＮ２１２を有する。
本発明のクリーク２２６はまた、３以上のＩＯＮ２１４
を用いて実行することもでき、又は記憶ノードの可用性
の損失がある場合には、単一のＩＯＮ２１２で実行する
ことができる。クリーク２２６の個体数は、ＩＯＮ２１
２間に共用ハードウェアがないといった、純粋にソフト
ウェアの問題である。対になったＩＯＮ２１２は「ダイ
ポール」と称されることもある。

【００２２】本発明はまた、演算ノード２００、ＩＯＮ
２１２及び相互接続機構１０６とインターフェースする
管理構成要素すなわちシステムアドミニストレータ２３
０を含む。

【００２３】ＩＯＮ２１２とＪＢＯＤ２１２間の接続性
を、簡単にした形で示す。実際の接続性は、図示のコン
フィギュレーションにおける記憶ディスク２２４の各ラ
ンク（列、ここでは４列）に対するファイバチャネルケ
ーブル（ＦｉｂｒｅＣｈａｎｎｅｌｃａｂｌｅ）を
使用する。実際には、各ＩＯＮ２１２が、図示の実施形
態に見られる２０の記憶ディスク２２４よりもむしろ、
４０から８０の間の記憶ディスク２２４を管理する。

【００２４】Ｂ．ＩＯＮ（記憶ノード）１．内部アーキテクチャａ）ハードウェアアーキテクチャ図３は、ＩＯＮ２１２のコンフィギュレーションとＪＢ
ＯＤ２２２とのインターフェースについてより詳細に示
した図である。各ＩＯＮ２１２は、ＪＢＯＤ相互接続２
１６によりＪＢＯＤ配列内の各記憶ディスク２２４と通
信自在に連結している入出力接続モジュール３０２と、
ＩＯＮ２１２の機能と、ここで説明されるＩＯＮ物理デ
ィスクドライバ５００を実行する中央処理装置及びメモ
リ３０４と、電源を供給してＩＯＮ２１２のオペレーシ
ョンを保持する電源モジュール３０６とから成る。

【００２５】ｂ）ＪＢＯＤ図４は、ＪＢＯＤ格納装置２２２についての詳細をさら
に示した図である。監視又は制御可能なＪＢＯＤ格納装
置２２２のすべての構成要素は、エレメント４０２−４
２４と称される。任意の１ＪＢＯＤに対するエレメント
４０２−４２４すべてを、コンフィギュレーションペー
ジコードとの「受信診断結果（ｒｅｃｅｉｖｅｄｉａ
ｇｎｏｓｔｉｃｒｅｓｕｌｔｓ）」コマンドを介して
復帰する。ＩＯＮ２１２は、エレメントの順序づけられ
たリストを使用してエレメントに番号を振る。記載の第
一のエレメント４０２はエレメント０で、第二のエレメ
ント４０４はエレメント１、等である。かかるエレメン
トの番号は、ここに記載の管理サービスレイヤ７０６を
使用して構成要素のアドレス指定をするＬＵＮ＿Ｃの番
号を作成する際に使用される。

【表１】格納装置内部で、上の表１で示されるように、エレメン
トの位置はラック、シャーシ及びエレメント番号により
指定される。「ラック番号（ｒａｃｋｎｕｍｂｅ
ｒ）」とは、ダイポールに属するラックに割り当てられ
るダイポール内部の番号でる。「シャーシ位置」とは、
キャビネット管理デバイスにより報告される高さをい
う。「エレメント番号」とは、ＳＥＳコンフィギュレー
ションページにより復帰されるエレメントのリストの索
引である。かかるフィールドは、ＬＵＮ＿Ｃフォーマッ
トを作成する。

【００２６】ｃ）Ｉ／Ｏインターフェースドライバアー
キテクチャ図５は、ＩＯＮ２１２のＩ／Ｏアーキテクチャを示した
図で、ＩＯＮ２１２の「ＳＣＳＩドライバ」として機能
するＩＯＮ物理ディスクドライバ５００を含む。ＩＯＮ
物理ディスクドライバ５００は、システムアドミニスト
レータ２３０内部のＲＡＩＤ（ｒｅｄｕｎｄａｎｔａ
ｒｒａｙｏｆｉｎｅｘｐｅｎｃｉｖｅｄｉｓｋ
ｓ）ソフトウェアドライバ又は管理ユーティリティから
のＩ／Ｏ要求を取り込む役割をする。

【００２７】本発明のＩＯＮ物理ディスクドライバ５０
０は、高位ドライバ（ＨＤＬ）５０２と低位ドライバ５
０６の、３つの主要な構成要素を含む。ＨＬＤ５０２
は、共通部分５０３とデバイス指定の高位部分５０４、
デバイス指定の低位部分５０６とから成る。共通及びデ
バイス指定の高位部分５０２と５０４は、アダプタ依存
型で、新規のアダプタ型式に対する変更の必要がない。
ファイバチャネルインターフェース（ＦＣＩ）低位ドラ
イバ５０６は、ファイバチャネルアダプタをサポート
し、従って、アダプタ指定のというよりもむしろプロト
コル指定である。

【００２８】ＦＣＩ低位ドライバ５０６は、ＦＣＰフレ
ームに対するＳＣＳＩ要求を変換して、「Ｌｏｇｉｎ」
及び「ＰｒｏｃｅｓｓＬｏｇｉｎ」といったファイバ
チャネル共通サービスを処理する。操作自在に連結され
たＦＣＩ低位ドライバ５０６は、ハードウェアインター
フェースモジュール（ＨＩＭ）インターフェース５０８
で、ファイバチャネルプロトコル処理をアダプタ指定の
ルーチンから分割する。前述の構成要素のより詳細な記
載を以下に示す。

【００２９】（１）高位ドライバ高位ドライバ（ＨＬＤ）５０２は、アクセスしているデ
バイスの型式に関わらず、ＩＯＮ２１２に対する要求す
べてのエントリポイントである。デバイスがオープンの
場合、ＨＬＤ５０２はコマンドページをそのデバイスに
結びつける。かかるベンダ指定のコマンドページは、指
定のＳＣＳＩ機能用にＳＣＳＩコマンド記述ブロックを
どのように組み立てるか命令する。コマンドページは、
ＳＣＳＩ仕様の指定と異なって、特定のＳＣＳＩ機能を
処理するドライバデバイスが容易にサポートできるよう
にする。

【００３０】（ａ）共通（非デバイス指定）部分ＨＬＤ０２の共通部分は、次のエントリポイントを含
む。・ｃｓ＿ｉｎｉｔ −ドライバ構造を初期設定し資源
を割当てる・ｃｓ＿ｏｐｅｎ −デバイスを使用可能な状態にす
る・ｃｓ＿ｃｌｏｓｅ −入出力を完了しデバイスをサー
ビスから取り除く・ｃｓ＿ｓｔｒａｔｅｇｙ −デバイス読取り／書込み
エントリ（Ｂｕｆ＿ｔインターフェース）をブロックす
る・ｃｓ＿ｉｎｔｒ −ハードウェア割り込みをサービ
スするかかるルーチンは、すべてのデバイス型式に対し同様の
機能を実行する。かかるルーチンの大部分は、デバイス
指定のルーチンを呼び出してデバイス型式（ディスク、
テープ、ＷＯＲＭ，ＣＤＲＯＭ等）により索引付けら
れたをスイッチ表を介して、どのようなデバイス指定要
件も処理する。

【００３１】「ｃｓ＿ｏｐｅｎ」機能により、デバイス
の存在と入出力操作がデバイス上で実行される状態にな
ることが保証される。現在のシステムアーキテクチャと
異なり、オペレーティングシステム（ＯＳ）が初期設定
される間、共通部分５０３は既知のデバイスの表を作成
しない。そのかわり、ドライバ共通部分５０３は、セル
フコンフィギュレーションを行う。つまり、ドライバ共
通部分５０３は、デバイスの初期動作中にデバイスの状
態を確定する。これにより、ドライバ共通部分５０３
は、オペレーティングシステム２０２初期設定段階後、
デバイスがオンラインになっているかどうか調べられる
ようになる。

【００３２】初期オープン中に、ＳＣＳＩ照会コマンド
を目的デバイスに出すことにより、ＳＣＳＩデバイスが
コマンドページと結びつけられる。デバイスが応答する
場合には、応答データ（ベンダＩＤ、プロダクトＩＤ及
びファームウェアのバージョンレベルを含む）ＳＣＳＩ
構成モジュール５１６内の既知のデバイスの表と比較さ
れる。マッチする場合には、次にデバイスはその表エン
トリに指定のコマンドページと明確に結びつける。マッ
チしない場合には、応答データ形式に基づいて、次にデ
バイスは汎用ＣＣＳ（共通コマンドセット）又はＳＣＳ
ＩＩＩコマンドページと暗黙に結びつける。

【００３３】ドライバ共通部分５０３は、資源を割り当
てる低位ドライバ５０６とコマンドページ機能により使
用されるルーチンを含み、分散収集オペレーション用の
ダイレクトメモリアクセス（ＤＭＡ）リストを作成し、
ＳＣＳＩオペレーションを完了させる。

【００３４】ＦＣＩ低位ドライバ５０６のルーチンはす
べて、ドライバ共通部分５０３から呼び出される。この
ドライバ共通部分５０３は、ハードウェアを設定してオ
ペレーションをスタートさせるハードウェアインターフ
ェースモジュール（ＨＩＭ）５０８内の適切な低位ドラ
イバ（ＬＬＤ）ルーチンを呼び出すことにより、ＳＣＳ
Ｉオペレーションを実際に開始する唯一のレイヤであ
る。ＬＬＤルーチンはまた、ＳＣＳＩコンフィギュレー
ションモジュール５１６によるコンフィギュレーション
中に割り当てられたドライバＩＤにより索引されたスイ
ッチ表を介してアクセスされる。

【００３５】（ｂ）デバイス指定部分共通部分５０２とデバイス指定ルーチン５０４の間のイ
ンターフェースは、共通部分に対するインターフェース
と同様に、ｃｓｘｘ＿ｉｎｉｔ、ｃｓｘｘ＿ｏｐｅｎ、
ｃｓｘｘ＿ｃｌｏｓｅ及びｃｓｘｘ＿ｓｔｒａｔｅｇｙ
を含む。「ｘｘ」の指定は、記憶デバイスの形式（例え
ば、「ｄｋ」はディスク、「ｔｐ」はテープである）を
示す。かかるルーチンにより、どのようなデバイス指定
要件でも処理する。例えば、デバイスがディスクとする
ならば、「ｃｓｄｋ＿ｏｐｅｎ」がディスクの特定区域
からの区分表情報を読み込み、「ｃｓｄｋ＿ｓｔｒａｔ
ｅｇｙ」が区分表の情報を使用して、ブロックがバウン
ド外かどうか確定するはずである。（区分表は、各指定
物理ディスクの論理対物理ディスクブロックマッピング
を定義する。）（ｃ）高位ドライバエラー／フェールオーバー処理（ｉ）エラー処理（ａ）再試行ＨＬＤ５０２の大抵の共通リカバリ方法は、故障したＩ
／Ｏを再試行することである。ある任意のコマンド形式
に対する再試行の数は、コマンドページにより指定され
る。例えば、読取り又は書込みコマンドが非常に重要で
あると考えられるので、関連するコマンドページが３回
までの再試行を設定する。照会コマンドは重要でないと
考えられるが、一日の作業開始（ｓｔａｒｔｏｆｄ
ａｙ）操作の間の一定の再試行がシステムを遅くさせる
と考えられる場合には、再試行数はゼロになる。

【００３６】要求がまず出されて、その再試行数がゼロ
に設定される。要求が受け付けられないときは毎回、再
試行スキームを再試行し、再試行数を増加する。再試行
数がコマンドページにより指定された最大再試行数を越
える場合には、Ｉ／Ｏは受け付けられずに、メッセージ
はリクエスタに送信される。あるいは、再発行される。
このルールに対する唯一の例外は、通常はエラーよりも
むしろ事象通知であるユニットアテンションである。ユ
ニットアテンションがコマンドとして受信されて、最大
再試行がゼロまたは１に設定される場合には、高位ドラ
イバ５０２はこの指定のＩ／Ｏに対する最大再試行を２
に設定する。これにより、ユニットアテンションの条件
により入出力が早期に故障することを防ぐ。再試行が指
定の時間量に対する待ち行列と置換されないことを除い
て、遅れた再試行は、上述の再試行スキームと同様に処
理される。

【００３７】（ｂ）受け付けられないＳｃｓｉ＿ｏｐＦＣＩ低位ドライバ５０６に出されたＳｃｓｉ＿ｏｐ
は、いくつかの状況のため受け付けられないことがあ
る。以下の表ＩＩに、ＦＣＩＦＣＩ低位ドライバ５０６
がＨＬＤ４０２に復帰可能である考えられうる障害の形
式を示す。

【表２】（ｃ）不十分な資源不十分な資源によるエラーは、ある所望の資源が要求時
に入手できない場合に発生する。典型的には、かかる資
源はシステムメモリとドライバ構造メモリである。

【００３８】不十分なシステムメモリ処理は、セマフォ
ーブロッキングにより達成される。メモリ資源をブロッ
クするスレッドは、新しいＩ／Ｏが出されることを妨げ
る。かかるスレッドは、Ｉ／Ｏの完了によりメモリを解
放するまでブロックしたままである。

【００３９】ドライバ構造資源は、Ｓｃｓｉ＿ｏｐとＩ
／Ｏベクトル（ＩＯＶ）リストプールに関連する。ＩＯ
Ｖリストは、ディスクに送信される又はディスクから送
信されるメモリ開始と長さの値に関するリストである。
同調自在のパラメータを使用してプールのサイズを指定
することにより、かかるメモリプールは一日の作業開始
時に初期設定される。Ｓｃｓｉ＿ｏｐ又はＩＯＶプール
が空の場合には、新しいＩ／Ｏがかかるプールを大きく
する。メモリのページ（４０９６バイト）が、いずれか
のプールを大きくする時に割り当てられている。新ペー
ジからのＳｃｓｉ＿ｏｐ又はＩＯＶが開放されて初めて
ページが開放される。Ｓｃｓｉ＿ｏｐ又はページに対
し、ＩＯＮ２１２がページを常に割り当てて、開放して
いる場合には、関連するパラメータを所望の通り同調す
ることがある。

【００４０】不十分な資源処理はすべて、事象を通じて
記録される。

【００４１】（ｉｉ）一日の作業開始時処理一日の作業開始時に、ＨＬＤ５０２は必要な構造とプー
ルを初期設定して、アダプタ指定ドライバ及びハードウ
ェアを初期設定する呼び出しを行う。一日の作業開始時
処理は、「ｃｓ＿ｉｎｔｉ（）」を呼び出すことで開始
され、ｃｓ＿ｉｎｔｉ（）は、（１）Ｓｃｓｉ＿Ｏｐプ
ールを割り当てる、（２）ＩＯＶプールを割り当てる、
（３）ＦＣＩｈｗ＿ｉｎｔｉ（）を呼び出してファイバ
チャネル構造とハードウェアを初期設定する、（４）割
り込みサービスルーチンｃｓ＿ｉｎｔｒ（）を適切な割
り込みベクトルに結びつける。

【００４２】（ｉｉｉ）フェールオーバー処理ＩＯＮ２１２ダイポールの２分の１の２つは、ディスク
デバイスの共通セットに接続されている。ダイポール２
２６内のＩＯＮ２１２と２１４はいずれも、いつでもす
べてのデバイスにアクセスできることになっている。Ｈ
ＤＬ５０２の透視から、フェールオーバーに対する特別
な処理がないことがわかる。

【００４３】（２）コマンドページ本発明のＩＯＮ２１２は、実際に組み込まれたＳＣＳＩ
コマンドから共通部分とデバイス指定部分を抽象する、
コマンドページ法を使用する。「コマンドページ」と
は、各機能がＳＣＳＩコマンド（例えば、ＳＣＳＩ＿２
＿Ｔｅｓｔ＿Ｕｎｉｔ＿Ｒｅａｄｙ）を表す機能に対す
るポインタのリストである。上述のように、指定のコマ
ンドページは、開始オープンのデバイス又はそのデバイ
スのアクセスと結合している。ベンダ指定でかつ非準拠
のＳＣＳＩデバイスの癖はすべて、かかるデバイス指定
のコマンドページを介して参照される機能により管理さ
れる。典型的な装置では、コマンドコントロールセット
（ＣＣＳ）、ＳＣＳＩＩとＳＣＳＩＩＩのページ及
びベンダ指定のページとともに出荷され、非準拠のＣＳ
ＣＩデバイス又はベンダ指定ＳＣＳＩコマンドの統合が
行われる。

【００４４】コマンドページ機能は、「Ｖｉｒｔｕａｌ
ＤＥＶｉｃｅ（ＶＤＥＶ）」インターフェースと呼ば
れるインターフェースを通じて、デバイス共通部分５０
３、デバイス指定部分５０４及びＦＣＩ低位ドライバ５
０６（要求センス）から呼び出される。かかるレベルで
は、ソフトウェアは、どのようなＳＣＳＩ言語をデバイ
スが使用しているか関心を持たないが、デバイスが意図
の機能を実行することだけに関心を払っている。

【００４５】各コマンドページの機能は、ＳＣＳＩコマ
ンドを組み込み、必要の場合には、メモリをダイレクト
メモリアクセス（ＤＭＡ）データ送信に割り当てる。機
能は次に、ドライバ共通部分５０３のコントロールを復
帰する。ドライバ共通部分５０３は次に、ＣＳＣＩオペ
レーションを待ち行列に位置づけること（必要な場合に
は、ここで記憶される）と、ＦＦＣＩ低位ドライバ５０
６開始ルーチンを呼び出すことにより、コマンドを実行
する。コマンドが実行された後、「コールオン割り込み
（ＣａｌｌＯｎＩｎｔｅｒｒｕｐｔ、ＣＯＩ）」ル
ーチンがコマンドページ機能に存在する場合には、ドラ
イバのドライバ共通部分５０３が完了したコマンドデー
タ／情報を調べる前に、ＣＯＩが呼び出される。復帰し
たデータ／情報を操作することにより、ＣＯＩは非準拠
のＳＣＳＩデータ／情報を標準のＳＣＳＩデータ／情報
に変換する。例えば、デバイスの照会データがベンダＩ
Ｄ開始をバイト８ではなくバイト１２に含んでいる場合
には、照会コマンドページ機能はベンダＩＤを復帰した
照会データのバイト８に移動させるＣＯＩを含むことに
なる。ドライバ共通部分５０３は常に、バイト８スター
ト時にベンダＩＤ情報を抽出するので、非準拠のデバイ
スについて知る必要はない。

【００４６】（３）ＪＢＯＤ及びＳＣＳＩコンフィギュ
レーションモジュールＲＡＩＤコントローラのある重要な機能は、データの保
全である。この機能を実行するために、ＲＡＩＤソフト
ウェアは、ディスクの位置とケーブル接続の状態を物理
的に知っていなければならない。従って、ＲＡＩＤコン
トローラ技術を実行する重要な要件は、記憶デバイスの
コンフィギュレーションを制御する能力である。ＪＢＯ
ＤとＳＣＳＩコンフィギュレーションモジュール５１６
のＪＢＯＤ部分は、ＩＯＮ２１２に対する静的ＪＢＯＤ
コンフィギュレーションを限定する役割が課せられてい
る。ＪＢＯＤとＳＣＳＩコンフィギュレーションモジュ
ール５１６により説明されるコンフィギュレーション情
報を、表ＩＩＩに示す。

【表３】アダプタの物理ロケーション情報に加えて、コマンドペ
ージの定義と同様、ＪＢＯＤ格納装置２２２、記憶ディ
スク２２４、ＦＣＩ低位ドライバ５０６等の他のコンフ
ィギュレーション情報及びドライバデバイス指定部分５
０４エントリポイントについても説明する必要がある。
「ｓｐａｃｅ．ｃファイル」は、かかる情報を提供する
ために使用され、ＩＯＮ２１２は、ＩＯＮ物理ディスク
ドライバ５００のコンパイル時にコンフィギュレーショ
ン情報を組み込む。サポートされたＩＯＮ２１２のコン
フィギュレーションが変更された場合には、新バージョ
ンのＩＯＮ物理ディスクドライバ５００がコンパイルさ
れる。

【００４７】（４）ファイバチャネルインターフェース
（ＦＣＩ）低位ドライバＦＣＩ低位ドライバ５０６は、高位ドライバ５０２に対
するＳＣＳＩインターフェースを管理する。ドライバ共
通部分５０３とＦＣＩ低位ドライバ５０６の間のインタ
ーフェースは、次のルーチンを含み、「ｘｘ」の表示
は、ＦＣＩ低位ドライバ５０６を制御するハードウェア
に対する固有の識別子（例えば、ＦＣＩｈｗ＿ｉｎｉ
ｔ）である。・ｘｘｈｗ＿ｉｎｉｔ −ハードウェアを初期設定する・ｘｘｈｗ＿ｏｐｅｎ −ホストアダプタの現在の状態
を確定する・ｘｘｈｗ＿ｃｏｎｆｉｇ −ホストアダプタのコンフ
ィギュレーション情報（ＳＣＳＩＩＤ等）を設定する・ｘｘｈｗ＿ｓｔａｒｔ −可能ならばＳＣＳＩオペレ
ーションを開始する・ｘｘｈｗ＿ｉｎｔｒ −すべてのＳＣＳＩ割り込みを
処理する低位ドライバは、デバイスの特性について知っている又
は関心を払う純粋なＳＣＳＩドライバであるが、それよ
りもむしろ上位レベルからのＳＣＳＩコマンドの単なる
コンジットである。割り込みサービスルーチン、ハード
ウェアの初期設定、マッピングとアドレス変換及びエラ
ーリカバリルーチンはこのレイヤにある。また、低位ド
ライバの多数の型式は、同じ装置の内部に共存可能であ
る。ハードウェア制御レイヤとドライバの残余との分割
により、同じ高位ドライバを異なる機械上で実行させる
ことができる。

【００４８】ＦＣＩモジュールの基本的な機能は、
（１）ＣＳＣＩ高位ドライバ（ＳＨＬＤ）とインターフ
ェースしてＳＣＳＩＯｐをＦＣＩ作業目的ストラクチ
ャ（Ｉ／Ｏブロック（ＩＯＢ））に変換する、（２）共
通インターフェースを提供して、異なるＨＩＭ５０８を
介して新しいファイバチャネルアダプタに対するサポー
トを容易にする、（３）いずれかのＦＣ?ｂSプロトコル
レイヤ（図示の実施形態におけるファイバーチャネルプ
ロトコル（ＦＣＰ））により使用されうると考えられる
ＦＣ−３共通サービスを提供する、（４）ＨＩＭ５０８
又はハードウェアが応答しない場合には、タイマサービ
スを提供してＨＩＮＭ（例えば、ＦＣＰコマンド、ＦＣ
−３コマンド、ＬＩＰコマンド）に送信された非同期コ
マンドを保護する、（５）ファイバチャネルドライバ全
体に対する資源を管理する（ａ）Ｉ／Ｏ要求ブロック
（ＩＯＢ）、（ｂ）ベクトル表、（ｃ）ＨＩＭ５０８資
源（例えば、ホストアダプタメモリ、ＤＭＡチャネル、
入出力ポート、スクラッチメモリ）、（６）ファイバチ
ャネルの任意のループ使用（対ファイバチャネル機構）
である。

【００４９】ＦＣＩ低位ドライバ５０６の重要なデータ
ストラクチャのリストは、以下の表ＩＶに示される。

【表４】（ａ）エラー処理ＦＣＩ低位ドライバ５０６の処理は、ファイバチャネル
及びファイバチャネル及び／又はＦＣＩ自体に特定する
エラーになる傾向がある。

【００５０】（ｉ）複数のステージエラー処理ＦＣＩ低位ドライバ５０６は、複数のステージ処理を伴
う指定のエラーを処理する。これにより、エラー処理技
術をエラーのタイプに対して最適化する。例えば、より
破壊的でない手順を使用しても動作しない場合には、も
っと思い切ったエラー処理手段がとられる。

【００５１】（ｉｉ）受け付けられないＩＯＢすべてのＩ／Ｏ要求は、Ｉ／Ｏ要求ブロックを介してＨ
ＩＭ５０８に送信される。次は、ＨＩＭ５０８が返信す
る、考えられうるエラーである。

【表５】（ｉｉｉ）不十分な資源ＦＣＩ低位ドライバ５０６は、ＩＯＢとベクトル表の資
源プールを管理する。かかるプールの大きさは、ＩＯＮ
２１２コンフィギュレーションと同調されるので、資源
から出られる可能性はなく、単純なリカバリ手順が実行
される。

【００５２】ＩＯＢ又はベクトルに対する要求がなされ
て、その要求を実行する十分な資源がない場合には、Ｉ
／Ｏは待ち行列に戻されて、タイマが設定されてＩ／Ｏ
を再スタートさせる。不十分な資源オカレンスは記録さ
れる。

【００５３】（ｂ）一日の作業開始時処理一日の作業開始時に、高位ドライバ５０２は、各サポー
トされた低位ドライバ（ＦＣＩ低位ドライバ５０６を含
む）に対する呼び出しを行う。ＦＣＩ低位ドライバ５０
６に一日の作業開始時処理は、次のオペレーションを実
行する「ＦＣＩｈｗ＿ｉｎｉｔ（）」ルーチン呼び出し
で開始する。

【００５４】まず、ＨＩＭ＿ＦｉｎｄＣｏｎｔｒｏｌｌ
ｅｒ（）機能がＰＣＩバス及びデバイスに対し呼び出さ
れる。これは、「ＦｉｎｄＣｏｎｔｒｏｌｌｅｒ（）」
のバージョンを呼び出す。ＪＢＯＤとＳＣＳＩコンフィ
ギュレーションモジュール５１６は、サーチされるＰＣ
Ｉバストデバイスを指定する。次に、アダプタ（アダプ
テック（ＡＤＡＰＴＥＣ）社より入手のアダプタ等）が
発見される場合、ＨＣＢが割り当てられてアダプタ用に
初期設定される。次に、「ＨＩＭ＿ＧｅｔＣｏｎｆｉｇ
ｕｒａｔｉｏｎ（）」が呼び出されて、スクラッチメモ
リ、メモリマップＩ／Ｏ、ダイレクトメモリアクセスチ
ャネル等のアダプタ指定資源を取得する。次に、資源を
割り当てて、初期設定し、「ＨＩＭ＿Ｉｎｉｔｉａｌｉ
ｚｅ（）」を呼び出してＡＤＡＰＴＥＣＨＩＭとハー
ドウェアとを初期設定する。最後に、ＩＯＢとベクトル
テーブルを割り当てて初期設定する。

【００５５】（ｃ）フェールオーバー処理ＩＯＮ２１２ダイポールの半分を２つ、ディスクデバイ
スの共通セットに接続する。ＩＯＮ２１２は、いつでも
すべてのデバイスにアクセス可能である。ＦＣＩ低位ド
ライバ５０６から見て、フェールオーバーの指定の処理
はない。

【００５６】（５）ハードウェアインターフェースモジ
ュール（ＨＩＭ）ハードウェアインターフェースモジュール（ＨＩＭ）５
０８は、アダプテック社のＳｌｉｍＨＩＭ５０９とイン
ターフェースするように設計されている。ＨＩＭモジュ
ール５０８は、ＦＣＩ低位ドライバ５０６からの要求を
ＳｌｉｍＨＩＭ５０９が理解できてハードウェアに対し
出せる要求に変換する。これは、Ｉ／Ｏブロック（ＩＯ
Ｂ）の要求の受け取りと、ＳｌｉｍＨＩＭ５０９により
理解される、要求に対応するトランスファー・コントロ
ール・ブロック（ＴｒａｎｓｆｅｒＣｏｎｔｒｏｌ
Ｂｌｏｃｋ（ＴＣＢ））の要求の変換を含む。

【００５７】ＨＩＭ５０８の基本的な機能は、（１）Ｉ
／Ｏを「発見（Ｆｉｎｄ）」し、「構成（Ｃｏｎｆｉｇ
ｕｒｅ）」し、「初期設定（Ｉｎｉｔｉａｌｉｚｅ）」
してアダプタに「送信（Ｓｅｎｄ）」するハードウェア
指定の機能に対し低位のアプリケーションプログラム・
インタフェース（ＡＰＩ）を定義する、（２）ＦＣＩ低
位ドライバ５０６とインターフェースして、Ｉ／Ｏブロ
ック（ＩＯＢ）をＳｌｉｍＨＩＭ／ハードウェアが理解
できるＴＣＢの要求（例えば、基本ＴＣＢ、ＦＣ拡張リ
ンクサービス（ＥｘｔｅｎｄｅｄＬｉｎｋＳｅｒｖ
ｉｃｅｓ（ＥＬＳ））ＴＣＢ及びＳＣＳＩ−ＦＣＰオペ
レーションＴＣＢ）に変換する、（３）ＳｌｉｍＨＩＭ
に出されたコマンド（ＴＣＢ）の転送と完了をトラック
する、（４）ＳｌｉｍＨＩＭからの割り込みと事象情報
を解釈して、ＦＣＩ低位ドライバ５０６との理論積内の
適切な割り込み処理及び／又はエラーリカバリ開始する
ことを含む。ＴＣＢのデータストラクチャを次の表ＶＩ
に示す。

【表６】（ａ）一日の作業開始の処理ＨＩＭ５０８は、一日の作業開始中に使用されるエント
リポイントを定義する。最初のエントリポイントは、Ｈ
ＩＭ＿Ｆｉｎｄアダプタで、ＦＣＩｈ＿ｉｎｉｔ（）と
呼ばれ、ＰＣＩＢＩＯＳルーチンを使用して、アダプ
タが指定のＰＣＩバストデバイス上に存在するかどうか
確定する。ＰＣＩベンダとアダプタのプロダクトＩＤ
は、アダプタの有無を確定する。

【００５８】第二のエントリポイントは、ＨＩＭ＿Ｇｅ
ｔコンフィギュレーションで、アダプタがある場合には
ＦＣＩｈｗ＿ｉｎｉｔ（）により呼び出されて、資源要
件を与えられたＨＣＢに設定する。ＡＤＡＰＴＥＣアダ
プタに対しては、資源として介入要求（ＩＲＱ：ｉｎｔ
ｅｒｖｅｎｔｉｏｎｒｅｑｕｉｒｅｄ）、スクラッ
チ、ＴＣＢメモリ等を含む。この情報は、Ｓｌｉｍ_Ｈ
ＩＭ５０９に対して呼び出しをすることで探索される。

【００５９】第三のエントリポイントは、資源が割り当
てられて初期設定された後でＦＣＩｈｗ＿ｉｎｉｔ（）
により呼び出されるＨＩＭ＿Ｉｎｉｔｉａｌｉｚｅで、
Ｓｌｉｍ_ＨＩＭがスクラッチメモリ、ＴＣＢ及びハー
ドウェアを初期設定するようＴＣＢメモリプールを初期
設定する。

【００６０】（ｂ）フェールオーバー処理ＩＯＮダイポール２２６の半分を２つ、ディスクデバイ
スの共通セットに接続する。ＩＯＮ２１２と２１４は、
どのような時にもすべてのデバイスとアクセス可能にな
る。ＨＩＭ５０９から見て、フェールオーバーに対する
指定の処理はない。

【００６１】（６）ＡＩＣ−１１６０Ｓｌｉｍ_ＨＩＭＳｌｉｍ_ＨＩＭ５０９モジュールは、アダプタ（図示
の実施形態では、ＡＤＡＰＴＥＣＡＩＣ−１１６０）の
ハードウェア抽象化を行うという全体的な目的を有して
いる。Ｓｌｉｍ_ＨＩＭ５０９は、ファイバチャネルの
要求をＡＩＣ−１１６０アダプタに転送して割り込みを
サービスして、Ｓｌｉｍ_ＨＩＭ５０９インターフェー
スを介してＨＩＭモジュールに状態を返信する主要な役
割を有している。

【００６２】Ｓｌｉｍ_ＨＩＭ５０９はまた、ＡＩＣ−
１１６０ハードウェアのコントロールを仮定して初期設
定し、ファームウェアをロードして、ランタイムオペレ
ーションを開始し、ＡＩＣ−１１６０がエラーを起こし
た場合にはＡＩＣ−１１６０ハードウェアを管理する。

【００６３】２．外部インターフェースとプロトコルＩＯＮ物理ディスクドライバサブシステム５００の要求
はすべて、共通高位ドライバ５０２を介してなされる。

【００６４】ａ）初期設定（ｃｓ＿ｉｎｉｔ）サブシステムへのひとつのコールにより、すべての初期
設定が実行されてデバイスにＩ／Ｏが用意される。サブ
システムを初期設定する間、すべてのドライバストラク
チャを割り当ててデバイスやアダプタと同様に初期設定
する。

【００６５】ｂ）オープン／クローズ（ｃｓ＿ｏｐｅｎ
／＿ｃｌｏｓｅ）オープン／クローズインターフェースは、デバイスにア
クセスするために必要なストラクチャを初期設定し、か
つ中断する。インターフェース５１０が、典型的なオー
プン／クローズルーチンと異なるのは、すべての「オー
プン」と「クローズ」が暗黙に積層されているからであ
る。従って、Ｉ／Ｏ物理インターフェースドライバ５０
０により受信された各「オープン」は皆、受信されかつ
関連する「クローズ」により達成される。「オープン」
又は「クローズ」の復帰が要求の完了を示すという点
で、オープン／クローズインターフェース５１０は同調
する。

【００６６】ｃ）Ｂｕｔ＿ｔ（ｃｓ＿ｓｔｒａｔｅｇ
ｙ）Ｂｕｔ＿ｔインターフェース５１２は、デバイスに対す
る論理ブロック読取り及び書き出し要求の発行ができ
る。要求は、Ｉ／Ｏを記述するＢｕｔ＿ｔストラクチャ
を渡す。デバイスＩＤ、論理ブロックアドレス、データ
アドレス、Ｉ／Ｏ型式（読取り／書き出し）、コールバ
ックルーチン等の属性は、Ｂｕｔ＿ｔにより記述され
る。要求の完了時に、リクエスタのコールバックにより
指定されるような機能が呼び出される。Ｂｕｔ＿ｔイン
ターフェース５０２は、非同調インターフェースであ
る。リクエスタへの機能の復帰は、要求が完了したこと
を示唆するわけではない。機能が復帰する場合、Ｉ／Ｏ
がデバイスを実行することもしないこともある。要求
は、実行を待機している待ち行列上にあると考えられ
る。要求は、コールバック機能が呼び出されるまでは完
了しない。

【００６７】ｄ）ＳＣＳＩＬｉｂＳＣＳＩＬｉｂ５１４
は、デバイスに送信される通常の読み出し及び書込みで
はなく、ＳＣＳＩコマンド記述ブロック（ＣＤＢ（ｃｏ
ｍｍａｎｄｄｅｓｃｒｉｐｔｏｒｂｌｏｃｋ））を
可能にするインターフェースを提供する。このインター
フェースを介して、装置の開始及び停止等の要求を使用
してディスクの回転立上げ回転下げを行い、そして送信
受信診断要求を使用して格納デバイスを監視し制御す
る。ＳＣＳＩＬｉｂルーチンはすべて同調である。呼び
出された機能の復帰は、要求が完了したことを示唆する
わけではない。

【００６８】ｅ）割り込み（ｃｓ＿ｉｎｔｒ）ＩＯＮ物理ディスクドライバ５００は、すべてのＳＣＳ
Ｉとファイバチャネルアダプタの割り込みに対する中心
的なディスパッチャでる。１実施形態において、フロン
トエンドバックエンド割り込み方式を利用する。このよ
うな場合、割り込みがサービスされた時、フロントエン
ド割り込みサービスルーチンが呼び出される。フロント
エンドは割り込みスタックから実行し、割り込みソース
をクリアし、アダプタがさらに割り込みを生成できない
ようにし、バックエンド割り込みサービスルーチンをス
ケジュールする。バックエンドは、実際に割り込み（ア
ダプタの割り込みを不能にし、バックエンドタスクを開
始する間に発生する可能性がある別の割り込みにともな
う）を処理する高い優先順位のタスクとして実行する。
バックエンドから出る前に、割り込みはアダプタ上で再
可能になる。

【００６９】３．ＩＯＮ機能ＩＯＮ２１２は、主に５つの機能を実行する。かかる機能は：記憶の名前付けと投影：記憶ディスク２２４に記憶され
た記憶資源オブジェクトのイメージを演算ノード２００
に投影することにより、演算ノード２００と作用して一
様で矛盾のない記憶の名前付けを提供する。ディスク管理：制御自在にＩＯＮ２１２と接続された記
憶ディスクドライブ２２４と、データ分配とデータ冗長
性技術を実行する。記憶管理：記憶のセットアップ、演算ノード２００から
のＩ／Ｏ要求処理を含むデータ移動；パフォーマンス計
測及び事象分配の処理をする。キャッシュ管理：アプリケーションヒント先取り等のキ
ャッシュフルオペレーションを含む、読取り書き出しキ
ャッシュ。相互接続管理：演算ノードへ、かつ演算ノードからのデ
ータのフローを制御してパフォーマンスを最適化するこ
とと、リウエストのルーチングを制御して、ダイポール
２２６内の２つのＩＯＮ２１２間の記憶分配を制御す
る。

【００７０】ａ）記憶の名前付けと投影ＩＯＮ２１２は、記憶ディスク２２４に記憶された記憶
資源対象物のイメージを演算ノード２００に投影する。
この機能の重要な部分は、大域で固有の名前である、Ｉ
ＯＮ２１２により管理される各記憶資源の機構固有のＩ
Ｄ又はボリュームセット識別子（ＶＳＩ：ｖｏｌｕｍｅ
ｓｅｔｉｄｅｎｔｉｆｉｅｒ）６０２の作成と割当
である。

【００７１】図６は、ＶＳＩ６０２と関連のデータのス
トラクチャと内容とを示す図である。ＶＳＩ６０２は固
有で矛盾がないことが重要なので、各ＩＯＮ２１２は、
ＩＯＮ２１２により局所的に管理される記憶資源の大域
で固有の名前を作成して割り当てる役割を担っており、
記憶資源対象物を記憶する記憶資源を管理するそのＩＯ
Ｎ２１２のみが、かかる記憶資源のＶＳＩ６０２を割り
当てることができる。常駐の記憶資源をその時管理して
いるＩＯＮ２１２のみがＶＳＩ６０２を作成し割り当て
ることができるが、他のＩＮＯ２１２がその後にかかる
記憶資源の記憶と検索を管理することがある。それは、
ＩＯＮが割り当てられたＶＳＩ６０２を別のＩＯＮによ
り管理される記憶資源に後から移動させても、ある特定
のデータ対象物のＶＳＩ６０２を変更しなくてよいから
である。

【００７２】ＶＳＩ６０２は、ＩＯＮ識別子６０４とシ
ーケンス番号５０６との、２つの部分を含む６４ビット
数として実行される。ＩＯＮ識別子６０４は、各ＩＯＮ
２１２に割り当てられた、大域で固有の識別番号でる。
大域で固有なＩＯＮ識別子６０４を得る技術の１つは、
リアルタイムクロックチップにしばしば記憶される、電
子的に読取り可能なマザーボードのシリアル番号を使用
することである。シリアル番号はただ一つのマザーボー
ドに対して割り当てられるので、このシリアル番号は固
有である。ＩＯＮ識別子６０４は大域で固有の番号なの
で、各ＩＯＮ２１２は局所的にのみ固有のシーケンス番
号６０６を割り当てることができ、さらに大域で固有な
ＶＳＩ６０２を作成できる。

【００７３】ＶＳＩ６０２がＩＯＮ２１２の記憶資源に
結合された後、ＩＯＮ２１２は、同時通信メッセージを
介して機構上のすべてのノードにＶＳＩ６０２をエクス
ポートして、記憶資源１０４にアクセスできるようにす
る。この処理について、本ＩＯＮネームエクスポートの
セクションでさらに説明する。

【００７４】エクスポートされたＶＳＩ６０２使用し
て、演算ノード２００ソフトウェアは次に、局所的に接
続された他の記憶デバイスすべてと区別できないという
点で意味論的に透過であるその記憶資源のローカルエン
トリポイントを作成する。例えば、演算ノードオペレー
ティングシステム２０２がＵＮＩＸである場合、周辺装
置１０８又はディスク２１０等の局所的に接続されたデ
バイスと同様に、ブロックデバイスエントリポイントと
ローデバイスエントリポイントの両方がデバイスディレ
クトリに作成される。他のオペレーティングシステム２
０２に対し、同様な意味的等価が続く。別のオペレーテ
ィングシステム２０２を実行中の演算ノード２００の間
で、ルートネームの一貫性が維持され、ヘテロジニアス
計算機環境がもっともよく維持される。演算ノード２０
０のローカルエントリポイントは、ＩＯＮ２１２により
動的にアップデートされエクスポートされた記憶資源１
０４の現在の利用可能性をトラックする。ＶＳＩ６０２
は、演算ノード２００を実行中のＯＳ従属形アルゴリズ
ムにより使用して、インポートされた記憶資源のデバイ
スエントリポイントを作成する。かかるアプローチによ
り、共通オペレーティングシステムを共有するノード間
の名前の一貫性が保証される。これにより、各演算ノー
ド２００の大域的に名付けられた記憶資源の局所エント
リポイントを動的（静的にではなく）に作成することに
より、システムがルートネームの一貫性維持してヘテロ
ジニアス計算機環境をサポートできるようにする。

【００７５】上述のように、記憶資源１０４のＶＳＩ６
０２を作成する詳細は、記憶資源１０４をエクスポート
するＩＯＮ２１２により直接コントロールされる。演算
ノード２００間での予想されるオペレーティングシステ
ム１０４の差が原因で、１以上の記述ヘッダが各ＶＳＩ
６０２と対応付けられ、ＩＯＮ２１２のＶＳＩ０２とと
もに記憶される。各ＶＳＩ６０２の記述子６０８は、そ
の指定のＶＳＩ６０２の、演算ノード２００でのデバイ
スエントリポイントを一貫して（名前意味と操作意味は
ともに演算ノード２００全体に同様にわたる）作成する
ために必要な、十分なＯＳ２０２を記憶するためのオペ
レーティングシステム（ＯＳ）従属形データセクション
６１０を含む。かかるＯＳ従属形データ６１０は例え
ば、データ記述アクセス権６１２と所有権情報６１４を
含む。ＶＳＩ６０２がＩＯＮ２１２により設定され、演
算ノード２００によりインポートされた後であるがＶＳ
Ｉ６０２に対応する記憶資源１０４のエントリポイント
が作成される前に、適切なＯＳ指定データ６１０がＩＯ
Ｎ２１２により演算ノード２００に送信される。

【００７６】１つのＶＳＩ６０２当たり複数の記述ヘッ
ダが、異なるＯＳ（各ＯＳはは各所有の記述ヘッダを有
する）を実行中の複数の演算ノード２００を平行サポー
トすることと、かつ演算ノード２００の異なるグループ
間の外されたアクセス権をサポートすることの両方を可
能にする。同じ記述ヘッダを共有する演算ノード２００
により、デバイスエントリポイントの共通でかつ一貫し
た作成が共有される。従って、名前意味と操作意味はと
もに、アクセス権の共通セットを共有するすべての演算
ノード２００で一貫性が保たれる。

【００７７】ＶＳＩ６０２の記述子６０８はまた、演算
ノード２００上で人間が読取り可能なＳＩ６０２の名前
を表示するために使用される、エイリアスフィールド６
１６を含む。例えば、ＶＳＩ１９８４のエイリアスが
「ｓｏｍａ」の場合には、演算ノード２００は１９８４
と「ｓｏｍａ」の両方のディレクトリエントリを有す
る。ＶＳＩ６０２の記述子６０８は、ＩＯＮ２１２でＶ
ＳＩ６０２とともに記憶されるので、同じエイリアスと
ローカルアクセス権がＶＳＩ６０２をインポートする各
演算ノード２００に現れる。

【００７８】上述のように、本発明は分散割当方法に適
したネーミングアプローチを使用している。本アプロー
チにおいて、名前は大域で固有性を作成するアルゴリズ
ムに従って局所的に作成される。この変形が、セントラ
ルネームサーバ、可用性及び頑強性の要件が、純粋な分
散アプローチに対し非常に重要視される局所的集中アプ
ローチに続く。前述の方法を使用して、本発明は大域で
の固有性を保証する、局所的に実行されるアルゴリズム
を作成できる。

【００７９】大域で一貫性のある記憶システムを作成す
るには、演算ノード２００全体にわたって名前の一貫性
を単純に保存すること以上のサポートが必要である。名
前との両立は、本発明では２つの形式をとる安全保護の
問題である。第一は、ＩＯＮ２１２と演算ノード２００
との間のインターフェースの安全保護で、第二は演算ノ
ード２００内部からの記憶の安全保護である。

【００８０】ｂ）記憶の認証と許可ＶＳＩ６０２資源は、２つの別個の機構である、認証と
許可で保護されている。演算ノード２００がＩＯＮ２１
２により認証されると、次にＶＳＩネームが演算ノード
２００にエクスポートされる。エクスポートされたＶＳ
Ｉ６０２は、演算ノード２００上にデバイスネームとし
て現れる。演算ノード２００上で実行中のアプリケーシ
ョンスレッドは、このデバイスネームで操作を実行しよ
うとすることができる。デバイスエントリポイントのア
クセス権と演算ノード２００のＯＳ意味が、アプリケー
ションスレッドが許可されて任意の認証のどれでも実行
できるかどうかを確定する。

【００８１】許可に対する本アプローチは、相互接続機
構１０６によりアクセス可能な場所ならばどこへでも設
置できる記憶資源１０４に対する演算ノード２００の許
可を拡張する。しかしながら、本発明の記憶資源１０４
が記憶資源２００により直接管理されるのではないとい
う点で、本発明は他のコンピュータアーキテクチャとは
異なる。その代わりに、本発明は演算ノード２００の許
可ポリシーをＩＯＮ２１２のＶＳＩ６０２と結合させ
て、演算ノード２００とＩＯＮ２１２が相互信用レベル
を共有する、２段アプローチを使用する。ＩＯＮ２１２
は、指定のＶＳＩ６０２に対する各演算ノード２００の
アクセスを許可するが、ＶＳＩにより割り当てられたデ
ータに対する指定のアプリケーションスレッドの許可の
改良は、演算ノード２００が担う役割である。演算ノー
ド２００は次に、ＩＯＮ２１２により記憶された許可メ
タデータに含まれるポリシーを使用することにより、記
憶エンティティ１０４の許可ポリシーを実行する。従っ
て、記憶リソース２００はメタデータを保存するＩＯＮ
２１２を信用することが要求され、ＩＯＮ２１２が許可
を実行する記憶リソース２００を信用することを必要と
する。本アプローチの長所は、ＩＯＮ２１２が、どのよ
うにメタデータに割り込むかについて知っている必要が
ないことである。従って、ＩＯＮ２１２が、演算ノード
２００が使用する異なるオペレーションシステム２０２
により付けられる異なる許可意味論が付ける、指定のの
許可意味を実行することから分離される。

【００８２】ＶＳＩ６０２に対応するデータ（アクセス
権を含む）はすべて、ＩＯＮ２１２に記憶されるが、ア
クセス権データの内容を管理する負担を演算ノード２０
０にかける。さらに詳細には、ＩＯＮ２１２によりエク
スポートされているＶＳＩ６０２のリストは、記憶リソ
ース２００に送信され、対応する各ＶＳＩ６０２は、局
所での許可を実行する演算ノード２００が必要とするＯ
Ｓ指定データのすべてである。例えば、ＵＮＩＸを実行
中の演算ノード２００に名前、グループネーム、ユーザ
ＩＤ及び方式ビットという、ファイルシステムのデバイ
スエントリノードを作成するのに十分なデータが送信さ
れる。演算ノードオペレーティングシステム２０２のそ
のクラスに指定のＶＳＩ６０２（あるいはその演算ノー
ド２００に特定の）の代替ネームは、各ＶＳＩ６０２に
含まれる。記憶デバイスのアクセス権を変更する局所Ｏ
Ｓ特定コマンドは、演算ノード２００のソフトウェアに
より計算され、ＩＯＮ２１２に送信されるメッセージに
変換される。このメッセージは、ＯＳのバージョンに指
定のＶＳＩアクセス権データをアップデートする。この
変更が完了した時、ＩＯＮ２１２は、システム内のその
ＯＳを使用して、このアップデートをすべての演算ノー
ド２００に送信する。

【００８３】ある演算ノード（ＣＮ）２００がオンライ
ンになる場合、「Ｉ‘ｍｈｅｒｅ」メッセージを各Ｉ
ＯＮ２１２に送信する。このメッセージは、その演算ノ
ード２００を識別するデジタル署名を含む。演算ノード
２００が、ＩＯＮ２１２（このＩＯＮ２１２はその演算
ノード２００を認証する）により認識され、このＩＯＮ
２１２はその演算ノード２００がアクセス権を有するＶ
ＳＩのネームすべてをエクスポートする。その演算ノー
ド２００はＶＳＩ６０２のネームリストを使用して、シ
ステム記憶のローカルアクセスエントリポイントをつく
る。演算ノード２００を実行中のアプリケーション２０
４はまず、ローカルエンドポイントを参照し、演算ノー
ド２００は、相互接続機構１０６を越えてメッセージを
送信することによりそのＶＳＩ６０２のアクセス権記述
データをＩＯＮ２１２に要求する。要求メッセージは、
要求する演算ノード２００のデジタル署名を含む。ＩＯ
Ｎ２１２はメッセージを受信し、デジタル署名を使用し
て返信される適切なＶＳＩアクセス権のセットを発見し
て、相互接続機構１０６を介して要求の演算ノード２０
０にそのデータを送信する。演算ノード２００ソフトウ
ェアは、このデータを使用して適切なローカルアクセス
権のセットを主体となる記憶対象物のローカルエントリ
ポイントと結合する。

【００８４】演算ノード２００のセットは、同じデジタ
ル署名を使用するか又はＩＯＮ２１２に異なる署名を同
じセットのアクセス権と結合させるかのいずれかによ
り、同じアクセス権を共有できる。本発明は、演算ノー
ド２００を識別することと、ローカル認証データのセッ
トを使用してローカルエントリポイントの作成を指定す
ることの両方に認証を使用する。ＶＳＩ６０２を最初に
アプリケーションが参照する時に、認証データを演算ノ
ードに引き寄せる。このような「必要時に引く」モデル
により、非常に大型の装置の大量のアクセス権メタデー
タを移動させる開始費用の負担が避けられる。

【００８５】ある演算ノード２００が認証に失敗した場
合、ＩＯＮ２１２は、ＶＳＩ６０２ネームのないメッセ
ージを返信し、認証失敗のフラグが設定される。演算ノ
ード２００は、そのＩＯＮ２１２からのＶＳＩデバイス
ネームなしでで静かに継続し、システムアドミニストレ
ータの要望に従って認証失敗の報告をすることがある。
もちろん、認証に成功して、ＶＳＩデバイスネームが演
算ノードに転送されないこともある。

【００８６】ｃ）非干渉化の起動ＩＯＮ２１２が起動すると、ＶＳＩ６０２を相互接続機
構１０６にエクスポートしようとする。このような場
合、システムのデータの完全性が、新しいＩＯＮ２１２
による破壊から保護される。これを、達成するため新し
いＩＯＮ２１２は、記憶のエクスポートが許可される前
にチェックされる。これにより、次のように達成され
る。第一に、ＩＯＮ２１２が自身のローカル記憶を調べ
てエクスポート可能なＶＳＩ６０２のリストを作成す
る。ＶＳＩ６０２のメタデータは、ＶＳＩの作成又は突
然変異数を含んでいる。ＶＳＩ突然変異数を、かかるＶ
ＳＩ６０２（ＶＳＩのネットワークへのエクスポートが
成功した時等）に関係する大きな状態の変化があるとき
にはいつでも増加させる。すべてのノードは、演算ノー
ド２００とＩＯＮ２１２がエクスポートされたＶＳＩの
数と突然変異数のヒストリをメモリに維持することを含
む、ＶＳＩの矛盾の検出に参加する。まず、ＶＳＩ突然
変異数（記憶拡張が最初に作成されたとき）がゼロに設
定される。「真の」ＶＳＩ６０２と対応するＩＯＮ２１
２がサービスされていない場合であっても、エクスポー
トされた時よりも低い突然変異数とエクスポートされた
ＶＳＩ６０２は「詐称者（ｉｍｐｏｓｔｏｒ）」のＶＳ
Ｉ６０２と見なされることがあるという点で、突然変異
数は矛盾のない参照を提供する。Ｉ／Ｏがすでに真のＶ
ＳＩ６０２上で実行されていないかぎり、「真の」ＶＳ
Ｉ６０２突然変異数よりも高い、対応する突然変異数を
持つＩＯＮ２１２に接続された「詐称者」のＶＳＩ６０
２は、真のＶＳＩ５１２であると考えられる。相互接続
機構１０６に新規に導入されたＩＯＮ２１２は、０から
始まる突然変異数を有することを必要とする。

【００８７】ＩＯＮ２１２がシステムへの参加を希望す
ると告げた後、ＶＳＩ６０２と対応する突然変異数のリ
ストを転送する。他のＩＯＮ２１２と演算ノード２００
すべてがこのリストを得て、次にＩＯＮ２１２がＶＳＩ
６０２のリストをエクスポートする妥当性をチェックす
る。

【００８８】現在同じＶＳＩ６０２をエクスポートして
いる他のＩＯＮ２１２は妥当であると見なされて、新規
のＩＯＮ５１２に矛盾する指定のＶＳＩのエクスポート
不許可のメッセージを送信する。新規のＩＯＮ５１２
が、作成又はシステムで現在使用されているものよりも
大きな突然変異数を有している場合、（ＶＳＩが大域で
固有であるというような、通常の操作ではあり得ないよ
うな場合）このことに気づいて、必要な場合にはいかな
る手段をもとるシステムアドミニストレータに報告され
る。矛盾がない場合には、各ＩＯＮ２１２と演算ノード
２００は作業を進めるように応答する。ＩＯＮ２１２と
演算ノード２００のすべてからの応答が受信された時、
矛盾のない新規のＩＯＮ２１２のＶＳＩ６０２はすべ
て、作成番号を増加して、エクスポートのシステムに対
し利用可能となる。

【００８９】演算ノード２００がアプリケーションの参
照とＶＳＩ６０２に対するアクセスを有している場合、
演算ノード２００は現在の作成番号を局所的にトラック
する。新規のＩＯＮ２１２がＶＳＩ６０２を公示する
（エクスポートしようとする）時にはいつでも、演算ノ
ード２００はＶＳＩ６０２が公示する作成をＶＳＩ６０
２の局所で記憶された作成番号に対してチェックをす
る。作成番号が一致する場合には、演算ノード２００は
作業の前進を許可する。作成番号が矛盾している場合に
は（古いバージョンのＶＳＩがオンライン上に持ち込ま
れた場合等）、演算ノード２００は、不許可のメッセー
ジを送信する。ＶＳＩ６０２の新規のＩＯＮ２１２が公
示する作成番号よりも古い番号を有する演算ノード２０
０が作業の前進を許可する場合には、ＶＳＩ６０２のロ
ーカルバージョンの作成番号をアップデートする。演算
ノード２００が再ブートと再ブートの間に作成番号を保
存しないのは、相互接続機構１０６全体にわたる基本設
計が安定しており、演算ノード２００とＩＯＮ２１２を
含む新規参入者のすべてに対して一貫性検査が行われる
からである。最初の電源投入で、ＶＳＩ６０２に対する
ネーム空間の安定性が問題になっていると考えられる、
いくつかの状況が生成されることがある。この問題はＩ
ＯＮ２１２に最初に電源を入れることによりアドレスさ
れ、演算ノード２の参加が許可される前にＩＯＮ２１２
に名前の矛盾の解決を続けられるようにする。古いバー
ジョンのＶＳＩ６０２（ディスクドライバ上の古いデー
タと他の退化的な条件）は、作成番号を介して解決され
る。いずれの演算ノード２００もＶＳＩ６０２を使用し
ないかぎり、高位の作成番号を有する新規参入者により
指定のＶＳＩ６０２の現在のエクスポターを無効にさせ
ることができる。

【００９０】（１）ネームサービス（ａ）ＩＯＮネームエクスポートＩＯＮ２１２は、独占的に所有する、対応する記憶への
アクセスを可能にするＶＳＩ６０２のワーキングセット
をエクスポートする。ＩＯＮ２１２によりエクスポート
されたＶＳＩのワーキングセットは、同僚（ｂｕｄｄ
ｙ）ＩＯＮ（２１４として図示の、ダイポール２２６内
部のもう１つのＩＯＮ２１２）との所有権交渉を介して
動的に確定され、相互接続機構１０６と通信するすべて
のノード内で大域で固有であるとされる。このセット
は、典型的には、ＩＯＮ２１２に割り当てられたＶＳＩ
６０２の省略時又はＰＲＩＭＡＲＹのセットである。
「動的ロードバランシング」のためのＶＳＩ移行と、同
僚ＩＯＮ２１２の障害とＩ／Ｏパスの障害とを含む例外
条件とにより、エクスポートされたＶＳＩ６０２のセッ
トがＰＲＩＭＡＲＹセットと異なる結果になることがあ
る。ワーキングセットが変化して演算ノード２００に最
新のＶＳＩコンフィギュレーションを提供するときはい
つでも、ＶＳＩのワーキングセットは、同時通信メッセ
ージを介してＩＯＮ２１２によりエクスポートされる。
演算ノード２００はまた、ＩＯＮ２１２にＶＳＩ６０２
のワーキングセットについて問い合わせる。一旦ＩＯＮ
２１２がエクスポートされたＶＳＩ０２に対するオンラ
イン状態を入力する又は再入力すれば、ＶＳＩ６０２に
対するＩ／Ｏアクセスは、演算ノード２００により開始
されることが可能である。前述のように、エクスポート
されたＶＳＩ６０２内に何らかの矛盾がある場合には、
ＩＯＮ２１２はオンライン状態に入ることを許可されな
いことがある。あるまとまった記憶に対応するＶＳＩ６
０２は、すべて固有であるのが当然とされるが、複数の
まとまった記憶が同じＶＳＩを有するかもしれないとい
った矛盾（例えば、ＩＯＮ２１２ハードウェアと対応す
る固有のＩＤからＶＳＩが構成される場合や、ＩＯＮ２
１２がハードウェアが物理的に移動させられた場合等）
が生じる偶然がある。

【００９１】一旦ワーキングセットがエクスポートされ
たならば、オンライン状態に入ってエクスポートされた
ＶＳＩ６０２に対するＩ／Ｏアクセスを可能にする前
に、エクスポートするＩＯＮ２１２は矛盾チェックタイ
マ（２秒間）を設定する。この矛盾チェックタイマは、
インポーターが矛盾のチェック処理をし、エクスポータ
ーに矛盾を知らせるための十分な時間を与えようと試み
るが、タイマが非常に大きい値で設定されないかぎり、
この時間は保証されない。従って、ＩＯＮ２１２は、公
式にオンラインになっているすべてのノード（演算ノー
ド２００とＩＯＮ２１２）から明瞭な承認が必要であ
る。オンライン同時通信メッセージは、すべてのノード
により同調して応答が返されて、結果が現れて同時通信
が返される。現れた応答がＡＣＫ（ａｃｋｏｗｌｅｄｇ
ｅ（肯定応答））の場合には、ＩＯＮ２１２が公式にオ
ンライン状態に入る。ＩＯＮ２１２がオンラインになる
ことが許可されない場合には、ＶＳＩ６０２の新規にエ
クスポートされたセットにアクセスできない。ＮＡＫ
（ｎｅｇａｔｉｖｅａｃｋｎｏｗｌｅｄｇｅ（否定応
答））を送信したノードはまた、続いてＶＳＩ矛盾メッ
セージをエクスポーターに送信して矛盾を解決する。一
旦、矛盾が解決されれば、ＩＯＮ２１２は調整されたワ
ーキングセットをエクスポートしてもう一度オンライン
に入ろうとする。

【００９２】（ｂ）ＣＮネームインポート演算ノード２００は、すべてのＩＯＮ２１２からエクス
ポートされたＶＳＩ５０４をインポートする手段をとる
役割がある。一日の作業開始処理中に、演算ノード２０
０はオンラインのＩＯＮ２１２すべてに以前にエクスポ
ートされたＶＳＩ６０２を要求するので、ネーム空間に
関する最新のビューを得ることができる。この点から、
演算ノード２００はＶＳＩ６０２エクスポートに注意を
払う。

【００９３】ＶＳＩ６０２に対応する制御情報は、ＩＯ
Ｎ２１２により維持されるｖｓノードに含まれる。ｖｓ
ノードの演算ノード２００部分は、アプリケーション２
０４に与えられたネームの構築と管理に使用される情報
を含んでいる。ｖｓノード情報は、ユーザのアクセス権
とネームエイリアスを含んでいる。

【００９４】（ｉ）ネームドメインとエイリアスＶＳＩ６０２は、代替えネームを提供して対応する記憶
にアクセスする、アプリケーション定義のネームエイリ
アスを有するように構成されることもある。このネーム
エイリアスは、論理的にネームのセットをまとめる仮想
記憶領域に付けられる。ネームエイリアスは、仮想記憶
領域内で固有でなければならない。

【００９５】（ｉｉ）ＶＳノード演算ノード２００によるｖｓノードに対する修正は、即
時更新と即時処理をするＩＯＮ２１２に送信される。次
に、変更をエクスポートしてオンライン状態に再度入る
ことにより、ｖｓノードの変更がＩＯＮ２１２によりす
べてのノードに伝播される。

【００９６】ｄ）記憶ディスク管理ＪＢＯＤ格納装置２２２は、いくつかのサービスをディ
スクドライブと格納装置管理アプリケーションに対して
提供するとともに、ディスクドライブに物理環境を提供
する役割がある。かかるサービスのいくつかは、（１）
構成要素障害の通知（電源、ファン等）；（２）閾い値
通知（温度と電圧）；（３）障害と状態のライトを使用
可能と禁止にする；（４）警報音を使用可能と禁止にす
る；（５）ディスクドライブのデバイスＩＤを設定する
ことを含む。

【００９７】過去、管理アプリケーションは通常、バン
ド外接続を介して格納装置とインターフェースしてい
た。シンプル・ネットワーク・マネジメント・プロトコ
ル（ＳＮＭＰ）の様なプロトコルをともに使用する遠隔
格納装置へのシリアルまたはイーサーネット接続によ
り、格納装置の健康状態に関する状態情報の受信が行わ
れた。本発明では、ディスク格納装置がホスト装置から
物理的に離れているので、格納装置のコンフィギュレー
ション及び状態を別のシリアルパス等の直接接続を介し
て監視することは実用的ではない。余計な配線を避ける
ため、格納装置の状態を監視するためと通常に存在する
ファイバチャネルループを覆う格納装置のコンフィギュ
レーションを制御するために、本発明ではバンド内接続
を用いる。

【００９８】バンド内接続では、コンフィギュレーショ
ン状態を照会し制御するＳＣＳＩデバイスと、この情報
を格納装置自体と通信するデバイスの機構とに送信され
る、ホストが発信するＳＣＳＩコマンドのセットを使用
する。ホストとディスクドライブとの間のプロトコルの
部分は、ＳＣＳＩ−３格納装置サービス（ＳＥＳ）の仕
様書に詳述されており、ここに引用されて取り込まれて
いる。３つのＳＣＳＩコマンドが、ＳＥＳインターフ
ェースを実行するために使用されている。「ＩＮＱＵＩ
ＲＹ」、「ＳＥＮＤＤＩＡＧＮＯＳＴＩＣ」及び「Ｒ
ＥＣＥＩＶＥＤＩＡＧＮＯＳＴＩＣＲＥＳＵＬＴＳ」
である。「ＩＮＱＵＩＲＹ」コマンドは、指定のデバイ
スが、格納装置サービスデバイスなのか又はＳＥＳコマ
ンドをある格納装置サービスのプロセスに転送するデバ
イスなのかを指定する。「ＳＥＮＤＤＩＡＧＮＯＳＴ
ＩＣＳ」及び「ＲＥＣＥＩＶＥＤＩＡＧＮＯＳＴＩＣ
ＲＥＳＵＬＴＳ」は、各々格納装置エレメントからの状
態情報を制御し、かつ受信するために使用される。

【００９９】「ＳＥＮＤＤＩＡＧＮＯＳＴＩＣＳ」又
は「ＲＥＣＥＩＶＥＤＩＡＧＮＯＳＴＩＣＲＥＳＵ
ＬＴＳ」コマンドを使用する場合には、ページコードが
指定されなければならない。ページコードが、どんな形
式の状態か又はどんな情報が必要とされるのか指定す
る。「ＳＥＮＤＤＩＡＧＮＯＳＴＩＣＳ」又は「ＲＥ
ＣＥＩＶＥＤＩＡＧＮＯＳＴＩＣＲＥＳＵＬＴＳ」
コマンドを介して要求されうる定義されたＳＥＳページ
の完全なセットについて、以下の表ＶＩＩに詳細に記述
する。太字のアイテムはＳＥＳイベントモニタが必要と
する。

【表７】１を越える最小割り当て長を有する格納装置状態ページ
を要求する「ＲＥＡＤＤＩＡＧＮＯＳＴＩＣＳＲＥＵ
ＳＬＴＳ」コマンドを実行することにより、アプリケー
ションクライアントが格納装置を定期的にポーリングす
る。１バイトで復帰する情報は、格納装置の状態を要約
する５ビットを含む。かかるビットの１つが設定される
場合、アプリケーションクライアントがより大きい割当
長を有するコマンドを再発行して完全な状態を得る。

【０１００】ｅ）ＩＯＮ格納装置管理図７は、ＩＯＮ格納装置管理モジュールとＩＯＮ物理デ
ィスクドライバアーキテクチャ５００との関係を示す。
２つの構成要素、ＳＥＳイベントモニタ７０２とＳＣＣ
２+対ＳＥＳガスケット７０４によりこのサブシステム
は構成される。ＳＥＳイベントモニタ７０２は、接続さ
れた格納装置サービスプロセスのすべてを監視し、状態
変化の場合にはイベント記録サブシステムを介して、そ
のことを報告する役割を有している。これは、必要の場
合には管理サービスレイヤ７０６に報告できる。ＳＣＣ
２+対ＳＥＳガスケット構成要素７０４は、コンフィギ
ュレーションと保守アプリケーションからのＳＣＣ２+
コマンドを変換して、かかるコマンドを格納装置サービ
スプロセスに対する１以上のＳＥＳコマンドに変換す
る。これにより、アプリケーションクライアントがＪＢ
ＯＤコンフィギュレーションの詳細を知る必要がなくな
る。

【０１０１】（１）ＳＥＳイベントモニタＳＥＳイベントモニタ７０２は、格納装置２２２のサー
ビスプロセスの状態変更を管理サービスレイヤ７０６に
報告を返す。状態情報は、イベント記録サブシステムを
介して報告される。格納装置状態ページを要求する「Ｒ
ＥＡＤＤＩＡＧＮＯＳＴＩＣＳＲＥＳＵＬＴＳ」コ
マンドを実行することにより、ＳＥＳイベントモニタ７
０２は、各格納装置プロセスを定期的にポーリングす
る。「ＲＥＡＤＤＩＡＧＮＯＳＴＩＣＳＲＥＳＵＬ
ＴＳ」コマンドは、ＩＯＮ物理ディスクドライバ５００
が行ったように、ＳＣＳＩＬｉｂインターフェース５１
４を介して送信される。報告されると考えれる状態は、
以下の表ＶＩＩＩにあげられた状態を含む。

【表８】ＳＥＳイベントモニタ７０２が開始する時には、格納装
置に含まれる各要素４０２−４２４の状態を読み取る。
この状態は「現在の状態」である。状態変更が検出され
る場合には、「現在の状態」から変更した各状態は管理
サービスレイヤ７０６に報告が返される。かかる新規の
状態が、今の「現在の状態」である。例えば、ファンエ
レメントの現在の状態がＯＫで、現在の状態変更がその
エレメントをファン故障と報告する場合、事象をファン
障害に指定する報告がなされる。現在の別の状態変更が
エレメントがインストールされていないと指定する場合
には、その別の事象についてファンが格納装置から取り
除かれたことを指定する報告がなされる。また別の状態
変更がファンエレメントがＯＫであると指定する場合に
は、この別の事象についてファンが接続されてきちんと
作動していることを指定する報告がなされる。

【０１０２】（ａ）一日の作業開始処理ＳＥＳイベントモニタ７０２は、ＩＯＮ物理ディスクド
ライバ５００がうまく初期設定された後、開始される。
開始後、ＳＥＳイベントモニタ６０２は、ＪＢＯＤとＳ
ＣＳＩコンフィギュレーションモジュール５１６を読取
り、ディスクデバイスと格納装置サービスデバイスの相
関とデバイスがどのようにアドレスされるか検索する。
次に、各格納装置状態デバイスを読み取る。そして、す
べてのエラー条件とミッシングエレメントに対して事象
が作成される。かかるステップが完了した後、状態が現
在の「現在の状態」となりポーリングが開始される。

【０１０３】（２）ＳＣＣ２+対ＳＥＳガスケットＳＣＣ+は、仮想デバイスと物理デバイスを構成して管
理するＩＯＮ２１２により使用されるプロトコルであ
る。ＳＣＣ２+中の「+（プラス）」は、ＩＯＮ２１２デ
バイスと構成要素の完全な管理能力を可能にさせる追加
を表し、ＳＥＳに対するＳＣＣ２定義コマンドの一貫し
たマッピングを行わせる。サービスレイヤ７０６は、
「ＳＣＣ２ＭＡＩＮＴＥＮＡＮＣＥＩＮ」と「ＭＡ
ＩＮＴＥＮＡＮＣＥＯＵＴ」のコマンドを介してＪＢ
ＯＤ格納装置要素にアドレスする。次のセクションで、
構成要素の状態を構成し、制御し、報告する機能を提供
するサービス動作について述べる。かかるコマンドは
皆、「ＳＥＮＤＤＵＩＡＧＮＯＳＴＩＣＳ」と「ＲＥ
ＣＥＩＶＥＤＩＡＧＮＯＳＴＩＣＲＥＳＵＬＴＳ」
の一連のＳＣＳＩコマンドで、ＩＯＮ２１２で実行され
る。

【０１０４】構成要素のコンフィギュレーションには、
次のサービス動作を使用して実行する。

【０１０５】「ＡＤＤＣＯＭＰＯＮＥＮＴＤＥＶＩ
ＣＥ」−この「ＡＤＤＣＯＭＰＯＮＥＮＴＤＥＶＩ
ＣＥ」コマンドは、システムに構成要素デバイスを構成
し、デバイスのＬＵＮアドレスを定義するために使用さ
れる。このＬＵＮアドレスは、ＳＥＳコンフィギュレー
ションページの構成要素の位置に基づいて、ＩＯＮ２１
２により割り当てられる。ＬＵＮアドレスの結果を得る
ためのこのコマンドに続いて、「ＲＥＰＯＲＴＣＯＭ
ＰＯＮＥＮＴＤＥＶＩＣＥ」サービス動作を実行す
る。

【０１０６】「ＲＥＰＯＴＲＴＣＯＭＰＯＮＥＮＴ
ＤＥＶＩＣＥ」−この「ＲＥＰＯＴＲＴＣＯＭＰＯＮ
ＥＮＴＤＥＶＩＣＥ」サービス動作は、構成要素デバ
イスのついての完全な状態情報を検索しようとする、ベ
ンダ固有のコマンドである。ＳＥＳは、各要素形式のた
めに４バイトを提供する。この新規のコマンドが必要と
なるのは、「ＲＥＰＯＲＴＳＴＡＴＵＳ」と「ＲＥＲ
ＰＯＲＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥ」サービ
ス動作が状態情報に１バイトのみを割り当てるからで、
定義された状態は、ＳＥＳの標準により定義された状態
との矛盾をコード化する。

【０１０７】「ＡＴＴＡＣＨＣＯＭＰＯＮＥＮＴＤ
ＥＶＩＣＥ」−この「ＡＴＴＡＣＨＣＯＭＰＯＮＥＮＴ
ＤＥＶＩＣＥ」は、１以上の論理単位が指定の構成要
素デバイスに論理的に接続されていることを要求する。
このコマンドは、ボリュームセットと構成要素デバイス
の間に、ファン、電源等の、ボリュームセットと構成要
素デバイスが従属する理論対応を形成するために使用さ
れる。

【０１０８】「ＥＸＣＨＡＮＧＥＣＯＭＰＯＮＥＮＴ
ＤＥＢＶＩＣＥ」−この「ＥＸＣＨＡＮＧＥＣＯＭ
ＰＯＮＥＮＴＤＥＢＶＩＣＥ」サービス動作は、ある
構成要素デバイスの別のデバイスとの置換を要求する。

【０１０９】「ＲＥＭＯＶＥＣＯＭＰＯＮＥＮＴＢ
ＤＥＶＩＣＥ」−この「ＲＥＭＯＶＥＰＥＲＰＨＥＲ
ＡＬＤＥＶＩＣＥ／ＣＯＭＰＯＮＥＮＴＢＤＥＶＩ
ＣＥ」サービス動作は、周辺デバイス又は構成要素デバ
イスをシステムコンフィギュレーションから取り除くこ
とを要求する。理論単位と接続した構成要素デバイスが
取り除かれた場合、このコマンドは「ＣＨＥＣＫＣＯ
ＮＤＩＴＩＯＮ」とともに停止される。「ＲＥＭＯＶＥ
ＯＦＬＯＧＩＣＡＬＵＮＩＴＦＡＩＬＥＤ」の
追加のセンス修飾子とともに、センスキーは、「ＩＬＬ
ＥＧＡＬＲＥＱＵＥＳＴ」である。

【０１１０】ある構成要素についての状態及び他の情報
は、次のサービス動作を介して得られる。

【０１１１】「ＲＥＰＯＲＴＣＯＭＰＯＮＥＮＴＳ
ＴＡＴＵＳ」−この「ＲＥＰＯＲＴＣＯＭＰＯＮＥＮＴ
ＤＥＶＩＣＥＳＴＡＴＵＳ」サービス動作は、構成
要素デバイスについての完全な状態情報を検索しようと
するベンダ固有のコマンドである。ＳＥＳは、各要素形
式のために４バイトを提供する。

【０１１２】「ＲＥＰＯＲＴＳＴＡＴＵＳ」と「ＲＥ
ＲＰＯＲＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥ」サービ
ス動作は、状態情報に１バイトのみを割り当てて、定義
された状態は、ＳＥＳの標準により定義された状態との
矛盾をコード化する。従って、この新規のコマンドが必
要とされる。

【０１１３】「ＲＥＰＯＲＴＳＴＳＡＴＵＳ」−この
「ＲＥＰＯＲＴＳＴＳＡＴＵＳ」サービス動作は、選
択された論理単位についての状態情報を要求する。各論
理単位の１以上の状態に関するリストを復帰する。

【０１１４】「ＲＥＰＰＲＴＣＯＭＰＯＮＥＮＴＤ
ＥＶＩＣＥ」−この「ＲＥＰＰＲＴＣＯＭＰＯＮＥＮＴ
ＤＥＶＩＣＥ」サービス動作は、ＪＢＯＤ内部の構成
要素デバイスに関する情報を要求する。ＬＵＮ記述子順
序の付けられたリストを復帰して、ＬＵＮアドレス、構
成要素の形式及び全体の状態を報告する。このコマンド
を、初期コンフィギュレーションプロセスとして使用し
て、ＡＤＤＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥサービ
ス動作により割り当てられたＬＵＮアドレスを確定す
る。

【０１１５】「ＲＥＰＰＲＴＣＯＭＰＯＮＥＮＴＤ
ＥＶＩＣＥＡＴＴＡＣＨＭＥＮＴＳ」−「ＲＥＰＰＲ
ＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥＡＴＴＡＣＨ
ＭＥＮＴＳ」サービス動作は、指定の構成要素デバイス
に接続された理論単位に関する情報を要求する。各々Ｌ
ＵＮ記述子のリストを含有している、構成要素デバイス
記述子のリストを復帰する。ＬＵＮ記述子は、対応する
構成要素に接続された各理論単位の形式とＬＵＮアドレ
スを指定する。

【０１１６】「ＲＥＰＯＲＴＣＯＭＰＯＮＥＮＴＤ
ＥＶＩＣＥＩＤＥＮＴＩＦＩＥＲ」−この「ＲＥＰＯ
ＲＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥＩＤＥＮＴ
ＩＦＩＥＲ」サービス動作は、指定された構成要素デバ
イスの位置を要求する。この値は、ＳＥＴＣＯＭＰＯ
ＮＥＮＴＤＥＶＩＣＥＩＤＥＮＴＩＦＩＥＲサービ
ス動作により以前に設定されたはずの値である。構成要素の管理は以下により実行される：「ＩＮＳＴＲ
ＵＣＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥ」−この
「ＩＮＳＴＲＵＣＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣ
Ｅ」コマンドを使用して電源のオン又はオフ等の制御指
示を構成要素デバイスに送信する。指定のデバイスに適
用される動作は、構成要素の形式及びベンダの指定に基
づいて変わる。

【０１１７】「ＢＲＥＡＫＣＯＭＰＯＮＥＮＴＤＥ
ＶＩＣＥ」−この「ＢＲＥＡＫＣＯＭＰＯＮＥＮＴ
ＤＥＶＩＣＥ」サービス動作は、指定の構成要素を故障
（障害）の状態にする。

【０１１８】Ｃ．相互接続機構１．概観本発明の記憶モデルに接続された機構は、より多くのデ
ータ転送を可能にするので、データコピーと割り込み処
理のコストによるＩ／Ｏパフォーマンスに関する懸念を
アドレスする。方法を独自に結びつけることによる本発
明でのデータコピー、割り込み及びフロー制御問題につ
いて述べる。多くのネットワークで使用される宛先に基
づくアドレッシングモデルと異なり、本発明は、データ
を機構全体に転送する前に送信側が宛先の目的バファを
選択する、送信側に基づくアドレッシングを使用する。
送信者ベースのモデルにおいては、宛先側は、送信側に
対し、メッセージが送信される前にメッセージを送信で
きる行き先アドレスを転送する。メッセージを送信する
ため、送信側はまず、このリストから宛先バファを選択
する。これは、ターゲット側のアプリケーションが、か
かるバファのアドレスを目的のネットワークハードウェ
アにより使用されるＯＳにすでに送信しているから可能
なのであって、ネットワークのハードウェアに従って、
十分な情報が与えられるので、ＤＭＡオペレーションを
介してコピーなしでデータを直接目的バッファに転送す
ることができる。いくつかの点からは恩恵があるが、送
信者ベースのアドレッシングにはいくつかの問題があ
る。第一に、送信者ベースのアドレッシングは、機構を
越えて宛先から受信者までを含む保護領域を拡張するの
で、全般的な分離の欠如を生成し、データの安全保護と
完全性問題が生じる。純粋な送信側ベースのアドレッシ
ングは送信側に対するメモリアドレスを解放し、高度可
用性のシステムでは大きな問題である、宛先側が送信側
を信頼することを必要とする。例えば、宛先側のノード
が宛先アドレスを送信側に与えた場合について考えてみ
よう。送信側がかかるアドレスのすべてを使用する前
に、宛先側のノードが破損して、再ブートする。送信側
は現在、もはや有効でないアドレスバファのセットを有
している。宛先側は、かかるアドレスを別の目的で使用
しているかもしれない。重要なデータが宛先側で破壊さ
れたかもしれないので、いずれかに送信されたメッセー
ジには重要な成り行きがあるかもしれないといったこと
である。

【０１１９】第二に、送信側ベースのアドレッシングを
実行するには、ネットワークがデータのダイレクトメモ
リアクセス（ＤＭＡ：ｄｉｒｅｃｔｍｅｍｏｒｙａ
ｃｃｅｓｓ）を開始可能になる前に、ネットワークが協
調してメッセージから宛先アドレスを抽出する必要があ
るが、多くのネットワークのインターフェースは、この
ように操作するためには設計されていない。

【０１２０】何が必要かというと、送信側ベースのモデ
ルの長所を包含するが問題を回避するアドレッシングモ
デルである。本発明は、ＢＹＮＥＴに基づく相互接続機
構を使用する固有の“ｐｕｔｉｔｔｈｅｒｅ”（Ｐ
ＩＴ）プロトコルを用いるハイブリッドアドレッシング
によりこの問題を解決する。

【０１２１】２．ＢＹＮＥＴ及びＢＹＮＥＴインターフ
ェースＢＹＮＥＴは、本発明を実行する３つの重要な特性を有
している。

【０１２２】第一に、ＢＹＮＥＴは本質的に拡張性があ
る。追加の接続性又は帯域幅を容易に導入でき、システ
ムのすべてのエンティティに対して即時に利用可能であ
る。これは、接続を追加する結果として、帯域幅の追加
が行えない他のバス志向の相互接続技術と対照的であ
る。他の相互接続と比較した場合、ＢＹＮＥＴはファン
アウト（ｆａｎ−ｏｕｔ：１つの機構で利用可能なポー
ト数）という意味で拡張するだけでなく、ファンアウト
とともに拡張する二分帯域幅をも有する。

【０１２３】第二に、ＢＹＮＥＴをソフトウェアにより
向上させ、アクティブメッセージ相互接続にできる。つ
まり、ＢＹＮＥＴのユーザ（すなわち、演算資源１０２
と記憶資源１０４）の指示の元で、ノードの操作に対す
る最小限の記述でノード間にデータを転送できる。ＢＹ
ＮＥＴは、不必要な割り込みと内部でのデータコピーの
発生とを防止して、ＤＭＡを使用して所定のメモリアド
レスに直接データを移動する。この基本的な技術を拡大
して、小さなデータブロックを１つの大きな相互接続メ
ッセージに多重化することにより、かかるブロックの転
送を最適化することが可能である。相互接続使用を最適
化し、かつノードの操作上の効率性の長所を保持しなが
ら、各独立したデータブロックを、ＤＭＡベースの技術
を変更したものを使用して処理できる。

【０１２４】第三に、ＢＹＮＥＴを構成して複数の機構
を提供できるのは、“ＴｒａｆｉｃＳｈａｐｉｎｇ”を
使用して相互接続の最適化をさらに提供できるからであ
る。これは、本質的にＢＹＮＥＴソフトウェアが提供す
る機能であり、ある相互接続チャネル（機構）をある種
類のトラフィックに割り当てて、例えば、頻繁に使用さ
れる共有チャネルで長短メッセージのランダムな結合を
生成するといった妨害を減少できる。トラフィックのシ
ェーピングはＢＹＮＥＴにより可能であり、予測できる
トラフィックパターンなので、ユーザによる選択が可能
である。

【０１２５】図８は、ＢＹＮＥＴとそのホスト側インタ
ーフェース８０２の図を示す。ＢＹＮＥＴホスト側イン
ターフェース８０２は、回線が作成されるときにはいつ
でも「チャネルプログラム」を実行するプロセッサ８０
４を含む。チャネルプログラムを、送信側インターフェ
ース８０６と宛先側インターフェース８０８との両側で
プロセッサ８０４により実行する。送信側インターフェ
ース８０６は、回線の作成、データの転送及び回線の究
極の遮断を制御する、ダウンコールに作成されたチャネ
ルプログラムを実行する。宛先側インターフェース８０
８のハードウェアは、チャネルプログラムを実行してデ
ータを宛先側に転送して回線を完了する。

【０１２６】ＢＹＮＥＴは、ネットワーク内でプロセッ
サとして動作する、演算ノード２００とＩＯＮ２１２を
相互接続するネットワークを含む。ＢＹＮＥＴは、入出
力ポート８１４を有する複数のスイッチノード８１０を
含む。スイッチノード８１０は、ｂがスイッチノードの
入出力ポートの全体数で、Ｎがネットワークの入出力ポ
ート８１６であって、引数ｘよりも小さい最小の整数を
与えるｇ（ｘ）が上限の機能である、ｇ（ｌｏｇ_ｂＮ）
個のスイッチノードステージ８１２より多く配置され
る。スイッチノード８１０は従って、ネットワーク入力
ポート８１６及びネットワーク出力ポート８１６のいず
れにも複数のパスをを提供して、障害耐性を向上させ
て、回線争奪を減少させる。ＢＹＮＥＴはまた、ネット
ワークの最も高位のスイッチノードステージに沿って、
バウンスバックプレーン８１８にネットワーク全体にメ
ッセージ転送を指示する複数のバウンスバックポイント
を含む。バウンスバックポイントは、受信プロセッサへ
のメッセージを管理するスイッチノード８１０からネッ
トワークを介してバランスメッセージをロードするスイ
ッチノード８１０の間に、論理的に区別をたてる。

【０１２７】演算ノード２００とＩＯＮ２１２等のノー
ド内で実行するプロセッサを、独立した定義済のサブセ
ットのプロセッサを含む、１以上のスーパークラスタに
区画できる。プロセッサ間の通信をポイント・ツー・ポ
イント又はマルチキャストにできる。異なるスーパーク
ラスタ内のマルチキャストコマンドを、同時に発生する
ことができる。送信プロセッサは、順方向チャネルを介
してすべてのプロセッサ又はプロセッサ群に伝達するマ
ルチキャストコマンドを転送する。マルチキャストメッ
セージは、スーパークラスタ内のプロセッサに対する次
のルーティングのため、ネットワークのバウンスバック
ポイント８１８内の指定のバウンスバックポイントに向
けられる。これにより、ネットワークのデッドロックを
防ぐことができるのは、一回にただ１つのマルチキャス
トメッセージを指定のバウンスバックポイントを通過さ
せ、かつ異なるスーパークラスタに対するマルチキャス
トメッセージが次々に妨害しないようにさせるからであ
る。マルチキャストメッセージを受信するプロセッサ
は、バックチャネルを介して、例えば現在の状態を転送
することにより応答する。ＢＹＮＥＴは、種々の方法で
応答を組み合わせるよう機能できる。

【０１２８】ＢＹＮＥＴは現在、バンド内メッセージと
バンド外メッセージの２つの形式のメッセージをサポー
トする。ＢＹＮＥＴバンド内メッセージは、メッセージ
を宛先側ホストのメモリのカーネルバッファ（又はバッ
ファ）に転送し、回線を完了して、アップコール割り込
みを通知する。ＢＹＮＥＴバンド外メッセージととも
に、回線メッセージのヘッダデータがＢＹＮＥＴドライ
バ内で割込みハンドラを生じさせ、受信される残余の回
線データ処理に使用されるチャネルプログラムを作成す
る。両方の形式のメッセージのため、チャネルプログラ
ムの成功又は失敗を、ＢＹＮＥＴバックチャネル上の小
型のメッセージを介して送信側に戻す。このバックチャ
ネルメッセージを、送信側のチャネルプログラムにより
回線遮断オペレーションの一部として処理する。（バッ
クチャネルは、ＢＹＮＥＴ回線内の低帯域幅の復帰パス
である。）回線が遮断された後、アップコール割り込み
を（任意選択で）宛先側に通知して新規メッセージ到着
の信号を送る。

【０１２９】送信側が、まず始めに作成されて次に実行
されるチャネルプログラムを待っているので、ＢＹＮＥ
Ｔバンド外メッセージの使用は任意選択のコンフィギュ
レーションではない。ＢＹＮＥＴバンド内メッセージ
は、送信側がアプリケーションバッファを直接目的にし
てデータコピーを要求しないようにさせる。この問題を
解決するため、本発明は、ＢＹＮＥＴハードウェアを独
自の方法で使用する。インターフェースがデータを処理
しなければならないチャネルプログラムを作成させる代
わりに、宛先側インターフェース８０８に、送信側イン
ターフェース８０６側で送信側と宛先側の両方のチャネ
ルプログラム作成することである。

【０１３０】送信側チャネルプログラムは、宛先側が実
行する非常に小さなチャネルプログラムをメッセージの
一部として転送する。このチャネルプログラムには、宛
先側がデータを目的のアプリケーションスレッドの指定
の宛先バッファにどのように転送するかが記述されてい
る。送信側がこのメッセージが転送される宛先スレッド
を知っているので、この技術により、送信側がいかにメ
ッセージを転送し、かつどこにメッセージを転送するか
をともに可能にして、宛先側での従来のアップコール処
理の後遺症の多くを回避できる。ＢＹＮＥＴメッセージ
のこの形式は有向バンドメッセージと呼ばれる。プロセ
ス間通信モデル（データと、宛先側でメッセージを処理
するために使用される小型のメッセージ処理ルーチンを
含む）であるアクティブメッセージで使用される活動状
態のメッセージと異なり、本発明はＢＹＮＥＴ有向バン
ドメッセージを使用する。ＢＹＮＥＴＩ／Ｏプロセッ
サは単純なチャネルプログラムを実行するが、活動状態
のメッセージとともにホストＣＰＵは通常アクティブメ
ッセージハンドラを実行する。

【０１３１】バックチャネルの使用により、送信側イン
ターフェースに、メッセージ転送完了の信号を送る従来
の方法を抑制させることができる。バンド外メッセージ
はバンド指示メッセージの両方であるため、送信側での
成功完了表示は、メッセージが宛先側メモリに確実に転
送されたことが示されるだけである。

【０１３２】これにより、宛先側ノードのメモリ空間へ
のメッセージの確実な転送が保証されるが、宛先側のア
プリケーションによるメッセージの処理を保証するもの
ではない。例えば、宛先側ノードが、機能メモリシステ
ムを有しているが、メッセージがさらに処理されないよ
うにする宛先側アプリケーションスレッドに障害がある
というようなことである。本発明において、メッセージ
の確実なプロセッシングを処理するために、いくつかの
方法を個別に使用してメッセージプロセッシング内の障
害の検出と修正との両方を行本発明の通信プロトコルに
おいては、タイムアウトを送信側での紛失したメッセー
ジの検出に使用する。必要に応じて再転送が発生し、ソ
フトウェア又はハードウェアの障害が検出される場合に
は、リカバリ操作のきっかけとなることがある。

【０１３３】有向バンドメッセージをも有するので、本
発明は、宛先側の指定の目的に対するメッセージ転送を
可能にし、かつ送信側に十分なデータを与える機構に、
メッセージを正しい目的のアプリケーションスレッドバ
ッファに送信させねばならない。本発明により、チケッ
トベースの認証方法でこの偉業を達成できる。チケット
とは、偽造が不可能で、ホルダにに権利を与えるデータ
ストラクチャである。本質において、チケットとは、あ
る資源を使用する一回限りの許可又は権利である。本発
明では、ＩＯＮ２１２がチケット分配を介して演算ノー
ド２００に対するサービスの分配を制御できる。また、
チケットは、送信側ベースのフロー制御モデルを実行す
るために必要な要件である、特定の目的を指定する。

【０１３４】Ｄ．“ＰｕｔＩｔＴｈｅｒｅ”（ＰＩ
Ｔ）プロトコル１．概観ＰＩＴプロトコルは、チケットベースの認証方法であっ
て、ＢＹＮＥＴ有向バンドメッセージプロトコルを使用
して、チケットとペイロード（ｐａｙｌｏａｄ）をアク
ティブメッセージ内に転送することである。ＰＩＴプロ
トコルは、チケットベースの認証、送信側ベースのアド
レッシング、借方／貸方（ｄｅｂｉｔ／ｃｒｅｄｉｔ）
フロー制御、ゼロメモリコピー及びアクティブメッセー
ジを独自に組み合わせたものである。

【０１３５】２．ＰＩＴメッセージ図９は、ＰＩＴメッセージすなわちパケット９０１の基
本的な特徴を示している。ペイロードデータ９０４に続
いてＰＩＴヘッダ９０２を含む。ＰＩＴヘッダ９０２
は、目的のデータバッファに抽出を表して、指定サイズ
の目的のバッファに対するアクセス権を表す期間限定の
チケットである、ＰＩＴＩＤ９０６を含む。ＰＩＴＩＤ
９０６を有するエレメントは、このバファを使用する権
利を有するエレメントであって、ＰＩＴバッファが使用
される時にはＰＩＴＩＤ９０６を放棄しなけらばならな
い。宛先側がＰＩＴメッセージを受け取る場合には、Ｐ
ＩＴヘッダ内のＰＩＴＩＤ９０６は、ペイロードをＤＭ
Ａ操作を介して転送する、ＢＹＮＥＴハードウェアに対
する目的のバッファを指定する。

【０１３６】ＰＩＴプロトコルのもとでのフロー制御
は、送信側ベースのアドレッシングを使用する借方／貸
方モデルである。ＰＩＴメッセージが送信される場合に
は、送信側に対するフロー制御の貸方と宛先側に対する
フロー制御の借方を表示する。言い換えれば、デバイス
がＰＩＴＩＤ９０６をスレッドに送る場合、アドレス空
間内でＰＩＴバッファをスレッドの貸方に記入する。デ
バイスがＰＩＴＩＤ９０６をその送信側に戻す場合、デ
バイスはその権利を放棄するか、又はＰＩＴＩＤ９０６
により指定されたバッファを解放するかのいずれかを行
う。デバイスがメッセージをＰＩＴＩＤ９０６により抽
出された宛先側バッファに送信する場合、デバイスはま
た、ＰＩＴバッファに対する権利を放棄する。デバイス
がＰＩＴＩＤ９０６を受け取る場合、ＰＩＴＩＤ９０６
は送信側のアドレス空間でＰＩＴバッファの貸方である
（ＰＩＴＩＤ９０６がデバイスの戻されるＰＩＴＩＤ９
０６出ないかぎり）。

【０１３７】ヘッダ９０２の一番上は、パケット９０１
を処理するＢＹＮＥＴチャネルプログラム９０８（送信
側と宛先側）である。次はＰＩＴ貸方フィールド９１０
と借方フィールド９１２の、ＩＤチケットを転送する２
つのフィールドである。借方フィールド９１２は、ペイ
ロードデータをチャネルプログラムを介して宛先側ネッ
トワークインターフェースにより転送するＰＩＴＩＤ９
０６を含む。借方フィールドと呼ばれるのは、ＰＩＴＩ
Ｄ９０６が送信アプリケーションスレッドの借方（宛先
側では貸方）であるからである。貸方フィールド９１０
は、送信スレッドが宛先側スレッドに対するＰＩＴバッ
ファを転送する、すなわち借方に記入する場所である。
貸方フィールド９１０は通常、ＰＩＴＩＤ９０６を保持
し、送信スレッドが戻りのメッセージを送信されると予
想する場所である。借方ＰＩＴをこのように使用するこ
とは、ＳＡＳＥ（ｓｅｌｆ−ａｄｄｒｅｓｓｅｄｓｔ
ａｍｐｅｄｅｍｖｅｌｏｐｅ）ＰＩＴとも呼ばれる。
コマンドフィールド９１４は、目的がペイロードデータ
９０４で実行する操作（例えば、ディスク読取り又は書
き出しコマンド）を記述する。アーギュメントフィール
ド９１６は、コマンド（例えば、読取り又は書き出し操
作を実行するディスク上のディスク及びブロック番号）
に関するデータである。

【０１３８】シーケンス番号９１８は、資源と宛先側ノ
ードのペア各々に固有である、単調に増加する整数であ
る。（ノードの各ペアは、各方向に対し１つのシーケン
ス番号を有している。）長さフィールド９２２は、ＰＩ
Ｔメッセージのプロセッシングを変更する種々のフラグ
を含む。一例は、重複メッセージフラグである。これを
予想される紛失メッセージの再転送に使用して２回のプ
ロセッシングを防止する。

【０１３９】システムがまず開始すると、ノードは、他
のノードいずれに対してもＰＩＴＩＤ９０６を有してい
ない。ＰＩＴ１次オープンプロトコルが完了するまで、
ＢＹＮＥＴソフトウェアドライバが有向バンドメッセー
ジの転送を防止する。ＩＯＮ２１２に位置するいずれか
の仮想ディスクデバイスに対し演算ノード２００のアプ
リケーションスレッドが１次オープンを行う時に、ＰＩ
ＴＩＤ９０６の分配を開始する。１次オープンの間、Ｉ
ＯＮ２１２と演算ノード２００は、オペレーティングパ
ラメータを交換する交渉ステージに入る。１次オープン
プロトコルは、ＰＩＴＩＤ９０６の交換である。インタ
ーフェースサポートが送信側でＤＭＡを収集し、宛先側
でＤＭＡを分散するので、ＰＩＴＩＤ９０６は、２以上
ののバッファをポイントできる。アプリケーションは、
ＰＩＴＩＤ９０６を別のノードのどんなアプリケーショ
ンに対して自由に分配できる。

【０１４０】演算ノード２００とＩＯＮ２１２の間で交
換されるＰＩＴバッファのサイズと数は、同調自在の値
である。借方と貸方のＰＩＴＩＤ９０６（借方フィール
ド９１２と貸方フィールド９１６）の交換は、本システ
ムのフロー制御モデルの基礎を形成する。送信側は、貸
方のＰＩＴＩＤ９０６と同じ数だけのメッセージを宛先
側に送信できる。各ノードが各自のＰＩＴＩＤ９０６プ
ールを有しているので、各送信側は、多くとも送信側に
割り当てられたＰＩＴＩＤ９０６を消費するだけである
という点で、これにより公平さを確実にする。

【０１４１】ＩＯＮ２１２は、演算ノード２００に発行
されたＰＩＴチケットのプールを制御する。演算ノード
２００に対するＰＩＴＩＤ９０６の初期割り当ては、１
次オープンプロトコル中に発生する。分配されるＰＩＴ
ＩＤ９０６の数は、同時にＩＯＮ２１２とＩＯＮ２１２
内の記憶資源とを使用する、並行活動中の演算ノード２
００の推定数に基づいている。今の数は単なる推定数な
ので、ＰＩＴプールのサイズもまた、ＩＯＮ２１２によ
り操作中に動的に調節可能である。ＰＩＴ資源の再分配
は、複数の演算ノード２００からの要求をこなすことで
公平さを確実にするために必要である。

【０１４２】活動中の演算ノード２００へのＰＩＴの再
割り当ては、次のように進められる。活動中の演算ノー
ド２１２は、常にＩ／Ｏを要求するので、完了したＩ／
ＯメッセージのＰＩＴ貸方のフローを制御することによ
りＰＩＴ資源を演算ノード２１２に再分配する。適切な
レベルに達するまでは、ＰＩＴ貸方を、ＩＯＮ２１２の
完了（演算ノード２００のＰＩＴプールを減少させるこ
と）とともに送信しない。

【０１４３】ＰＩＴ割り当てをすでに有している演算ノ
ード２００にさらに困難な状況が与えられているが、演
算ノード２００は非活動状態である（かつ資源を結合し
ている）という場合には、ＩＯＮ２１２がメッセージを
送信して各休止中の演算ノード２００に対するＰＩＴ
（又はＰＩＴＩＤのリスト）を無効にできる。休止中
の演算ノード２００が応答しない場合には、ＩＯＮ２１
２がかかるノードに対するＰＩＴＩＤをすべて無効に
して他の演算ノード２００にＰＩＴＩＤを再分配でき
る。休止中の演算ノード２００が再分配されたＰＩＴを
使おうとする場合、その演算ノード２００は１次オープ
ンプロトコルに強制的に戻される。

【０１４４】演算ノード２００に対するＰＩＴ割り当て
を増やすことで、以下の説明が達成される。ＰＩＴ割り
当てメッセージを使用して、新規に割り当てられたＰＩ
ＴＩＤを演算ノードのどれにでも送信できる。代替えの
技術ならば、各Ｉ／Ｏ完了メッセージ内の２以上のＰＩ
Ｔ貸方を送信できるであろう。

【０１４５】３．動作中のＰＩＴプロトコル−ディスク
の読取り及び書き出しＰＩＴプロトコルについて説明するため、演算ノード２
００の、ＩＯＮ２１２からの記憶ディスク２２４の読取
りオペレーション要求について述べる。ここで、１次オ
ープンがすでに発生して、演算ノード２００とＩＯＮ２
１２の両方に十分な数の解放のＰＩＴバッファがあると
する。アプリケーションスレッドは読取りシステム・コ
ールを実行して、ディスクデータを演算ノード高位ＳＣ
ＳＩドライバ（ＣＮシステムドライバ）に転送する場所
である、バッファのアドレスを渡す。ＣＮシステムドラ
イバは、要求（仮想ディスクネーム、ブロック番号及び
データ長を含む）を含有するＰＩＴパケットを作成す
る。ＣＮディスクドライバの上半分を、借方／貸方ＰＩ
ＴＩＤフィールド９１０、９１２で満たす。借方ＰＩ
Ｔフィールド９１２は、読取り要求が送られる宛先側Ｉ
ＯＮ２１２のＰＩＴＩＤ９０６である。これは読取り要
求なので、ＩＯＮ２１２はＩ／Ｏ完了パケットを作成す
る時にアプリケーションのバッファ（読取りシステムコ
ールの一部として提供される）を指定する方法が必要と
なる。ＰＩＴパケットは送信側ベースのアドレッシング
なので、ＩＯＮ２１２は、ＰＩＴＩＤ９０６を有してい
る場合にはアプリケーションバッファのアドレスのみが
できる。アプリケーションバッファは、通常のＰＩＴプ
ールではないので、このバッファはメモリに置かれてバ
ッファに対しＰＩＴＩＤ９０６が作成される。読取り要
求はまた、ディスクオペレーションから復帰状態を必要
とするので、ＰＩＴの分散バッファを作成して復帰状態
を含む。このＳＡＳＥＰＩＴは、読取りＰＩＴパケッ
トの一部として貸方フィールドに送信される。ＰＩＴパ
ケットは、出力待ち行列に配置される。ＢＹＮＥＴイン
ターフェース８０２がＰＩＴパケットを送信する場合に
は、ＤＭＡ操作を介して送信側からパケットを移動し、
パケットを相互接続機構１０６を越えて転送する。宛先
側ＢＹＮＥＴインターフェース８０８で、ＰＩＴパケッ
トが到着した時にパケットがＢＹＮＥＴチャネルプロセ
ッサ８０４によるＰＩＴチャネルプログラムの実行を誘
発する。ホスト側インターフェース８０２内部のＢＹＮ
ＥＴチャネルプロセッサ８０４は、借方ＰＩＴＩＤ９０
６を抽出してＩＯＮ２１２のエンドポイントを突き止め
る。チャネルプログラムはバッファアドレスを抽出して
インターフェースエンジンをプログラムして、ぺイロー
ドデータをＰＩＴバッファへ直接移動して、従ってＰＩ
Ｔプロトコルにゼロデータコピー意味を提供させること
ができる。ＢＹＮＥＴインターフェース８０２は、ＩＯ
Ｎ２１２の受信アプリケーションに対して割り込みを通
知する。演算ノード２００に割り込みは発生しない。バ
ックチャネルメッセージが転送の失敗を示す場合には、
失敗の理由に基づいて、Ｉ／Ｏを再試行する。何回か試
行した後、ＩＯＮ２１２のエラー状態が入力され（本明
細書に記載のＩＯＮ２１２リカバーとフェールオーバー
オペレーションの詳細を参照のこと）、演算ノード２０
０はこの要求をダイポール内の同僚ＩＯＮ２１４に処理
させようと試みる。メッセージが宛先側ノードメモリに
確実に転送された場合には、ホスト側は次に再転送タイ
ムアウト（Ｉ／Ｏサービスタイムの最悪のケースより長
い）を設定してＩＯＮ２１２がそのメッセージをうまく
処理することを確実にする。このタイマが過ぎた場合に
は、ＰＩＴメッセージを演算ノードによりＩＯＮ２１２
に再送信する。Ｉ／Ｏがまだ処理中である場合には、重
複の要求は中止されるか、さもなければ最新の要求が正
常に処理される。任意の選択として、プロトコルはま
た、最新要求に対する明瞭な肯定応答を必要とし、期限
切れタイマをリセットしてアプリケーションに対するＩ
／Ｏ障害の後遺症を回避する。

【０１４６】図１０は、ＩＯＮ２１２の機能モジュール
のブロック図である。ＩＯＮ２１２と２１４への入力
は、データライン１００２と１００４、及び制御ライン
１００６である。ＩＯＮ２１２の各モジュールは、制御
ライン１００６と通信している制御モジュール１００８
を含む。制御モジュール１００８は、データライン１０
０２からのコマンドを受け入れて、モジュール制御機能
を提供する。システム機能モジュール１０１０は、本件
記載のＩＯＮ機能を実行する。ＩＯＮ２１２と２１４
は、機構モジュール１０２０、キャッシュモジュール１
０１４，データ復元モジュール１０１６及び記憶モジュ
ール１０１８を含む。かかるモジュールは各々、制御モ
ジュール、データを挿入してデータライン１００２と１
００４からデータを探索するワークロードインジェクタ
１０２０、データの通過を禁止するデータフェンス１０
２２から成る。

【０１４７】ＰＩＴ読取り要求がＩＯＮ２１２に送信さ
れた後、その要求はＩＯＮキャッシュモジュール１０１
４のワークロードインジェクタに転送される。ワークロ
ードインジェクタは要求をＩＯＮキャッシュモジュール
１０１４に挿入する。ＩＯＮキャッシュモジュール１０
１４は、データのバッファをキャッシュされた、又は割
り当てられた場合にはデータを直接復帰して、データを
ＩＯＮ記憶モジュール１０１８に渡す。ＩＯＮ記憶シス
テムモジュール１０１８は、この要求を１（又はそれ以
上）の物理ディスク要求に変換して、この要求を適切な
ディスクドライバ２２４に送信する。ディスク読取り操
作が完了する場合、ディスクコントローラは割り込みを
通知してディスク読取り完了の信号を送る。借方ＰＩＴ
ＩＤ（借方フィールド９１２に記憶されている）は、読
取り要求（アプリケーションが設置されたディスクデー
タを必要とする所である）内のＳＡＳＥＰＩＴからの借
方ＰＩＴＩＤ（借方フィールド９１０に記憶されてい
る）である。借方ＰＩＴＩＤは、演算ノード２００がこ
の要求を送信する同じＰＩＴＩＤであるか、バッファが
解放でない場合には置き換えのＰＩＴＩＤかである。こ
の貸方ＰＩＴは、演算ノードにさらに要求（最新のＰＩ
Ｔ要求は完了したばかりなので、ＩＯＮ２１２に対する
この演算ノード２００の待ち行列深度を１だけ増やす）
を送信する貸方を付ける。ＩＯＮ２１２がＰＩＴ処理後
にＰＩＴ貸方を復帰しない理由が３つある。第一は、Ｉ
ＯＮ２１２が、演算ノード２００からの待ち行列に入れ
られた未処理の要求数を減らそうとしたいからである。
第二に、ＩＯＮ２１２が、ＰＩＴ貸方を別の演算ノード
２００に再分配したいからである。第三の理由は、単一
のＰＩＴパケット内に密閉された複数の要求があると考
えられるからである。コマンドフィールド９１４は、読
取り完了メッセージで、引数はディスクドライバ読取り
操作からの復帰コードである。このＰＩＴパケットを次
に、ＢＹＮＥＴインターフェース７０２に対する待ち行
列に入れて演算ノード２００に返信する。ＢＹＮＥＴハ
ードウェアは次に、このＰＩＴパケットをＤＭＡを介し
て演算ノード２００に移動する。これがきっかけとなっ
て、演算ノード２００ＢＹＮＥＴチャネルプログラムが
借方ＰＩＴＩＤ９１２を抽出して、ＤＭＡに目的のＰＩ
Ｔバッファ（この場合では、アプリケーションの設置さ
れたバッファ）を開始させる前に借方ＰＩＴＩＤ９１２
を無効にする。ＤＭＡが完了すると、演算ノードＢＹＮ
ＥＴハードウェアは割り込みを誘発して、ディスク読取
りが完了したアプリケーションを表示する。ＩＯＮ２１
２で、ＢＹＮＥＴドライバはキャッシュシステムに対す
るバッファを復帰する。

【０１４８】書込み要求に対して実行された操作は、読
取り操作に対して実行された操作と同様である。アプリ
ケーションが演算ノードの高位ドライバを呼び出し、デ
ータ、仮想ディスクネーム、ディスクブロック番号及び
データ長を含むアドレスを渡す。演算ノードの高位ドラ
イバは、宛先側ＩＯＮ２１２のＰＩＴＩＤ９０６を選択
して、このデータを使用してＰＩＴ書き出し要求を作成
する。ＳＡＳＥＰＩＴは、ＩＯＮ２１２からの書き出し
操作の復帰状態のみを含むものである。ＩＯＮ２１２で
は、ＰＩＴパケットが到着した時に割り込みを通知す
る。

【０１４９】この要求を、ＰＩＴ読取り操作と同様に処
理する。書込み要求を、最終的にデスクにデータを書き
込むキャッシュルーチンに渡す。ディスク書込みが完了
する（又はデータがＩＯＮ２１２と２１４両方のキャッ
シュ内に安全に記憶される）と、Ｉ／Ｏ完了メッセージ
を演算ノード２００に返信する。ＩＯＮ２１２が書込み
キャッシュ割り込み可能で実行中である場合、要求が送
られたＩＯＮ２１２ではなく、ダイポール内のもう１つ
のＩＯＮ２１４がＩ／Ｏ完了メッセージを復帰する。こ
れについては、バミューダトライアングルプロトコル
（ＢｅｒｍｕｄａＴｒｉａｎｇｌｅＰｒｏｔｏｃｏ
ｌ）でさらに説明する。

【０１５０】４．古いＰＩＴＩＤと障害リカバリの問題１次オープン中のＰＩＴＩＤの交換は、ハードウェア又
はソフトウェアの障害により作成された古いＰＩＴＩＤ
９０６を無効にするメカニズムである。ＩＯＮ２１２と
演算ノード２００がＰＩＴＩＤを交換した後Ｉ／Ｏ２１
２が突然故障するという状況を考えてみよう。ＰＩＴＩ
Ｄ９０６は無効にされないかぎりメモリに設置された目
的のバッファを表し、再ブートされたばかりのＩＯＮ２
１２か演算ノード２００のいずれかの未処理のＰＩＴＩ
Ｄ９０６が、ＰＩＴＩＤがもはや有効でない、すなわち
古いために、ソフトウェアの保全性に重大な問題を引き
起こす。ＢＹＮＥＴハードウェアと有向バンドメッセー
ジサポートが古いＰＩＴＩＤ９０６を無効にするために
不可欠なメカニズムを提供する。

【０１５１】１次オープンプロトコルの終了時に、送信
側と宛先側各々で演算ノード高位ＳＣＳＩドライバにＰ
ＩＴＩＤ９０６が分配されるホストのリストを与えなけ
ればならない。別々に開始されるが、ホストは演算ノー
ド高位ＳＣＳＩドライバにＰＩＴパケットを受け取るホ
ストのリストをあたえる。この表により、有向バンドメ
ッセージが互いに送信されるＩＯＮ２１２の組み合わせ
を指定する。（この表はまた、一方方向のＰＩＴメッセ
ージフローも指定できる。）演算ノード高位ドライバは
ホストに関する表を（このドライバ専用のデータとし
て）ＢＹＮＥＴコンフィギュレーションプロセスの一部
として、内部に保存する。ホストの追加は可能で、演算
ノード高位ドライバに単純な通知メッセージを出してい
つでもＰＩＴプロトコルによるリストから抽出すること
もできる。ノードが故障する、遮断する、又は応答しな
くなる場合には、ＢＹＮＥＴハードウェアがこれを検出
して機構上の他のすべてのノードに通知する。各ノード
のＢＹＮＥＴホストドライバがこの通知に応答して有向
バンドホスト表からこのホストに対する参照をすべて抹
消する。この動作により、ホストが他のホストの分配す
るすべてのＰＩＴＩＤ９０６を無効にする。これが、以
前に分配されたＰＩＴＩＤ９０６からノードを保護する
要点である。このホストの演算ノード高位ドライバを構
成して初めて、ＢＹＮＥＴがこのホストに送信されるメ
ッセージをすべて無効にする。１次再コンフィギュレー
ション後であっても、局所のＰＩＴプロトコルにより通
知されるまでは、ＢＹＮＥＴは、有向バンドメッセージ
が新規に再スタートした、すなわち再構成されたホスト
に送信されないようにする。ＰＩＴプロトコルが他の１
次オープンプロトコルを介して正常に初期設定されるま
で、これにより、古いＰＩＴパケットの転送を防ぐ。

【０１５２】ホストが有向バンドメッセージを無効のホ
ストに送信しようとする場合には、（新規の無効のＰＩ
ＴＩＤ９０６）送信側演算ノード高位ドライバは送信側
に対しエラー条件であるメッセージを拒絶する。この拒
絶は、２つのノード間で呼び出される１次オープンハン
ドシェイキングのきっかけとなる。１次オープンハンド
シェイキングの完了の後、いまだに未処理であるＩＯＮ
２１２に対するＩ／Ｏ操作（演算ノード２００から見
て）はどれもリセットされる。

【０１５３】しかしながら、これがウォーム再スタート
でければ、ＩＯＮ２１２は長時間ダウンするので、未処
理のＩ／Ｏオペレーションはどれも、フェールオーバー
プロセッシングの一部として再スタートしてダイポール
のもう１つのＩＯＮ２１２に送信されていたはずであ
る。（詳細は、ＩＯＮ障害処理のセクションを参照のこ
と。）破損したノードが演算ノード２００である場合に
は、１次オープンをすでに終了した演算ノード２００へ
の予期しない１次オープン要求がＩＯＮ２１２へ到着し
て、ＰＩＴＩＤリカバリ操作をトリガする。ＩＯＮ２１
２は、演算ノード２００への貸方であるＰＩＴＩＤ９０
６をすべて無効にする。（又は本当のところは単に古い
ＰＩＴＩＤ９０６を再発行するだけと考えられる）。か
かる演算ノード２００への未処理のＩ／Ｏオペレーショ
ンの完了が許可される（ノードの再スタートの時間が極
端に短くないかぎり考えられないことであるが）。ＳＡ
ＳＥＰＩＴが古い（かつＩ／Ｏ要求を発行したアプリケ
ーションスレッドがもはや存在しない）場合には、完了
メッセージは取り下げられねばならない。

【０１５４】５．スーパーＰＩＴ（ＳＰＩＴ）−小型の
Ｉ／Ｏパフォーマンスの向上ＰＩＴプロトコルは通常のＳＣＳＩコマンドに対し利点
がある。本発明の核心は、通信ネットワークであって、
記憶ネットワークではない。システムはネットワークプ
ロトコルを使用して、記憶モデルが持つパフォーマンス
を向上させる。アップコール処理のオーバヘッドのプロ
セッシングは、小型のＩ／Ｏ要求が支配するワークロー
ドに対するパフォーマンスの限界を表す。小型のＩ／Ｏ
パフォーマンスを向上させるアプローチがいくつかあ
る。あるアプローチは、割り込み処理コードのパス長を
向上させることである。二つ目は、デバイスドライバで
用いられている技術と似たような技術を使用して、複数
割り込みの方向づけを割り込みハンドラの単一呼出に変
えることである。三つ目は、独立したＩ／Ｏオペレーシ
ョンを減少して単一の要求にまとめることである。入力
データと出力データを再包括するノードは、資源の異な
る磁気テープ装置（ＭＴＵ：ｍａｇｎｅｔｉｃｔａｐｅ
ｕｎｉｔ）の大きさに基づいて流れ、宛先側の物理リ
ンクはデータを収集する傾向がある。この問題は、送信
側と宛先側のネットワーク間の速度の不一致により悪化
する（特に宛先側ネットワークが遅い場合）。その結果
として、ルータ外を流れるトラフィックがバーストす
る。かかるノードは、宛先側からのフロー制御を受けや
すい。これは、データコンボイング（ｄａｔａｃｏｎ
ｖｏｙｉｎｇ）と呼ばれる。

【０１５５】本発明は、ＩＯＮ２１２と演算ノード２０
０の両方でアップコール作成割り込み数を減少させる技
術として、データコンボイを利用する。説明のため、Ｉ
ＯＮ２１２から演算ノード２００へのデータフローにつ
いて考えてみよう。本発明で使用されるフロー制御のた
めの借方／貸方モデルにおいて、Ｉ／Ｏ要求は演算ノー
ド２００とＩＯＮ２１２の両方で待ち行列に入る。キュ
ーイングは、ＩＯＮ２１２に記憶されたＰＩＴパケット
で開始し、待ち行列が消費された場合には、演算ノード
２００に復帰し並び続ける。これは、オーバフロー条件
と呼ばれる。通常、オーバーフローは、ノードが、自分
が有するＰＩＴバッファ貸方数以上に要求を有している
場合に発生する。Ｉ／Ｏが完了するごとに、ＩＯＮ２１
２は完了メッセージを演算ノード２００に返信する。普
通は、この完了メッセージは解放されたばかりのＰＩＴ
バッファの貸方を含んでいる。これが借方／貸方フロー
制御の基礎である。システムがＩ／Ｏ要求であふれる場
合には、各Ｉ／Ｏ完了はＩＯＮ２１２で新規のＩ／Ｏ要
求と直ちに置換される。従って、負荷が大きい期間で
は、Ｉ／Ｏ要求はＩＯＮ２１２へ一回に１つ流れて、不
特定の期間ＩＯＮ２１２で待ち行列に入る。かかる要求
は各々、アップコール割り込みを作成して、ＩＯＮ２１
２の負荷を増加させる。

【０１５６】かかる二重の待ち行列モデルは多くの利点
を有している。演算ノード２１２に割り当てられたＰＩ
Ｔバッファの数は注意を要する交換である。ＩＯＮ２１
２に対して局所で待ち行列に入った十分なワークロード
があるので、要求が完了した場合には、新規の作業を速
やかに出すことができる。しかしながら、キャッシュシ
ステムに割り当てられた場合には、ＩＯＮ２１２の待ち
行列の要求により消費されるメモリ資源を上手に利用す
る。ＩＯＮ２１２のＰＩＴ待ち行列が短いままでメモリ
を保存する場合、ＩＯＮ２１２がアイドル状態になって
演算ノード２００から送られる作業を待たねばならない
場合には、パフォーマンスは悪くなることがある。

【０１５７】スーパーＰＩＴとは、アップコール割り込
みの数を減少させるため、高負荷での借方／貸方システ
ムのフロー制御を利用するよう設計されているＰＩＴプ
ロトコルの特徴である。スーパーＰＩＴは、直結テスト
実施プログラム（ＯＬＰＴ：ｏｎｌｉｎｅｔｅｓｔ
ｅｘｅｃｕｔｉｖｅｐｒｏｇｒａｍ）と比較的小型の
Ｉ／Ｏの割合が大きい似たような作業負荷のパフォーマ
ンスを向上させる。一回につき１つの要求を送信する代
わりに、スーパーＰＩＴパケットは、単一で、より大型
のスーパーＰＩＴ要求に転送されたＩ／Ｏ要求すべてが
収集されたものである。各スーパーＰＩＴパケットは、
通常のＰＩＴバッファと同じ方法で転送される。スーパ
ーＰＩＴパケット内に入れられた個々のＩ／Ｏ要求は次
に抽出されて、ＩＯＮ２１２資源が利用可能になったと
きにＰＩＴワークロードインジェクタにより通常のＩＯ
Ｎ２１２待ち行列メカニズムに挿入される。個々のＩ／
Ｏ要求は読取り又は書込み要求である。

【０１５８】ＰＩＴワークロードインジェクタは、ＩＯ
Ｎ２１２へ転送されたアプリケーション要求のローカル
プロキシ（ＩＯＮ２１２で）として作用する。ＰＩＴワ
ークロードインジェクタはまた、後のセクションで説明
されるＲＴ−ＰＩＴ及びＦＲＡＧ−ＰＩＴプロトコルで
使用される。スーパーＰＩＴパケットは個々の要求を消
費して、資源は演算ノードに対して解放され、別のＰＩ
Ｔパケットを送ってこれと置換できる。１ホスト当たり
に許容されるスーパーＰＩＴパケットの数は、１次オー
プン交渉の際に確定される。明らかに、ＩＯＮ２１２で
待ち行列に入っている作業量は、別のスーパーＰＩＴパ
ケットを転送できるまでにＩＯＮ２１２が作業を継続す
るのに十分な量であるはずである。

【０１５９】演算ノード２００がＩＯＮ２１２に十分な
作業を待ち行列に入れて演算ノードのＰＩＴ貸方を消費
し、要求を局所で待ち行列に入れるという状況を考察す
る。スーパーＰＩＴ要求内で待ち行列に入っている要求
の数は、スーパーＰＩＴが転送されるバッファの大きさ
までしか跳ね上がらない。スーパーＰＩＴパケットは、
通常のＰＩＴパケットとは異なる操作を行う。本発明の
制御モデルにおいて、宛先側に貸方を有している場合
は、デバイスはある要求（借方）の送信を行えるだけで
ある。デバイスがＩＯＮ２１２内部の指定のアプリケー
ションスレッドを目的としていないので、デバイスが使
用する特定のＰＩＴパケットは特に関係はない。ＩＯＮ
２１２に対するＰＩＴパケットは単にバッファの利用
（副作用としてのフロー制御）を調整するだけである。
対照的に、ＰＩＴ要求内のＳＡＳＥＰＩＴは異なってい
る。ＳＡＳＥＰＩＴＩＤは、演算ノード２１２内のあ
る独立したスレッドのアドレス空間を表している。スー
パーＰＩＴ内の各要求はＳＡＳＥＰＩＴを含んでいる
が、完了を表すＩ／Ｏの場合には、作成されたＩ／Ｏ完
了メッセージは貸方ＰＩＴを含まない。スーパーＰＩＴ
がすべての要求を消費し終わった場合のみ、そのアドレ
ス空間の貸方ＰＩＴが発行される。

【０１６０】１つの演算ノード２００で発生するスーパ
ーＰＩＴの作成について、次のように説明する。演算ノ
ード２００内で待ち行列ができている１つのＩＯＮ２１
２に対し少なくとも２つのＩ／Ｏ要求があるときにはい
つでも、スーパーＰＩＴを作成できる。その演算ノード
２００に対するスーパーＰＩＴの限界は、ＩＯＮ２１２
ですでに達せられている場合には、スーパーＰＩＴＩＤ
が演算ノード２００に戻されるまで、演算ノード２００
は要求を待ち行列に入れ続ける。演算ノード２００は次
に、別のスーパーＰＩＴメッセージを発行する。システ
ムドライバ内で再びキューイングが始まり、１ＩＯＮ当
たりの待ち行列が必要となってスーパーＰＩＴパケット
を作成する。

【０１６１】上述のように、大量の小型のＩ／Ｏ要求で
占められている作業負荷のもとで、スーパーＰＩＴメッ
セージはＩＯＮ２１２のプロセッシング負荷を減少する
ことができる。平均メッセージサイズが増えるので、ス
ーパーＰＩＴメッセージは宛先側ノードのパフォーマン
スを向上させ、相互接続１０６のユーティライゼーショ
ンを向上させる。しかしながら、スーパーＰＩＴメッセ
ージのコンセプトをＩＯＮ２１２に応用して小型のＩ／
Ｏ作業負荷が作成する演算ノード２００の負荷を減少す
ることもできる。スーパーＰＩＴメッセージをＩＯＮ２
１２に作成することは、スーパーＰＩＴメッセージを演
算ノード２００に作成することとは非常に異なる問題で
ある。演算ノードで、Ｉ／Ｏ要求を作成するアプリケー
ションスレッドは、ＩＯＮ２１２が圧倒されないように
防止するフロー制御を受けやすい。

【０１６２】ディスクサブシステムのサービス率は、残
余のＩＯＮ２１２より相当低く、常にＩＯＮ２１２パフ
ォーマンスの究極の限界となる。ＩＯＮ２１２が待ち行
列を作り終いには要求をサービスする十分な資源を有す
るまで、要求はシステムに入ることをブロックされる。
資源の枯渇は演算ノード２００では問題ではない。演算
ノード２００のアプリケーションがシステムにＩ／Ｏ要
求をする場合、要求の一部として含まれているものは、
Ｉ／Ｏ（アプリケーションスレッドバッファ）を完了す
るために必要な演算ノード２００のメモリ資源である。
各Ｉ／Ｏ完了メッセージをＩＯＮ２１２は演算ノード２
００に送信する必要があるので、各Ｉ／Ｏ完了メッセー
ジはすでに割り当てられたＰＩＴＩＤ（ＳＡＳＥＰＩ
ＴＩＤ）を有している。ＩＯＮ２１２から見て、Ｉ／Ｏ
完了メッセージはすでに割り当てられた目的のバッファ
を有しているので、データの用意ができればすぐに充填
が行える。Ｉ／Ｏ完了メッセージは一旦転送されれば成
功である（ＩＯＮ２１２は、演算ノード側のディスク記
憶システムのサービス時間を待つ必要はない）。従っ
て、ＩＯＮ２１２は、演算ノードからのフロー制御圧の
ためブロックできない。スーパーＰＩＴメッセージを作
成するため、演算ノード２００は、ＩＯＮ２１２が持た
ないオプションである、フロー制御キューイングを利用
した。ＩＯＮ２１２は、ＢＹＮＥＴにアクセスる場合を
除いて、待たねばならない資源を持っていないので、ス
ーパーＰＩＴメッセージを作成する機会は非常に少な
い。

【０１６３】ＩＯＮ２１２でスーパーＰＩＴメッセージ
を作成するためのアプローチを、いくつか用いる。ある
アプローチは、Ｉ／Ｏ完了メッセージを若干遅延させて
スーパーＰＩＴパケットを作成する機会を増加させる。
若干の遅延の後、メッセージは通常のＰＩＴメッセージ
として送信される。本技術に伴う問題は、スーパーＰＩ
Ｔ作成のために要求を遅延する時間がわずかでもあれ
ば、要求サービス時間全体で対応する増加があることで
ある。実作用は演算ノード２００の負荷を軽減すること
であるが、また、アプリケーションを遅くすることがあ
る。適応できる遅延時間があれば、有益である（演算ノ
ード２００に対する平均のサービス速度と指定の要求に
より蓄積されたトータルのサービス時間に依存する）。
二番目のアプローチは、最初のアプローチを若干変更し
たものである。演算ノード２００が各ＩＯＮ２１２に、
計算ノード側で増加する小型Ｉ／Ｏ速度として増加する
遅延時間を供給することが必要となる。要点は、必要の
場合には、指定のＩＯＮ２１２のスーパーＰＩＴメッセ
ージを作成するためのウインドウを増加することであ
る。三番目のアプローチは、キャッシュにより直接サー
ビスされるが、記憶装置２２４のデスク操作待ちの必要
がない小型の読取り又は書込み等の、特定の形式のトラ
フィックを遅延させることである。キャッシュは、ある
パーセンテージに対するディスクトラフィックを回避す
ることにより平均のＩ／Ｏ待ち時間を減少するが、待ち
時間の分配をキャッシュのヒットにより変更する。キャ
ッシュのヒット要求に対する小型の待ち行列遅延時間
は、デスク操作を含めた時間と比較して、サービス時間
における大きな増加にはならない。サービス時間分配の
影響を受けやすいかかるアプリケーション（一定した応
答時間がパフォーマンスに重要である）にとって、ＩＯ
Ｎ２１２でスーパーＰＩＴパケットを作成するための小
さな遅延は、システム全体のパフォーマンスを向上させ
るための可能性を有している。

【０１６４】６．大型のブロックサポートとフラグメン
トになったＰＩＴパケットデータベースアプリケーションのパフォーマンス必要要
件は、データベースの大きさとは無関係である。データ
ベースの大きさが増大すると、ディスク記憶を調べる速
度もまた比例して増加して、アプリケーションパフォー
マンスの侵食を防止しなければならない。別の言い方を
するなら、利用者のデータベースの大きさが増大して
も、応答時間は任意の照会に対して一定のままでなけれ
ばならない。かかる要件を満たすことの難しさは、ディ
スクドライブ技術の現在の傾向と直接衝突することであ
る。ディスクドライブの性能は向上しているが、ディス
クドライブのランダムＩ／Ｏパフォーマンスは一定のま
まである。かかる傾向を軽減するためのあるアプローチ
は、ディスクドライブが増大させる能力として、ディス
クＩ／Ｏ操作の平均サイズを増大することである。記憶
装置の性能とパフォーマンスの要件における現在の傾向
に基づいて、２４ＫＢの平均Ｉ／Ｏサイズを非常に近い
将来１２８ＫＢまで増大できる。さらに積極的なキャッ
シングとディレイドタイム技術により、多くの作業負荷
に有益であることが証明されると考えられる。ディスク
ドライブの調和のとれない技術発達は、ドライバのみが
Ｉ／Ｏ要求サイズの増大に後れを取っている訳ではな
く、ＢＬＯＢＳ（ｂｉｎａｙｌａｒｇｅｏｂｊｅｃ
ｔｂａｄｓｉｔｕａｔｉｏｎ）を伴うデータベース
が普及し始めるにつれて、１ＭＢ以上に達するサイズの
対象物が当たり前になってきている。特定の原因に関わ
らず、サイズがシステムがディスク記憶の経済面を追い
続ける大型のＩ／Ｏ対象物をサポートする必要があるこ
とが求められている。

【０１６５】ＰＩＴプロトコルを使用するＩＯＮ２１２
と演算ノード２００間での大型のデータ対象物の転送に
関する問題がいくつかある。ここに記載されているよう
に、ＰＩＴプロトコルの長所は、フロー制御とエンドポ
イント位置の問題をアドレスする宛先側バッファを事前
に割り当てることである。しかしながら、アップコール
意味論もまた、メッセージを預ける十分なバッファ空間
の識別（又は割り当て）を必要とする。ＰＩＴプロトコ
ルは、各メッセージが受信側に預けられる所である目的
のＰＩＴＩＤ９０６を送信側に選択させることにより、
この問題をアドレスする。メッセージのサイズが利用可
能なプールから指定のＰＩＴＩＤ９０６を選択する基準
になるので、大型のＩ／Ｏ書込みは、プロトコルを明ら
かにに複雑にする。重い負荷がかかっている間は、送信
側が利用可能なＰＩＴＩＤ９０６貸方を有しているが、
大型のＩ／Ｏ要求が必要とするバッファサイズの要件に
あわないという状況が潜在的にある。ＰＩＴプロトコル
では、送信されるデータのサイズが大きい集団である場
合には、送信側は、受信側を使ってＰＩＴバッファの数
とサイズの両方を管理しなければならない。このこと
は、ＰＩＴバッファ割り当てサイズの問題を生起する。
すなわち、ＰＩＴバッファのプールを作成すると、所定
の作業負荷のもとでは、ＰＩＴバッファのプールに対す
るバッファサイズの適切な分配とは何かと問い、ＢＹＮ
ＥＴソフトウェアが書込みに加えて大型のＩ／Ｏ読取り
を完了させる追加の最大転送単位（ＭＴＵ：ｍａｘｉｍ
ｕｍｔｒａｎｓｆｅｒｕｎｉｔ）の限度を課す。Ｂ
ＹＮＥＴＭＴＵを越えるＩ／Ｏ要求（読取りと書込み
ともに）を、送信側でソフトウェアプロトコルにより断
片化して宛先側で再組立しなければならない。これは、
メモリの断片化の問題を生起する。手短にいえば、内部
断片化が割り当てられたバッファ内の利用されない空間
である。外部断片化は、小さすぎてどんな要求も満足さ
せない割り当てバッファの外部の利用されない空間であ
る。解決の１つは、大型のＰＩＴバッファの一部のみを
使用することであるが、大型のＰＩＴバッファを使用す
る場合、このことが不必要な内部断片化の原因になるだ
ろうと考えられる。大形のＰＩＴバッファは、コスト又
はパフォーマンスの悪化につながるメモリを浪費させ
る。

【０１６６】本発明では、ＢＹＮＥＴＭＴＵとＰＩＴ
バッファサイズ割り当ての問題を、ＲＴ−ＰＩＴ（往復
ＰＩＴ）とＦＲＡＧ−ＰＩＴ（断片化ＰＩＴ）の、２つ
の形式のＰＩＴメッセージをさらに追加することで解決
する。ＦＲＡＧ−ＰＩＴとＲＴ−ＰＩＴはともに、ＰＩ
Ｔデータプッシュモデルの代わりにデータプルモデルを
使用する。（データをプッシュするためには、送信側が
宛先側に対してデータをプッシュする。データを引くた
めには、宛先側がデータを資源から引く。）ＦＲＡＧ−
ＰＩＴメッセージ大形のデータ読取りをサポートするた
めに設計されているが、ＲＴ−ＰＩＴメッセージは大型
データの書込みをサポートする。ＦＲＡＧ−ＰＩＴとＲ
Ｔ−ＰＩＴはともに、ＩＯＮＰＩＴワークロードイン
ジェクタを使用してデータオフローを管理するのでスー
パーＰＩＴと類似している。

【０１６７】ａ）ＲＴ−ＰＩＴメッセージ演算ノード２００がＩＯＮ２１２に対して大型のディス
ク書込み操作を実行しようとする場合で、かつＩ／Ｏ書
込みのサイズはＢＹＮＥＴＭＴＵと利用可能なＩＯＮ
２１２ＰＩＴバッファのいずれよりも大きい場合には、
演算ノード２００はＲＴ−ＰＩＴ作成メッセージを作成
する。ＲＴ−ＰＩＴメッセージは２つの段階で操作す
る。ブースト段階と、続く往復段階である。ブースト段
階では、書き込まれるデータの資源バッファリストに
は、演算ノード２００のＰＩＴＩＤが割り当てられる。
資源バッファの断片化サイズは、ＢＹＮＥＴＭＴＵ
と、ＩＯＮ１次オープンプロトコル中に指定されるサイ
ズの制約により確定される。このＰＩＴＩＤのリストは
（対応するバッファサイズとともに）、単一のＲＴ−Ｐ
ＩＴ要求メッセージのぺイロードに置かれて宛先側ＩＯ
Ｎ２１２のＰＩＴ貸方になる。追加のＰＩＴバッファを
演算ノードプールから割り当てて、ＲＴ−ＰＩＴプロト
コルが直接使用する。この追加バッファのＰＩＴＩＤを
ＰＩＴヘッダの貸方フィールドに置く。残余のＲＴ−Ｐ
ＩＴ要求は、通常のＰＩＴ書込みメッセージと同じであ
る。演算ノード２００は次に、このＲＴ−ＰＩＴ要求メ
ッセージをＩＯＮ２１２に送信（ブースト）する。ＩＯ
Ｎ２１２では、ＰＩＴワークロードインジェクタがＲＴ
−ＰＩＴ要求メッセージを２段階で処理する。各資源側
ＰＩＴＩＤ９０６に対し、ワークロードインジェクタは
サイズが合うＩＯＮキャッシュからＰＩＴバッファを要
求する。（ＩＯＮバッファキャッシュで利用可能なメモ
リ空間に依存して、これはすべて一斉に、又は一回ごと
に行えることに注意。）ＰＩＴバッファと一致させるこ
とにより、ＩＯＮ２１２は資源を動的に割り当てて書込
み要求と一致させる。通常のＰＩＴ転送の変更したシー
ケンスを使用してＩ／Ｏの進行が行える。ＲＴ−ＰＩＴ
要求メッセージのプロセッシングは往復段階に入り、ワ
ークロードインジェクタが、資源と宛先側ＰＩＴＩＤの
一致するペア１つ（又はそれ以上）に対するＲＴ−ＰＩ
Ｔ開始メッセージを作成する。（１つ又は一致のＰＩＴ
ＩＤのサブセットを送信するという任意選択はＩＯＮ２
１２の判断による。）１つのＲＴ−ＰＩＴ開始メッセー
ジ内のＰＩＴＩＤ９０６の数が、ＩＯＮ２１２内のデー
タ転送の細分性を制御する（以下で説明される）。この
ＲＴ−ＰＩＴ開始メッセージを演算ノード２００に返信
して、ＲＴ−ＰＩＴメッセージのブースト段階は終了す
る。ＲＴ−ＰＩＴ開始メッセージの受信と同時に、演算
ノード２００は、通常のＰＩＴ書込みメッセージを使用
して一回に１つのＰＩＴのペアで、データをＩＯＮ２１
２に転送する。演算ノード２００とＩＯＮ２１２がとも
に無くなったフラグメントを処理するのに十分なデータ
を有しているので、演算ノード２００によりフラグメン
トを順序立てて送信する必要はない（一致のＰＩＴペア
が再組立された順序を指定する）。ＩＯＮ２１２がＰＩ
Ｔ書込みメッセージをを受け取ると、この書込み要求が
より大型のＲＴ−ＰＩＴＩ／Ｏ操作の一部であると認識
するワークロードインジェクタに通知される。ワークロ
ードインジェクタは、フラグメントをキャッシュルーチ
ンに送り書込み操作を開始させるか、書込み開始の前に
最後のフラグメントを転送を待つかの、ＰＩＴ書込みを
処理する２つの任意選択を有している。Ｉ／Ｏを早く開
始することによりキャッシュルーチンにデータフローを
ディスクドライバにパイプライン輸送させることもでき
るが（書込みキャッシュポリシーに依存する）、小型の
Ｉ／Ｏサイズであるためパフォーマンス低下の危険を侵
す。しかしながら、すべてのフラグメントが届くまでＩ
／Ｏを保留することは、キャッシュシステムに必要以上
の負担をかけることがある。フラグメント全部のサイズ
と数とが最初からわかっているので、現在の操作条件下
で大型のＩ／Ｏ要求を最適化する必要のあるデータはす
べてキャッシュシステムにより作成される。演算ノード
２００側では、各ＰＩＴ書込み操作転送の成功が、１つ
のＲＴ−ＰＩＴ開始メッセージ内に複数のフラグメント
が充填された時に始められる、次のフラグメント書込み
を開始させる。ＲＴ−ＰＩＴ開始コマンドの最後のフラ
グメントを受信した時、要求インジェクタは、通常の書
込み要求のと類似のデータを処理するキャッシュシステ
ムにデータを送る。データが無事の場合には、Ｉ／Ｏ完
了メッセージをキャッシュシステムにより作成して、演
算ノード２００に返送してこの位相での処理の完了信号
を出す（ＲＴ−ＰＩＴ開始操作のため）。フラグメント
がさらに残っている場合には、別のＲＴ−ＰＩＴ開始コ
マンドを作成して演算ノードに送ってすべてのフラグメ
ントが処理されるまで上述のサイクルが繰り返される。
ワークロードインジェクタとキャッシュが最後のフラグ
メントのプロセッシングを完了すると、最終のＩ／Ｏ完
了メッセージを状態とともに演算ノードに戻してＲＴ?
ｂoＩＴ要求のすべてのプロセッシングの終了を同調す
る。

【０１６８】ＲＴ−ＰＩＴメッセージを、ＢＹＮＥＴに
ある変更を加えて最適化できる。ＩＯＮ２１２がＲＴ−
ＰＩＴ要求を受信したばかりの状況を考察してみる。Ｉ
ＯＮ２１２のワークロードインジェクタ演算ノードのバ
ッファをＩＯＮ２１２と一致させて大型のＩ／Ｏ要求を
たくさんの通常の書込み要求に変換しているところであ
る。中間ＲＴ−ＰＩＴ開始コマンドを介して同調を実行
する。しかしながら、ＢＹＮＥＴが受信チャネルプログ
ラムにデータプルを実行させる場合、ＲＴ−ＰＩＴ開始
コマンドを演算ノードに送信する中間ステップが削除さ
れる。考察のため、我々はＢＹＮＥＴ操作のこのモード
をループバンド（ｌｏｏｐｂｎｄ）メッセージと呼
ぶ。ループバンドメッセージは実は２つの有向バンドメ
ッセージで、１つがもう１つに入れ子になっている。実
施形態により、ワークロードインジェクタがＲＴ−ＰＩ
Ｔ要求受信した場合、演算ノードに第二のＯＩＴ書込み
メッセージを作成する必要のあるデータを含むＲＴ−Ｐ
ＩＴ開始メッセージを作成することにより各フラグメン
トを処理する。ＲＴ−ＰＩＴ開始メッセージは、フラグ
メントに対するＰＩＴ書込み操作のテンプレートを演算
ノード２００に転送する。演算ノード２００で実行され
るチャネルプログラム（ＲＴ−ＰＩＴ開始メッセージと
ともに送信されたもの）は、計算ノードＢＹＮＥＴドラ
イバの送信待ち行列にぺイロードを預ける。ペイロード
は、初期ＲＴ−ＰＩＴ要求を作成したアプリケーション
スレッドからの待機要求のように見える。このペイロー
ドは、ＰＩＴＩＤのペア、資源及び宛先を使用して、
ワークロードインジェクタにより送られたこのフラグメ
ントへのＰＩＴ書込み要求を作成する。ＰＩＴ書込み
は、ＩＯＮ２１２にフラグメントを預け、フラグメント
の到着をワークロードインジェクタに通知する。ワーク
ロードインジェクタは、すべて処理されるまで各フラグ
メントにこのサイクルを続行する。ループバンドメッセ
ージのパフォーマンスの向上は、割り込みと各ＲＴ−Ｐ
ＩＴ開始メッセージが必要とする演算ノードプロセッシ
ングを除いたものに由来する。

【０１６９】ＦＲＡＧ−ＰＩＴメッセージは、演算ノー
ドからの大型のＩ／Ｏ読取り要求操作をサポートするた
めに設計されている。アプリケーションが大型のＩ／Ｏ
読取り要求を作成する場合、演算ノードは目的バッファ
をピン留めして各フラグメントの目的バッファを表すＰ
ＩＴＩＤのリストを作成する。各ＰＩＴＩＤは、そのフ
ラグメントの目的バッファと対応の状態バッファからな
る分散リストを記述する。データが送信された時に状態
バッファをアップデートし、各フラグメントが処理され
た際に演算ノードに確定させる。ＲＴ−ＰＩＴメッセー
ジと同じアルゴリズム（上のＲＴ−ＰＩＴの項を参照）
を使用して、各フラグメントのサイズを確定する。かか
るフィールドを集めてＦＲＡＧ−ＰＩＴを作成する。

【０１７０】演算ノード２００は、ＦＲＡＧ−ＰＩＴ要
求をワークロードインジェクタがＦＲＡＧ−ＰＩＴ要求
を処理するところであるＩＯＮ２１２に送信する。この
要求に含まれているものは、仮想ディスクネーム、開始
ブロック番号及びＩＯＮ２１２のデータ資源のデータ長
である。ワークロードインジェクタは、ＲＴ−ＰＩＴ要
求と同様の方法でＦＲＡＧ−ＰＩＴ要求を操作する。Ｆ
ＲＡＧ−ＰＩＴ要求内の各フラグメントを、キャッシュ
システムと共同して別々のＰＩＹ読取り要求として処理
する。利用可能な場合には、ディスクデータをワークロ
ードインジェクタに戻して、キャッシュシステムは、各
要求を別々に処理するか、それとも単一の読取り要求と
して処理するかを選択できる。データフラグメントをキ
ャッシュにより（別々にか又は単一のＩ／Ｏ操作の一部
として）供給する場合、大型読取り要求のデータは演算
ノードに戻り始める。キャッシュがデータを利用可能に
した各フラグメントのため、ワークロードインジェクタ
は、ＦＲＡＧ−ＰＩＴ一部完了メッセージ内のこのデー
タを演算ノードに送り返す。ＦＲＡＧ−ＰＩＴ一部完了
メッセージが、自身が転送された時に演算ノードに割り
込みを作成しないという点を除いて、通常のＰＩＴ読取
り要求完了と同様に、各ＦＲＡＧ−ＰＩＴ一部完了メッ
セージはデータを転送する。最後の完了フラグメントを
ＦＲＡＧ−ＰＩＴ完全完了メッセージとともに演算ノー
ドに復帰させる。ＦＲＡＧ−ＰＩＴ完全完了は、ＦＲＡ
Ｇ−ＰＩＴ完全完了が割り込み（完全アップコール）を
介してＦＲＡＧ−ＰＩＴ読取り要求全部が完了したこと
の信号を出す点で、一部完了メッセージと異なってい
る。

【０１７１】７．他のネットワークデバイス上でのＰＩ
Ｔプロトコルの実行記憶装置と接続しているネットワークに対する前述のア
プローチのパフォーマンスの大部分は、ＰＩＴプロトコ
ルをサポートする相互接続機構１０６の能力よるもので
ある。ＢＹＮＥＴの場合、ＰＩＴプロトコルに大変よく
合う低位インターフェースを作成した。ファイバチャネ
ル等の他のネットワークインターフェースも同様に、Ｐ
ＩＴプロトコルをサポートする能力がある。

【０１７２】Ｅ．バミューダトライアングルプロトコル本発明は、ＩＯＮクリーク２２６とライトバックキャッ
シングを介して、データとＩ／Ｏ冗長を提供する。ＩＯ
Ｎクリーク２２６は、複数のＩＯＮを含む（典型的に
は、主ＩＯＮ２１２と同僚ＩＯＮ２１４から成るＩＯＮ
２１２とＩＯＮ２１４等のペアで、すなわちダイポール
で配置される）。

【０１７３】同僚ＩＯＮ２１４は、主ＩＯＮ２１２変更
キャッシュページのコピーの一時格納装置として働くの
で、データとＩ／Ｏ冗長を提供する。Ｉ／Ｏ２２６（ペ
アのＩＯＮすなわちダイポールとして図示）内の各ＩＯ
Ｎ２１２は、ボリュームセットのある群に対する主ＩＯ
Ｎ２１２と、別の群に対する同僚ＩＯＮ２１４として機
能する。

【０１７４】高い可用性とライトバックキャッシングを
提供するため、書込みがアプリケーションに承認される
前に、データを少なくとも２個所で安全に格納しなけれ
ばならない。書込みは承認されたが永久記憶装置に記憶
される前に記憶制御装置が故障した場合、この冗長コピ
ーを用意できないと、データの紛失を導く。

【０１７５】しかしながら、ＩＯＮ２１２と２１４は物
理的に別々のコンピュータから成っているので、相互接
続機構１０６にわたる通信には、かかるバックアップコ
ピーを保全する必要がある。最適なシステムパフォーマ
ンスのため、ライトバックキャッシングを利用するとは
いえ、ＢＹＮＥＴ転送と書込みプロトコルに対応する割
り込みの数は最小限にする必要がある。

【０１７６】ダイポール２２６におけるディスク２２４
に対するデータを書き込むための可能なプロトコルと
は、主ＩＯＮ２１２と同僚ＩＯＮ２１４とに対する演算
ノード２００の書込みを別々に行い、ＩＯＮ２１２と２
１４の両方から書込み要求に対する応答を受信するまで
待ち、次に主ＩＯＮ２１２が、そのページのコピーをも
う保存する必要がないと指示するパージ要求を同僚ＩＯ
Ｎ２１４に送ることである。「送信完了」割り込みを送
信側で抑制すると仮定すれば、送信された各メッセージ
が演算ノード２００又はＩＯＮ２１２と２１４に割り込
みを作成するので、このプロトコルには、少なくとも５
つの割り込みが必要である。

【０１７７】もう一つの可能なアプロトコルは、ＩＯＮ
２１２が書込み要求を同僚ＩＯＮ２１４に送信し、応答
を待ち、演算ノード２００に応答受領を返信することで
ある。このプロトコルもまた、同様に少なくとも５つの
割り込みが必要である。第一の割り込みは、演算ノード
２００が書込み要求を主ＩＯＮ２１２に転送するときに
発生する。第二の割り込みは、主ＩＯＮ２１２がデータ
を同僚ＩＯＮ２１４に転送するときに発生する。第三の
割り込みは、同僚ＩＯＮ２１４がデータの受領を知らせ
るときに発生する。第四の割り込みは、主ＩＯＮ２１２
が演算ノード２００に応答するときに発生して、最後の
割り込みは、データが無事にディスクに転送された後、
主ＩＯＮ２１２がパージ要求を同僚ＩＯＮ２１４に送信
するときに発生する。

【０１７８】図１１は、書込み要求の処理に必要な割り
込み数を最小限にする、本発明で使用されたプロトコル
を示す。本プロトコルは、バミューダトライアングルプ
ロトコルと称される。

【０１７９】まず、演算ノード２００が、書込み要求を
主ＩＯＮ２１２に発行する。２番目に、主ＩＯＮ２１２
がデータを同僚ＩＯＮ２１４に送る。３番目に、同僚Ｉ
ＯＮ２１４が受領を演算ノード２００に送る。最後に、
データが無事ディスクに着いたときに主ＩＯＮ２１２が
パージ要求を同僚ＩＯＮ２１４に送る。上述の４つのス
テップは、全部で４つの割り込みが必要である。割り込
みをさらに減らすために、パージ要求（図１１のステッ
プ４）を遅延して、ステップ２の後の書込みのデータ転
送と結合して３回割り込みプロトコルをもたらす。本プ
ロトコルの追加の長所は、書込み要求を受け取る際に同
僚ＩＯＮ２１４が故障する場合、主ＩＯＮ２１２がライ
トスルーモードで要求を処理し、データがディスクに無
事届けば書込み受領を知らせる。演算ノード２００は、
同僚ＩＯＮ２１４の状態を知る必要はない。

【０１８０】バミューダトライアングルプロトコルは、
データの可用性を維持しながら、従来のプロトコルより
少ない数の割り込みを用いてライトバックキャッシング
を可能にする。これが可能なのは、同僚ＩＯＮ２１４
が、主ＩＯＮ２１２に送られた書込み要求の受領通知を
実行するからである。現在のパイプライン化されたプロ
セッサでは割り込みプロセッシングは費用がかかるとす
れば、各種の分散型記憶システムアーキテクチャで使用
できる本プロトコルは、全体のシステムオーバーヘッド
を減らし、パフォーマンスを向上させる。

【０１８１】Ｆ．演算ノード１．概観演算ノード２００は、ユーザアプリケーション２０４を
実行する。先行技術のシステムにおいては、多くの専用
の共有ＳＣＳＩバスを使用して、クラスタ又はクリーク
内のノードに対する等しい記憶アクセスを可能にしてい
る。本発明では、記憶を、１以上の通信機構１０６を介
して演算ノード２００に接続する。この「ネットワーク
接続記憶」は、演算ノード２００全体に分散されたユー
ザアプリケーション２０４のプロセス間連絡（ＩＰＣ：
ｉｎｔｅｒ−ｐｒｏｃｅｓｓｃｏｍｍｕｎｉｃａｔｉ
ｏｎ）を有する通信機構１０６を共有する。ユーザアプ
リケーション２０４からの記憶要求を、機構／記憶イン
ターフェースによりＩＯＮ２１２に位置する記憶管理ア
プリケーションに対するＩＰＣメッセージの中にカプセ
ル化する。記憶ノードのかかる専用アプリケーションは
ＩＰＣメッセージをローカルキャッシュ又はディスクＩ
／Ｏ操作に変換して、要求があれば結果を演算ノード２
００に返信する。ユーザアプリケーション２０４にとっ
て、ネットワーク接続記憶とローカル接続記憶は区別不
可能である。

【０１８２】仮想ディスクブロックへの読取りと書込み
要求は、相互接続機構１０６を介してＩＯＮ２１２へ到
着する。要求を、演算ノードでの資源開始選択を介して
指定のＩＯＮ２１２に送ることがある。各演算ノード２
００は、どのＩＯＮ２１２がシステム内の各機構の仮想
ディスクへの要求を受け入れるかわかっている。機構の
仮想ディスクは、固有の記憶エクステントを表示する仮
想ディスクモデルを反映しているが、この記憶エクステ
ントはネーム内の物理ディスクの物理位置を暗示しない
し、コード化もしない。

【０１８３】各演算ノード２００は、ＩＯＮダイポール
２２６に対する機構の仮想ディスクネームをマップする
リストを維持している。このリストを演算ノード２００
とＩＯＮ２１２との協調を介して動的に作成される。パ
ワーアップと障害リカバリ操作中に、ダイポール２２６
内のＩＯＮ２１２は、ＩＯＮ２１２間の仮想（及び物
理）ディスクを区画し、ＩＯＮ２１２により所有される
仮想ディスクのリストを作成する。ダイポール２２６内
のもう一つのＩＯＮ２１４（仮想ディスクも記憶資源も
持たない）が、障害がある場合には仮想ディスクに対す
る代替えパスを提供する。

【０１８４】このリストを、他のダイポール２２６すべ
てと演算ノード２００に対する相互接続機構１０６全体
にわたって定期的にエクスポート又は通知する。演算ノ
ード２００はこのデータを使用して、システムの各仮想
ディスクに対する１次及び２次パスのマスター表を作成
する。演算ノード２００内の相互接続機構ドライバは次
に、ダイポール２２６と協調してＩ／Ｏ要求を転送す
る。ダイポール２２６はこの「自己発見（ｓｅｌｆｄ
ｉｓｃｏｖｅｒｙ）」技術を使用して、ダイポール２２
６を稼働中のシステムに加えて、そして取り外す際に発
生することが考えられる仮想ディスクネーミングの不一
致を検出して修正する。

【０１８５】演算ノード２００上で実行中のアプリケー
ションは、演算ノード２００にエクスポートされた各機
構の仮想ディスクに対するローカルディスクのようなブ
ロックインターフェースモデルを認識する。始めの方で
記載したように、演算ノード２００は、ブート時に各機
構の仮想ディスクに対するエントリポイントを作成し
て、演算ノード２００とＩＯＮ２１２巻に確立されたネ
ーミングプロトコルを使用してかかるエントリポイント
を動的にアップデートとする。

【０１８６】Ｇ．サーバ管理１．概観本発明の重要な特徴は、管理であって、システムマネジ
メント又はシステムアドミニストレーションと称される
全体的な管理のサブセットである。利用可能な記憶空間
内のデータエンティティの配置と同様、記憶関連のハー
ドウェアソフトウェア構成要素をかかる機能を介して実
行する。管理動作を管理者により開始できるか、又はシ
ステムで何らかの事象が発生すると直ちに動的に呼び出
すことができる。管理コマンドを入力してほとんど直ち
に受信されるが、信号の結果、単純なコマンドがかなり
の期間大多数のシステム構成要素に対して簡単に影響を
与えることがある。例えば、あるＩＯＮ２１２から別の
ＩＯＮへのボリュームセットの移動に何分も、あるいは
何時間もかかって完了して、主体のファイルシステムの
使用を望む複数のＩＯＮ２１２と演算ノード２００が影
響を受けることである。サーバ管理はまた、システムの
ハードウェアとソフトウェアの状態に関する有益なメッ
セージや警告メッセージを有する管理者を提供する役割
がある。

【０１８７】管理者は、主にスクリーンディスプレイ
「ビュー」を介してシステムについて感知する。システ
ム全体に関するいくつかのビューを示す。主要なビュー
は階層ビューで、一番上にシステム内のすべての演算ノ
ード２００、ＩＯＮ２１２及び機構１０６が示される。
ドリルダウン技術により、目的アイテムのより詳細なデ
ィスプレイが可能になる。大抵のシステムは大きいの
で、サイズと複雑さを単一のディスプレイページに表現
できない。グラフィカルなビューは、物理(地理的)ビュ
ーでも論理ビューでもどちらも表現する。個々のエンテ
ィティ又はエンティティのグループを、さらに詳細な表
示と管理のために選択でき、要求の結果をユーザ選択フ
ォーマットで表示できる。表による提示方法も備えてい
るので、個別にも、またグループでもこのビューで表示
して管理できる。本管理の重要な特徴は、特定の演算ノ
ード２１２からデータを包含する物理記憶ディスクまで
のデータの特定の部分のパスの提示である。このパスを
表形式で提示してその障害許容力表示する。すなわち、
データが利用不能になる前に独立した構成要素の障害が
いくつ発生するか、である。

【０１８８】２．ボリュームセットの作成ボリュームセット（ＶＳ）の作成して、アプリケーショ
ン２０４をホスト演算ノード２００が使用するフリー空
間に割り当てる。ボリュームセットはＩＯＮ２１２内に
基底があり、ネーム（ここで記載のＶＳＩ６０２）、サ
イズ及びＲＡＩＤ（ｒｅｄｕｎｄａｎｔａｒｒａｙ
ｏｆｉｎｅｘｐｅｎｓｉｖｅｄｉｓｋｓ）データ保
護レベルを有する。システムアドミニストレータは要件
に基づいたＶＳを作成し、位置と冗長性特性を指定する
こともある。複数のＶＳをグループ操作で作成する。

【０１８９】図１２は、指定のＶＳ作成インターフェー
スウィンドウ１１００の１実施形態のスナップショット
である。すべてのＩＯＮ２１２のディスクすべてを単一
の空間として表示する場合、システムアドミニストレー
タは、この単一空間のプールからの割り当て空間につい
てここに記載の自動機能を用いることにより、このイン
ターフェースを使用してボリュームセットを作成でき
る。この場合、アドミニストレータは、ボリュームセッ
トのサイズとＲＡＩＤを選択するだけでよい。かかるパ
ラメータの指定がない場合、デフォルトを使用する。

【０１９０】指定のＶＳ作成ユーザインターフェース
は、ＶＳネームを表示するＶＳＩネームウィンドウと、
ＶＳサイズを表示するＶＳＩダウンボックス１１０６を
有するＶＳＩ特性ウインドウ部１１０２を含む。ＶＳ作
成ユーザインターフェースはまた、ラジオボタンのた
め、システムアドミニストレータはサポートＲＡＩＤレ
ベルを選択できるＶＳＩＲＡＩＤレベルウインドウ部
１１０８を含む。ＯＫボタン１１１２はシステムアドミ
ニストレータが選択したデータを入力して、ＶＳ作成ユ
ーザインターフェースウインドウ１１１０を閉じる。デ
ータを要求の度にＩＯＮ２１２へ送ってボリュームセッ
トを作成する。一旦ＶＳを作成すると、ＩＯＮ２１２
は、選択の操作完了を示すことにより応答する。ネー
ム、位置、内部識別番号、何らかのエラーメッセージ及
びユーザに関連するデータを表示して、結果をディスプ
レイできる。キャンセルボタン１１１４は、ＶＳ作成ユ
ーザインターフェースウインドウ１１１０をなんら変更
せずに閉じ、ヘルプボタン１１１６は別のウインドウを
開いて必要の場合にはヘルプを提供する。拡張機能は、
拡張ボタン１１１８を介してアクセスできる。

【０１９１】図１３は、１実施形態、拡張ＶＳ作成イン
ターフェースウインドウ１２００のスナップショットで
ある。このインターフェースを使用して、ユーザは指定
のＩＯＮ２１２のボリュームセットとディスクとを設定
してパフォーマンスを最適化できる。拡張ＶＳ作成イン
ターフェースウインドウ１２００は、インポートＶＳＩ
特性ダウンボックス１２０２を含み、ユーザがシステム
に存在するすべてのボリュームセットの名前と特性を見
ることができる。この機能用に得られたデータは、すべ
てのＩＯＮ２１２にシステム内のボリュームセットの名
前と特性を照会することにより得られる。拡張ＶＳ作成
インターフェースウインドウ１２００はまた、アドミニ
ストレータに同じ名前を有する多数のボリュームセット
を作成させるグループ操作ウインドウ部１２０４と、可
変ＶＳＩレイアウトボタン１２０５を含む。この操作が
完了する前に、必要があれば操作を完了するに十分な仮
想ディスク（ｖディスク）があることを、システムは保
証する。ＶＳ作成が実行中の時に複数の操作が進行中で
ある場合、適切なロッキングと結果報告を実行して、進
行中の操作により操作を行えないようにしたことと、か
つ（補正機能への単純な通知から）応答手段がとられた
ことを表示する。拡張ＶＳ作成インターフェースウイン
ドウ１２００はまた、読取りキャッシングオプション部
１２０８と書込みキャッシングオプション部１２１６を
含むキャッシュオプション部１２０６を備えている。読
取りキャッシングオプション部１２０８は、シーケンス
またはキャッシュ最適化を指定するラジオボタン１２１
０と、キャッシングオプション（図１２で後入れ先出し
を示す）を指定するダウンボックス１２１２と、リード
アヘッド量を示すダウンボックス１２１４とを含む。書
込みキャッシングオプション部１２１６は、シーケンス
又はランダム最適化を指定するラジオボタン１２１８
と、キャッシング方法を指定するダウンボックスを含
む。書込み及び読取りキャッシングに対し、キャッシン
グ機能をＩＯＮソフトウェアで確定して、ＩＯＮ２１２
から照会する。

【０１９２】拡張ＶＳ作成インターフェースウインドウ
はまた、指定のＩＯＮ２１２内に仮想ディスクエンティ
ティを設定させる位置情報部１２２２も備えている。位
置情報部１２２２はＩＯＮとＩＯＮの特性を指定するＩ
ＯＮ位置ダウンボックス１２２６を備えている。図示の
実施形態において、ＩＯＮ特性はＩＯＮネーム、ＩＯＮ
２１２内の現在利用されているパーセントと残余のパー
セントを示すＩＯＮディスク空間のパーセントを含む。
一連のラジオボタン１２２４で選択して、このリストを
低下順又は増大順に多数の異なるＩＯＮ特性を表示でき
る。利用情報及び自由空間情報を得るすべてのＩＯＮ２
１２の分類された照会を介して、かかる選択の提示を達
成できる。ユーザが所望の場合には、ＶＳを作成する指
定の物理ディスクを選択できる。ボタン１２２８によ
り、このサービスにアクセスできる。ボタン１２３０は
上述の情報を入力して、ＩＯＮ２１２に適切な要求を転
送して、図１２で述べたように情報を復帰する。

【０１９３】図１４は、詳細なＶＳ作成ユーザインター
フェースウインドウ１３００の１実施形態のスナップシ
ョットである。このウインドウは、利用可能な空間と自
由空間の最大連続ブロックをリストした、該当するＩＯ
Ｎ２１２のビジュアル・プレゼンテーションを示す。Ｆ
Ｃ−１ループ１３０４とＦＣ−２ループ１３０６の物理
ディスク１３０８（図中で００１−０４０と標識され
る）への接続も表示する。各物理ディスクへの特性の利
用を、凡例１３１２を含む利用部に表示する。物理ディ
スク１３０８の画像表示は、選択過程で有益な情報を示
す凡例１３１２により変わる。図示の実施形態におい
て、凡例は、色又はシェーディングにより物理ディスク
の利用を表示する。ラジオボタン１３１４は、空間、パ
フォーマンス、最良適合、キャッシング又はかかる測定
を組み合わせた特性利用をディスプレイするかどうか選
択できる。

【０１９４】アドミニストレータは、ディスクを選択し
て、データウインドウ１３１６を見てそのディスクの現
在の使用を確定する。図示の実施形態において、データ
ウインドウ１３１６は、ＶＳＩと関連サイズ、利用可能
空間とＩＯＮ１３０２との関係を表示する。アドミニス
トレータは、適切な内蔵インジケータボックス１３１８
をディスク上でドラッグすること又は網選択部１３２０
の網選択ボタンの１つを選択して内蔵インジケータをそ
のディスクまで移動することにより、そのディスクを選
択できる。これを、特定のＲＡＩＤ実行（４つの網ディ
スクと１つのパリティを必要とする、ＲＡＩＤ５を例に
示す。）のためのすべてのレベルで達成すると、ＶＳが
構成される。

【０１９５】図１５は、変形のＶＳＩインターフェース
ウインドウ１４００の１実施形態を示す。このＶＳＩイ
ンターフェースウインドウ１４００は、ユーザが可変Ｖ
Ｓイレイアウトボタン１２０５を選択した際に現れ、作
成ＶＳＩボタン１４０６を選択することにより、拡張Ｖ
Ｓ作成インターフェースウインドウ１２００を再選択で
きる。インポートＶＳＩボタン１４０２は、すべてのＩ
ＯＮ２１２にＶＳの名前と特性を照会してＶＳＩリスト
ボックスに表示する。ユーザは、リストボックス１４０
６に表示されているものを選択してＡＩＤラジオボタン
１４０８に状態を読取ることにより、かかるＶＳＩ特性
を見ることができ、あるいはＶＳＩネームをＶＳイネー
ムボックス１４１０に入力してＲＡＩＤレベルをＲＡＩ
Ｄラジオボタン１４０８から、ＶＳＩサイズダウンボッ
クスからサイズを選択して、入力ボタン１４１４を選択
してＶＳＩを作成することもできる。図１３に図示のか
かるエレメントについて述べた同じ技術を使用して、キ
ャッシュオプション、位置情報及び位置情報を、図示の
適切なウインドウにより選択できる。

【０１９６】図１６は、本発明の１実施形態を実行する
ために使用された操作を描いたフローチャートである。
本プロセスは、１５０２をＩＯＮ２１２に照会して、各
ＩＯＮ２１２内の利用可能な記憶空間ブロックを確定す
ることから始まる。ＩＯＮ２１２をまた、所望の場合は
ダイポール２２６として照会することもできる。次に、
利用可能な記憶空間ブロックの識別と記憶空間ブロック
サイズを表示する照会から検索した情報を、１５０４で
ディスプレイする。次に、最大の記憶空間ブロック以下
のボリュームセットネームとボリュームセットサイズ
を、１５０６で受け付ける。そして、情報を１５０８で
走査して、利用可能な記憶ブロックの記憶ブロックサイ
ズが選択のボリュームセットサイズと等しいか確定す
る。利用可能な記憶ブロックのサイズが選択のボリュー
ムセットサイズと等しい場合は、ブロック１５１０はこ
の論理を、選択のボリュームセットサイズと等しいサイ
ズの記憶空間ブロックを選択する、ブロック１５１２に
送る。そうでない場合は、パフォーマンスデータを、１
５１４で選択のボリュームセットサイズより大きいサイ
ズの利用可能な記憶空間ブロックを得て、このデータを
使用して、１５１６でボリュームセットに対する記憶空
間ブロックを選択する。

【０１９７】図１７は、本発明の１実施形態において、
利用可能な記憶に対するＩＯＮ２１２の照会を実行する
走査を表すフローチャートである。まず、アドミニスト
レータからメッセージをＩ／Ｏノード２１２に送信する
（１６０２）。任意選択として、このメッセージはデジ
タル署名を含むので、Ｉ／Ｏノードは、システムアドミ
ニストレータがこのメッセージの要求により情報を閲覧
する権利があることを認識する。次に、Ｉ／Ｏ２１２
は、署名を認証する（１６０４）。署名がリクエスタ
（ここでは、システムアドミニストレータ）にデータの
受け取りを許可すると、Ｉ／Ｏノード内の利用可能な記
憶空間ブロックを記述する情報を受け取る（１６０
６）。

【０１９８】Ｈ．ボリュームセット所有権交渉Ｉ／Ｏパス障害は、ＶＳＩ６０２が主ＩＯＮ２１２から
も同僚ＩＯＮ２１４からもアクセス不能を引き起こすこ
とがある。従って、ＩＯＮ２１２が所有するＶＳＩのワ
ーキングセットセットを、かかるＩ／Ｏ障害の場合には
変更できるとすることは有利である。各ＩＯＮ２１２、
２１４は、ＶＳＩ６０２の１次セットのとＶＳＩ６０２
の２次セットを有しており、ＩＯＮ２１２はＶＳＩ６０
２の１次セットを直接引き受けて、ノード又はパス障害
の際にはＶＳＩ６０２の２次セットを引き受ける。これ
を達成するため、ＩＯＮの２次セット内にあるアクセス
不能のＶＳＩを、同僚ＩＯＮ２１４で「ライトスルー」
とマークする。ＩＯＮ１次セット内のアクセス不能のＶ
ＳＩを、同僚ＩＯＮ２１４に移行してアクセスのために
利用可能な対応の記憶を作成する。資源を移行する方法
の一つは、完全移行を使用することである。この場合、
Ｉ／Ｏパス障害を、ＩＯＮ２１２の障害として処理し、
ＶＳＩの完全な１次セットを同僚ＩＯＮ２１４に移行す
る。これにより簡単に解決するが、発生したことが皆、
パス障害であった場合（ノード障害ではなく）は、停止
したＩＯＮのプロセッシングとＩ／Ｏ電源を本質的に失
うという欠点もある。さらに悪い場合は二重のＩ／Ｏパ
ス障害で、各ＩＯＮの１次Ｉ／Ｏパス上の障害が、ダイ
ポール内のＶＳＩ６０２すべてをアクセス不能にする。

【０１９９】この問題をる防止するため、本発明は、主
ＩＯＮ２１２がこのＶＳＩ６０２にアクセスできない場
合には、個々のＶＳＩ６０２を同僚ＩＯＮ２１４に移行
させる、ＶＳＩ６０２の部分移行を使用する。従って、
ダイポール２２６内のＩＯＮ２１２又は２１４のいずれ
かがアクセスできる間は、ＶＳＩ６０２はアクセス可能
のままになっている。

【０２００】ＶＳＩの部分移行をサポートするため、ダ
イポール２２６内のＩＯＮは、エクスポートできるＶＳ
Ｉのワーキングセット（ＩＯＮが管理を要求する）を調
整する。この協調はまた、使用中のＶＳＩをより負荷の
少ないＩＯＮに移行することにより、ＩＯＮの動的なロ
ードバランシングを可能にする。

【０２０１】各ＩＯＮ２１２は、エクスポートに先立ち
その同僚ＩＯＮ２１４とＶＳＩ６０２のワーキングセッ
トの独占的所有権について交渉して、ダイポール２２６
内のどのＩＯＮが問題のＶＳＩ６０２のＩ／Ｏ操作を実
行するか、その交渉結果を確立する。

【０２０２】タイムアウト期間後に、同僚ＩＯＮ２１４
が交渉に参加できない場合（同僚ＩＯＮ２１４に障害が
ある場合）には、すべてのＶＳＩ６０２の完全移行又は
切り換えが発生する。動的にＩ／Ｏパス障害を処理する
ためには、一日の作業開始時を含めてＶＳＩ６０２コン
フィギュレーションが変更するときは常に、ＩＯＮ２１
２、２１４がＶＳＩ６０２所有権交渉を開始する。

【０２０３】ＶＳＩ６０２所有権交渉を、次の情報を含
む主（又は開始）ＩＯＮ２１２から同僚ＩＯＮ２１４へ
のメッセージを介して開始する。

【０２０４】ａｃｃｅｓｓｉｂｌｅＰＲＩＭＡＲＹ
ＶＳＩ −ＰＲＩＭａｃｅｓｓｉｂｌｅＳＥＣＯＮＤＡＲＹＶＳＩ −
ＳＥＣｃｕｒｒｅｎｔＷｏｒｋｉｎｇＳｅｔ −ＷＳＥＴｄｅｓｉｒｅｄＷｏｒｋｉｎｇＳｅｔ −ＤＷＳＥ
Ｔ−ｓｕｂｓｅｔｏｆＰＲＩＭａｎｄＳＥＣ「応答」ｉｏｎ（ここでは同僚ＩＯＮ２１４）は、開始
プログラムの交渉要求とその現在のコンフィギュレーシ
ョンに基づく情報様のものをともに応答する。このメッ
セージ交換と次のサブセクションに示した計算の応用に
基づいて、「ライトスルー」がマークされる必要があっ
て、単一のＩＯＮによりアクセス可能なすべてのＶＳＩ
の識別と同様、ＶＳＩ６０２の可用性を最大にする独占
的所有権を確定できる。

【０２０５】１．パス障害がない場合のＶＳＩ所有権交
渉ＶＳＩ所有権交渉要求は、典型的には一日の作業開始中
に開始される。ＰＲＩＭとＳＥＣは、問題のＩＯＮが物
理的にアクセス可能なＶＳＩ６０２のセットを含む。Ｖ
ＳＩ６０２のワーキングセットが確立されていないの
で、「Ｗｓｅｔ」をヌルに設定する。「Ｄｗｓｅｔ」
は、通常、ＩＯＮのＰＲＩＭＡＲＹセット内に指定され
るものと同じＶＳＩ６０２である、ＩＯＮ２１２が所有
を希望するＶＳＩ６０２のリストを含んでいる。Ｉ／Ｏ
パスエラーが発生していない場合、あるＩＯＮのＰＲＩ
Ｍセットともう一つのＩＯＮのＳＥＣセットは同じもの
である。この場合、応答内の「Ｄｗｓｅｔ」は要求ＩＯ
ＮのＳＥＣＯＮＤＡＲＹセットを含む。

【０２０６】２．パス障害がある場合のＶＳＩ所有権交
渉ダイポール２２６内にＩ／Ｏパス障害がある場合には、
単一のＩＯＮ２１２がアクセス可能なＶＳＩを識別して
部分移行させる又はＷＲＩＴＥ−ＴＨＲＵとマースする
必要がある。

【０２０７】図１８は、ＶＳＩ６０２所有権交渉で実行
される操作のフローチャートを示す。プロセスは、開始
ノード２１２がアクセス可能な資源を確定する（第１
の）ノード２１２を開始することにより始まる（１８０
２）。これは、１次１次ＶＳＩ（ＰＲＩＭｉと記載）及
び２次ＶＳＩ（ＳＥＣｉと記載）を含む。次に、開始ノ
ード２１２（ＤＷＳＥＴｉ）の所望のワーキングセット
をアクセス可能な１じＶＳＩに設定する。これは、ブロ
ック１８０４に記載されている。応答ノード２１２が現
在作動状態の場合、ブロック１８０８に示されたよう
に、開始ノード２１２（ＷＳＥＴｉ）のワーキングセッ
トをヌルに設定する。応答ノード２１４が非作動状態の
場合、ブロック１８１０に示されたように開始ノード２
１２（ＷＳＥＴｉ）のワーキングセットを開始ノード２
１２（ＤＷＳＥＴｉ）の所望のワーキングセットに設定
する。タイムアウト後、応答ノードがまだ非作動状態の
場合には、開始ノード２１２がＳＥＣｉのＶＳＩの所有
権があると見なす、スイッチオーバーが発生する。次
に、ブロック１８１２に示されたように、開始メッセー
ジを開始ノード２１２から応答ノード２１４に転送す
る。このメッセージは、開始ノードの１次資源（ＰＲＩ
Ｍｉ）、開始ノードの２次資源（ＳＥＣｉ）、開始ノー
ド２１２のワーキングセット及び開始ノード２１２の所
望のワーキングセットを含む。開始ノード２１２のワー
キングセットＷＳＥＴｉは開始ノード２１２に割り当て
られた資源を表し、所望のワーキングセットＤＷＳＥＴ
ｉは開始ノード２１２が割り当てを所望した資源のセッ
トを表す。次に、開始ノード２１２が要求した資源を、
応答ノード２１４から割り当てを取り消す。これを、ブ
ロック１８１４に記載したように、応答ノード２１４の
開始メッセージを受け取ることにより達成する。応答ノ
ード２１４のワーキングセット（ＤＷＳＥＴｒ）を応答
ノード２１４のワーキングセット（ＷＳＥＴｒ）に設定
する。応答ノード２１４（ＷＳＥＴｒ）のワーキングセ
ットがヌル（空）の場合、応答ノード２１４（ＤＷＳＥ
Ｔｒ）の所望のワーキングセットを１次ＶＳＩ（ＰＲＩ
Ｍｒ）の応答ノード２１４セットに設定する。ＶＳＩ
（図１８でＦと記載）が開始ノード２１２の所望のワー
キングセット（ＤＷＳＥＴｉ）内にあって、かつＶＳＩ
が応答ノード２１４の所望のワーキングセット（ＤＷＳ
ＥＴｒ）にある場合、ＶＳＩＦを応答ノード２１４の所
望のワーキングセット（ＤＷＳＥＴｒ）から取り除く。
これをブロック１８２２−１８２６に記載する。

【０２０８】応答ノード２１４からは到達可能でかつ開
始ノード２１２から要求されていない資源を応答ノード
２１４に割り当てる。これをブロック１８２２−１８３
０に記載する。ＶＳＩＦが開始ノード２１２の所望のワ
ーキングセット（ＤＷＳＥＴｉ）内と応答ノード２１４
がアクセス可能のＶＳＩのセット内とにあって、１次資
源（ＰＲＩＭｒ）か又は２次資源（ＳＥＣｒ）のいずれ
かである場合、ＶＳＩＦを応答ノード２１４の所望のワ
ーキングセット（ＤＷＳＥＴｒ）に加える。ブロック１
８３２に示されたように、ＳＥＣｒ又はＰＲＩＭｒ内の
いずれにもないＶＳＩは、応答ノード２１４に対しアク
セス不能で、交渉応答の開始ノードがアクセス可能の場
合には、開始ノード２１２により所有権が主張される
（ブロック１９１４を参照）。前述を、すべてのＶＳＩ
に繰り返す（１８３４）。

【０２０９】応答ノード２１４の所望のワーキングセッ
ト（ＤＷＳＥＴｒ）内にあるが開始ノードがアクセスで
きないＶＳＩ（開始ノードの２次ＶＳＩセットでも１次
ＶＳＩのセットでもない）を、応答ノード２１４により
ライトスルー資源としてマークする。この割り当てをマ
ークすることにより、演算ノード書込み要求の受け取り
に先立って、応答ノード２１４に十分な情報を用意して
開始ノードに対するバミューダトライアングルを不可能
にして、ディスク記憶にライトスルーを行う。このライ
トスルーマーキング操作を、ブロック１８４０に示した
ように、ＤＷＳＥＴｒ内のＶＳＩすべてに繰り返す。

【０２１０】最後に、前述の操作が、応答ノード２１４
の所望のワーキングセット（ＤＷＳＥＴｒ）を変更しな
ければ、応答ノード２１４のワーキングセット（ＷＳＥ
Ｔｒ）を応答ノード２１４の所望のワーキングセット
（ＤＷＳＥＴｒ）に設定し、応答ノード２１４のワーキ
ングセット（ＷＳＥＴｒ）を機構１０６全体にエクスポ
ートする。かかる操作を、ブロック１８４２−１８４６
に示す。前述の操作が応答ノード２１４の所望のワーキ
ングセット（ＤＷＳＥＴｒ）を変更しなければ、所望の
ワーキングセットはワーキングセット（ＷＳＥＴｒ）と
同様の資源を有していることになる。この場合は、応答
ノード２１４のワーキングセット（ＷＳＥＴｒ）をエク
スポートしない。

【０２１１】図１９は、応答ノード２１４に割り当てら
れた資源を開始ノード２１２から割り当てを取り消す、
開始ノード側で実行される操作を示すフローチャートで
ある。まず、応答メッセージを応答ノード２１４から開
始ノード２１２へ転送する（１９０２）。このメッセー
ジは、ＰＲＩＭｒ、ＳＥＣｒ、ＷＳＥＴｒ、及びＤＷＳ
ＥＴｒの値を含む。このメッセージを応答ノード２１４
から受け取り（１９０４）、開始ノード２１２のワーキ
ングセット（WＳＥＴｉ）を開始ノード２１２の所望の
ワーキングセット（ＤＷＳＥＴｉ）に設定する（１９０
６）。ＶＳＩＦが応答ノード２１４の所望のワーキング
セット（ＤＷＳＥＴｒ）内と開始ノード２１２の所望の
ワーキングセット（ＤＷＳＥＴｉ）内とにある場合は、
Ｆ資源を開始ノード２１２の所望のワーキングセット
（ＤＷＳＥＴｉ）から取り除く。ＦＶＳＩが応答ノード
２１４の所望のワーキングセット（ＤＷＳＥＴｒ）内に
あって、かつ開始ノード２１２の所望のワーキングセッ
ト（ＤＷＳＥＴｉ）にない場合は、開始ノード２１２の
所望のワーキングセット（ＤＷＳＥＴｉ）を変更しな
い。

【０２１２】開始ノード２１２は開始ノード２１２に対
しアクセス可能である割り当てられていない資源の所有
権があると見なす（ＰＲＩＭｉセットか又はＳＥＣｉセ
ット内のいずれかにあることにより表示される）。割り
当てられていない資源は、応答ノード２１４所有の所望
ワーキングセット（ＤＷＳＥＴｒ）内にも開始ノード２
１２所有の所望ワーキングセット（ＤＷＳＥＴｉ）内に
もない資源である。これを、ブロック１９０８、１９１
４及び１９１６に示す。前述の操作を、ブロック１９１
８に示されたようにすべてのＶＳＩに対して繰り返す。

【０２１３】次に、開始ノード２１２のワーキングセッ
ト（ＷＳＥＴｉ）を、ブロック１９２０に示されたよう
に、開始ノード２１２の所望のワーキングセット（ＤＷ
ＳＥＴｉ）に設定する。ＷＳＥＴｉ内にあって、かつ応
答ノード２１４が到達可能でないＶＳＩ（ＳＥＣｒ又は
ＰＲＩＮｒ内にない）を、ライトスルーというマークを
する。これにより、そのＶＳＩ６０２に対応する資源の
バミューダトライアングルプロトコルを不可能にする。
これは、図１９のブロック１９２２?ｂＰ９２６に表示
されている。最後に、前述の操作が完了した後、ブロッ
ク１９２８に示されたように、開始ノード２１２のワー
キングセットを機構１０６全体に渡りエクスポートす
る。

【０２１４】３．実施形態図２０は、図示のようにＶＳＩ１−６を共有するＩＯＮ
２１２と２１４間でのＶＳＩ所有権交渉の交換を示す。
ＩＯＮ２１２を、４−６のＳＥＣＯＮＤＡＲＹセットを
有する１−３のＰＲＩＭＡＲＹセットと構成する。ＩＯ
Ｎ２１４を、１−３のＳＥＣＯＮＤＡＲＹセットを有す
る４−６のＰＲＩＭＡＲＹセットと構成する。

【０２１５】ＩＯＮ２１２は現在ＯＮＬＩＮＥであっ
て、そのワーキングセットはＶＳＩの１、２及び３であ
る。ＩＯＮ２１４はまさにＯＮＬＩＮＥになるところで
あって、エクスポートできるＶＳＩ６０２のワーキング
セットを確定したいので、ＶＳＩ所有権交渉要求を開始
するところである。ＩＯＮ２１４はＶＳＩ６とＶＳＩ１
に対してパス障害がある。

【０２１６】ＩＯＮ２１４は、次の情報を含む情報を含
む交渉要求をＩＯＮ２１２に送る：ＰＲＩＭｉ：４、５ＳＥＣｉ：２、３ＷＳＥＴｉ：ＤＷＳＥＴｉ：４、５ＩＯＮ２１２は、交渉要求を受け取ると、新規のワーキ
ングセットを計算する。ＶＳＩ６はＤＷＳＥＴｉにない
がＳＥＣにはあるので、ＶＳＩ６をＤＷＳＥＴｉに加え
る。ＩＯＮ２１２は、ＶＳＩ６の部分移行を許可する次
の交渉応答を送り返す。

【０２１７】ＰＲＩＭｒ：１、２、３ＳＥＣｒ：４、５、６ＷＳＥＴｒ：１、２、３ＤＷＳＥＴｒ：１、２、３、６ＩＯＮ２１２はまた、ＤＷＳＥＴｒのＶＳＩ１とＶＳＩ
６（ＰＲＩＭｉにもＳＥＣｉにもない）はＩＯＮ２１４
によりアクセス不可能なので、ライトスルーというマー
クを付ける（これにより、かかるＶＳＩに対しバミュー
ダトライアングルプロトコルを不可能にする）が、いず
れのＵＩＯＮからもアクセス可能であるＶＳＩ２と３に
対するバミューダトライアングルプロトコルは可能であ
る。

【０２１８】ＩＯＮ２１４が応答を受け取ると、自身の
ＤＷＳＥＴがＩＯＮ２１２のＤＷＳＥＴと矛盾しないの
で、ＩＯＮ２１４のワーキングセットとして所望のワー
キングセットＶＳＩ４と５が使用できることを確定す
る。どちらのＤＷＳＥＴにも、アクセス可能なＶＳＩは
すでにない。ＩＯＮ２１４は従って、ＯＮＬＩＮＥ状態
に入りＶＳＩのワーキングセットをエクスポートする。
Ｉ／Ｏパス障害が修復されてＶＳＩ６がアクセス可能に
なる場合、ＩＯＮ２１４は別のＶＳＩ所有権交渉交換を
再び開始して、ＶＳＩ６を自身の所望のワーキングセッ
トに含めることにより、ＶＳＩ６の所有権を再要求す
る。これは、ＳＷＩＴＣＨＢＡＣＫを実行するために必
要な同じプロセッシングである。

【０２１９】ＰＲＩＭｉ：４、５、６ＳＥＣｉ：２、３ＷＳＥＴｉ：４、５ＤＷＳＥＴｉ：４、５、６ＩＯＮ２１２は、ＩＯＮ２１４がＶＳＩ６の所有権を再
要求従っていることを確定すると、自身のワーキングセ
ットからＶＳＩ６を取り除くための動作をとる。ＩＯＮ
２１２は、交渉の応答を送る前に、再度ＯＮＬＩＮＥ状
態に入って新規のワーキングセットをエクスポートして
ＶＳＩ６の所有権を放棄しなければならない。

【０２２０】ＰＲＩＭｒ：１、２、３ＳＥＣｒ：４、５、６ＷＳＥＴｒ：１、２、３、６ＤＷＳＥＴｒ：１、２、３４．切り換えダイポール２２６のコンフィギュレーション内のＩＯＮ
２１２、２１４は、物理記憶デバイスの同じセットに接
続して、ＩＯＮ２１２に障害がある場合には、機構接続
記憶の障害復元性を提供する。ＩＯＮ２１２に障害が発
生すると、「切り換え」が発生する。ダイポール２２６
ペアの残余のＩＯＮ２１４が、ＶＳＩの自身のＳＥＣＯ
ＮＤＡＲＹセット（又は故障した同僚ＩＯＮのＰＲＩＭ
ＡＲＹセット）の所有権がある見なす。このＩＯＮに障
害のある状況においては、故障したＩＯＮのＶＳＩの全
セットを、残余のＩＯＮに完全に移行する。同僚ＩＯＮ
２１４は、バミューダトライアングルアルゴリズムを介
する機構ベースの専用ロギングを行えないので、同僚の
いないＩＯＮによりエクスポートされたＶＳＩすべて
に、ライトスルーというマークを付ける。

【０２２１】本発明の好適な実施の態様に関する前述の
説明について、例示と説明の目的で述べてきた。開示さ
れた厳密な形式が本発明のすべてではなく、これにに限
定するものではない。上記記述の教えるところから見
て、いろいろな改良変更が可能である。本発明の範囲は
この詳細な説明に限定されるものではなく、むしろ前記
特許請求の範囲により限定される。

【図面の簡単な説明】

【図１】キーとなるアーキテクチャエレメントを示す、
本発明の平面ブロック図。

【図２】本発明のシステムのブロック図。

【図３】ＩＯＮとシステムの相互接続の構造を示すブロ
ック図。

【図４】ＪＢＯＤ格納装置内のエレメントのブロック
図。

【図５】ＩＯＮ物理ディスクドライバの機能ブロック
図。

【図６】機構固有のＩＤの構造を示す図。

【図７】ＩＯＮ格納管理モジュールとＩＯＮ物理ディス
クドライバとの関係を示す機能ブロック図。

【図８】ＢＹＮＥＴホスト側インターフェースの図。

【図９】ＰＩＴヘッダーの図。

【図１０】ＩＯＮ２１２の機能モジュールのブロック
図。

【図１１】ＩＯＮダイポールのプロトコルを示す図。

【図１２】仮想記憶作成ユーザインターフェースの一実
施形態を示す図。

【図１３】拡張仮想記憶作成のユーザインターフェース
の一実施形態を示す図。

【図１４】詳細な仮想記憶作成のユーザインターフェー
スの一実施形態を示す図。

【図１５】変形のＶＳＩユーザインターフェースの一実
施形態を示す図。

【図１６】本発明の１実施形態を実行するために用いら
れた命令を表すフローチャート。

【図１７】本発明の１実施形態における利用可能な記憶
用のＩ／Ｏノードを照会するために実行された命令を表
すフローチャート。

【図１８】ＶＳＩ所有権交渉における照会Ｉ／Ｏノード
において実行された命令を表すフローチャート。

【図１９】応答Ｉ／Ｏノードにおいて実行された命令を
表すフローチャート。

【図２０】ＶＳＩ所有権交渉交換を示す図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者キットエムチョウアメリカ合衆国 92009 カリフォルニア州カールスバッドコルビダエストリート 1336 (72)発明者ニールスハーホーネカーデンマーク 1366−Ｋコペンハーゲンナンセンスゲード 39 (72)発明者モートンスコイエンウィズデンマークＤＫ−2800 リングビーエスウィルメンスヴェイ 15

Claims

【特許請求の範囲】

【請求項１】第一のノードにより要求された資源を第
二のノードから割当解除し、第一のノードにより要求されておらず且つ第二のノード
により到達可能な資源を第二のノードに割り当て、第二のノードに割り当てられた資源を第一のノードから
割当解除し、第一のノードにより到達可能な未割当の資源を第一のノ
ードに割り当てる、各ステップを備える、ことを特徴と
する第一のノードと第二のノードとの間で資源を割り当
てる方法。
【請求項２】前記第一のノードにより要求された資源
を第二のノードから割当解除するテップが、第一のノードにより要求された資源を識別し且つ第一の
ノードが所望する資源セットを含む開始メッセージを第
二のノードに送信し、第一のノードが所望する資源セット内の資源を第二のノ
ードが所望する資源セットから除去し、第二のノードの資源のワーキングセットを第二のノード
が所望する資源セットに設定する、ステップを含むことを特徴とする請求項１に記載の方
法。
【請求項３】第二のノードが所望する資源セット内の
各資源が第一のノードにより到達不能な場合に、該資源
にライトスルー資源という標識を付する、ステップを更に備えることを特徴とする請求項２に記載
の方法。
【請求項４】前記第二のノードに割り当てられた資源
を第一のノードから割当解除するステップが、第二のノードが所望する資源セットを含む応答メッセー
ジを第一のノードに送信し、第二のノードが所望する資源セット内の資源を第一のノ
ードが所望するセットから取り除き、第一のノードの資源のワーキングセットを第一のノード
が所望する資源セットに設定する、ステップを含むことを特徴とする請求項１に記載の方
法。
【請求項５】第一のノードが所望する資源セット内の
各資源が第二のノードにより到達不能な場合に、該資源
にライトスルー資源という標識を付する、ステップを更に備えることを特徴とする請求項４に記載
の方法。
【請求項６】第一のノードにより要求された資源を第
二のノードから割当解除する手段と、第一のノードにより要求されておらず且つ第二ノードに
より到達可能な資源を第二のノードに割り当てる手段
と、第二のノードに割り当てられた資源を第一のノードから
割当解除する手段と、第一のノードにより到達可能であり且つ第一のノード又
は第二のノードに未割当の資源を第一のノードに割り当
てる手段、とから構成されることを特徴とする第一のノ
ードと第二のノードとの間に資源を割り当てる装置。
【請求項７】前記第一のノードにより要求された資源
を第二のノードから割当解除する手段が、第一のノードにより要求された資源を識別し且つ第一の
ノードが所望する資源セットを含む開始メッセージを第
二のノードに送信する手段と、第一のノードが所望する資源セット内の資源を第二のノ
ードが所望する資源セットから除去する手段と、第二のノードの資源のワーキングセットを第二のノード
が所望する資源セットに設定する手段と、を含むことを特徴とする請求項６に記載の装置。
【請求項８】第二のノードが所望する資源セット内の
各資源が第一のノードにより到達不能な場合に、該資源
にライトスルー資源という標識を付する、ステップを更に備えることを特徴とする請求項７に記載
の装置。
【請求項９】前記第二のノードに割り当てられた資源
を第一のノードから割当解除する手段が、第二のノードが所望する資源セットを含む応答メッセー
ジを第一のノードに送信する手段と、第二のノードが所望する資源セット内の資源を第一のノ
ードが所望するセットから取り除く手段と、第一のノードの資源のワーキングセットを第一のノード
が所望する資源セットに設定する手段と、を含むことを特徴とする請求項６に記載の装置。
【請求項１０】第一のノードが所望する資源セット内
の各資源が第二のノードにより到達不能な場合に、該資
源にライトスルー資源という標識を付する、ステップを更に備えることを特徴とする請求項９に記載
の装置。
【請求項１１】第一のノードと第二のノードとの間に
資源を割り当てる方法を実施するためにコンピュータに
より実行可能な一以上の命令を実現するコンピュータ読
取り可能なプログラム記憶媒体であって、前記方法を構成するステップが、第一のノードにより要求されておらず且つ第二のノード
により到達可能な資源を第二のノードに割り当て、第二のノードに割り当てられた資源を第一のノードから
割当解除し、第一のノードにより到達可能な未割当の資源を第一のノ
ードに割り当てる、各ステップを備えることを特徴とす
るプログラム記憶媒体。
【請求項１２】前記第一のノードにより要求された資
源を第二のノードから割当解除するテップが、第一のノードにより要求された資源を識別し且つ第一の
ノードが所望する資源セットを含む開始メッセージを第
二のノードに送信し、第一のノードが所望する資源セット内の資源を第二のノ
ードが所望する資源セットから除去し、第二のノードの資源のワーキングセットを第二のノード
が所望する資源セットに設定する、ステップを含むことを特徴とする請求項１１に記載のプ
ログラム記憶媒体。
【請求項１３】第二のノードが所望する資源セット内
の各資源が第一のノードにより到達不能な場合に、該資
源にライトスルー資源という標識を付する、ステップを更に備えることを特徴とする請求項１２に記
載のプログラム記憶媒体。
【請求項１４】前記第二のノードに割り当てられた資
源を第一のノードから割当解除するステップが、第二のノードが所望する資源セットを含む応答メッセー
ジを第一のノードに送信し、第二のノードが所望する資源セット内の資源を第一のノ
ードが所望するセットから取り除き、第一のノードの資源のワーキングセットを第一のノード
が所望する資源セットに設定する、ステップを含むことを特徴とする請求項１１に記載のプ
ログラム記憶媒体。
【請求項１５】第一のノードが所望する資源セット内
の各資源が第二のノードにより到達不能な場合に、該資
源にライトスルー資源という標識を付する、ステップを更に備えることを特徴とする請求項１４に記
載のプログラム記憶媒体。
【請求項１６】複数の記憶資源と、前記複数の資源の少なくとも一つに通信自在に接続され
た第一の入出力ノードにして、資源の所有権交渉メッセ
ージを第二の入出力ノードと送受信すると共に第二のノ
ードに割り当てられた資源を第一のノードから割当解除
し且つ第一のノードに通信自在に接続された未割当の資
源を第一のノードに割り当てる第一の入出力ノードプロ
セッサを有する第一の入出力ノードと、前記複数の資源の少なくとも一つと通信自在に接続され
た第二の入出力ノードにして、資源の所有権交渉メッセ
ージを第一の入出力ノードと送受信すると共に第一のノ
ードにより要求された資源を第二のノードから割当解除
し且つ第一のノードから未要求で第二のノードと通信自
在に接続された資源を第二のノードに割り当てる第二の
入出力ノードプロセッサを有する第二の入出力ノード
と、を備えることを特徴とするデータ記憶資源。