JPH11316748A

JPH11316748A - 並列処理コンピュ―タ・システムにおけるデ―タの転送方法

Info

Publication number: JPH11316748A
Application number: JP11063744A
Authority: JP
Inventors: Kit M Chow; エムチョウキット; Keith P Muller; キースミュラーピー
Original assignee: NCR International Inc
Current assignee: NCR International Inc
Priority date: 1998-02-06
Filing date: 1999-02-04
Publication date: 1999-11-16
Anticipated expiration: 2019-02-04
Also published as: JP4536840B2; US6105122A; EP0935201A1

Abstract

(57)【要約】（修正有）【課題】マルチプロセッサ・システムにおいて第１の
ノードから第２のノードにデータを転送する方法を提供
する。【解決手段】システムには、相互接続ファブリック・
インタフェースを介して相互接続ファブリックに連結さ
れたコンピューティング・ノードと入出力ノードとをも
った複数のノードを有しており、この入出力ノードは、
複数のデータ記憶装置に連結されていて、第１のノード
内で実行しているアプリケーションからの入出力要求に
応じて第１のノード内で入出力要求パケットを生成する
ステップ１１０２と、相互接続ファブリックを介して第
２のノードにデータ要求パケットを送信するステップ１
１０４と、データ要求を第２のノード・バッファに転送
するためにデビットＩＤを抽出する宛て先相互接続チャ
ネル・プログラムを実行するステップ１１０６とを含
む。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的にはコンピュー
ティング・システムに関し、特にはストアノードとコン
ピューティングノードがネットワークを構成する高度に
拡張可能な並列処理コンピュータシステムのためのＩ／
Ｏプロトコルに関する

【０００２】

【従来の技術】技術的発展はしばしば、見たところ関係
のない一連の技術開発の結果からもたらされる。これら
の無関係の開発は個々には重要であるかもしれないが、
これらが組み合わされると大きな技術的発展の基礎をな
すことがある。歴史的に見れば大規模で複雑なコンピュ
ータシステムにおけるコンポーネントの間の技術成長は
不均一であったが、これには例えば、（１）ディスク入
出力性能に比べてＣＰＵ性能の急速な進歩、（２）内部
的なＣＰＵアーキテクチャの発達、（３）相互接続ファ
ブリックが挙げられる。

【０００３】過去１０年以上に亘って、ディスク入出力
性能は全体として、ノードの性能よりも全体的に遙かに
遅い速度で成長してきた。ＣＰＵ性能は年間で４０％か
ら１００％の割合で増加してきたのに、ディスクのシー
ク時間は年率で僅かに７％改善されてきたにすぎない。
もし予想されるようにこの傾向が続けば、典型的なサー
バ・ノードが駆動できるディスク駆動機構の数は、最も
大きな規模のシステムでは数量的価格的両面でディスク
駆動機構が支配的なコンポーネントとなる点に達するで
あろう。この現象は既に、既存の大規模システムの施設
で明らかになっている。

【０００４】不均一な性能の拡大は、ＣＰＵ内部でも起
こりつつある。ＣＰＵ性能を改善するためにＣＰＵ業者
は、クロック速度の増加とアーキテクチャの変更との組
合せを採用しつつある。これらのアーキテクチャ変更の
多くは、並列処理グループから影響を受けた技術である
ことが分かっている。これらの変更は、不均衡な性能を
作りだし、予想よりも少ない性能改善をもたらしてい
る。簡単な例として、ＣＰＵが割込みを指示できる速度
は、基本命令と同じ速度で拡大していない。こうして割
込み性能に依存するシステム機能（入出力といった）
は、コンピューティング・パワーと一緒には拡大してい
ない。

【０００５】相互接続ファブリックもまた不均一な技術
成長特性を示している。数年の間、これらは１０〜２０
ＭＢ／ｓｅｃの性能レベルの辺りに停滞している。過去
の年には１００ＭＢ／ｓｅｃ（以上の）レベルにまで帯
域幅の大きな飛躍も起こっている。この大きな性能改善
は、大量に並列処理を行うシステムの経済的な配備を可
能にしている。

【０００６】この不均一な性能は、アプリケーションの
アーキテクチャとシステム構成の選択とに対してマイナ
スに働く。例えばアプリケーション性能に関して、改善
されたＣＰＵ性能といったシステムのある部分における
性能改善を利用して作業負荷を増やそうとする試みはし
ばしば、ディスク・サブシステムに同等の性能改善がな
いことによって妨げられる。ＣＰＵが毎秒のトランザク
ション数の生成を２倍にできても、ディスク・サブシス
テムはその増加分の何分の一かしか処理できない。ＣＰ
Ｕは、絶えず記憶システムを待っていることになる。不
均一なハードウエア性能の成長の全体的な影響は、アプ
リケーション性能が所定の作業負荷の特性に対する依存
度の増大を経験しつつあるということになる。

【０００７】プラットフォーム・ハードウエア技術にお
ける不均一な成長もまた、マルチノード・システムを構
成するために利用可能なオプションの数が減少するなど
といった、他の重大な問題を引き起こす。良い例は、Ｔ
ＥＲＡＤＡＴＡ・４ノード・クリークのソフトウエア・
アーキテクチャが記憶装置の相互接続技術の変化によっ
て影響されるということである。ＴＥＲＡＤＡＴＡクリ
ーク・モデルは、単一のクリーク内のノード間で一様な
記憶装置間接続を想定している。各ディスク駆動機構
は、すべてのノードからアクセス可能である。ここであ
るノードが故障すると、そのノード専用であった記憶装
置は、残りのノード間で分割できる。記憶技術とノード
技術とにおける不均一な成長は、共用記憶装置環境にお
いて１ノード当たりに接続できるディスクの数を制約す
ることになる。この制約は、入出力チャネルに接続でき
る駆動機構の数と、４ノード共用入出力トポロジーで接
続できるバスの物理数とによって作られる。ノード性能
の改善が続けられるにつれて、われわれは性能の利点を
実現するために１ノード当たりに接続されるディスク・
スピンドルの数を増加させなければならない。

【０００８】

【発明が解決しようとする課題】クラスタ型大規模並列
処理（ＭＭＰ）の設計は、前述の問題を解決しようとす
るマルチノード・システムの設計の例である。クラスタ
型は、拡張性に制約を受けるが、ＭＭＰシステムは、追
加ソフトウエアに十分に単純なアプリケーション・モデ
ルを提示することを要求する（商業的なＭＭＰシステム
で、このソフトウエアは通常、ＤＢＭＳ（データベース
管理システム）である）。ＭＭＰはまた、非常に高い可
用性を備えたある形式の内部クラスタリング（クリー
ク）を必要とする。両者の解は未だ、潜在的に大きな数
のディスク駆動機構の管理に難題を作りだしており、ま
た電気機械的装置であるこれらのディスク駆動機構はか
なり予測可能な故障率を持っている。ノード相互接続の
問題は、ＭＭＰシステムではノード数が通常はるかに大
きいので更に悪化する。これら両手法も、非常に大きな
データベースを格納刷るために必要とされる駆動機構の
多数さによって再び刺激されて、ディスク接続に難問を
作りだす。

【０００９】上述の問題は、記憶装置エンティティと、
高性能接続ファブリックに亘って計算するコンピューテ
ィング・エンティティとがアーキテクチャ的同位エンテ
ィティとして機能するアーキテクチャにおいて改善され
る。このアーキテクチャは、記憶資源とコンピューティ
ング資源とを管理する際の柔軟性を増加させることがで
きる。しかしながら、この柔軟性はいくつか特有のシス
テム管理上の問題を提示している。データ・コピーと割
込み処理コストが、この問題のうちの２つである。この
問題は、送信側ベースのアドレス指定に伴い改善できる
が、送信側ベースの技術にいくつかの問題がある。第一
に、通常の絶縁不足をうみだし、データ・セキュリティ
と完全性を高めながら、送信側ベースのアドレス指定に
よって、送信側を含む宛て先からファブリックに亘り保
護ドメインが拡張する。純粋な送信側ベースのアドレス
指定は、送信側へのメモリ・アドレスに関し、送信側を
信頼するための宛て先を必要とし、高い利便性を持つシ
ステムにおける重要な問題である。例えば、宛て先ノー
ドが宛て先アドレスのリストを送信側に与えている時の
ケースを考える。送信側がこのアドレスすべてを使用す
る前に、宛て先ノードが壊れ、再ブートする。送信側
は、いまもはや有効でないアドレス・バッファのセット
を所有することになる。宛て先は、異なる目的のためこ
のアドレスを使ってもよい。誰かに送信されたメッセー
ジが、危ないデータは宛て先で破壊される可能性のある
という深刻なことになるかもしれない。

【００１０】第二に、送信側ベースのアドレス指定の実
現は、データのＤＭＡを初期化可能以前に、メッセージ
からの宛て先アドレスを抽出するネットワークの協力を
必要とする。大部分のネットワーク・インターフェース
は、この方法を動作するよう設計されている。送信側ベ
ースのモデルの長所を含み、問題を回避するアドレス指
定モデルが、必要である。本発明は、特有の「ＰＵＴ
ＩＴＴＨＥＲＥ：そこに置く」（ＰＩＴ）プロトコル
を使用するハイブリッド・アドレス指定モデルに伴うこ
の問題を解決する。既知技術の短所を改善するのが、本
発明の目的である。

【００１１】本発明は、添付クレーム１に述べる伝送デ
ータ方法、添付クレーム６に述べる伝送データ装置、添
付クレーム１１に述べるプログラム記憶装置、添付クレ
ーム１６に述べるデータ構造を提供する。

【００１２】

【課題を解決するための手段】マルチプロセッサ・シス
テムにおいて第１のノードから第２のノードにデータを
転送する方法を提供する。本マルチプロセッサ・システ
ムは、相互接続ファブリック・インタフェースを介して
相互接続ファブリックに連結された複数のノードを含ん
でおり、これらのノードは、コンピューティング・ノー
ドと入出力ノードとを含んでおり、この入出力ノード
は、複数のデータ記憶装置に連結されている。本方法
は、第１のノード内で実行しているアプリケーションか
らの入出力要求に応じて第１のノード内で入出力要求パ
ケットを生成するステップと、相互接続ファブリックを
介して第２のノードにデータ要求パケットを送信するス
テップと、データ要求を第２のノード・バッファに転送
するためにデビットＩＤを抽出する宛て先相互接続チャ
ネル・プログラムを実行するステップとを含む。一実施
例では、入出力パケットは、データ転送要求と、相互接
続宛て先チャネル・プログラムと、データ要求が伝送さ
れるであろう第２のノード・バッファを指示する第１の
デビットＩＤと、入出力要求に応答するデータが伝送さ
れるであろう第１のノード・バッファを指示する第１の
クレジットＩＤとを含む。

【００１３】以下、当業者が理解しやすいように説明と
図面により本発明の好適な実施の形態を述べる。

【００１４】

【発明の実施の形態】概要図１は、本発明の同位アーキテクチャの概要である。こ
のアーキテクチャは、一つ以上のコンピューティング資
源１０２と、一つ以上の相互接続ファブリック１０６と
通信路１０８とを介してコンピューティング資源１０２
に通信可能に連結された一つ以上の記憶資源１０４とを
含む。ファブリック１０６は、すべてのノードと記憶装
置との間の通信手段を提供し、こうしてコンピューティ
ング資源１０２と記憶資源１０４との間の一様な同位ア
クセスを実現する。

【００１５】図１に示すアーキテクチャでは、記憶装置
はもはや、現在のノード中心のアーキテクチャのように
単一のセットのノードに縛られることはなく、またどの
ノードもすべての記憶装置と通信できる。これは、物理
的システム・トポロジーが記憶装置とノード間の通信を
制限していて、異なる仕事負荷に対応するためにはしば
しば異なるトポロジーが必要になった今日のマルチノー
ド・システムとは対照的である。図１に示すアーキテク
チャは、システム・トポロジーの広いスペクトルをサポ
ートする単一の物理アーキテクチャを提供することによ
って、アプリケーション・ソフトウエアの通信パターン
がいかなる時点でもシステムのトポロジーを決定できる
ようにしており、技術進歩の不均一さに対応している。
ファブリック１０６によって与えられる分離は、主要な
システム・コンポーネントの各々について極めて僅かず
つの拡張を可能にする。

【００１６】図２は、本発明の同位アーキテクチャの更
に詳細な説明を示す。コンピューティング資源１０２
は、一つ以上のコンピューティング・ノード２００によ
って定義されており、一つ以上のプロセッサを有する各
々のコンピューティング・ノードはオペレーティング・
システム２０２の制御下で一つ以上のアプリケーション
２０４を実現している。コンピューティング・ノード２
００には、テープ駆動機構、プリンタ、その他のネット
ワークといった周辺装置２０８が機能的に連結されてい
る。またコンピューティング・ノード２００には、オペ
レーティング・システム２０２を含む命令とか、アプリ
ケーション２０４、その他の情報といったコンピューテ
ィング・ノード固有の情報を記憶するハードディスクと
いったローカルの記憶装置２１０が機能的に連結されて
いる。アプリケーションの命令は、分散処理方式で、二
つ以上のコンピューティング・ノード２００に亘って格
納、および／または実行できるようになっている。一実
施例では、プロセッサ２１６は、ＩＮＴＥＬＰ６とい
った既製品で商業的に入手可能な多目的プロセッサと、
関連のメモリと入出力エレメントとを含む。

【００１７】記憶資源１０４は、クリーク２２６によっ
て画定されており、これらクリークの各々は、第１の入
出力ノードあるいはＩＯＮ２１２と第２の入出力ノード
あるいはＩＯＮ２１４とを含み、その各々はシステム相
互接続部２２８によって相互接続ファブリック１０６の
各々と機能的に連結されている。第１のＩＯＮ２１２と
第２のＩＯＮ２１４は、ＪＢＯＤ筐体２２２に関連する
一つ以上の記憶ディスク２２４（「ｊｕｓｔａｂｕ
ｎｃｈｄｉｓｋｓほんの一束のディスク）」あるいは
ＪＢＯＤとして知られている）に機能的に連結されてい
る。

【００１８】図２は、典型的な２対１のＩＯＮ２１２対
コンピューティング・ノード比を持つ中規模システムを
示す。本発明のクリーク２２６は、三つ以上のＩＯＮ２
１４を用いて、あるいは記憶ノードの可用性に幾分かの
損失はあるが単一のＩＯＮ２１２を用いて実現すること
もできる。クリーク２２６の個数は、複数のＩＯＮ２１
２の間で共用ハードウエアが存在しないので、純粋にソ
フトウエアの問題である。対になったＩＯＮ２１２は、
「ダイポール」と呼ばれることもある。

【００１９】本発明はまた、コンピューティング・ノー
ド２００とＩＯＮ２１２と相互接続ファブリック１０６
とにインタフェース接続する管理コンポーネントまたは
システム管理ソフトウエア２３０も含む。

【００２０】ＩＯＮ２１２とＪＢＯＤ２１２との間の接
続は、ここでは単純化された形で示してある。実際の接
続は、図示の構成における記憶ディスク２２４の各ラン
ク（行、ここでは４行）に対してファイバ・チャネル・
ケーブルを使っている。実際には、各ＩＯＮ２１２は、
図示の実施例に示す２０個よりもむしろ４０個と８０個
の間の記憶ディスク２２４を管理することになるであろ
う。

【００２１】ＩＯＮ（記憶ノード）内部アーキテクチャハードウエア・アーキテクチャ図３は、ＩＯＮ２１２の構成と、ＪＢＯＤ２２２に対す
るそのインタフェースとに関して更に詳細を示す図であ
る。各ＩＯＮ２１２は、ＪＢＯＤ相互接続部２１６を介
してＪＢＯＤ２２２アレー内の各記憶ディスク２２４に
通信可能に連結するための入出力接続モジュール３０２
と、ＩＯＮ２１２機能を実行してここに述べるＩＯＮ物
理ディスク・ドライバ５００を実現するＣＰＵおよびメ
モリ３０４と、ＩＯＮ２１２操作をサポートするために
電力を供給する電力モジュール３０６とを含む。

【００２２】ＪＢＯＤ図４は、ＪＢＯＤ筐体２２２に関
して更に詳細を示す図である。監視あるいは制御が可能
であるＪＢＯＤ筐体２２２内のすべてのコンポーネント
は、エレメント４０２〜４２４と呼ばれる。所定のＪＢ
ＯＤ筐体のためのすべてのエレメント４０２〜４２４
は、構成ページ符号を持った受信診断結果コマンドを介
して返される。ＩＯＮ２１２は、これらのエレメントを
番号付けしているこのエレメント順序付けリストを使用
する。記載の第１のエレメント４０２はエレメント０で
あり、第２のエレメント４０４はエレメント１であり、
以下同様である。これらのエレメント番号は、コンポー
ネントをアドレス指定するためにここに記載の管理サー
ビス層７０６によって使われるＬＵＮ−Ｃを作成すると
きに使われる。

【００２３】

【表１】筐体の内部では、上の表１に示すようにエレメント位置
は、ラック番号とシャシ番号とエレメント番号とによっ
て指定される。ラック番号は、あるダイポールに属する
ラックに割り当てられたそのダイポールに対する内部番
号である。シャシ位置は、キャビネット管理装置によっ
て通知される高さを指す。エレメント番号は、ＳＥＳ構
成ページによって返されるエレメント・リストへの指標
である。これらのフィールドがＬＵＮ−Ｃフォーマット
を構成している。

【００２４】入出力インタフェース・ドライバ・アーキ
テクチャ図５は、ＩＯＮ２１２のための「ＳＣＳＩドライバ」と
して機能するＩＯＮ物理ディスク・ドライバ５００を含
めて、ＩＯＮ２１２入出力アーキテクチャを示す図であ
る。ＩＯＮ物理ディスク・ドライバ５００は、ＲＡＩＤ
（ｒｅｄｕｍｄａｎｔａｒｒａｙｏｆｉｎｅｘｐ
ｅｎｓｉｖｅｄｉｓｋｓ：低価格ディスクの冗長アレ
ー）ソフトウエア・ドライバまたはシステム管理ソフト
ウエア２３０内の管理ユーティリティからの入出力要求
を取り入れる責任を持っており、そしてＪＢＯＤ相互接
続部２１６の装置側の装置上でその要求を実行する。

【００２５】本発明の物理ディスク・ドライバ５００
は、三つの主要コンポーネント：ハイレベル・ドライバ
（ＨＬＤ）５０２とローレベル・ドライバ５０６とを含
む。ＨＬＤ５０２は、共通部５０３と装置固有のハイレ
ベル部５０４とローレベル・ドライバ５０６とを含む。
共通部５０２と装置固有ハイレベル・ドライバ５０４
は、アダプタ独立であって、新しいアダプタ型のために
修正を必要としない。ファイバ・チャネル・インタフェ
ース（ＦＣＩ）ローレベル・ドライバ５０６は、ファイ
バ・チャネル・アダプタをサポートしており、したがっ
てアダプタ固有よりもむしろプロトコル固有である。

【００２６】ＦＣＩローレベル・ドライバ５０６は、Ｓ
ＣＳＩ要求をＦＣＰフレームに変換し、またログイン
（Ｌｏｇｉｎ）と処理ログイン（ＰｒｏｃｅｓｓＬｏ
ｇｉｎ）のようなファイバ・チャネル共通サービスを取
り扱う。ＦＣＩローレベル・ドライバ５０６には、ファ
イバ・チャネル・プロトコル処理をアダプタ固有ルーチ
ンから分割するハードウエア・インタフェース・モジュ
ール（ＨＩＭ）インタフェース５０８が機能的に連結さ
れている。上述のコンポーネントの更に詳細な説明は、
以下に示す。

【００２７】ハイレベル・ドライバハイレベル・ドライバ（ＨＬＤ）５０２は、どのような
型の装置がアクセスされている場合でも、ＩＯＮ２１２
に対するすべての要求についての入口点である。ある装
置が開かれると、ＨＬＤ５０２はコマンド・ページをそ
の装置に結び付ける。これらの業者固有のコマンド・ペ
ージは、固有のＳＣＳＩ機能のためにＳＣＳＩコマンド
記述子ブロックがどのように構築されるべきかを指示す
る。コマンド・ページは、あるＳＣＳＩ機能をＳＣＳＩ
仕様の指定とは異なるように取り扱う装置をドライバが
容易にサポートできるようにする。

【００２８】共通（装置固有でない）部ＨＬＤ５０２の共通部は、下記の入口点を含む。・ｃｓ−ｉｎｉｔ：ドライバ構造を初期化して資源を
割り当てる。・ｃｓ−ｏｐｅｎ：装置を使用可能にする。・ｃｓ−ｃｌｏｓｅ：入出力を完了して装置をサービス
から削除する。・ｃｓ−ｓｔｒａｔｅｇｙ：装置の読み／書き入力を阻
止する（Ｂｕｆ−ｔｉｎｔｅｒｆａｃｅ）。・ｃｓ−ｉｎｔｒ：ハードウエア割込みをサービス
する。

【００２９】これらのルーチンは、すべての装置の型に
ついて同じ機能を実行する。これらのルーチンの大部分
は、装置の型（ディスク、テープ、ｗｏｒｍ（追記
型）、ＣＤＲＯＭ等）によって指標付けされたスイッ
チ（切替え）表によっていかなる装置固有の要件でも取
り扱う装置固有ルーチンを呼び出す。

【００３０】このｃｓ−ｏｐｅｎ機能は、その装置が
存在しており、そこで実行されるべき入出力操作の準備
ができていることを保証する。現在のシステム・アーキ
テクチャとは異なり、共通部５０３は、オペレーティン
グ・システム（ＯＳ）の初期化期間中に既知の装置の表
を作成することはない。その代わりにドライバ共通部５
０３は自己構成を行う。すなわちドライバ共通部５０３
は、その装置の初期オープン時に装置の状態を決定す
る。これは、ドライバ共通部５０３がＯＳ２０２の初期
化段階後にオンラインになった可能性のある装置を「見
る」ことができるようにする。

【００３１】初期オープン期間中、ＳＣＳＩ装置は、目
標装置にＳＣＳＩ問合せコマンドを発行することによっ
てコマンド・ページに結合される。もし装置が肯定的に
応答すれば、その応答データ（業者ＩＤ、製品ＩＤ、フ
ァームウエア改訂レベルといった情報を含む）がＳＣＳ
Ｉ構成モジュール５１６内の既知装置表と比較される。
もし一致があれば、その装置は、その表の項目に指定さ
れたコマンド・ページに明示的に結合される。もし一致
がなければ、その装置は、一般ＣＣＳ（Ｃｏｍｍｏｎ
ＣｏｍａｎｄＳｅｔ：共通コマンド・セット）または
その応答データ・フォーマットに基づくＳＣＳＩ・ＩＩ
コマンド・ページに暗示的に結合される。

【００３２】ドライバ共通部５０３は、ローレベル・ド
ライバ５０６によって使われるルーチンと、資源を割り
当て、分散・収集操作のためのＤＭＡリストを作成し、
ＳＣＳＩ操作を完了させるコマンド・ページ機能とを含
む。

【００３３】すべてのＦＣＩローレベル・ドライバ５０
６ルーチンは、ドライバ共通部５０３から呼び出され
る。ドライバ共通部５０３は、ハードウエアを設定して
動作を開始させるためにハードウエア・インタフェース
・モジュール（ＨＩＭ）５０８内の適当なローレベル・
ドライバ（ＬＬＤ）ルーチンを呼び出すことによってＳ
ＣＳＩ動作を実際に起動する唯一の層である。ＬＬＤル
ーチンはまた、ＳＣＳＩ構成モジュール５１６から構成
時に割り当てられた、ドライバＩＤによって指標付けさ
れたスイッチ表を介してアクセスされる。

【００３４】装置固有部共通部５０２と装置固有ルーチン５０４との間のインタ
フェースは、共通部へのインタフェースと似ており、ま
たｃｓｘｘ−ｉｎｉｔ、ｃｓｘｘ−ｏｐｅｎ、ｃｓｘ
ｘ−ｃｌｏｓｅ、ｃｓｘｘ−ｓｔｒａｔｅｇｙというコ
マンドを含んでいる。“ｘｘ” という記号は、記憶装
置の型（例えばディスクについては“ｄｋ”あるいはテ
ープについては“ｔｐ”）を示す。これらのルーチン
は、いかなる装置固有要件でも取り扱う。例えばもし装
置がディスクであったとすれば、ｃｓｄｋ−ｏｐｅｎは
そのディスクの固有領域から区分表情報を読み取らなけ
ればならず、またｃｓｄｋ−ｓｔｒａｔｅｇｙはその区
分表情報を使って、ブロックが禁止区域にあるかどうか
を判定しなければならない。（区分表は各固有の物理デ
ィスク毎に論理ディスクから物理ディスクへのディスク
・ブロックのマッピングを定義している。）

【００３５】ハイレベル・ドライバの誤り／失敗の処理誤り処理再試行ＨＬＤ５０２の最も一般的な回復方法は、失敗した入出
力操作を再試行することによっている。所定のコマンド
型に関する再試行の回数は、コマンド・ページによって
指定される。例えば読取りあるいは書込みコマンドは非
常に重要であると見なされるので、それらに関連のコマ
ンド・ページは、再試行回数を３と設定することもでき
る。問合せコマンドは重要とは見なされないが、一日の
初めの操作の時に、一定の再試行回数ではシステムの性
能低下を招くので、その試行回数はゼロにされることも
ある。

【００３６】初めに要求が発行されると、その再試行回
数はゼロに設定される。要求が失敗して回復手順が再試
行されることになる度ごとに、再試行回数は増やされ
る。もし再試行回数がコマンド・ページで指定された最
大試行回数より大きくなれば、その入出力操作は失敗と
なり、要求者にはメッセージが返送される。そうでなけ
れば、それは再発行される。このルールの唯一の例外
は、ユニット・アテンションに関するものであって、こ
れは一般には誤りというよりはイベント通知である。も
しあるコマンドに関してユニット・アテンションが受け
取られ、その最大再試行回数がゼロか１に設定されてい
れば、ハイレベル・ドライバ５０２は、この特定の入出
力のための最大再試行を２に設定する。これは、ユニッ
ト・アテンション状態のために早まって失敗と送り返さ
れる入出力を防止することになる。

【００３７】遅延された再試行は、その再試行が所定の
時間の間は、待ち行列に再配置されないということを除
いて、上述の再試行手順と同じに扱われる。

【００３８】失敗したＳｃｓｉ−ｏｐｓＦＣＩローレベル・ドライバ５０６に発行されるＳｃｓ
ｉ−ｏｐは、幾つかの状況によって失敗することがあ
る。表２は、ＦＣＩローレベル・ドライバ５０６がＨＬ
Ｄ４０２に返すことのできる、起こり得る失敗の型を下
に示す。

【００３９】

【表２】ローレベル・ドライバの誤り条件資源不足資源不足誤りは、要求時に所望の資源が利用可能でない
ときに発生する。一般にこれらの資源は、システム・メ
モリとドライバ構成メモリである。

【００４０】システム・メモリ不足処理は、セマフォ・
ブロッキング（信号阻止）によって遂行される。メモリ
資源をブロックするスレッド（プロセスの集まり）は、
新しい入出力が発行されるのを防止するであろう。この
スレッドは、入出力完了がメモリを解放するまでブロッ
クされたままになっているであろう。

【００４１】ドライバ構成資源は、Ｓｃｓｉ−ｏｐおよ
び入出力ベクトル（ＩＯＶ）リスト・プールに関連して
いる。ＩＯＶリストは、ディスクとの間でやり取りされ
るメモリの開始値と長さ値のリストである。これらのメ
モリ・プールは、プールのサイズを指定するために調整
可能なパラメータを使うことによって一日の初めに初期
化される。もしＳｃｓｉ−ｏｐまたはＩＯＶプールが空
であれば、新しい入出力が入ってこれらのプールを大き
くする結果になるであろう。いずれかのプールを大きく
するために一時に１ページ（４０９６バイト）のメモリ
が割り当てられる。その新しいページからすべてのＳｃ
ｓｉ−ｏｐｓまたはＩＯＶが解放されるまで、そのペー
ジは解放されない。もしＩＯＮ２１２がＳｃｓｉ−ｏｐ
ｓに関するページまたはページを絶えず割り当てたり解
放したりしているならば、関連するパラメータを調整す
ることが望ましいかもしれない。

【００４２】すべての資源不足処理はイベントを通じて
ログ（記録）される。

【００４３】一日の初めの処理一日の初めにＨＬＤ５０２は、その必要な構成とプール
とを初期化し、そしてアダプタ固有のドライバとハード
ウエアとを初期化するための呼出しを行う。一日の初め
処理は、（１）Ｓｃｓｉ−Ｏｐプールを割り当てること
と、（２）ＩＯＶプールを割り当てることと、（３）フ
ァイバ・チャネル構成とハードウエアとを初期化するた
めにＦＣＩｈｗ−ｉｎｉｔ（）への呼出しを行うこと
と、（４）割込みサービス・ルーチンｃｓ−ｉｎｉｔｒ
（）を適当な割込みベクトルに結合することとを行うｃ
ｓ−ｉｎｉｔ（）への呼出しによって開始される。

【００４４】失敗の処理ＩＯＮ２１２ダイポールの二つの半分は、共通セットの
ディスク装置に付加される。ダイポール２２６内のＩＯ
Ｎ２１２、２１４は両者とも何時でも所定のときにすべ
ての装置にアクセスできなくてはならない。ＨＬＤ５０
２から見て、失敗のために特別の処理はない。

【００４５】コマンド・ページ本発明のＩＯＮ２１２は、ＳＣＳＩコマンドの実際のビ
ルディングから共通部と装置固有部とを抽出するコマン
ド・ページ方式を使用する。コマンド・ページは、各関
数がＳＣＳＩコマンド（例えばＳＣＳＩ−２−Ｔｅｓｔ
−Ｕｎｉｔ−Ｒｅａｄｙ）を表す関数へのポインタのリ
ストである。上述のように、ある特定のコマンド・ペー
ジは、ある装置の初期オープンまたはアクセス時にその
装置に結合される。すべての業者独自のそして柔軟性の
ないＳＣＳＩ装置の癖は、その装置固有のコマンド・ペ
ージを介して参照される関数によって管理される。一般
的なシステムは、柔軟性のないＳＣＳＩ装置あるいは業
者独自のＳＣＳＩコマンドの統合を可能にするために、
コマンド・コントロール・セット（ＣＣＳ）と、ＳＣＳ
Ｉ・ＩおよびＳＣＳＩ・ＩＩページと、業者独自ページ
とを一緒に付けて出荷される。

【００４６】コマンド・ページ関数は、装置共通部５０
３と装置固有部５０４とＦＣＩローレベル・ドライバ５
０６（要求センス）とから仮想装置（Ｖｉｒｔｕａｌ
ＤＥＶｉｃｅ（ＶＤＥＶ））インタフェースと呼ばれる
インタフェースを介して呼び出される。これらのレベル
では、ソフトウエアは、装置がどのＳＣＳＩ方言を使う
かを気にせずに、単に意図した関数を装置が実行するこ
とを気にかける。

【００４７】各コマンド・ページ関数は、ＳＣＳＩコマ
ンドを構築して、必要ならば、直接メモリ・アクセス
（ＤＭＡ）データ転送のためにメモリを割り当てる。そ
れからこの関数は、ドライバ共通部５０３に制御を返
す。その後、ドライバ共通部５０３は、待ち行列上にＳ
ＣＳＩ操作を配置し（必要であればここで分類が行われ
る）、ＦＣＩローレベル・ドライバ５０６の起動ルーチ
ンを呼び出すことによってそのＳＣＳＩコマンドを実行
する。そのコマンドが実行されたのち、もしそのコマン
ド・ページ関数のなかに「割込み時呼出し：Ｃａｌｌ
ＯｎＩｎｔｅｒｒｕｐｔ（ＣＯＩ）」ルーチンが存在
すれば、完了後のコマンドのデータ／情報をそのドライ
バのドライバ共通部５０３が吟味する前に、ＣＯＩが呼
び出されるであろう。

【００４８】返されたデータ／情報をマッサージするこ
とによってＣＯＩは、非標準のＳＣＳＩデータ／情報を
標準のＳＣＳＩデータ／情報に変換することができる。
例えばもし装置の問合せデータがバイト８の代わりにバ
イト１２で始まる業者ＩＤを含んでいるならば、問合せ
に関するコマンド・ページ関数は、業者ＩＤを、返却さ
れた問合せデータのバイト８にシフトするＣＯＩを含む
ことになるであろう。ドライバ共通部５０３は常に、バ
イト８で始まる業者ＩＤ情報を抽出するであろうから非
標準装置について知る必要がなくなる。

【００４９】ＪＢＯＤおよびＳＣＳＩ構成モジュールＲＡＩＤ制御部の重要な機能は、損失しないようにデー
タを確保することである。この機能を実行するためにＲ
ＡＩＤソフトウエアは、ディスク装置が何処に常駐して
いてその配線がそれをどのように接続しているかを物理
的に知らなくてはならない。それ故、ＲＡＩＤ制御部技
術実現の重要な要件は、記憶装置の構成を制御する能力
である。ＪＢＯＤおよびＳＣＳＩ構成モジュール５１６
のＪＢＯＤ部には、ＩＯＮ２１２のための静的なＪＢＯ
Ｄ構成を定義することが課せられている。ＪＢＯＤおよ
びＳＣＳＩ構成モジュール５１６によって記述される構
成情報は、表３に示す。

【００５０】

【表３】アダプタとＪＢＯＤ筐体２２２と記憶ディスク２２４と
の物理的位置情報に加えて、ＦＣＩローレベル・ドライ
バ５０６とドライバ装置固有部５０４入口点ならびにコ
マンド・ページ定義のような他の構成情報も記述しなく
てはならない。この情報を与えるためにｓｐａｃｅ．ｃ
ファイルが使われ、またＩＯＮ２１２がＩＯＮ物理ディ
スク・ドライバ５００のコンパイル時に構成情報を構築
する。サポートされているＩＯＮ２１２構成が変更され
る場合には、新しいバージョンのＩＯＮ物理ディスク・
ドライバ５００がコンパイルされなくてはならない。

【００５１】ファイバ・チャネル・インタフェース（Ｆ
ＣＩ）ローレベル・ドライバＦＣＩローレベル・ドライ
バ５０６は、ハイレベル・ドライバ５０２用のＳＣＳＩ
インタフェースを管理する。ドライバ共通部５０３とＦ
ＣＩローレベル・ドライバ５０６との間のインタフェー
スは、下記のルーチンを含んでおり、ここで“ｘｘ”
の表示はＦＣＩローレベル・ドライバ５０６が制御する
ハードウエアに関する一意の識別子である（例えばＦＣ
Ｉｈｗ−ｉｎｉｔ）。・ｘｘｈｗ−ｉｎｉｔハードウエアを初期化する。・ｘｘｈｗ−ｏｐｅｎホスト・アダプタの現在状態を決定する。・ｘｘｈｗ−ｃｏｎｆｉｇホスト・アダプタの構成情報（ＳＣＳＩＩＤ等）を設定する。・ｘｘｈｗ−ｓｔａｒｔ可能であれば、ＳＣＳＩ操作を起動する。・ｘｘｈｗ−ｉｎｔｒすべてのＳＣＳＩ割込みを処理する。

【００５２】ローレベル・ドライバは、装置の仕様につ
いて知ることも気にかけることもない純粋なＳＣＳＩド
ライバであるが、その代わりに単に上位レベルからのＳ
ＣＳＩコマンドの導管である。この層には、割込みサー
ビス・ルーチンとハードウエア初期化ルーチンとマッピ
ングおよびアドレス変換ルーチンと誤り回復ルーチンと
が常駐している。更に同じシステム内に複数の型のロー
レベル・ドライバが共存できる。ハードウエア制御層と
ドライバの残りの部分との間のこの分割は、同じハイレ
ベル・ドライバが異なるマシン上で走行することを可能
にしている。

【００５３】ＦＣＩモジュールの基本機能は、（１）Ｓ
ＣＳＩハイレベル・ドライバ（ＳＨＬＤ）にインタフェ
ース接続してＳＣＳＩＯｐをＦＣＩ作業オブジェクト
構成（入出力ブロック（ＩＯＢ））に変換することと、
（２）異なるＨＩＭ５０８を介して新しいファイバ・チ
ャネル・アダプタのサポートを容易にするために共通イ
ンタフェースを提供することと、（３）いかなるＦＣ−
４プロトコル層（図示の実施例のファイバ・チャネル・
プロトコル（ＦＣＰ））によって使うことのできるＦＣ
−３共通サービスを提供することと、（４）ＨＩＭ５０
８またはハードウエアが応答しない場合にＨＩＭに送ら
れた非同期コマンド（例えばＦＣＰコマンド、ＦＣ−３
コマンド、ＬＩＰコマンド）を保護するタイマー・サー
ビスを提供することと、（５）（ａ）入出力要求ブロッ
ク（ＩＯＢ）と（ｂ）ベクトル表と（ｃ）ＨＩＭ５０８
資源（例えばホスト・アダプタ・メモリ、ＤＭＡチャネ
ル、入出力ポート、スクラッチ・メモリ）とを含むファ
イバ・チャネル・ドライバ全体（ＦＣＩとＨＩＭ）のた
めの資源を管理することと、（６）ファイバ・チャネル
調停ループ使用（対ファイバ・チャネル・ファブリッ
ク）を最適化することとである。

【００５４】ＦＣＩローレベル・ドライバ５０６用の重
要なデータ構造のリストを下記の表４に示す。

【００５５】

【表４】ＦＣ基本データ構造

【００５６】誤り処理ＦＣＩローレベル・ドライバ５０６が処理する誤りは、
ファイバ・チャネルおよび／またはＦＣＩ自身に固有の
誤りである傾向がある。

【００５７】多段階誤り処理ＦＣＩローレベル・ドライバ５０６は、ある幾つかの誤
りを多段階誤り処理によって処理する。これは、誤り処
理手法が誤りの型にとって最適化されることを可能にす
る。例えば、もしより危険の少ない手順が使われて、効
果がない場合には、更に激しい誤り処理対策がとられる
ことがある。

【００５８】失敗したＩＯＢすべての入出力要求は、入出力要求ブロックを介してＨ
ＩＭ５０８に送られる。下記は、ＨＩＭ５０８が送り返
すことのできる、起こり得る誤りである。

【００５９】

【表５】ＨＩＭ誤り条件

【００６０】資源不足ＦＣＩローレベル・ドライバ５０６は、ＩＯＢ用の資源
プールとベクトル表とを管理する。これらのプールのサ
イズはＩＯＮ２１２構成向けに調整されるであろうか
ら、これらの資源が枯渇することはなく、単純な回復手
順が実現される。

【００６１】もしＩＯＢまたはベクトル表を求める要求
が行われてその要求を満足させるために十分な資源がな
い場合には、その入出力は待ち行列に戻されて入出力を
再起動させるためのタイマーがセットされる。資源不足
の発生はログに記録される。

【００６２】一日の初め処理一日の初めにハイレベル・ドライバ５０２は、サポート
されている各ローレベル・ドライバ（ＦＣＩローレベル
・ドライバ５０６を含む）に呼出しを行う。ＦＣＩロー
レベル・ドライバ５０６の一日の初め処理は、下記の操
作を実行するＦＣＩｈｗ−ｉｎｉｔ（）ルーチンを呼び
出すことから始まる。

【００６３】先ず、特定のＰＣＩバスと装置のためにＨ
ＩＭ−ＦｉｎｄＣｏｎｔｒｏｌｌｅｒ（）関数が呼び出
される。これは、あるバージョンのＦｉｎｄＣｏｎｔｒ
ｏｌｌｅｒ（）を呼び出す。ＪＢＯＤおよびＳＣＳＩ構
成モジュール５１６は、探索すべきＰＣＩバスと装置と
を指定する。次ぎに、もしアダプタ（ＡＤＡＰＴＥＣか
ら使用可能なアダプタのような）が見つかれば、そのア
ダプタにＨＣＢが割り当てられて初期化される。それか
らスクラッチ・メモリ、メモリ・マップされた入出力、
ＤＭＡチャネルといったそのアダプタ固有の資源を取得
するために、ＨＩＭ−ＧｅｔＣｏｎｆｉｇｕｒａｔｉｏ
ｎ（）が呼び出される。次ぎに、資源が割り当てられて
初期化され、ＡＤＡＰＴＥＣＨＩＭとハードウエアと
を初期化するためにＨＩＭ−Ｉｎｉｔｉａｌｉｚ
ｅ（）が呼び出される。最後にＩＯＢとベクトル表とが
割り当てられて初期化される。

【００６４】失敗処理ＩＯＮ２１２ダイポールの二つの半分は、共通セットの
ディスク装置に取り付けられる。両方のＩＯＮ２１２
は、何時でも所定のときにすべての装置にアクセスでき
なくてはならない。ＦＣＩローレベル・ドライバ５０６
から見て、失敗に関する特別の処理はない。

【００６５】ハードウエア・インタフェース・モジュー
ル（ＨＩＭ）ハードウエア・インタフェース・モジュール（ＨＩＭ）
５０８は、ＡＤＡＰＴＥＣのＳｌｉｍＨＩＭ５０９にイ
ンタフェース接続するように設計されている。ＨＩＭモ
ジュール５０８は、ＦＣＩローレベル・ドライバ５０６
からの要求をＳｌｉｍＨＩＭ５０９が理解できてハード
ウエアに発行できる要求に変換するという主要な責任を
持っている。これは、入出力ブロック（ＩＯＢ）要求を
取り入れることと、そのＩＯＢ要求をＳｌｉｍＨＩＭ５
０９によって理解される、それに対応する転送制御ブロ
ック（ＴＣＢ）要求に変換することとを含んでいる。

【００６６】ＨＩＭ５０８の基本機能は、（１）アダプ
タに対して、Ｆｉｎｄ（見つける）、Ｃｏｎｆｉｇｕｒ
ｅ（構成する）、Ｉｎｉｔｉａｌｉｚｅ（初期化す
る）、ＳｅｎｄＩ／Ｏ（入出力を送る）を行うハードウ
エア固有の関数へのローレベル・アプリケーション・プ
ログラム・インタフェース（ＡＰＩ）を定義すること
と、（２）入出力ブロック（ＩＯＢ）をＳｌｉｍＨＩＭ
／ハードウエアが理解できるＴＣＢ要求（例えばＦＣプ
リミティブＴＣＢ、ＦＣ拡張リンク・サービス（ＥＬ
Ｓ）ＴＣＢ、ＳＣＳＩ−ＦＣＰ操作ＴＣＢ）に変換する
ためにＦＣＩローレベル・ドライバ５０６にインタフェ
ース接続することと、（３）ＳｌｉｍＨＩＭに発行され
たコマンドの引渡しと完了とを追跡することと、（４）
ＳｌｉｍＨＩＭからの割込みとイベント情報とを解釈し
て、ＦＣＩローレベル・ドライバ５０６と共同で適当な
割込み処理および／または誤り回復を起動することとで
ある。ＴＣＢのデータ構造は下記の表６に示す。

【００６７】

【表６】基本的なＨＩＭ構造

【００６８】一日の初め処理ＨＩＭ５０８は、一日の初めに使われる３個の入口点を
定義する。第１の入口点は、ＨＩＭ−ＦｉｎｄＡｄａｐ
ｔｅｒであって、これはＦＣＩｈｗ−ｉｎｉｔ（）によ
って呼び出され、ＰＣＩＢＩＯＳルーチンを使って所
定のＰＣＩバスおよび装置上にアダプタが常駐している
かどうかを決定する。そのアダプタについてのＰＣＩ業
者・製品ＩＤは、そのアダプタが存在するかどうかを決
定するために使われる。

【００６９】第２の入口点は、ＨＩＭ−ＧｅｔＣｏｎｆ
ｉｇｕｒａｔｉｏｎであって、これはアダプタが存在す
る場合にＦＣＩｈｗ−ｉｎｉｔ（）によって呼び出さ
れ、与えられたＨＣＢの中に資源要件を入れる。ＡＤＡ
ＰＴＥＣアダプタについてこれらの資源は、ＩＲＱとス
クラッチとＴＣＢメモリとを含む。この情報は、Ｓｌｉ
ｍＨＩＭ５０９に呼出しを行うことによって求められ
る。

【００７０】第３の入口点は、ＨＩＭ−Ｉｎｉｔｉａｌ
ｉｚｅであって、これは資源が割り当てられて初期化さ
れた後にＦＣＩｈｗ−ｉｎｉｔ（）によって呼び出さ
れ、ＴＣＢメモリ・プールを初期化し、ＳｌｉｍＨＩＭ
を呼出してスクラッチ・メモリとＴＣＢとハードウエア
とを初期化する。

【００７１】失敗処理ＩＯＮ２１６ダイポールの二つの半分は、共通セットの
ディスク装置に取り付けられる。ＩＯＮ２１２、２１４
の両者は、何時でも所定のときにすべての装置にアクセ
スできなくてはならない。ＨＩＭ５０９から見て、失敗
に関する特別の処理はない。

【００７２】ＡＩＣ−１１６０ＳｌｉｍＨＩＭＳｌｉｍＨＩＭ５０９モジュールは、アダプタのハード
ウエア概念を与えるという全体的な目的を持っている
（図示の実施例ではＡＤＡＰＴＥＣＡＩＣ−１１６
０）。このＳｌｉｍＨＩＭ５０９は、ファイバ・チャネ
ル要求をＡＩＣ−１１６０アダプタに移送し、割込みを
サービスし、ＳｌｉｍＨＩＭ５０９インタフェースを介
してＨＩＭモジュールに状態を報告するという主要な役
割を持っている。

【００７３】ＳｌｉｍＨＩＭ５０９はまた、ＡＩＣ−１
１６０ハードウエアの制御を担っており、これを初期化
し、ファームウエアをロードし、実行時動作を起動し、
ＡＩＣ−１１６０の誤りの場合にＡＩＣ−１１６０ハー
ドウエアの制御を行う。

【００７４】外部インタフェースとプロトコルＩＯＮ物理ディスク・ドライバ・サブシステム５００の
すべての要求は、共通のハイレベル・ドライバ５０２を
介して行われる。

【００７５】Ｉｎｉｔｉａｌｉｚａｔｉｏｎ（ｃｓ−ｉ
ｎｉｔ）このサブシステムへの単一の呼出しは、入出力用に装置
を準備するために必要となるすべての初期化を実行す
る。サブシステム初期化期間中にすべての装置あるいは
アダプタハードウエアと同じく、すべてのドライバ構造
が割り当てられて初期化される。

【００７６】Ｏｐｅｎ／Ｃｌｏｓｅ（ｃｓ−ｏｐｅｎ／
ｃｓ−ｃｌｏｓｅ）オープン／クローズ（Ｏｐｅｎ／Ｃｌｏｓｅ）インタフ
ェース５１０は、装置へのアクセスに必要な構造を初期
化して分解する。このインタフェース５１０は、すべて
の「オープン」と「クローズ」とが暗示的に層状にされ
ているという理由から一般のオープン／クローズ・ルー
チンとは異なっている。したがって入出力物理インタフ
ェース・ドライバ５００が受け取るすべての「オープ
ン」は、受信されて関連付けられた「クローズ」を伴っ
ていなければならず、また装置関連構造は、すべての
「オープン」が「クローズ」されるまで解放されない。
オープン／クローズ・インタフェース５１０は、「オー
プン」または「クローズ」の返却がその要求の完了を示
すと言うことにおいて同期している。

【００７７】Ｂｕｆ−ｔ（ｃｓ−ｓｔｒａｔｅｇｙ）Ｂｕｆ−ｔインタフェース５１２は、装置への論理ブロ
ック読取り・書込み要求の発行を可能にする。要求者
は、入出力を記述するＢｕｆ−ｔ構造を伝える。装置Ｉ
Ｄ、論理ブロック・アドレス、データ・アドレス、入出
力の型（読取り／書込み）、呼戻しルーチンといった属
性は、Ｂｕｆ−ｔによって記述される。要求が完了する
と、要求者による呼戻しによって指定された関数が呼び
出される。Ｂｕｆ−ｔインタフェース５１２は、非同期
インタフェースである。要求者への関数の返却は、その
要求が完了したことを示すわけではない。関数が返され
るとき、入出力はその装置上で実行中であってもなくて
もよい。要求は、実行されるのを待つ待ち行列上にあっ
てもよい。この要求は、呼戻し関数が呼び出されるまで
は完了しない。

【００７８】ＳＣＳＩＬｉｂＳＣＳＩＬｉｂ５１４は、装置に送るべき通常の読取り
・書込み以外のＳＣＳＩコマンド記述子ブロック（ＣＤ
Ｂ）を可能にするインタフェースを提供する。このイン
タフェースによって、ディスクを回転させたり停止させ
るために装置起動・停止といった要求が使われ、また密
閉装置を監視したり制御するためにＳｅｎｄ、Ｒｅｃｅ
ｉｖｅ（送信、受信）診断が使われるであろう。すべて
のＳＣＳＩＬｉｂルーチンは、同期している。呼び出さ
れた関数の返却は、要求の完了を示す。

【００７９】Ｉｎｔｅｒｒｕｐｔｓ（ｃｓ−ｉｎｔｒ）ＩＯＮ物理ディスク・ドライバ５００は、すべてのＳＣ
ＳＩおよびファイバ・チャネル・アダプタの割込みのた
めの中心的なディスパッチャである。一実施例ではフロ
ントエンド／バックエンド割込み方式が利用される。こ
のような場合に割込みが行われると、フロントエンド割
込みサービス・ルーチンが呼び出される。フロントエン
ドは、割込みスタックから実行し、また割込み源を除去
することと、更に割込みを発生させないようにアダプタ
を切り離すことと、バックエンド割込みサービス・ルー
チンをスケジューリングすることとに責任を持ってい
る。バックエンドは、実際に割込み（アダプタ割込みの
切り離しとバックエンド・タスクの開始との間に発生し
たかもしれなかった他のいかなる割込みとも一緒に）を
処理する優先度の高いタスクとして実行する。

【００８０】ＩＯＮ機能ＩＯＮ２１２は、５個の主要な機能を実行する。これら
の機能には下記のものが含まれる。

【００８１】記憶装置の命名と投影：記憶ディスク２２
４上に記憶された記憶資源オブジェクトのイメージをコ
ンピューティング・ノード２００に投影することによっ
て、一様で一貫性のある記憶装置の命名を提供するため
にコンピューティング・ノード２００と調和的動作をす
る。

【００８２】ディスク管理：ＩＯＮ２１２と機能的に連
結された記憶ディスク駆動機構２２４を用いてデータ分
散およびデータ冗長の技術を実現する。

【００８３】記憶装置管理：コンピューティング・ノー
ド２００からの入出力要求の処理、性能上の機器構成お
よびイベント分散を含めて記憶装置の設定、データ移動
などを処理するためのもの。

【００８４】キャッシュ管理：アプリケーション・ヒン
ト・プリフェッチといったキャッシュ・フル操作を含む
読み・書きデータのキャッシングのためのもの。

【００８５】相互接続管理：性能を最適化するためにコ
ンピューティング・ノード２００との間のデータの流れ
を制御し、要求の経路指定を制御し、またしたがってダ
イポール２２６内の二つのＩＯＮ２１２の間での記憶の
分配を制御する。

【００８６】記憶装置の命名および投影ＩＯＮ２１２は、記憶ディスク２２４上に記憶された記
憶資源オブジェクトのイメージをコンピューティング・
ノード２００に投影する。この機能の重要な役割は、Ｉ
ＯＮ２１２によって管理される各記憶資源（仮想ファブ
リック・ディスクを含む）に関して、グローバルに一意
の名前、ファブリック独自のＩＤ、あるいはボリューム
・セット識別子（ＶＳＩ）６０２の作成と割り当てであ
る。

【００８７】図６は、ＶＳＩの構造と内容および関連デ
ータを示す図である。ＶＳＩ６０２が一意であって競合
しないことは重要であるから、各ＩＯＮ２１２は、その
ＩＯＮ２１２によってローカルに管理される記憶資源に
関してグローバルに一意の名前を作成して割り当てるこ
とに責任があり、また記憶資源オブジェクトを記憶する
記憶資源を管理するそのＩＯＮ２１２だけがその記憶資
源に関してＶＳＩ６０２を割り当てることが許される。
常駐記憶資源を現に管理しているＩＯＮ２１２だけはＶ
ＳＩ６０２を作成して割り当てることができるが、他の
ＩＯＮ２１２は、その後にそれらの記憶資源の記憶と検
索とを管理することができる。これは、もしＩＯＮ割り
当てのＶＳＩ６０２が他のＩＯＮによって管理される記
憶資源に後で移されても、ある特定のデータ・オブジェ
クトについてのＶＳＩ６０２は変更する必要がないから
である。

【００８８】ＶＳＩ６０２は、ＩＯＮ識別子６０４とシ
ーケンス番号５０６という二つの部分を含む６４ビット
の数として実現される。ＩＯＮ識別子６０４は、各ＩＯ
Ｎ２１２に割り当てられるグローバルに一意の識別番号
である。グローバルに一意のＩＯＮ識別子６０４を得る
一つの手法は、しばしばリアルタイム・クロック・チッ
プに格納される電子的に読取り可能なマザーボード通し
番号を使うことである。この通し番号は、ただ一つのマ
ザーボードに割り当てられるだけであるから一意であ
る。ＩＯＮ識別子６０４がグローバルに一意の番号であ
るから、各ＩＯＮ２１２は、ローカルにだけ一意である
シーケンス番号を割り当てることができ、また更にグロ
ーバルに一意のＶＳＩ６０２を作成することができる。

【００８９】ＶＳＩ６０２がＩＯＮ２１２上の記憶資源
に結合されたのちに、そのＩＯＮ２１２は、その記憶資
源１０４へのアクセスを可能にするファブリック上のす
べてのノードに対して同報メッセージを介してＶＳＩ６
０２を移出する。この処理は、本書のＩＯＮ名前移出セ
クションで更に論ずる。

【００９０】それからコンピューティング・ノード２０
０ソフトウエアは、移出されたＶＳＩ６０２を使って、
他のいかなるローカルに付加された記憶装置とは区別が
つかないということにおいて意味的にトランスペアレン
トであるその記憶資源についてのローカルの入口点を作
成する。例えばもしコンピューティング・ノードのオペ
レーティング・システム２０２がＵＮＩＸであったとす
ると、ブロック装置入口点と裸装置入口点の両者とも、
周辺装置１０８またはディスク２１０といったローカル
に付加された装置に類似の装置ディレクトリ内に作成さ
れる。他のオペレーティング・システム２０２について
も同様な意味的に同等なものがついてくる。異なるオペ
レーティング・システム２０２を走行させるコンピュー
ティング・ノード２００の間では、異種コンピューティ
ング環境を最も良くサポートするためにルート名の整合
性が維持される。

【００９１】コンピューティング・ノード２００内のロ
ーカルの入口点は、移出された記憶資源１０４の現在の
可用性を追跡するためにＩＯＮ２１２によって動的に更
新される。ＶＳＩ６０２は、移入された記憶資源につい
て装置入口点名を作成するためにコンピューティング・
ノード２００上で走行するＯＳ依存のアルゴリズムによ
って使われる。この手法は、共通のオペレーティング・
システムを共用するノード間での名前の整合性を保証す
る。これは、各コンピューティング・ノード２００上の
グローバルに命名された記憶資源のためのローカルな入
口点を動的に（静的の代わりに）作成することによって
異種コンピューティング環境をサポートするために、シ
ステムがルート名の整合性を維持することを可能にして
いる。

【００９２】上述のように記憶資源１０４に関するＶＳ
Ｉ６０４の作成の詳細は、記憶資源１０４を移出してい
るＩＯＮ２１２によって直接制御される。コンピューテ
ィング・ノード２００間の潜在的なオペレーティング・
システム１０４の違いを説明するために、１個以上の記
述的ヘッダが各ＶＳＩ６０２に結合されて、ＩＯＮ２１
２上のＶＳＩ６０２と一緒に格納される。各々のＶＳＩ
６０２記述子６０８は、特定のＶＳＩ６０２に関するコ
ンピューティング・ノード２００上の装置入口点の矛盾
のない（名前と動作上の意味の両者がコンピューティン
グ・ノード２００全体に亘って同じである）作成のため
に必要な十分なＯＳ２０２依存性のデータを格納するた
めのオペレーティング・システム（ＯＳ）依存データ・
セクション６１０を含んでいる。

【００９３】このＯＳ依存データ６１０は、例えばロー
カルなアクセス権６１２を記述するデータと所有権情報
６１４とを含んでいる。ＶＳＩ６０２がＩＯＮ２１２に
よって確立され、コンピューティング・ノード２００に
よって移出された後で、しかしＶＳＩ６０２に関連した
その記憶資源１０４のための入口点が作成されるよりは
前に、適当なＯＳ固有データ６１０は、ＩＯＮ２１２に
よってコンピューティング・ノード２００に送られる。
一つのＶＳＩ６０２当たり多数の記述的ヘッダは、異な
るＯＳ（各ＯＳはそれ自身の記述子ヘッダーを持ってい
る）を走らせる多数のコンピューティング・ノード２０
０のサポートと、異なるコンピューティング・ノード２
００グループ間でのばらばらのアクセス権のサポートと
の両方を同時に可能にする。同じ記述子ヘッダを共用す
るコンピューティング・ノード２００は、装置入口点の
共通で矛盾のない作成を共用する。このようにして名前
と動作上の意味の両者とも、共通セットのアクセス権を
共有するすべてのコンピューティング・ノード２００上
で整合性を維持することができる。

【００９４】ＶＳＩ記述子６０８はまた、別名フィール
ド６１６を含んでおり、これは人間が読取れるＶＳＩ６
０２名をコンピューティング・ノード２００上に表示す
るために使用できる。例えばもしＶＳＩ１９８４の別名
が「ｓｏｍａ」であれば、コンピューティング・ノード
２００は、１９８４と「ｓｏｍａ」の両方に関するディ
レクトリ・エントリを持つことになるであろう。ＶＳＩ
記述子６０８はＩＯＮ２１２上のＶＳＩ６０２と一緒に
格納されるので、ＶＳＩ６０２を移入する各コンピュー
ティング・ノード２００上には同じ別名とローカル・ア
クセス権とが現れるであろう。

【００９５】前述のように本発明は、分散型割当て方式
に適する命名手法を使用している。この手法では、名前
はグローバルな一意性を保証するアルゴリズムにしたが
ってローカルに作成される。これの変形は、各システム
ごとに中心的な命名サーバが存在する、ローカルに集中
化する手法を追求することもできようが、可用性と頑丈
さとの要件からは純粋な分散型手法を重く見ている。上
述のことを使って、本発明はグローバルな一意性を保証
するローカルに実行可能なアルゴリズムを作成すること
ができる。

【００９６】グローバルに整合性のある記憶システムを
作成することは、コンピューティング・ノード２００全
体に亘って名前の整合性を保存するだけでなくサポート
することを更に必要とする。名前の整合性は、安全保護
の問題であって、これは本発明では二つの形式を採る。
第一は、ＩＯＮ２１２とコンピューティング・ノード２
００との間のインタフェースの安全保護であり、第二
は、コンピューティング・ノード２００内からの記憶の
安全保護である。

【００９７】記憶の認証と認可ＶＳＩ６０２資源は、認証と認可という二つの異なる機
構で保護されている。もしコンピューティング・ノード
２００がＩＯＮ２１２によって認証されれば、ＶＳＩ名
がそのコンピューティング・ノード２００に移出され
る。移出されたＶＳＩ６０２は、コンピューティング・
ノード２００上に装置名として現れる。コンピューティ
ング・ノード２００上で走行するアプリケーション・ス
レッドは、この装置名で操作の実行を試みることができ
る。装置入口点のアクセス権とコンピューティング・ノ
ード２００のＯＳ意味論とは、アプリケーション・スレ
ッドがいかなる所定の認可でも実行するように権限付与
されているかどうかを決定する。

【００９８】この認可の手法は、コンピューティング・
ノード２００の認可を、相互接続ファブリック１０６に
よってアクセス可能な何処にでも配置される記憶資源に
まで拡張する。しかしながら本発明は、本発明において
は記憶資源１０４がコンピューティング・ノード２００
によって直接的に管理されないということで、他のコン
ピュータ・アーキテクチャとは異なっている。この相違
は、ローカルの認可データを単にファイル・システム・
エンティティに結合することを実行できなくする。その
代わりに本発明は、コンピューティング・ノード２００
認可方針データをＩＯＮ２１２のＶＳＩ６０２と結合さ
せて、コンピューティング・ノード２００とＩＯＮ２１
２とがあるレベルの相互信頼を共有する二段階手法を用
いる。ＩＯＮ２１２は、ある所定のＶＳＩ６０２への各
コンピューティング・ノード２００アクセスを認可する
が、ＶＳＩによって指示されたデータに対する特定のア
プリケーション・スレッドの認可の更なる改良は、この
コンピューティング・ノード２００の責任である。それ
からコンピューティング・ノード２００は、ＩＯＮ２１
２によって記憶された認可メタデータ内に含まれる方針
を使って、記憶エンティティ１０４に関する認可方針を
実行する。

【００９９】したがってコンピューティング・ノード２
００は、ＩＯＮ２１２を信頼してメタデータを保存する
ことを要求され、またＩＯＮ２１２に対してはコンピュ
ーティング・ノード２００を信頼してその認可を実行す
ることを要求する。この手法の一つの利点は、ＩＯＮ２
１２に対してメタデータを解釈する方法に関する知識を
持つことを要求しないということである。したがってＩ
ＯＮ２１２は、コンピューティング・ノード２００によ
って使われている異なるオペレーティング・システム２
０２によって課せられた異なる認可意味論によって課せ
られた特定の認可意味論を実行することから分離され
る。

【０１００】ＶＳＩ６０２に関連するすべてのデータ
（アクセス権を含めて）は、ＩＯＮ２１２に格納される
が、アクセス権データの内容を管理する責任はコンピュ
ーティング・ノード２００に置かれている。特にＩＯＮ
２１２によって移出されるＶＳＩ６０２のリストがコン
ピューティング・ノード２００に送られると、ローカル
な認可を実行するようにそのコンピューティング・ノー
ド２００によって要求されるＯＳ固有データのすべては
各ＶＳＩ６０２に結合される。例えばＵＮＩＸを走行さ
せるコンピューティング・ノード２００は、名前とグル
ープ名とユーザＩＤとモード・ビットとを、すなわちフ
ァイル・システムに装置入口ノードを作るために十分な
データを送られるであろう。

【０１０１】コンピューティング・ノードのオペレーテ
ィング・システム２０２のそのクラスにとって固有の
（あるいは正にそのコンピューティング・ノード２００
にとって固有の）ＶＳＩ６０２の別の名前は、各ＶＳＩ
６０２と一緒に含まれる。記憶装置のアクセス権を変更
するローカルのＯＳ固有コマンドは、コンピューティン
グ・ノード２００ソフトウエアによって捕捉されてＩＯ
Ｎ２１２に送られるメッセージに変換される。このメッ
セージは、ＯＳバージョンに固有のＶＳＩアクセス権デ
ータを更新する。この変更が完了したときＩＯＮ２１２
は、システム内でそのＯＳを使っているすべてのコンピ
ューティング・ノード２００にこの更新を送信する。

【０１０２】コンピューティング・ノード（ＣＮ）２０
０がオンラインになるとそれは、「自分はここにいま
す」というメッセージを各ＩＯＮ２１２に送信する。こ
のメッセージは、このコンピューティング・ノード２０
０を識別するディジタル署名を含んでいる。もしこのコ
ンピューティング・ノード２００がＩＯＮ２１２によっ
て知られれば（ＩＯＮ２１２がコンピューティング・ノ
ード２００を認証すれば）、ＩＯＮ２１２は、そのコン
ピューティング・ノード２００がアクセス権を有するす
べてのＶＳＩ名を移出する。コンピューティング・ノー
ド２００は、ＶＳＩ名のこれらのリストを使ってシステ
ム記憶用のローカル・アクセス入口点を構築する。この
コンピューティング・ノード２００内で走行するアプリ
ケーション２０４がローカル端点を参照すると、コンピ
ューティング・ノード２００はそのＶＳＩ６０２用のア
クセス権記述データに関するあるメッセージを相互接続
ファブリック１０６に亘って送信することによってＩＯ
Ｎ２１２に対して要求を行う。

【０１０３】この要求メッセージは、要求しているコン
ピューティング・ノード２００に関するディジタル署名
を含んでいる。ＩＯＮ２１２は、このメッセージを受け
取り、ディジタル署名を使って、応答時に送るべきＶＳ
Ｉアクセス権の適当なセットを突き止め、要求中のコン
ピューティング・ノード２００にそのデータを相互接続
ファブリック１０６を介して送信する。ＩＯＮ２１２は
コンピューティング・ノード２００に送られたアクセス
権を解釈しないで単にそのデータを送るだけである。コ
ンピューティング・ノード２００ソフトウエアは、この
データを使って、この主題の記憶オブジェクトのための
ローカル入口点にローカルアクセス権の適当なセットを
結合する。

【０１０４】一セットのコンピューティング・ノード２
００は、同じディジタル署名を使うか、多数の異なる署
名を同じセットのアクセス権に結合するかいずれかによ
ってこの同じセットのアクセス権を共有できる。本発明
は、コンピューティング・ノード２００を識別するため
と、どのセットのローカル認可データを使ってローカル
入口点を作成するかを指定するためとの両方に認証を使
う。認可データは、ＶＳＩ６０２が最初にアプリケーシ
ョンによって参照されるときにコンピューティング・ノ
ードに引き出されるだけである。この「必要時に引く」
モデルは、非常に大きなシステム上で大量のアクセス権
メタデータを移動させることの運転開始コストを回避す
る。

【０１０５】もしコンピューティング・ノード２００が
認証に失敗するならば、ＩＯＮ２１２はＶＳＩ６０２名
を持たないメッセージを送り返し、そして認証失敗フラ
グがセットされる。コンピューティング・ノード２００
は、そのＩＯＮ２１２からのＶＳＩ装置名なしで黙って
続行することができ、またシステム管理者の希望によっ
てその認証失敗を報告することもできる。もちろん認証
に成功してもＶＳＩ装置名をコンピューティング・ノー
ドに送らないことにしてもよい。

【０１０６】起動時の競合解消ＩＯＮ２１２は起動するとき、ＶＳＩ６０２を相互接続
ファブリック１０６に移出しようとする。このような場
合、システムのデータ完全性は新しいＩＯＮ２１２によ
る破壊から保護されなくてはならない。これを達成する
ために新しいＩＯＮ２１２は、記憶の移出が許される前
に検査される。これは次のように遂行される。最初にＩ
ＯＮ２１２は、そのローカル記憶を調べて、移出可能な
ＶＳＩ６０２のリストを作成する。ＶＳＩ６０２メタデ
ータは、ＶＳＩの世代番号または変更番号を含む。この
ＶＳＩ変更番号は、そのＶＳＩ６０２に関連した主な状
態変更があるときは何時でも（ＶＳＩが、あるネットワ
ークにうまく移出されたときなど）増やされる。コンピ
ューティング・ノード２００とＩＯＮ２１２とを含め
て、ＶＳＩ競合検出に関与するすべてのノードは、移出
されたＶＳＩの履歴とそれらの変更番号とをメモリ内に
保持する。

【０１０７】相互接続ファブリック１０６上のすべての
ノードは、移出されたＶＳＩ６０２をＶＳＩ競合に関し
て絶えず監視することが必要とされる。最初にＶＳＩ変
更番号は（記憶領域が最初に生成されたとき）ゼロにセ
ットされる。変更番号は、移出された前回よりも低い変
更番号を持った移出ＶＳＩ６０２は、真のＶＳＩ６０２
に関連したＩＯＮ２１２が使われなくなった場合でも偽
のＶＳＩであると想定されることがあり得るると言うこ
とにおいて、競合解消基準を提供する。真のＶＳＩ６０
２に関連した変更番号よりも高い変更番号を有するＩＯ
Ｎ２１２に付加された偽のＶＳＩ６０２は、真のＶＳＩ
６０２上で既に入出力が実行されてしまったのでなけれ
ば、真のＶＳＩ５１２と見なされる。相互接続ファブリ
ック１０６に新たに導入されたＩＯＮ２１２は、０から
始まるその変更番号を持つ必要がある。

【０１０８】ＩＯＮ２１２は、システムに入りたいと公
表したのちに、ＶＳＩ６０２とそれ関連の変更番号との
そのリストを送信する。その他のすべてのＩＯＮ２１２
とコンピューティング・ノード２００は、このリストを
取得してから、ＶＳＩ６０２リストを移出するためにＩ
ＯＮ２１２の妥当性を検査する。

【０１０９】同じＶＳＩ６０２を現在移出中の他のＩＯ
Ｎは、妥当であると想定され、競合している特定のＶＳ
Ｉの移出を許可しないというメッセージを新しいＩＯＮ
５１２に送る。もし新しいＩＯＮ５１２がシステム内で
現に使われている番号よりも大きい世代番号または変更
番号を持っているならば（ＶＳＩはグローバルに一意で
あるから、通常の運用では起こるはずのないケース）、
このことは記録され、必要な処置は何でも取るシステム
管理者に報告される。もし競合が存在しなければ、各Ｉ
ＯＮ２１２とコンピューティング・ノード２００は、進
行票で応答する。すべてのＩＯＮ２１２とコンピューテ
ィング・ノード２００とからの応答が受信されると、競
合していない新しいＩＯＮ２１２ＶＳＩ６０２のすべて
は自分の世代番号を増加させて、移出に関してシステム
に利用可能となる。

【０１１０】コンピューティング・ノード２００がＶＳ
Ｉ６０２へのアプリケーション参照とアクセスとを持っ
ているとき、そのコンピューティング・ノード２００は
現在の世代番号をローカルに追跡するであろう。新しい
ＩＯＮ２１２がＶＳＩ６０２を公表する（移出しようと
する）ときは何時でも、コンピューティング・ノード２
００は、ＶＳＩ６０２によって公表された世代を、その
ＶＳＩ６０２に関してローカルに記憶されている世代番
号に対して検査する。もし世代番号が一致すれば、コン
ピューティング・ノード２００は進行することに票を投
じるであろう。

【０１１１】もし世代番号が競合していれば（旧いバー
ジョンのＶＳＩがオンラインにされた場合にあり得るよ
うに）、コンピューティング・ノード２００は不許可メ
ッセージを送るであろう。そのＶＳＩ６０２に関して新
しいＩＯＮ２１２によって公表された世代番号よりも旧
い世代番号を持っているコンピューティング・ノード２
００は、進行に票を投じて、そのＶＳＩ６０２に関する
世代番号のローカル・バージョンを更新するであろう。
コンピューティング・ノード２００は再ブートの間で世
代番号を保存しないが、これは、基本設計が、相互接続
ファブリック１０６に亘るシステムが安定であること
と、コンピューティング・ノード２００とＩＯＮ２１２
とを含めてすべての新規参入者が整合性について検査さ
れることとになっているからである。

【０１１２】最初の電源投入は、ＶＳＩ６０２に関する
名前領域の安定性が問題になる状況を作りだすことがあ
る。この問題は、先ずＩＯＮ２１２に電源投入して、そ
れからコンピューティング・ノード２００が参入を許さ
れる前にこれらのＩＯＮ２１２が名前競合の解消を続行
することを可能にすることとによって、対処される。そ
れから古くなったＶＳＩ６０２のバージョン（ディスク
駆動機構上の旧いデータと他の世代を遡る条件から）
は、その世代番号を介して解決される。コンピューティ
ング・ノード２００がＶＳＩ６０２を使っていないかぎ
り、より高い世代番号を有する新規参入者は、特定のＶ
ＳＩ６０２の現行移出者を無効にすることができる。

【０１１３】名前サービスＩＯＮ名の移出ＩＯＮ２１２は、関連する記憶装置へのアクセスを可能
にすることを排他的に所有するＶＳＩ６０２のワーキン
グ・セットを移出する。ＩＯＮ２１２によって移出され
るＶＳＩのワーキング・セットは、兄弟ＩＯＮ（ダイポ
ール２２６内の他方のＩＯＮ２１２で、２１４として示
される）とのＶＳＩ所有権折衝を通じて動的に決定さ
れ、またこれは相互接続ファブリック１０６との通信を
行うすべてのノード内でグローバルに一意であるべきで
ある。このセットは、一般的にはＩＯＮ２１２に割り当
てられたＶＳＩ６０２の省略時セットまたはＰＲＩＭＡ
ＲＹ（主）セットである。動的負荷最適配分のためのＶ
ＳＩ移動と、兄弟ＩＯＮ２１４障害と入出力経路障害と
を含む例外条件とは、移出ＶＳＩ６０２がＰＲＩＭＡＲ
Ｙセットと異なるようにセットされる結果をもたらすこ
とがある。

【０１１４】ＶＳＩのワーキング・セットは、このワー
キング・セットがコンピューティング・ノード２００に
最新のＶＳＩ６０２構成を供給するために変わるときは
何時でも、同報メッセージを介してＩＯＮ２１２によっ
て移出される。コンピューティング・ノード２００はま
た、ＶＳＩ６０２のそのワーキング・セットについてＩ
ＯＮ２１２に問い合わせることもできる。ＶＳＩ６０２
への入出力アクセスは、一旦ＩＯＮ２１２が移出ＶＳＩ
６０２に関してオンライン状態に入るか、再び入るかす
ると、コンピューティング・ノード２００によって初期
化できる。前に述べたようにＩＯＮ２１２は、移出ＶＳ
Ｉ６０２内にいかなる競合でも存在する場合には、オン
ラインに入ることが許されない。一塊の記憶装置に関連
のＶＳＩ６０２は、すべて一意的であるべきであるが、
多数の塊の記憶装置が同じＶＳＩを持っている場合には
競合が発生する機会がある（例えばもしＶＳＩがＩＯＮ
２１２ハードウエアとＩＯＮ２１２管理のシーケンス番
号とに関連した一意のＩＤから構成されていて、そのＩ
ＯＮ２１２ハードウエアが物理的に移された場合）。

【０１１５】一旦ワーキング・セットが移出されると、
移出しているＩＯＮ２１２は、移出されたＶＳＩ６０２
への入出力アクセスを可能にするためにオンラインに入
る前に、競合検査タイマー（２秒）をセットする。競合
検査タイマーは、移入者が競合検査処理を行うために十
分な時間を与えようとしまた、移出者に競合を知らせよ
うとするが、タイマーが非常に大きな値にセットされて
いなければこれは保証できない。したがってＩＯＮ２１
２は、公式にオンラインに入るすべてのノード（コンピ
ューティング・ノード２００とＩＯＮ２１２）からの明
示的な承認を必要とする。オンライン同報メッセージは
すべてのノードによって同時に応答され、またその結果
は併合されて同報で返される。ＩＯＮ２１２は、もし併
合された応答がＡＣＫ（肯定応答）であれば公式にオン
ライン状態に入る。もしＩＯＮ２１２がオンラインに入
ることを許されなければ、新たに移出されたＶＳＩ６０
２のセットはアクセスできない。ＮＡＫ（否定応答）を
送ったノードは、競合を解消するために移出者に、続い
てＶＳＩ競合メッセージを送る。一旦この競合が解消さ
れれば、ＩＯＮ２１２は調整済みのワーキング・セット
を移出して再びオンラインに入ろうとする。

【０１１６】ＣＮ名の移入コンピューティング・ノード２００は、すべてのＩＯＮ
２１２によって移出されたすべてのＶＳＩ５０４を移入
するための処置をとる責任がある。一日の初め処理の時
に、コンピューティング・ノード２００は、名前領域の
最新のビューを取得できるように、前に移出されたＶＳ
Ｉ６０２についてのすべてのオンラインＩＯＮ２１２か
ら依頼する。その時点からコンピューティング・ノード
２００は、ＶＳＩ６０２の移出に関して耳をそば立て
る。

【０１１７】ＶＳＩ６０２に関連する制御情報はＩＯＮ
２１２によって維持させるｖｓｎｏｄｅ（ＶＳノード）
に入っている。ＶＳノードのコンピューティング・ノー
ド２００部は、アプリケーション２０４に提示される名
前の構成と管理のために使われる情報を含んでいる。Ｖ
Ｓノード情報は、ユーザ・アクセス権と名前の別名とを
含んでいる。

【０１１８】名前領域と別名ＶＳＩ６０２は、関連の記憶装置にアクセスするための
代替の名前を与える、アプリケーション定義の名前別名
を持つように構成できる。名前別名は、１セットの名前
を論理的にグループ化するために仮想記憶領域に付加す
ることができる。名前別名は仮想記憶領域内で一意でな
ければならない。

【０１１９】ＶＳＮＯＤＥコンピューティング・ノード２００によってＶＳノード
に加えられる修正は、即座の更新と処理のためにそれを
所有しているＩＯＮ２１２に送られる。それからこのＶ
Ｓノード変更は、変更を移出してオンライン状態に再び
入ることによってＩＯＮ２１２からすべてのノードに伝
えられる。

【０１２０】記憶ディスクの管理ＪＢＯＤ筐体２２２は、ディスク装置のために物理的環
境を提供することと、ディスク装置と筐体の管理アプリ
ケーションに幾つかのサービスを提供することとに責任
を持っている。これらのサービスの一部には、（１）コ
ンポーネント障害の通知（電源、ファン等）と、（２）
しきい値の通知（温度と電圧）と、（３）故障ランプと
状態ランプの点灯・消灯と、（４）可聴警報の鳴動・停
止と、（５）ディスク装置の装置ＩＤの設定とが含まれ
る。

【０１２１】従来は管理アプリケーションは、一般に帯
域外接続によって筐体にインタフェース接続していた。
単純なネットワーク管理プロトコル（ＳＮＭＰ）のよう
なプロトコルを使うことに加えて遠隔の筐体へのシリア
ル・アタッチメントまたはイーサーネット・アタッチメ
ントが筐体の健康に関する状態情報の受信を可能にして
いた。本発明ではディスク筐体はホスト・システムから
物理的に離れていることがあるので、別の直列の経路と
いった直接接続によって筐体の構成と状態を監視するこ
とは実用的ではない。余分の配線を避けるために本発明
は、筐体状態を監視することと、通常の既存のファイバ
・チャネル・ループ全体に亘る筐体構成を制御すること
とを備える帯域内接続を使用する。

【０１２２】帯域内接続は、構成状態を問い合わせて制
御するためにＳＣＳＩ装置に送られる、ホストから発信
される１セットのコマンドと、筐体との間でこの情報を
通信する装置のための機構とを使用する。ホストとディ
スク駆動機構との間のプロトコルの一部は、ＳＣＳＩ−
３エンクロージャ・サービス（ＳＥＳ）仕様に詳述され
ており、これは参考のためにここに組み入れてある。

【０１２３】ＳＥＳインタフェースを実現するために、
三つのＳＣＳＩコマンド、ＩＮＱＵＩＲＹとＳＥＮＤ
ＤＩＡＧＮＯＳＴＩＣとＲＥＣＥＩＶＥＤＩＡＧＮＯ
ＳＴＩＣＲＥＳＵＬＴＳとが使われる。ＩＮＱＵＩＲ
Ｙコマンドは、所定の装置がエンクロージャ・サービス
装置であるか、エンクロージャ・サービス処理にＳＥＳ
コマンドを移送することのできる装置であるかどうかを
指定する。ＳＥＮＤＤＩＡＧＮＯＳＴＩＣとＲＥＣＥＩ
ＶＥＤＩＡＧＮＯＳＴＩＣＲＥＳＵＬＴＳとは、そ
れぞれ筐体エレメントからの状態情報を制御し、受信す
るために使われる。

【０１２４】ＳＥＮＤＤＩＡＧＮＯＳＴＩＣコマンド
またはＲＥＣＥＩＶＥＤＩＡＧＮＯＳＴＩＣＲＥＳ
ＵＬＴＳコマンドを使うときには、ページ・コードを指
定しなくてはならない。ページ・コードは、何という型
の状態または情報が要求されているかを指定する。

【０１２５】ＳＥＮＤＤＩＡＧＮＯＳＴＩＣコマンド
とＲＥＣＥＩＶＥＤＩＡＧＮＯＳＴＩＣＲＥＳＵＬＴ
Ｓコマンドとによって要求できる定義されたＳＥＳペー
ジのフルセットは下記の表７に詳しく示す。太字の項目
は、ＳＥＳイベント・モニターによって要求される。

【０１２６】

【表７】

【０１２７】ＥＳアレー状態アプリケーション・クライアントは、１よりも大きい最
小割当て長さを有する筐体状態ページを要求するＲＥＡ
ＤＤＩＡＧＮＯＴＩＣＲＥＳＵＬＴＳコマンドを実
行することによって定期的にその筐体にポーリングを行
うことができる。１バイトで返される情報は、筐体の状
態を要約した５ビットを含んでいる。これらのビットの
一つがセットされれば、アプリケーション・クライアン
トは、状態全部を取得するためにより大きな割当て長さ
を持つコマンドを再発行することができる。

【０１２８】ＩＯＮ筐体管理図７は、ＩＯＮ筐体管理モジュールとＩＯＮ物理ディス
ク・ドライバ・アーキテクチャ５００との間の関係を示
す。二つのコンポーネントがこのサブシステム−ＳＥＳ
イベント・モニター７０２とＳＣＣ２＋〜ＳＥＳガスケ
ット７０４とを構成する。ＳＥＳイベント・モニター７
０２は、付加されたエンクロジャ・サービス処理をすべ
て監視することと、状態変更の場合にそれをイベント・
ロギング・サブシステム経由で報告することとに責任を
持っている。この報告は、必要ならば管理サービス層７
０６に転送できる。ＳＣＣ２＋〜ＳＥＳガスケット・コ
ンポーネント７０４は、構成・保守アプリケーションか
らくるＳＣＣ２＋コマンドを一つ以上のＳＥＳコマンド
に変換してエンクロージャ・サービス処理に送ることに
責任を持っている。これは、アプリケーション・クライ
アントがＪＢＯＤ構成の仕様を知る必要をなくしてい
る。

【０１２９】ＳＥＳイベント・モニターＳＥＳイベント・モニター７０２は、エンクロージャ２
２２サービス処理状態の変化を管理サービス層７０６に
報告する。状態情報は、イベント・ロギング・サブシス
テムを介して報告される。ＳＥＳイベント・モニター７
０２は、筐体情報ページを要求するＲＥＡＤＤＩＡＧ
ＮＯＳＴＩＣＲＥＳＵＬＴＳコマンドを実行すること
によって各筐体処理を定期的にポーリングする。ＲＥＡ
ＤＤＩＡＧＮＯＳＴＩＣＲＥＳＵＬＴＳコマンド
は、ＩＯＮ物理装置ディスク・ドライバ５００によって
与えられるように、ＳＣＳＩＬｉｂインタフェース５１
４を介して送られるであろう。報告できる状態は、下記
の表８にリスト化されている状態項目を含んでいる。

【０１３０】

【表８】筐体状態値

【０１３１】ＳＥＳイベント・モニター７０２が起動す
ると、筐体内に含まれている各エレメント４０２〜４２
４に関する状態を読み取る。この状態は、現在状態であ
る。状態変化が検出されると、現在状態から変化した各
状態は、管理サービス層７０６に報告される。今度はこ
の新しい状態が現在状態となる。例えばもしファン・エ
レメントの現在状態がＯＫであって、ある状態変化がフ
ァン障害としてこのエレメントを報告するとすれば、フ
ァン障害を特定するイベントが報告されるであろう。こ
んどは別の状態変化がエレメントが設置されていないこ
とを特定すれば、ファンが筐体から除去されたことを特
定する別のイベントが報告されるであろう。もし別の状
態変化がファン・エレメントがＯＫであることを特定す
れば、ファンがホット・プラグインされて正しく動作し
ていることを特定する別のイベントが生成されるであろ
う。

【０１３２】一日の初め処理ＳＥＳイベント・モニター７０２は、ＩＯＮ物理ディス
ク・ドライバ５００の初期化が成功した後に起動され
る。起動の後、ＳＥＳイベント・モニター６０２は、Ｊ
ＢＯＤおよびＳＣＳＩ構成モジュール５１６を読み取っ
て、ディスク装置とエンクロージャ・サービス装置との
相関と、装置がどのようにアドレス指定されるかとを見
つける。次ぎに各筐体状態装置の状態が読み取られる。
それから誤り条件と紛失エレメントすべてについてイベ
ントが生成される。これらのステップが完了した後で
は、今度の状態は現在状態であり、ポーリングが始ま
る。

【０１３３】ＳＣＣ２＋〜ＳＥＳガスケットＳＣＣ２＋は、仮想装置と物理装置とを構成して管理す
るためにＩＯＮ２１２によって使われるプロトコルであ
る。ＳＣＣ２＋の中のプラス“＋”は、ＩＯＮ２１２の
装置とコンポーネントとを十分に管理し易くし、またＳ
ＣＣ２定義のコマンドのＳＥＳへの矛盾のないマッピン
グを可能にするＳＣＣ２への追加部分を表す。

【０１３４】サービス層７０６は、ＳＣＣ２ＭＡＩＮ
ＴＥＮＡＮＣＥＩＮコマンドとＳＣＣ２ＭＡＩＮＴＥＮＡＮＣＥＯＵＴコマンドとによってＪ
ＢＯＤ筐体２２２エレメントを取り扱う。次のセクショ
ンでは、コンポーネントの状態を構成し、制御し、報告
するための機構を提供するサービス動作について説明す
る。これらのコマンドの各々は、ＳＥＮＤＤＩＡＧＮ
ＯＳＴＩＣコマンドとＲＥＣＥＩＶＥＤＩＡＧＮＯＳ
ＴＩＣＲＥＳＵＬＴＳコマンドという一連のコマンド
としてＩＯＮ２１２上で実現されるであろう。

【０１３５】コンポーネントの構成は下記のサービス機
能を用いて実行される。

【０１３６】ＡＤＤＣＯＭＰＯＮＥＮＴＤＥＶＩＣ
Ｅ（コンポーネント装置を追加する）−このＡＤＤＣ
ＯＭＰＯＮＥＮＴＤＥＶＩＣＥコマンドは、コンポー
ネント装置をシステム内に構成するためと、それらのＬ
ＵＮアドレスを定義するためとに使われる。ＬＵＮアド
レスは、ＳＥＳ構成ページ内のコンポーネント位置に基
づいてＩＯＮ２１２によって割り当てられる。ＲＥＰＯ
ＲＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥサービス機能
は、ＬＵＮ割当ての結果を取得するためにこのコマンド
に続いて実行される。

【０１３７】ＲＥＰＯＲＴＣＯＭＰＯＮＥＮＴＤＥ
ＶＩＣＥ（コンポーネント装置を報告する）−このＲＥ
ＰＯＲＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥＳＴＡ
ＴＵＳサービス機能は、コンポーネント装置に関する十
分な状態情報を検索することを意図した業者独自のコマ
ンドである。ＳＥＳは、各エレメント型ごとに４バイト
の状態を与える。この新しいコマンドは、ＲＥＰＯＲＴ
ＳＴＡＴＥＳおよびＲＥＰＯＲＴＣＯＭＰＯＮＥＮ
ＴＤＥＶＩＣＥサービス機能が状態情報のために１バ
イトだけを割り当てていて、定義された状態符号はＳＥ
Ｓ規格によって定義された状態符号と競合するという理
由から必要となる。

【０１３８】ＡＴＴＡＣＨＣＯＭＰＯＮＥＮＴＤＥ
ＶＩＣＥ（コンポーネント装置を付加する）−このＡＴ
ＴＡＣＨＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥは、一つ
以上の論理装置が所定のコンポーネント装置に論理的に
付加されることを要求する。このコマンドは、ボリュー
ム・セットと、ファン、電源等といった、ボリューム・
セットが依存するコンポーネント装置との間に論理的結
合を形成するために使うことができる。

【０１３９】ＥＸＣＨＡＮＧＥＣＯＭＰＯＮＥＮＴ
ＤＥＶＩＣＥ（コンポーネント装置を交換する）−ＥＸ
ＣＨＡＮＧＥＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥ機能
は、一つのコンポーネント装置が他の装置に交換される
ことを要求する。

【０１４０】ＲＥＭＯＶＥＣＯＭＰＯＮＥＮＴＤＥ
ＶＩＣＥ（コンポーネント装置を削除する）−ＲＥＭＯ
ＶＥＰＥＲＩＰＨＥＲＡＬＤＥＶＩＣＥ／ＣＯＭＰ
ＯＮＥＮＴＤＥＶＩＣＥサービス機能は、周辺装置ま
たはコンポーネント装置がシステム構成から削除される
ことを要求する。もし論理装置を取り付けたコンポーネ
ント装置が削除されつつあるならば、このコマンドはＣ
ＨＥＣＫＣＯＮＤＩＴＩＯＮで終了させられるであろ
う。センス・キーは、ＲＥＭＯＶＥＯＦＬＯＧＩＣ
ＡＬＵＮＩＴＦＡＩＬＥＤという追加のセンス修飾
子を持ったＩＬＬＥＧＡＬＲＥＱＵＥＳＴとなるであ
ろう。

【０１４１】あるコンポーネントに関する状態その他の
情報は、下記のサービス機能によって取得できる。

【０１４２】ＲＥＰＯＲＴＣＯＭＰＯＮＥＮＴＳＴ
ＡＴＵＳ（コンポーネントの状態を報告する）−ＲＥＰ
ＯＲＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥＳＴＡＴ
ＵＳサービス機能は、コンポーネント装置に関する全部
の状態情報を検索することを意図した業者独自のコマン
ドである。ＳＥＳは、各エレメント型ごとに４バイトの
状態を与える。これらＲＥＰＯＲＴＳＴＡＴＥＳおよ
びＲＥＰＯＲＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥサ
ービス機能は、状態情報のために１バイトだけ割り当て
ており、定義された状態符号はＳＥＳ規格によって定義
された状態符号と競合する。したがってこの新しいコマ
ンドが必要となる。

【０１４３】ＲＥＰＯＲＴＳＴＡＴＥＳ（状態を報告
する）−ＲＥＰＯＲＴＳＴＡＴＥＳサービス機能は、
選択された論理装置に関する状態情報を要求する。各論
理装置ごとに一つ以上の状態のリストが返される。

【０１４４】ＲＥＰＯＲＴＣＯＭＰＯＮＥＮＴＤＥ
ＶＩＣＥ（コンポーネント装置を報告する）−ＲＥＰＯ
ＲＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥサービス機能
は、ＪＢＯＤ内のコンポーネント装置に関する情報を要
求する。ＬＵＮ記述子の順序付けリストが返され、ＬＵ
Ｎアドレスとコンポーネント型と全体の状態とを報告す
る。このコマンドは、ＡＤＤＣＯＭＰＯＮＥＮＴＤ
ＥＶＩＣＥサービス機能によって割り当てられたＬＵＮ
アドレスを決定するために初期構成処理の一部として使
われる。

【０１４５】ＲＥＰＯＲＴＣＯＭＰＯＮＥＮＴＤＥ
ＶＩＣＥＡＴＴＡＣＨＭＥＮＴＳ（コンポーネント装
置アタッチメントを報告する）−ＲＥＰＯＲＴＣＯＭ
ＰＯＮＥＮＴＤＥＶＩＣＥＡＴＴＡＣＨＭＥＮＴＳ
サービス機能は、所定のコンポーネント装置に取り付け
られた論理装置に関する情報を要求する。各々がＬＵＮ
記述子のリストを含んでいるコンポーネント装置記述子
のリストが返される。ＬＵＮ記述子は、対応するコンポ
ーネントに取り付けられた各論理装置ごとに型とＬＵＮ
アドレスとを指定する。

【０１４６】ＲＥＰＯＲＴＣＯＭＰＯＮＥＮＴＤＥ
ＶＩＣＥＩＤＥＮＴＩＦＩＥＲ（コンポーネント装置
識別子を報告する）−ＲＥＰＯＲＴＣＯＭＰＯＮＥＮ
ＴＤＥＶＩＣＥＩＤＥＮＴＩＦＩＥＲサービス機能は、
所定のコンポーネント装置の位置を要求する。コンポー
ネントの位置を示すＡＳＣＩＩ値が返される。この値
は、ＳＥＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥＩＤＥ
ＮＴＩＦＩＥＲサービス機能によって前もって設定して
おかなくてはならない。

【０１４７】コンポーネントの管理は、下記によって行
われる。

【０１４８】ＩＮＳＴＲＵＣＴＣＯＭＰＯＮＥＮＴ
ＤＥＶＩＣＥ（コンポーネント装置に命令する）−ＩＮ
ＳＴＲＵＣＴＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥコマ
ンドは、電源の投入・切断といった制御命令をコンポー
ネント装置に送るために使われる。ある特定の装置に与
えられる機能は、コンポーネントの型によって変わり、
また業者固有である。

【０１４９】ＢＲＥＡＫＣＯＭＰＯＮＥＮＴＤＥＶ
ＩＣＥ（コンポーネント装置を故障とする）−ＢＲＥＡ
ＫＣＯＭＰＯＮＥＮＴＤＥＶＩＣＥサービス機能
は、指定されたコンポーネントを故障状態にする。

【０１５０】相互接続ファブリック概要これは、より多くのデータの移動を可能にするので、本
発明のファブリック取付け記憶装置モデルは、データ・
コピーと割込み処理コストによる入出力性能問題に取り
組まなくてはならない。データ・コピーと割込みと流れ
制御の問題は、独自の組合せの方法によって本発明で取
り扱われる。大抵のネットワークによって使われている
宛て先ベースのアドレス指定モデルとは異なり、本発明
は、データがファブリック上を伝送される前に送信側が
宛て先側の目標バッファを選択する送信側ベースのアド
レス指定モデルを使う。送信側ベースのモデルでは、宛
て先側は、メッセージが送られる前にそのメッセージを
送くることのできる宛て先アドレスのリストを送信側に
送る。メッセージを送るために送信側は先ず、このリス
トから宛て先側バッファを選択する。これが可能である
のは、目標側アプリケーションは既に目標ネットワーク
・ハードウエアによって使われるこれらのバッファのア
ドレスをＯＳに与えており、またしたがってネットワー
ク・ハードウエアはコピーなしでＤＭＡ操作を介してデ
ータを直接正しい目標バッファに送り込むために十分な
情報を与えられているという理由からである。

【０１５１】幾つかの点では有益であるが、送信側ベー
スのアドレス指定には幾つかの問題がある。第一に、送
信側ベースのアドレス指定は、送信側を含めて宛て先か
らファブリックに亘る保護領域を拡大することになり、
一般的な分離の不足を作りだし、データの安全保護と完
全性の問題を引き起こすことになる。純粋な送信側ベー
スのアドレス指定は、メモリ・アドレスを送信側に解放
し、宛て先側が送信側を信頼することを要求しており、
可用性の高いシステムにおける主要な問題となる。例え
ば宛て先ノードが宛て先アドレスのリストを送信側に与
えた場合を考えてみる。送信側がこれらのアドレスをす
べて使う前に、宛て先ノードがクラッシュし、それから
再ブートする。さて送信側は、もはや有効でなくなった
アドレス・バッファのセットを持っている。宛て先側は
それらのアドレスを別の目的に使っているかもしれな
い。それらのアドレスのどれかに送られたメッセージ
は、重要なデータが宛て先側で破壊されるといった重大
な結果をもたらすかもしれない。

【０１５２】第二に、送信側ベースのアドレス指定の実
現は、データのＤＭＡを起動できる前にメッセージから
宛て先アドレスを抽出するようにネットワークの協力を
必要とするが、大抵のネットワーク・インタフェースは
このような動作をするようには設計されていない。

【０１５３】必要とされるのは、送信側ベースのアドレ
ス指定の利点を取り込んでこれらの問題を回避するアド
レス指定モデルである。本発明は、ＢＹＮＥＴに基づい
て相互接続ファブリックを使う独自の「ｐｕｔｉｔ
ｔｈｅｒｅ：そこに置く」（ＰＩＴ）プロトコルを使用
するハイブリッド・アドレス指定モデルによってこの問
題を解決する。

【０１５４】ＢＹＮＥＴおよびＢＹＮＥＴインタフェー
スＢＹＮＥＴは、本発明を実現するために有用な三つの重
要な属性を持っている。

【０１５５】第一に、ＢＹＮＥＴは本来、拡張可能であ
る−接続の追加や帯域幅の追加が容易に導入でき、シス
テム内のすべてのエンティティに直ちに利用可能であ
る。これは、接続の追加の結果として帯域幅を追加しな
い他のバス指向の相互接続技術とは対照的である。他の
相互接続に比較すると、ＢＹＮＥＴは、末広がり（単一
のファブリックに接続可能なポートの数）による拡張だ
けでなく、末広がりで拡張する二分割帯域幅も持ってい
る。

【０１５６】第二に、ＢＹＮＥＴは、アクティブ・メッ
セージ相互接続であるようにソフトウエアによって改良
できる−そのユーザ（すなわちコンピューティング資源
１０２と記憶資源１０４）の指示の下でそれらの動作の
混乱を最小限にしてノード間でデータを移動させること
ができる。これは、不必要な割込みと内部的なデータの
コピーとを回避しながら、あらかじめ決められたメモリ
・アドレスに直接データを移動させるためにＤＭＡを使
用する。この基本的な手法は、データ・ブロックを更に
大きな一つの相互接続メッセージ内に多重化することに
よって、より小さなデータ・ブロックの移動を最適化す
るように拡張することができる。個別のデータ・ブロッ
クの各々は、相互接続利用を最適化する一方、ノードの
動作効率の利点を保持しながら、ＤＭＡベースの手法の
修正を使って処理することができる。

【０１５７】第三に、ＢＹＮＥＴは複数のファブリック
を備えるように構成できるので、トラヒック整形を使っ
て更に相互接続を最適化することができる。これは本質
的に、例えば長短のメッセージのランダムな組合せが使
用頻度の高い共用チャネルで引き起こすことのある干渉
を減らして、ある幾つかの相互接続チャネル（ファブリ
ック）をある幾つかの種類のトラヒックに割り当てる、
ＢＹＮＥＴソフトウエアによって提供される機構であ
る。トラヒック整形は、ＢＹＮＥＴによって可能にさ
れ、予測可能なトラヒック・パターンをユーザが選択で
きるようになる。

【０１５８】図８は、ＢＹＮＥＴとそのホスト側インタ
フェース８０２の図を示す。ＢＹＮＥＴのホスト側イン
タフェース８０２は、回線が生成されたときは何時でも
チャネル・プログラムを実行するプロセッサ８０４を含
んでいる。チャネル・プログラムは、各ノードごとに送
信側８０６インタフェースと宛て先側８０８インタフェ
ースの両方においてこのプロセッサ８０４によって実行
される。送信側インタフェース８０６ハードウエアは、
回線の生成とデータの伝送と最終的な回線の機能停止と
を制御するダウンコール時に生成されるチャネル・プロ
グラムを実行する。宛て先側インタフェース８０８ハー
ドウエアは、宛て先側のメモリにデータを送付しから回
線を完了させるチャネル・プログラムを実行する。

【０１５９】ＢＹＮＥＴは、コンピューティング・ノー
ド２００とＩＯＮ２１２とを相互接続するネットワーク
を含んでおり、これらのノードはそのネットワーク内で
プロセッサとして機能する。ＢＹＮＥＴは、入出力ポー
ト８１４を持った複数のスイッチ・ノード８１０を含ん
でいる。スイッチ・ノード８１０は、ｇ（ｌｏｇｂＮ）
個よりも多いスイッチ・ノード・ステージ８１２に配列
されており、ここでｂはスイッチ・ノード入出力ポート
の総数であり、Ｎはネットワーク入出力ポート８１６の
総数であり、またｇ（ｘ）は引き数ｘよりも大きくない
最小の整数を与えるシーリング（最高限度）関数であ
る。したがってスイッチ・ノード８１０は、障害許容力
を高め、競合を減らすために、いかなるネットワーク入
力ポート８１６とネットワーク出力ポート８１６との間
にも複数の経路を備えている。ＢＹＮＥＴはまた、メッ
セージの伝送を全ネットワーク中に向けるために、ネッ
トワークの最も高いスイッチ・ノード・ステージに沿っ
てバウンスバック面８１８内に複数のバウンスバック点
を含んでいる。バウンスバック点は、メッセージを受信
プロセッサに向けるスイッチ・ノード８１０からネット
ワークを介して平衡メッセージをロードするスイッチ・
ノード８１０間を論理的に区別する。

【０１６０】コンピューティング・ノード２００、ＩＯ
Ｎ２１２といった、ノード内に実現されたプロセッサ
は、論理的に独立した、あらかじめ定義されたサブセッ
トのプロセッサからなる一つ以上のスーパークラスタに
分割できる。プロセッサ間の通信は、ポイントツーポイ
ントでもマルチキャストでも可能である。マルチキャス
ト・モードの通信では単一のプロセッサが他のすべての
プロセッサまたはスーパークラスタに対してメッセージ
を同報することができる。異なるスーパークラスタ内の
マルチキャスト・コマンドは、同時に発生し得る。送信
側プロセッサは、順方向通信路を介して伝搬するそのマ
ルチキャスト・コマンドをすべてのプロセッサあるいは
すべてのプロセッサ・グループに送信する。マルチキャ
スト・メッセージは、引き続いてスーパークラスタ内の
プロセッサに経路指定するためにネットワーク内のバウ
ンスバック面のある特定のバウンスバック点に向けられ
る。これは、一度に特定のバウンスバック点を通るマル
チキャスト・メッセージを一つだけ許し、異なるスーパ
ークラスタに向かうマルチキャスト・メッセージが互い
に干渉するのを防止するので、ネットワークのデッドロ
ックを防止する。マルチキャスト・メッセージを受信し
たプロセッサは、例えば逆方向通信路を介して自分の現
在状態を送信することによってそのメッセージに応答す
る。ＢＹＮＥＴは、種々の仕方でこれらの応答を結合す
るように機能することができる。

【０１６１】ＢＹＮＥＴは現在、帯域内メッセージと帯
域外メッセージという二つの基本的な型のメッセージを
サポートしている。ＢＹＮＥＴ帯域内メッセージは、宛
て先側ホストのメモリにあるカーネル・バッファ（一つ
または複数）内にメッセージを送付し、回線を完了し、
アップコール割込みを通知する。ＢＹＮＥＴ帯域外メッ
セージによって回線メッセージ内のヘッダ・データは、
ＢＹＮＥＴドライバ内の割込みハンドラに、受信してい
る回線データの残り分を処理するために使われるチャネ
ル・プログラムを生成させる。これら両方の型のメッセ
ージに関して、チャネル・プログラムの成功あるいは失
敗は、ＢＹＮＥＴ逆方向通信路上の小さなメッセージを
介して送信側に返される。この逆方向通信路メッセージ
は、送信側のチャネル・プログラムによる回線の機能停
止操作の一部として処理される。（逆方向通信路は、Ｂ
ＹＮＥＴ回線内の低帯域幅帰路である）。回線が機能停
止した後に、新しいメッセージの到着を知らせるために
宛て先側にアップコール割込みが（オプションで）通知
される。

【０１６２】ＢＹＮＥＴ帯域外メッセージの使用は、初
めにチャネル・プログラムが生成され、それから実行さ
れるのを送信側が待つことになるので、最適な構成では
ない。ＢＹＮＥＴ帯域内メッセージは、送信側がアプリ
ケーション・バッファを直接的に目標とすることを許さ
ず、したがってデータ・コピーを必要とする。この問題
を解決するために本発明は、独自の仕方でＢＹＮＥＴハ
ードウエアを使う。データを処理するために必要とする
チャネル・プログラムを宛て先側インタフェース８０８
に生成させる代わりに、送信側インタフェース８０６が
送信側と宛て先側両者のチャネル・プログラムを生成す
る。送信側チャネル・プログラムは宛て先側が実行する
であろう非常に小さなチャネル・プログラムをメッセー
ジの一部として転送する。このチャネル・プログラム
は、宛て先側が目標アプリケーション・スレッドの所定
の宛て先バッファの中にデータをどのようしてに移動さ
せるべきかを記述している。

【０１６３】送信側はこのメッセージが送付されること
になっている宛て先スレッドを知っているので、この手
法は宛て先側での従来型のアップコール処理の欠点の大
部分を回避して、送信側がメッセージを送付すべき方法
と場所の両方を制御するのを可能にする。この形式のＢ
ＹＮＥＴメッセージは、有向帯域メッセージと呼ばれ
る。アクティブ・メッセージ・プロセス間通信モデルで
使われるアクティブ・メッセージ（これは、宛て先側で
メッセージを処理するために使われるデータと小さなメ
ッセージ・ハンドラを含む）とは異なり、本発明は、Ｂ
ＹＮＥＴ入出力プロセッサが単純なチャネル・プログラ
ムを実行する一方、通常ホストＣＰＵがアクティブ・メ
ッセージでアクティブ・メッセージ・ハンドラを実行す
るＢＹＮＥＴ有向帯域メッセージを使用する。

【０１６４】逆方向通信路の使用は、メッセージ送達完
了を知らせる従来型割込み方法を送信側インタフェース
が抑制することを可能にしている。帯域外メッセージと
有向帯域メッセージの両者に関して、送信側での完了成
功の表示は、メッセージが宛て先側メモリ内に確かに送
付されたことを示すだけである。

【０１６５】これは、宛て先ノードのメモリ空間内にメ
ッセージが確かに移動したことを保証するが、宛て先側
アプリケーションによるメッセージの処理を保証するも
のではない。例えば宛て先ノードは、機能的なメモリ・
システムを持っているかもしれないが、宛て先側アプリ
ケーション・スレッドにはメッセージの処理を妨げる障
害があるかもしれない。本発明ではメッセージの信頼で
きる処理を取り扱うために、メッセージ処理の障害の検
出と訂正の両方のために幾つかの方法を独立に採用して
いる。本発明に関する通信プロトコルによれば、紛失メ
ッセージを検出するために送信側でタイムアウトが使わ
れる。再送信は、必要により発生しまた、ソフトウエア
障害かハードウエア障害が検出された場合に回復動作を
誘発することもできる。

【０１６６】有向帯域メッセージによっても本発明は、
宛て先側の所定の目標と、メッセージを正しい目標アプ
リケーション・スレッド・バッファに送るために十分な
データを送信側に与える機構とに対するメッセージ送付
を可能にしなくてはならない。本発明は、チケット・ベ
ースの認証方式によってこの芸当を達成している。チケ
ットは、偽造できないデータ構造であって、持ち主に権
利を与えるものである。本質的にチケットは、ある資源
を一回使う許可または権利である。本発明ではＩＯＮ２
１２は、チケットの分配によってコンピューティング・
ノード２００に対するサービスの分配を制御できる。更
にチケットは、所定の目標、送信側ベースの流れ制御モ
デルを実現するための必要な要件を指定する。

【０１６７】「ＰｕｔｉｔＴｈｅｒｅ：そこに置
く」（ＰＩＴ）プロトコル概要ＰＩＴプロトコルは、ＢＹＮＥＴ有向帯域メッセージ・
プロトコルを使ってアクティブ・メッセージにチケット
とデータ・ペイロードとを送るチケット・ベースの認証
方式である。ＰＩＴプロトコルは、チケット・ベースの
認証と送信側ベースのアドレス指定とクレジット／デビ
ット（借方／貸方）流れ制御とゼロ・メモリ・コピーと
アクティブ・メッセージとの一意的混合である。

【０１６８】ＰＩＴメッセージ図９は、ＰＩＴメッセージまたはパケット９０１の基本
的特徴を示しており、これはペイロード・データ９０４
を伴うＰＩＴヘッダ９０２を含んでいる。ＰＩＴヘッダ
９０２は、目標データ・バッファの要約を表すＰＩＴ
ＩＤ９０６を含んでおり、また所定のサイズのピン留め
されたバッファへのアクセス権を表す寿命の限られたチ
ケットである。ＰＩＴＩＤ９０６を所有するエレメン
トは、そのバッファを使う権利を有するエレメントであ
り、ＰＩＴバッファが使われたときにＰＩＴＩＤ９０
６は廃棄されなくてはならない。宛て先側がＰＩＴメッ
セージを受け取ると、ＰＩＴヘッダ内のＰＩＴＩＤ９０
６は、ＤＭＡ操作によってペイロードが移されるべきＢ
ＹＮＥＴハードウエアに対して目標バッファを指定す
る。

【０１６９】ＰＩＴプロトコル下での流れ制御は、送信
側ベースのアドレス指定を使うクレジット／デビット
（借方／貸方）モデルである。ＰＩＴメッセージが送ら
れると、これは送信側に対する流れ制御デビットと宛て
先側に対する流れ制御クレジットとを表す。言い換えれ
ばもしある装置がＰＩＴＩＤ９０６をあるスレッドに
送ったとすると、そのスレッドはアドレス空間内のＰＩ
Ｔバッファをクレジット（信用貸し）される。もしその
装置がＰＩＴＩＤ９０６をそのその送信側に返却すれ
ば、装置はその権利を放棄するか、ＰＩＴＩＤ９０６
によって指定されたバッファを解放するかどちらかをす
ることになる。ある装置がＰＩＴＩＤ９０６によって
抽出された宛て先バッファにメッセージを送ると、その
装置はまたＰＩＴバッファに対するその権利を放棄す
る。装置がＰＩＴＩＤ９０６を受信すると、それは送
信側のアドレス空間内のＰＩＴバッファのためのクレジ
ット（貸方）となる（そのＰＩＴＩＤ９０６が、返却
されている装置のＰＩＴＩＤ９０６でなければ）。

【０１７０】ヘッダ９０２の最上部には、ＰＩＴパケッ
ト９０１を処理するであろうＢＹＮＥＴチャネル・プロ
グラム９０８（送信側と宛て先側）がある。次ぎに、ク
レジット（貸方）フィールド９１０とデビット（借方）
フィールド９１２というＰＩＴＩＤを送るための二つ
のフィールドがある。デビット・フィールド９１２は、
ペイロード・データがチャネル・プログラムを介して宛
て先側ネットワーク・インタフェースによって転送され
るであろうＰＩＴＩＤ９０６を含んでいる。ＰＩＴ
ＩＤ９０６が送信側アプリケーション・スレッドのため
のデビット（宛て先側スレッドにおけるクレジット）で
あるから、これはデビット・フィールドと呼ばれる。ク
レジット・フィールド９１０は、送信側スレッドがＰＩ
Ｔバッファを宛て先側スレッドに転送するあるいはクレ
ジット（信用貸し）するところである。クレジット・フ
ィールド９１０は一般に、送信側スレッドが返却メッセ
ージを送られると期待しているＰＩＴＩＤ９０６を保
持している。クレジットＰＩＴのこの使用法はまた、Ｓ
ＡＳＥ（ｓｅｌｆ−ａｄｄｒｅｓｓｅｄｓｔａｍｐｅ
ｄｅｎｖｅｌｏｐｅ：自動アドレス指定型切手付き封
筒）ＰＩＴとも呼ばれる。

【０１７１】コマンド・フィールド９１４は、目標がペ
イロード・データ９０４について実行すべき操作（例え
ばディスク読取りまたは書込みコマンド）を記述してい
る。引き数フィールド９１６は、このコマンドに関連す
るデータである（例えば読取りまたは書込み操作を実行
すべきディスク上のディスクおよびブロック番号）。シ
ーケンス番号９１８は、発信元ノードと宛て先ノードと
の対の各々に関して一意である、単調に増加する整数で
ある。（各ノード対は、各方向ごとに一つのシーケンス
番号を持つ）。長さフィールド９２０は、ＰＩＴペイロ
ード・データの長さをバイトで指定する。フラグ・フィ
ールド９２２は、ＰＩＴメッセージの処理を修正する種
々のフラグを含んでいる。一例は、複製メッセージ・フ
ラグである。これは、一つのイベントの２回以上の処理
を防止するために潜在的な紛失メッセージの再送信時に
使われる。

【０１７２】最初にシステムが起動するとき、ノード
は、他のノードに関するＰＩＴＩＤ９０６を持ってい
ない。ＢＹＮＥＴソフトウエア・ドライバは、ＰＩＴ最
初オープン・プロトコルが完了するまでは、いかなる有
向帯域メッセージの送付も防止する。ＰＩＴＩＤ９０
６の分配は、コンピューティング・ノード２００上のア
プリケーション・スレッドがＩＯＮ２１２上に配置され
た何らかの仮想ディスク装置のために最初オープンを行
うときに開始される。最初オープンの期間中、ＩＯＮ２
１２とコンピューティング・ノード２００とは、操作パ
ラメータが交換される折衝の段階に入る。最初オープン
・プロトコルの一部は、ＰＩＴＩＤ９０６の交換であ
る。ＰＩＴＩＤ９０６は、インタフェースが送信側で
のＤＭＡ収集と宛て先側でのＤＭＡ分散の両方をサポー
トするので、二つ以上のバッファを指示できる。このア
プリケーションは、他のいかなるノード上のいかなるア
プリケーションへもＰＩＴＩＤ９０６を自由に配布す
ることができる。

【０１７３】このコンピューティング・ノード２００と
ＩＯＮ２１２との間で交換されるべきＰＩＴバッファの
サイズと数は、調整可能な値である。デビット（借方）
およびクレジット（貸方）ＰＩＴＩＤ９０６（デビッ
ト・フィールド９１２とクレジット・フィールド９１０
内のＰＩＴＩＤ９０６）の交換は、システムに関する
流れ制御モデルの基礎を形成する。送信側は、クレジッ
ト（信用貸し）されたＰＩＴＩＤ９０６が存在するだ
け多くのメッセージを宛て先側に送ることができる。こ
れは、所定のホストが送ることのできるメッセージの数
を制限する。これはまた、各ノードがそれ自身のＰＩＴ
ＩＤ９０６のプールを持っているので、各送信側はそ
れに割り当てられたＰＩＴＩＤ９０６をせいぜい使い
切ることができると言うことにおいて公平さを保証して
いる。

【０１７４】ＩＯＮ２１２は、それがコンピューティン
グ・ノード２００に発行したＰＩＴチケットのプールを
制御する。コンピューティング・ノード２００に対する
ＰＩＴＩＤ９０６の初期割当ては、最初オープン・プ
ロトコルの時に発生する。配布されるＰＩＴＩＤ９０
６の数は、一時にＩＯＮ２１２とＩＯＮ２１２内のメモ
リ資源とを使う同時にアクティブなコンピューティング
・ノード２００の数の推定値に基づいている。これは単
に推定値であるから、ＰＩＴプールのサイズは、動作中
にＩＯＮ２１２によって動的に調整することもできる。
ＰＩＴ資源のこの再配分は、多数のコンピューティング
・ノード２００からの要求をサービスする際の公平さを
保証するために必要である。

【０１７５】アクティブなコンピューティング・ノード
２００のためのＰＩＴ再割当ては、下記のように進めら
れる。アクティブなコンピューティング・ノード２００
は絶えず入出力要求を行っているから、ＰＩＴ資源は完
了した入出力要求内のＰＩＴクレジットの流れを制御す
ることによってアクティブなコンピューティング・ノー
ド２００に再配分される。適当なレベルに達するまでは
ＰＩＴクレジットはＩＯＮ２１２完了によって送られる
ことはない（そのコンピューティング・ノード２００に
関するＰＩＴプールを減らして）。既にＰＩＴ割当てを
持っているがアクティブでない（そして資源を拘束して
いる）コンピューティング・ノード２００に関しては、
更に困難な状況が示される。

【０１７６】このような場合にＩＯＮ２１２は、ＰＩＴ
（またはＰＩＴＩＤのリスト）を無効にするメッセー
ジを各遊休コンピューティング・ノード２００に送るこ
とができる。もし遊休コンピューティング・ノード２０
０が応答しなければ、ＩＯＮ２１２はそのノードに関す
るＰＩＴＩＤをすべて無効にして、それらのＰＩＴＩ
Ｄを他のコンピューティング・ノード２００に再配分す
ることができる。遊休コンピューティング・ノード２０
０が再割当てされたＰＩＴを使おうとすると、そのコン
ピューティング・ノード２００は、最初オープン・プロ
トコルに強制的に戻される。

【０１７７】コンピューティング・ノード２００へのＰ
ＩＴ割当てを増やすことは、下記のようにして達成され
る。新たに割り当てられたＰＩＴＩＤを何処かのコン
ピューティング・ノードに送るために、ＰＩＴ割当てメ
ッセージを使うことができる。代替手法は、各入出力完
了メッセージ内に二つ以上のＰＩＴクレジットを送るこ
とであろう。

【０１７８】動作時のＰＩＴプロトコル−ディスクの読
取りと書込みＰＩＴプロトコルを説明するために、ＩＯＮ２１２から
の記憶ディスク２２４読取り操作に関するコンピューテ
ィング・ノード２００要求の論議を示す。ここでは、最
初オープンは既に行われていて、コンピューティング・
ノード２００とＩＯＮ２１２の両者には十分な数の空き
ＰＩＴバッファが存在していると仮定する。アプリケー
ション・スレッドは、ディスクのデータがコンピューテ
ィング・ノードのハイレベルＳＣＳＩドライバ（ＣＮシ
ステム・ドライバ）に転送されることになっているバッ
ファのアドレスを渡す、読取りシステム呼出しを実行す
る。

【０１７９】ＣＮシステム・ドライバは、この要求を含
むＰＩＴパケット（仮想ディスク名とブロック番号とデ
ータ長とを含む）を作成する。それからＣＮシステム・
ドライバの上半分は、デビットおよびクレジットＰＩＴ
ＩＤフィールド９１０、９１２に記入する。デビット
ＰＩＴフィールド９１２は、この読取り要求が送られつ
つある宛て先側ＩＯＮ２１２上のＰＩＴＩＤ９０６で
ある。これは読取り要求であるから、ＩＯＮ２１２は、
入出力完了パケットを作成するときにアプリケーション
のバッファ（読取りシステム呼出しの一部として提供さ
れるもの）を指定する方法を必要とする。

【０１８０】ＰＩＴパケットは送信ベースのアドレス指
定を使うので、ＩＯＮ２１２は、ＰＩＴＩＤ９０６を
持っている場合だけアプリケーション・バッファをアド
レス指定できる。アプリケーション・バッファは通常の
ＰＩＴプールの一部ではないので、このバッファはメモ
リ内にピン留めされ、このバッファのためにＰＩＴＩＤ
９０６が生成される。読取り要求もまたディスク操作か
ら返却状態を要求するので、返却状態を含むためのＰＩ
Ｔ用の分散バッファが生成される。このＳＡＳＥＰＩ
Ｔは、読み取られたＰＩＴパケットの一部としてクレジ
ット・フィールド内に送られる。それからこのＰＩＴパ
ケットは、送出待ち行列の上に置かれる。ＢＹＮＥＴイ
ンタフェース８０２がこのＰＩＴパケットを送出する
と、これはＤＭＡ操作によって送信側からこのＰＩＴパ
ケット移動させ、それから相互接続ファブリック１０６
に亘って転送する。

【０１８１】宛て先側ＢＹＮＥＴインタフェース８０８
では、このＰＩＴパケットが到着すると、これがＢＹＮ
ＥＴチャネル・プロセッサ８０４によるＰＩＴチャネル
・プログラムの実行を誘発する。ホスト側インタフェー
ス８０２のＢＹＮＥＴチャネル・プロセッサ８０４は、
ＩＯＮ２１２上の端点を突き止めるためにデビットＰＩ
ＴＩＤ９０６を抽出する。チャネル・プログラムは、
バッファ・アドレスを抽出し、ペイロード・データを直
接ＰＩＴバッファ内に移動させるようにインタフェース
ＤＭＡエンジンをプログラムする−こうしてＰＩＴプロ
トコルがゼロ・コピー意味論を備えることを可能にす
る。ＢＹＮＥＴインタフェース８０２は、ＩＯＮ２１２
上の受信アプリケーションに割込みを通知する。

【０１８２】コンピューティング・ノード２００には、
割込みは発生しない。逆方向通信路メッセージが転送の
失敗を示すときは、その失敗の理由によって入出力が再
試行される。何回かの試みの後でＩＯＮ２１２誤り状態
になり（詳細には本書のＩＯＮ２１２の回復操作と失敗
操作を参照のこと）、またコンピューティング・ノード
２００は、ダイポールの一方の兄弟ＩＯＮ２１４によっ
てその要求を処理してもらうことができる。もしメッセ
ージが確かに宛て先ノードのメモリ内に送り込まれたの
であれば、ホスト側ではＩＯＮ２１２がそのメッセージ
を首尾よく処理することを保証するために再送信タイム
アウト（最悪ケースの入出力サービス時間よりも長い）
を設定する。このタイマーが終了すると、ＰＩＴメッセ
ージはコンピューティング・ノードによってＩＯＮ２１
２に再送される。もし入出力が未だ進行中であれば、複
製の要求は単に打ち切られるが、そうでなければ再送さ
れた要求は正常に処理される。

【０１８３】図１０は、ＩＯＮ２１２の機能モジュール
のブロック図である。ＩＯＮ２１２、２１４への入力は
データ線１００２、１００４と制御線１００６である。
ＩＯＮ２１２内の各モジュールは、制御線１００６と接
続されている制御モジュール１００８を含んでいる。制
御モジュール１００８は、データ線１００２からコマン
ドを受け入れ、またモジュール制御機能を備える。シス
テム機能モジュール１０１０は、ここに述べたＩＯＮ機
能を実現している。ＩＯＮ２１２、２１４は、ファブリ
ック・モジュール１０２０とキャッシュ・モジュール１
０１４とデータ障害許容力モジュール１０１６と記憶モ
ジュール１０１８とを含んでいる。これらのモジュール
の各々は、制御モジュールと、データ線１００２、１０
０４からのデータを挿入し、検索するための作業負荷イ
ンジェクタ（注入器）１０２０と、データの通過を禁止
するデータ・フェンス１０２２とを含んでいる。

【０１８４】ＰＩＴ読取り要求がＩＯＮ２１２に送られ
ると、ＩＯＮキャッシュ・モジュール１０１４の作業負
荷インジェクタに転送される。作業負荷インジェクタ
は、その要求がキャッシュされていれば、直接そのデー
タを返すことのできるＩＯＮキャッシュ・モジュール１
０１４に要求を挿入し、あるいはそのデータ用のバッフ
ァを割り当ててそれをＩＯＮ記憶モジュール１０１８に
渡す。ＩＯＮ記憶システム・モジュール１０１８は、こ
の要求を一つ（以上）の物理ディスク要求に変換して、
その要求を適当なディスク駆動機構２２４に送る。ディ
スク読取り動作が完了すると、ディスク制御部はディス
ク読取りの完了を知らせるために割込みを通知する。Ｉ
ＯＮ作業負荷インジェクタは、入出力完了ＰＴパケット
を生成する。

【０１８５】デビットＰＩＴＩＤ（デビット・フィー
ルド９１２内に格納されている）は、読取り要求内のＳ
ＡＳＥＰＩＴ（これはアプリケーションがディスクの
データを置きたいと思っている場所である）からのクレ
ジットＰＩＴＩＤ（クレジット・フィールド９１０内
に格納されている）である。クレジットＰＩＴＩＤ
は、コンピューティング・ノード２００がこの要求を送
った同じＰＩＴＩＤであるか、そのバッファが空いて
いなければ交替のＰＩＴＩＤであるかのいずれかであ
る。このクレジットＰＩＴは、将来の要求を送るための
コンピューティング・ノード・クレジットを与えるであ
ろう（この現在のＰＩＴ要求は、ちょうど完了したとこ
ろなので、このＩＯＮ２１２に対するこのコンピューテ
ィング・ノード２００のための待ち行列の深さを１だけ
増加させる）。

【０１８６】ＰＩＴを処理した後でＩＯＮ２１２がＰＩ
Ｔクレジットを返さない理由は三つある。第一は、ＩＯ
Ｎ２１２はそのコンピューティング・ノード２００から
の待ち行列に入れられている未解決の要求の数を減らし
たいと思っていることである。第二の理由は、ＩＯＮ２
１２はそのＰＩＴクレジットを他のコンピューティング
・ノード２００に再配分したいと思っていることであ
る。第三の理由は、単一のＰＩＴパケットに入れられた
多数の要求があるかもしれないと言うことである（本書
のスーパーＰＩＴパケットの論議を参照のこと）。

【０１８７】コマンド・フィールド９１４は、読取り完
了メッセージであって、引き数は、ディスク駆動機構読
取り操作からの返却コードである。それからこのＰＩＴ
パケットは、コンピューティング・ノード２００に送り
返されるためにＢＹＮＥＴインタフェース７０２への待
ち行列に入れられる。それからＢＹＮＥＴハードウエア
は、このＰＩＴパケットをＤＭＡを介してコンピューテ
ィング・ノード２００に移動させる。これは、目標ＰＩ
Ｔバッファ（この場合はアプリケーションのピン留めさ
れたバッファ）へのＤＭＡを起動する前にコンピューテ
ィング・ノード２００ＢＹＮＥＴチャネル・プログラム
がデビットＰＩＴＩＤ９１２を抽出して検証すること
を誘発する。ＤＭＡが完了すると、コンピューティング
・ノード２００ＢＹＮＥＴハードウエアは、ディスク読
取りが完了したことをアプリケーションに知らせる割込
みを誘発する。ＩＯＮ２１２上でＢＹＮＥＴドライバ
は、バッファをキャッシュ・システムに返却する。

【０１８８】図１１は、上記に論述したＰＩＴプロトコ
ルに伴うデータ伝送においてなされる操作の要約を示す
フローチャートである。まず、第一ノードでおこなうア
プリケーションからの入出力要求に応答し、入出力要求
パケットあるいはＰＩＴ９０６が、第一ノードで生成
される。入出力要求パケットは、データ伝送要求、相互
接続送り先チャンネルプログラム、データ要求が送られ
る第二ノードバッファを指定する第一デビット（借方）
ＩＤ（デビット・フィールド９１２に記憶される）、入
出力要求に応答するデータが送られる第一ノードバッフ
ァを指定する第一クレジット（貸方）ＩＤ（クレジット
・フィールド９１０に記憶される）からなる。これは、
ブロック１１０２に記載されている。次に、データ要求
パケットは、相互接続ファブリック１０６を通じ、第二
ノードに送信される。、相互接続送り先チャンネル・プ
ログラムは、デビット（借方）ＩＤを抽出し、データ要
求を第二ノードバッファに伝送するよう１１０６で行わ
れる。第二ノードに取り付けられたデータ記憶装置から
の入出力要求のメッセージ信号化完了が第一ノードの１
１０８に受信される。第一ノードは、ブロック１１１０
に示されるように、入出力完了パケットを生成するメッ
セージを使用する。この入出力完了パケットは、ブロッ
ク１１１２に示すように、相互接続ファブリック１０６
を通じ、第一ノードに送信する。送信側内部連絡チャン
ネルプログラムは第二クレジット（貸方）ＩＤを抽出す
るよう、１１１４にて行われる。第二クレジット（貸
方）ＩＤは１１１６にて有効になり、データ伝送要求に
応じるデータは第一ノードに１１１８により送信され
る。

【０１８９】書込み要求のために行われた操作は、読取
り操作のために行われた操作と類似している。アプリケ
ーションは、コンピューティング・ノード・ハイレベル
・ドライバを呼出し、データと仮想ディスク名とディス
ク・ブロック番号とデータ長とを含むアドレスを渡す。
コンピューティング・ノード・ハイレベル・ドライバ
は、宛て先ＩＯＮ２１２上のＰＩＴＩＤ９０６を選択
して、このデータを使ってＰＩＴ書込み要求を生成す
る。ＳＡＳＥＰＩＴは、ＩＯＮ２１２からの書込み操
作の返却状態のみを含むであろう。ＩＯＮ２１２では、
ＰＩＴパケットが到着したとき割込みが通知される。

【０１９０】この要求は、ＰＩＴ読取り動作と同じよう
に処理される。書込み要求は、最終的にデータをディス
クに書き込むキャッシュ・ルーチンに渡される。ディス
ク書込みが完了すると（あるいはデータがＩＯＮ２１
２、２１４の両者の書込みキャッシュ内に安全に記憶さ
れると）、入出力完了メッセージがコンピューティング
・ノード２００に送り返される。ＩＯＮ２１２が書込み
キャッシュ動作可能状態で走行しているとき、その要求
が送られたそのＩＯＮ２１２よりもむしろ、ダイポール
内のもう一方のＩＯＮ２１４が、入出力完了メッセージ
を返す。これは、バーミューダ・トライアングル・プロ
トコルに関して本書で更に詳しく説明する。

【０１９１】古くなったＰＩＴＩＤと障害回復問題最初オープン時のＰＩＴＩＤの交換は、ハードウエア
障害またはソフトウエア障害のいずれかによって生成さ
れた、古くなったＰＩＴＩＤ９０６を無効にする機構
である。ＩＯＮ２１２とコンピューティング・ノード２
００がＰＩＴＩＤを交換して、突然そのＩＯＮ２１２
がクラッシュした状況を考えてみる。ＰＩＴＩＤ９０
６は、メモリ内にピン留めされた目標バッファを表して
おり、無効にされなければ、再ブートしたばかりのＩＯ
Ｎ２１２かコンピューティング・ノード２００かいずれ
かに関する未解決ＰＩＴＩＤ９０６は、もはや有効で
ないあるいは古くなったＰＩＴＩＤのせいで重大なソ
フトウエア完全性問題を引き起こすであろう。ＢＹＮＥ
Ｔハードウエアと有向帯域メッセージ・サポートとは、
古くなったＰＩＴＩＤ９０６を無効にするための重要
な機構を提供する。

【０１９２】最初オープン・プロトコルの終わりで、各
側は、ＰＩＴＩＤが配布されるホストのリストをコン
ピューティング・ノード・ハイレベルＳＣＳＩドライバ
に与えなくてはならない。言い換えればホストは、それ
がＰＩＴパケットを受け入れるであろうホストのリスト
をコンピューティング・ノード・ハイレベルＳＣＳＩド
ライバに与えている。それからコンピューティング・ノ
ード・ハイレベル・ドライバは、このリストを使って、
有向帯域メッセージの送達を制御する表を作成する。こ
の表は、有向帯域メッセージが互いに送られることを可
能にするＩＯＮ２１２対の組合せを指定する。（この表
は、一方向ＰＩＴメッセージ流れを指定することもでき
る。）

【０１９３】このコンピューティング・ノード・ハイレ
ベル・ドライバは、ＢＹＮＥＴ構成処理の一部として
（ドライバに専用のデータとして）ホスト上で内部的に
この表を保持する。ホストは、コンピューティング・ノ
ード・ハイレベル・ドライバへの簡単な通知メッセージ
によって、何時でもＰＩＴプロトコルによってこのリス
トに追加または削除することができる。ノードが故障、
停止、あるいは応答停止のとき、ＢＹＮＥＴハードウエ
アは、これを検出してファブリック上の他のすべてのノ
ードに通知するであろう。

【０１９４】各ノード上のＢＹＮＥＴホスト・ドライバ
は、この通知に応答して、有向帯域ホスト・テーブルか
らそのホストに関するすべての参照事項を削除する。こ
の動作は、そのホストが他のホストに配布した可能性の
あるすべてのＰＩＴＩＤ９０６を無効にする。これ
は、前に配布されたＰＩＴパケットからノードを保護す
るために基本的なことである。そのホスト上のコンピュ
ーティング・ノード・ハイレベル・ドライバが再構成さ
れるまで、ＢＹＮＥＴは、そのホストに送られるすべて
のメッセージを放棄するであろう。再構成の後でもロー
カルＰＩＴプロトコルによって知らされるまではＢＹＮ
ＥＴは、いかなる有向帯域メッセージもこの新たに再起
動または再構成されたホストに送ることを許さないであ
ろう。これは、ＰＩＴプロトコルが最初オープン・プロ
トコルによって適切に初期化されるまでは、いかなる古
くなったＰＩＴパケットの送付も行われないように保護
することになる。

【０１９５】あるホストが有向帯域メッセージを無効な
ホスト（いま無効にされたＰＩＴＩＤ９０６を使ってい
る）に送ろうとすると、送信側のコンピューティング・
ノード・ハイレベル・ドライバは、送信側に対する誤り
条件によってそのメッセージを拒否する。この拒否は、
最初オープンのハンドシェーキングが二つのノード間で
呼び出されることを誘発する。最初オープン・ハンドシ
ェーキングが完了した後、未だ保留になっている（コン
ピューティング・ノード２００の見込みから）ＩＯＮ２
１２に関するいかなる入出力操作も再送しなくてはなら
ないであろう。

【０１９６】しかしながらこれがウォーム再起動でなか
ったとすれば、ＩＯＮ２１２は長時間ダウンしていたこ
とになりそうであり、したがっていかなる保留中の入出
力操作も失敗回復処理の一部として再起動されて、ダイ
ポール内のもう一方のＩＯＮ２１２に送られたであろ
う。（更に詳しくは、ＩＯＮ障害回復のセクションを参
照のこと）。

【０１９７】もしクラッシュしたノードがコンピューテ
ィング・ノード２００であったならば、最初オープンを
既に行ったコンピューティング・ノード２００に関する
ＩＯＮ２１２における最初オープン要求の予期しない到
着は、ＰＩＴＩＤ回復操作を誘発するであろう。ＩＯ
Ｎ２１２は、コンピューティング・ノード２００にクレ
ジット（信用貸し）されたすべてのＰＩＴＩＤ９０６
を無効にするであろう（あるいは実際には多分、旧いも
のを再発行するだけであろう）。

【０１９８】そのコンピューティング・ノード２００に
関するいかなる保留入出力操作も完了することが許され
る（これは、ノードの再起動の時間が極端に速くなけれ
ばありそうもないケースであるが）。完了メッセージ
は、それが使っているＳＡＳＥＰＩＴが古くなっている
であろうから放棄されなくてはならないであろう（そし
て入出力要求を発行したアプリケーション・スレッド
は、もはや存在しないであろう）。

【０１９９】スーパーＰＩＴ（ＳＰＩＴ）−小さな入出
力性能の改善ＰＩＴプロトコルは、通常のＳＣＳＩコマンドよりも優
れた点を持っている。本発明の核心は、記憶装置ネット
ワークではなく通信ネットワークであるから、記憶装置
モデルが許すものに対する性能改善のためにネットワー
ク・プロトコルを使うことができる。アップコール処理
のオーバーヘッドの処理は、小さな入出力要求が優位を
占めている作業負荷に関して性能の壁を表している。小
さな入出力の性能を改善するための手法は、幾つかあ
る。

【０２００】一つの手法は、割込み処理符号の経路長を
改善することである。第二は、デバイス・ドライバに採
用されている手法に類似の手法を使って、多数の割込み
の方向指示を割込みハンドラーの単一の呼出しの中に折
り込むことである。第三は、個別の入出力操作の回数を
減らしてそれらを単一の要求にクラスター化する（ある
いはコンボイする）ことである。

【０２０１】発信元と宛て先との物理リンク上の異なる
ＭＴＵサイズのために着信と送出のデータの流れを再パ
ッケージングしなければならないノードは、データを集
める傾向がある。この問題は、送信側ネットワークと宛
て先側ネットワークとの間の速度の不整合によって（特
に宛て先側ネットワークの方が遅い場合）、更に悪くな
る。これらのノードは、宛て先側からの流れ制御を絶え
ず受けている。その結果、トラヒックはルーターからバ
ーストになって流れ出ることになる。これは、データ・
コンボイと呼ばれる。

【０２０２】本発明は、ＩＯＮ２１２とコンピューティ
ング・ノード２００の両者におけるアップコール発生に
よる割込みの回数を減らすための手法としてデータ・コ
ンボイを利用している。説明のために、ＩＯＮ２１２か
らコンピューティング・ノード２００へのデータ流れを
考える。本発明によって使われる流れ制御に関するデビ
ット／クレジット・モデルでは入出力要求は、コンピュ
ーティング・ノード２００とＩＯＮ２１２の両者におい
て待ち行列に入る。待機は、ＩＯＮ２１２に格納された
ＰＩＴパケットで始まり、それが枯渇すると待機はコン
ピューティング・ノード２００に戻って続けられる。こ
れは、オーバーフロー状態と呼ばれる。

【０２０３】通常、オーバーフローは、ノードがＰＩＴ
バッファ・クレジットよりも多くの要求を持っていると
きに発生する。入出力が完了する度毎にＩＯＮ２１２は
完了メッセージをコンピューティング・ノード２００に
送り返す。通常この完了メッセージは、いま解放された
ばかりのＰＩＴバッファ資源に関するクレジットを含ん
でいる。これは、デビット／クレジット流れ制御の基礎
である。システムが入出力要求で渋滞すると、各入出力
完了は直ちに、ＩＯＮ２１２における新しい入出力要求
に置き換えられる。したがって負荷の大きいときには、
入出力要求は一度の一つずつＩＯＮ２１２に流れて、指
定されていない期間、ＩＯＮ２１２内で待機する。これ
らの要求の各々は、ＩＯＮ２１２の負荷を増加させるア
ップコール割込みを発生させる。

【０２０４】この二重待ち行列モデルは、多くの利点を
持っている。コンピューティング・ノード２１２に割り
当てられたＰＩＴバッファの数は、慎重なトレードオフ
である。要求が完了したとき新しい仕事を素早くディス
パッチできるように、ＩＯＮ２１２にはローカルに待機
している十分な仕事負荷が存在がしているべきである。
しかしながらＩＯＮ２１２上に待機している要求によっ
て消費されるメモリ資源は、キャッシュ・システムに割
り当てられれば更によく利用できる。ＩＯＮ２１２上の
ＰＩＴ待ち行列がメモリを節約するために短時間だけ保
持されるとき、ＩＯＮ２１２が遊休状態になると性能は
低下して、仕事がコンピューティング・ノード２００か
ら送られてくるのを待たなくてはならない。

【０２０５】スーパーＰＩＴは、アップコール割込みの
回数を減らすために高い負荷のデビット／クレジット・
システムの流れ制御を利用するように設計されたＰＩＴ
プロトコルの一形態である。スーパーＰＩＴは、ＯＬＴ
Ｐの性能を改善し、また比較的小さな入出力の高い割合
によって支配される同様な仕事負荷を改善する。一度に
一つずつ要求を送る代わりに、スーパーＰＩＴパケット
は、単一の、大きなスーパーＰＩＴ要求ですべて送付さ
れる入出力要求の集まりである。各スーパーＰＩＴパケ
ットは、通常のＰＩＴバッファと同じように搬送され
る。それから、スーパーＰＩＴパケット内に含まれる個
別の入出力要求は、抽出されて、ＩＯＮ２１２資源が利
用可能になると、ＰＩＴ仕事負荷インジェクタによって
通常のＩＯＮ２１２待ち行列機構の中に挿入される。こ
れら個別の入出力要求は、読取り要求か書込み要求かど
ちらでもよい。

【０２０６】ＰＩＴ仕事負荷インジェクタは、ＩＯＮ２
１２に送られたアプリケーション要求のローカルな代理
として（ＩＯＮ２１２上で）動作する。ＰＩＴ仕事負荷
インジェクタは、後のセクションで論じられるＲＴ−Ｐ
ＩＴプロトコルとＦＲＡＧ−ＰＩＴプロトコルとによっ
ても使われる。スーパーＰＩＴが個別の要求を使い切る
と、資源はコンピューティング・ノードに解放され、そ
れと交換するために別のスーパーＰＩＴパケットを送る
ことができる。１ホスト当たりに許されるスーパーＰＩ
Ｔパケットの数は、最初オープン折衝で決定されるであ
ろう。ＩＯＮ２１２上で待機する仕事の量は、別のスー
パーＰＩＴパケットが送付できるまでそのＩＯＮ２１２
を動作中にしておくのに十分でなければならないことは
明らかである。

【０２０７】コンピューティング・ノード２００がＩＯ
Ｎ２１２内の十分な仕事がＰＩＴクレジットを使い切る
のを待っていて、ローカルに要求を待ちはじめたと言う
状況を考えてみる。スーパーＰＩＴ要求内で待機してい
る要求の数は、そのスーパーＰＩＴが送られるバッファ
のサイズによってだけ制限される。スーパーＰＩＴパケ
ットは、通常のＰＩＴパケットとは異なる動作をする。
本発明の制御モデルでは、もしユーザが宛て先に関する
クレジットを持っている場合、装置は要求（デビット）
だけを送ることができる。装置はＩＯＮ２１２内の特定
のアプリケーション・スレッドを目標にしているわけで
はないので、その装置によって使われた特定のＰＩＴパ
ケットは、特に重要ではない。ＩＯＮ２１２に対するＰ
ＩＴパケットは、単にバッファ利用（および副作用とし
て流れ制御）を規制するだけである。これに対してＰＩ
Ｔ要求内のＳＡＳＥＰＩＴは異なる。

【０２０８】ＳＡＳＥＰＩＴＩＤは、コンピューテ
ィング・ノード２１２内の個別スレッドのアドレス空間
を表す。スーパーＰＩＴ内の各要求は、ＳＡＳＥＰＩ
Ｔを含んでいるが、それらが表す入出力が完了すると、
作成された入出力完了メッセージはクレジットＰＩＴを
含まない。スーパーＰＩＴがすべての要求を使い切った
ときだけそのアドレス空間にクレジットＰＩＴが発行さ
れる。

【０２０９】コンピューティング・ノード２００上での
スーパーＰＩＴの生成は、下記に述べるように行われ
る。単一のＩＯＮ２１２に対する入出力要求がコンピュ
ーティング・ノード２００内に二つ以上待機していると
きは何時でも、スーパーＰＩＴを生成することができ
る。もしそのコンピューティング・ノード２００に関す
るスーパーＰＩＴパケットの限界が既にこのＩＯＮ２１
２上で到達されていた場合、コンピューティング・ノー
ド２００は、スーパーＰＩＴＩＤが返却されるまで要
求を待ち行列に入れつづけるであろう。それからこのコ
ンピューティング・ノード２００は別のスーパーＰＩＴ
メッセージを発行する。システム・ドライバ内では、一
旦待機が始まるとＩＯＮごとの待ち行列がスーパーＰＩ
Ｔパケットを生成するように要求されるであろう。

【０２１０】前に論じたように、スーパーＰＩＴメッセ
ージは、大量の小さな入出力要求によって占められてい
る仕事負荷の下でＩＯＮ２１２上の処理負荷を減らすこ
とができる。スーパーＰＩＴメッセージは、宛て先ノー
ドの性能を改善し、また平均メッセージ・サイズの増加
によって相互接続ファブリック１０６の利用を改善す
る。しかしながらスーパーＰＩＴメッセージのコンセプ
トは同様に、小さな入出力仕事負荷によって作り出され
るコンピューティング・ノード２００上の負荷を減らす
ためにＩＯＮ２１２で応用することもできる。ＩＯＮ２
１２上にスーパーＰＩＴメッセージを作成することは、
コンピューティング・ノード２００上にそれらを作成す
ることとは全く異なる問題である。

【０２１１】コンピューティング・ノード２００上で
は、入出力要求を作成するアプリケーション・スレッド
は、ＩＯＮ２１２が圧倒されるのを防止するために流れ
制御を受けている。ディスク・サブシステムのサービス
速度は、ＩＯＮ２１２のそれ以外のものよりも遙かに遅
く、常にＩＯＮ２１２性能の究極の限界になるであろ
う。要求は、要求を待ち行列にいれて最後にはその要求
に応えるために十分な資源をＩＯＮ２１２が持つまで
は、システムに入らないように阻止される。

【０２１２】要点は、資源がＩＯＮ２１２上で利用可能
になるまで要求はコンピューティング・ノード上で待機
するであろう（あるいはアプリケーションは阻止される
であろう）と言うことである。資源不足は、コンピュー
ティング・ノード２００上では問題にはならない。コン
ピューティング・ノード２００アプリケーションが入出
力要求をシステムに出すとき、その要求の一部として、
入出力を完了させるために必要とされるコンピューティ
ング・ノード２００メモリ資源（アプリケーション・ス
レッド・バッファ）が含まれている。ＩＯＮ２１２がコ
ンピューティング・ノード２００に送るために必要とす
るすべての入出力完了メッセージに関して、このノード
は既に割り当てられたＰＩＴＩＤ（ＳＡＳＥＰＩＴ
ＩＤ）を持っている。

【０２１３】ＩＯＮ２１２の観点から見れば、入出力完
了メッセージは既に割り当てられた目標バッファを持っ
ており、データが準備され次第すぐに満たすことができ
る。入出力完了メッセージは、一旦送付されれば成功で
ある（ＩＯＮ２１２は、コンピューティング・ノードで
のディスク記憶システムのサービス時間を待つ必要はな
い）。したがってＩＯＮ２１２は、コンピューティング
・ノードからの流れ制御圧力によって阻止できない。ス
ーパーＰＩＴメッセージを作成するためにコンピューテ
ィング・ノードは、ＩＯＮ２１２が持っていないオプシ
ョンである流れ制御待機を利用した。ＩＯＮ２１２はＢ
ＹＮＥＴへのアクセス以外に待つべき資源を持たないの
で、スーパーＰＩＴメッセージを作成する機会は、遙か
に小さくなる。

【０２１４】ＩＯＮ２１２上にスーパーＰＩＴメッセー
ジを作成するために幾つかの手法が採用できる。一つの
手法は、スーパーＰＩＴパケットを作成する機会を増や
すために入出力完了要求を僅かに遅らせることである。
もし僅かの遅延の後に同一ノードのための新しい完了メ
ッセージが用意されなければ、そのメッセージは正常な
ＰＩＴメッセージとして送られる。この手法の問題は、
スーパーＰＩＴを作成すること（コンピューティング・
ノード上でのアップコール・オーバーヘッドを減らすこ
と）を期待して要求を遅らせた時間の量が幾らであって
も、それに対応する全体の要求サービス時間の増加があ
ると言うことである。

【０２１５】正味の効果は、コンピューティング・ノー
ド２００の負荷の減少分であるが、アプリケーションを
遅くする可能性もある。適応的な遅延時間が有益であろ
う（コンピューティング・ノード２００に対する平均サ
ービス速度と所定の要求によって累積される総サービス
時間とによって）。第二の手法は、第一の僅かな変形で
ある。これは、各コンピューティング・ノード２００が
そのコンピューティング・ノードにおける小さな入出力
の速度が増加するに従って増加する遅延時間を各ＩＯＮ
２１２に与えることを要求するであろう。

【０２１６】要点は、必要な場合に特定のＩＯＮ２１２
に関するスーパーＰＩＴメッセージを作成するためのウ
ィンドウを大きくすることである。第三の手法は、キャ
ッシュによって直接サービスされて記憶２２４ディスク
操作を待つことに関係しない小さな読取りまたは書込み
といった、ある幾つかの型のトラヒックを遅延させるこ
とであろう。キャッシュは、あるパーセンテージの要求
のためのディスク・トラヒックを回避することによって
平均入出力待ち時間を減らすが、待ち時間の分布はキャ
ッシュ・ヒットによって変わる。

【０２１７】キャッシュ・ヒット要求のための僅かな待
機遅延時間は、ディスク操作を含む遅延時間と比較して
サービス時間の主要な増加とはならないであろう。サー
ビス時間の分布に敏感なアプリケーションに関しては
（均一な応答時間が性能にとって重要である場合）、Ｉ
ＯＮ２１２上でスーパーＰＩＴパケットを作成するため
の僅かな遅延は、全体的なシステム性能を改善する可能
性を持っている。

【０２１８】大ブロック・サポートと断片化ＰＩＴパケ
ットデータベース・アプリケーションに関する性能要件は、
データベースの大きさとは無関係であることが多い。デ
ータベースのサイズが大きくなるにしたがって、ディス
ク記憶装置が調べられる速度もまた、アプリケーション
性能の劣化を防止するために比例的に増加しなくてはな
らない。言い換えればサイズの成長する顧客データベー
スに関しては、応答時間は所定の問合せについて一定に
留まらなくてはならない。これらの要件を満たすことの
困難さは、ディスク駆動技術の現在の傾向と直接矛盾し
ていることである。

【０２１９】ディスク駆動機構は、容量は増加しつつあ
るが、ランダムな入出力性能は一定のままに留まってい
る。この傾向を緩和する一つの手法は、ディスク駆動機
構の容量の増加につれてディスク入出力操作の平均サイ
ズを大きくすることである。記憶容量の現在の傾向と性
能要件とに基づいて、２４ＫＢという平均入出力サイズ
は、極く近い将来に１２８ＫＢに増えるかも知れない。
更に積極的なキャッシング手法と遅延書込み手法も、多
くの仕事負荷にとって有益であることが分かるかもしれ
ない。ディスク駆動機構における不均一な技術進歩が、
入出力要求サイズの増大の蔭の唯一の推進要因ではな
い。ＢＬＯＢＳ（ｂｉｎａｒｙｌａｒｇｅｏｂｊｅ
ｃｔｓ：大きな２進オブジェクト）を有するデータベー
スがポピュラーになり始めるにつれて、１ＭＢ以上に達
するサイズのオブジェクトが更に一般的になりつつあ
る。この特定の原因とは無関係に、システムはディスク
記憶装置の経済性の追求を続けさせるサイズの大きな入
出力オブジェクトをサポートする必要があるであろうと
いうことが予想される。

【０２２０】ＰＩＴプロトコルを使用するＩＯＮ２１２
とコンピューティング・ノード２００との間の大きなデ
ータ・オブジェクトの伝送に関連して、幾つかの問題が
ある。ここに述べたように、ＰＩＴプロトコルの利点
は、流れ制御と端点探索の問題に取り組むための宛て先
側バッファの事前割当てである。しかしながらアップコ
ール意味論もまた、メッセージを置く十分なバッファ領
域の識別（または割当て）を必要とする。ＰＩＴプロト
コルは、受信側で各メッセージが置かれるべき目標ＰＩ
ＴＩＤ９０６を送信側に選択させることによってこの
問題に対処している。

【０２２１】メッセージ・サイズは、利用可能プールか
ら所定のＰＩＴＩＤ９０６を選択するための基準にな
るであろうから、大きな入出力書込みがプロトコルを複
雑にすることは明らかである。負荷の大きい間は、送信
側は利用可能なＰＩＴＩＤ９０６クレジットを所有し
ているが、そのうちのどれも大きな入出力要求に関する
バッファ・サイズ要件を満たしていないといった状況の
可能性が存在する。ＰＩＴプロトコルの下では、もし送
るべきデータ・サイズの幅広い母集団が存在する場合、
送信側はＰＩＴバッファの数とサイズの両方を管理する
ために受信側と一緒に働かなければならない。

【０２２２】これは、ＰＩＴバッファ割当てサイズ問題
を作りだす。すなわちＰＩＴバッファのプールを作成す
るときに、所定の仕事負荷の下でのＰＩＴバッファのプ
ールに関するバッファ・サイズの適切な配分とはいかな
るものであるか？ＢＹＮＥＴソフトウエアは、書込みに
加えて大きな入出力読取りを複雑にする限界を追加の最
大トランスファ・ユニット（ＭＴＵ）に賦課する。ＢＹ
ＮＥＴＭＴＵを超える入出力要求（読取りと書込みの
両方）は、送信側でソフトウエア・プロトコル（この場
合はＰＩＴプロトコル）によって断片化され、宛て先側
で再組立てされなくてはならない。これは、メモリ断片
化の問題を作りだす。

【０２２３】つまり内部的断片化は、割り当てられたバ
ッファ内の領域を浪費することになる。外部的断片化
は、どんな要求でも満足させるというには小さすぎる割
当て済みのバッファの外側の領域を浪費する。一つの解
は、大きなＰＩＴバッファの一部だけを使うことであろ
うが、これはもし大きなＰＩＴバッファが使われると、
不必要な内部的断片化を引き起こすことになる。大きな
ＰＩＴバッファは、コスト・パフォーマンスを悪くする
メモリを浪費する。

【０２２４】本発明ではＢＹＮＥＴＭＴＵおよびＰＩ
Ｔバッファ・サイズ割当て問題は、二つ以上の型のＰＩ
Ｔメッセージ、すなわちＲＴ−ＰＩＴ（往復旅行ＰＩ
Ｔ）とＦＲＡＧ−ＰＩＴ（断片化ＰＩＴ）とを追加する
ことによって解決される。ＲＴ−ＰＩＴとＦＲＡＧ−Ｐ
ＩＴの両者は、ＰＩＴデータ・プッシュ・モデルの代わ
りにデータ・プル・モデルを使う。（データを押すため
には、送信側がデータを宛て先側に押す。データを引く
ためには、宛て先側が送信元からデータを引く）。ＦＲ
ＡＧ−ＰＩＴメッセージは、大きなデータ読取りをサポ
ートするように設計されているが、ＲＴ−ＰＩＴメッセ
ージは大きなデータ書込みをサポートする。ＦＲＡＧ−
ＰＩＴとＲＴ−ＰＩＴは両者とも、ＩＯＮＰＩＴ仕事
負荷インジェクタを使ってデータの流れを管理するので
スーパーＰＩＴに似ている。

【０２２５】ＲＴ−ＰＩＴメッセージコンピューティング・ノード２００がＩＯＮ２１２に対
して大きなディスク書込み操作を行いたいと思い、そし
てその入出力書込みがＢＹＮＥＴＭＴＵあるいは利用
可能なＩＯＮ２１２ＰＩＴバッファのどちらよりも大き
い場合は、このコンピューティング・ノード２００はＲ
Ｔ−ＰＩＴ作成メッセージを作成するであろう。ＲＴ−
ＰＩＴメッセージは、ブースト・フェーズとそれに続く
往復旅行フェーズという二つの段階で動作する。

【０２２６】ブースト・フェーズでは、書き込むべきデ
ータのためのソース・バッファのリストが、コンピュー
ティング・ノード２００上の一連のＰＩＴＩＤに割り
当てられる。ソース・バッファの断片化サイズは、ＢＹ
ＮＥＴＭＴＵとＩＯＮ最初オープン・プロトコル時に
指定されたサイズ制限とによって決定される。ＰＩＴＩ
Ｄのこのリスト（対応するバッファ・サイズを有する）
は、単一のＲＴ−ＰＩＴ要求メッセージのペイロード内
に置かれて、宛て先ＩＯＮ２１２へのＰＩＴクレジット
になるであろう。

【０２２７】追加のＰＩＴバッファは、ＲＴ−ＰＩＴプ
ロトコルによって直接使われるコンピューティング・ノ
ード・プールから割り当てられる。この追加バッファの
ＰＩＴＩＤは、ＰＩＴヘッダのクレジット・フィール
ド内に入れられる。ＲＴ−ＰＩＴ要求の残余分は、正常
なＰＩＴ書込みメッセージと同じである。それからコン
ピューティング・ノード２００は、このＲＴ−ＰＩＴ要
求メッセージをＩＯＮ２１２に送る（ブーストする）。

【０２２８】ＩＯＮ２１２では、ＰＩＴ仕事負荷インジ
ェクタが二段階でＲＴ−ＰＩＴ要求メッセージを処理す
る。各送信側ＰＩＴＩＤ９０６ごとに、仕事負荷イン
ジェクタは、サイズの一致する、ＩＯＮキャッシュから
ＰＩＴバッファを要求しなくてはならない。（これは、
ＩＯＮバッファ・キャッシュ内の利用可能メモリ領域に
依存して、直ちにすべてか、あるいは一度に一つずつか
実行することができる）。ＰＩＴバッファを整合させる
ことによって、ＩＯＮ２１２は、書込み要求に合った資
源を動的に割り当てるであろう。これで入出力は、修正
された一連の正常なＰＩＴ転送を使って進行することが
できる。

【０２２９】これでＲＴ−ＰＩＴメッセージの処理は往
復旅行フェーズに入るが、ここでは仕事負荷インジェク
タが送信側と宛て先側のＰＩＴＩＤの一つ（以上）の
整合している対に関してＲＴ−ＰＩＴ開始メッセージを
作成する。（整合ＰＩＴＩＤの１個あるいは１サブセ
ットを送るオプションは、ＩＯＮ２１２の自由裁量に任
されている）。単一のＲＴ−ＰＩＴ開始メッセージ内の
ＰＩＴＩＤ９０６の数は、ＩＯＮ２１２内部のデータ
転送の粒度（実行単位）を制御する（以下に述べる）。

【０２３０】このＲＴ−ＰＩＴ開始メッセージは、コン
ピューティング・ノード２００に返送されてＲＴ−ＰＩ
Ｔメッセージのブースト・フェーズを終了する。ＲＴ−
ＰＩＴ開始メッセージを受信するとコンピューティング
・ノード２００は、通常のＰＩＴ書込みメッセージを使
って、一時にＰＩＴ対を１対ずつ、ＩＯＮ２１２にデー
タを転送しはじめる。コンピューティング・ノード２０
０とＩＯＮ２１２は両者とも紛失断片を処理するために
十分なデータを持っているので、これら断片はコンピュ
ーティング・ノード２００によって順序よく送る必要は
ない（整合ＰＩＴ対が再組立ての順序を指定する）。

【０２３１】ＩＯＮ２１２がＰＩＴ書込みメッセージを
受信すると、仕事負荷インジェクタは、この書込み要求
が大きなＲＴ−ＰＩＴ入出力操作の一部であることをど
ちらが認識したのかを知らされる。仕事負荷インジェク
タは、ＰＩＴ書込みを処理するための二つオプションを
持っている。すなわち断片をキャッシュ・ルーチンに渡
して書き込み操作を開始するか、書込みを開始する前に
最後の断片の伝送を待つかのどちらかである。入出力を
早く開始することは、キャッシュ・ルーチンがディスク
駆動機構へのデータ流れをパイプライン処理することを
可能にする（書込みキャッシュ方針による）が、より小
さな入出力サイズに起因する性能損失の危険がある。し
かしながらすべての断片が到着するまで入出力を保留し
ていることは、キャッシュ・システムに不当な負荷を掛
ける可能性がある。

【０２３２】断片の全体の大きさと数は初めから分かっ
ているので、現在の動作条件下でこの大きな入出力要求
を最適化するために必要とされるすべてのデータは、キ
ャッシュ・システムによって作られる。コンピューティ
ング・ノード２００では、多数の断片が単一のＲＴ−Ｐ
ＩＴ開始メッセージ内に含まれる場合には各ＰＩＴ書込
み動作の伝送の成功は、次の断片書込みを開始させる。
単一のＲＴ−ＰＩＴ開始コマンド内の最後の断片が受信
されると、要求インジェクタ（注入器）は、通常の書込
み要求の処理に類似の処理のためにそのデータをキャッ
シュ・システムに渡す。データが安全であるときは、入
出力完了メッセージはキャッシュ・システムによって作
成されて、（ＲＴ−ＰＩＴ開始動作のための）処理のこ
の段階の完了を知らせるためにコンピューティング・ノ
ード２００に返送される。

【０２３３】更に多くの断片が残っている場合は、別の
ＲＴ−ＰＩＴ開始コマンドが生成されてコンピューティ
ング・ノードに送られ、すべての断片を処理し終わるま
で、こうして上述のサイクルを繰り返す。仕事負荷イン
ジェクタとキャッシュが最後の断片の処理を完了する
と、ＲＴ−ＰＩＴ要求に関するすべての処理の終了を同
期させるために、状態を有する最後の入出力完了メッセ
ージがコンピューティング・ノードに返される。

【０２３４】ＲＴ−ＰＩＴメッセージは、ＢＹＮＥＴに
幾つかの変更を行うことによって最適化できる。ＩＯＮ
２１２がちょうどＲＴ−ＰＩＴ要求を受信したばかりと
いう状況を考えてみる。ＩＯＮ２１２上の仕事負荷イン
ジェクタは、大きな入出力要求を多数の小さな通常の書
込み要求に変換するためにコンピューティング・ノード
上のバッファをＩＯＮ２１２に整合させている。中間の
ＲＴ−ＰＩＴ開始コマンドによって同期化が行われる。
しかしながらもしＢＹＮＥＴが受信チャネル・プログラ
ムにデータ・プルの実行を許したとすれば、ＲＴ−ＰＩ
Ｔ開始コマンドをコンピューティング・ノードに送ると
いう中間ステップは除くことができるであろう。

【０２３５】論議のためにＢＹＮＥＴ操作のこのモード
をループバンド・メッセージと呼ぶことにする。ループ
バンド・メッセージは実は、一方が他方のなかに入れ子
になっている二つの有向帯域メッセージである。例とし
て、仕事負荷インジェクタは、ＲＴ−ＰＩＴ要求を受け
取ると、コンピューティング・ノード上で第二のＰＩＴ
書込みメッセージを作成するために必要とされるデータ
を含むＲＴ−ＰＩＴ開始メッセージを作成することによ
って各断片を処理するであろう。ＲＴ−ＰＩＴ開始メッ
セージは、ある断片に関するＰＩＴ書込み操作のための
テンプレートをコンピューティング・ノード２００に転
送する。コンピューティング・ノード２００上で実行さ
れるチャネル・プログラム（ＲＴ−ＰＩＴ開始メッセー
ジと一緒に送られる）は、コンピューティング・ノード
ＢＹＮＥＴドライバ上の送信待ち行列にそのペイロード
を入れる。

【０２３６】このペイロードは、初期ＲＴ−ＰＩＴ要求
を行ったアプリケーション・スレッドからの待機してい
る要求のように見える。このペイロードは、仕事負荷イ
ンジェクタによって送られたこの断片のために送信元の
ＰＩＴＩＤと宛て先のＰＩＴＩＤとの対を使ってＰ
ＩＴ書込み要求を作成するであろう。ＰＩＴ書込みは、
ＩＯＮ２１２上にこの断片を置き、それが到着したこと
を仕事負荷インジェクタに通知するであろう。仕事負荷
インジェクタは、すべてが処理し終わるまで各断片につ
いてこのサイクルを続けるであろう。ループバンド・メ
ッセージの性能改善は、各ＲＴ−ＰＩＴ開始メッセージ
のために必要とされる割込みとコンピューティング・ノ
ード処理とを除去することから得られる。

【０２３７】ＦＲＡＧ−ＰＩＴメッセージは、コンピュ
ーティング・ノードからの大きな入出力読取り要求の操
作をサポートするように設計されている。アプリケーシ
ョンが大きな入出力読取り要求を行うと、コンピューテ
ィング・ノードは、目標バッファをピン留めして、各断
片の目標バッファを表すＰＩＴＩＤのリストを作成す
る。各ＰＩＴＩＤは、その断片に関する目標バッファ
とそれに関連する状態バッファとからなる分散リストを
記述している。状態バッファは、データが送られると更
新され、各断片が何時処理されたかをコンピューティン
グ・ノードが決めることを可能にしている。各断片のサ
イズは、ＲＴ−ＰＩＴメッセージと同じアルゴリズムを
使って決定される（前述のＲＴ−ＰＩＴについてのセク
ションを参照のこと）。これらのフィールドは、ＦＲＡ
Ｇ−ＰＩＴを生成するために組み立てられる。

【０２３８】コンピューティング・ノード２００は、仕
事負荷インジェクタによってＦＲＡＧ−ＰＩＴが処理さ
れるＩＯＮ２１２にそのＦＲＡＧ−ＰＩＴを送る。この
要求には、ＩＯＮ２１２上の仮想ディスク名と開始ブロ
ック番号とデータ源のデータ長とが含まれる。仕事負荷
インジェクタは、ＲＴ−ＰＩＴ要求と同様の方法でＦＲ
ＡＧ−ＰＩＴ要求に作用する。ＦＲＡＧ−ＰＩＴ要求内
の各断片は、キャッシュ・システムの協同の下で別々の
ＰＩＴ読取り要求として処理される。キャッシュ・シス
テムは、各断片を独立に処理するか単一の読取り要求と
して処理するかを選択することができ、利用可能なとき
にはディスク・データを仕事負荷インジェクタに送り返
す。

【０２３９】データ断片がキャッシュによって供給され
ると（個別にか、単一の入出力操作の一部としてかのど
ちらかで）、大きな読取り要求のためのデータは、コン
ピューティング・ノードに流れはじめるであろう。キャ
ッシュがデータを利用可能にした各断片ごとに、仕事負
荷インジェクタは、ＦＲＡＧ−ＰＩＴ部分完了メッセー
ジ内のそのデータ断片をコンピューティング・ノードに
送り返す。各ＦＲＡＧ−ＰＩＴ部分完了メッセージは、
それが送付されたときにコンピューティング・ノードで
割込みを発生させないということを除いて、正常なＰＩ
Ｔ読取り要求完了に似たデータを送信する。最後に完了
した断片は、ＦＲＡＧ−ＰＩＴ完全完了メッセージと一
緒にコンピューティング・ノードに返される。ＦＲＡＧ
−ＰＩＴ完全完了メッセージは、それがＦＲＡＧ−ＰＩ
Ｔ読取り要求全体の完了を割込みを介して知らせる（フ
ル・アップコール）と言うことにおいて、部分完了メッ
セージとは異なっている。

【０２４０】他のネットワーク装置上でのＰＩＴプロト
コルの実現ネットワークに付加された記憶装置に対する前述の手法
の性能の多くは、ＰＩＴプロトコルをサポートする相互
接続ファブリック１０６の能力に依存している。ＢＹＮ
ＥＴの場合には、ＰＩＴプロトコルに良く整合したロー
レベル・インタフェースが作成された。ファイバ・チャ
ネルといった他のネットワーク・インタフェースも同様
に、ＰＩＴプロトコルをサポートすることができる。

【０２４１】バーミューダ・トライアングル・プロトコ
ル本発明は、ＩＯＮクリーク２２６と書戻しキャッシング
とを使うことによってデータと入出力の冗長性を提供す
る。ＩＯＮクリーク２２６は、主ＩＯＮ２１２と兄弟Ｉ
ＯＮ２１４とからなるＩＯＮ２１２、２１４といった
（一般には対またはダイポール単位で配置される）複数
のＩＯＮを含んでいる。

【０２４２】兄弟ＩＯＮ２１4 は、主ＩＯＮ２１２の修
正キャッシュ・ページのコピーのための一時記憶として
働くことによって、データおよび入出力の冗長性に備え
ている。ＩＯＮクリーク２２６内の各ＩＯＮ２１２（１
対のＩＯＮあるいは１個のダイポールとして示される）
は、一つのグループのボリューム・セット用の主ＩＯＮ
２１２と、もう一つのグループのボリューム・セット用
の兄弟ＩＯＮ２１４として機能する。

【０２４３】高い可用性と書戻しキャッシングとを備え
るために、データは、書込みがアプリケーションに肯定
応答される前に少なくとも二つの場所で安全に格納され
なければならない。この冗長コピーを与えることに対す
る障害は、書込みが肯定応答された後ではあるがそのデ
ータが永久記憶装置に記録される前に記憶装置制御部が
故障した場合に、データ損失を引き起こす可能性があ
る。

【０２４４】しかしながらＩＯＮ２１２、２１４は物理
的に別個のコンピュータを持っているので、これらのバ
ックアップ・コピーを保持するためには相互接続ファブ
リック１０６上での通信が必要である。最適のシステム
性能のためには、なお書戻しキャッシングを利用しなが
ら、ＢＹＮＥＴ伝送と書込みプロトコルに関連の割込み
との回数を最小にすることが必要である。

【０２４５】ダイポール２２６内のディスク２２４にデ
ータを書き込むための一つの可能なプロトコルは、コン
ピューティング・ノード２００が主ＩＯＮ２１２と兄弟
ＩＯＮ２１４とに別々に書込み、両ＩＯＮ２１２、２１
４からの書込み要求に対する応答が受信されるまで待機
し、それから主ＩＯＮ２１２が兄弟ＩＯＮ２１４に、も
はやそのページのコピーを保存する必要がないことを示
すパージ要求を送ることであろう。「送信完了」割込み
が送信側で抑制されると仮定すると、送られた各メッセ
ージはコンピューティング・ノード２００あるいはＩＯ
Ｎ２１２、２１４上で割込みを発生させるので、このプ
ロトコルは、少なくとも５回の割込みを必要とする。

【０２４６】もう一つの可能なプロトコルは、書込み要
求を兄弟ＩＯＮ２１４に送り、応答を待ち、そして肯定
応答をコンピューティング・ノード２００に送り返すと
いうことを主ＩＯＮ２１２に指示する。このプロトコル
も同様に、少なくとも５回の割込みを必要とする。第１
の割込みはコンピューティング・ノード２００が書込み
要求を主ＩＯＮ２１２に送信するときに発生する。第２
の割込みは、主ＩＯＮ２１２がデータを兄弟ＩＯＮ２１
４に送信するときに発生する。第３の割込みは、兄弟Ｉ
ＯＮ２１４がそのデータの受信を肯定応答するときに発
生する。第４の割込みは、主ＩＯＮ２１２がコンピュー
ティング・ノード２００に応答するときに発生し、そし
て最後の割込みは、データがディスクに安全に転送され
て、主ＩＯＮ２１４がパージ要求を兄弟ＩＯＮ２１４に
送るときに発生する。

【０２４７】図１２は、書込み要求を処理するために必
要とされる割込みの回数を最小にする、本発明で使われ
るプロトコルを示す。このプロトコルは、バーミューダ
・トライアングル・プロトコルと呼ばれる。

【０２４８】第一に、コンピューティング・ノード２０
０は、書込み要求を主ＩＯＮ２１２に発行する。第二
に、主ＩＯＮ２１２は、そのデータを兄弟ＩＯＮ２１４
に送る。第三に、兄弟ＩＯＮ２１４は、肯定応答をコン
ピューティング・ノード２００に送る。最後に、データ
が安全にディスク上にあるときに、主ＩＯＮ２１２は、
パージ要求を兄弟ＩＯＮ２１４に送る。

【０２４９】上記の４個のステップは、全部で４回の割
込みを必要とする。更に割込みを減らすためには、パー
ジ要求（図１２のステップ４）を遅らせて、ステップ２
で後続の書込みのデータ伝送と結合させ、３回割込みプ
ロトコルを作るようにできる。このプロトコルの更なる
利点は、書込み要求が受信されたときに、もし兄弟ＩＯ
Ｎ２１４がダウンしても、主ＩＯＮ２１２はライト・ス
ルー（書込み遂行）モードでその要求を処理して、一旦
そのデータがディスク上に置かれれば、その書込みに対
して肯定応答することができると言うことである。コン
ピューティング・ノード２００は、兄弟ＩＯＮ２１４の
状態を知る必要がない。

【０２５０】バーミューダ・トライアングル・プロトコ
ルは、データの可用性を維持しながら、従来型プロトコ
ルよりも少ない回数の割込みを使って書戻しキャッシン
グを可能にしている。これは、主ＩＯＮ２１２に送られ
た書込み要求の肯定応答を兄弟ＩＯＮ２１４が行うから
である。現代のパイプライン化されたプロセッサ上では
割込み処理は不経済になり得るとすれば、幅広い種々の
分散型記憶システム・アーキテクチャで使用できるこの
プロトコルは、全体的なシステム・オーバーヘッドを削
減して、性能を改善する結果をもたらす。

【０２５１】コンピューティング・ノード概要コンピューティング・ノード２００は、ユーザのアプリ
ケーション２０４を実行する。従来技術のシステムで
は、クラスタあるいはクリーク内のノードに対して等し
い記憶装置アクセス可能にするために多数の専用・共用
のＳＣＳＩバスが使われている。本発明では、記憶装置
は一つ以上の通信ファブリック１０６を介してコンピュ
ーティング・ノード２００に取り付けられる。このネッ
トワーク付加の記憶装置は、コンピューティング・ノー
ド２００に亘って配布されるユーザ・アプリケーション
間で処理間通信（ＩＰＣ）トラヒックを有する通信ファ
ブリック１０６を共用する。ユーザ・アプリケーション
２０４からの記憶要求は、ファブリック／記憶装置イン
タフェースによってＩＯＮ２１２上に配置された記憶装
置管理アプリケーションへのＩＰＣメッセージの中に入
れられる。記憶装置ノード上のこれらの専用アプリケー
ションは、ＩＰＣメッセージをローカル・キャッシュ操
作またはディスク入出力操作に変換して、その結果を必
要に応じてコンピューティング・ノード２００に送り返
す。ユーザ・アプリケーション２０４にとってネットワ
ーク取付け記憶装置とローカル取付け記憶装置とは区別
がつかない。

【０２５２】仮想ディスク・ブロックに関する読取り要
求と書込み要求は、相互接続ファブリック１０６を介し
てＩＯＮ２１２に到着する。要求は、コンピューティン
グ・ノード２００における発信元起動の選択を介して所
定のＩＯＮ２１２に経路指定することができる。すべて
のコンピューティング・ノード２００は、どのＩＯＮ２
１２がシステム内の各ファブリック仮想ディスクに関す
る要求を受け入れているかを知っている。ファブリック
仮想ディスクは、一意の記憶領域が表される仮想ディス
ク・モデルを反映するが、その記憶領域は、名前の中の
物理ディスクの各物理位置を意味することも符号化する
こともない。

【０２５３】各コンピューティング・ノード２００は、
ファブリック仮想ディスク名をＩＯＮダイポール２２６
に写像するリストを保持している。このリストは、コン
ピューティング・ノード２００とＩＯＮ２１２との間の
協調によって動的に作成される。電源投入と障害回復操
作の時にダイポール内のＩＯＮ２１２は、これらＩＯＮ
２１２の間で仮想（および物理）ディスクを分割して、
どの仮想ディスクがどちらの一方のＩＯＮ２１２によっ
て所有されているかという、仮想ディスクのリストを作
成する。ダイポール２２６内の他方のＩＯＮ２１４（仮
想ディスクも記憶資源も所有しない）は、障害の場合の
仮想ディスクへの代替経路を提供する。

【０２５４】このリストは、この他のダイポール２２６
とコンピューティング・ノード２００とのすべてに対し
て相互接続ファブリック１０６の全域で定期的に移出ま
たは公示される。コンピューティング・ノード２００
は、このデータを使って、システム内の各仮想ディスク
への一次経路と二次経路の基本表を作成する。それから
コンピューティング・ノード２００内の相互接続ファブ
リック・ドライバは、入出力要求を経路指定するために
ダイポール２２６との協調を行う。ダイポール２２６
は、この「自己発見」手法を使って、ダイポール２２６
がアクティブなシステムに追加されたり、そこから削除
されたときに起こる可能性のある仮想ディスクの命名不
一致を検出して訂正する。

【０２５５】コンピューティング・ノード２００上で走
行するアプリケーションは、ブロック・インタフェース
・モデルを、コンピューティング・ノード２００に移出
された各ファブリック仮想ディスクに関するローカル・
ディスクのように見る。本書で前に述べたように、コン
ピューティング・ノード２００は、ブート時に各ファブ
リック仮想ディスクへの入口点を生成し、またコンピュ
ーティング・ノード２００とＩＯＮ２１２との間に確立
された命名プロトコルを使ってこれらの入口点を動的に
更新する。

【０２５６】サーバ管理概要本発明の重要な一面は、その管理であって、これはシス
テム管理あるいはシステムズ管理と呼ばれる全体的管理
のサブセットである。このサブセットは、記憶装置に関
するサーバ管理（ＳＭＳ）と呼ばれる。記憶装置関連の
ハードウエア・コンポーネントとソフトウエア・コンポ
ーネントとの管理ならびに利用可能な記憶領域内のデー
タ・エンティティの配置は、この機構によって実現され
る。管理動作は、管理者によって初期化でき、あるいは
システム内でのある事象の発生時に動的に呼び出され
る。管理コマンドは、入力されて、殆ど瞬時に肯定応答
され得るが、単一の簡単なコマンドの結果は、かなり長
時間に亘って多数のシステム・コンポーネントに容易に
影響を与える可能性がある。例えば、ボリューム・セッ
トを一方のＩＯＮ２１２から他方のＩＯＮに移動させる
ことは、完了までに何分も、いや何時間も要することが
あり、主題のファイル・システムを使いたがっている多
数のＩＯＮ２１２とコンピューティング・ノード２００
とに影響を与えることになる。サーバ管理はまた、シス
テムのハードウエアとソフトウエアの状態に関する情報
メッセージと警告メッセージとを管理者に提供する責任
も持っている。

【０２５７】管理者は、主として一連の画面表示「ビュ
ー」を通してシステムを感知している。システム全体の
幾つかのビューが提示されることもある。主要ビュー
は、最上位レベルにシステム内のすべてのコンピューテ
ィング・ノード２００とＩＯＮ２１２とファブリック１
０６とが表示される、階層的ビューである。ドリルダウ
ン手法によって関心のある項目の更に詳しい表示が得ら
れる。大抵のシステムはサイズが大きくて非常に複雑な
ので、単一の表示ページ上では表現しきれない。図形的
ビューは、物理的（機器構成的）ビューまたは論理ビュ
ーのどちらかを表示して表現される。更に詳細なビュー
化と管理とのために個別エンティティあるいはエンティ
ティのグループが選択され、要求の結果はユーザ選択の
フォーマットで表示できる。

【０２５８】表による表現方法も用意されており、個体
でもグループでも、このビューで見て管理することがで
きる。この管理の重要な一面は、特定のコンピューティ
ング・ノード２１２から、特定のデータ片の、そのデー
タ片を持っている物理記憶ディスク２２４への経路の表
現である。この経路は、その障害許容力を、すなわち、
どれだけ多くの個別コンポーネントが障害を起こしたら
データが利用不能になるかを表示する表形式で表現され
る。

【０２５９】ボリューム・セットの作成ボリューム・セット（ＶＳ）の作成は、ホストのコンピ
ューティング・ノード２００アプリケーション２０４に
よって使われる空き領域を割り当てる。ボリューム・セ
ットは、ＩＯＮ２１２内に基礎を置いており、名前（こ
こで述べたＶＳＩ６０２）と、サイズと、ＲＡＩＤ（ｒ
ｅｄｕｎｄａｎｔａｒｒａｙｏｆｉｎｅｘｐｅｎ
ｓｉｖｅｄｉｓｋｓ：低価格ディスクの冗長配列）デー
タ保護レベルとを持っている。システム管理者は、要件
に基づいてＶＳを作成し、位置と冗長性特性とを指定で
きる。多数のＶＳがグループ操作で作成できる。

【０２６０】

【発明の効果】要約すれば、マルチプロセッサ・システ
ムにおいて第１のノードから第２のノードにデータを転
送する方法が記述されている。本マルチプロセッサ・シ
ステムは、相互接続ファブリック・インタフェースを介
して相互接続ファブリックに連結された複数のノードを
含んでおり、これらのノードは、コンピューティング・
ノードと入出力ノードとを含んでおり、この入出力ノー
ドは、複数のデータ記憶装置に連結されている。本方法
は、第１のノード内で実行しているアプリケーションか
らの入出力要求に応じて第１のノード内で入出力要求パ
ケットを生成するステップ（１１０２）と、相互接続フ
ァブリックを介して第２のノードにデータ要求パケット
を送信するステップ（１１０４）と、データ要求を第２
のノード・バッファに転送するためにデビットＩＤを抽
出する宛て先相互接続チャネル・プログラムを実行する
ステップ（１１０６）とを含む。一実施例では、入出力
パケットは、データ転送要求と、相互接続宛て先チャネ
ル・プログラムと、データ要求が伝送されるであろう第
２のノード・バッファを指示する第１のデビットＩＤ
と、入出力要求に応答するデータが伝送されるであろう
第１のノード・バッファを指示する第１のクレジットＩ
Ｄとを含む。

【０２６１】本発明の好適な実施例の前述の説明は、例
示と説明のために、提示されている。本発明は、開示さ
れた通りの形式だけに限定することも、それですべて網
羅することも意図していない。上述の教えるところに照
らせば、多くの修正、変形が可能である。本発明の範囲
は、この詳細な説明によって限定されるのではなく、こ
こに添付の特許請求範囲によって限定されることが意図
されている。

【図面の簡単な説明】

【図１】基本的構成エレメントを示す本発明の一実施
例の最上位レベルのブロック図である。

【図２】本発明の一実施例のシステム・ブロック図で
ある。

【図３】ＩＯＮの構造とシステム相互接続部とを示す
ブロック図である。

【図４】ＪＢＯＤ筐体内のエレメントのブロック図で
ある。

【図５】ＩＯＮ物理ディスク・ドライバの機能ブロッ
ク図である。

【図６】ファブリックの一意的ＩＤの構造を示す図で
ある。

【図７】ＩＯＮ筐体管理モジュールと物理ディスク・
ドライバとの間の関係を示す機能ブロック図である。

【図８】ＢＹＮＥＴホスト側インタフェースの図であ
る。

【図９】ＰＩＴヘッダの図である。

【図１０】ＩＯＮ２１２機能モジュールのブロック図
である。

【図１１】ＰＩＴプロトコルに伴うデータ伝送におい
てなされる操作の要約を示すフローチャートである。

【図１２】書込み要求を処理するために必要とされる
割込みの回数を最小にする、本発明で使われるプロトコ
ルを示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピーキースミュラーアメリカ合衆国カリフォルニア州 92102 サンディエゴマリルイスウェイ 2440

Claims

【特許請求の範囲】

【請求項１】複数のコンピューティング・ノードと、
各入出力ノードが複数のデータ記憶装置に連結されてい
る複数の入出力ノードとを含んでいて、相互接続ファブ
リック・インタフェースを介して相互接続ファブリック
に連結されている複数のノードを含むマルチプロセッサ
・システムにおいて第１のノードから第２のノードにデ
ータを転送する方法であって、第１のノードで実行しているアプリケーションからの入
出力要求に応じて第１のノード内で入出力要求パケット
を生成するステップであって、前記入出力要求パケット
が、データ転送要求と相互接続宛て先チャネル・プログラム
と前記データ要求が送信されるであろう第２のノード・
バッファを指示する第１のデビット（借方）識別情報
（ＩＤ）と前記入出力要求に応答するデータが伝送され
るであろう第１のノード・バッファを指示する第１のク
レジット（貸方）識別情報（ＩＤ）とを有する前記入出
力要求パケットを生成するステップと、前記相互接続ファブリックを介して前記第２のノードに
前記データ要求パケットを送信するステップと、前記データ要求を前記第２のノード・バッファに転送す
るために前記デビットＩＤを抽出する前記宛て先相互接
続チャネル・プログラムを実行するステップとを含むこ
とを特徴とする並列処理コンピュータ・システムにおけ
るデータの転送方法。
【請求項２】前記第２のノード内のデータ記憶装置か
らの入出力要求の完了を知らせるメッセージを受信する
ステップと、前記第１のクレジットＩＤに対応する第２のデビットＩ
Ｄと前記データ転送要求に応答するデータとを含む入出
力完了パケットを生成するステップと、前記相互接続ファブリックを介して前記入出力完了パケ
ットを前記第１のノードに送信するステップとを含むこ
とを特徴とする請求項１に記載の並列処理コンピュータ
・システムにおけるデータの転送方法。
【請求項３】前記入出力完了パケットは更に、前記第
１のクレジットＩＤに対応する第２のデビットＩＤを含
むことを特徴とする請求項２に記載の並列処理コンピュ
ータ・システムにおけるデータの転送方法。
【請求項４】前記入出力完了パケットは更に、前記第
２のノード内の第２のバッファを指示する第２のクレジ
ットＩＤを含むことを特徴とする請求項２に記載の並列
処理コンピュータ・システムにおけるデータの転送方
法。
【請求項５】前記入出力パケットは更に、送信側相互
接続チャネル・プログラムを含んでいて、且つ前記方法
は、前記第２のデビットＩＤを抽出するために前記送信側相
互接続チャネル・プログラムを実行するステップと、前記第２のデビットＩＤの妥当性を検査するステップ
と、前記第２のデビットＩＤの妥当性が検査されたときに、
前記データ転送要求に応答するデータを前記第１のノー
ド・バッファに転送するステップとを含むことを特徴と
する請求項２に記載の並列処理コンピュータ・システム
におけるデータの転送方法。
【請求項６】複数のコンピューティング・ノードと、
各入出力ノードが複数のデータ記憶装置に連結されてい
る複数の入出力ノードとを含んでいて、相互接続ファブ
リック・インタフェースを介して相互接続ファブリック
に連結されている複数のノードを含むマルチプロセッサ
・システムにおいて第１のノードからデータを転送する
装置であって、第１のノードで実行しているアプリケーションからの入
出力要求に応じて第１のノード内で入出力要求パケット
を生成する手段であって、前記入出力パケットがデータ
転送要求と相互接続宛て先チャネル・プログラムと前記
データ要求が送信されるであろう第２のノード・バッフ
ァを指示する第１のデビットＩＤと前記入出力要求に応
答するデータが伝送されるであろう第１のノード・バッ
ファを指示する第１のクレジットＩＤとを有する前記入
出力要求パケットを生成する手段と、前記相互接続ファブリックを介して前記第２のノードに
前記データ要求パケットを送信する手段と、前記データ要求を前記第２のノード・バッファに転送す
るために前記デビットＩＤを抽出する前記宛て先相互接
続チャネル・プログラムを実行する手段とを含むことを
特徴とする装置。
【請求項７】前記第２のノード内のデータ記憶装置か
らの入出力要求の完了を知らせるメッセージを受信する
手段と、前記第１のクレジットＩＤに対応する第２のデビットＩ
Ｄと前記データ転送要求に応答するデータとを含む入出
力完了パケットを生成する手段と、前記相互接続ファブリックを介して前記入出力完了パケ
ットを前記第１のノードに送信する手段とを含むことを
特徴とする請求項６に記載の装置。
【請求項８】前記入出力完了パケットは更に、前記第
１のクレジットＩＤに対応する第２のデビットＩＤを含
むことを特徴とする請求項７に記載の装置。
【請求項９】前記入出力完了パケットは更に、前記第
２のノード内の第２のバッファを指示する第２のクレジ
ットＩＤを含むことを特徴とする請求項７に記載の装
置。
【請求項１０】前記入出力パケットは更に、送信側相
互接続チャネル・プログラムを含んでいて、且つ前記装
置は更に、前記第２のデビットＩＤを抽出するために前記送信側相
互接続チャネル・プログラムを実行する手段と、前記第２のデビットＩＤの妥当性を検査する手段と、前記第２のデビットＩＤの妥当性が検査されたときに、
前記データ転送要求に応答するデータを前記第１のノー
ド・バッファに転送する手段とを含むことを特徴とする
請求項７に記載の装置。
【請求項１１】複数のコンピューティング・ノード
と、各々が複数のデータ記憶装置に連結された複数の入
出力ノードとを含むノードであって、相互接続ファブリ
ック・インタフェースを介して相互接続ファブリックに
連結されている複数のノードを含むマルチプロセッサ・
システムにおいてデータを第１のノードから第２のノー
ドに転送する方法のステップを実行する、コンピュータ
によって実行可能な命令の一つ以上のプログラムを具体
的に実現する、前記コンピュータによって読取り可能な
プログラム記憶装置において、前記方法は、第１のノードで実行しているアプリケーションからの入
出力要求に応じて第１のノード内で入出力要求パケット
を生成するステップであって、前記入出力パケットが、データ転送要求と相互接続宛て先チャネル・プログラム
と前記データ要求が伝送されるであろう第２のノード・
バッファを指示する第１のデビットＩＤと前記入出力要
求に応答するデータが伝送されるであろう第１のノード
・バッファを指示する第１のクレジットＩＤとを有する
前記入出力要求パケットを生成するステップと、前記相互接続ファブリックを介して前記第２のノードに
前記データ要求パケットを送信するステップと、前記データ要求を前記第２のノード・バッファに転送す
るために前記デビットＩＤを抽出する前記宛て先相互接
続チャネル・プログラムを実行するステップとを含むこ
とを特徴とするプログラム記憶装置。
【請求項１２】前記方法は更に、前記第２のノード内
のデータ記憶装置からの入出力要求の完了を知らせるメ
ッセージを受信するステップと、前記第１のクレジットに対応する第２のデビットと前記
データ転送要求に応答するデータとを含む前記入出力完
了パケットを生成するステップと、前記相互接続ファブリックを介して前記入出力完了パケ
ットを前記第１のノードに送信するステップとを含むこ
とを特徴とする請求項１１に記載のプログラム記憶装
置。
【請求項１３】前記入出力完了パケットは更に、前記
第１のクレジットＩＤに対応する第２のデビットＩＤを
含むことを特徴とする請求項１２に記載のプログラム記
憶装置。
【請求項１４】前記入出力完了パケットは更に、前記
第２のノード内の第２のバッファを指示する第２のクレ
ジットＩＤを含むことを特徴とする請求項１２に記載の
プログラム記憶装置。
【請求項１５】前記入出力パケットは更に、送信側相
互接続チャネル・プログラムを含んでいて、且つ前記方
法は、前記第２のデビットＩＤを抽出するために前記送信側相
互接続チャネル・プログラムを実行するステップと、前記第２のデビットＩＤの妥当性を検査するステップ
と、前記第２のデビットＩＤの妥当性が検査されたときに、
前記データ転送要求に応答するデータを前記第１のノー
ド・バッファに転送するステップとを含むことを特徴と
する請求項１２に記載のプログラム記憶装置。
【請求項１６】マルチプロセッサ・システムにおいて
第１のノードから第２のノードにペイロード・データを
送受信するためのデータ構造であって、ペイロード・データを有するペイロード部と、第２のノード・バッファを有する第２のノード・インタ
フェースにおいてデータ・パケットを処理するための相
互接続チャネル・プログラムと入出力要求が伝送される
であろう前記第２のノード内の位置を指示する第１のＩ
Ｄを記憶するためのデビット・フィールドと前記入出力
要求に応答するデータが伝送されるであろう第１のノー
ド・バッファ内の位置を指示する第２のＩＤを記憶する
ためのクレジット・フィールドとを持っているヘッダ部
とを含むことを特徴とするデータ構造。
【請求項１７】更に前記第１のノード・バッファに連
結された第１のノード・インタフェースにおいて入出力
完了パケットを処理するための第２の側の相互接続チャ
ネル・プログラムを含むことを特徴とする請求項１６に
記載のデータ構造。
【請求項１８】前記第１のＩＤは、前記第１のノード
に前記第２のノード・バッファを使う権利を与え、ある
いは前記第２のＩＤは第２のノードに与えることを特徴
とする請求項１６に記載のデータ構造。