JPH09288654A

JPH09288654A - 多重データソース及びシンク間のリファレンスによるコンピュータシステムデータｉ／ｏ

Info

Publication number: JPH09288654A
Application number: JP8341416A
Authority: JP
Inventors: Leonard R Fishler; アールフィッシュラーレナード; Bahman Zargham; ザーガムバーマン
Original assignee: Tandem Computers Inc
Current assignee: Tandem Computers Inc
Priority date: 1995-12-20
Filing date: 1996-12-20
Publication date: 1997-11-04
Also published as: US5941959A; EP0789305A3; CA2193341A1; EP0789305A2

Abstract

(57)【要約】【課題】プロセッサ内及びプロセッサ間の両方におい
て、データの不要なコピーイングを排除する方法及び装
置を提供する。【解決手段】データに対するディスクリプタをゲット
しかつディスクリプタをデータ・ソース及びシンクの中
でパスする装置及び方法であり、それによりデータ・ソ
ース及びシンクの中でデータをコピーすることを回避す
る。データを消費するデータ・ソース及びシンクは、デ
ィスクリプタのデータへのグローバル・ポインタを用い
て、実際のデータそれ自体の複写を実際に開始する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータシステム
におけるデータ転送に関する。より詳しく述べれば、本
発明は、種々のデータソースとデータシンク（シンク）
との間でデータを転送する方法及び装置に関する。

【０００２】

【従来の技術】共用メモリを有するシステムにおける待
ち行列メッセージをベースとするＩ／Ｏ（“ＱＩＯ”）
に関しては 1995 年１月23日付米国特許出願第 08/377,
302 号に詳細開示されている。この出願は、以下に参照
文献として概述する。図１は、ＱＩＯ共用メモリシステ
ムを組み込んだ故障許容並列データ処理システム１００
を示すブロック線図である。図１は、ローカルエリアネ
ットワーク（ＬＡＮ）１０５を介して連絡するノード１
０２及びワークステーション１０４を含んでいる。ノー
ド１０２は、プロセッサ間バス（ＩＰＢ）１０９によっ
て接続されているプロセッサ１０６及び１０８を含む。
ＩＰＢ１０９は、公知の型の冗長バスである。図１に
は示してないが、システム１００は、少なくとも１つの
プロセッサがシステム内の他のプロセッサからのデータ
のチェックポイントである故障許容並列コンピュータシ
ステムである。従来はこのようなシステムにおいては、
メモリが隘路になったり、または共通の故障点になった
りすることを回避するために、メモリを共用することは
なかった。このような故障許容システムは、例えば Kat
zman等による米国特許第 4,817,091号に開示されてい
る。

【０００３】プロセッサ１０６は、ＣＰＵ１１０及びメ
モリ１１２を含み、ディスクドライバ１３２及びディス
クコントローラ１１４を介してディスクドライブ１１６
に接続されている。アプリケーションプロセス１２０及
びディスクプロセス１２２は、ＱＩＯライブラリルーチ
ン１２６を通して共用メモリセグメント１２４にアクセ
スする。ＱＩＯの本質として、共用メモリセグメント１
２４及びＱＩＯライブラリ１２６を使用してアプリケー
ションプロセス１２０とディスクプロセス１２２との間
に送られるメッセージは、データを複製することなくプ
ロセスからプロセスへ送られる。プロセッサ１０８は、
ＣＰＵ１４２及びメモリ１４４をも含み、ＬＡＮコント
ローラ１４０を介してＬＡＮ１０５に接続されている。
メモリ１４４は、ＱＩＯ待ち行列１５１を含む共用メモ
リセグメント１５０を含んでいる。ＴＣＰ／ＩＰプロセ
ス１４６は、ＱＩＯライブラリルーチン１５２を使用し
て共用メモリセグメント１５０を通してＮＦＳディスト
リビュータプロセス１４８及びソフトウェアＬＡＮドラ
イバ１５８と連絡する。この場合もＱＩＯ共用メモリセ
グメント１５０を使用する連絡は、プロセス間でのデー
タのコピーイングを含まない。

【０００４】ＴＣＰ／ＩＰプロセス１４６及びＬＡＮ１
０５は、ＬＡＮドライバ１５８及びＬＡＮコントローラ
１４０によってデータを交換する。プロセス１２０は、
メッセージシステム（ＭＳ）１２８及び１５４、及びフ
ァイルシステム（ＦＳ）１３０及び１５６を使用して、
ＩＰＢ１０９を介してＴＣＰ／ＩＰプロセス１４６と連
絡する。ＱＩＯ連絡とは異なり、メッセージシステム及
びファイルシステムを使用する連絡は、データのコピー
イングを必要とする。以上説明したように、図１は、単
一のプロセッサ上でのプロセス間の連絡のためのＱＩＯ
共用メモリシステムを示している。共用メモリ待ち行列
システムは、単一のプロセッサ上のプロセス間の連絡の
動作速度を増加させ、従ってシステムの総合速度を増加
させる。更に共用メモリ待ち行列システムによれば、プ
ロセスを定義する場合に、プログラマは自由に垂直及び
水平の両モジュラリティを実現することができる。この
垂直及び水平モジュラリティの増加はプロセスの維持の
容易さを改善しながら、単一プロセッサ上のプロセス間
の、及び単一プロセッサ上のドライバ間のデータの転送
効率を向上させることができる。

【０００５】図２にコンピュータシステム２００を示
す。コンピュータシステムは、ノード２１０、２１１、
２１２、及び２１３を含んでいる。ノード２１０、２１
１、２１２、及び２１３は、ネットワーク（Ｔネット）
２２０によって相互接続されている。ノード２１０、２
１１、２１２、及び２１３は、それぞれディスクプロセ
ス２３０、アプリケーションサーバプロセス２３１、中
間プロトコルプロセス２３２、及びＴＣＰ／ＩＰ及びＡ
ＴＭドライバ２３３を走らせる。アプリケーションサー
バプロセス２３１は、Ｔネット２２０を通してデータに
関するユーザ要求を受け、ユーザへのそのデータの転送
を管理する。要求されたデータは一般に、ディスクコン
トローラ２４０のようなディスクコントローラを介して
のみアクセス可能なディスク上に存在している。実際に
は、ディスクコントローラ上のデータへのアクセスは、
特定のディスクプロセスによって調停される。ここで
は、ノード２１０上のディスクプロセス２３０がディス
クコントローラ２４０へのアクセスを調停する。ディス
クプロセス２１０は、ディスクコントローラ２４０に関
連付けられたディスクへの、及びディスクからのデータ
の転送の責を負っている。

【０００６】図２に示すシステム２００に関して、マル
チメディアアプリケーションは、データディスクからあ
る大量のデータ２６０、例えばＭＰＥＧビデオクリップ
を入手する必要があるものとする。またこのアプリケー
ションは、そのＭＰＥＧビデオクリップの個々のバイト
の何れをも（または少なくとも大部分を）調べたり、ま
たは変換したりする必要はないものとする。アプリケー
ションは、ネットワーク上の何処かのエンドユーザがそ
のビデオクリップを要求したので、データ２６０を探索
する。ユーザインタフェース及びアプリケーションサー
バプロセス２３１は、ＴＣＰ／ＩＰ上に実現されている
中間プロトコルを使用して連絡する。（ユーザインタフ
ェースは、アプリケーションプロセスであっても、また
は最小のソフトウェアを有するハードウェアデータであ
っても差し支えない。何れの場合であっても、ユーザイ
ンタフェースは図示してない。）従って、アプリケーシ
ョンサーバプロセス２３１からのメッセージには中間プ
ロトコル情報２６２を付加しなければならず、中間プロ
トコルプロセス２３２は中間プロトコルが要求した時
に、このようなヘッダ情報２６２を結び付ける責任を有
している。同様に、アウトバウンドメッセージ上にＴＣ
Ｐ／ＩＰプロトコル情報２６３をレイヤ（層）化しなけ
ればならず、ＴＣＰ／ＩＰプロトコルが要求すると、ノ
ード２１３内のＴＣＰ／ＩＰドライバプロセス２３３が
このＴＣＰ／ＩＰヘッダ２６３を供給する。従って、要
求があり次第、ディスクコントローラ２４０に関連付け
られたディスクからデータ２６０を転送するために、ア
プリケーションサーバプロセス２３１はディスクプロセ
ス２３０を使用してディスクからデータ２６０を検索
し、また中間プロトコルプロセス２３２及びＴＣＰ／Ｉ
ＰＡＴＭドライバプロセス２３３を使用してデータ２６
０をユーザインタフェースへ転送する。

【０００７】更に、アプリケーションプロセス２３１は
その機能の中で、アウトバウンドデータ２６０の始め
に、あるアプリケーションに特定のデータ２６１を付加
するものとする。要求中のユーザが使用するためにデー
タ２６０へのアクセスをディスクプロセス２３０が調停
していることをアプリケーションサーバプロセス２３１
が認識すると、アプリケーションサーバプロセス２３１
はそのデータ２６０を検索するためにＴネット２２０を
介してディスクプロセス２３０へメッセージを送る。デ
ィスクプロセス２３０はコマンドシーケンスを作成し、
ディスクコントローラ２４０はこのコマンドシーケンス
を受信すると、関心データを回復するための命令として
解釈する。ディスクプロセス２３０は、ディスクコント
ローラ２４０に指令してデータ２６０を副処理システム
（ノード）２１０のメモリ２５０内へ転送させる。ディ
スクコントローラ２４０は、指令されたデータ転送が成
功裏に完了すると、そのことをディスクプロセス２３０
に通報する。

【０００８】ディスクプロセス２３０自体は、データ転
送を成功裏に完了させたアプリケーションサーバプロセ
ス２３１に応答し、その応答内にデータ２６０のコピー
を含ませる。従って、要求されたデータ２６０はアプリ
ケーションサーバノード２１１内にコピーされる。当分
野に精通していれば、データ２６０をアプリケーション
サーバノード２１１のＴネットドライババッファ（図示
してない）からアプリケーションサーバプロセス２３１
のメモリ空間内へ転送するためには、若干のコピーが必
要であることは理解されよう。ディスクデータ２６０に
接するアプリケーションに特定のデータ２６１を作成す
るには、典型的には、更に別のコピーが必要である。し
かしながら、上述したＱＩＯシステムでは、多くのこれ
らのプロセッサ内コピーは必要とせず、プロセッサ間コ
ピーを全く不要にすることができる。

【０００９】実際に、組合わされたデータ２６１、２６
０は、別のプロセッサ間コピーによってノード２１１か
らノード２１２へ移送される。ノード２１２はその中間
プロトコルヘッダデータ２６２を、（多分データ２６
２、２６１、及び２６０のコピーによって）中間プロト
コルプロセス２３２のメモリ内の単一のバッファ内へ付
加する。組合わされたデータ２６１、２６０、２６０
も、別のプロセッサ間コピーによってノード２１２から
ノード２１３へ移送される。ＴＣＰ／ＩＰプロセス２３
３は、組合わされたデータ２６１、２６０、２６０をＴ
ＣＰ／ＩＰパケットサイズに分割し、適切な点において
ＴＣＰ／ＩＰヘッダ２６３ａ、２６３ｂ、、２６３ｎを
挿入することを望む。従って、ＴＣＰ／ＩＰプロセス２
３３は全ての、または少なくとも実質的に全ての組合わ
されたデータ２６１、２６０、２６０及びＴＣＰ／ＩＰ
ヘッダデータ２６３ａ、２６３ｂ、、２６３ｎをコピー
して断片化し、データを正しい順序でメモリ２５３内に
再構成する。

【００１０】（並行処理してシステム２００の処理能力
を増加させる理由から、レイヤ化したプロトコルの処理
を別の副処理システム内へ分離することをシステム設計
者が望むかも知れない。）より大きい故障許容を達成
し、メモリが隘路になることを回避するために、このよ
うな副処理システムは、この型のシステムのメモリを共
用しない。

【００１１】

【発明が解決しようとする課題】この技術のコンピュー
タシステムは、副処理システム間で５回、そして上述し
たようなＱＩＯを実現していない各副処理システム内で
典型的には更に２−４回にわたってディスクデータ２６
０をコピーする必要がある。コンピュータシステム２０
０は、プロセッサ間コピーイングを実行しないシステム
のレートの（最小で）５倍のメモリ帯域幅を消費する。
コピーイングはシステム２００の動作の潜在的な隘路に
なっており、Ｉ／Ｏ帯域幅、メモリ帯域幅を浪費し、そ
してターゲットＣＰＵ内にキャッシュミスをもたらす
が、これらは全て性能を低下させるものである。従っ
て、データのプロセッサ間コピーイングを回避し、しか
も共用メモリの隘路及び故障許容問題を回避するシステ
ムに対する要望が存在している。

【００１２】従って、本発明の目的は、プロセッサ内及
びプロセッサ間の両方において、データの不要なコピー
イングを排除したコンピュータシステムを提供すること
である。本発明のこの目的及び他の目的は、以上の従来
の技術の説明、及び以下の詳細な説明から容易に明白に
なるであろう。

【００１３】

【課題を解決するための手段】本発明の上記目的は、ネ
ットワークに対するノードとして結合されかつネットワ
ークにわたりメモリアドレスによりアクセス可能なデー
タ位置に結合された、関連メモリを有しているＩ／Ｏコ
ントローラ、ＣＰＵまたはメモリ装置の形の複数のデー
タソース／シンクを含む分散型メモリアーキテクチャを
有しているデータ処理システムにおいて、変形処理の間
に多重データソース／シンクのそれぞれにデータストリ
ームをコピーすることなく多重データソース／シンクを
用いてデータストリームを変形する方法であって、第１
のデータストリームが記憶される第１の記憶位置を指定
している第１のグローバルネットワークアドレスを含ん
でいる、第１のデータソース／シンクで、第１のポイン
タを生成し、第１のデータソース／シンクから第２のデ
ータソース／シンクへ第１のポインタだけを転送し、第
２のデータストリームが記憶される第２の記憶位置を指
定している第２のグローバルネットワークアドレスを含
んでいる第２のポインタを、第２のデータソース／シン
クで、生成し、かつ第１の連鎖ポインタを形成すべく該
第１及び第２のポインタを連鎖し、メッセージの第３の
データフラグメントを記憶している該第３のノードで、
第３のデータソース／シンクに第１の連鎖ポインタだけ
を転送し、かつ該メッセージを宛先に転送し、第１のデ
ータストリームを部分に分割するために第１のポインタ
を複数の２次ポインタに変形すべく、該第１のポインタ
を、第３のデータソース／シンクで、処理し、かつ第１
のデータストリームの各部分にプロトコルヘッダを連鎖
する段階を具備する方法によって達成される。

【００１４】本発明の方法では、第１、第２、第３及び
第４のデータソース／シンクでグローバルＩＯキューを
生成し、第１のポインタを第１のデータソース／シンク
から第２のデータソース／シンクへ転送する段階は、第
１のデータソース／シンクにおけるグローバルＩＯキュ
ーに第１のポインタを記憶し、第１のデータソース／シ
ンクにおけるグローバルＩＯキューから、第２のノード
にコピーされる第１のポインタだけを結果として生ずる
第２のデータソース／シンクにおけるグローバルＩＯキ
ューへ第１のポインタをキューイングする段階を更に具
備するようにしてもよい。また、本発明の上記目的は、
ネットワークに対するノードとして結合されかつネット
ワークにわたりメモリアドレスによりアクセス可能なデ
ータに結合された、関連メモリを有しているＩ／Ｏコン
トローラ、ＣＰＵまたはメモリ装置の形の複数のデータ
ソース／シンクを含む分散型メモリアーキテクチャを有
しているデータ処理システムにおける方法であって、複
数のデータソース／シンクの第１のもののデータバッフ
ァにディスクリプタをゲットし、データバッファのデー
タを転送することなくディスクリプタを複数のデータソ
ース／シンクの第２のものに置き、第２のデータソース
／シンクから複数のデータソース／シンクの第３のもの
にディスクリプタを置き、かつデータ入力または出力を
実行するために第１のデータソース／シンクから第３の
データソース／シンクへデータバッファのデータの一部
を検索する段階を具備する方法によって達成される。

【００１５】本発明の方法では、ディスクリプタをその
最初のデータソース／シンクにリターンし、かつディス
クリプタ及びそれが記述するメモリ領域の割り当てを解
除する段階を更に具備するようにしてもよい。更に、本
発明の上記目的は、ネットワークに対するノードとして
結合されかつネットワークにわたりメモリアドレスによ
りアクセス可能なデータに結合された、関連メモリを有
しているＩ／Ｏコントローラ、ＣＰＵまたはメモリ装置
の形の複数のデータソース／シンクを含む分散型メモリ
アーキテクチャを有しているデータ処理システムにおけ
る方法であって、複数のデータソース／シンクの第１の
もののデータバッファにディスクリプタをゲットし、デ
ータバッファのデータを転送することなくディスクリプ
タを複数のデータソース／シンクの第２のものに置き、
ディスクリプタを複数のディスクリプタに分割し、複数
のディスクリプタの一つを第２のデータソース／シンク
から複数のデータソース／シンクの第３のものに置き、
かつデータ入力または出力を実行するために第１のデー
タソース／シンクから第３のデータソース／シンクへ一
つのディスクリプタにより記述されたデータバッファの
データの一部を検索する段階を具備する方法によって達
成される。

【００１６】本発明の方法では、一つのディスクリプタ
をその最初のデータソース／シンクにリターンし、かつ
一つのディスクリプタ及びそれが記述するメモリ領域の
割り当てを解除する段階を更に具備するようにしてもよ
い。本発明の上記目的は、複数のデータソース／シンク
の第１のもののデータバッファにディスクリプタをゲッ
トし、データバッファのデータを転送することなくディ
スクリプタを複数のデータソース／シンクの第２のもの
に置き、第２のデータソース／シンクから複数のデータ
ソース／シンクの第３のものにディスクリプタを置き、
かつデータ入力または出力を実行するために第１のデー
タソース／シンクから第３のデータソース／シンクへデ
ータバッファのデータの一部を検索することにより、Ｉ
／Ｏコントローラ、ＣＰＵまたはメモリ装置の形の複数
のデータソース／シンクの中でデータＩ／Ｏを実行する
ためのコンピュータプログラムが配置されるデータスト
レージ用媒体によって達成される。

【００１７】本発明の上記目的は、複数のデータソース
／シンクの第１のもののデータバッファにディスクリプ
タをゲットし、データバッファのデータを転送すること
なくディスクリプタを複数のデータソース／シンクの第
２のものに置き、ディスクリプタを複数のディスクリプ
タに分割し、複数のディスクリプタの一つを第２のデー
タソース／シンクから複数のデータソース／シンクの第
３のものに置き、かつデータ入力または出力を実行する
ために第１のデータソース／シンクから第３のデータソ
ース／シンクへ一つのディスクリプタにより記述された
データバッファのデータの一部を検索することにより、
Ｉ／Ｏコントローラ、ＣＰＵまたはメモリ装置の形の複
数のデータソース／シンクの中でデータＩ／Ｏを実行す
るためのコンピュータプログラムが配置されるデータス
トレージ用媒体によって達成される。

【００１８】

【作用】一実施例において、本発明のデータ処理システ
ムは、ネットワークに対するノードとして結合されかつ
ネットワークにわたりアクセス可能なデータに結合され
た、関連メモリを有しているＩ／Ｏコントローラ、ＣＰ
Ｕまたはメモリ装置の形の複数のデータソース／シンク
を含む分散型メモリアーキテクチャを有しており、該複
数のデータソース／シンクの第１のもののデータバッフ
ァにディスクリプタをゲットし、該データバッファのデ
ータを転送することなく該ディスクリプタを該複数のデ
ータソース／シンクの第２のものに置き、該第２のデー
タソース／シンクから該複数のデータソース／シンクの
第３のものに該ディスクリプタを置き、かつ該第１のデ
ータソース／シンクから該第３のデータソース／シンク
へ該データバッファのデータの一部を検索する。

【００１９】

【実施例】図３に、以下に参考文献として概述する 199
5 年６月７日付米国特許出願第 08/485,217 号によるデ
ータ処理システム１０を示す。図３に示すように、デー
タ処理システム１０は、同一の構造の２つの副処理シス
テム１０Ａ及び１０Ｂからなっている。各副処理システ
ム１０は、中央処理ユニット（ＣＰＵ）１２、ルータ１
４、及び複数の入力／出力（Ｉ／Ｏ）パケットインタフ
ェース１６を含む。各Ｉ／Ｏパケットインタフェース１
６自体は、複数（ｎ）のＩ／Ｏデバイス１７及び保守プ
ロセッサ（ＭＰ）１８に接続されている。ＣＰＵ１２、
ルータ１４、及びＩ／Ｏパケットインタフェース１６
は、信頼されたネットワーク（Ｔネット）リンクＬによ
って相互接続されている。ＴリンクＬは、副処理システ
ム１０Ａ及び１０Ｂをも相互に接続しており、各副処理
システム１０に他のＩ／Ｏデバイスへのアクセスと、Ｃ
ＰＵ間連絡を与える。処理システム１０のどのＣＰＵ１
２も、他の何れのＣＰＵ１２のメモリへもアクセスする
ことができるが、このアクセスには検証を受けなければ
ならない。

【００２０】図３に（そして図４にも）示してあるよう
に、副処理システム１０Ａ／１０Ｂは対にすることが好
ましい。情報は、メッセージ「パケット」を介して、処
理システム１０の何れかの要素とシステムの何れかの他
の要素（例えば、副処理システム１０ＡのＣＰＵ１２
Ａ）、及びシステムの何れかの他の要素（例えば、副処
理システム１０ＢのＩ／Ｏパケットインタフェース１６
Ｂに関連するＩ／Ｏデバイス）との間で連絡される。各
パケットは、データまたはコマンドを含むことができる
記号からなる。各ルータ１４にはＴネットポートが設け
られており、各ポートは実質的に同一の構造である（本
発明には重要ではない幾つかの箇所を除く）。図４で
は、各ルータ１４Ａ及び１４Ｂの１つのポートを使用し
て対応する副処理システム１０Ａ及び１０Ｂを付加的な
副処理システム１０Ａ’及び１０Ｂ’に接続し、副処理
システム１０のクラスタからなる処理システム１０を形
成している。

【００２１】ルータ１４の設計、メッセージパケットを
経路指定するのに使用する方法、及びシステム１０のト
ポロジを構成する時のルータの賢明な使用によって、図
３の処理システム１０のどのＣＰＵ１２も、他のどの副
処理システムの他のどの「エンドユニット」（例えば、
ＣＰＵ及び／またはＩ／Ｏデバイス）にもアクセスする
ことができる。例えば、副処理システム１０ＢのＣＰＵ
１２Ｂは副処理システム１０Ａ”のＩ／Ｏ１６”にア
クセスでき、または副処理システム１０ＡのＣＰＵ１２
Ａは副処理システム１０ＢのＣＰＵ１２Ｂ内に含まれる
メモリにアクセスしてデータを読み出し、または書き込
むことができる。この後者の活動は、ＣＰＵ１２Ａ（副
処理システム１０Ａ’）が所望のアクセスを実行する許
可を有していなければならない。因みに、各ＣＰＵ１２
は、そのＣＰＵのメモリへのアクセスを許可されている
各要素毎のエントリと、許容されるアクセスの型とを含
む表を維持している。

【００２２】データ及びコマンドは、データ及びコマン
ド記号からなるパケットによって、種々のＣＰＵ１２と
Ｉ／Ｏパケットインタフェース１６との間で連絡され
る。ＣＰＵ１２は、何等かの外部構成要素との直接連絡
（Ｉ／Ｏパケットインタフェース１６を介して、例えば
別のＣＰＵ１２またはＩ／Ｏデバイス）から除外されて
いる。そうではなく、ＣＰＵ１２は、メモリ２８内にデ
ータ構造を構成し、インタフェースユニット２４（図
５）の制御を引き継ぐ。インタフェースユニット２４
は、メモリからのデータ構造にアクセスし、また適切な
行先へデータ構造を伝送することができる直接メモリア
クセス（ＤＭＡ）能力を有するように構成されたブロッ
ク転送エンジン（ＢＴＥ）を含んでいる。処理システム
１０の設計は、外部ソース（例えば、ＣＰＵ１２Ｂ及び
／またはＩ／Ｏデバイス）によってＣＰＵのメモリ２８
を読み出したり、メモリ２８へ書き込んだりすることが
できるようになっている。この理由から、ＣＰＵ１２の
メモリ２８の外部使用を許可制にするように注意を払わ
なければならない。

【００２３】ムービーオンデマンドシナリオ図６に、図３のコンピュータシステム１００をより特定
化したバージョンを示す。図６のコンピュータシステム
５００は、副処理システム５１０、５１１、５１２、及
び５１３を含んでいる。図６には示してないが、これら
の各副処理システム５１０、５１１、５１２、及び５１
３は、実際には前述したように対にされた副処理システ
ムを含んでいる。また図６には示してないが、各副処理
システム５１０、５１１、５１２、及び５１３は、前述
したようにそれぞれのルータ１４及びインタフェースユ
ニット２４を含んでいる。図６には、副処理システム５
１０、５１１、５１２、及び５１３を相互接続している
ＴネットリンクＬが、Ｔネットネットワーク５２０から
のリンクＬとして示されている。副処理システム５１
０、５１１、５１２、及び５１３は、それぞれディスク
プロセス５３０、アプリケーションサーバプロセス５３
１、中間プロトコルプロセス５３２、及びＴＣＰ／ＩＰ
及びＡＴＭドライバ５３３を走らせる。上述したよう
に、典型的なシステムでは、若干のプロセス５３０、５
３１、５３２、及び５３３は対にされている副処理シス
テム内で走るバックアッププロセスを有している。図６
では、これらの対にされたプロセスは、それらの主プロ
セスによって代表されている。以下に概要説明するムー
ビー（映画）オンデマンドシナリオでは、アプリケーシ
ョンサーバプロセス５３１はＴネット５２０を通してデ
ータ（例えば、映画のクリップ）に関するユーザの要求
を受け、そのデータのユーザへの転送を指令する。要求
されたデータは、一般的には、ディスクコントローラ５
４０のようなディスクコントローラを介してのみアクセ
ス可能なディスク上に存在している。実際には、ディス
クコントローラ上のデータへのアクセスは、特定のディ
スクプロセスによって調停される。ここでは、副処理シ
ステム５１０上のディスクプロセス５３０がディスクコ
ントローラ５４０へのアクセスを調停する。ディスクプ
ロセス５１０は、ディスクコントローラ５４０に関連付
けられたディスクへの、及びディスクからのデータの転
送の責を負っている。（システム５００は完全に故障許
容システムであるから、ディスクコントローラ５４０は
１対にされており、ディスクコントローラ５４０のディ
スクは典型的には鏡像化されている。システム５００の
故障許容面も簡易化された図６には示していない。）ユーザインタフェース及びアプリケーションサーバプロ
セス５３１は、ＴＣＰ／ＩＰ上に実現されているＲＰＣ
プロトコルを使用して連絡する。（ユーザインタフェー
スは、アプリケーションプロセスであっても、または最
小のソフトウェアを有するハードウェアデータであって
も差し支えない。何れの場合も、ユーザインタフェース
は図示してない。）従って、アプリケーションサーバプ
ロセス５３１からのメッセージにはＲＰＣプロトコル情
報５６２を付加しなければならず、中間プロトコルプロ
セス５３２はＲＰＣプロトコルが要求した時に、このよ
うなヘッダ情報５６２を結び付ける責任を有している。
同様に、アウトバウンドメッセージ上にＴＣＰ／ＩＰプ
ロトコル情報５６３をレイヤ化しなければならず、ＴＣ
Ｐ／ＩＰプロトコルが要求すると、副処理システム５１
３内のＴＣＰ／ＩＰドライバプロセス５３３がこのＴＣ
Ｐ／ＩＰヘッダ５６３を供給する。従って、要求があり
次第、ディスクコントローラ５４０に関連付けられたデ
ィスクからデータを転送するために、アプリケーション
サーバプロセス５３１はディスクプロセス５３０を使用
してディスクからデータ２６０を検索し、また中間プロ
トコルプロセス５３２及びＴＣＰ／ＩＰＡＴＭドライバ
プロセス５３３を使用してデータをユーザインタフェー
スへ転送する。

【００２４】更に、アプリケーションプロセス５３１は
その機能の中で、アウトバウンドデータの始めに、ある
アプリケーションに特定のデータ５６１を付加するもの
とする。この前置データは、例えばムービーの末尾空白
部分、良く知られた著作権警告、またテレビジョンモニ
タに接続されたビデオボックスに対するコマンドシーケ
ンスであることができる。要求中のユーザが使用するた
めにデータ５６０へのアクセスをディスクプロセス５３
０が調停していることをアプリケーションサーバプロセ
ス５３１が認識すると、アプリケーションサーバプロセ
ス５３１はそのデータ５６０を検索するためにＴネット
５２０を介してディスクプロセス５３０へメッセージを
送る。ディスクプロセス５３０はコマンドシーケンスを
作成し、ディスクコントローラ５４０はこのコマンドシ
ーケンスを受信すると、関心データを回復するための命
令として解釈する。しかしながら、データ５６０を副処
理システム５１０のメモリ５５０内へ、またはアプリケ
ーションサーバ副処理システム５１１のメモリ５５１内
へ転送するようにディスクコントローラに自動的に指令
するのではなく、命令シーケンスはデータ５６０をディ
スクプラッタからデータシンク内へ転送するようにディ
スクコントローラ５４０に指令する。

【００２５】データシンク及びソースデータシンク／ソース（“ＤＳＳ”）は、データを記憶
し、要求があり次第データを転送することができるどの
ようなデバイスであっても、またはデバイスの一部であ
ってもよい。データをディスクプラッタからＤＳＳへ移
動させることの直接的な利点は、ＤＳＳのアクセス時間
が殆ど確実に、ディスクプラッタからデータを検索する
ためのアクセス時間より優れていることである。ＤＳＳ
は、多くのオプションの何れか、即ちディスクコントロ
ーラ５４０自体内に含ませることができるメモリ５５
４、または副処理システム５１０、５１１、５１２、ま
たは５１３のそれぞれのメモリ５５０、５５１、５５
２、または５５３の何れかであることができる。データ
シンクも、ＡＴＭコントローラ５７０がメモリを有して
いることを条件として、ＡＴＭコントローラ５７０のメ
モリ５５５であることができる。別のオプションは「グ
ローバルメモリ」と名付けた新しい型のＤＳＳである。
グローバルメモリは、Ｔネット上の全ての連絡デバイス
が利用可能なＤＳＳである（米国特許出願第 08/485,21
7 号に開示されているように、もしデバイスが十分な特
権を有していれば）。図６は、グローバルメモリ５８０
を有するグローバルメモリを示している。メモリ５８０
は、メモリ５８０へのアクセスを調停するソフトウェア
プロセスが存在せず、メモリ５８０が主メモリとして組
合わされるプロセッサが存在せず、そしてメモリ５８０
が副メモリとして組合わされる主メモリ（ディスクコン
トローラ５４０に関連付けられているディスクプラッタ
のような）が存在しないことからグローバルなのであ
る。

【００２６】ＤＳＳの選択は、特定のアプリケーション
に依存する。設計のトレードオフによって、特定のシン
ク、シンクのクラス、またはある他のシンクのサブグル
ープを指定することができる。データを、ディスクコン
トローラ５４０のメモリ５５４内にではなく、グローバ
ルメモリ５８０内に配置することの主な利点は、グロー
バルメモリ５８０が提供する付加的なメモリまたはメモ
リ帯域幅が、等価の付加的なディスクコントローラより
も経済的であることである。同様に、グローバルメモリ
５８０の付加的なメモリ、またはメモリ帯域幅は、等価
の付加的な対にされた副処理システム（“ＳＰＳ”）５
１０のようなＳＰＳよりも明らかに経済的である。グロ
ーバルメモリ５８０のようなグローバルメモリによっ
て、システム設計者はディスクコントローラ及びサブプ
ロセッサのスケーリングには関係なくメモリ容量及び帯
域幅をスケールすることができる。また、システム設計
者は、ディスクをそのメモリ内へ渡すＳＰＳの性能に与
える負の衝撃を回避することができる。この負の衝撃
は、ディスクをＳＰＳメモリ内へ渡す際に含まれるメモ
リキャッシュ無効化及びフラッシングに起因している。

【００２７】データ５６０の行先が、データの元の要求
者（ここでは、アプリケーションサーバプロセス５３
１）またはデータの最終的な要求者（ここでは、ディス
クプロセス５３０）の制御内にない場合には、問題が発
生する。その問題とは、誰がディスク５６０の行先を決
定したのか？である。多くのオプションが利用可能であ
る。第１のオプションでは、ディスクプロセス５３０は
システム５００内の使用可能なグローバルメモリのどれ
か（例えば、グローバルメモリ５８０）を行先であると
決定し、データ５６０のための空間を整える。別のオプ
ションは、アプリケーションサーバプロセス５３０のた
めに、データ５６０を配置するが、ディスクプロセス５
３０のために実際の空間割当てを残すようにする使用可
能なグローバルメモリのどれかを決定するものである。
このシナリオでは、アプリケーションサーバプロセス５
３１はディスクプロセス５３０と選択したＤＳＳのアイ
デンティティを連絡し、割当てが実行されなかったこと
を指示する。最後のオプションとして、アプリケーショ
ンサーバプロセス５３１は、使用可能なデータシンクの
どれが行先であるかを決定した上で、その割当てを実行
する。割当てを実行し、グローバルポインタ（後述）に
よってその割当て情報をディスクプロセス５３０へ渡す
ことがアプリケーションサーバプロセス５３１の義務に
なり始める。これにより、ディスクプロセス５３０は、
要求されたデータの行先を選択する必要がないこと、及
び事前に割当てられた行先をそのディスクコマンドシー
ケンス内に組み込むことができることを知る。

【００２８】以上の説明から明らかなのは、グローバル
メモリ５８０のようなグローバルメモリは、そのメモリ
を管理するために十分な知能を有していなければならな
いこと、または、そのためにそのメモリを管理するプロ
セスの制御の下になければならないことである。この後
者のシナリオは、ディスクコントローラ５４０に関連す
るディスクプラッタのメモリを管理するディスクプロセ
ス５３０に類似している。前者は、それ自体のメモリ
（例えば、メモリ５５０）を管理する副処理システム
（例えば、副処理システム５１０）に類似しており、こ
の方が好ましい。どのグローバルメモリＤＳＳを使用す
るかを、アプリケーションサーバプロセス５３１のよう
なアプリケーションプロセスが決定できるようにしたこ
とから利点が得られる。アプリケーションプロセスは、
そのメモリ要求が時間を超えているものであることを理
解することができる。アプリケーションプロセスは、例
えばグローバルメモリのプールのある部分集合を管理す
るために探索し、若干のデータを事実上データキャッシ
ュとしてそれらの中に保持できる。ビデオオンデマンド
映画アプリケーションサーバプロセス５３１は、システ
ム内において使用可能なグローバルメモリを、多くのハ
ードウェアディスクにまたがって広がっている大きいキ
ャッシュとして取り扱うことができる。実際に、要求が
多いビデオをグローバルメモリ内に保持するようなクロ
スオーバ点に到達できる方が、その映画をディスク上に
保持するよりは経済的である。

【００２９】リファレンスによるデータＩ／Ｏディスクプラッタ上のデータ５６０を転送することを指
令するディスクコマンドシーケンスを受信するとディス
クコントローラ５４０は、データ５６０をディスクプラ
ッタから、選択されたＤＳＳ行先へ転送し、アプリケー
ションプロセス５３１とディスクプロセス５３０との間
に割当てる。ここでは、選択されたデータシンクがグロ
ーバルメモリ５８０であるものとする。グローバルメモ
リ５８０（または、ディスクコントローラ５４０）は、
指令されたデータ転送が成功裏に完了したことをディス
クプロセス５３０に通報する。ディスクプロセス５３０
自体は、要求されたデータがグローバルメモリ５８０内
に配置されたことをアプリケーションサーバプロセス５
３１に通報する。ディスクプロセス５３０がデータ５６
０の実際の行先を割当てた場合には、ディスクプロセス
５３０は、Ｔネット５２０上のデータ５６０のアドレス
を後述するグローバルポインタによってアプリケーショ
ンサーバプロセス５３１に連絡する。

【００３０】さて、グローバルポインタがデータ５６０
を指し示し、それ自体のアプリケーションに特定のデー
タ５６１がメモリ５５１内に存在すると、典型的なアプ
リケーションサーバプロセス５３１は、データ５６１、
５６０の２つの片をコピーして単一のバッファ内に連結
し、そのデータを中間プロトコルプロセス５３２へコピ
ー転送する。しかしながら本発明によれば、アプリケー
ションサーバプロセス５３１はそのようにはせず、デー
タ５６０を指し示すグローバルポインタ及びそのアプリ
ケーションに特定のデータ５６２を指し示す別のグロー
バルポインタを中間プロトコルプロセス５３２に渡す。
実際には、アプリケーションサーバプロセス５３１は、
物理的に隣接していないデータ５６１、５６０のブロッ
クを指し示すグローバルポインタを一緒に連鎖（チェー
ニング）することによって、論理的に（即ち、仮想の）
隣接したメモリのブロックを作成する。（事実、データ
５６１、５６０は、物理的に分離したＤＳＳ内に位置し
ていて物理的には隣接していない。）アプリケーション
サーバプロセス５３１は、このポインタのチェーンを中
間プロトコルプロセス５３２に渡すのである。

【００３１】中間プロトコルプロセス５３２自体は、デ
ータ５６１、５６０をそれ自体の関連メモリ５５２内へ
コピーすることを見合せる。その代わりに、プロセス５
３２は、データ５６１、５６０を指し示す２つのグロー
バルポインタを、中間プロトコルヘッダデータ５６２を
指し示す第３のグローバルポインタと共に、ＴＣＰ／Ｉ
Ｐプロセス５３３に渡す。それによって中間プロトコル
プロセス５３２は、データ５６１、５６０を検索するの
に必要なトランスネットワーク及びプロセッサ間のコピ
ーイングを回避している。プロセス５３２は、データを
ネットワークドライババッファから副処理シーケンス５
１０のオペレーティングシステムへ、更に中間プロトコ
ルプロセス５３２のメモリ空間内へ移動させるのに必要
なコピーイングをも回避する。

【００３２】ＴＣＰ／ＩＰプロトコルを処理するために
は、論理的に隣接するデータを伝送のためにパケットサ
イズ化したチャンク( chunk ) に分割し、各パケットに
はそれ自体のＴＣＰ／ＩＰヘッダを前置する必要があ
る。ＴＣＰ／ＩＰプロセス５３３は、Ｔネットポインタ
のチェーンを処理する。チェーンを歩きながらＴＣＰ／
ＩＰプロセス５３３は、論理的に隣接するデータ５６
２、５６１、５６０内のデータの第１のパケットサイズ
のチャンクのためのＴＣＰ／ＩＰヘッダ５６３ａを作成
し、データ５６２、５６１、５６０内の第２のチャンク
のためのＴＣＰ／ＩＰヘッダ５６３ｂを作成し、、デー
タ５６２、５６１、５６０内のデータの最後のチャンク
のための最後のＮ番目のＴＣＰ／ＩＰヘッダ５６３ｎを
作成する。これらのＴＣＰ／ＩＰヘッダはデータ５６
２、５６１、５６０の間に挿入しなければならないか
ら、ＴＣＰ／ＩＰプロセス５３３はデータ５６２、５６
１、５６０を指し示すグローバルポインタをＴＣＰ／Ｉ
Ｐパケットよりは大きくないデータを指し示す一連のポ
インタに変換しなければならない。各グローバルポイン
タは、その起点（オリジン）のＤＳＳのアイデンティテ
ィのアドレス、及びそのアドレスに位置するデータのサ
イズを含んでいる。５６２、５６１、５６０を指し示す
グローバルポインタを、一連のパケットサイズのデータ
に変換することに関しては後述する。これによりＴＣＰ
／ＩＰプロセス５３３は、データ５６２、５６１、５６
０のパケットを指し示すこの新しい一連の変換されたグ
ローバルポインタを渡して、ＴＣＰ／ＩＰヘッダ５６３
ａ、５６３ｂ、、５６３ｎを散在させることができるよ
うになる。

【００３３】中間プロトコルデータ５６２、アプリケー
ションに特定のデータ５６１、及びディスクデータ５６
０の第１の部分５６０’が一緒になって第１のパケット
を形成しているものとする。またディスクデータ５６０
の第２の部分５６０”が第２のパケットを構成している
ものとする。最後に、ディスクデータ５６０の最後の部
分５６０''' が伝送されるデータの最後のパケットを形
成しているものとする。ＴＣＰ／ＩＰプロセス５３３
は、ＴＣＰ／ＩＰヘッダデータ５６３ａ、中間プロトコ
ルヘッダデータ５６２、アプリケーションに特定のデー
タ５６１、ディスクデータ５６０’、ＴＣＰ／ＩＰヘッ
ダデータ５６３ｂ、ディスクデータ５６０”、、ＴＣＰ
／ＩＰヘッダデータ５６３ｎ、ディスクデータ５６
０''' を指し示すグローバルポインタのチェーンをＡＴ
Ｍコントローラ５７０へ渡す。

【００３４】ＡＴＭコントローラ５７０のプログラミン
グ及びシステム５００の動的な状態に依存する時点に、
ＡＴＭコントローラ５７０は、ＴＣＰ／ＩＰプロセス５
３３から受信したグローバルポインタのチェーンを通っ
て歩き、実際のデータ５６３ａ、５６２、５６１、５６
０’、５６３ｂ、５６０”、、５６３ｎ、５６０'''を
そのメモリ５５５内へ取り込む。ＡＴＭコントローラ５
７０は、ＴＣＰ／ＩＰプロトコル副処理システム５１３
からＴＣＰ／ＩＰヘッダデータ５６３ａ、５６３ｂ、、
５６３ｎを、中間プロトコル副処理システム５１２のメ
モリ５５２から中間プロトコルヘッダ５６２を、アプリ
ケーションサーバ副処理システム５１１のメモリ５５１
からアプリケーションに特定のデータ５６１を、そして
グローバルメモリ５８０からディスクデータ５６０’、
５６０”、、及び５６０''' を取り込む。

【００３５】要求されたデータの全てをその物理的メモ
リ内に有するＡＴＭコントローラ５７０はそれらのデー
タを伝送する。アプリケーションデータ５６１、中間プ
ロトコルヘッダデータ５６２、及びＴＣＰ／ＩＰプロト
コルヘッダデータ５６３の各々のコピーイングが１回だ
け存在していることに注目されたい。ディスクデータは
２回コピーされているが、ディスクコントローラ５４０
からグローバルメモリ５８０へのデータ５６０のコピー
イングは厳密にいえば必要ではない。従来の技術によれ
ば、システム５００と同一のハードウェア及びデータの
流れでは、アプリケーションデータ５６１は少なくとも
３回はコピーされ、中間プロトコルヘッダデータ５６２
は２回コピーされ、そしてディスクデータ５６０は６回
コピーされていた。ディスクデータ５６０が大きい（説
明しているムービーオンデマンドの場合のように）か、
または中間プロトコル副処理システムの数が大きいよう
な状況では、コピーイングの回数を減らすことは重大な
節約になる。これにより、このようなシステムが有して
いるメモリ隘路問題を伴うことなく、コストを共用メモ
リＭＰＰシステムのそれに接近させることができる。

【００３６】データ構造本発明のリファレンスによるデータＩ／Ｏを達成するた
めに、好ましい実施例に使用されているデータ構造及び
プロトコルを以下に説明する。先ず、データシンク／ソ
ース（ＤＳＳ）内のデータを指し示すリファレンスまた
はポインタが、ネットワークだけによってＤＳＳに接続
されるデバイス上のプロセスを意味することができるよ
うにするために、ネットワークにまたがるＤＳＳに特定
のアドレスを認識するための計画を実現しなければなら
ない。説明しているリファレンスによるデータＩ／Ｏ計
画では、これらのアドレスをグローバルアドレスと呼
ぶ。一実施例では、グローバルアドレスは、（１）ネッ
トワークＤＳＳのＩＤ、（２）そのＤＳＳによって認識
されるアドレスの組合わせである。ネットワークＤＳＳ
のＩＤは、ネットワーク内のＤＳＳとして機能している
全てのデバイスの間で独自のものである。

【００３７】この実施例では、特定のＤＳＳによって認
識されるアドレスは、その特定のＤＳＳのアドレス指定
計画に特定である。ＤＳＳは、仮想または物理的グロー
バルアドレスを維持することができる。例えば、ディス
クコントローラ５４０は、多分そのメモリ５４０に物理
的アドレスを維持している。グローバルアドレスが、あ
るプロセッサの仮想アドレス空間内に割当てられている
のか、またはオペレーティングシステムレベルグローバ
ルＱＩＯドライバの実アドレス空間内に割当てられてい
るのかに依存して、副処理システムはアドレスを仮想空
間内に、または実空間内に維持することができる。グロ
ーバルアドレスをＱＩＯドライバの実アドレス空間内に
維持すると、ハードウェア及びソフトウェアトランザク
ション費用が回避される。

【００３８】グローバルアドレスは、ネットワークにさ
れたデバイス間で渡されるグローバルＱＩＯデータ構造
内に組み込まれる。一実施例では、主グローバルＱＩＯ
データ構造は、待ち行列、メッセージ、メッセージディ
スクリプタ、及びバッファディスクリプタである。図７
に、本発明の実施例によるグローバルＱＩＯ待ち行列６
００を示す。待ち行列６００は、ネットワーク上の各Ｄ
ＳＳのメモリ内に存在する。待ち行列６００は、型６０
１、人が読むことができる待ち行列名６０２、最初のメ
ッセージポインタ６０４、最後のメッセージポインタ６
０６、メッセージカウント６０８、待ち行列属性６１
０、作成者プロセスＩＤ６１２、ユーザが限定した
「（）入手」機能を指し示すポインタ６１４、ユーザが
限定した「（）配置」機能を指し示すポインタ６１６、
及びユーザが限定した制御ブロックを指し示すポインタ
６１８を含んでいる。

【００３９】ディスクリプタの型６０１は、このデータ
構造が待ち行列であることを指示する。待ち行列名６０
２は、例えば「インバウンドグローバルＱＩＯ」のよう
な待ち行列名である。最初のメッセージポインタ６０４
は、二重にリンクされたメッセージ６２０のリスト内の
最初のメッセージの最初のメッセージディスクリプタ６
２２を指し示し、最後のメッセージポインタ６０６は、
二重にリンクされたメッセージ６２０のリスト内の最後
のメッセージの最初のメッセージディスクリプタ６２４
を指し示す。メッセージカウント６０８は、二重にリン
クされたリスト６２０内のメッセージの数を保持する。
待ち行列属性６１０は、待ち行列の属性、例えばそのイ
ンバウンド待ち行列上にデータが配置された時にプロセ
スを目覚めさせるべきかどうか、及びグローバルＱＩＯ
ライブラリ「（）メッセージ入手」機能の前に、後に、
またはその代わりにユーザが限定した「（）入手」機能
を呼出すかどうか、を含む。（グローバルＱＩＯライブ
ラリ機能に関しては後述する。）作成者プロセスＩＤ６
１２は、その待ち行列を作り出したプロセスのＩＤであ
る。グローバルＱＩＯライブラリは、ある待ち行列が空
でなくなった時にこのプロセスを目覚めさせることがで
きる。

【００４０】ポインタ６１４は、あるプロセスがその待
ち行列６００からあるメッセージを入手するためにグロ
ーバルＱＩＯライブラリ「メッセージ（）入手」機能を
呼出すと実行されるユーザが限定した「（）入手」機能
を指し示す。ユーザが限定した「（）入手」機能によ
り、グローバルＱＩＯライブラリにおける標準「入手」
機能に加えて、またはそれの代わりに、ユーザが限定し
た機能を実行させることが可能になる。例えば、もし待
ち行列６００がＩ／Ｏドライバのためのインバウンド待
ち行列であれば、ユーザが限定した「（）入手」機能は
そのドライバによってＩ／Ｏ動作を開始することができ
る。ドライバは多くの未解決Ｉ／Ｏを追跡することも、
また「入手」が実行された時にこの数を調整することも
できる。別の例として、「（）入手」は、その待ち行列
を作り出したプロセスによって準備（ハウスキーピン
グ）ルーチンを実行させることができる。

【００４１】ポインタ６１６は、ポインタ６１４の機能
と並行する手法で処理されるユーザが限定した「（）配
置」機能を指し示す。例えば、ＬＡＮドライバに関連す
る待ち行列では、「（）配置」機能は移送レイヤルーチ
ンを呼出して情報をＴネット５２０へ出力することがで
きる。ポインタ６１８は、ユーザが限定した制御ブロッ
クを指し示す。典型的には、この制御ブロックは、ユー
ザが限定した「（）配置」及び「（）入手」機能の一方
または両方によって必要とされる。例えば、制御ブロッ
クは、情報が待ち行列システムに送られる時に情報を出
力するドライバのためのものであってよい。図８に、図
７の二重にリンクされたリスト６２０内に記憶されてい
るメッセージ７００のフォーマットを示す。メッセージ
は、リンクされたメッセージディスクリプタからなり、
図７のリスト６２０内へリンクされる。図８は、リンク
されたリスト内にポインタ７１４によって結合されてメ
ッセージを形成するメッセージディスクリプタ６２２及
び６２２’を示している。メッセージディスクリプタ
は、ディスクリプタ型７０４、次のメッセージポインタ
７１０、先行メッセージポインタ７１２、継続メッセー
ジのメッセージディスクリプタポインタ７１４、バッフ
ァディスクリプタポインタ７１６、ユーザデータ読み出
しポインタ７１８、ユーザデータ書き込みポインタ７２
０、及び戻り待ち行列ポインタ７２２を含む。メッセー
ジディスクリプタは、ポインタ７１８、７２０にそれぞ
れ関連する長さ７１９、７２１をも含む。

【００４２】図８においては、メッセージディスクリプ
タ６２２及び６２２’が単一のメッセージを形成してい
る。ディスクリプタ型７０４は、データ構造がメッセー
ジディスクリプタであることを指示する。次のメッセー
ジポインタ７１０は、二重にリンクされたリスト６２０
内に記憶されている次のメッセージの最初のメッセージ
ディスクリプタ６２４を指し示す。先行メッセージポイ
ンタ７１２は、二重にリンクされたリスト６２０内に記
憶されている先行メッセージの最初のメッセージディス
クリプタを指し示す。継続メッセージのメッセージディ
スクリプタポインタ７１４は、現メッセージ内の次のメ
ッセージディスクリプタ６２２を指し示す。分散したデ
ータを表すには複数のメッセージディスクリプタが必要
であり、以下に説明するように単一のメッセージは、異
なる位置にあるデータを指し示す複数のメッセージディ
スクリプタを含むことができる。バッファディスクリプ
タポインタ７１６は、バッファディスクリプタ７３０を
指し示す。バッファディスクリプタ７３０はデータバッ
ファ７４０を指し示す。

【００４３】ユーザデータ読み出しポインタ７１８はバ
ッファ７４０を指し示すポインタであり、データバッフ
ァ７４０において読み出しを開始すべき（または、停止
した）ことを指示する。同様に、ユーザデータ書き込み
ポインタ７２０はバッファ７４０を指し示すポインタで
あり、データバッファ７４０において書き込みを開始す
べき（または、停止した）ことを指示する。長さ７１
９、７２１はそれぞれ、読み出しポインタ７１８から読
み出し、または書き込みポインタ７２０へ書き込むこと
ができるデータの最大量を指示する。戻り待ち行列ポイ
ンタ７２２は、戻り待ち行列（図示してない）を指し示
す。グローバルＱＩＯライブラリルーチンを介してメッ
セージディスクリプタが戻された時（即ち、メッセージ
の処理が完了した時）戻されたメッセージディスクリプ
タは、もし戻り待ち行列が指定されていれば、戻り待ち
行列上に配置される。例えば、プロセスは送ったメッセ
ージをカウントする必要があるかも知れない。待ち行列
６００から除かれた時にメッセージディスクリプタ６２
２を自由メッセージプール内へ配置する代わりに、ある
プロセスによるさらなる処理のために、メッセージディ
スクリプタ６２２は戻り待ち行列上に配置される。メッ
セージ７００内の他のメッセージディスクリプタ６２
２’は、異なる副戻り待ち行列ポインタ７２２’、また
は「空」（ヌル）戻り待ち行列ポインタを有することが
できる。これらの副戻り待ち行列ポインタは、直ぐにア
プリケーションに従ってプロセスによって処理される。
メッセージディスクリプタのための戻り待ち行列は通常
は、その現在の使用のためにメッセージディスクリプタ
を始めに割当てたＤＳＳ上にある。

【００４４】図９に、本発明の実施例によるバッファデ
ィスクリプタ７３０のフォーマットを示す。バッファデ
ィスクリプタ７３０は、図８のメッセージ７００の一部
である。ディスクリプタ型８０２は、データ構造がバッ
ファディスクリプタであることを指示する。バッファデ
ィスクリプタ７３０は、データバッファベースポインタ
８０８、データバッファ限界ポインタ８１０、及びリフ
ァレンスカウント８１２を含む。データバッファベース
ポインタ８０８は、メモリ内のデータバッファ８４０の
ベースを指し示す。データバッファ限界ポインタ８１０
は、データバッファ８４０の終わりを指し示す。リファ
レンスカウント８１２は、特定のバッファディスクリプ
タ７３０を指し示すバッファディスクリプタポインタ７
１６の数をカウントする。

【００４５】待ち行列６００は、それを作成したＤＳＳ
に対してローカルである。待ち行列６００データ構造
は、別のネットワークされたＤＳＳとは連絡しない。従
って、各ポインタ６０４、６０６、６１４、６１６、及
び６１８は、グローバルアドレスではなく、ローカルア
ドレスである。しかしながら、メッセージディスクリプ
タ６２２はネットワークされたＤＳＳの間に渡される。
従って、バッファディスクリプタポインタ７１６、及び
ユーザデータ読み出しポインタ７１８及び書き込みポイ
ンタ７２０は、それらを生成したＤＳＳによって解釈さ
れるグローバルポインタである。当分野に精通していれ
ば理解されるように、メッセージディスクリプタ６２２
がネットワークされたデバイス間で連絡される場合、メ
ッセージディスクリプタ６２２の若干のフィールドを省
略することができる。これらのフィールドは、例えば、
次のメッセージポインタ７１０、先行メッセージポイン
タ７１２、及び継続メッセージのメッセージディスクリ
プタポインタ７１４を含む。受信中のネットワークされ
たデバイス上のグローバルＱＩＯライブラリは、待ち行
列上のメッセージにメッセージディスクリプタを配置す
る際にこれらのフィールドを生成することができる。こ
れらのフィールドを有していないメッセージディスクリ
プタを、メッセージディスクリプタのグローバル形と名
付け、型７０４はこれらの省略を反映するように変更す
ることができる。

【００４６】反対に、ＤＳＳ間で連絡する時に、バッフ
ァディスクリプタポインタ７１６、データ読み出しポイ
ンタ７１８、書き込みポインタ７２０、対応する長さフ
ィールド７１９、７２１、戻り待ち行列ポインタ７２
２、及び検査合計７２４をメッセージディスクリプタ６
２２のグローバル形に含ませる。バッファディスクリプ
タ７３０は、ネットワークにまたがって連絡されること
はない。データバッファベースポインタ８０８は、デー
タバッファ７４０の読み出しまたは書き込みには無関係
である。読み出し及び書き込みポインタは、メッセージ
ディスクリプタ６２２のユーザデータ読み出しポインタ
７１８及び書き込みポインタ７２０内に供給される。同
様に、データバッファ限界ポインタ８１２は、ネットワ
ークにまたがるバッファの読み出し及び書き込みには無
関係である。以下に説明するプロトコルに従って、完全
挙動の読み出しまたは書き込みプロセスは、指定された
長さのデータバッファ７４０を要求し、そのデータバッ
ファ７４０の完全挙動のアロケータはユーザデータ読み
出しポインタ７１８または書き込みポインタ７２０が少
なくとも指定された長さであるデータバッファ７４０の
セグメントを指し示すことを保証する。（指定された長
さがメッセージディスクリプタのチェーンにまたがって
分散している場合には、完全挙動のアロケータはユーザ
データ読み出しポインタのチェーンが、一緒になって少
なくとも指定された長さであるデータバッファ７４０の
セグメントを指し示すことを保証する。）

【００４７】プロトコルメッセージをベースとする連絡システム５００の何れか２つの構成要素間（例えば、第
１のＳＰＳと第２のＳＰＳとの間、またはＳＰＳとグロ
ーバルメモリとの間）の連絡は、パケット内に含まれる
低レベルメモリを形成して伝送することによって実現さ
れる。（低レベルメモリは、説明中のグローバルＱＩＯ
システムのメモリとは異なる。）これらのパケットは、
システムエリアネットワーク構造、即ちＴネット５２０
によって送信（またはソース）構成要素から行先構成要
素まで伝送される。システム構成要素、即ち、ルータ１
４及びインタフェースユニット２４（ＢＴＥＤＭＡエ
ンジンを含む）が、どのように共働してこの連絡を達成
するかは、米国特許出願第 08/485,217 号に詳細開示さ
れている。本明細書では、読み出し要求を伝送するには
ＨＡＣパケットが使用され、書き込みデータの連絡には
ＨＡＤＣパケットが使用されることを知れば十分であ
る。

【００４８】グローバルＱＩＯグローバルＱＩＯライブラリは、以下のソフトウェアエ
ントリ点を含む。各エントリ点に関しては後述する。＊グローバルＱＩＯ待ち行列作成＊グローバルＱＩＯ待ち行列削除＊メッセージディスクリプタ入手＊メッセージディスクリプタ複製＊メッセージ戻し＊メッセージ複製＊グローバルＱＩＯ待ち行列からメッセージを入手＊グローバルＱＩＯ待ち行列上へメッセージを配置プロセスは、「待ち行列（）作成」手順を呼出し、グロ
ーバルＱＩＯライブラリを有する名付けられた待ち行列
を登録し、インバウンド及びアウトバウンド待ち行列を
作成する。従って、呼出しプロセスはポートの名前を渡
し、「待ち行列（）作成」ルーチンはそのポートのため
のインバウンド及びアウトバウンド待ち行列の待ち行列
ＩＤ、及びモジュールＩＤを戻す。プロセスが「待ち行
列（）作成」ルーチンの呼出しに成功すると、プロセス
は次に「メッセージ（）配置」ルーチン及び「メッセー
ジ（）入手」ルーチン（何れも後述）を呼出す。

【００４９】相応して、プロセスは「待ち行列（）削
除」グローバルＱＩＯライブラリルーチンを呼出すこと
ができる。この機能は、グローバルＱＩＯライブラリか
ら登録を抹消する。プロセスは、インバウンド及びアウ
トバウンド待ち行列の待ち行列ＩＤを登録抹消するよう
に渡す。登録を抹消した後は、プロセスは最早、識別さ
れていない待ち行列を介して、アウトバウンドメッセー
ジを送ったり、またはインバウンドメッセージを受けた
りすることはできない。「メッセージ（）配置」ルーチ
ンは、指定されたメッセージを指定された待ち行列上へ
配置する。メッセージ及び待ち行列が同一のＤＳＳ上に
ある場合には、「メッセージ（）配置」は殆ど付録Ａに
記載されているように動作する。メッセージ及び待ち行
列が同一のＤＳＳ上にない場合には、低レベルメッセー
ジパケットシステムが呼出され、指定されたメッセージ
のグローバル形をメッセージのＤＳＳから待ち行列のＤ
ＳＳへ転送する。メッセージは始めのＤＳＳ上で自由に
なる。

【００５０】「メッセージディスクリプタ（）入手」エ
ントリ点は、（少なくとも）指定された長さのデータバ
ッファを指し示すデータバッファポインタを含む、メッ
セージディスクリプタを指し示すポインタを戻す。従っ
て、「メッセージディスクリプタ（）入手」エントリ点
は、引き数としてモジュールＩＤ及びデータバッファ長
を取り、ポインタをメッセージディスクリプタへ戻す。
実際には、「メッセージディスクリプタ（）入手」を呼
出しているＤＳＳまたはプロセスはグローバルＱＩＯラ
イブラリを要求し、指定された長さのデータバッファを
割当て、新たに割当てられたデータバッファへの点に初
期化されたバッファディスクリプタを割当て、そして新
たに割当てられたバッファディスクリプタへの点と、デ
ータバッファ内の書き込み位置への点とに初期化された
メッセージディスクリプタを割当てる。

【００５１】（現在使用されているデータバッファが、
その後の「メッセージディスクリプタ（）入手」要求を
満足するのに十分に大きい未割当て部分を有している場
合には、そのデータバッファのその（未割当て部分）を
使用して、その多分関係のない「メッセージディスクリ
プタ（）入手」要求を満足させることができる。）好ましい実施例では、自由メッセージディスクリプタ
は、自由メッセージディスクリプタリスト上に維持され
ている。このような自由リストの管理は公知である。
「メッセージディスクリプタ（）複製」ルーチンは、指
定されたメッセージディスクリプタの複製を戻す。従っ
て、「メッセージディスクリプタ（）複製」ルーチン
は、引き数としてモジュールＩＤと、メッセージディス
クリプタを指し示すポインタとを取ってメッセージディ
スクリプタを指し示すポインタを戻す。戻されたメッセ
ージディスクリプタは、指定された始めのメッセージデ
ィスクリプタと同じバッファディスクリプタ及びデータ
を指し示し、そのバッファディスクリプタのリファレン
スカウントを、複製による１だけ増加させる。複製メッ
セージディスクリプタは自由メッセージディスクリプタ
リストから入手される。

【００５２】基礎となるバッファディスクリプタのリフ
ァレンスカウントは更新しなければならない。この更新
は、メッセージディスクリプタの原点であるＤＳＳにリ
ファレンスカウントを更新するように要求することによ
って、またはメッセージディスクリプタをその原点のＤ
ＳＳ上へ戻して配置し、そのＤＳＳにメッセージディス
クリプタを複製し、元に戻して配置し、そして複製する
ことによって達成することができる。グローバルＱＩＯ
ライブラリは、対応する「メッセージディスクリプ
タ（）戻し」ルーチンを含んでいる。このルーチンは、
呼出し中のＤＳＳ上のメッセージディスクリプタを（そ
のメッセージディスクリプタを現在の使用のために始め
に割当てた）ＤＳＳ上のメッセージディスクリプタの自
由リストへ移動させる。しかしながら、もしそのメッセ
ージディスクリプタの戻り待ち行列ポインタが「空」で
なければ、ルーチンはそのメッセージディスクリプタを
指示された戻り待ち行列へ戻す。「メッセージディスク
リプタ（）戻し」ルーチンは引き数として、モジュール
ＩＤと、戻すべきメッセージディスクリプタを指し示す
ポインタとを取る。

【００５３】発信ＤＳＳ上では、バッファディスクリプ
タのリファレンスカウントが１だけデクレメントされ
る。それは、１つ少ないメッセージディスクリプタがそ
のバッファディスクリプタを指し示しているからであ
る。もしリファレンスカウントが０に達していれば、デ
ータバッファディスクリプタは自由データバッファのプ
ールへ戻される。（以下の「データバッファ（）戻り」
をリファレンスされたい。）「メッセージ（）戻し」ルーチンは、「メッセージディ
スクリプタ戻し」ルーチンの再帰的バージョンである。
「メッセージ戻し」は、識別されたメッセージディスク
リプタが先頭に立っているメッセージディスクリプタの
チェーンを歩き、ヘッドメッセージディスクリプタを何
れかの継続メッセージディスクリプタからアンリンクし
（即ち、ヘッドメッセージディスクリプタの継続メッセ
ージのメッセージディスクリプタポインタを空にし）、
継続メッセージのメッセージディスクリプタがそれ以上
存在しなくなるまでヘッドメッセージディスクリプタを
適切な戻り待ち行列へ戻す。

【００５４】「メッセージ（）複製」ルーチンは、メッ
セージ全体を複製する。「メッセージ複製」は引き数と
してモジュールＩＤと、メッセージのヘッドメッセージ
ディスクリプタを指し示すポインタとを取り、複製メッ
セージ構造のヘッドメッセージディスクリプタを指し示
すポインタを戻す。メッセージ全体は、元のメッセージ
のヘッドメッセージディスクリプタから開始し、それに
続く継続メッセージのメッセージディスクリプタポイン
タによって連鎖されている全てのメッセージディスクリ
プタが複製される（但し、データを除く）。メッセージ
ディスクリプタの複製を考慮して、各元のメッセージデ
ィスクリプタによって指し示されるバッファディスクリ
プタのリファレンスカウントが１だけインクリメントさ
れる。プロセッサ内シナリオにおけるＱＩＯライブラリ
に関する仕様書である付録Ａを読めば、これらのユニプ
ロセッサＱＩＯルーチンのグローバルＱＩＯライブラリ
への適用、及び付録Ａに詳細記述されている実施例を組
み込むためのグローバルＱＩＯ計画の延長は、ルーティ
ニアにも容易に理解されよう。詳しく述べれば付録Ａ
は、ドライバの登録及び登録抹消、メッセージディスク
リプタの入手及び複製、メッセージまたはメッセージデ
ィスクリプタの戻し、メッセージの複製、及びメッセー
ジの待ち行列からの入手及び該待ち行列上への配置に関
する付加的な詳細を提供している。付録Ａは、ドライバ
情報の入手、ある事象のポスティング、モジュールＩＤ
の作成及び削除、あるモジュールの限界の設定、プール
の入手及び配置、ある待ち行列内のメッセージディスク
リプタのカウンティング、待ち行列の作成及び削除、セ
グメントの取付け、ＩＯＰＲＭ空間の入手、及びＩＯＰ
ＲＭ空間の戻しに関する詳細をも提供している。

【００５５】メッセージディスクリプタ目的別のプロトコルはメッセージディスクリプタの特徴付け
を含む。一実施例では、目的向きプログラミングの点か
ら、メッセージディスクリプタのグローバル形が目的で
ある。目的の操作には、所定の機能、方法（Ｃ＋＋語で
の）、またはインタフェース（ＣＯＭ／ＯＬＥ語での）
だけが使用できる。メッセージディスクリプタ及びそれ
らが含むグローバルポインタへのアクセスを制限するこ
とは、Ｔネット中のメモリの変造に対する付加的な安全
尺度である。一実施例では、メッセージまたはメッセー
ジディスクリプタを操作するのに次の機能が使用可能で
ある。＊メッセージによって指し示されているデータのサイ
ズを戻す（「メッセージサイズ（）戻し）」、＊メッセージディスクリプタによって指し示されてい
るデータのサイズを戻す（「メッセージディスクリプタ
サイズ（）戻し）」、＊メッセージディスクリプタを複数のメッセージディ
スクリプタに分割する（「メッセージディスクリプ
タ（）分割」）「メッセージディスクリプタ（）分割」は、引き数とし
てメッセージディスクリプタ及びデータバッファサイズ
のアレイまたはリストを取る。ルーチンは、同一バッフ
ァディスクリプタを有しているがデータバッファサイズ
によって指定されたオフセット及び長さを有している新
たに割当てられたメッセージディスクリプタのアレイま
たはリストを戻す。これらの新たに割当てられたメッセ
ージディスクリプタは、ユーザによって与えられた仕様
に適合するように調整されたユーザデータ読み出しポイ
ンタ及び長さを用いて「メッセージディスクリプタ（）
複製」を分離して呼出した結果である。従って元の、及
び全ての複製メッセージディスクリプタは同一の構成要
素バッファディスクリプタを有し、この構成要素バッフ
ァディスクリプタのリファレンスカウントは相応して影
響を受けている。

【００５６】例えば、もしｍｄｐｔｒが 100ＫＢのデ
ータのためのメッセージディスクリプタであるものとす
れば、呼出し、「メッセージディスクリプタ（ｍｄｐ
ｔｒ，15, 50, 35, 0 ）分割」は、３つのメッセージデ
ィスクリプタのアレイを戻す。第１のメッセージディス
クリプタはデータの最初の 15 バイトを指し示すユーザ
読み出しデータポインタを有し、第２のメッセージディ
スクリプタはデータの次の 50 バイトを指し示すユーザ
読み出しデータポインタを有し、そして第３のメッセー
ジディスクリプタはデータバッファの最後の 35 バイト
を指し示すユーザ読み出しデータポインタを有してい
る。勿論、関連長さフィールドは相応にセットされてい
る。４つのメッセージディスクリプタは全て同一のデー
タバッファを指し示しているので、バッファディスクリ
プタのリファレンスカウントは３だけ、例えば１から４
へインクリメントされる。

【００５７】最後に、「（）読み出しのための変換」ル
ーチンが設けられており、指定されたメッセージディス
クリプタ内のグローバルポインタによって指し示されて
いる実際のデータを読み出すために、指定されたメッセ
ージディスクリプタを、呼出しＤＳＳのルータ、インタ
フェースユニット、及びＢＴＥが必要とするどのような
形にも変換して戻すようになっている。データは原点の
ＤＳＳから、ルーチンの呼者であるＤＳＳ内へ読み出さ
れる（対応する「（）書き込みのための変換」ルーチン
が存在することができる。）再びムービーオンデマンドシナリオ先に説明したムービーオンデマンドシナリオにおいて説
明したデータ構造及びプロトコルの使用を以下に説明す
る。グローバルＱＩＯデータ構造を１つのＤＳＳから別
のＤＳＳへ移動させるとすれば、前述した低レベルのメ
ッセージをベースとする連絡システムを使用してそのデ
ータ構造をＤＳＳ間で（典型的には「メッセージ（）配
置」を使用して）連絡することは直ちに理解されよう。

【００５８】再び、アプリケーションサーバプロセス５
３１が、ディスクからデータ５６０を検索するためにデ
ィスクプロセス５３０を使用し、データ５６０をユーザ
インタフェースへ転送するために中間プロセス５３２及
びＴＣＰ／ＩＰ及びＡＴＭドライバプロセス５３３を使
用するものとする。また、アプリケーションプロセス５
３１は、あるアプリケーションに特定のデータ５６１を
アウトバウンドデータ５６０の始めに付加するものとす
る。データ５６０のサイズは、例えば 100キロバイト
（ＫＢ）である。リファレンスによるデータＩ／Ｏ計画
に関与している各ＤＳＳは、グローバルＱＩＯライブラ
リを有している。グローバルＩ／Ｏメモリ５８０、ディ
スクプロセスＳＰＳ５１０、アプリケーションサーバ
プロセス５１１、中間プロトコルプロセスＳＰＳ５１
２、ＴＣＰ／ＩＰ及びＡＴＭドライバＳＰＳ５１３、
及びＡＴＭコントローラ５７０は、各々その関与グロー
バルＱＩＯライブラリの「待ち行列（）作成」ルーチン
を呼出し、受信グローバルＱＩＯメモリのためのインバ
ウンド待ち行列を作成する。このサービスは、例えば各
ＤＳＳ上の「データＩ／Ｏ」と名付けられる。これによ
り、リファレンスによるデータＩ／Ｏに関与しているＴ
ネット上のどのＤＳＳも、これもリファレンスによるデ
ータＩ／Ｏに関与しているＴネット上の他のどのＤＳＳ
のＱＩＯ待ち行列をも操作することができる。

【００５９】更に、ディスクプロセス５３０は、そのグ
ローバルＱＩＯライブラリルーチン「待ち行列（）作
成」を呼出して受信ディスクワーク( diskwork )要求の
ためのインバウンド及びアウトバウンド待ち行列を作成
する。このサービスを、例えば「ディスクワーク」と名
付ける。これによりディスクプロセスＳＰＳ５１０上
の他のどのプロセスも、及びＴネット上のどのＤＳＳ
も、ディスクプロセス５３０に待ち行列ワーク要求を指
令して、ディスクコントローラ５４０に関連しているデ
ィスクを読み出し、またはディスクへ書き込むことが可
能になる。ディスクプロセス５３０が作成したグローバ
ルＱＩＯ待ち行列を使用するために探索中のプロセスま
たはＤＳＳは、グローバルＱＩＯの「ディスクワーク」
名を知る。アプリケーションサーバプロセス５３１は、
ディスクワーク要求をインバウンド「ディスクワーク」
グローバルＱＩＯ待ち行列上で待合わせることによっ
て、最終的にディスクプロセス５３０のワーク要求を作
る。このワーク要求はデータ５６０のためのものであ
る。しかしながら、アプリケーションサーバプロセス５
３１は、先ず、データ５６０を受信するためにそれ自
体、またはディスクプロセス５３０の何れをデータバッ
ファに割当てるのかを決定する。一方、もしアプリケー
ションプロセス５３１がデータバッファに割当てられて
いれば、アプリケーションプロセス５３１は、例えばグ
ローバルＩ／Ｏメモリ５８０上に 100ＫＢのデータ５６
０を配置することを決定する（プログラマがどのような
規則を設けようとも）。アプリケーションプロセス５３
１は、グローバルＩ／Ｏメモリ５８０の「データＩ／
Ｏ」グローバルＱＩＯ待ち行列上でのグローバルＩ／Ｏ
メモリ５８０の「メッセージディスクリプタ（）入手」
の実行要求を待合わせるために、その「メッセージ（）
配置」を実行する。それによってアプリケーションプロ
セス５３１は、グローバルＩ／Ｏメモリメッセージディ
スクリプタを 100ＫＢサイズのバッファに要求する。

【００６０】グローバルＩ／Ｏメモリ５８０の「データ
Ｉ／Ｏ」ドライバは、「メッセージ（）入手」を実行
してアプリケーションプロセス５３１の要求を検索し、
最終的には「メッセージディスクリプタ（）入手」を実
行して要求された割当てを実行する。アプリケーション
サーバプロセス５３１の要求を完了させると、グローバ
ルＩ／Ｏメモリ５８０の「データＩ／Ｏ」ドライバ
は、「メッセージ（）配置」を実行して 100ＫＢバッフ
ァを指し示す新たに割振られたメッセージディスクリプ
タを戻す。「メッセージ（）配置」は、メッセージディ
スクリプタ（のグローバル形）のコピーをインバウンド
「データＩ／Ｏ」グローバルＱＩＯ待ち行列上へ配置
する。アプリケーションプロセス５３１は、「メッセー
ジ入手」を実行して新たに割当てられたメッセージディ
スクリプタのコピーを検索し、次いでデータバッファを
指し示すユーザデータ書き込みグローバルポインタを、
データ５６０のためのそのワーク要求内に組み込むこと
ができる。このワーク要求はディスクプロセス５３０へ
伝送される。

【００６１】簿記に関していえば、複数のＤＳＳにまた
がって実行される「メッセージ（）配置」は、メッセー
ジのコピー（のグローバル形）を受信ＤＳＳへ送って
「メッセージ（）戻し」を実行することを呼出しＤＳＳ
に要求する。受信ＤＳＳ自体は、メッセージディスクリ
プタを割当てて送信されたコピーを受信し、メッセージ
ディスクリプタを行先グローバルＱＩＯ待ち行列上に配
置する。実際には、メッセージディスクリプタは送信Ｄ
ＳＳ上の待ち行列から受信ＤＳＳ上の待ち行列へ移動さ
れる。従って、新しいメッセージのバッファディスクリ
プタのためのリファレンスカウントは、それらが送信Ｄ
ＳＳ上にあった時と同一、即ち１である。同様にして、
「メッセージディスクリプタ（）入手」呼出しによって
割当てられたメッセージディスクリプタは、グローバル
Ｉ／Ｏメモリ５８０からアプリケーションサーバプロセ
スＳＰＳ５１１へ転送される。そのメモリディスクリ
プタのバッファディスクリプタのリファレンスカウント
も１である。

【００６２】一方、もしディスクプロセス５３０がバッ
ファを割当てるのであれば、アプリケーションプロセス
５３１は、メッセージパケット型またはワーク要求デー
タ構造の何れかであることができ、ディスクプロセス５
３０がその等価手順を使用してデータバッファを割当て
るものであることを指示する。アプリケーションプロセ
ス５３１は、例えば、「空」または０のような所定の値
を指し示すグローバルＴネットポインタによって、バッ
ファを割当てるようにディスクプロセス５３０に指令す
ることができる。データ５６０の行先のためのグローバ
ルアドレスを含むメッセージディスクリプタを用いて、
ディスクプロセス５３０はディスクコントローラ５４０
に、データ５６０をディスクコントローラ５４０のディ
スクプラッタからグローバルＩ／Ｏメモリ５８０のメモ
リ５５６へ転送するように命令する。ディスクコントロ
ーラ５４０からグローバルＩ／Ｏメモリ５８０へのデー
タ５６０の転送は、リファレンスによるデータＩ／Ｏで
はない。データ５６０は、必要に応じてＨＤＡＣパケッ
トを使用してディスクコントローラ５４０からグローバ
ルＩ／Ｏメモリ５８０へ実際にコピーされる。転送の結
果としてデータ５６０のコピーは、転送以前に存在して
いたよりも１つ多くなる。普通のデータ転送では、ディ
スクプロセス５３０がグローバルポインタをリファレン
スせず（デレファレンス）に実際のアドレスを発生し、
次いでディスクプロセス５３０がディスクコントローラ
５４０へのコマンドシーケンス内にアドレスを組み込
み、ディスクコントローラ５４０がデータ５６０をグロ
ーバルＩ／Ｏメモリ５８０へ転送できるようにする必要
がある。この再リファレンスは、上述した「（）書き込
みのための変換」によって実行される。

【００６３】転送が完了するとディスクコントローラ５
８０は、ディスクプロセス５３０（好ましくはメッセー
ジをベースとする手法で）に割り込む。ディスクプロセ
ス５３０は割り込みを処理し、もし必要ならばデータ５
６０（を含むデータバッファ）へのグローバルアドレス
を含むアプリケーションサーバプロセス５３１のグロー
バルＱＩＯ待ち行列へ戻す応答を待合わせることによっ
て、アプリケーションサーバプロセス５３１へ戻す要求
を完了させる。これでアプリケーションサーバプロセス
５３１は、データ５６０を有するバッファをグローバル
アドレスによって指し示すバッファディスクリプタを含
むメッセージディスクリプタを有することになる。この
グローバルポインタはグローバルＩ／Ｏメモリ５８０上
で作成されたものであり、データ５６０はグローバルＩ
／Ｏメモリ５８０内に存在しているが、メモリディスク
リプタ自体はアプリケーションサーバＳＰＳ５１１上
にある。

【００６４】アプリケーションサーバ５３１は、そのア
プリケーションに特定のデータのためのメッセージディ
スクリプタを作成するために、先にその「メッセージデ
ィスクリプタ（）入手」ルーチンを呼出し、そして関連
データバッファをアプリケーションに特定のデータ５６
１で充填するために必要に応じてその処理を実行してい
る。それによりアプリケーションサーバプロセス５３１
は、２つのメッセージディスクリプタを一緒に連鎖させ
ることによってデータ５６１、５６０を結合している。
これらのメッセージディスクリプタは、チェーンのヘッ
ドのアプリケーションに特定のデータ５６１のためのメ
ッセージディスクリプタ、及びそれに続くデータ５６０
のためのメッセージディスクリプタである。アプリケー
ションに特定のデータメッセージディスクリプタは、ア
プリケーションに特定のデータ５６１のグローバルアド
レスを含んでいる。

【００６５】アプリケーションサーバプロセス５３１の
機能が、アプリケーションに特定のデータ５６１を、種
々の時点に種々のディスクからプロセス５３１が検索す
る全ての映画クリップに前置することであるので、プロ
セス５３１がデータ５６１を指し示す元のメッセージデ
ィスクリプタを転送しないことが好ましい。（もし転送
すれば各映画クリップに前置するためにデータ５６１の
コピーを検索しなければならなくなる。）その代わりと
して、プロセス５３１は「メッセージディスクリプ
タ（）複製」を呼出して、データ５６１を指し示すメッ
セージディスクリプタを複製する。そのメッセージディ
スクリプタのバッファディスクリプタのリファレンスカ
ウントが複製によって１だけインクリメントされ、例え
ば１から２にされる。

【００６６】プロセス５３１は、データ５６０のための
メッセージディスクリプタの前にこのメッセージディス
クリプタの複製を連鎖させ、データ５６１、５６０を指
し示すメッセージを作成する。次いでプロセス５３１は
「メッセージ（）配置」を実行してデータ５６１、５６
０のメッセージを中間プロトコルＳＰＳ５１２へ渡
す。前述したように、「メッセージ（）配置」ルーチン
はメッセージ（及びその関連メッセージディスクリプタ
及びバッファディスクリプタ）を、アプリケーションサ
ーバＳＰＳ５１１から中間プロトコルＳＰＳ５１２
へ移動させる（それらのグローバルリファレンスポイン
タによって指し示されるデータは除く）。中間プロトコ
ルＳＰＳ５１２上では、メッセージのバッファディス
クリプタのリファレンスカウントはアプリケーションサ
ーバ上にあった時のカウントと同一、即ちアプリケーシ
ョンに特定のデータメッセージディスクリプタの場合は
２であり、データ５６０メッセージディスクリプタの場
合は１である。

【００６７】中間プロトコルプロセス５３２はそのプロ
トコルデータ５６２のためのメッセージディスクリプタ
を割当てるために先に「メッセージディスクリプタ（）
入手」を呼出し、そして関連データバッファをデータ５
６２で充填するために必要に応じてその処理を連絡して
いる。中間プロトコルプロセス５３２は、３つのメッセ
ージディスクリプタを一緒に連鎖させることによってデ
ータ５６２、５６１、５６０を結合している。これらの
メッセージディスクリプタは、チェーンのヘッドのプロ
トコルデータ５６２のためのメッセージディスクリプタ
のコピー、それに続くデータ５６１のためのメッセージ
ディスクリプタ（のコピー）、及びそれに続くデータ５
６０のためのメッセージディスクリプタである。プロト
コルデータメッセージディスクリプタは中間プロトコル
データ５６２のグローバルアドレスを含み、複製メッセ
ージディスクリプタが転送のために割当てられている。
次いで中間プロトコルプロセスは「メッセージ（）配
置」を実行し、データ５６２、５６１、５６０のメッセ
ージのメッセージディスクリプタ及びバッファディスク
リプタ（データ５６２、５６１、５６０自体は除く）を
ＳＰＳ５１３内のＴＣＰ／ＩＰ及びＡＴＭグローバル
待ち行列上へ渡す。

【００６８】メッセージは、中間プロトコルＰＳＰ５
１２からＴＣＰ／ＩＰ及びＡＴＭＳＰＳ５１３へ移動
する。ＳＰＳ５１３上のデータ５６２、５６１、５６
０のためのバッファディスクリプタのリファレンスカウ
ントは、それぞれ２、２、及び１である。ＴＣＰ／ＩＰ
プロセス５３３は３つのメッセージディスクリプタメッ
セージを取り、それをＴＣＰ／ＩＰプロトコルのために
処理する。プロセス５３３は「メッセージサイズ（）入
手」を呼び出してメッセージのサイズを計算し、そし
て、例えばこのメッセージを３つのＴＣＰ／ＩＰパケッ
トに分割しなければならないことを理解する。第１のＴ
ＣＰ／ＩＰパケットは、中間プロトコルヘッダデータ５
６２、アプリケーションに特定のデータ５６１、及び映
画クリップデータの第１の部分５６０’を含む。第２の
パケットは、映画データの第２の部分５６０”を含み、
第３のパケットは映画データの残余５６０''' を含む。
プロセス５３３は、３つのＴＣＰ／ＩＰヘッダ５６３
ａ、５６３ｂ、５６３ｃを準備し、必要に応じて「メッ
セージディスクリプタ（）入手」を３回呼出してメッセ
ージディスクリプタを割当てる。

【００６９】プロセス５３３は「メッセージディスクリ
プタ（）分割」をも実行し、データ５６０をパケット化
されたデータ５６０’、５６０”、及び５６０''' に分
割する。これでプロセス５３３は９つのメッセージディ
スクリプタによって指し示される６つのデータバッファ
を有することになる。これらの９つのメッセージディス
クリプタは、３つのＴＣＰ／ＩＰヘッダ５６３ａ、５６
３ｂ、５６３ｃ、１つの中間ヘッダ５６２、１つのアプ
リケーションヘッダ５６１、３つのデータチャンク５６
０’、５６０”、５６０''' 、及び元のデータ５６０で
ある。データチャンク５６０、５６０’、５６０”、５
６０''' は全て同一のバッファである。これでＴＣＰ／
ＩＰ及びＡＴＭドライバプロセス５３３は、これらのメ
ッセージディスクリプタを連鎖させて上述した３つのＴ
ＣＰ／ＩＰパケットを発生し、３つのＴＣＰ／ＩＰパケ
ットを連鎖させて以下のデータシーケンスを有するメッ
セージを発生させる。即ちＴＣＰ／ＩＰヘッダ５６３
ａ、中間ヘッダ５６２、アプリケーションに特定のデー
タ５６１、データ５６０’、ＴＣＰ／ＩＰヘッダ５６３
ｂ、データ５６１”、ＴＣＰ／ＩＰヘッダ５６３ｃ、及
びデータ５６０'''である。（この新たに作成されたメ
ッセージ内にはデータ５６０自体のためのメッセージデ
ィスクリプタが現れていないことに注目されたい。）こ
れで、グローバルバッファ５６０のメッセージディスク
リプタのための元のバッファディスクリプタのリファレ
ンスカウントは５になる。ドライバプロセス５３３は
「メッセージ（）配置」を使用して、この８つのメッセ
ージディスクリプタメッセージをＡＴＭコントローラ５
７０へ転送する。

【００７０】これでＡＴＭコントローラ５７０は、デー
タの伝送を開始する準備が整う。コントローラ５７０は
ディスクリプタのリストを歩き、実際のデータを各ＤＳ
Ｓから転送してデータを保持する。第１のパケットの４
つのメッセージディスクリプタの場合、データソース
は、ＴＣＰ／ＩＰドライバＳＰＳメモリ５５３、中間プ
ロトコルＳＰＳメモリ５５２、アプリケーションサーバ
ＳＰＳメモリ５５２、及びグローバルＩ／Ｏメモリ５８
０である。ＡＴＭコントローラは各メモリディスクリプ
タに対して順番に「（）読み出しのための変換」を呼出
してＴネットにまたがる読み出し要求を構成する。ＴＭ
コントローラ５７０がデータを必要になると、ＡＴＭコ
ントローラ５７０のＢＴＥＤＭＡ（図示してない）を
通してＨＤＡＣが処理され、ＡＴＭチップセット（図示
してない）及びプロトコルがその準備を整えるまでＡＴ
Ｍコントローラ５７０のＦＩＦＯ（図示してない）が検
索したデータを保持する。

【００７１】ＡＴＭコントローラ５７０は第１のＡＴＭ
パケットのための全てのデータの転送を終了させ、「メ
ッセージディスクリプタ戻し」を呼出してその第１のパ
ケットのためのメッセージディスクリプタを戻す。（Ａ
ＴＭコントローラは、割り込みによってそれをＡＴＭド
ライバＳＰＳ５１３へ通知する。）ＡＴＭドライバＳＰＳ５１３は、「メッセージディス
クリプタ（）戻し」グローバルＱＩＯ呼出しを介して第
１のパケットの各メッセージディスクリプタを戻す。第
１のＴＣＰ／ＩＰヘッダデータ５６３ａを指し示すメッ
セージディスクリプタが戻されると、メッセージディス
クリプタ及び構成要素データバッファ及びバッファディ
スクリプタはＳＰＳ５１３内で直ちに自由になる。それ
は、それらがそこに割当てられており、バッファディス
クリプタのリファレンスカウントが１であったからであ
る。（換言すれば、メッセージディスクリプタは決して
「メッセージディスクリプタ（）複製」を受けず、「メ
ッセージ（）配置」だけを受けるのである。）中間ヘッダデータ５６２を指し示すメッセージディスク
リプタが、中間プロトコルＳＰＳ５１２へ戻される
と、そのバッファディスクリプタカウントは１に減らさ
れる。従って、そのバッファディスクリプタは未だに自
由になることはできない。（戻されたメッセージディス
クリプタは「メッセージディスクリプタ（）複製」の結
果であり、バッファディスクリプタのリファレンスカウ
ントは２になっている。）中間プロトコルを必要とする
次の時点に、中間プロトコルプロセス５３２がデータ５
６２を指し示すメッセージディスクリプタを使用するこ
とは自由である。

【００７２】アプリケーションに特定のデータ５６１を
指し示すメッセージディスクリプタが戻されると、同様
にそのバッファディスクリプタのリファレンスカウント
が１に減らされる。アプリケーションに特定のデータを
必要とする次の時点に、アプリケーションサーバプロセ
スがデータバッファ５６１を指し示すメッセージディス
クリプタを使用することは自由である。最後に、ディス
クデータ５６０’の第１の部分を指し示すメッセージデ
ィスクリプタがグローバルＩ／Ｏメモリ５８０へ戻され
ると、ディスクデータ５６０、５６０’、５６０”のた
めのバッファディスクリプタのリファレンスカウントが
１だけ減らされて４にされる。第２のパケットのメッセ
ージディスクリプタ内のデータの伝送、及びこれらのメ
ッセージディスクリプタの戻しは、第１のパケットに類
似している。従って重複を避けるために詳細な説明は省
略する。

【００７３】最後に、ＡＴＭコントローラ５７０は第３
の、そして最後のＡＴＭパケットのための全てのデータ
の転送を終了させる。ＡＴＭコントローラ５７０は「メ
ッセージ（）配置」を呼出してその第３のパケットのた
めのメッセージディスクリプタを戻す（そして、ＡＴＭ
ドライバＳＰＳ５１３に割り込む）。ＡＴＭドライバ
プロセス５３３は、各メッセージディスクリプタの戻り
を処理する。第１のパケットとこの最後のパケットとの
戻り処理間の差は、データ５６０のためのリファレンス
カウントが１に減らされている最初のものである。ディ
スクデータ５６０を指し示すメッセージディスクリプタ
の戻しは、メッセージディスクリプタをグローバルＩ／
Ｏメモリ５８０、即ち現在使用のバッファの元のアロケ
ータへ戻すことを含んでいる。データ５６０のためのバ
ッファディスクリプタのリファレンスカウンゴは１だけ
減らされて０になる。メッセージディスクリプタ及びそ
の構成要素バッファディスクリプタ及びデータバッファ
は全て割当て解除され、それそれの自由プールへ戻され
る。もし将来データ５６０を再度使用するのであれば、
それはディスクコントローラ５４０から再度引き出さな
ければならない。

【００７４】当分野に精通していれば理解されるよう
に、ディスクコントローラ５７０からＡＴＭコントロー
ラまでデータを転送するのに幾つかのプロセッサが直列
に含まれているような、及びＡＴＭコントローラ５７０
へ転送すべきデータに３つのプロセッサ５１１、５１
２、５１３がデータに付加されるようなシステムにおい
ては、データの各片の転送、即ち、データ（５６０、５
６１、５６２、５６３）のそれぞれのソース（グローバ
ルＩ／Ｏメモリ５８０、ＳＰＳ５１１、５１２、５１
３）から、データの最終行先（ＡＴＭコントローラ５７
０）への転送が実際に１回発生するだけである。以上
に、複数のデータソース及びシンクの間でリファレンス
によってデータＩ／Ｏを実行する装置及び方法を開示し
た。この方法は、ビデオオンデマンド、及びマルチメデ
ィア応用に特に有用である。リファレンスによるデータ
Ｉ／Ｏの長所は、より良い並行動作、より良い線形可消
費性、高速ネットワーキング、及び特殊化された機能に
特定のプロセッサを使用する能力を含む。

【００７５】勿論、以上に説明したようなソフトウェア
のためのプログラムテキストは、磁気、光、または他の
ディスク上に、磁気テープ、または記憶及び／または検
索のために媒体を運動させる必要がある他の媒体上に、
ＲＯＭ内に、ＲＡＭ内に、または別のデータ記憶媒体内
に静的な形で存在させることができる。データ記憶媒体
はコンピュータシステムと一体であることも、またはコ
ンピュータシステム内に挿入可能であることもできる。

【００７６】

【発明の効果】本発明の方法は、ネットワークに対する
ノードとして結合されかつネットワークにわたりメモリ
アドレスによりアクセス可能なデータ位置に結合され
た、関連メモリを有しているＩ／Ｏコントローラ、ＣＰ
Ｕまたはメモリ装置の形の複数のデータソース／シンク
を含む分散型メモリアーキテクチャを有しているデータ
処理システムにおいて、変形処理の間に多重データソー
ス／シンクのそれぞれにデータストリームをコピーする
ことなく多重データソース／シンクを用いてデータスト
リームを変形する方法であって、第１のデータストリー
ムが記憶される第１の記憶位置を指定している第１のグ
ローバルネットワークアドレスを含んでいる、第１のデ
ータソース／シンクで、第１のポインタを生成し、第１
のデータソース／シンクから第２のデータソース／シン
クへ第１のポインタだけを転送し、第２のデータストリ
ームが記憶される第２の記憶位置を指定している第２の
グローバルネットワークアドレスを含んでいる第２のポ
インタを、第２のデータソース／シンクで、生成し、か
つ第１の連鎖ポインタを形成すべく該第１及び第２のポ
インタを連鎖し、メッセージの第３のデータフラグメン
トを記憶している該第３のノードで、第３のデータソー
ス／シンクに第１の連鎖ポインタだけを転送し、かつ該
メッセージを宛先に転送し、第１のデータストリームを
部分に分割するために第１のポインタを複数の２次ポイ
ンタに変形すべく、該第１のポインタを、第３のデータ
ソース／シンクで、処理し、かつ第１のデータストリー
ムの各部分にプロトコルヘッダを連鎖する段階を具備す
るので、データのプロセッサ間コピーイングを回避し、
しかも共用メモリの隘路及び故障許容問題を回避するこ
とができ、その結果、プロセッサ内及びプロセッサ間の
両方において、データの不要なコピーイングを排除した
コンピュータシステムを提供することができる。

【００７７】本発明の方法は、ネットワークに対するノ
ードとして結合されかつネットワークにわたりメモリア
ドレスによりアクセス可能なデータに結合された、関連
メモリを有しているＩ／Ｏコントローラ、ＣＰＵまたは
メモリ装置の形の複数のデータソース／シンクを含む分
散型メモリアーキテクチャを有しているデータ処理シス
テムにおける方法であって、複数のデータソース／シン
クの第１のもののデータバッファにディスクリプタをゲ
ットし、データバッファのデータを転送することなくデ
ィスクリプタを複数のデータソース／シンクの第２のも
のに置き、第２のデータソース／シンクから複数のデー
タソース／シンクの第３のものにディスクリプタを置
き、かつデータ入力または出力を実行するために第１の
データソース／シンクから第３のデータソース／シンク
へデータバッファのデータの一部を検索する段階を具備
するので、データのプロセッサ間コピーイングを回避
し、しかも共用メモリの隘路及び故障許容問題を回避す
ることができ、その結果、プロセッサ内及びプロセッサ
間の両方において、データの不要なコピーイングを排除
したコンピュータシステムを提供することができる。

【００７８】本発明の方法は、ネットワークに対するノ
ードとして結合されかつネットワークにわたりメモリア
ドレスによりアクセス可能なデータに結合された、関連
メモリを有しているＩ／Ｏコントローラ、ＣＰＵまたは
メモリ装置の形の複数のデータソース／シンクを含む分
散型メモリアーキテクチャを有しているデータ処理シス
テムにおける方法であって、複数のデータソース／シン
クの第１のもののデータバッファにディスクリプタをゲ
ットし、データバッファのデータを転送することなくデ
ィスクリプタを複数のデータソース／シンクの第２のも
のに置き、ディスクリプタを複数のディスクリプタに分
割し、複数のディスクリプタの一つを第２のデータソー
ス／シンクから複数のデータソース／シンクの第３のも
のに置き、かつデータ入力または出力を実行するために
第１のデータソース／シンクから第３のデータソース／
シンクへ一つのディスクリプタにより記述されたデータ
バッファのデータの一部を検索する段階を具備するの
で、データのプロセッサ間コピーイングを回避し、しか
も共用メモリの隘路及び故障許容問題を回避することが
でき、その結果、プロセッサ内及びプロセッサ間の両方
において、データの不要なコピーイングを排除したコン
ピュータシステムを提供することができる。

【００７９】本発明のデータストレージ用媒体は、複数
のデータソース／シンクの第１のもののデータバッファ
にディスクリプタをゲットし、データバッファのデータ
を転送することなくディスクリプタを複数のデータソー
ス／シンクの第２のものに置き、第２のデータソース／
シンクから複数のデータソース／シンクの第３のものに
ディスクリプタを置き、かつデータ入力または出力を実
行するために第１のデータソース／シンクから第３のデ
ータソース／シンクへデータバッファのデータの一部を
検索することにより、Ｉ／Ｏコントローラ、ＣＰＵまた
はメモリ装置の形の複数のデータソース／シンクの中で
データＩ／Ｏを実行するためのコンピュータプログラム
が配置されるので、データのプロセッサ間コピーイング
を回避し、しかも共用メモリの隘路及び故障許容問題を
回避することができ、その結果、プロセッサ内及びプロ
セッサ間の両方において、データの不要なコピーイング
を排除したコンピュータシステムを提供することができ
る。

【００８０】本発明のデータストレージ用媒体は、複数
のデータソース／シンクの第１のもののデータバッファ
にディスクリプタをゲットし、データバッファのデータ
を転送することなくディスクリプタを複数のデータソー
ス／シンクの第２のものに置き、ディスクリプタを複数
のディスクリプタに分割し、複数のディスクリプタの一
つを第２のデータソース／シンクから複数のデータソー
ス／シンクの第３のものに置き、かつデータ入力または
出力を実行するために第１のデータソース／シンクから
第３のデータソース／シンクへ一つのディスクリプタに
より記述されたデータバッファのデータの一部を検索す
ることにより、Ｉ／Ｏコントローラ、ＣＰＵまたはメモ
リ装置の形の複数のデータソース／シンクの中でデータ
Ｉ／Ｏを実行するためのコンピュータプログラムが配置
されるので、データのプロセッサ間コピーイングを回避
し、しかも共用メモリの隘路及び故障許容問題を回避す
ることができ、その結果、プロセッサ内及びプロセッサ
間の両方において、データの不要なコピーイングを排除
したコンピュータシステムを提供することができる。

【図面の簡単な説明】

【図１】ＱＩＯ共用メモリシステムを組み込んだ故障許
容並行データ処理システムのブロック線図である。

【図２】モジュラーネットワークされたマルチプロセッ
サシステムを示す図である。

【図３】故障許容マルチプロセッサシステムを示す図で
ある。

【図４】図３のシステムの代替構成を示す図である。

【図５】プロセッサ及びメモリをネットワークにインタ
フェースするための図３のＣＰＵの一部を形成するイン
タフェースユニットを示す図である。

【図６】図３のコンピュータシステム１００をより特定
化したバージョンを示す図である。

【図７】グローバルＱＩＯ待ち行列を示す図である。

【図８】メッセージのフォーマットを示す図である。

【図９】バッファディスクリプタのフォーマットを示す
図である。

【符号の説明】

１０データ処理システム１２ＣＰＵ１４ルータ１６Ｉ／Ｏパケットインタフェース１７Ｉ／Ｏデバイス１８保守プロセッサ（ＭＰ）２４インタフェースユニット２８メモリ１００故障許容並列デバイス処理システム１０２ノード１０４ワークステーション１０５ＬＡＮ１０６、１０８プロセッサ１０９プロセッサ間バス（ＩＰＢ）１１０ＣＰＵ１１２メモリ１１４ディスクコントローラ１１６ディスクドライブ１２０アプリケーションプロセス１２２ディスクプロセス１２４共用メモリセグメント１２６ＱＩＯライブラリルーチン１２８メッセージシステム（ＭＳ）１３０ファイルシステム（ＦＳ）１３２ディスクドライバ１４０ＬＡＮコントローラ１４２ＣＰＵ１４４メモリ１４６ＴＣＰ／ＩＰプロセス１４８ディストリビュータプロセス１５０共用メモリセグメント１５１ＱＩＯ待ち行列１５２ＱＩＯライブラリルーチン１５４メッセージシステム１５６ファイルシステム１５８ＬＡＮドライバ２００、５００コンピュータシステム２１０、２１１、２１２、２１３、５１０、５１１、５
１２、５１３ノード（コンピュータシステム）２２０、５２０Ｔネットネットワーク２３０、５３０ディスクプロセス２３１、５３１アプリケーションサーバプロセス２３２、５３２中間プロトコルプロセス２３３、５３３ＴＣＰ／ＩＰＡＴＭドライバ２４０、５４０ディスクコントローラ２５０、２５１、２５２、２５３、５４４、５５５メ
モリ２６０、５６０ディスクデータ２６１、５６１アプリケーションに特定のデータ２６２、５６２中間（ＲＰＣ）プロトコル情報２６３、５６３ＴＣＰ／ＩＰプロトコル情報５７０ＡＴＭコントローラ５８０グローバルメモリ６００ＱＩＯ待ち行列６２０メッセージリスト６２２、６２４メッセージディスクリプタ７００メッセージ７３０バッファディスクリプタ７４０バッファ

───────────────────────────────────────────────────── フロントページの続き (72)発明者バーマンザーガムアメリカ合衆国カリフォルニア州 94087 サニーヴェールオリーリアコート 1527

Claims

【特許請求の範囲】

【請求項１】ネットワークに対するノードとして結合
されかつネットワークにわたりメモリアドレスによりア
クセス可能なデータ位置に結合された、関連メモリを有
しているＩ／Ｏコントローラ、ＣＰＵまたはメモリ装置
の形の複数のデータソース／シンクを含む分散型メモリ
アーキテクチャを有しているデータ処理システムにおい
て、変形処理の間に多重データソース／シンクのそれぞ
れにデータストリームをコピーすることなく多重データ
ソース／シンクを用いてデータストリームを変形する方
法であって、第１のデータストリームが記憶される第１の記憶位置を
指定している第１のグローバルネットワークアドレスを
含んでいる、第１のデータソース／シンクで、第１のポ
インタを生成し、前記第１のデータソース／シンクから第２のデータソー
ス／シンクへ前記第１のポインタだけを転送し、第２のデータストリームが記憶される第２の記憶位置を
指定している第２のグローバルネットワークアドレスを
含んでいる第２のポインタを、前記第２のデータソース
／シンクで、生成し、かつ第１の連鎖ポインタを形成す
べく該第１及び第２のポインタを連鎖し、メッセージの第３のデータフラグメントを記憶している
該第３のノードで、第３のデータソース／シンクに前記
第１の連鎖ポインタだけを転送し、かつ該メッセージを
宛先に転送し、前記第１のデータストリームを部分に分割するために前
記第１のポインタを複数の２次ポインタに変形すべく、
該第１のポインタを、前記第３のデータソース／シンク
で、処理し、かつ前記第１のデータストリームの各部分
にプロトコルヘッダを連鎖する段階を具備することを特
徴とする方法。
【請求項２】前記第１、第２、第３及び第４のデータ
ソース／シンクでグローバルＩＯキューを生成し、前記第１のポインタを前記第１のデータソース／シンク
から前記第２のデータソース／シンクへ転送する前記段
階は、前記第１のデータソース／シンクにおける前記グローバ
ルＩＯキューに前記第１のポインタを記憶し、前記第１のデータソース／シンクにおける前記グローバ
ルＩＯキューから、前記第２のノードにコピーされる前
記第１のポインタだけを結果として生ずる前記第２のデ
ータソース／シンクにおける前記グローバルＩＯキュー
へ前記第１のポインタをキューイングする段階を更に具
備することを特徴とする請求項１に記載の方法。
【請求項３】ネットワークに対するノードとして結合
されかつネットワークにわたりメモリアドレスによりア
クセス可能なデータに結合された、関連メモリを有して
いるＩ／Ｏコントローラ、ＣＰＵまたはメモリ装置の形
の複数のデータソース／シンクを含む分散型メモリアー
キテクチャを有しているデータ処理システムにおける方
法であって、前記複数のデータソース／シンクの第１のもののデータ
バッファにディスクリプタをゲットし、前記データバッファのデータを転送することなく前記デ
ィスクリプタを前記複数のデータソース／シンクの第２
のものに置き、前記第２のデータソース／シンクから前記複数のデータ
ソース／シンクの第３のものに前記ディスクリプタを置
き、かつデータ入力または出力を実行するために前記第
１のデータソース／シンクから前記第３のデータソース
／シンクへ前記データバッファのデータの一部を検索す
る段階を具備することを特徴とする方法。
【請求項４】ネットワークに対するノードとして結合
されかつネットワークにわたりメモリアドレスによりア
クセス可能なデータに結合された、関連メモリを有して
いるＩ／Ｏコントローラ、ＣＰＵまたはメモリ装置の形
の複数のデータソース／シンクを含む分散型メモリアー
キテクチャを有しているデータ処理システムにおける方
法であって、前記複数のデータソース／シンクの第１のもののデータ
バッファにディスクリプタをゲットし、前記データバッファのデータを転送することなく前記デ
ィスクリプタを前記複数のデータソース／シンクの第２
のものに置き、前記ディスクリプタを複数のディスクリプタに分割し、前記複数のディスクリプタの一つを前記第２のデータソ
ース／シンクから前記複数のデータソース／シンクの第
３のものに置き、かつデータ入力または出力を実行する
ために前記第１のデータソース／シンクから前記第３の
データソース／シンクへ前記一つのディスクリプタによ
り記述された前記データバッファの前記データの一部を
検索する段階を具備することを特徴とする方法。
【請求項５】前記ディスクリプタをその最初のデータ
ソース／シンクにリターンし、かつ前記ディスクリプタ
及びそれが記述する前記メモリ領域の割り当てを解除す
る段階を更に具備することを特徴とする請求項３に記載
の方法。
【請求項６】前記一つのディスクリプタをその最初の
データソース／シンクにリターンし、かつ前記一つのデ
ィスクリプタ及びそれが記述する前記メモリ領域の割り
当てを解除する段階を更に具備することを特徴とする請
求項４に記載の方法。
【請求項７】データストレージ用媒体であって、複数のデータソース／シンクの第１のもののデータバッ
ファにディスクリプタをゲットし、前記データバッファのデータを転送することなく前記デ
ィスクリプタを前記複数のデータソース／シンクの第２
のものに置き、前記第２のデータソース／シンクから前記複数のデータ
ソース／シンクの第３のものに前記ディスクリプタを置
き、かつデータ入力または出力を実行するために前記第
１のデータソース／シンクから前記第３のデータソース
／シンクへ前記データバッファのデータの一部を検索す
ることにより、Ｉ／Ｏコントローラ、ＣＰＵまたはメモ
リ装置の形の前記複数のデータソース／シンクの中でデ
ータＩ／Ｏを実行するためのコンピュータプログラムが
配置されることを特徴とするデータストレージ用媒体。
【請求項８】データストレージ用媒体であって、前記複数のデータソース／シンクの第１のもののデータ
バッファにディスクリプタをゲットし、前記データバッファのデータを転送することなく前記デ
ィスクリプタを前記複数のデータソース／シンクの第２
のものに置き、前記ディスクリプタを複数のディスクリプタに分割し、前記複数のディスクリプタの一つを前記第２のデータソ
ース／シンクから前記複数のデータソース／シンクの第
３のものに置き、かつデータ入力または出力を実行する
ために前記第１のデータソース／シンクから前記第３の
データソース／シンクへ前記一つのディスクリプタによ
り記述された前記データバッファの前記データの一部を
検索することにより、Ｉ／Ｏコントローラ、ＣＰＵまた
はメモリ装置の形の前記複数のデータソース／シンクの
中でデータＩ／Ｏを実行するためのコンピュータプログ
ラムが配置されることを特徴とするデータストレージ用
媒体。