JP2001273273A

JP2001273273A - マルチプロセッシング・エンジン環境用のレジスタ・パイプ

Info

Publication number: JP2001273273A
Application number: JP2001044708A
Authority: JP
Inventors: J Stark William; ウィリアム・ジェイ・スターク; L Temple Joseph Iii; ジョーゼフ・エル・テンプル・サード
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-02-28
Filing date: 2001-02-21
Publication date: 2001-10-05
Also published as: US6643763B1

Abstract

(57)【要約】【課題】マルチプロセッサ・コンピュータ・システム
の処理エンジンの間でレジスタ・パイプを実施する方
法、システム、およびプログラム記憶装置を提供するこ
と。【解決手段】レジスタ・パイプに、第１処理エンジン
の少なくとも１つの第１レジスタと、第２処理エンジン
の少なくとも１つの第２レジスタが含まれる。データ
は、第１処理エンジンと第２処理エンジンの間で、メモ
リを通過せずにレジスタ・パイプを介して転送される。
１実施形態では、第１処理エンジン内および第２処理エ
ンジン内の汎用レジスタが、レジスタ・パイプの実施に
使用される。各処理エンジン内に制御機構を設けて、マ
ルチプロセッサ・コンピュータ・システムの任意の２つ
の処理エンジンを結合するレジスタ・パイプを動的に使
用可能または使用不能にする。複数のレジスタ・パイプ
にブロードキャストし、処理エンジン自体にアドレッシ
ングされるレジスタ・パイプを使用するバリヤ同期化を
実施する技法も提供される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】関連出願の相互参照本発明は、本発明と共通の譲受人に譲渡される関連米国
特許出願第号明細書に関連する。同明細書は、参照によ
ってその全体を本明細書に組み込まれる。

【０００２】本発明は、全般的にはマルチプロセッサ・
コンピュータ・システムに関し、具体的には、マルチプ
ロセッサ・コンピュータ・システムの処理エンジンの対
の間でレジスタ・パイプ（register pipe）を選択的に
実施して、それらの間のデータの転送を容易にすること
ができるマルチプロセッサ・コンピュータ・システムに
関する。

【０００３】

【従来の技術】一般的に言って、コンピュータ・プログ
ラムは、さまざまなモードでコンピュータ・システムに
よって実行され得る。たとえば、単一命令ストリーム単
一データ・ストリーム（ＳＩＳＤ）モード、単一命令ス
トリーム複数データ・ストリーム（ＳＩＭＤ）モード、
単一プログラム複数データ・ストリーム（ＳＰＭＤ）モ
ード、または複数命令ストリーム複数データ・ストリー
ム（ＭＩＭＤ）モードのどれであっても、通常のコンピ
ュータ・プログラムの実行に使用することができる。

【０００４】ＳＩＳＤモードでは、コンピュータ・プロ
グラムが、単一の命令ストリームを生成し、実行して、
単一のデータ・ストリームまたは結果を作る。これを、
一般に、古典的単一プロセッサ・モードの動作と称す
る。さらに、ＳＩＳＤモードでの動作は、マルチプロセ
ッサ・システムまたは並列システムであっても発生する
ことがしばしばである。これは、プログラミング技法、
アリゴリズム的直列化、または過去の実装からのレガシ
ーに起因して発生する可能性がある。

【０００５】多数の多重プロセッサ・システムまたはマ
ルチプロセッサ・システムでは、コンピュータ・プログ
ラムが、ＳＩＭＤモードで実行される可能性がある。こ
のモードでは、複数のデータが、単一の命令によって同
時に処理される。したがって、複数のプロセッサまたは
処理要素が、同一の命令に対して別々のデータ・ストリ
ームを操作することができる。このモードのＳＰＭＤ変
形では、各プロセッサが、独立に取り出される同一のプ
ログラムを実行し、それ自体のデータ・ストリームを操
作する。ＳＰＭＤモードの動作を用いると、さまざまな
プロセッサを、ローカル・メモリだけに付加することが
でき、さまざまなプロセッサが、メッセージ受け渡しフ
ァブリックまたはネットワークを介して結果を通信する
ことができるようになる。

【０００６】他のマルチプロセッサ・システムでは、プ
ログラムをＭＩＭＤモードで実行することができ、この
場合、各プロセッサが、それ自体のデータ・ストリーム
を独立に操作するだけではなく、それ自体の命令ストリ
ームに対して動作する。このモードでの処理は、共用記
憶域またはプロセッサ間のメッセージ受け渡しのいずれ
かによって容易にされる。

【０００７】古典的なマルチプロセッサまたは共用メモ
リ・プロセッサ（shared memory processor）（ＳＭ
Ｐ）では、プログラムをＳＩＳＤモードまたはＭＩＭＤ
モードのいずれかで実行することができ、時にはＳＰＭ
Ｄモードで実行することができる。しかし、これらの計
算機は、メモリ競合制約をこうむる。このため、並列性
の粒度が、通常は、共用メモリによって通信する複数の
プログラム管理されるスレッドまたはプロセスにとって
利益があるレベルまでに制限される。

【０００８】あるプロセッサによって実行される動作の
入力値が、共用メモリ・マルチプロセッサ環境内の別の
プロセッサによって実行される別の命令の結果（すなわ
ち出力値）である時には、動作の処理がより複雑にな
る。第１に、第１のプロセッサが、入力値として使用さ
れる結果を得るために、第２のプロセッサが、まず出力
値をメモリに格納し、その結果、第１のプロセッサがそ
の結果をメモリから取り出せるようにしなければならな
い。諒解されるであろう通りに、これらの前提条件ステ
ップは、あるプロセッサからの値を格納し、別のプロセ
ッサにロードするために、追加の命令およびクロック・
サイクルを消費し、これによって、実質的な非効率性お
よび望ましくないプロセッサ能力の消費が生じる。ま
た、入力として他の実行される命令の結果を必要とする
命令の実行は、第１のプロセッサが、メモリ内の適当な
結果にアクセスし、前の古くなった値にアクセスしない
ことを保証するために、プロセッサの同期化を必要とす
る。通常、データ管理の複雑な手順を使用して、システ
ム内でメモリ・コヒーレンシが維持されることを保証す
る。

【０００９】

【発明が解決しようとする課題】これらの処理の複雑さ
に鑑みて、マルチプロセッサ・コンピュータ・システム
内の処理エンジン間の情報のより効率的な転送を容易に
することが望ましい。

【００１０】

【課題を解決するための手段】したがって、本明細書
で、マルチプロセッサ・コンピュータ・システム内の処
理エンジンの対の間に配置されるレジスタ・パイプ機構
を提供する。このレジスタ・パイプを用いると、第１の
処理エンジンから第２の処理エンジンへ、コンピュータ
・システムのメモリを通過せずにデータを転送できるよ
うになる。さらに、本明細書で提供するレジスタ・パイ
プは、マルチプロセッサ・コンピュータ・システム内
の、パイプによって接続される処理エンジン自体の汎用
レジスタを使用して、動的に実施することができる。

【００１１】要約すると、１態様では、本明細書で、第
１処理エンジンと第２処理エンジンの間でデータを転送
する方法を提供する。この方法には、第１処理エンジン
と第２処理エンジンとの間でレジスタ・パイプを確立す
るステップであって、レジスタ・パイプが、第１処理エ
ンジン内の少なくとも１つの第１レジスタと第２処理エ
ンジン内の少なくとも１つの第２レジスタとを含むこと
ができる、ステップと、レジスタ・パイプを使用して第
１処理エンジンと第２処理エンジンとの間でデータを転
送するステップであって、データが、第１処理エンジン
および第２処理エンジンが属するマルチプロセッサ・コ
ンピュータ・システムの主記憶を通過せずに第１処理エ
ンジンと第２処理エンジンとの間で転送される、ステッ
プとが含まれる。

【００１２】もう１つの態様では、第１処理エンジンと
第２処理エンジンの間でデータを転送するシステムを提
供する。このシステムには、第１処理エンジンと第２処
理エンジンの間でレジスタ・パイプを確立する手段が含
まれ、このレジスタ・パイプには、第１処理エンジンの
少なくとも１つの第１レジスタと、第２処理エンジンの
少なくとも１つの第２レジスタとを含めることができ
る。このシステムには、さらに、レジスタ・パイプを使
用して第１処理エンジンと第２処理エンジンとの間でデ
ータを転送する手段が含まれ、このデータは、第１処理
エンジンおよび第２処理エンジンが属するマルチプロセ
ッサ・コンピュータ・システムのメモリを通過せずに第
１処理エンジンと第２処理エンジンの間で転送される。

【００１３】もう１つの態様では、第１処理エンジンと
第２処理エンジンを含むマルチプロセッサ・コンピュー
タ・システムを提供する。このマルチプロセッサ・コン
ピュータ・システムには、第１処理エンジンと第２処理
エンジンとの間のレジスタ・パイプが含まれ、このレジ
スタ・パイプには、第１処理エンジン内の少なくとも１
つの第１レジスタと第２処理エンジン内の少なくとも１
つの第２レジスタが含まれる。第１処理エンジンおよび
第２処理エンジンは、マルチプロセッサ・コンピュータ
・システムのメモリを介してデータを渡さずに、レジス
タ・パイプを使用してそれらの間でデータを転送するよ
うに適合されている。

【００１４】もう１つの態様では、第１処理エンジンと
第２処理エンジンの間でデータを転送する方法を実行す
るための、計算機によって実行可能な命令の少なくとも
１つのプログラムを具体的に実施する、計算機によって
読取可能な少なくとも１つのプログラム記憶装置を提供
する。この方法には、第１処理エンジンと第２処理エン
ジンとの間でレジスタ・パイプを確立するステップであ
って、レジスタ・パイプが、第１処理エンジン内の少な
くとも１つの第１レジスタと第２処理エンジン内の少な
くとも１つの第２レジスタとを含むことができる、ステ
ップと、レジスタ・パイプを使用して第１処理エンジン
と第２処理エンジンとの間でデータを転送するステップ
であって、データが、第１処理エンジンおよび第２処理
エンジンが属するマルチプロセッサ・コンピュータ・シ
ステムの主記憶を通過せずに第１処理エンジンと第２処
理エンジンとの間で転送される、ステップとが含まれ
る。

【００１５】言い換えると、本明細書では、マルチプロ
セッサ・コンピュータ・システムの処理エンジンの対の
間でレジスタ・パイプを確立して、たとえばコンピュー
タ・システムの主記憶を使用せずに、それらの間でのデ
ータ転送を容易にするレジスタ・パイプの機構および技
法を提供する。疎結合並列処理システムでは、本明細書
で提示されるレジスタ・パイプが、より微細な粒度（す
なわち、より小さいデータ）を使用してプロセッサ間で
データを通信するためのより高速でより効率的な手段を
提供する。具体的に言うと、疎結合計算機では、通常
は、計算機から計算機にデータを移動するのに入出力が
使用される。これは、通常は、結果がバッファリングさ
れるメモリへのデータ結果の移動と、メモリから他の計
算機へ同期式または非同期式のいずれかでデータを移動
するプログラムの実行を意味する。この手法は、データ
結果に関して単純にパイプ・レジスタをターゲットとす
る、本明細書で提示されるレジスタ・パイプ機構と対照
的である。

【００１６】密結合並列処理システム（ＳＭＰまたはメ
モリ共用システム）では、本明細書に提示されるレジス
タ・パイプが、やはりより効率的である。そのようなシ
ステムでは、データ結果を、通常はメモリに格納しなけ
ればならず、その後、プロセッサを同期化し、データを
ターゲット計算機に取り出す。これは、本発明の原理に
よる、ある計算機から別の計算機へ転送されるデータに
関して単純にレジスタ・パイプをターゲットとすること
と対照的である。

【００１７】上で相互参照され組み込まれた米国特許出
願第号明細書に記載のものなどの大
規模キャッシュ計算機または他のＳＩＭＤ可能計算機で
は、やはり、ジョイン（join）されたレジスタを使用し
て、データ結果を格納した後に取り出さなければならな
い。本発明によれば、データ結果は、単に結果に関して
レジスタ・パイプをターゲットにすることによって転送
される。本明細書で提示されるレジスタ・パイプは、マ
ルチプロセッサ計算機が、別のエンジンが必要とする時
にあるエンジンのデータ結果を格納した後にロードする
ことをなくすための方法である。ロードの前にデータを
格納することは、追加命令だけを必要とするが、この追
加命令は、プログラムの内側のループである場合に、足
し合わされる可能性がある。

【００１８】追加の特徴および長所は、本発明の技法を
介して実現される。本発明の他の実施形態および態様
を、本明細書で詳細に説明するが、これらは、請求され
る発明の一部とみなされる。

【００１９】

【発明の実施の形態】本発明の１態様によれば、レジス
タのジョインおよびフォーク（fork）に頼ることによっ
てコンピュータ・システムを動作させる技法が提供され
る。そうすることによって、本発明の技法を用いて、有
利なことに、コンピュータ・システムのプロセッサに、
レジスタがジョインされる時に同一の情報を含め、レジ
スタがフォークされる時に異なる情報を含めることがで
きるようになる。その結果、コンピュータ・システム
を、複数の動作モードの間ですばやく効率的に切り替え
ることができる。さらに、本発明は、メモリの区分を介
し、特定のセクションにローカルなプロセッサによる情
報の取出およびブロードキャストを介して、より高いメ
モリ帯域幅と、より大きくより高速のキャッシュも提供
する。

【００２０】本発明の１態様に従い、図１に、単一プロ
セッサとして（すなわち、単一命令ストリームおよび単
一データ・ストリームを生成する）、および並列プロセ
ッサとして（すなわち、複数命令ストリームおよび複数
データ・ストリームを生成する）のいずれでも動作する
ことができるマルチプロセッサのコンピュータ・システ
ム１００を示す。１実施形態では、コンピュータ・シス
テム１００に、複数のプロセッサ１１０またはエンジン
（すなわち、プロセッサ００、０１、１０、および１
１）が含まれ、各プロセッサは、Ｌ１キャッシュ１２０
に関連付けられ、接続されている。この特定の実施形態
では、コンピュータ・システム１００は、単一チップ上
に配置されるものとして図示されている。しかし、構成
要素を複数のチップに配置された他の実施形態が、本発
明の原理から逸脱せずに可能である。

【００２１】Ｌ１キャッシュ１２０は、メモリ・インタ
ーフェース１４０を介してプロセッサ１１０をＬ２キャ
ッシュ１３０に接続する。メモリ・インターフェース１
４０は、バス１４２を介して主記憶（図示せず）にも接
続される。それ自体のプロセッサ１１０に接続するほか
に、Ｌ２キャッシュ１３０を、複数の双方向バス１５０
を介して互いにも相互接続することができ、これによっ
て、Ｌ２キャッシュが、相対的に多量のＬ２キャッシュ
・メモリを有する単一のユニットとして動作することが
可能になる。しかし、単一のＬ２キャッシュとして動作
するほかに、Ｌ２キャッシュ１３０は、区分され（図１
に示された４つのユニットに）、その結果、各プロセッ
サ１１０に、組み合わされたＬ２キャッシュの特定の部
分を関連付けることができるようになる。これによっ
て、Ｌ２キャッシュ・メモリ内のどの位置に対しても高
速にアクセスでき、より高速のサイクル・タイムをもた
らすことが可能になる。それ自体のＬ１キャッシュに接
続されるほかに、プロセッサ１１０は、相互接続システ
ム１６０を介して互いにも相互接続される。相互接続シ
ステム１６０を、下で詳細に説明する。

【００２２】図２に、１つのプロセッサ１１０と、相互
接続システム１６０のそれに関連する部分ならびにそれ
に関連するＬ１キャッシュ１２０を示す。各プロセッサ
１１０には、複数の汎用レジスタ（ＧＰＲ）２１０、実
行ユニット２２０、アドレス・ユニット２３０、および
命令ユニット２４０が含まれる。さらに、各プロセッサ
１１０に関連するのが、複数のデータ・ブロードキャス
ト・レジスタ２５０および複数の命令ブロードキャスト
・レジスタ２６０である。

【００２３】当業者に明白であるように、任意の個数、
たとえば１６個のＧＰＲ２１０を、各プロセッサに含め
ることができる。各ＧＰＲは、さまざまな目的に使用す
ることができる。たとえば、１つまたは複数のＧＰＲ
を、アドレス・レジスタとして使用することができ、こ
れらのＧＰＲは、単一アドレス・レジスタ命令のＲＢフ
ィールドまたは複数アドレス・レジスタ命令のＲＢフィ
ールドおよびＲＡフィールドによって、アドレス・レジ
スタとして指定される。同様に、本発明の説明におい
て、ＧＰＲを、ターゲット・レジスタ（すなわち、動作
を実行した後のデータのデスティネーション）として使
用することができ、このＧＰＲは、メモリからデータを
取り出す際（すなわちＲＴキャッシュ）または実行ユニ
ットでの動作の完了の際（すなわちＲＴ結果）のいずれ
かにレジスタを更新する命令のＲＴフィールド（一部の
アーキテクチャではＲＡと同一）によってターゲット・
レジスタとして指定される。さらに、ＧＰＲに格納され
た内容は、オペランドまたはアドレスとして使用するこ
とができる。最後に、当業者に既知のさまざまな実行ア
ーキテクチャが存在し、同様にさまざまなノーメンクレ
チャを使用して、ＧＰＲのさまざまな機能が記述される
ことにも留意されたい。

【００２４】本発明の１実施形態によれば、各プロセッ
サの各ＧＰＲは、他のプロセッサの対応するＧＰＲに関
連する。さらに、各プロセッサのこれらの対応するＧＰ
Ｒは、フォークまたはジョインすることができ、ジョイ
ンされた時には、関連するＧＰＲに、単一のソースから
取り出された同一のデータの同一のコピーが格納され、
フォークされた時には、ＧＰＲに、ローカル・プロセッ
サによって個別に取り出された別々のデータが格納され
る。

【００２５】通常、命令ユニット２４０には、命令レジ
スタ２４２および命令カウンタ（ＩＣ）２４４が含まれ
る。動作中に、命令は、ＩＣ２４４によって参照される
位置に従ってメモリから取り出される。取り出された命
令は、命令レジスタ２４２にラッチされ、これによっ
て、そのプロセッサが、上で述べたＲＢおよびＲＡを使
用して、取り出された命令を実行できるようになる。

【００２６】Ｌ１キャッシュ１２０は、情報をそこから
取り出すことができ、バス１２２を介してＧＰＲ２１０
に格納することができるように配置される。そこから、
ＧＰＲ２１０に格納された情報を、バス２１２を介し
て、アドレス・ユニット２３０に送ってアドレスの計算
に使用するか、動作が実行される実行ユニット２２０に
送ることができる。アドレス・ユニット２３０で実行さ
れたアドレス計算の結果は、バス２３２を介してＬ１キ
ャッシュ１２０に格納される。その一方で、実行ユニッ
ト２２０で実行された動作の結果は、ＧＰＲ２１０に格
納するか、その代わりにバス２２２を介してＬ１キャッ
シュ１２０に格納することができる。

【００２７】情報をＬ１キャッシュ１２０から取り出し
てＧＰＲ２１０に格納するか実行ユニット２２０に入力
として提示することのほかに、情報を、データ・ブロー
ドキャスト・レジスタ２５０からバス２５６を介して取
り出すこともできる。下で説明するように、この形で受
け取られる情報は、他のプロセッサのデータ・ブロード
キャスト・レジスタからバス２５２を介して発する。同
様に、ローカルに格納された情報も、Ｌ１キャッシュ１
２０から他のプロセッサへ、バス２５４を介してデータ
・ブロードキャスト・レジスタ２５０によって送出また
はブロードキャストすることができる。データ・ブロー
ドキャスト・レジスタ２５０と同様に、命令ブロードキ
ャスト・レジスタ２６０も、命令ユニット２４０からロ
ーカルに受け取った命令のバス２６４を介するブロード
キャスト、ならびに、他のプロセッサによってブロード
キャストされた命令のバス２６２を介する受取に使用す
ることができる。

【００２８】本発明の１態様によれば、あるプロセッサ
から他のプロセッサへの情報ブロードキャストは、先入
れ先出し（ＦＩＦＯ）の形でブロード・キャスト・レジ
スタによって容易にされる。図３を参照すると、単一の
プロセッサ１１０の一部が、アクセス制御レジスタ（Ａ
ＣＲ）３１５を含むデコーダ３１０と共に図示されてい
る。デコーダ３１０は、ラッチ３２０および３２１に接
続され、ラッチ３２０および３２１は、図３からわかる
ように、それぞれデータ・ブロードキャスト・レジスタ
２５０および命令ブロードキャスト・レジスタ２６０に
関連する。

【００２９】ラッチ３２０および３２１は、バス３２２
を介して、プロセッサのそれぞれのデコーダに、めいめ
いのブロードキャスト・レジスタが空または満杯のどち
らであるかを示す。したがって、命令ブロードキャスト
・レジスタ２６０にデータ・ワードを格納すると、ラッ
チ３２１がセットまたはフリップされて、バス３２４を
介して、情報が現在命令ブロードキャスト・レジスタ２
６０に保持されていることが、各プロセッサのデコーダ
に示される。それに応答して、各デコーダは、情報をそ
のブロードキャスト・レジスタに格納しなくなる。同様
の形で、情報がブロードキャスト・レジスタから取り出
され、これによってそのブロードキャスト・レジスタが
空になる時には、めいめいのラッチがフリップまたはリ
セットされて、バス３２６を介して、このブロードキャ
スト・レジスタが空であり、情報を受け取る準備ができ
ていることが、デコーダに示される。上記に応答して、
デコーダは、空のブロードキャスト・レジスタから情報
を取り出そうとしなくなる。ラッチ３２０および３２１
をこの形で使用することと、このパイプまたはパイプラ
イン風の形でデータ・ブロードキャスト・レジスタ２５
０および命令ブロードキャスト・レジスタ２６０を配置
することによって、情報を、あるプロセッサから残りの
プロセッサへＦＩＦＯの形でブロードキャストすること
ができる。

【００３０】本発明の１態様によれば、下で説明するよ
うに、コンピュータ・システム１００が、プロセッサ１
１０間の情報の動作およびフローに従って、単一命令ス
トリーム単一データ・ストリーム（ＳＩＳＤ）モード、
単一命令ストリーム複数データ・ストリーム（ＳＩＭ
Ｄ）モード、または複数命令ストリーム複数データ・ス
トリーム（ＭＩＭＤ）モードのいずれでも動作すること
ができる。たとえば、ＳＩＳＤモードでは、ローカル・
プロセッサによって取り出され、他のプロセッサにブロ
ードキャストされる単一の命令が、単一のデータに対し
てすべてのプロセッサによって実行され、このデータ
も、ローカルに取り出され、他のプロセッサにブロード
キャストされる。対照的に、ＳＩＭＤモードでは、ロー
カル・プロセッサによって取り出され、他のプロセッサ
にブロードキャストされる単一の命令が、各プロセッサ
によって、それ自体によって取り出されたそれ自体のロ
ーカル・データに対して実行される。最後に、ＭＩＭＤ
モードでは、プロセッサのそれぞれが、それ自体の命令
を取り出し、この命令をそれ自体のローカル・データに
対して実行する。

【００３１】下で図３に関して説明するように、プロセ
ッサ１１０のそれぞれならびにそれに関連する構成要素
の動作は、メモリから取り出された命令から受け取る入
力（すなわち、ＲＢ、ＲＡ、およびＲＴの値）によっ
て、ＡＣＲ３１５に従って制御される。具体的に言う
と、メモリから取り出される通常の命令には、ＲＢへの
参照と（一部の命令ではＲＡへの参照と）、ＲＴヘの参
照が含まれ、これらの参照は、ＡＣＲ３１５をセットす
るのに使用される。ＡＣＲ３１５の特定のビットは、デ
ータまたは命令がローカルに取り出されるのかメモリの
リモート部分から取り出されるのか、および、データお
よび命令が別のプロセッサでの処理のために送出される
のかローカルに処理されるのかを示す。

【００３２】ＡＣＲ３１５は、ＧＰＲ２１０の使用およ
び更新を制御するために、命令ごとにオンにセットされ
る。具体的に言うと、ＡＣＲ３１５には、単独のＧＰＲ
（たとえばＧＰＲ０）以外のＧＰＲごとに２ビットが
含まれ、単独のＧＰＲには、ＡＣＲ３１５の単独のビッ
トが関連する。同様に、ＩＣ２４４も、ＡＣＲ３１５の
単一のビットに関連する。

【００３３】ＧＰＲ２１０の動作は、ＡＣＲ３１５に格
納された値によって指示される。たとえば、ＩＣ２４４
に関連するＡＣＲビットに格納された０は、命令ストリ
ームがフォークされる（すなわち、システムの各プロセ
ッサがそれ自体の命令ストリームを取り出す）ことを示
す。その一方で、ＩＣ２４４に関連するＡＣＲビットに
格納された１は、命令ストリームがジョインされる（す
なわち、単一のプロセッサが命令を取り出し、残りのプ
ロセッサの命令ユニットにその命令をブロードキャスト
する）ことを示す。同様の形で、図４および図５を参照
すると、ＧＰＲ２１０に関連するＡＣＲの２ビットは、
００をセットされた時にはレジスタがフォークされ、０
１をセットされた時にはレジスタがジョインされること
を示す。ＡＣＲＧＰＲビットの上位ビットに１をセッ
トせることによって、いくつかの状況で（すなわち、Ｉ
ＣレジスタがジョインされるかＩＣに関連するＡＣＲビ
ットに１がセットされている時）ローカル・メモリに対
するインターリーブを強制することができる。

【００３４】本発明のインターリーブ方式に関して、各
Ｌ１は、Ｌ２に対してローカルであり、Ｌ２は、メモリ
に対してローカルである。動作中には、コンピュータ・
システム１００は、Ｌ１ミスをもたらして、Ｌ２または
メモリにアクセスする。しかし、Ｌ１ミスによってＬ２
またはメモリにアクセスする場合であっても、ローカル
Ｌ２またはローカル・メモリへのアクセスが、より高速
であり、したがって好ましい。この形でのメモリの分割
を、インターリーブされていると称する。

【００３５】メモリがインターリーブされる時には、メ
モリ・アドレス・ビットのサブセット（たとえば、アド
レスのページ・ビット）を使用して、どのメモリにアク
セスするかを判定する。たとえば、アドレスの右端から
１２番目および１３番目のビットを、インターリーブ・
ビットとして使用することができる。

【００３６】ローカル・メモリへのインターリーブを強
制することによって、各ＧＰＲが、ローカル・メモリか
らデータを取り出す。具体的に言うと、命令、たとえば
下で説明するload forked address命令（ＬＦＡ）が、
各ＧＰＲによって生成されるアドレスのインターリーブ
・ビットにローカル・プロセッサ識別子（ＩＤ）を挿入
する。これによって、各ＧＰＲが、それ自体のローカル
・メモリからの取出を強制される。たとえば、インター
リーブを強制することによって、プロセッサ０１に属す
るＧＰＲから生成されるアドレスのインターリーブ・ビ
ットが強制的に０１にされる。これによって、プロセッ
サ０１の取出が、そのローカル・メモリから、言い換え
ればＬ２キャッシュ０１から行われるようになる。した
がって、メモリへのインターリーブが強制される時に
は、プロセッサ００は、Ｌ２キャッシュ００にローカル
なメモリまたはインターリーブ００からの取出を強制さ
れ、同様に、プロセッサ０１は、Ｌ２キャッシュ０１に
ローカルなメモリまたはインターリーブ０１からの取出
を強制される。

【００３７】さらに例を示すと、ＧＰＲがジョインさ
れ、メモリ・アドレスのインターリーブ・ビットが００
である時には、００のＩＤを有するプロセッサが、その
ローカル・キャッシュおよびローカル・メモリから取り
出す。ＬＦＡＲＴ、ＲＢ命令の実行によって、ＲＴの
ＡＣＲビットに１０がセットされる。その後、ＲＴが、
そのＡＣＲビットが前に１０にセットされたのでＲＢと
して使用される時に、ＧＰＲは、フォークされた取出を
もたらし、すべてのプロセッサがそれ自体のデータを取
り出し、アドレス・ジェネレータに、生成するアドレス
を強制的にローカルにさせる。すなわち、各プロセッサ
によって生成されるアドレスは、強制的にローカル・メ
モリ・インターリーブ・アドレスと一致するようにされ
る。後続のフォークされた取出は、ローカルである必要
はないが、リモート取出は、もはやミス・タイムを有し
ない。また、フォークされたモードでの非ローカル・メ
モリからの取出は、プロセッサが同一のメモリ位置から
の取出を試みる場合に、メモリ・インターフェースに関
する競合を引き起こす可能性がある。しかし、これによ
って、フォークされたプロセッサが、標準共用メモリ・
マルチプロセッサまたはＳＭＰとして働くことが可能に
なる。

【００３８】動作のさまざまな状態の間の遷移は、メモ
リから取り出される特定の命令に応答し、ＡＣＲ３１５
のビットの設定に応答して発生する。図５を参照する
と、ＡＣＲＩＣビットに０がセットされ（複数命令ス
トリームがあることを示す）、特定のＧＰＲのＡＣＲビ
ット（ＡＣＲＧＰＲ）に００がセットされている（そ
のＧＰＲがフォークされることを示す）時には、ＧＰＲ
から別々のアドレスが生成され、そのアドレスが、各プ
ロセッサによってメモリにアクセスするために独立に使
用される。各プロセッサが、それ自体のアドレスを生成
するので、ブロードキャストは発生しない。アドレスを
生成した後に、そのアドレスは、めいめいのターゲット
・レジスタに個別に格納される。その時点で、ターゲッ
ト・レジスタに関連するＡＣＲビットに、００がセット
され、ターゲット・レジスタがフォークされることと、
各プロセッサが独立にロードされるＲＴを有することが
示される。さらに、実行される命令が分岐命令である場
合には、ＡＣＲＩＣビットが０に更新されて、フォー
クされた命令ストリームまたは複数命令ストリームが示
される。

【００３９】ＡＣＲＩＣビットに０がセットされ（複
数命令ストリームがあることを示す）、特定のＧＰＲの
ＡＣＲビットに０１がセットされている（ＧＰＲがジョ
インされることを示す）時には、ＧＰＲから単一のアド
レスが生成される。命令がロード命令である場合には、
アドレスは、ローカル・メモリから生成される。命令が
分岐命令である場合には、その命令は、プロセッサがそ
の命令に含まれるプロセッサＩＤに従ってアドレスを生
成しなければならないことを示す。このアドレスは、そ
の後、残りのプロセッサにブロードキャストされる。そ
の後、ターゲット・レジスタに関連するＡＣＲビットに
００がセットされ、ターゲット・レジスタがフォークさ
れることを示す。さらに、実行される命令が分岐命令の
場合には、ＡＣＲＩＣビットが１に更新され、結果の
ブロードキャストを必要とするジョインされた命令スト
リームまたは単一命令ストリームが示される。

【００４０】ＡＣＲＩＣビットに１がセットされ（単
一命令ストリームがあることを示す）、特定のＧＰＲの
ＡＣＲビットに００がセットされている（ＧＰＲがフォ
ークされることを示す）時には、ＧＰＲから別々のアド
レスが生成され、このアドレスが、各プロセッサによっ
て、メモリのアクセスに独立に使用される。各プロセッ
サがそれ自体のアドレスを生成するので、ブロードキャ
ストは発生しない。アドレス生成の後に、アドレスは、
めいめいのターゲット・レジスタに個別に格納される。
その時点で、ターゲット・レジスタに関連するＡＣＲビ
ットに００がセットされ、ターゲット・レジスタがフォ
ークされることを示す。さらに、実行される命令が分岐
命令である場合には、ＡＣＲＩＣビットが０に更新さ
れ、フォークされた命令ストリームまたは複数命令スト
リームが示される。

【００４１】ＡＣＲＩＣビットに１がセットされ（単
一命令ストリームを示す）、特定のＧＰＲのＡＣＲビッ
ト（ＡＣＲＧＰＲ）に０１がセットされている（ＧＰ
Ｒがジョインされることを示す）時には、ＧＰＲから単
一のアドレスが生成される。この場合、アドレス・レジ
スタがジョインされるので、プロセッサＩＤを介して命
令によって示されるプロセッサが、アドレスを生成す
る。結果のアドレスは、その後、他のプロセッサにブロ
ードキャストされる。その後、ターゲット・レジスタに
関連するＡＣＲビットに０１がセットされ、ターゲット
・レジスタがジョインされることが示される。さらに、
実行される命令が分岐命令の場合には、ＡＣＲＩＣビ
ットが１に更新され、結果のブロードキャストを必要と
する単一命令ストリームがあることが示される。

【００４２】ＡＣＲＩＣビットに１がセットされ（単
一命令ストリームを示す）、特定のＧＰＲのＡＣＲビッ
トに１０がセットされている（ローカル・メモリへのイ
ンターリーブの強制を示す）時には、各プロセッサが、
それ自体のアドレスを生成し、生成されるアドレスは、
上で説明したインターリーブ方式に従ってローカル・メ
モリになることを強制される（すなわち、プロセッサ０
１はインターリーブ０１を強制され、プロセッサ１０は
インターリーブ１０を強制されるなど）。そうすること
によって、ジョインされたＧＰＲを伴うＳＩＳＤプログ
ラムをフォークして、ＳＩＭＤモードでの動作を開始す
ることができる。その後、ターゲット・レジスタに関連
するＡＣＲビットに００をセットして、それらがフォー
クされることを示す。さらに、実行される命令が分岐命
令である場合には、ＡＣＲＩＣビットを０に更新す
る。

【００４３】次に、いくつかの状態が、予約済みである
かエラーをもたらすかのいずれかであり、結果的に、こ
れ以上説明されないことに留意されたい。これには、
１）ＡＣＲＩＣ＝０、ＡＣＲＲＢ＝０１、２）ＡＣ
ＲＩＣ＝０、ＡＣＲＲＢ＝１１、および３）ＡＣＲ
ＩＣ＝１、ＡＣＲＲＢ＝１１が含まれる。

【００４４】本発明の１態様によれば、Load Forked Ad
dress（ＬＦＡ）命令は、データが、ローカルに取り出
された後にブロードキャストされるようにする。具体的
に言うと、この命令に含まれるインターリーブ・ビット
が、どのプロセッサが取り出すかを判定するのに使用さ
れる。これに関して、インターリーブ・ビットによって
示されるメモリに対してローカルなプロセッサが、取り
出し、残りのプロセッサにブロードキャストする。ブロ
ードキャストの後に、ターゲット・レジスタのＡＣＲビ
ットに、１０がセットされる。上で述べたように、それ
に関連するＡＣＲビットに１０をセットされたレジスタ
の後続の使用は、ＳＩＳＤモードからＳＩＭＤモードへ
の遷移を引き起こす。

【００４５】Load Joined Address（ＬＪＡ）命令は、
ＬＦＡ命令とは異なって、ＧＰＲのＡＣＲビットに０１
をセットさせる。ＬＪＡ命令が実行される時には、デー
タは、プロセッサ００によってローカルに取り出され、
ブロードキャストされる。その後、ターゲットＧＰＲに
関するＡＣＲに０１がセットされる。アドレス・レジス
タとしてのそのレジスタの後続の使用は、ロードされる
アドレスに対してローカルなプロセッサによる取出およ
びブロードキャストをもたらす。この形で、フォークさ
れたＧＰＲを伴うＳＩＭＤモードでの動作が、ジョイン
されたＧＰＲを伴うＳＩＳＤモードにシフトされる。

【００４６】バリヤ命令での分岐によって、個々のプロ
セッサが同期化される。具体的に言うと、この命令によ
って、個別に実行中のプロセッサが、バリヤで一時的に
処理を停止し、その後、残りのプロセッサがそのバリヤ
に来るのを待つ。さらに、バリヤにいるプロセッサは、
限られた時間（すなわちタイムアウト期間）の間だけ、
他のプロセッサを待つことを許可される。タイムアウト
期間の終りに、少なくとも１つのプロセッサがバリヤに
到着していないと仮定すると、エラーが生成される。そ
の一方で、タイムアウトの前にすべてのプロセッサがバ
リヤに到着したと仮定すると、ＩＣのＡＣＲビットに１
をセットすることによって、命令ストリームがジョイン
される。この形で、システムの動作を、複数命令ストリ
ームから単一命令ストリームに切り替えることができ
る。

【００４７】命令ストリームをジョインするもう１つの
処理には、ジョインされたベース・レジスタを用いる分
岐命令の実行が含まれる。この技法を、図７に関して下
で詳細に説明する。

【００４８】図６を参照すると、さまざまな計算機状態
（すなわち、ＳＩＳＤモード、ＳＩＭＤモード、および
ＭＩＭＤモード）と、それらのお互いとの関係が記載さ
れている。ジョインされたＳＩＳＤモードでは、コンピ
ュータ・システム１００が、単一プロセッサ・モードで
動作する。このモードでは、プロセッサ内の各ＧＰＲ
が、残りのプロセッサの対応するＧＰＲとジョインされ
る。動作中には、単一命令ストリームが、プロセッサに
よって実行される。具体的に言うと、命令ストリームお
よびデータ・ストリームにローカルなプロセッサが、メ
モリから命令を取り出し、実行する。したがって、命令
のアドレスおよびデータのアドレスによって、メモリに
アクセスするプロセッサが指定される。アドレスが、特
定のプロセッサの範囲外にシフトした時には、異なるプ
ロセッサが、動作を開始する。その結果、どの時点で
も、システム内の単一のプロセッサが動作する。

【００４９】Load Forked Address命令の実行によっ
て、ジョインされたＳＩＳＤモードからフォークされた
ＳＩＳＤモードへの遷移を行うことができる。上で述べ
たように、この命令は、ＧＰＲに関連するＡＣＲビット
に１０をセットすることによって、ジョインされたレジ
スタをフォークする。フォークの後に、そのＧＰＲは、
独立に働き、本発明のインターリーブ方式に従ってアド
レスをを生成する。

【００５０】システムの動作は、フォークされたレジス
タを実際に使用することによって、ＳＩＳＤモードから
ＳＩＭＤモードにシフトまたは遷移する。たとえば、上
で述べたようにＬＦＡ命令によってフォークされたレジ
スタにロードすると、各プロセッサが独立にデータを取
り出すようになる。ＳＩＭＤモードでは、各プロセッサ
がメモリのそれ自体のローカル部分から取り出したデー
タを使用して、プロセッサが単一命令ストリームを実行
する（すなわち、命令が、ローカル・プロセッサによっ
て取り出され、他のプロセッサにブロードキャストされ
る）。したがって、各プロセッサは、同一の命令を受け
取るが、異なるデータ要素を操作する。

【００５１】ＳＩＳＤモードからＳＩＭＤモードに戻る
ために、ＬＪＡ命令を実行することができる。この命令
を用いると、プロセッサ００が、取出を実行し、残りの
プロセッサにブロードキャストする。他のプロセッサ
は、ブロードキャスト・データをそのターゲット・レジ
スタに格納し、これによって、これらのレジスタがジョ
インされる。さらに、このＧＰＲに関連するＡＣＲビッ
トにも、ジョインされた状態を示す０１がセットされ
る。

【００５２】ＳＩＭＤモードまたはフォークされたＳＩ
ＳＤモードで動作している間は、フォークされたＲＢを
伴う分岐命令の実行によって、プロセッサが分割され
る。これによって、動作がＭＩＭＤモードに切り替えら
れ、各プロセッサが、独立に取り出したデータを使用し
て、それ自体の命令ストリームを実行できるようにな
る。ＭＩＭＤモードでは、プロセッサのそれぞれが、そ
れ自体の命令を取り出し、この命令を、それ自体のロー
カル・データに対して実行する。したがって、各プロセ
ッサは、独立であり、それ自体の命令およびそれ自体の
データに対して動作する。

【００５３】ＭＩＭＤモードから抜けるためには、バリ
ヤ命令での分岐を使用するバリヤ同期化（barrier sync
hronization）を実行する。図７を参照すると、バリヤ
命令が読み取られ、バリヤ同期化がもたらされる。この
命令を受け取るプロセッサは、スピンまたは一時停止
し、他のプロセッサに関する結果または更新を受け取る
まで、処理をやめる。この結果は、すべてのエンジンが
バリヤに到達する前にタイムアウトまたは割込みが発生
した場合には、たとえば−１である。すべてのエンジン
がタイムアウト以内にバリヤに到達した場合には、たと
えば０が返される。この時点で、ＩＣのＡＣＲビット
に、単一命令ストリームを示す１がセットされる。

【００５４】コンピュータ・システム１００の動作を、
図８および図９に関して詳細に説明する。通常、コンピ
ュータ・システム１００は、ＭＩＭＤモードで動作を開
始する１０１０。ＭＩＭＤモード中は、ＡＣＲＩＣビ
ットに０がセットされ、ＡＣＲＲＴビットに００がセ
ットされる。その結果、各プロセッサは、それ自体の命
令を取り出し、ローカルに取り出されたデータに対して
これらの命令を実行することによって、独立に動作す
る。

【００５５】このモードでの実行中に、同期化を実行す
ることによって、または、言い換えれば、個々のプロセ
ッサの動作を同期化することによって、動作をＭＩＭＤ
モードからシフトすることができる。これに関して、通
常は２つの状況が、同期化を引き起こす。第１に、ジョ
インされたＧＰＲ（すなわち、ＡＣＲビットに０１がセ
ットされている）に対して実行される分岐命令１０２０
が、同期化１０３０を引き起こすことができる。この場
合、同期化に関して、エラーを返す前の比較的短いタイ
ムアウトが提供される。

【００５６】もう１つの場合には、バリヤ命令での分岐
１０４０が、やはりエンジン０からのブロードキャスト
を介して同期化をもたらすことができる１０５０。上で
述べたように、この命令によって、プロセッサが同期化
するためのより長いタイムアウト期間が可能になる。同
期化された時に、任意のプロセッサ、この例ではエンジ
ン００が、命令を取り出し、残りのプロセッサにブロー
ドキャストし、したがって、命令ストリームがジョイン
される。

【００５７】たとえばジョインされたＧＰＲを用いて実
行される分岐命令またはバリヤ命令での分岐からの同期
化イベントがない場合には、処理はＭＩＭＤモードで継
続される１０１０。

【００５８】同期化が行われる場合、ＩＣのＡＣＲビッ
トに１がセットされ、これによって、命令ストリームが
ジョインされる１０６０。その時点で、処理は、ＲＢの
状態に従って、またはＬＪＡ命令が取り出されるかどう
かに従って、ＳＩＭＤモードまたはＳＩＳＤモードのい
ずれかで継続される１０７０。具体的に言うと、ＬＪＡ
命令が取り出されるか、ジョインされたＧＰＲ（ＡＣＲ
ビットに０１がセットされている）が使用されるかのい
ずれかの場合に、処理がＳＩＳＤモードで継続される１
０８０。

【００５９】ＳＩＳＤモード１０８０では、単一の命令
が取り出され、実行される。同様に、単一データ・スト
リームが、プロセッサによって実行される。したがっ
て、上で説明したように、命令ストリームおよびデータ
・ストリームに対してローカルなプロセッサが、本発明
のインターリーブ方式によって指示されるように、メモ
リから命令を取り出し、実行する。

【００６０】その後、ステップ１０９０で、ＲＡに関連
するＡＣＲビットに、それがジョインされることを示す
０１がセットされているかどうかと、ＬＪＡ命令が取り
出されたかどうかとによって、複製された実行を用いて
ＳＩＳＤモードで処理を継続する１１００か、並列実行
を用いるＳＩＭＤモードで処理を継続する１１４０かが
示される。具体的に言うと、ＲＡがジョインされる時、
またはＬＪＡ命令が実行される時に、処理は、複製され
た実行を用いてＳＩＳＤモードで、すなわち、各プロセ
ッサが同一の動作を実行し、同一の結果をＲＴに格納す
る単一プロセッサ・モードでの動作で、継続される１１
００。対照的に、ＬＪＡ命令以外の命令が実行される時
には、並列実行を用いるＳＩＭＤモードでの処理が開始
される１１４０。

【００６１】複製された実行を用いるＳＩＳＤモード１
１００から、動作は、取り出される命令がＬＦＡ命令で
ない場合１１１０には、ＳＩＳＤモードにとどまること
ができる。具体的に言うと、取り出される命令がＬＦＡ
命令でない場合には、ステップ１１２０でＲＴに関連す
るＡＣＲに０１がセットされ、この場合、ＧＰＲがジョ
インされ、処理はＳＩＳＤモードで継続される。

【００６２】その一方で、ＬＦＡ命令が取り出される場
合には、ステップ１１３０で、ＲＴに関連するＡＣＲに
１０がセットされる。この場合、このＧＰＲの次の使用
が、ＳＩＭＤ動作をもたらし、このＳＩＭＤ動作が、追
加のＧＰＲに命令を複数命令ストリームにフォークまた
は分割させ、ＭＩＭＤモードへの遷移を引き起こす。

【００６３】その一方で、ステップ１０９０で、ＬＪＡ
命令が取り出されず、ジョインされないＲＡ（すなわ
ち、ＡＣＲビットに１０または００をセットされている
ことによって示される）が使用される場合には、ＳＩＳ
Ｄモードの処理１１００の代わりに、並列実行を用いる
ＳＩＭＤモードで処理が継続される１１４０。この場
合、ステップ１１５０で、ＲＴに関連するＡＣＲビット
に００がセットされ、ＲＴが、現在はフォークされ、各
プロセッサによって独立に取り出されるか生成される異
なるデータを含むことが示される。

【００６４】ステップ１０７０に戻って、アドレスの生
成に使用されるＧＰＲが、ジョインされない（すなわ
ち、このＲＢに関連するＡＣＲビットに０１以外の値が
セットされている）場合、かつ、ＬＪＡ命令以外の命令
が取り出される場合には、ＳＩＳＤモードに入る代わり
に、処理が、並列取出を用いるＳＩＭＤモードで継続さ
れる１１６０。この場合、各プロセッサが、それ自体の
データを取り出す。

【００６５】並列取出を用いるＳＩＭＤモード１１６０
から、ステップ１１７０の分岐命令で、命令ストリーム
がフォークされ、ステップ１１７５で、ＩＣのＡＣＲビ
ットに０をセットすることによって、その旨が示され
る。命令ストリームをフォークすることによって、処理
は、その後、ＭＩＭＤモード１０１０に戻る。

【００６６】ステップ１１７０で、分岐命令以外の命令
が取り出される場合には、処理は、上で述べた並列実行
を用いるＳＩＭＤモード１１４０で継続される。

【００６７】上で説明したのは、レジスタのジョインお
よびフォークに頼ることによってコンピュータ・システ
ムを動作させるための技法および機構である。具体的に
言うと、ジョインされた時に、レジスタには同一の情報
が含まれる。これに対して、フォークされた時に、レジ
スタには、異なる情報が含まれる。レジスタをジョイン
されたモードからフォークされたモードに切り替えられ
るようにすることによって、コンピュータ・システム
を、複数の動作モードの間ですばやく効率的に切り替え
ることができる。さらに、本発明は、メモリの区分を介
し、特定のメモリ・セクションにローカルなプロセッサ
による情報の取出およびブロードキャストを介して、よ
り高いメモリ帯域幅およびより大きく高速のキャッシュ
も提供する。

【００６８】図１０に、本発明の１態様による、レジス
タ・パイプ機能を実施する、全般的に符号１０で示され
るマルチプロセッサ・コンピュータ・システムの１実施
形態を示す。この実施形態では、ＣＰＵ０、ＣＰＵ
１、ＣＰＵ２、およびＣＰＵ３と記された４つの処
理エンジン１２が、本発明に従うレジスタ・パイプ１４
を使用して完全に直接に相互接続される。各使用可能に
されたレジスタ・パイプは、そのパイプが接続するＣＰ
ＵＩＤの対によって識別される。たとえば、ＣＰＵ
１とＣＰＵ２の間の接続は、タプル（１、２）によっ
て知られる。各ＣＰＵの中では、レジスタ・パイプ１４
ごとに、その特定のパイプに接続されたＣＰＵを表す数
が識別される。完全に接続されたｎ個のＣＰＵのセット
は、ｎ（ｎ−１）／２個の可能な直接パイプ接続を有す
る。この図に示されたＣＰＵは、本発明の原理によるレ
ジスタ・パイプを使用して相互接続することができる処
理エンジンの１例にすぎないことに留意されたい。

【００６９】本明細書で提示されるように、レジスタ・
パイプは、１実施形態では、実施されるパイプに汎用レ
ジスタ（ＧＰＲ）をマッピングし、これによって２つの
処理エンジンを接続することによって構築することがで
きる。マルチプロセッサ・コンピュータ・システム内の
各プロセッサは、通常、複数の汎用レジスタを有し、た
とえば、通常のアーキテクチャで１６個のＧＰＲを設け
ることができる。例として、最初に提示した、４つの処
理エンジンの単一プロセッサ実施形態の説明を参照され
たい。汎用レジスタを特定のパイプにマッピングするこ
とによって、ある命令がその特定のＧＰＲを指す時に必
ず、パイプがその時点で使用可能にされていると仮定し
て、そのパイプが使用される。

【００７０】使用可能にされたパイプのそれぞれは、パ
イプが接続される処理エンジンのＣＰＵＩＤと一致す
る下位アドレス・ビットを有するＧＰＲとしてアドレッ
シングすることができる。１６ＧＰＲ計算機では、たと
えばＣＰＵ１とＣＰＵ２の間のパイプを、ＣＰＵ
１ではＧＰＲｘｘ１０として、ＣＰＵ２ではＧＰＵ
ｘｘ０１としてアドレッシングすることができる。パ
イプにマッピングするには１つのＧＰＲだけが必要なの
で、ｘｘは、任意とすることができ、規則によって、１
例では１１がセットされる。ＧＰＲマッピングによっ
て、パイプを、あらゆる命令のソース・レジスタまたは
ターゲット・レジスタにすることができる。前に示した
４つの処理エンジンの間のレジスタ・パイプを完全に実
施するためには、各プロセッサ内で４つのＧＰＲが必要
になるはずである。１６ＧＰＲ実施形態では、これによ
って、他の処理のためにまだ８つのＧＰＲが残されるこ
とに留意されたい。

【００７１】本発明に従って、図１０の符号１６の第４
のＧＰＲアドレスを、放射するまたは統合するパイプ・
アドレスとして使用することができる。たとえば、デー
タをあるＣＰＵから他のすべてのＣＰＵに書き込まなけ
ればならない場合には、この第４のパイプ・アドレスを
使用して、他のすべてのパイプにデータをブロードキャ
ストすることができる。逆に、たとえば上で述べたもの
などのバリヤ同期化機能を容易にするために、すべての
パイプからデータを読み取らなければならない場合に、
この第４のパイプ・アドレスを使用することができる。
このブロードキャスト／統合パイプは、１例ではパイプ
００として、各処理エンジン内で参照することができ
る。したがって、命令がパイプ００に書き込む場合に
は、データが、そのエンジンに接続されたすべての他の
パイプにブロードキャストされ、データがパイプ００か
ら読み取られる場合には、バリヤ同期化が実行される。

【００７２】図１１に、接続ファブリック２２がマルチ
プロセッサ・コンピュータ・システムの処理エンジンに
よって共用される、本発明の代替実施形態を示す。共用
接続２４が、接続ファブリック２２を各処理エンジン１
２に結合する。使用可能な多数の相互接続トポロジが存
在することを、当業者は理解するであろう。例として、
接続ファブリックに、リング、ネットワーク、メッシ
ュ、または完全に接続されたスイッチ構造などの相互接
続構造を含めることができる。

【００７３】図１０の実施形態と共通しているのが、各
処理エンジン内で、レジスタが、所望のパイプ・レジス
タを作成するために選択的にマッピングされることであ
る。１実施形態では、パイプのこのマッピングを、命令
の処理中にレジスタ・パイプを選択的に使用可能にする
ことができるという点で、動的にすることができる。Ｃ
ＰＵＩＤタプルを使用して、共通のファブリックまた
はスイッチを介してデータを経路指定することができ、
したがって、ＣＰＵの数が増える際の直接レジスタ・パ
イプ（direct register pipe）に関連するコストが回避
される。これは、マルチプロセッシング・システムの完
全な相互接続に必要なパイプの数がｎ²で増加するの
で、重要になる可能性がある。１実施形態では、デステ
ィネーションＣＰＵＩＤを使用して、ファブリックを
制御することができ、ターゲットＣＰＵＩＤを使用し
て、デスティネーション側で、到着するデータが来るパ
イプを識別することができる。低レベルのスケーリング
では、図１０の完全に接続されたネットワークが、最も
高速かつ単純な動作を可能にし、より高いレベルでは、
図１１の実施形態がより実用的になる可能性がある。

【００７４】汎用レジスタを有するプロセッサの１つの
単純な実施形態では、汎用レジスタの１つのコピーと、
実行される命令内のレジスタ・ポインタ・フィールドに
基づいてこれらのレジスタにアクセスする単一の実行ユ
ニットがある。上で説明したレジスタ・パイプの概念
は、例示のためにそのようなアーキテクチャを使用して
示された。しかし、本発明の概念を、より複雑なアーキ
テクチャに簡単に拡張できることを、当業者は諒解する
であろう。

【００７５】さらに、説明を明瞭にするために、各パイ
プが４つのレジスタを使用して実施されると仮定する。
たとえば、パイプ（０、１）は、ＣＰＵ１のイン・レ
ジスタ（in reg）に供給するＣＰＵ０のアウト・レジ
スタ（out reg）と、ＣＰＵ０のイン・レジスタに供給
するＣＰＵ１のアウト・レジスタによって実施される
と仮定される（下の図１２ないし図１４を参照された
い）。レジスタ・マッピングの時には、イン・レジスタ
とアウト・レジスタのそれぞれが、それが存在するＣＰ
Ｕ内のＧＰＲにマッピングされる。すなわち、パイプ
（０、１）が使用可能にされる時には、ＣＰＵ０のＧ
ＰＲｘｘ０１への書込が、パイプ（０、１）に関連す
るイン・レジスタに書き込まれる。同様に、ＧＰＲｘ
ｘ０１からの読取は、パイプが使用可能にされている時
には、パイプ（０、１）に関連するアウト・レジスタか
らデータを受け取る。

【００７６】イン・レジスタ、アウト・レジスタ、およ
びＧＰＲの物理的実施形態は、複数の形をとることがで
きる。たとえば、各プロセッサのＧＰＲおよびイン・レ
ジスタを、ＧＰＲとして実施することができる。これに
よって、イン・レジスタの別の実装が節約され、コンテ
キスト切替え時にその内容を別に保管することも行われ
なくなる。さらに、たとえばＣＰＵ１のアウト・レジ
スタを、ＣＰＵ０のＧＰＲにアーキテクチャ的にマッ
ピングすることが可能である。この場合、すなわち、サ
イクル・タイム、配線長、およびロジック速度が、たと
えばＣＰＵ１実行ユニットからＣＰＵ０のＧＰＲへ
の１サイクル以内のデータの直接転送を可能にする場合
に、アウト・レジスタは、タイミング目的のみのために
存在し、アーキテクチャ的には存在しない。

【００７７】本発明の実施形態は、アウト・レジスタお
よびイン・レジスタを物理的に実施せずに達成すること
ができる。実用上の問題として、このタイミング状況
は、発生する可能性が低く、本発明を、ＣＰＵの命令ス
トリームの間の転送遅延およびスキューを許容するため
に２サイクルのバッファリングを有するものとして示
す。これは、データ・パイプが、コンテキスト切替えの
際にターゲットＧＰＲに内容をフラッシュしなければな
らず、ＧＰＲの読取の前にアウト・レジスタへの書込が
許可される場合には、アウト・レジスタを別に保管しな
ければならないことを意味する。トレードオフは、ＣＰ
Ｕがコンテキスト切替え時に保管しなければならない
「状態」のサイズの増加と、イン・レジスタ・ステージ
およびアウト・レジスタ・ステージの間にあるパイプに
データをスタックする能力の間にある。パイプのステー
ジ数が増えるほど、より多くの状態データを保管しなけ
ればならない。

【００７８】代替実施形態として、汎用レジスタのマッ
ピングを必要とせずに、直接にパイプにアクセスするよ
うに命令を構成することができる。レジスタへのマッピ
ングによって、すべての命令による柔軟なパイプの使用
が可能になるが、パイプが使用可能にされた時に、マッ
ピングされたＧＰＲがパイプ接続専用になる。パイプ転
送用の明示的な命令を用いて、このＧＰＲマッピングの
コストを回避する。新規のバイナリ命令アーキテクチャ
が使用可能である時には、ＧＰＲフィールドの余分のビ
ットによって、ＧＰＲではなくパイプの使用を識別する
ことができる。しかし、限られたＧＰＲセットと、既存
の命令アーキテクチャ制約とを有する計算機の場合、Ｇ
ＰＲの代わりにパイプを明示的にアドレッシングする命
令の追加も機能する。実際、レジスタ・マッピングが実
施される時であっても、少数のそのような命令が望まし
いことがしばしばである。

【００７９】主な価値を有する命令は、パイプのロー
ド、パイプからのストア、レジスタからパイプへの移
動、およびパイプからレジスタへの移動になるはずであ
る。これらの命令は、通常の命令と同様に機能するが、
そのオペランドＧＰＲポインタの１つが、パイプのアド
レッシングに使用される。実際、これは、命令のオペコ
ード・フィールドを使用して、ＧＰＲポインタの制限付
きの拡張を行うことである。加算、総計の比較、および
ソートなどのいくつかの命令は、パイプ構造のサブセッ
トを使用する実施に向いている。

【００８０】たとえば、大量の線形代数を実行する計算
機では、「積和」命令が実施されることがしばしばであ
る。この命令は、乗算を実行し、その結果を累計レジス
タに加算する。１６ウェイ・ベクトル乗算を検討された
い。単一の計算機内に、実行される１６個の積和があ
る。単純にリングに接続された４個のプロセッサを有す
る計算機内では、これは、４つの積和と２つのパイピン
グされた加算によって実行することができる。パイプが
ない場合には、４ウェイ計算機は、各最終的な加算の前
にストアを実行しなければならない（ＲＩＳＣ計算機
（ＩＢＭ社が提供する）では、これがＳｔｏｒｅ、Ｌｏ
ａｄ、Ａｄｄになる）。これにはメモリの共用が含まれ
るので、同期化オーバーヘッドが大きく、したがって、
コストは、単純に命令を足し合わせたものより大きい。

【００８１】本発明の原理によるレジスタ・パイプを実
施するための１実施形態を、図１２ないし１４に関して
下で説明する。上で注記したように、本発明のレジスタ
・パイプ機能は、たとえば汎用レジスタ用の、１種のレ
ジスタ制御方式であり、これによって、情報がコンピュ
ータ・システムの主記憶を通過することを必要とせず
に、第１処理エンジンから第２処理エンジンへの情報の
直接転送が可能になる。直接接続実施形態では、レジス
タ・パイプに、第１処理エンジンと第２処理エンジンを
結合する第１パイプ・セクションと、第１処理エンジン
と第２処理エンジンを結合する第２パイプ・セクション
が含まれる。第１パイプ・セクションには、第１処理エ
ンジンの出力レジスタおよび第２処理エンジンの入力レ
ジスタを含めることができ、第２パイプ・セクションに
は、第１処理エンジンの入力レジスタおよび第２処理エ
ンジンの出力レジスタを含めることができる。

【００８２】図１２に、マルチプロセッシング・コンピ
ュータ・システム内のＣＰＵなどの処理エンジン１２の
１実施形態を示す。処理エンジン１２には、図２に関し
て上で提供した説明に類似する形で機能する、Ｌ１キャ
ッシュ３０、ＧＰＲ３２、および実行ユニット３４が含
まれる。さらに、各プロセッサ内には、１実施形態で具
体的にＧＰＲ３２にマッピングされる、パイプ・アウト
・レジスタ（pipe outregister）４０およびパイプ・イ
ン・レジスタ（pipe in register）４２がある。

【００８３】当業者には明白であるように、任意の個数
のＧＰＲ、たとえば１６個を、各プロセッサ内に含める
ことができる。各ＧＰＲは、さまざまな目的に使用する
ことができる。たとえば、１つまたは複数のＧＰＲを、
アドレス・レジスタとして使用し、単一アドレス・レジ
スタ命令のＲＢフィールド、および複数アドレス・レジ
スタ命令のＲＢフィールドおよびＲＡフィールドによっ
て、その旨を指定することができる。同様に、本発明を
説明するために、ＧＰＲを、ターゲット・レジスタ（す
なわち、動作の実行後のデータのデスティネーション）
として使用し、メモリ（すなわちＲＴキャッシュ）から
データを取り出した時または実行ユニット内の演算の完
了時（すなわちＲＴ結果）のいずれかにレジスタを更新
する命令のＲＴフィールド（一部のアーキテクチャでは
ＲＡと同一）によってその旨を指定することができる。
さらに、ＧＰＲに含まれる内容を、オペランドまたはア
ドレスとして使用することができる。

【００８４】Ｌ１キャッシュ３０は、そこから情報を取
り出し、ＧＰＲ３２に格納するか、実行ユニット３４に
転送することができるように配置される。さらに、情報
は、本発明の原理に従ってパイプ・アウト・レジスタ４
０に転送するために、Ｌ１キャッシュ３０から取り出す
ことができる。別のプロセッサから受け取るデータは、
パイプ・イン・レジスタ４２を介して、実行ユニット３
４のＡ入力およびＢ入力として渡される。実行ユニット
３４の結果は、図示のように、Ｌ１キャッシュ３０、Ｇ
ＰＲ３２、またはパイプ・アウト・レジスタ４０に転送
することができる。

【００８５】本発明の原理によれば、３つの出力レジス
タが、３のパイプ・イン・レジスタ４２と共に、マルチ
プロセッシング・コンピュータ・システムの３つの他の
処理エンジンに接続されるものとして図示されている。
やはり、レジスタは、本発明のこの態様に従ってマッピ
ングされ、その結果、ＧＰＲへの書込の代わりに、デー
タが、たとえばパイプ・アウト・レジスタに書き込まれ
る。また、データを読み取る時には、ＧＰＲからデータ
を読み取る代わりに、パイプ・イン・レジスタからデー
タを読み取ることができる。本質的に、レジスタ・パイ
プの各パイプ・セクションは、２つのレジスタすなわ
ち、第１処理エンジンの出力レジスタと第２処理エンジ
ンの入力レジスタからなる先入れ先出し（ＦＩＦＯ）バ
ッファである。レジスタ・パイプが満杯になったなら
ば、追加の情報をそのパイプに置く前に、他端でデータ
を読み出さなければならない。

【００８６】図１３および図１４に、それぞれパイプ出
力レジスタおよびパイプ入力レジスタの制御方式の１実
施形態を示す。まず図１３を参照すると、３つのパイプ
・アウト・レジスタ４０が図示されている。セレクタＳ
は、Ｌ１キャッシュ３０（図１２）からのデータまたは
実行ユニット３４（図１２）からの結果の間で選択する
ために、各パイプ・アウト・レジスタ４０への入力にあ
る。デコード・ユニット５０からの制御信号５３が、ど
のデータを出力するかを制御する。デコード・ユニット
５０は、ターゲット・レジスタ（ＲＴ）の結果またはキ
ャッシュ入力と、アクセス制御信号を入力として受け取
る。デコード・ユニット内のアクセス制御レジスタ（Ａ
ＣＲ）が、どの特定のＧＰＲがパイプ・レジスタとして
機能するか否かを制御する。スピン（ＳＰＩＮ）信号
は、使用されるレジスタ・パイプが満杯であり、デステ
ィネーション・プロセッサによって空にされるのを待っ
ている時に、デコード・ユニットから出力される。ラッ
チが、各パイプ・アウト・レジスタ４０に関連して、そ
のレジスタを介するデータの出力を制御する。ラッチ
は、デコード・ユニット５０からのＦＵＬＬ信号５２に
よって制御される。ＦＵＬＬ信号は、パイプに何かがあ
ることと、そのパイプを空にしなければ追加データを書
き込めないことを示す。望むならば、代替実施形態で、
各ＦＩＦＯへの複数のステージを使用することができ
る。ＦＩＬＬ制御信号５４は、データが特定のパイプ・
アウト・レジスタ４０に書き込まれる時に、デコード・
ユニット５０から出力される。制御信号５３は、やは
り、どのソースからデータを導出するかを制御する。

【００８７】３つのパイプ・アウト・レジスタをアドレ
ッシングするために、２ビットのアドレスが必要である
ことに留意されたい。２ビットのアドレスは、４つのア
ドレス可能性をもたらし、１つの余分なアドレスがある
ことを意味する。この余分なアドレスを、図１０および
図１１で示したように使用して、すべてのパイプに書き
込むか、すべてのパイプの間でデータを同期化するかの
いずれかを行うことができる。したがって、プロセッサ
自体のパイプ・エンジンＩＤに等しいＲＴを用いるパイ
プ書込は、３つのパイプ・アウト・レジスタ４０のすべ
てへのロードを引き起こす。これは、ＲＴ結果とＲＴキ
ャッシュの間の直列化を引き起こし、スピンまたはプロ
セッサ・ウェイトをもたらすことができる。

【００８８】図１４に、本発明によるレジスタ・パイプ
を組み込んだ、マルチプロセッサ・コンピュータ・シス
テムの４プロセッサ実施形態の各プロセッサ内で実施さ
れるパイプ・イン・レジスタの１実施形態を示す。例と
して、パイプ・イン・レジスタ４２は、システム内の他
のプロセッサの対応するパイプ・アウト・レジスタから
データを受け取ることができる。ソース処理エンジンが
レジスタに書き込む時にレジスタへのデータをラッチす
るために、ラッチが、各レジスタに関連する。ＦＵＬＬ
信号６２が、ラッチによってデコード・ユニット６０に
供給され、ソース・プロセッサにも返される。デコード
・ユニット６０は、たとえば実行ユニット３４（図１
２）への送出のために、選択されたパイプ・イン・レジ
スタ４２を空にするためのＥＭＰＴＹ信号６４を開始す
る際に、やはりアクセス制御レジスタ（ＡＣＲ）を使用
する。各パイプ・イン・レジスタ４２の出力は、第１お
よび第２のセレクタＳ６６に入力される。セレクタＳ６
６は、デコード・ユニットがｒｅａｄＡ信号またはｒ
ｅａｄＢ信号のどちらを受け取ったかに応じて、実行
ユニット３４（図１２）のＡデータ信号線およびＢデー
タ信号線にデータを出力する。

【００８９】１実施形態では、アクセス制御レジスタ
（ＡＣＲ）に、双方向接続ごとに１ビットが含まれる。
これは、接続に対するＧＰＲアドレスの固定されたマッ
ピングを前提とする。したがって、完全に接続された４
ウェイ・レジスタ・パイプは、各プロセッサ内に４つの
レジスタを必要とする。やはり、余分なレジスタ・アド
レスを使用する自己接続によって、他のすべてのプロセ
ッサへのブロードキャスト、またはバリヤ同期化（上で
説明した）のいずれかが使用可能になる。表１に、アク
セス制御レジスタの状態の１例を示す。

【００９０】

【表１】

【００９１】上で注記したように、それ自体のパイプ・
アドレス、たとえば図１０では第４のＧＰＲアドレス１
６のパイプから読み取る処理エンジンによって、本発明
に従って独自の同期化バリヤを実施することができる。
レジスタ・パイプを使用して４つのプロセッサを完全に
接続するためには３つのアドレスが必要なので、２ビッ
トのアドレッシング方式によって、余分なパイプ・アド
レスが可能になる。この余分なアドレスは、プロセッサ
自体のパイプ・アドレスと指定され、読み取られる時
に、本発明によるバリヤ同期化が開始される。バリヤ同
期化は、図７に示し上で説明したハードウェアを使用し
て実施することができる。しかし、本発明の制御概念
は、命令ストリームまたは計算機のジョインを伴わな
い。そうではなくて、読み取られる時に、第４のＧＰＲ
アドレス１６（図１０）の専用パイプ・レジスタに対す
るエンジン自体のＩＤアドレスが、その読取を開始した
処理エンジンとの同期化の開始をもたらす。読取を行う
命令は、結果が使用可能になるまでスピンする。結果
は、すべての処理エンジンがバリヤ命令に達する前にタ
イムアウトまたは割込みが発生する場合には−１にな
る。タイムアウト期限内にすべてのエンジンがバリヤに
達する場合には、０が返される。タイムアウト期限に
は、計算機の間の同期化がその間に発生しなければなら
ない、定義済みのサイクル数を含めることができる。

【００９２】動作中に、命令が実行され、それ自体の処
理エンジンのパイプ・アドレスから読み取られる時に
は、そのエンジンがバリヤ同期化の状態であることを他
の処理エンジンに知らせるためにラッチがセットされ
る。図７の論理は、マルチプロセッサ・コンピュータ・
システムの各処理エンジン内で実施され、他の処理エン
ジンは、バリヤ同期化信号を受け取る時に、それぞれが
同期化を開始する。図７の実施形態では、ＡＮＤゲート
がすべての処理エンジンに共通すると仮定され、入力と
して、各処理エンジン内の図示されたラッチからの出力
の論理和を受け取ることに留意されたい。

【００９３】本発明は、たとえばコンピュータ使用可能
媒体を有する製造品（たとえば、１つまたは複数のコン
ピュータ・プログラム製品）に含めることができる。媒
体は、たとえば、本発明の機能を提供し、容易にするコ
ンピュータ可読プログラム・コード手段をその中に実施
される。製造品は、コンピュータ・システムの一部とし
て含めるか、別に販売することができる。

【００９４】さらに、本発明の機能を実行するために計
算機によって実行可能な命令の少なくとも１つのプログ
ラムを具体的に実施する、計算機によって読取可能な少
なくとも１つのプログラム記憶装置を提供することがで
きる。

【００９５】流れ図は、本明細書では単に例として示さ
れる。本発明の趣旨から逸脱しない、これらの図または
本明細書に記載のステップ（または動作）に対する多数
の変更形態がありえる。たとえば、ステップを異なる順
序で実行することができ、ステップの追加、削除、また
は変更が可能である。これらの変形形態のすべてが、請
求される発明の一部とみなされる。

【００９６】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００９７】（１）第１処理エンジンと第２処理エンジ
ンとの間でデータを転送する方法であって、前記第１処
理エンジンと前記第２処理エンジンとの間でレジスタ・
パイプを確立するステップと、前記第１処理エンジンと
前記第２処理エンジンとの間で前記レジスタ・パイプを
使用してデータを転送するステップであって、データ
が、メモリを通過せずに前記第１処理エンジンと前記第
２処理エンジンとの間で転送される、ステップとを含む
方法。（２）前記レジスタ・パイプが、前記第１処理エンジン
内の少なくとも１つの第１レジスタと、前記第２処理エ
ンジン内の少なくとも１つの第２レジスタとを含む、上
記（１）に記載の方法。（３）前記レジスタ・パイプが、両方向であり、前記少
なくとも１つの第１レジスタが、第１インレット・レジ
スタおよび第１アウトレット・レジスタを含み、前記少
なくとも１つの第２レジスタが、第２インレット・レジ
スタおよび第２アウトレット・レジスタを含む、上記
（２）に記載の方法。（４）前記第１インレット・レジスタ、前記第１アウト
レット・レジスタ、前記第２インレット・レジスタ、お
よび前記第２アウトレット・レジスタが、汎用レジスタ
を含む、上記（３）に記載の方法。（５）前記確立するステップが、前記第１処理エンジン
と前記第２処理エンジンとを結合する前記レジスタ・パ
イプとして、前記汎用レジスタをマッピングするステッ
プを含む、上記（４）に記載の方法。（６）前記レジスタ・パイプが、前記第１処理エンジン
から前記第２処理エンジンへデータを転送するための第
１パイプ・セクションと、前記第２処理エンジンから前
記第１処理エンジンへデータを転送するための第２パイ
プ・セクションとを含み、前記第１パイプ・セクション
が、前記第１アウトレット・レジスタおよび前記第２イ
ンレット・レジスタを含む第１先入れ先出し（ＦＩＦ
Ｏ）バッファを含み、前記第２パイプ・セクションが、
前記第１インレット・レジスタおよび前記第２アウトレ
ット・レジスタを含む第２ＦＩＦＯバッファを含む、上
記（３）に記載の方法。（７）前記転送するステップが、前記第２処理エンジン
に転送するために前記第１アウトレット・レジスタにデ
ータを書き込むことによって前記第１パイプ・セクショ
ンを充たすステップと、前記第１ＦＩＦＯバッファが満
杯である時に必ず前記第２インレット・レジスタを介し
て前記第１ＦＩＦＯバッファからデータを読み取ること
によって前記第１パイプ・セクションを空にするステッ
プとを含む、上記（６）に記載の方法。（８）前記転送するステップが、前記第１処理エンジン
に転送するために前記第２アウトレット・レジスタにデ
ータを書き込むことによって前記第２パイプ・セクショ
ンを充たすステップと、前記第２ＦＩＦＯバッファが満
杯である時に必ず前記第１インレット・レジスタを介し
て前記第２ＦＩＦＯバッファからデータを読み取ること
によって前記第２パイプ・セクションを空にするステッ
プとを含む、上記（６）に記載の方法。（９）前記第１処理エンジンおよび前記第２処理エンジ
ンが、マルチプロセッシング・エンジン環境の一部であ
り、前記確立するステップが、前記マルチプロセッシン
グ・エンジン環境内の処理エンジンの少なくともいくつ
かの対の処理エンジンの各対の間で異なるレジスタ・パ
イプをマッピングするステップを含む、上記（１）に記
載の方法。（１０）前記マルチプロセッシング処理エンジン環境
が、４つの処理エンジンを含み、前記４つの処理エンジ
ンが、前記第１処理エンジン、前記第２処理エンジン、
第３処理エンジン、および第４処理エンジンを含み、前
記確立するステップが、前記第１処理エンジンと、前記
第２処理エンジン、前記第３処理エンジン、および前記
第４処理エンジンとの間で３つのパイプ・レジスタをマ
ッピングするステップを含む、上記（９）に記載の方
法。（１１）前記確立するステップが、前記レジスタ・パイ
プを確立するために、前記第１処理エンジンの汎用レジ
スタおよび前記第２処理エンジンの汎用レジスタを動的
にマッピングするステップを含む、上記（１）に記載の
方法。（１２）前記動的にマッピングするステップが、前記第
１処理エンジンおよび前記第２処理エンジンの前記汎用
レジスタをそれぞれ前記レジスタ・パイプにマッピング
するために、前記第１処理エンジンに関連する第１制御
レジスタおよび前記第２処理エンジンに関連する第２制
御レジスタを使用するステップを含む、上記（１１）に
記載の方法。（１３）前記第１処理エンジンおよび前記第２処理エン
ジンが、マルチプロセッシング・エンジン環境の一部で
あり、前記方法がさらに、前記マルチプロセッシング・
エンジン環境の少なくともいくつかの処理エンジンの間
のバリヤ同期化を実施するステップを含む、上記（１）
に記載の方法。（１４）前記実施するステップが、前記マルチプロセッ
シング・エンジン環境の少なくともいくつかの処理エン
ジンのそれぞれで、前記エンジンにアドレッシングされ
るレジスタ・パイプから読み取るために前記エンジンに
対する命令を処理するステップを含み、前記少なくとも
いくつかの処理エンジンの間の同期化が、前記少なくと
もいくつかのエンジンの各エンジンがそれにアドレッシ
ングされたそのレジスタ・パイプから読み取るために前
記命令を実行する際に確立される、上記（１３）に記載
の方法。（１５）前記少なくともいくつかの処理エンジンの各処
理エンジンで、それにアドレッシングされるそれ自体の
レジスタ・パイプを確立するステップをさらに含む、上
記（１４）に記載の方法。（１６）前記マルチプロセッシング・エンジン環境が、
４つの処理エンジンおよび複数のレジスタ・パイプを含
み、各処理エンジンが、４つのレジスタ・パイプをアド
レッシングし、前記４つの処理エンジンが、前記第１処
理エンジン、前記第２処理エンジン、第３処理エンジ
ン、および第４処理エンジンを含み、各処理エンジンに
よってアドレス可能な前記４つのレジスタ・パイプが、
前記処理エンジンを前記４つの処理エンジンの他の処理
エンジンに結合する３つのレジスタ・パイプと、それ自
体にアドレッシングされる第４レジスタ・パイプとを含
む、上記（１３）に記載の方法。（１７）前記それ自体にアドレッシングされる第４レジ
スタ・パイプが、データを書き込むのに使用される時
に、前記データが、前記処理エンジンから前記マルチプ
ロセッシング・エンジン環境の前記他の処理エンジンに
ブロードキャストされる、上記（１６）に記載の方法。（１８）前記確立するステップが、前記第１処理エンジ
ンと前記第２処理エンジンとの間で直接レジスタ・パイ
プを確立するステップを含む、上記（１）に記載の方
法。（１９）前記確立するステップが、前記第１処理エンジ
ンと前記第２処理エンジンとを結合するスイッチ・ファ
ブリックを介する、前記第１処理エンジンと前記第２処
理エンジンとの間の間接レジスタ・パイプを確立するス
テップを含む、上記（１）に記載の方法。（２０）前記確立するステップが、前記第１処理エンジ
ンと前記第２処理エンジンとの間のレジスタ・パイプの
使用を識別する命令アーキテクチャを提供するステップ
を含み、前記命令アーキテクチャが、前記レジスタ・パ
イプのアドレッシングに使用される汎用レジスタ命令内
のオペランド・フィールドを含む、上記（１）に記載の
方法。（２１）第１処理エンジンと第２処理エンジンとの間で
データを転送するシステムであって、前記第１処理エン
ジンと前記第２処理エンジンとの間でレジスタ・パイプ
を確立する手段と、前記第１処理エンジンと前記第２処
理エンジンとの間で前記レジスタ・パイプを使用してデ
ータを転送する手段であって、データが、メモリを通過
せずに前記第１処理エンジンと前記第２処理エンジンと
の間で転送される、データを転送する手段とを含むシス
テム。（２２）前記レジスタ・パイプが、前記第１処理エンジ
ン内の少なくとも１つの第１レジスタと、前記第２処理
エンジン内の少なくとも１つの第２レジスタとを含む、
上記（２１）に記載のシステム。（２３）前記レジスタ・パイプが、両方向であり、前記
少なくとも１つの第１レジスタが、第１インレット・レ
ジスタおよび第１アウトレット・レジスタを含み、前記
少なくとも１つの第２レジスタが、第２インレット・レ
ジスタおよび第２アウトレット・レジスタを含む、上記
（２２）に記載のシステム。（２４）前記第１インレット・レジスタ、前記第１アウ
トレット・レジスタ、前記第２インレット・レジスタ、
および前記第２アウトレット・レジスタが、汎用レジス
タを含む、上記（２３）に記載のシステム。（２５）前記確立する手段が、前記第１処理エンジンと
前記第２処理エンジンとを結合する前記レジスタ・パイ
プとして、前記汎用レジスタをマッピングする手段を含
む、上記（２４）に記載のシステム。（２６）前記レジスタ・パイプが、前記第１処理エンジ
ンから前記第２処理エンジンへデータを転送するための
第１パイプ・セクションと、前記第２処理エンジンから
前記第１処理エンジンへデータを転送するための第２パ
イプ・セクションとを含み、前記第１パイプ・セクショ
ンが、前記第１アウトレット・レジスタおよび前記第２
インレット・レジスタを含む第１先入れ先出し（ＦＩＦ
Ｏ）バッファを含み、前記第２パイプ・セクションが、
前記第１インレット・レジスタおよび前記第２アウトレ
ット・レジスタを含む第２ＦＩＦＯバッファを含む、上
記（２３）に記載のシステム。（２７）前記転送する手段が、前記第２処理エンジンに
転送するために前記第１アウトレット・レジスタにデー
タを書き込むことによって前記第１パイプ・セクション
を充たす手段と、前記第１ＦＩＦＯバッファが満杯であ
る時に必ず前記第２インレット・レジスタを介して前記
第１ＦＩＦＯバッファからデータを読み取ることによっ
て前記第１パイプ・セクションを空にする手段とを含
む、上記（２６）に記載のシステム。（２８）前記転送する手段が、前記第１処理エンジンに
転送するために前記第２アウトレット・レジスタにデー
タを書き込むことによって前記第２パイプ・セクション
を充たす手段と、前記第２ＦＩＦＯバッファが満杯であ
る時に必ず前記第１インレット・レジスタを介して前記
第２ＦＩＦＯバッファからデータを読み取ることによっ
て前記第２パイプ・セクションを空にする手段とを含
む、上記（２６）に記載のシステム。（２９）前記第１処理エンジンおよび前記第２処理エン
ジンが、マルチプロセッシング・エンジン環境の一部で
あり、前記確立する手段が、前記マルチプロセッシング
・エンジン環境内の処理エンジンの少なくともいくつか
の対の処理エンジンの各対の間で異なるレジスタ・パイ
プをマッピングする手段を含む、上記（２１）に記載の
システム。（３０）前記マルチプロセッシング処理エンジン環境
が、４つの処理エンジンを含み、前記４つの処理エンジ
ンが、前記第１処理エンジン、前記第２処理エンジン、
第３処理エンジン、および第４処理エンジンを含み、前
記確立する手段が、前記第１処理エンジンと、前記第２
処理エンジン、前記第３処理エンジン、および前記第４
処理エンジンとの間で３つのパイプ・レジスタをマッピ
ングする手段を含む、上記（２９）に記載のシステム。（３１）前記確立する手段が、前記レジスタ・パイプを
確立するために、前記第１処理エンジンの汎用レジスタ
および前記第２処理エンジンの汎用レジスタを動的にマ
ッピングする手段を含む、上記（２１）に記載のシステ
ム。（３２）前記動的にマッピングする手段が、前記第１処
理エンジンおよび前記第２処理エンジンの前記汎用レジ
スタをそれぞれ前記レジスタ・パイプにマッピングする
ために、前記第１処理エンジンに関連する第１制御レジ
スタおよび前記第２処理エンジンに関連する第２制御レ
ジスタを使用する手段を含む、上記（３１）に記載のシ
ステム。（３３）前記第１処理エンジンおよび前記第２処理エン
ジンが、マルチプロセッシング・エンジン環境の一部で
あり、前記システムがさらに、前記マルチプロセッシン
グ・エンジン環境の少なくともいくつかの処理エンジン
の間のバリヤ同期化を実施する手段を含む、上記（２
１）に記載のシステム。（３４）前記実施する手段が、前記マルチプロセッシン
グ・エンジン環境の少なくともいくつかの処理エンジン
のそれぞれで、前記エンジンにアドレッシングされるレ
ジスタ・パイプから読み取るために前記エンジンに対す
る命令を処理する手段を含み、前記少なくともいくつか
の処理エンジンの間の同期化が、前記少なくともいくつ
かのエンジンがそれにアドレッシングされたそのレジス
タ・パイプから読み取るために前記命令を実行する際に
確立される、上記（３３）に記載のシステム。（３５）前記少なくともいくつかの処理エンジンの各処
理エンジンで、それにアドレッシングされるそれ自体の
レジスタ・パイプを確立する手段をさらに含む、上記
（３４）に記載のシステム。（３６）前記マルチプロセッシング・エンジン環境が、
４つの処理エンジンおよび複数のレジスタ・パイプを含
み、各処理エンジンが、４つのレジスタ・パイプをアド
レッシングし、前記４つの処理エンジンが、前記第１処
理エンジン、前記第２処理エンジン、第３処理エンジ
ン、および第４処理エンジンを含み、各処理エンジンに
よってアドレス可能な前記４つのレジスタ・パイプが、
前記処理エンジンを前記４つの処理エンジンの他の処理
エンジンに結合する３つのレジスタ・パイプと、それ自
体にアドレッシングされる第４レジスタ・パイプとを含
む、上記（３３）に記載のシステム。（３７）前記それ自体にアドレッシングされる第４レジ
スタ・パイプが、データを書き込むのに使用される時
に、前記データが、前記処理エンジンから前記マルチプ
ロセッシング・エンジン環境の前記他の処理エンジンに
ブロードキャストされる、上記（３６）に記載のシステ
ム。（３８）前記確立する手段が、前記第１処理エンジンと
前記第２処理エンジンとの間で直接レジスタ・パイプを
確立する手段を含む、上記（２１）に記載のシステム。（３９）前記確立する手段が、前記第１処理エンジンと
前記第２処理エンジンとを結合するスイッチ・ファブリ
ックを介する、前記第１処理エンジンと前記第２処理エ
ンジンとの間の間接レジスタ・パイプを確立する手段を
含む、上記（２１）に記載のシステム。（４０）前記確立する手段が、前記第１処理エンジンと
前記第２処理エンジンとの間のレジスタ・パイプの使用
を識別する命令アーキテクチャを提供する手段を含み、
前記命令アーキテクチャが、前記レジスタ・パイプのア
ドレッシングに使用される汎用レジスタ命令内のオペラ
ンド・フィールドを含む、上記（２１）に記載のシステ
ム。（４１）第１処理エンジンおよび第２処理エンジンを含
むマルチプロセッサ・コンピュータ・システムであっ
て、前記第１処理エンジンと前記第２処理エンジンとの
間のレジスタ・パイプであって、前記レジスタ・パイプ
が、前記第１処理エンジン内の少なくとも１つの第１レ
ジスタと、前記第２処理エンジン内の少なくとも１つの
第２レジスタとを含む、レジスタ・パイプを含み、前記
第１処理エンジンおよび前記第２処理エンジンが、前記
マルチプロセッサ・コンピュータ・システムのメモリを
介して前記データを渡さずに、前記レジスタ・パイプを
使用して、それらの間でデータを転送するように適合さ
れているマルチプロセッサ・コンピュータ・システム。（４２）第１処理エンジンと第２処理エンジンとの間で
データを転送する方法を実行するために計算機によって
実行可能な命令の少なくとも１つのプログラムを具体的
に実施する、計算機によって可読の少なくとも１つのプ
ログラム記憶装置であって、前記方法が、前記第１処理
エンジンと前記第２処理エンジンとの間でレジスタ・パ
イプを確立するステップと、前記第１処理エンジンと前
記第２処理エンジンとの間で前記レジスタ・パイプを使
用してデータを転送するステップであって、データが、
メモリを通過せずに前記第１処理エンジンと前記第２処
理エンジンとの間で転送される、ステップとを含む、少
なくとも１つのプログラム記憶装置。（４３）前記レジスタ・パイプが、前記第１処理エンジ
ン内の少なくとも１つの第１レジスタと、前記第２処理
エンジン内の少なくとも１つの第２レジスタとを含む、
上記（４２）に記載の少なくとも１つのプログラム記憶
装置。（４４）前記レジスタ・パイプが、両方向であり、前記
少なくとも１つの第１レジスタが、第１インレット・レ
ジスタおよび第１アウトレット・レジスタを含み、前記
少なくとも１つの第２レジスタが、第２インレット・レ
ジスタおよび第２アウトレット・レジスタを含む、上記
（４３）に記載の少なくとも１つのプログラム記憶装
置。（４５）前記第１インレット・レジスタ、前記第１アウ
トレット・レジスタ、前記第２インレット・レジスタ、
および前記第２アウトレット・レジスタが、汎用レジス
タを含む、上記（４４）に記載の少なくとも１つのプロ
グラム記憶装置。（４６）前記確立するステップが、前記第１処理エンジ
ンと前記第２処理エンジンとを結合する前記レジスタ・
パイプとして、前記汎用レジスタをマッピングするステ
ップを含む、上記（４５）に記載の少なくとも１つのプ
ログラム記憶装置。（４７）前記レジスタ・パイプが、前記第１処理エンジ
ンから前記第２処理エンジンへデータを転送するための
第１パイプ・セクションと、前記第２処理エンジンから
前記第１処理エンジンへデータを転送するための第２パ
イプ・セクションとを含み、前記第１パイプ・セクショ
ンが、前記第１アウトレット・レジスタおよび前記第２
インレット・レジスタを含む第１先入れ先出し（ＦＩＦ
Ｏ）バッファを含み、前記第２パイプ・セクションが、
前記第１インレット・レジスタおよび前記第２アウトレ
ット・レジスタを含む第２ＦＩＦＯバッファを含む、上
記（４４）に記載の少なくとも１つのプログラム記憶装
置。（４８）前記転送するステップが、前記第２処理エンジ
ンに転送するために前記第１アウトレット・レジスタに
データを書き込むことによって前記第１パイプ・セクシ
ョンを充たすステップと、前記第１ＦＩＦＯバッファが
満杯である時に必ず前記第２インレット・レジスタを介
して前記第１ＦＩＦＯバッファからデータを読み取るこ
とによって前記第１パイプ・セクションを空にするステ
ップとを含む、上記（４７）に記載の少なくとも１つの
プログラム記憶装置。（４９）前記転送するステップが、前記第１処理エンジ
ンに転送するために前記第２アウトレット・レジスタに
データを書き込むことによって前記第２パイプ・セクシ
ョンを充たすステップと、前記第２ＦＩＦＯバッファが
満杯である時に必ず前記第１インレット・レジスタを介
して前記第２ＦＩＦＯバッファからデータを読み取るこ
とによって前記第２パイプ・セクションを空にするステ
ップとを含む、上記（４７）に記載の少なくとも１つの
プログラム記憶装置。（５０）前記第１処理エンジンおよび前記第２処理エン
ジンが、マルチプロセッシング・エンジン環境の一部で
あり、前記確立するステップが、前記マルチプロセッシ
ング・エンジン環境内の処理エンジンの少なくともいく
つかの対の処理エンジンの各対の間で異なるレジスタ・
パイプをマッピングするステップを含む、上記（４２）
に記載の少なくとも１つのプログラム記憶装置。（５１）前記マルチプロセッシング処理エンジン環境
が、４つの処理エンジンを含み、前記４つの処理エンジ
ンが、前記第１処理エンジン、前記第２処理エンジン、
第３処理エンジン、および第４処理エンジンを含み、前
記確立するステップが、前記第１処理エンジンと、前記
第２処理エンジン、前記第３処理エンジン、および前記
第４処理エンジンとの間で３つのパイプ・レジスタをマ
ッピングするステップを含む、上記（５０）に記載の少
なくとも１つのプログラム記憶装置。（５２）前記確立するステップが、前記レジスタ・パイ
プを確立するために、前記第１処理エンジンの汎用レジ
スタおよび前記第２処理エンジンの汎用レジスタを動的
にマッピングするステップを含む、上記（４２）に記載
の少なくとも１つのプログラム記憶装置。（５３）前記動的にマッピングするステップが、前記第
１処理エンジンおよび前記第２処理エンジンの前記汎用
レジスタをそれぞれ前記レジスタ・パイプにマッピング
するために、前記第１処理エンジンに関連する第１制御
レジスタおよび前記第２処理エンジンに関連する第２制
御レジスタを使用するステップを含む、上記（５２）に
記載の少なくとも１つのプログラム記憶装置。（５４）前記第１処理エンジンおよび前記第２処理エン
ジンが、マルチプロセッシング・エンジン環境の一部で
あり、前記方法がさらに、前記マルチプロセッシング・
エンジン環境の少なくともいくつかの処理エンジンの間
のバリヤ同期化を実施するステップを含む、上記（４
２）に記載の少なくとも１つのプログラム記憶装置。（５５）前記実施するステップが、前記マルチプロセッ
シング・エンジン環境の少なくともいくつかの処理エン
ジンのそれぞれで、前記エンジンにアドレッシングされ
るレジスタ・パイプから読み取るために前記エンジンに
対する命令を処理するステップを含み、前記少なくとも
いくつかの処理エンジンの間の同期化が、前記少なくと
もいくつかのエンジンのそれぞれのエンジンがそれにア
ドレッシングされたそのレジスタ・パイプから読み取る
ために前記命令を実行する際に確立される、上記（５
４）に記載の少なくとも１つのプログラム記憶装置。（５６）前記少なくともいくつかの処理エンジンの各処
理エンジンで、それにアドレッシングされるそれ自体の
レジスタ・パイプを確立するステップをさらに含む、上
記（５５）に記載の少なくとも１つのプログラム記憶装
置。（５７）前記マルチプロセッシング・エンジン環境が、
４つの処理エンジンおよび複数のレジスタ・パイプを含
み、各処理エンジンが、４つのレジスタ・パイプをアド
レッシングし、前記４つの処理エンジンが、前記第１処
理エンジン、前記第２処理エンジン、第３処理エンジ
ン、および第４処理エンジンを含み、各処理エンジンに
よってアドレス可能な前記４つのレジスタ・パイプが、
前記処理エンジンを前記４つの処理エンジンの他の処理
エンジンに結合する３つのレジスタ・パイプと、それ自
体にアドレッシングされる第４レジスタ・パイプとを含
む、上記（５４）に記載の少なくとも１つのプログラム
記憶装置。（５８）前記それ自体にアドレッシングされる第４レジ
スタ・パイプが、データを書き込むのに使用される時
に、前記データが、前記処理エンジンから前記マルチプ
ロセッシング・エンジン環境の前記他の処理エンジンに
ブロードキャストされる、上記（５７）に記載の少なく
とも１つのプログラム記憶装置。（５９）前記確立するステップが、前記第１処理エンジ
ンと前記第２処理エンジンとの間で直接レジスタ・パイ
プを確立するステップを含む、上記（４２）に記載の少
なくとも１つのプログラム記憶装置。（６０）前記確立するステップが、前記第１処理エンジ
ンと前記第２処理エンジンとを結合するスイッチ・ファ
ブリックを介する、前記第１処理エンジンと前記第２処
理エンジンとの間の間接レジスタ・パイプを確立するス
テップを含む、上記（４２）に記載の少なくとも１つの
プログラム記憶装置。（６１）前記確立するステップが、前記第１処理エンジ
ンと前記第２処理エンジンとの間のレジスタ・パイプの
使用を識別する命令アーキテクチャを提供するステップ
を含み、前記命令アーキテクチャが、前記レジスタ・パ
イプのアドレッシングに使用される汎用レジスタ命令内
のオペランド・フィールドを含む、上記（４２）に記載
の少なくとも１つのプログラム記憶装置。

【図面の簡単な説明】

【図１】本発明の原理による、単一プロセッサ・モード
および並列処理モードで動作することができるコンピュ
ータ・システムの１例を示す図である。

【図２】本発明の原理による、図１のコンピュータ・シ
ステムの一部の例を示す図である。

【図３】本発明の原理による、図１および図２に示され
たプロセッサの一部の例を示す図である。

【図４】本発明の原理による、図１および図２のプロセ
ッサの汎用レジスタのさまざまな動作状態を示す図であ
る。

【図５】本発明の原理による、図１および図２のプロセ
ッサの汎用レジスタのさまざまな動作状態を示す図であ
る。

【図６】本発明の原理による、図１のコンピュータ・シ
ステムのさまざまな動作状態を示す図である。

【図７】本発明の原理による、図１のコンピュータ・シ
ステムのうちで、バリヤ同期化の実施に使用される部分
の例を示す図である。

【図８】単一プロセッサ・モードと並列処理モードの間
で切り替えるために、図１のコンピュータ・システムに
よって使用される論理の例を示す図である。

【図９】単一プロセッサ・モードと並列処理モードの間
で切り替えるために、図１のコンピュータ・システムに
よって使用される論理の例を示す図である。

【図１０】本発明の原理による、ＣＰＵ処理エンジンが
複数の直接レジスタ・パイプによって相互リンクされ
る、マルチプロセッサ・コンピュータ・システムの例を
示す図である。

【図１１】本発明の原理による、ＣＰＵ処理エンジンが
共用接続ファブリックを介して確立されるレジスタ・パ
イプを使用して間接的にリンクされる、マルチプロセッ
サ・コンピュータ・システムのもう１つの例を示す図で
ある。

【図１２】本発明の原理による、図１０または図１１の
１つのＣＰＵ処理エンジン内の、Ｌ１キャッシュ、汎用
レジスタ（ＧＰＲ）、実行ユニット、パイプ・アウト・
レジスタ、およびパイプ・イン・レジスタの例を示す図
である。

【図１３】本発明の原理による、図１２のパイプ・アウ
ト・レジスタの１実施形態のより詳細な概略図である。

【図１４】本発明の原理による、図１２のパイプ・イン
・レジスタの１実施形態のより詳細な概略図である。

【符号の説明】

１００コンピュータ・システム１１０プロセッサ１２０Ｌ１キャッシュ１６０相互接続システム２１０汎用レジスタ（ＧＰＲ）２２０実行ユニット２３０アドレス・ユニット２４０命令ユニット２４２命令レジスタ２４４命令カウンタ（ＩＣ）２５０データ・ブロードキャスト・レジスタ２６０命令ブロードキャスト・レジスタ

フロントページの続き (72)発明者ジョーゼフ・エル・テンプル・サードアメリカ合衆国12443 ニューヨーク州ハーリーフック・ストリート312 ピー・オー・ボックス507

Claims

【特許請求の範囲】

【請求項１】第１処理エンジンと第２処理エンジンとの
間でデータを転送する方法であって、前記第１処理エンジンと前記第２処理エンジンとの間で
レジスタ・パイプを確立するステップと、前記第１処理エンジンと前記第２処理エンジンとの間で
前記レジスタ・パイプを使用してデータを転送するステ
ップであって、データが、メモリを通過せずに前記第１
処理エンジンと前記第２処理エンジンとの間で転送され
る、ステップとを含む方法。
【請求項２】前記レジスタ・パイプが、前記第１処理エ
ンジン内の少なくとも１つの第１レジスタと、前記第２
処理エンジン内の少なくとも１つの第２レジスタとを含
む、請求項１に記載の方法。
【請求項３】前記レジスタ・パイプが、両方向であり、
前記少なくとも１つの第１レジスタが、第１インレット
・レジスタおよび第１アウトレット・レジスタを含み、
前記少なくとも１つの第２レジスタが、第２インレット
・レジスタおよび第２アウトレット・レジスタを含む、
請求項２に記載の方法。
【請求項４】前記第１インレット・レジスタ、前記第１
アウトレット・レジスタ、前記第２インレット・レジス
タ、および前記第２アウトレット・レジスタが、汎用レ
ジスタを含む、請求項３に記載の方法。
【請求項５】前記確立するステップが、前記第１処理エ
ンジンと前記第２処理エンジンとを結合する前記レジス
タ・パイプとして、前記汎用レジスタをマッピングする
ステップを含む、請求項４に記載の方法。
【請求項６】前記レジスタ・パイプが、前記第１処理エ
ンジンから前記第２処理エンジンへデータを転送するた
めの第１パイプ・セクションと、前記第２処理エンジン
から前記第１処理エンジンへデータを転送するための第
２パイプ・セクションとを含み、前記第１パイプ・セク
ションが、前記第１アウトレット・レジスタおよび前記
第２インレット・レジスタを含む第１先入れ先出し（Ｆ
ＩＦＯ）バッファを含み、前記第２パイプ・セクション
が、前記第１インレット・レジスタおよび前記第２アウ
トレット・レジスタを含む第２ＦＩＦＯバッファを含
む、請求項３に記載の方法。
【請求項７】前記転送するステップが、前記第２処理エ
ンジンに転送するために前記第１アウトレット・レジス
タにデータを書き込むことによって前記第１パイプ・セ
クションを充たすステップと、前記第１ＦＩＦＯバッフ
ァが満杯である時に必ず前記第２インレット・レジスタ
を介して前記第１ＦＩＦＯバッファからデータを読み取
ることによって前記第１パイプ・セクションを空にする
ステップとを含む、請求項６に記載の方法。
【請求項８】前記転送するステップが、前記第１処理エ
ンジンに転送するために前記第２アウトレット・レジス
タにデータを書き込むことによって前記第２パイプ・セ
クションを充たすステップと、前記第２ＦＩＦＯバッフ
ァが満杯である時に必ず前記第１インレット・レジスタ
を介して前記第２ＦＩＦＯバッファからデータを読み取
ることによって前記第２パイプ・セクションを空にする
ステップとを含む、請求項６に記載の方法。
【請求項９】前記第１処理エンジンおよび前記第２処理
エンジンが、マルチプロセッシング・エンジン環境の一
部であり、前記確立するステップが、前記マルチプロセ
ッシング・エンジン環境内の処理エンジンの少なくとも
いくつかの対の処理エンジンの各対の間で異なるレジス
タ・パイプをマッピングするステップを含む、請求項１
に記載の方法。
【請求項１０】前記マルチプロセッシング処理エンジン
環境が、４つの処理エンジンを含み、前記４つの処理エ
ンジンが、前記第１処理エンジン、前記第２処理エンジ
ン、第３処理エンジン、および第４処理エンジンを含
み、前記確立するステップが、前記第１処理エンジン
と、前記第２処理エンジン、前記第３処理エンジン、お
よび前記第４処理エンジンとの間で３つのパイプ・レジ
スタをマッピングするステップを含む、請求項９に記載
の方法。
【請求項１１】前記確立するステップが、前記レジスタ
・パイプを確立するために、前記第１処理エンジンの汎
用レジスタおよび前記第２処理エンジンの汎用レジスタ
を動的にマッピングするステップを含む、請求項１に記
載の方法。
【請求項１２】前記動的にマッピングするステップが、
前記第１処理エンジンおよび前記第２処理エンジンの前
記汎用レジスタをそれぞれ前記レジスタ・パイプにマッ
ピングするために、前記第１処理エンジンに関連する第
１制御レジスタおよび前記第２処理エンジンに関連する
第２制御レジスタを使用するステップを含む、請求項１
１に記載の方法。
【請求項１３】前記第１処理エンジンおよび前記第２処
理エンジンが、マルチプロセッシング・エンジン環境の
一部であり、前記方法がさらに、前記マルチプロセッシ
ング・エンジン環境の少なくともいくつかの処理エンジ
ンの間のバリヤ同期化を実施するステップを含む、請求
項１に記載の方法。
【請求項１４】前記実施するステップが、前記マルチプ
ロセッシング・エンジン環境の少なくともいくつかの処
理エンジンのそれぞれで、前記エンジンにアドレッシン
グされるレジスタ・パイプから読み取るために前記エン
ジンに対する命令を処理するステップを含み、前記少な
くともいくつかの処理エンジンの間の同期化が、前記少
なくともいくつかのエンジンの各エンジンがそれにアド
レッシングされたそのレジスタ・パイプから読み取るた
めに前記命令を実行する際に確立される、請求項１３に
記載の方法。
【請求項１５】前記少なくともいくつかの処理エンジン
の各処理エンジンで、それにアドレッシングされるそれ
自体のレジスタ・パイプを確立するステップをさらに含
む、請求項１４に記載の方法。
【請求項１６】前記マルチプロセッシング・エンジン環
境が、４つの処理エンジンおよび複数のレジスタ・パイ
プを含み、各処理エンジンが、４つのレジスタ・パイプ
をアドレッシングし、前記４つの処理エンジンが、前記
第１処理エンジン、前記第２処理エンジン、第３処理エ
ンジン、および第４処理エンジンを含み、各処理エンジ
ンによってアドレス可能な前記４つのレジスタ・パイプ
が、前記処理エンジンを前記４つの処理エンジンの他の
処理エンジンに結合する３つのレジスタ・パイプと、そ
れ自体にアドレッシングされる第４レジスタ・パイプと
を含む、請求項１３に記載の方法。
【請求項１７】前記それ自体にアドレッシングされる第
４レジスタ・パイプが、データを書き込むのに使用され
る時に、前記データが、前記処理エンジンから前記マル
チプロセッシング・エンジン環境の前記他の処理エンジ
ンにブロードキャストされる、請求項１６に記載の方
法。
【請求項１８】前記確立するステップが、前記第１処理
エンジンと前記第２処理エンジンとの間で直接レジスタ
・パイプを確立するステップを含む、請求項１に記載の
方法。
【請求項１９】前記確立するステップが、前記第１処理
エンジンと前記第２処理エンジンとを結合するスイッチ
・ファブリックを介する、前記第１処理エンジンと前記
第２処理エンジンとの間の間接レジスタ・パイプを確立
するステップを含む、請求項１に記載の方法。
【請求項２０】前記確立するステップが、前記第１処理
エンジンと前記第２処理エンジンとの間のレジスタ・パ
イプの使用を識別する命令アーキテクチャを提供するス
テップを含み、前記命令アーキテクチャが、前記レジス
タ・パイプのアドレッシングに使用される汎用レジスタ
命令内のオペランド・フィールドを含む、請求項１に記
載の方法。
【請求項２１】第１処理エンジンと第２処理エンジンと
の間でデータを転送するシステムであって、前記第１処理エンジンと前記第２処理エンジンとの間で
レジスタ・パイプを確立する手段と、前記第１処理エンジンと前記第２処理エンジンとの間で
前記レジスタ・パイプを使用してデータを転送する手段
であって、データが、メモリを通過せずに前記第１処理
エンジンと前記第２処理エンジンとの間で転送される、
データを転送する手段とを含むシステム。
【請求項２２】前記レジスタ・パイプが、前記第１処理
エンジン内の少なくとも１つの第１レジスタと、前記第
２処理エンジン内の少なくとも１つの第２レジスタとを
含む、請求項２１に記載のシステム。
【請求項２３】前記レジスタ・パイプが、両方向であ
り、前記少なくとも１つの第１レジスタが、第１インレ
ット・レジスタおよび第１アウトレット・レジスタを含
み、前記少なくとも１つの第２レジスタが、第２インレ
ット・レジスタおよび第２アウトレット・レジスタを含
む、請求項２２に記載のシステム。
【請求項２４】前記第１インレット・レジスタ、前記第
１アウトレット・レジスタ、前記第２インレット・レジ
スタ、および前記第２アウトレット・レジスタが、汎用
レジスタを含む、請求項２３に記載のシステム。
【請求項２５】前記確立する手段が、前記第１処理エン
ジンと前記第２処理エンジンとを結合する前記レジスタ
・パイプとして、前記汎用レジスタをマッピングする手
段を含む、請求項２４に記載のシステム。
【請求項２６】前記レジスタ・パイプが、前記第１処理
エンジンから前記第２処理エンジンへデータを転送する
ための第１パイプ・セクションと、前記第２処理エンジ
ンから前記第１処理エンジンへデータを転送するための
第２パイプ・セクションとを含み、前記第１パイプ・セ
クションが、前記第１アウトレット・レジスタおよび前
記第２インレット・レジスタを含む第１先入れ先出し
（ＦＩＦＯ）バッファを含み、前記第２パイプ・セクシ
ョンが、前記第１インレット・レジスタおよび前記第２
アウトレット・レジスタを含む第２ＦＩＦＯバッファを
含む、請求項２３に記載のシステム。
【請求項２７】前記転送する手段が、前記第２処理エン
ジンに転送するために前記第１アウトレット・レジスタ
にデータを書き込むことによって前記第１パイプ・セク
ションを充たす手段と、前記第１ＦＩＦＯバッファが満
杯である時に必ず前記第２インレット・レジスタを介し
て前記第１ＦＩＦＯバッファからデータを読み取ること
によって前記第１パイプ・セクションを空にする手段と
を含む、請求項２６に記載のシステム。
【請求項２８】前記転送する手段が、前記第１処理エン
ジンに転送するために前記第２アウトレット・レジスタ
にデータを書き込むことによって前記第２パイプ・セク
ションを充たす手段と、前記第２ＦＩＦＯバッファが満
杯である時に必ず前記第１インレット・レジスタを介し
て前記第２ＦＩＦＯバッファからデータを読み取ること
によって前記第２パイプ・セクションを空にする手段と
を含む、請求項２６に記載のシステム。
【請求項２９】前記第１処理エンジンおよび前記第２処
理エンジンが、マルチプロセッシング・エンジン環境の
一部であり、前記確立する手段が、前記マルチプロセッ
シング・エンジン環境内の処理エンジンの少なくともい
くつかの対の処理エンジンの各対の間で異なるレジスタ
・パイプをマッピングする手段を含む、請求項２１に記
載のシステム。
【請求項３０】前記マルチプロセッシング処理エンジン
環境が、４つの処理エンジンを含み、前記４つの処理エ
ンジンが、前記第１処理エンジン、前記第２処理エンジ
ン、第３処理エンジン、および第４処理エンジンを含
み、前記確立する手段が、前記第１処理エンジンと、前
記第２処理エンジン、前記第３処理エンジン、および前
記第４処理エンジンとの間で３つのパイプ・レジスタを
マッピングする手段を含む、請求項２９に記載のシステ
ム。
【請求項３１】前記確立する手段が、前記レジスタ・パ
イプを確立するために、前記第１処理エンジンの汎用レ
ジスタおよび前記第２処理エンジンの汎用レジスタを動
的にマッピングする手段を含む、請求項２１に記載のシ
ステム。
【請求項３２】前記動的にマッピングする手段が、前記
第１処理エンジンおよび前記第２処理エンジンの前記汎
用レジスタをそれぞれ前記レジスタ・パイプにマッピン
グするために、前記第１処理エンジンに関連する第１制
御レジスタおよび前記第２処理エンジンに関連する第２
制御レジスタを使用する手段を含む、請求項３１に記載
のシステム。
【請求項３３】前記第１処理エンジンおよび前記第２処
理エンジンが、マルチプロセッシング・エンジン環境の
一部であり、前記システムがさらに、前記マルチプロセ
ッシング・エンジン環境の少なくともいくつかの処理エ
ンジンの間のバリヤ同期化を実施する手段を含む、請求
項２１に記載のシステム。
【請求項３４】前記実施する手段が、前記マルチプロセ
ッシング・エンジン環境の少なくともいくつかの処理エ
ンジンのそれぞれで、前記エンジンにアドレッシングさ
れるレジスタ・パイプから読み取るために前記エンジン
に対する命令を処理する手段を含み、前記少なくともい
くつかの処理エンジンの間の同期化が、前記少なくとも
いくつかのエンジンがそれにアドレッシングされたその
レジスタ・パイプから読み取るために前記命令を実行す
る際に確立される、請求項３３に記載のシステム。
【請求項３５】前記少なくともいくつかの処理エンジン
の各処理エンジンで、それにアドレッシングされるそれ
自体のレジスタ・パイプを確立する手段をさらに含む、
請求項３４に記載のシステム。
【請求項３６】前記マルチプロセッシング・エンジン環
境が、４つの処理エンジンおよび複数のレジスタ・パイ
プを含み、各処理エンジンが、４つのレジスタ・パイプ
をアドレッシングし、前記４つの処理エンジンが、前記
第１処理エンジン、前記第２処理エンジン、第３処理エ
ンジン、および第４処理エンジンを含み、各処理エンジ
ンによってアドレス可能な前記４つのレジスタ・パイプ
が、前記処理エンジンを前記４つの処理エンジンの他の
処理エンジンに結合する３つのレジスタ・パイプと、そ
れ自体にアドレッシングされる第４レジスタ・パイプと
を含む、請求項３３に記載のシステム。
【請求項３７】前記それ自体にアドレッシングされる第
４レジスタ・パイプが、データを書き込むのに使用され
る時に、前記データが、前記処理エンジンから前記マル
チプロセッシング・エンジン環境の前記他の処理エンジ
ンにブロードキャストされる、請求項３６に記載のシス
テム。
【請求項３８】前記確立する手段が、前記第１処理エン
ジンと前記第２処理エンジンとの間で直接レジスタ・パ
イプを確立する手段を含む、請求項２１に記載のシステ
ム。
【請求項３９】前記確立する手段が、前記第１処理エン
ジンと前記第２処理エンジンとを結合するスイッチ・フ
ァブリックを介する、前記第１処理エンジンと前記第２
処理エンジンとの間の間接レジスタ・パイプを確立する
手段を含む、請求項２１に記載のシステム。
【請求項４０】前記確立する手段が、前記第１処理エン
ジンと前記第２処理エンジンとの間のレジスタ・パイプ
の使用を識別する命令アーキテクチャを提供する手段を
含み、前記命令アーキテクチャが、前記レジスタ・パイ
プのアドレッシングに使用される汎用レジスタ命令内の
オペランド・フィールドを含む、請求項２１に記載のシ
ステム。
【請求項４１】第１処理エンジンおよび第２処理エンジ
ンを含むマルチプロセッサ・コンピュータ・システムで
あって、前記第１処理エンジンと前記第２処理エンジンとの間の
レジスタ・パイプであって、前記レジスタ・パイプが、
前記第１処理エンジン内の少なくとも１つの第１レジス
タと、前記第２処理エンジン内の少なくとも１つの第２
レジスタとを含む、レジスタ・パイプを含み、前記第１処理エンジンおよび前記第２処理エンジンが、
前記マルチプロセッサ・コンピュータ・システムのメモ
リを介して前記データを渡さずに、前記レジスタ・パイ
プを使用して、それらの間でデータを転送するように適
合されているマルチプロセッサ・コンピュータ・システ
ム。
【請求項４２】第１処理エンジンと第２処理エンジンと
の間でデータを転送する方法を実行するために計算機に
よって実行可能な命令の少なくとも１つのプログラムを
具体的に実施する、計算機によって可読の少なくとも１
つのプログラム記憶装置であって、前記方法が、前記第１処理エンジンと前記第２処理エンジンとの間で
レジスタ・パイプを確立するステップと、前記第１処理エンジンと前記第２処理エンジンとの間で
前記レジスタ・パイプを使用してデータを転送するステ
ップであって、データが、メモリを通過せずに前記第１
処理エンジンと前記第２処理エンジンとの間で転送され
る、ステップとを含む、少なくとも１つのプログラム記
憶装置。
【請求項４３】前記レジスタ・パイプが、前記第１処理
エンジン内の少なくとも１つの第１レジスタと、前記第
２処理エンジン内の少なくとも１つの第２レジスタとを
含む、請求項４２に記載の少なくとも１つのプログラム
記憶装置。
【請求項４４】前記レジスタ・パイプが、両方向であ
り、前記少なくとも１つの第１レジスタが、第１インレ
ット・レジスタおよび第１アウトレット・レジスタを含
み、前記少なくとも１つの第２レジスタが、第２インレ
ット・レジスタおよび第２アウトレット・レジスタを含
む、請求項４３に記載の少なくとも１つのプログラム記
憶装置。
【請求項４５】前記第１インレット・レジスタ、前記第
１アウトレット・レジスタ、前記第２インレット・レジ
スタ、および前記第２アウトレット・レジスタが、汎用
レジスタを含む、請求項４４に記載の少なくとも１つの
プログラム記憶装置。
【請求項４６】前記確立するステップが、前記第１処理
エンジンと前記第２処理エンジンとを結合する前記レジ
スタ・パイプとして、前記汎用レジスタをマッピングす
るステップを含む、請求項４５に記載の少なくとも１つ
のプログラム記憶装置。
【請求項４７】前記レジスタ・パイプが、前記第１処理
エンジンから前記第２処理エンジンへデータを転送する
ための第１パイプ・セクションと、前記第２処理エンジ
ンから前記第１処理エンジンへデータを転送するための
第２パイプ・セクションとを含み、前記第１パイプ・セ
クションが、前記第１アウトレット・レジスタおよび前
記第２インレット・レジスタを含む第１先入れ先出し
（ＦＩＦＯ）バッファを含み、前記第２パイプ・セクシ
ョンが、前記第１インレット・レジスタおよび前記第２
アウトレット・レジスタを含む第２ＦＩＦＯバッファを
含む、請求項４４に記載の少なくとも１つのプログラム
記憶装置。
【請求項４８】前記転送するステップが、前記第２処理
エンジンに転送するために前記第１アウトレット・レジ
スタにデータを書き込むことによって前記第１パイプ・
セクションを充たすステップと、前記第１ＦＩＦＯバッ
ファが満杯である時に必ず前記第２インレット・レジス
タを介して前記第１ＦＩＦＯバッファからデータを読み
取ることによって前記第１パイプ・セクションを空にす
るステップとを含む、請求項４７に記載の少なくとも１
つのプログラム記憶装置。
【請求項４９】前記転送するステップが、前記第１処理
エンジンに転送するために前記第２アウトレット・レジ
スタにデータを書き込むことによって前記第２パイプ・
セクションを充たすステップと、前記第２ＦＩＦＯバッ
ファが満杯である時に必ず前記第１インレット・レジス
タを介して前記第２ＦＩＦＯバッファからデータを読み
取ることによって前記第２パイプ・セクションを空にす
るステップとを含む、請求項４７に記載の少なくとも１
つのプログラム記憶装置。
【請求項５０】前記第１処理エンジンおよび前記第２処
理エンジンが、マルチプロセッシング・エンジン環境の
一部であり、前記確立するステップが、前記マルチプロ
セッシング・エンジン環境内の処理エンジンの少なくと
もいくつかの対の処理エンジンの各対の間で異なるレジ
スタ・パイプをマッピングするステップを含む、請求項
４２に記載の少なくとも１つのプログラム記憶装置。
【請求項５１】前記マルチプロセッシング処理エンジン
環境が、４つの処理エンジンを含み、前記４つの処理エ
ンジンが、前記第１処理エンジン、前記第２処理エンジ
ン、第３処理エンジン、および第４処理エンジンを含
み、前記確立するステップが、前記第１処理エンジン
と、前記第２処理エンジン、前記第３処理エンジン、お
よび前記第４処理エンジンとの間で３つのパイプ・レジ
スタをマッピングするステップを含む、請求項５０に記
載の少なくとも１つのプログラム記憶装置。
【請求項５２】前記確立するステップが、前記レジスタ
・パイプを確立するために、前記第１処理エンジンの汎
用レジスタおよび前記第２処理エンジンの汎用レジスタ
を動的にマッピングするステップを含む、請求項４２に
記載の少なくとも１つのプログラム記憶装置。
【請求項５３】前記動的にマッピングするステップが、
前記第１処理エンジンおよび前記第２処理エンジンの前
記汎用レジスタをそれぞれ前記レジスタ・パイプにマッ
ピングするために、前記第１処理エンジンに関連する第
１制御レジスタおよび前記第２処理エンジンに関連する
第２制御レジスタを使用するステップを含む、請求項５
２に記載の少なくとも１つのプログラム記憶装置。
【請求項５４】前記第１処理エンジンおよび前記第２処
理エンジンが、マルチプロセッシング・エンジン環境の
一部であり、前記方法がさらに、前記マルチプロセッシ
ング・エンジン環境の少なくともいくつかの処理エンジ
ンの間のバリヤ同期化を実施するステップを含む、請求
項４２に記載の少なくとも１つのプログラム記憶装置。
【請求項５５】前記実施するステップが、前記マルチプ
ロセッシング・エンジン環境の少なくともいくつかの処
理エンジンのそれぞれで、前記エンジンにアドレッシン
グされるレジスタ・パイプから読み取るために前記エン
ジンに対する命令を処理するステップを含み、前記少な
くともいくつかの処理エンジンの間の同期化が、前記少
なくともいくつかのエンジンのそれぞれのエンジンがそ
れにアドレッシングされたそのレジスタ・パイプから読
み取るために前記命令を実行する際に確立される、請求
項５４に記載の少なくとも１つのプログラム記憶装置。
【請求項５６】前記少なくともいくつかの処理エンジン
の各処理エンジンで、それにアドレッシングされるそれ
自体のレジスタ・パイプを確立するステップをさらに含
む、請求項５５に記載の少なくとも１つのプログラム記
憶装置。
【請求項５７】前記マルチプロセッシング・エンジン環
境が、４つの処理エンジンおよび複数のレジスタ・パイ
プを含み、各処理エンジンが、４つのレジスタ・パイプ
をアドレッシングし、前記４つの処理エンジンが、前記
第１処理エンジン、前記第２処理エンジン、第３処理エ
ンジン、および第４処理エンジンを含み、各処理エンジ
ンによってアドレス可能な前記４つのレジスタ・パイプ
が、前記処理エンジンを前記４つの処理エンジンの他の
処理エンジンに結合する３つのレジスタ・パイプと、そ
れ自体にアドレッシングされる第４レジスタ・パイプと
を含む、請求項５４に記載の少なくとも１つのプログラ
ム記憶装置。
【請求項５８】前記それ自体にアドレッシングされる第
４レジスタ・パイプが、データを書き込むのに使用され
る時に、前記データが、前記処理エンジンから前記マル
チプロセッシング・エンジン環境の前記他の処理エンジ
ンにブロードキャストされる、請求項５７に記載の少な
くとも１つのプログラム記憶装置。
【請求項５９】前記確立するステップが、前記第１処理
エンジンと前記第２処理エンジンとの間で直接レジスタ
・パイプを確立するステップを含む、請求項４２に記載
の少なくとも１つのプログラム記憶装置。
【請求項６０】前記確立するステップが、前記第１処理
エンジンと前記第２処理エンジンとを結合するスイッチ
・ファブリックを介する、前記第１処理エンジンと前記
第２処理エンジンとの間の間接レジスタ・パイプを確立
するステップを含む、請求項４２に記載の少なくとも１
つのプログラム記憶装置。
【請求項６１】前記確立するステップが、前記第１処理
エンジンと前記第２処理エンジンとの間のレジスタ・パ
イプの使用を識別する命令アーキテクチャを提供するス
テップを含み、前記命令アーキテクチャが、前記レジス
タ・パイプのアドレッシングに使用される汎用レジスタ
命令内のオペランド・フィールドを含む、請求項４２に
記載の少なくとも１つのプログラム記憶装置。