JP3730252B2

JP3730252B2 - レジスタ名称変更方法及び名称変更システム

Info

Publication number: JP3730252B2
Application number: JP51729393A
Authority: JP
Inventors: サンジブガーブ; ケブンレイアイアドナト
Original assignee: トランスメタコーポレイション
Priority date: 1992-03-31
Filing date: 1993-03-26
Publication date: 2005-12-21
Anticipated expiration: 2020-12-21
Also published as: US5737624A; WO1993020505A3; US7051187B2; US20030005260A1; DE69311330D1; US7802074B2; JP3571264B2; KR100371927B1; KR100371930B1; EP0636256A1; US6289433B1; JP2000148489A; JP2000148488A; JP3571263B2; US5497499A; WO1993020505A2; JPH07505494A; JP3571267B2; JP2000148487A; JP2000148484A

Description

関連出願の引照
以下は同一承継人の出願に係る係属中の出願である。
＊「半導体フロアープランおよびレジスタ名称変更回路の方法」、米国出願番号07/860,718号、１９９２年３月３１日、本発明と同時に出願(代理人整理番号SP041)．
＊「高速RISCマイクロプロセッサ・アーキテクチャ」、米国出願番号07/817,810号、１９９２年１月８日出願(代理人整理番号SP051)．
＊「拡張可能RISCマイクロプロセッサ・アーキテクチャ」、米国出願番号07/817,809号、１９９２年１月８日出願(代理人整理番号SP021)．
本特許出願に於いて上記の出願の開示を参照することによって当該米国特許出願の明細書の記載内容が本明細書の一部分を構成するものとする。
発明の背景
1. 産業上の利用分野
本発明はスーパースカラー限定命令セット計算機(RISC)に関するものであり、更に具体的に言えばスーパースカラーRISCコンピュータ用の、レジスタの名称変更および命令発行を含む命令スケジュール化に関するものである。
2. 関連技術
本出願で説明する基本的概念の詳細については以下の幾つかの参考文献に記述されている。Mike Johnson 箸 Superscalar Microprocessor Design(Prentice-Hall,Inc.,Englewood Cliffs,New Jersey,1991);John L.Hennessyその他箸、Computer Architecture-A Quantitative Approach (Morgan Kaufmann Publishers,San Mateo,California,1990)。ジョンソンの著書、特に第２、６、および７章に、本発明によって扱われたレジスタ名称変更問題の優れた解説が記述されている。
スーパースカラーRISCプロセッサに於ける大きな課題は如何にして、斯かる命令実行の本質的な問題である依存性によるデータ・エラーの発生を回避しつつ、複数の命令を平行処理的に、順不同に実行できるか、という点に関する。データ依存性検査、レジスタ名称変更、および命令スケジュール化は問題解決の根本的要素である。
2.1 記憶競合およびレジスタ名称変更
真の依存性（「フロー依存性(flow dependencies)」または「書き込み・読み出し(write-read)」依存性とも呼ばれる）は、しばしば反依存性（「読み出し・書き込み(read-write)」依存性とも呼ばれる）および出力依存性（「書き込み・書き込み(write-write)」依存性とも呼ばれる）と共に命令依存性の単一グループに分類される。このように分類をする理由は、これらの依存性のひとつひとつが、レジスタまたは他の記憶ロケーションの使用によってそれ自体を証明するからである。しかしながら、真の依存性を他の二つの依存性と区別することもまた重要である。真の依存性は、プログラムを通してデータおよび情報が流れるということである。反および出力依存性が発生するのは、異なった時点に於いて、レジスタまたは他の記憶ロケーションが異なった計算の為の異なった値を保持するからである。
命令が順序通りに発行され、順序通りに完了される場合、レジスタと値の間には一対一の対応が存在する。実行のどの過程に於いても、対応するレジスタに格納されている値はレジスタ識別子によって正確に識別される。命令が順不同に発行され、順不同に実行される場合、レジスタと値の間の対応が崩れ、値同士の間でレジスタをめぐっての競合が発生する。レジスタ割り当ての目的が出来るだけ多くの値を出来るだけ少数のレジスタに保存することである時、これは深刻な問題となる。多数の値を少数のレジスタに保存すると、実行の順序をレジスタ・アロケータが仮定する順序から変更した場合、多数の競合をもたらす。
反および出力依存性は正確には「記憶競合」と呼ばれる。なぜならば、たとえ互いに競合する命令が独立していても、記憶のロケーション（レジスタを含む）を再使用しようとする命令同士間で干渉が発生するからである。記憶に対する競合は命令の発行の抑制と、実行速度の低下という弊害を生む。しかし、問題となるリソースの数を増やすことにより、他のリソース競合と同じように、記憶競合を減少あるいは解消できる。
2.2 依存性のメカニズム
ジョンソンは次の項目を含む、様々な依存性のメカニズムを詳しく論じている。すなわち、ソフトウェア、レジスタの名称変更、リオーダー・バッファを用いたレジスタの名称変更、未来バッファを用いたレジスタ名称の変更、インターロック、依存性を回避するために命令ウィンドウ中でオペランドをコピーすること、および部分的名称変更、等である。
従来のハードウェア・インプリメンテーションは命令間の依存性はソフトウェアが管理するようになっている。命令が真の依存性または記憶競合から完全に抜け出すまでハードウェアが命令を扱うことのないように、コンパイラや他のコードジェネレータは命令の順序を変更できる。しかし、不幸にしてこの手法では幾つかの問題が生じる。ソフトウェアはプロセッサによる操作の遅延時間を考慮に入れることができず、したがって依存性を防止するためにどのように命令の順序を変えていいかということを常には判断できない。命令が依存性のない状態になるまでハードウェアがその命令を扱わないように、如何にしてソフトウェアがハードウェアをして制御できるか、ということも問題点のひとつである。操作遅延時間が短いスカラー・プロセッサの場合、ソフトウェアはオーバーヘッドを極端に増大することなく、コードに"no-ops"を挿入してデータ依存性の要求を満たすことができる。プロセッサが１サイクルあたり幾つかの命令を取り出そうとする場合、あるいはいくつかのオペレーションを完了するのに何サイクルかがかかる場合、プロセッサが依存性命令を扱わないようにするために挿入しなければならない"no-ops"の数は急速に増える。その結果、コード・サイズが容認し難い程増大する。命令間の依存性をエンコードするためno-opsは命令キャッシュという貴重なリソースを使う。
順不同の命令発行をプロセッサが許容する場合、どんなメカニズムのソフトウェアを、依存性を実施するのに使用すべきかは全く明らかでない。ソフトウェアはプロセッサの挙動を制御しないので、ソフトウェアが如何にしてプロセッサに依存性命令を解読させないようにするかということは困難である。二番目の問題は、スーパースカラー・プロセッサに於ける依存性を実施するスカラー・プロセッサ用の既存のバイナリ・コードは存在しないことである。なぜならば、実行モードはスーパースカラー・プロセッサにおいては非常に異なったものであるからである。依存性の管理をソフトウェアに委ねるには、スーパースカラー・プロセッサ用にコードを再生成する必要がある。そして、コードの依存性はハードウェアの遅延時間によって直接決定されるので、各スーパースカラー・プロセッサの各バージョンの最良のコードはそのバージョンのインプリメンテーションに依存する。
一方、ハードウェアの依存性対処手法は本質的に複雑であるという理由で望ましくない場合もある。典型的なRISC命令がそうであるように、各命令に２個の入力オペランドと１個の出力値があると仮定とする、どの２個の命令の間にも５つの依存性が存在する。すなわち、２つの真の依存性、２つの反依存性、および１つの出力依存性である。更に、ウィンドウ中の命令のグループのような、一つの命令グループの間の依存性の数は、そのグループ中の命令の数の自乗に比例する。なぜなら、各命令は他の命令の一つ一つに対して考慮されなければならないからである。
プロセッサが１つのサイクル内で解読し、実行し、実行しようとする命令の数によって、複雑さは更に増大する。これらのアクションによって依存性が導入される。複雑さを減少させる唯一の助けは、依存性ハードウェアのスコープと複雑さの減少を助けるために、依存性を幾つものサイクルにわたって増分変化量的に決定できるということである。
記憶競合を除外するひとつの手法は、レジスタと値との対応性を再設立するための、レジスタを追加導入することである。これらの追加されたレジスタは従来通り、ハードウェアによって動的に割り当てられ、そしてそれらのレジスタは「レジスタ名称変更(register renaming)」を使用するプログラムに必要な値に対応させられる。レジスタ名称変更を実現するために、通常プロセッサは生成される新しい値一つ一つに対して（すなわち、レジスタに書き込む命令の一つ一つに対して）新しいレジスタを割り当てる。元のレジスタを識別する命令は、そのレジスタの値を読む目的で、新規に割り当てられたレジスタの値を代わりに取得する。従って、ハードウェアは命令中の元のレジスタ識別子を名称変更して、新しいレジスタおよび正しい値と識別する。レジスタ割り当てに関してはレジスタ参照のロケーションに依って、幾つもの異なった命令中の同一のレジスタ識別子は、異なったハードウェア・レジスタにアクセスすることがある。
以下のコード・シーケンスを考える。式中、"op"はオペレーションを意味し、"Rn"は番号の付いているレジスタを表わし、":="は割り当てを表わす。
R3b := R3a op R5a (1)
R4b := R3d + 1 (2)
R3c := R5a + 1 (3)
R7b := R3c op R4b (4)
レジスタへの各割り当てによって、そのレジスタの新しい「インスタンス(instance)」、英字の添え字で表記されているもの、が生成される。第３命令でR3用の新しいインスタンスが生成されることによって、第２および第１命令の反および出力依存性がそれぞれ回避されるが、第４命令に正しくオペランドを供給することについては何も影響を与えない。第３命令におけるR3への割り当ては第１命令に於けるR3への割り当てに優先するものである。従って、次の命令で見られるR3cが新しいR3となり、その状態は別の命令が値をR3に割り当てるまで続く。
名称変更を行なうハードウェアは新しいレジスタ・インスタンスを生成し、そのインスタンスの値が他のものによって変更されて、その値への参照が存在しなくなった時点でそのインスタンスを破壊する。これによって、反および出力依存性が解消され、さらに多くの命令パラレリズムが可能となる。レジスタは再利用されるが、再利用はパラレル実行要件と一致している。これは特に順不同の命令発行に役立つものである。なぜならば、記憶競合は正しい結果を生成するのに必ずしも必要ではない命令発行抑制をもたらすからである。例えば、前記の命令シーケンスに於いては、名称変更によって第３命令は直ちに発行されるが、名称変更がない場合、第３命令は第１命令が完了し第２命令が発行されるまでこの命令を遅らせなければならないのである。
依存性を軽減するもう一つの手法は単一のビット（スコアーボード・ビット(scoreboard bit)と呼ばれる）を各レジスタと対応させることである。スコアーボード・ビットはレジスタに処理待ちの更新が存在することを示すために使用される。レジスタに書き込む命令が解読されると、プロセッサは対応するスコアーボード・ビットを設定する。書き込みが実際に実行されるとスコアーボード・ビットは再設定される。処理待ちの更新が存在するか否かを示すスコアーボード・ビットは一つだけしか存在しないので、各レジスタには斯かる更新は一つしかあり得ない。解読された命令が、処理待ちの更新（設定されているスコアーボード・ビットによって示される）を既に持つレジスタを更新するような場合、スコアーボードは命令の解読を遅らせる。こうして、どの時点に於いてもレジスタ当たり一つの処理待ちの更新を受け付けることによって出力依存性が防止される。
一方、レジスタの名称変更は複数のビットを持つタグを使用して様々な未計算の値を識別する。この場合、これらの値のうち幾つかは同一のプロセッサ・レジスタ（すなわち、同一の、プログラムから見えるレジスタ）に振り向けられていることも可能である。従来の名称変更では、ハードウェアは、現在どのような値とも対応していない使用可能なタグのプールからタグを割り当てることが求められ、また、ハードウェアは値の計算が完了するとタグを解放してそのプールに戻す必要がある。更に、スコアーボード化では各レジスタは一つの処理待ち更新しか受け入れることができないので、プロセッサはどの更新が最新のものであるかということを考慮しない。
依存性を軽減する更なる手法、アソシアティブ・ルックアップを使用する「リオーダー・バッファ(reorder buffer)」を用いてレジスタの名称変更手法を使用することである。アソシアティブ・ルックアップはリオーダー・バッファ項目が割り当てられると直ちにレジスタの識別子をそのリオーダー・バッファ項目に写像する。更に、出力依存性を防止するために、ルックアップは優先順位で行われ、その結果、レジスタが２回以上割り当てられた場合、最新の割り当て値だけが得られる。この結果が利用可能でない場合は、タグが得られる。一つのレジスタに対し、リオーダー・バッファ項目の数と同じ数のインスタンスがあっても構わない。従って、命令間で記憶競合が発生することはない。異なったインスタンスの各値はリオーダー・バッファからレジスタ・ファイルに順次書き込まれる。最後のインスタンスの値がレジスタ・ファイルに書き込まれると、リオーダー・バッファはもはやレジスタと写像しない。その場合、レジスタ・ファイルにはこのレジスタのインスタンスのみが含まれ、これが最も新しいインスタンスとなる。
しかし、リオーダー・バッファを用いた名称変更は、レジスタ識別子を値に写像するために、リオーダー・バッファ中のアソシアティブ・ルックアップを必要とする。リオーダー・バッファでは、アソシアティブ・ルックアップは優先順位付けられていて、リオーダー・バッファは常に最新値を対象となるレジスタ（あるいはタグ）に供給するようになっている。リオーダー・バッファもまた、種々の値をレジスタ・ファイルに順次書き込むので、値がリオーダー・バッファ中に存在しない場合でも、レジスタ・ファイルには最新値が必ず格納されている。
依存性軽減の更なる手法では、「未来ファイル(future file)」を使用することによってアソシアティブ・ルックアップを削減できる。未来ファイルは前のパラグラフで述べたリオーダー・バッファの特性は持たないファイルである。未来ファイル書き込み用に与えられた値は対応するレジスタに振り向けられた最新の値ではないこともあり、それが実際に最新の値でなければ値は最新のもとのして扱われない。従って、未来ファイルは最新の更新を記憶していて、実際に書き込みを行なう前に、各書き込みが最新の更新に対応することを検査するものである。
命令が解読されると、それはオペランド値と一緒に未来ファイル中のタグにアクセスする。レジスタに一つ以上の処理待ちの更新がある場合、タグは解読された命令が必要とする更新値を識別する。ひとつの命令が一旦解読されると、他の命令は反依存性に制約されることなくこの命令のソース・オペランドに上書きすることができる。なぜならば、このオペランドは命令ウィンドウにコピーされるからである。結果が最新の値のタグを持たない場合、その結果が未来ファイルに書き込まれることを防止することによって出力依存性は処理される。反および出力依存性は両方共、命令の発行を遅延させることなく処理される。
名称変更で依存性が解消されない場合、依存性を管理するために「インターロック(interlocks)」を使用しなければならない。インターロックは単に、命令が依存性から解放されるまでその命令の実行を遅延させるものである。命令の実行を抑制するには２つの方法がある。すなわち、命令の解読の抑制と、命令の発行の抑制である。
スコアーボード化以上にパーフォーマンスを改善するために、インターロックは「ディスパッチ・スタック(dispatch stack)」を使用してデコーダから命令ウィンドウに移される。ディスパッチ・スタックとは命令ウィンドウの一種で、ウィンドウ中の各命令を依存性カウントと共に増加させるものである。ウィンドウ中の各命令ごとのソース・レジスタに対応する依存性カウントが存在する。このカウントはソース・レジスタの処理待ちの先行更新の数を示すもので、従って、全ての真の依存性が解消される前に終了しなければならない更新の数を示すものである。ウィンドウ中の各命令の行き先レジスタに対応する２個の同じ様な依存性カウントが存在する。これらのカウントで処理待ちのレジスタの使用の数（すなわち反依存性の数）および処理待ちのレジスタの更新の数（すなわち出力依存性の数）が示される。
一つの命令が解読され、ディスパッチ・スタックにロードされると、依存性カウントはその命令のレジスタ識別子と、当ディスパッチ・スタックに既に存在する全ての命令のレジスタ識別子とを比較することによって設定される。命令が完了すると、まだウィンドウ中に存在する命令の依存性カウントは、実行される命令のソースおよび行き先レジスタ識別子に基づいて減少する（カウントは完了された命令の数に応じて可変の数で減少する）。命令はその全てのカウントがゼロの場合、独立した命令となる。カウントを使用することによって、ディスパッチ・スタック中の全ての命令を各サイクルの他の全ての命令と比較する必要がなくなる。
反依存性の命令の解読中にオペランドを命令ウィンドウ（例えば予約ステーション）にコピーすることによって防止できる。こうすることによって、オペランドが以降のレジスタの更新の段階で上書きされることがなくなる。レジスタの名称変更とは別に、反依存性を解消させるためにどんな手法でもオペランドはコピーできる。オペランドをコピーする代わりに、反依存性をインターロックすることもできるが、これらのインターロックのために必要なコンパレータおよび/またはカウンタは、比較するソースおよび結果レジスタの組み合わせの数を考慮すると高額である。
オペランドそのものの代わりにタグをオペランドとして供給できる。このタグはハードウェアにとっては単に、命令がどの直を必要とするかを識別するための手段である。従って、オペランド値が生成されると、それは命令とマッチさせることができる。レジスタ当たり１個の処理待ちの更新だけしかあり得ない場合、レジスタ識別子がタグとして使用できる（スコアーボード化の場合のように）。レジスタ当たり複数の処理待ちの更新があり得る場合（名称変更の場合のように）、結果タグを割り当てて、そして一意性を保証するためのメカニズムが必要である。
スコアーボード・インターロッキングの代わりとなる手法は、レジスタの複数の処理待ち更新を、出力依存性のためにデコーダを遅延させないようにし、且つデコードの過程に於いてオペランド（あるいはタグ）をコピーすることによって反依存性を処理することである。ウィンドウ中の命令は出力依存性から解放されない限り発行されないので、各レジスタの更新は順序通りの実行で行われるのと同じ順序で実行される。但し、異なるレジスタの更新は例外で、お互いに順不同である。この手法はレジスタ名称変更と殆ど同じ機能を持つものであるが、同一のレジスタの更新が順不同に発生するように命令を発行する能力だけは持たない。
リオーダ・バッファーを用いる以外に、名称更新にとって代わる良い方法はないように見える。依存性に関する議論の根底を成すものは、プロセッサは順不同の発行を行い、間違って予報された分岐から回復するためのリオーダー・バッファを既に持っている、という前提である。順不同の発行により、依存性を待つためにデコーダを遅延させることが許容できないこととなる。プロセッサに命令ウィンドウがある場合、デコーダをインターロックしてプロセッサのルックアヘッド機能を制限することは矛盾しているのである。従って、二つの選択肢しかない。すなわち、ウィンドウ中で反および出力依存性インターロックを実現させるか、あるいはこれらの依存性を名称変更によって完全に除去することである。
発明の要約
本発明はスパースカラーRICSコンピュータ用の、レジスタ名称変更および命令発行を含む、命令スケジューリングに関するものである。スケジューリング論理の一部であるレジスタ名称変更回路(RRC)によって、コンピュータの命令実行ユニット(IEU)は依存性を防止しつつ複数の命令を同時に実行することが可能になる。従来のレジスタ名称変更と比較して、本発明ではレジスタ・アドレスは実際には名称変更されない。本発明のRRCは一時的に命令の結果をバッファに入れ、順不同の命令の実行の結果は全ての先行する命令の実行が終わるまでレジスタ・ファイルに転送されない。RRCはまた一時的にバッファに入れられたオペランド（結果）を依存命令に供給するために結果の前向き送りを行なう。RRCには３個にサブセクションが含まれている。すなわち、データ依存性チェッカー(DDC)，タグ割り当て論理(TAL)，およびレジスタファイル・ポートMUX(RPM)である。
DDCの役割は命令のグループ中の命令間の依存性を検出することである。DDCは各命令のソース・レジスタのアドレスと、グループ中の以前の各命令の行き先レジスタのアドレスを比較することによって命令間の依存性を検出する。例えば、命令Ａが命令Ｂによって書き込まれたレジスタからの値を読み出す場合、命令Ａは命令Ｂに依存し、命令Ａは命令Ｂが完了するまで開始できない。DDCの出力はこれらの依存性を示す。
DDCの出力はTALに送られる。一つの命令が先行する複数の命令に依存することが起こり得るので、TALはこれらの先行する命令のうちどれが最後に実行されるものであるかを決定する必要がある。本発明では、各命令を自動的に、所定の一時的バッファ位置に写像する。従って、本発明は従来のリオーダー・バッファで使用されるような優先順位化されたアソシアティブ・ルックアップを必要とせず、従ってチップの面積／コスト、および実行速度を節約する。
同時に実行される複数の命令の順不同の結果は、命令によって指定されたファイル・レジスタではなく、一連の一時的バッファに格納される。例えば、DDCが、命令６のソースが命令２、３、および５によって書き込まれるレジスタ、[INCOMPLETESENTENCE]であると決定した場合、TALは命令６に代わって命令５の「タグ(tag)」を出力することによって、命令６は命令５が完了するまで待たなければならないことを表示する。命令５のタグは命令５の結果が格納されている一時的バッファ位置を示す。このタグはまた、命令５が済んだかどうかを示す１ビットの信号（「済みフラグ(doneflag)」と呼ばれる）を含む。各命令は３個のソース・レジスタを持つことができるので、TALは各命令ごとに３個のタグを出力する。命令が先行するどの命令にも依存しない場合、TALは一時的バッファのアドレスではなく、その命令の入力のレジスタ・ファイル・アドレスを出力する。
RRCの最後の要素はRPM、すなわちレジスタファイル・ポートMUXes、である。RPMの入力はTALの出力であり、RPMの選択ラインは命令スケジューラ（または、イシュア）と呼ばれる、IEUのもう一つの要素から来る。命令スケジューラはどの命令を実行するか（この決定は済みフラグにも基づくものである）を選択し、次にRPMを使用してその命令のタグを選択する。これらのタグはコンピュータのレジスタ・ファイルの読み出しアドレス・ポートに送られる。前述の例えば、命令５が完了した後、命令スケジューラは命令６を開始し、命令５の結果（タグ）のアドレスがレジスタ・ファイルに送られるようにRPMを選択する。そして、レジスタ・ファイルは命令５の結果を命令６で使用できるようにする。
本発明の上記および他の特徴と利点は、添付図の中で説明されるように、以下の推奨実施例の更に具体的な説明で明らかになるであろう。
【図面の簡単な説明】
本発明のより良い理解のために下記の図面を参照する。
図１は本発明のレジスタ名称変更回路の代表的ハイレベルブロック図を示す。
図２は本発明のデータ依存性検査回路の代表的ブロック図を示す。
図３は本発明のタグ割り当て論理の代表的なブロック図を示す。
図４は本発明のレジスタ・ポート・ファイルマルチプレクサの代表的ブロック図を示す。
図５は本発明によるIXS1およびIYS/D用のデータ依存性検査方法を示す代表的フローチャートである。
図６Ａおよび６Ｂは本発明によるタグ割り当て方法を示す代表的フローチャートである。
図７は本発明の一実施例に基づいて、命令Yのソース/行き先オペランドを命令Xの各オペランドと比較する代表的ブロック図を示す。
図８は図７のコンパレータ・ブロック706の代表的回路図を示す。
図９は本発明の一実施例による、優先エンコーダの代表的ブロック図を示す。
図１０は本発明の命令スケジュール論理の代表的ブロック図を示す。
詳細な説明
図１に本発明の命令実行ユニット(IEU)100の代表的ハイレベルブロック図を示す。IEU100の目的は最短時間で最大数の命令を実行することである。これを遂行するには二つの基本的な方法がある。すなわち、各命令が出来るだけ短時間で実行するようにIEU100を最適化するか、複数の命令を同時に実行できるようにIEU100を最適化することである。
命令は「バケット」と呼ばれる４つのグループ中のFIFO（先入れ先出し方式レジスタ・スタック記憶装置）命令101を通して、命令取り出しユニット（IFU、図示せず）からIEU100に送られる。IEU100は最大２個の命令バケットを同時に解読し、スケジュールできる。FIFO101は0-3とラベルされた４個のバケットに全部で１６個の命令が格納できる。IEU100は命令ウィンドウ102を調べる。本発明の一実施例では、ウィンドウ102は８個の命令（バケット０および１）で構成されている。各サイクルで、IEU100はウィンドウ102から最大数の命令を発行しようとする。ウィンドウ102は命令バッファ・レジスタとして機能する。一旦、バケット中の命令が実行され、その結果がプロセッサのレジスタ・ファイル（ブロック117を参照）に格納されると、バケットは底部104から掃き出され、新しいバケットが上部106から落とされる。
命令を並列あるいは順不同に実行するためには、各命令が必要とする時に、必要なデータが使用可能であるように、また、各命令の実行の結果が、将来の命令においてそれが必要になった時に使用可能であるように配慮する必要がある。レジスタ名称変更の回路(RRC)はコンピュータのIEUのスケジュール論理の一部であるが、RRCはカレント命令間の依存性を検出し、命令のソース（入力）を名称変更することによってこの機能を行なうものである。
前述のように三種類の依存性が存在する。すなわち、入力依存性、出力依存性、反依存性、である。入力依存性は、例えばＡと呼ばれる命令が、仮にＢと呼ばれる先行の命令の結果に基づいてオペレーションを実行する場合に発生する。出力依存性は、ＡとＢの出力が同じ場所に格納されるような場合に発生する。反依存性は、命令のストリームに於いて命令Ａが命令Ｂの前に現れ、Ｂの結果がＡの入力の一つと同じ場所に格納されなければならない場合に発生する。
入力依存性の扱い方は、必要な入力が使用可能になるまで命令を実行しないことである。RRC 112は、カレント命令間の入力依存性を検出するために、そして特定の命令のための全ての入力が使用可能になると命令スケジューラまたはイシュア118に合図するために、使用される。これらの依存性を検出するために、RRC 112はデータ依存性回路(DDC)108を使用して、各命令の入力のレジスタ・ファイル・アドレスと各先行命令の出力のアドレスとを比較する。先行する命令の出力が格納されるべきレジスタから一つの命令の入力が得られる場合、後者の命令は前者の命令の実行が終わるまで待たねばならない。
RRC 112のこのインプリメンテーションでは、８個の命令を同時に検査できるので、カレント命令はウィンドウ102からこれらの８個の命令のうちの一つとして定義される。当業者にとって、本発明はこれよりも多くの命令、あるいはこれよりも少ない命令を検査できるように容易に変更できるということは明らかであろう。
本発明の一実施例では、命令は０から３の入力および０または１の出力を持ち得る。多くの命令の入力および出力は、幾つかのレジスタ・ファイルのうちの一つから取得されるか格納されている。各レジスタ・ファイル117（例えば別個の、整数、浮動、およびブールレジスタ・ファイル）は32個の実エントリに加え、８個の一時バッファ116のグループを持つことができる。ある命令が完了すると（「完了(complete)」とは、オペレーションが完了し、オペランドはその行き先レジスタに書き込まれる用意があることを意味する）、その結果は一時バッファ116の予め指定されたロケーションに格納される。全ての先行する命令の結果がレジスタ・ファイル中の定められた場所に移された後、この完了した命令の結果はレジスタ・ファイル117の適切な場所に移される。このような、一時バッファ116からレジスタ・ファイル117への結果の移動は「退避(retirement)」と呼ばれ、終了論理で制御されるもので、当業者にとっては明らかなものであろう。複数の命令が同時に退避可能である。退避とは、コンピュータのプログラム・カウンタを含む、マシンの「正式な状態(official state)」を更新することであり、これもまた当業者にとっては明らかなものであろう。例えば、命令I0が命令I1の直前に完了すると、両方の命令の結果をレジスタ・ファイル117に直接格納することができる。しかし、その後命令I3が完了すると、その結果は命令I2が完了するまで一時バッファ116に格納されなければならない。IEU100に各命令の結果を一時バッファ116の予め指定された場所に格納させることによって、IEU100はプログラムでの順序とは異なった順序で命令を実行でき、しかも出力依存性および反依存性によって生じる問題も回避できる。
RRC 112はビットマップをバス120を経て命令スケジューラ118に送り、ウィンドウ102中のどの命令が発行の用意ができているかを表示する。命令解読論理（図示せず）はイシュア118にバス123を経て各命令のリソースの要件を通知する。IEU100中の各リソースごとに（すなわち、各機能ユニットは一つの加算器、乗算器、シフト器、等である）イシュア118はこの情報を走査し、バス121を経て発行信号を送ることにより、発行するための最初の命令および以降の命令を選択する。発行命令はRRC 112内の一組のレジスタファイル・ポートMUXes(RPMs)124を選択する。これらの入力は各命令の入力のアドレスである。
これらの結果はレジスタ・ファイル117に送られる前に数サイクル分一時バッファ116に保存されるので、これらがレジスタ・ファイル117に送られる前に一時バッファ116から取得するメカニズムが設定されている。このようにして、その情報は他の命令のオペランドとして使用可能となる。このメカニズムは「結果の前送り(result forwarding)」と呼ばれ、これなしにはイシュア118は順不同での命令の発行ができない。この結果の前送りはレジスタ・ファイル117に於いて行われ、RRC 112によって制御されるものである。結果の前送りの実行に必要な制御信号、そして斯かる制御信号の生成に使用されるランダム論理は、当業者にとっては明らかであろう。
与えられた命令がカレント命令のうちどの命令にも依存しない場合、この命令の入力は既にレジスタ・ファイル117に存在するので、結果の前送りは不要となる。イシュア118がその命令の実行を決定すると、RRC 112はレジスタ・ファイル117にそのデータを出力するよう指示する。
RRC112には次の三つの部分が含まれる。すなわち、データ依存性チェッカー(DDC)108，タグ割り当て論理(TAL)112，およびレジスタファイル・ポートMUXes(RPM)124である。DDC108はカレント命令間の何処に入力依存性が存在するかを決定する。TAL 122はイシュア118のために依存性を監視し、結果の前送りを制御する。RPM124はイシュア118によって制御され、TAL 122の出力を適切なレジスタ・ファイル・アドレス・ポート119に差し向ける。各命令はバス110を経てDDC 118に送られる。全てのソース・レジスタは、ウィンドウ102の命令ごとに、全ての以前の行き先レジスタと比較される。
各命令の行き先は１つだけであり、これは一実施例ではダブルレジスタとなる。ひとつの命令は先行する命令だけに依存し、最大３個のソース・レジスタを持つことができる。依存性の存在を検出するために、相互に検査される必要がある様々なレジスタ・ファイルのソースおよび行き先アドレスがある。上記の如く、下部の２個のバケットに対応する下部の８個の命令はDDC 108によって検査される。全てのソースレジスタ・アドレスは全ての先行の行き先レジスタ・アドレスと比較されて、ウィンドウ102中の命令が存在するかどうかが調べられる。
例えば、一つのプログラムに下記の命令シーケンスがあるとする。
add R0,R1,R2 (0)
add R0,R2,R3 (1)
add R4,R5,R2 (2)
add R2,R3,R4 (3)
各命令0-3の最初の２個のレジスタはソース・レジスタであり、各命令の最後のレジスタは行き先レジスタである。例えば、R0とR1は命令0のソース・レジスタであり、R2は行き先レジスタである。命令０はレジスタ０および１の内容を加算し、結果をR2に格納する。この例の命令1-3で、全ての依存性を評価するために必要な比較は次の通りである。
I1S1，I1S2 対 I0D
I2S1，I2S2 対 I1D，I0D
I3S1，I3S2 対 I2D，I1D，I0D
上記を説明すれば次の通りである。IXRS1は命令Xの第１ソース（入力）のアドレスであり、IXRS2は命令Xの第２ソース（入力）のアドレスであり、IXDは命令Xの行き先（出力）のアドレスである。
更に、プロセッサには一時バッファがあり、そこに命令の０の結果に干渉することなしに命令２の結果が格納できるので、RRC 112は、命令２は命令０に依存して出力されることを無視できる。前述の、命令０と１の結果がレジスタ・ファイル117に移されるまで、命令２の結果は一時バッファ116からレジスタ・ファイル117に移されないのである。
RRC 112によって検査される命令の数は容易にスケール可能である。４個の命令でなく、８個の命令を同時に検査するためには、下記の更なる比較を行わなければならない。
I4S1，I4S2 対 I3D,I2D,I1D,I0D
I5S1，I5S2 対 I4D,I3D,I2D,I1D,I0D
I6S1，I6S2 対 I5D,I4D,I3D,I2D,I1D,I0D
I7S1，I7S2 対 I6D,I5D,I4D,I3D,I2D,I1D,I0D
依存性の検査を行なうために、RRC 112が扱わねばならない特殊なケースが幾つかある。第一に、ある命令では同じレジスタを入力と出力の両方に使用する。従って、RRC112はこのソース/行き先レジスタ・アドレスを全ての先行する命令の行き先レジスタ・アドレスと比較する必要がある。従って、命令７のためには下記の比較が必要である。
I7S1,I7S2,I7S/D 対 I6D,I5D,I4D,I3D,I2D,I1D,I0D
更に、別の特殊なケースは、64ビットの出力（長語オペレーション）を生成する命令がプログラムに含まれている場合である。これらの命令は、結果を格納するための２個のレジスタが必要である。本実施例ではこれらのレジスタは順次レジスタでなければならない。従って、RRC112が命令４の依存性を検査していて、命令１が長語オペレーションである場合、RRC112は下記の比較を行なわなければならない。
I4S1，I4S2 対 I3D,I2D,I1D,I1D+1,I0D
場合によっては、命令は行き先レジスタを持たない。従って、RRC112は行き先レジスタなしの命令と如何なる将来の命令との間のどんな依存性をも一切無視しなければならない。更に、命令は１個の有効なソース・レジスタだけを持つとは限らないので、RRC 112は未使用のソース・レジスタ（通常はS2）と全て先行する命令との間のどんな依存性をも一切無視しなければならない。
RRC 112はまた複数のレジスタ・ファイルを扱うことができる。複数のレジスタ・ファイルが使用される場合、一つの命令のソース・レジスタが他の命令の行き先レジスタと同じアドレスを持ち、同じレジスタ・ファイルに存在する場合のみ依存性が発生する。RRC 112は特定のアドレスがどのレジスタ・ファイルからのものであるかという情報をそのアドレスの一部として扱う。例えば、４個の32ビット・レジスタ・ファイルを使用するインプリメンテーションに於いて、RRC 112は５ビットの比較のかわりに７ビットの比較を行なう（５ビットはアドレスで、２ビットはレジスタ・ファイル用である）。
どの命令が長語オペレーションであるか、あるいはどの命令に不正なソースまたは行き先レジスタが含まれているかを示す信号は命令解読論理（IDL、図示せず）からRRC 112に送られる。またIDLはどのレジスタ・ファイルから各命令のソースと行き先を取得するか、またどのレジスタ・ファイルにそれらを送るかをRRC 112に通知する。
図２はDDC 108のブロック図である。ウィンドウ102の８個の命令すべてのためのソース・アドレス信号はIFIFO 101から来着する。更なる入力には、８個の命令のすべてのための長語ロード・オペレーション・フラグ、レジスタ・ファイル解読信号、不正行き先レジスタ・フラグ、行き先アドレス信号、アドレッシング・モードフラグ、等が含まれている。
DDC208は28個の依存性ブロック204で構成されている。各ブロック204はKEY 206で記述されている。各ブロック204はIXS1，IXS2，およびIXS/D、の３個の入力を受け取る。IXS1は命令Xの第一ソース（入力）のアドレスであり、IXS2は命令Xの第二ソース（入力）のアドレスであり、IXS/Dは命令Xのソース/行き先（入力）のアドレスである。各ブロック204はまた入力IYS/Dを受け取るが、これはある先行命令Yの行き先レジスタ・アドレスである。例えば、最上行208はIOS/Dを受け取るが、これは命令０の行き先レジスタ・アドレスである。各ブロック204はデータ依存性の結果を対応するバスライン114の一つに出力する。例えば、I2S/Dのアドレスは命令７、６、５、４、および３のオペランドアドレスS1、S2、およびS/Dと比較されなくてはならない。
各ブロック204は三つの比較を行なう。これらの比較を理解するために図７に示される汎用的ブロック700を考察してみる。このブロックは命令Yのソース/行き先オペランドと命令Xの各オペランドとを比較する。この例に於いて、下記の三つの比較が行なわれなくてはならない。
IXS1 = IYS/D
IXS2 = IYS/D
IXS/D = IYS/D
これらの比較は３個のコンパレータブロック702、704、および706でそれぞれ表わされる。コンパレータブロック702、704および706への１組の入力はIYS/Dフィールドのビットであって、このフィールドは番号708で表わされる。コンパレータブロック702はその入力の第二セットとしてIXS1のビットを持つ。同じく、コンパレータブロック704はその入力の第二セットとしてIXS1のビットを持つ。また、コンパレータブロック706はその入力の第二セットとしてIXS/Dのビットを持つ。
推奨実施例では、ブロック702、704および706で実行される比較はランダム論理で実行できる。コンパレータブロック706のランダム論理の一例を図８に示す。命令Yのソース/行き先ビット[6:0]を参照番号802で右側からの入力として示す。同じく、命令のXのソース/行き先ビット[6:0]を参照番号804で上側からの入力として示す。最上位ビット(MSB)はビット６であり、最下位ビット(LSB)はビット０である。これら２個のオペランドからの、対応するビットは７個の排他的NORゲート(XNOR)806に送られる。XNOR806の出力は次に７個の入力ANDゲート808によってANDをとられる。対応するビットが同一であるならば、XNOR806の出力のすべてはロジック・ハイである。全てのビットが同一であるならば、７個のXNOR 806の出力のすべてはロジック・ハイであり、ANDゲート808の出力はロジック・ハイである。これは、IXS/DとIYS/Dとの間に依存性が存在することを示す。
コンパレータブロック702および704のランダム論理は図８に示したものと同じである。本発明ではデータ依存性検査を行なうために幾多の他のランダム論理回路が可能であり、これはこの実施例の精神から逸脱することなく、当業者にとって明らかであろう。
また、当業者にとって更に明らかになるであろうが、種々のインプリメンテーション固有のケースの発生が可能であるが、そのためにはデータ依存性検査を行なう更なるランダム論理が必要となる。代表的な特殊なデータ依存性検査のケースは長語の処理である。
前述の如く、長語オペレーションがレジスタXに書き込むと、最初の32ビットはレジスタXに書き込まれ、二番目の32ビットはレジスタX+1に書き込まれる。従って、データ依存性チェッカーは比較を行なうに当たって両方のレジスタを検査する必要がある。推奨実施例では、レジスタXは偶数レジスタであり、レジスタX+1は奇数レジスタである。従って両者の違いはLSBの差だけである。両方のレジスタを同時に検査する最も簡単な方法はLSBを無視することである。ストア・ロング(STLG)またはロード・ロング(LDLG)オペレーションの場合、XとYがLSB(0)ビットだけの差で違うならば、図８の論理では、依存性が実際は存在していてもそれがあたかも全然ない状態を生み出す。従って、長語オペレーションのためには、全ての依存性が確実に検出できるように、STLGおよびLDLGフラグは[0]ビットXNORの出力とORがとられなければならない。
図５にIXS1およびIYS/Dのデータ依存性検査フローチャートを示す。条件付きブロック502で示されるように、DDC 108は最初にIXS1およびIYS/Dが同じレジスタ・ファイルに在るかどうかを検査する。もし同じレジスタ・ファイルに存在しないならば依存性はない。これを、ブロック504に示す。依存性が存在するならば、DDC 108は、ブロック506に示すように、次にIXS1およびIYS/Dが同じレジスタに在るかどうかを決定する。同じレジスタに存在しない場合、フローは条件付きブロック508へ進み、そこでDDC 108はIYが長語オペレーションであるか否かを決定する。IYが長語オペレーションでない場合、依存性は存在せず、フローはブロック504に進む。IYが長語オペレーションである場合、フローは条件付き文510に進む。そこで、DDC 108はIXS1およびIYS/D+1が同じレジスタに存在するか否かを決定する。同じレジスタに存在しない場合、依存性はなく、フローはブロック504に進む。IXS1およびIYS/D+1が同じレジスタに存在するならば、条件付きブロック512に進み、そこでDDC 108はIYが有効な行き先を持っているか否かを決定する。有効な行き先がない場合、依存性は存在せず、フローはブロック504に進む。IYに有効な行き先がある場合、条件付きブロック514に進み、そこでDDC108はIXS1が有効なソースレジスタを持っているか否かを決定する。ここでも、有効なソースレジスタが検出されないならば依存性は存在せず、フローはブロック504に進む。有効なソースレジスタが検出されれば、DDC 108はIXS1およびIYS/Dの間に依存性があることを検出したことになる。これはブロック516で示されている。
データ依存性検査については、同一承継人の出願に係る係属中の出願、関連特許申請、米国特許番号07/860,718号（代理人整理番号SP041）に更に詳しく説明されている。この出願の開示はここに参照文献として含まれているものとする。
ある命令がその入力の一つを、他の幾つかの命令によって既に書き込まれているレジスタから取得することが可能であるので、本発明ではどの入力が真の依存性であるかを選択しなければならない。例えば、命令２および５がレジスタ４に書き込み、命令７がレジスタ４から読み出す場合、命令７に二つの依存性があり得る。この場合、プログラムでは命令５は命令２に後続するので、プログラマーの意図とすることは、命令７が命令２の結果ではなく、命令５の結果を使用することであると仮定される。従って、一つの命令が先行する幾つかの命令に依存する場合、RRC 112はその命令は先行する命令のうち最高の番号を持つ命令に依存するものとして扱う。
TAL112は一旦、真の依存性が何処に存在するかを決定した後、各命令の入力を探す必要がある。本発明の推奨実施例では、入力は実際のレジスタ・ファイルまたは一時バッファ116の配列から取得できる。RRC 112は、依存性を持たない命令の場合、その命令の全ての入力はレジスタ・ファイルに存在すると仮定する。この場合、RRC 112はIFIFO 102から取得されたIXS1、IXS2、およびIXS/Dアドレスをレジスタ・ファイルに渡す。依存性のある命令の場合、RRC 112はデータは一時バッファ116に格納されていると仮定する。RRC 112は各命令がどの先行命令に依存するかが分かっているので、そして各命令は常に一時バッファ116中の同じ場所に書き込むので、RRC 112は一時バッファ116の何処に命令の入力が保存されているかを決定することができる。RRC 112はこれらのアドレスをレジスタ・ファイル読み出しポート119に送り、レジスタ・ファイル117はその命令がデータを使用できるように一時バッファ116から出力する。
タグ割り当て例を下記に記す。
0: add r0, r1, r2
1: add r0, r2, r3
2: add r4, r5, r2
3: add r2, r3, r4
上記のオペレーションの依存性は下記の通りである（依存性を＃記号で記す）。
I1S2#I0S/D
I3S1#I0S/D
I3S1#I2S/D
I3S2#I1S/D
先ずI0に注目するならば、I0は依存性を持たないので、そのタグはその元のソース・レジスタ・アドレスに等しい。
I0S1 タグ= I0S1 = r0
I0S2 タグ= I0S2 = r1
I0S/D タグ= I0S/D + r2
I1は１個の依存性を持つのでI1のタグは次の通りである。
I1S1 タグ= I1S1 = r0
I1S2 タグ= I0S/D = t0
式中、（t0=一時バッファ中の命令０のスロット）
I1S/D タグ= I1S/D = r3
I2もまた依存性を持たない、独立したものである。
I2S1 タグ= I2S1 = r4
I2S2 タグ= I2S2 = R5
I3S2/D タグ= I2S/D = r2
I3S1にはIOS/DおよびI2S/Dの二つの依存性が有り得る。TAL 122は最後の依存性（最大の番号を持つ依存性）を選択しなければならないので、I2S/Dが選択される。
I3S1 タグ= I2S/D = t2
I3S2 タグ= I1S/D = t1
I3S/D タグ= I3S/D = r4
これらのタグは次にバス126を経てRPM 124に送られ、イシュア118によって選択される。TAL 122はタグを準備すると同時にDCL 130の出力を監視し、それらの出力をバス120を使用してイシュア118に送る。それを行なうに当たり、TAL 122はRPM 124に送るタグを運ぶのと同じ方法でDCL 130の適切な出力を選択してイシュア118に送る。
この例を更に説明するならば、TAL 122は下記のレディー信号をイシュア118に送る。
I0S1 INFO = 1
（命令０は独立した命令であるので、直ちに起動できる）。
I0S2 INFO = 1
I0S/D INFO = 1
I1S1 INFO = 1
I1S2 INFO = DONE[0]
(I0が済んだ時DONE[0] = 1）
I1S/D INFO = 1
I2S1 INFO = 1
I2S2 INFO = 1
I2S/D INFO = 1
I3S1 INFO = DONE[2]
I3S2 INFO = DONE[1]
I3S/D READ = 1
（DONE信号はバス132を経てDCL 130から送られる。本発明においては「済んだ(done)」とは命令の結果が一時バッファに在るか、さもなくば機能ユニットの出力に於いて使用可能であることを意味する。一方、「終了(terminate)」とは命令の結果がレジスタ・ファイルに存在することを意味する）
次に図３を参照しつつTAL 122の代表的ブロック図を説明する。TAL 122は８個のタグ割り当て論理ブロック302で構成されている。各TALブロック302は対応するデータ依存性結果、およびコンピュータの命令解読および制御論理（図示せず）から送られる更なる信号を複数のバス114を経て受け取る。BKTビット信号はタグの最下位ビットを形成する。DONE[X]フラグは命令０から６までのものであり、命令Xが済んだか否かを通知する。DBLREG[X]フラグは命令のうち一つが倍長ワードであるならば、どれが倍長ワードであるかを通知する。各TALブロック302はそれ自身の命令レジスタ・アドレスを入力として受け取る。その他の信号であるDBLREGおよびBKT信号は全てインプリメンテーション依存の制御信号である。各TALブロック302はIXS1、IXS2、およびIXS/Dというラベルを持つ６ビットの、３個のタグ126を出力する。TAL122は各タグ信号の最下位の５ビットをRPMs 124に出力し、最上位のタグをイシュア118に出力する。
図３の各ブロック302は３個の優先エンコーダ(PE)で構成されている。これらのPEはそれぞれS1、S2、およびS/D用である。しかし、一つの例外がある。すなわち、I0はタグの割り当てを必要としないのである。I0は常に独立しているので、その各タグは元のS1、S2、およびS/Dのアドレスと同一である。
典型的なPEを図９に示す。PE902は８個の入力904および８個の出力906を持つ。PE902の入力はDDC108からの出力114であり、これらの出力は何処に依存性が存在するかを示すものである。例えば、ソース・レジスタ１(S1)の場合、I7S1タグ割り当てPE902の７個の入力はDDC108の７個の出力114であり、それらはI7S1がI6Dに存在しているか否か、I7S1がI5Dに存在しているか否か、等、そしてI7S1がI0Dに依存しているか否か、までを通知する。参照番号908で示される第８入力は常にPE902からの出力であるので、常に高位でタイとなる。
上記のように、一つの命令が先行する幾つかの命令に依存する場合、PE902は依存性が存在する先行命令のうち最も古い（プログラム順で）命令だけを選択し、出力する。これは、最も古い先行命令への依存性があるか否かを示す信号をPE902の最優先順位の入力に接続し、２番目に古い先行命令への依存性があるか否かを示す信号をPE902の最優先順位が２番目の入力に接続する、というふうに、すべての先行命令を接続することによって行なわれる。PE902の最低優先順位の最も低い入力は常に高位にタイとなり、従って、PE902の出力のうち少なくとも１個のものが確定される。
出力906はMUX910の選択ラインとして使用される。MUX 910には８個の入力912があり、それらに各命令のタグが付く。
これを理解するために、I7がI6およびI5に依存すると仮定する。I6の優先順位はI5より高いので、PE902の出力906に於いてI6に対応するビットはハイである。MUX 910の対応する入力912にはS1用のI6のタグがある（PE 902はI7S1の為のものである）。I7はI6に依存するので、I6の結果のロケーションは、I7が使用可能になるようにMUX910から出力しなければならない。従って、I6のタグが選択され出力ライン914に出力される。I6の済みフラグであるDONE[6]もまたMUX910から出力して、イシュア118が、いつI7の入力がレディーであるか分かるようにしなければならない。このデータはバス120を経てイシュア118に送られる。命令には最大３個までのソースがあるので、TAL122は各命令に対して最大３個までの依存性を監視し、各命令に関して３個のベクトル（合計２４個のベクトル）をイシュア118に送る。独立した命令の場合、TAL 122はその命令は直ちに開始できることをイシュア118に通知する。
RPMs 124に送られるタグ出力のMSBは、アドレスがレジスタ・ファイル・アドレスであるか、一時バッファ・アドレスであるかを通知するのに使用される。独立した命令の場合、５個のLSB出力はソース・レジスタ・アドレスを示す。依存性を持つ命令の場合、第２MSBはアドレスが64ビット・バルブのためのものであることを示す。第３から第５MSB出力は一時バッファ・アドレスを指定するものである。そしてLBS出力はどのバケットがレント・バケットであるかを示し、このバケットはTAL 122中のBKT信号に等しい。
DDC108と同じく、TAL 122は多数のインプリメンテーション依存（すなわち、特殊なケース）を待つ。先ず、本発明の一実施例では、レジスタ・ファイルのレジスタ番号０は常に０に等しい。斯くして、一つの命令がレジスタ０に書き込み、別の命令がレジスタ０から読み出すことがあっても、これらの命令間には依存性はない。各命令に関し、TAL122は命令解読論理（ILD、図示せず）から３個の信号を受け取る。これらの信号はその命令のソースの一つがレジスタ０であるか否かを通知するものである。それらのソースのうち一つでも確定されると、TAL 122はその命令のその特定の入力に関連する一切の依存性を無視する。
ある条件下で別の特殊なケースが発生するが、その条件とはバケット０中の命令がバケット１中のどの命令からも依存されないことが保証されているということである。BKT1_NODEP_と呼ばれる４ビットの信号がIEU制御論理（図示せず）からRPC 112に送られ、BKT1_NODEP[X]=1である場合、RRC112は命令４、５、６、または７と命令Xとの間の依存性を一切無視すべきものとして扱う。
命令７のソース１(I7S1)のタグ割り当ての一例を図６Ａ-６Ｂのフローチャートに示す。条件付きブロック602に示す如く、TAL122は最初にI7S1がレジスタ０であるか否かを決定する。I7の第１ソースオペランドがレジスタ０であるならば、タグはゼロに設定され、I7S1のINFOフラグもブロック604に示される如く１に設定される。I7の第１ソースオペランド(S1)がレジスタ０でない場合、条件付きブロック606に示すように、TAL 122は次にI7S1がI6S/Dに依存するか否かを決定する。I7S1がI6S/Dに依存する場合、フローはブロック610に進む。ここで、ブロック610に示すように、I7S1のタグは{1,DBLREG[6],0,1,0,BKT}に等しいように設定され、I7S1のINFOフラグはDONE[6]に等しいように設定される。条件付きブロック606でテストされた条件のうちどちらかが満たされない場合、フローは条件付きブロック612に進む。ここで、TAL122はI7S1がI5S/Dに依存しているか否かを決定する。依存性がある場合、フローはブロック616に進み、ここでTAL 122はI7S1のタグを[1,DBLREG[5],0,0,1,BTK]に設定し、I7S1のINFOフラグをDONE[5]に設定する。条件付きブロック612でテストされた条件が満たされない場合、フローはブロック618に進み、ここで、TAL 122はI7S1がI4S/Dに依存しているか否かを決定する。
図６Ａおよび６Ｂの残りの部分を一見すれば明らかな如く、I7S1がI4S/D、I3S/D、I2S/D、I1S/D、およびI0S/Dに依存しているか否かに基づいて、同じようなタグの決定が行なわれる。これをセクション620、622、624、626、および628でそれぞれ示す。そして最後に、命令７が命令０から独立しているか、あるいは条件付きブロック630でテストされるように、バケット１の全ての命令が命令０から独立しているならば（すなわち、BKT1_NODEP[0]=1であるならば）、フローはブロック632に進み、ここでTAL 122はI7S1をタグを{0,I7S1}に設定し、I7S1のINFOフラグを１に設定する。上記の例で留意すべきことは、I7S1タグ信号にはレジスタ・ファイル117のレジスタ・ファイル・ポートMUXesが直接送られることである。I7のS1入力がレディーになると、イシュア118に通知するためにI7S1 INFO信号がイシュア118に送られる。
図10にイシュア118の代表的ブロック図を示す。推奨実施例では、確保する必要のある各リソース（機能ユニット）ごとに、イシュア118はスキャナーブロツク1002を持っている。この例では、イシュア118はスキャナーブロックFU1、FU2、FU3、FU4、...、FUnを持っている。機能ユニットへの要求は既知の方法で解読論理（図示せず）によって命令情報から発せられる。これらの要求はバス123を経てスキャナーブロック1002に送られる。各スキヤナーブロック1002は命令I0からI7をスキャンし、そのサイクルでサービスされるように、対応する機能ユニットの最初の要求を選択する。
複数のレジスタ・ファイル（整数、浮動小数および／またはブール値）の場合、イシュア118は異なるレジスタ・ファイルに格納されたオペランドを持つ命令を発行することができる。例えば、ADD命令は浮動小数レジスタ・ファイルからの第一オペランド、および整数レジスタからの第二のオペランドを持つことができる。一般に、異なるレジスタ・ファイルからのオペランドを持つ命令は高い発行優先順位を与えられる（すなわち、これらの命令は最初に発行される）。この発行手法により、プロセッサの実行時間および機能ユニットのリソースの節約が可能となる。
IEU100に２個のALUが含まれている更なる実施例では、ALUのスキャンは更に複雑になる。実行速度を上げるために、１個のALUスキャナーブロックはI0からI7をスキャンし、もう１個のALUスキャナーブロックはI7からI0をスキャンする。このようにして２個のALU要求が選択される。この方法では、バケット０にあるALU命令の前にバケット１にあるALU命令が発行されることが可能であり、同時にスキャニングの効率の向上が計れる。
スキャナー出力1003はMUXing logic 1004によって選択される。MUX1004の１組のSELect入力1006はバス120を経てTAL122から３個の８ビットベクトル（各オペランドに１個）を受け取る。ベクトルは８個の命令のうちどれが依存性なしの命令で、発行可能な状態にあるかを通知する。イシュア118は命令を発行する前にこの情報を待たなければならない。イシュア118はこれらのベクトルを監視し、これら３個のベクトルの全てが特定の命令に対してハイになると、イシュア118はその命令がレディーであると関知する。必要な機能ユニットがレディーになると、イシュアはその命令を発行して、選択信号をレジスタ・ファイル・ポートMUXesに送り、対応する命令の出力をレジスタ・ファイル117に送ることができる。
本発明の推奨実施例では、イシュア118が済んだ後、イシュア118は各レジスタ・ファイルごとに２個の８ビットベクトルをRRC 112に返しMUXOUTputs1008を通してバス121に送る。これらのベクトルはこのサイクルでどの命令が発行されたかを示し、RPMs 124用のラインを選択するために用いられる。
各レジスタ・ファイルが同時に発行できる命令の最大数は使用可能なレジスタ・ファイル読み出しポートの数で制約されている。データ依存性に先行する未完了の命令があると、命令の発行が抑制されることがある。更に、必要な機能ユニットが別の命令に割り当てられていても、命令の発行が抑制されることがある。
ロード・イミディエイト命令、ブール値オペレーション、および相対的条件分岐のような幾つかの命令は他に依存せずに発行できる。なぜならば、レジスタ・ファイル読み出しポート以外のリソースを必要としない、あるいは依存性を持つ可能性がないからである。
RRC 112の最後のセクションはレジスタ・ファイル・ポートMUX(RPM)セクション124である。RPMs124の役割は、イシュア118がレジスタ・ファイル117からデータを取得して各命令が使用できるような方法を提供することである。RPMs 124はバス126を経てタグ情報を受け取り、RPMs 124用の選択ラインは121を経てイシュア118から、またコンピュータのIEU制御論理からも得られる。選択されたタグは、バス128を用いてレジスタ・ファイル117の所定の１組のポート119に送られる読み出しアドレスで構成されている。
RPMs 124の数とデザインはレジスタ・ファイルの数、および各レジスタ・ファイル上のポートの数に依存する。図４にRPMs 124の一実施例を示す。この実施例において、RPMs 124は３個のレジスタ・ポート・ファイルMUXes、402、404および406で構成されている。MUX 402はTAL 122によって生成されたソース・レジスタ・フィールドS1に対応する命令0-7のタグを入力として受け取る。MUX 404はTAL 122によって生成されたソース・レジスタ・フィールドS2に対応する命令0-7のタグを入力として受け取る。MUX 406はTAL122によって生成されたソース/行き先レジスタ・フィールドS/Dに対応する命令0-7のタグを入力として受け取る。MUXes 402，404，および406の出力はバス128を通してレジスタ・ファイル117の読み出しアドレス・ポートに接続される。
RPC112およびイシュア118によって、プロセッサは命令を同時に、しかもプログラムに依る順序とは別の順序で実行できる。本発明で使用されるIEUは同一承継人の、関連特許出願、米国出願番号07/817,810号（代理人整理番号SP015/1397.0280001）に開示されている。この開示はここに参照文献として含まれているものとする。
本発明の様々な実施例を上述したが、これらはあくまでも例であり、本発明を制限するものではないことは無論である。従って、本発明の範囲および広がりは上記の実施例で制限されるものではなく、下記の特許請求範囲およびそれと同等のものによってのみ定義されるものである。

Claims

読取りアドレス・ポートによってアクセスされるレジスタファイル及び一時バッファを有する命令実行ユニットを含むコンピュータ内での使用に適応させたコンピュータ命令セットを実行し、命令オペランドを記憶するためのレジスタ名称変更方法であって、該方法は、
（１）命令ウィンドウ内の命令相互間でのデータ依存関係を決定する段階と、
（２）決定した命令相互間でのデータ依存関係に基づき、他の命令の出力データとの依存関係がない命令のオペランドには、データ依存関係がないことを示す情報とレジスタファイルアドレスを有するタグを割り当て、
他の命令の出力データとの依存関係がある命令のオペランドには、依存関係があることを示す情報と前記依存関係のある命令の出力データが一時記憶される一時バッファのアドレスを有するタグを割り当てる段階と、
（３）各命令の前記タグと各機能ユニットに関する情報を参照して命令が発行可能か否か判断し、発行可能な命令を発行する段階と、
（４）前記タグの示すレジスタファイルのアドレスまたは一時バッファのアドレスに格納されているデータを読み出して命令を実行し、順序通りに実行された結果をレジスタファイルに記憶させ、順不同に実行された結果を一時バッファに記憶させる段階と、
によって構成されることを特徴とするレジスタ名称変更方法。
前記データ依存関係を決定する段階が、各命令のソースレジスタ・フィールドのアドレスを宛先レジスタ・フィールドのアドレスと比較する段階を含むことを特徴とする請求項１記載のレジスタ名称変更方法。
命令セットの実行が完了したあと、前記一時バッファ内の順不同の実行結果を順序通りにレジスタ・ファイルへ送る段階を含むことを特徴とする請求項１記載のレジスタ名称変更方法。
命令ウィンドウ内の命令の順序にもとづいて、前記一時バッファ内の前記実行結果を順序通りにレジスタ・ファイルへ転送する段階を含むことを特徴とする請求項１記載のレジスタ名称変更方法。
実行が完了した命令のグループを前記一時バッファから前記レジスタ・ファイルへ同時に転送する段階を含むことを特徴とする請求項４記載のレジスタ名称変更方法。
すべての先行する命令について実行が完了したとき、実行結果を前記一時バッファから前記レジスタ・ファイルへ転送する段階を含むことを特徴とする請求項５記載のレジスタ名称変更方法。
読取りアドレス・ポートによってアクセスされるレジスタファイル及び一時バッファを有する命令実行ユニットを含むコンピュータ内で用いるよう適応させた命令ウィンドウ内のＲＩＳＣ命令セットのためのレジスタ名称変更システムであって、該システムが、
（ａ）命令ウィンドウ内の命令相互間のデータ依存関係を決定するためのデータ依存関係検査手段と、
（ｂ）決定した命令相互間でのデータ依存関係に基づき、他の命令の出力データとの依存関係がない命令のオペランドには、データ依存関係がないことを示す情報とレジスタファイルアドレスを有するタグを割り当て、
他の命令の出力データとの依存関係がある命令のオペランドには、依存関係があることを示す情報と前記依存関係のある命令の出力データが一時記憶される一時バッファのアドレスを有するタグを割り当てるための手段と、
（ｃ）各命令の前記タグと各機能ユニットに関する情報を参照して命令が発行可能か否か判断し、発行可能な命令を発行する手段と、
（ｄ）前記タグの示すレジスタファイルのアドレスまたは一時バッファのアドレスに格納されているデータを読み出して命令を実行し、順序通りに実行された結果をレジスタファイルに記憶させ、順不同に実行された結果を一時バッファに記憶させる手段と、
によって構成されることを特徴とするレジスタ名称変更システム。
前記データ依存関係検査手段が、各命令のソースレジスタ・フィールドのアドレスを、宛先レジスタ・フィールドのアドレスと比較することによって、前記データ依存関係を決定することを特徴とする請求項７記載のレジスタ名称変更システム。
命令セットの実行が完了したあと、順不同の実行結果を前記一時バッファから前記レジスタ・ファイルに順序通りに送るための手段を含むことを特徴とする請求項７記載のレジスタ名称変更システム。